データサイエンティストに興味が湧きました!どうすればなれるのか教えてください!
今回は一人前のデータサイエンティストへのロードマップを徹底解説します!
現在新社会人でデータサイエンティスト兼SEとしてお仕事しているukachee(@ShakeKawa)です!
この記事では、以下のような方などを対象としています!
- 未経験や新卒でデータサイエンティストになろうと考えている方
- 過去に統計やPythonはやったことがあるが、本格的に目指してみようと考えている方
- 何を勉強をしていけば良いのか模索している方 etc…
- 筆者はデータサイエンスに従事し始めて4年目
- データ分析企業で1年間の実務経験、教育経験あり
- データサイエンス専攻であり修士号を保有
データサイエンティストに必要なスキルは?
データサイエンティスト協会では「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」と定義しています。
この文章を具体的にすると、
- 「データサイエンス力」・・・統計学や機械学習の理論を利用する力
- 「データエンジニアリング力」・・・収集した膨大なデータを加工、抽出、集計を行う能力
これらの力が必要だと言えます。
さらに、直接的には書かれていませんが、「ビジネス課題に答えを出す」という部分にはビジネス力も必要だということが隠れています。
以上の必要なスキルをまとめると以下のような図になります。
では、それぞれの力でどういったスキルを身につければ良いのでしょうか。
代表的なものは以下のようなスキルです。
- データサイエンス力:統計学、機械学習、ディープラーニング
- データエンジニアリング力:Python(Pandas, Numpy, scikit-learn, Matplotlibなど)
- ビジネス力:ロジカルシンキング、問題解決力、説明力
これら全ての力が求められ、最初はバランス良く身につけていくことが必要です。
必要なスキルがわかったところで、次から具体的にロードマップを示していきます!
データサイエンティストへのロードマップ
では、データサイエンティストになるためには、どのような手順が必要なのでしょうか。
現役データサイエンティストとして最もおすすめな勉強手順は以下のような流れです。
- 自分に足りないスキルを把握
- Pythonに触れる
- 統計学を学ぶ
- 機械学習を学ぶ
- 評価される目標を立て、達成する
- 仕事を取りに行く
具体的に以下で解説していきます。
ステップ①:自分に足りないスキルを把握
データサイエンティストは他のエンジニアなどに比べ、多くのスキルが求められる職業なので効率良い勉強が必要です。
データサイエンティストに必要なスキルについては上で挙げたので、その中で自分の足りないスキルは何か把握しましょう。
足りないスキルを意識しながら勉強していくことで、その部分は重点的に勉強し、それ以外は軽く目を通すようにするといったように効率的に勉強を進められます。
筋トレでも使っている筋肉を意識しながら行うことで効率的に鍛えられるように、データサイエンスの勉強でも同じことが言えます。
ステップ②:Pythonに触れる
どの順番で勉強していくべきかはデータサイエンティストによって分かれますが、僕はPythonから触れていくことをお勧めします。
なぜなら、データを扱う以上プログラミング言語を使うことは避けて通れないからです。
これは僕の体感ですが、
- 「データサイエンス力はないが、データエンジニアリング力がある」場合は仕事は取れますが、
- 「データエンジニアリング力はないが、データサイエンス力がある」場合は仕事はほぼ取れない
と思います。
つまりPythonでつまづいてしまうor 全く面白いと思わないならデータサイエンティストになるのは難しいです。
なので、まずはPythonに触れて適性があると思ったら、次のステップに進むことがお勧めです。
でも、何を使って勉強すればいいの?
全くプログラミングをしたことない方は、プログラミングのわかりやすさに定評があるTechAcademyがオススメです!
TechAcademyは受講生に1人ずつ現役のプロのパーソナルメンターがつくなど未経験でも安心な手厚いサポートが魅力です。
一方で、TechAcademyはサポートなどが充実している分、受講料が高くなってしまうことがデメリットです。
TechAcademyは以下のような方には特にオススメできます。
- 未経験でも確実にデータサイエンティストになりたい方
- 独学で勉強することが苦手な方
- お財布に余裕のある方
無料体験もできるので、ぜひ検討してみてください!
お金をかけたくない、独学で勉強したい人にはPyQがオススメです。
PyQはPythonに特化した学習プラットフォームで、1ヶ月約3000円から始められ、Pythonの基本構文からデータ分析までPythonについてはほとんど網羅しています。
また、サイト内でコードも書くため、自分のPCで環境構築をしなくても良い点も初心者に優しい点です。
ですが、学習をサポートしてくれる人はおらず質問をすることはできないので自力で進めていかなければなりません。
サポートが欲しい場合は約8000円のサポート付きプランもあるのでそちらも検討すると良いでしょう。
PyQがオススメな人は、
- 独学で何かを学ぶことに慣れている方
- 学習のコストを抑えたい方
- 自力で解決していくことができる方
です!
PyQについては、以下の記事で詳しく解説しているので、よかったら読んでみてください!
また、以下のUdemyの講座も統計学を学びつつ、Pythonにも触れられ一石二鳥なので特にオススメです!
ステップ③:統計学を学ぶ
Python面白い!楽しい!
と思い始めたら、次は統計学について詳しく学んでいきましょう。
統計学は「科学の文法」と呼ばれるほど重要な学問です。
統計学を身につけることで、データを客観的に判断できる能力を身につけることができます。
書籍で学ぶ場合は、最初は以下がオススメです。
こちらの本は統計学の全体像を掴むには最適です。
1つ目よりももうちょっと詳しく学びたい方はこちらの本を読むと良いでしょう。
書籍で勉強するのは慣れてない…
という方は、Udemyを使って学ぶと良いです!
先ほど挙げたUdemyの講座はPythonで実装しながら学べます。
ステップ④:機械学習を学ぶ
機械学習とは、データを分析する方法の1つで、データから、「機械」(コンピューター)が自動で「学習」し、データの背景にあるルールやパターンを発見する方法。(出典:NRI 機械学習)
いわゆるAIとは機械学習のことを指していることが多いです。ディープラーニングも機械学習の一分野になります。
統計学と機械学習の大きく違うところは、統計学はデータを「説明」することを重視しており、機械学習はデータを「予測」することを重視している点です。
例えば、あるクラス全員の身長データがあるとき、統計学では「なぜクラス内の生徒の身長に差がついている要因は何か」を追求していくのに対して、機械学習では「クラス全員の身長をうまく予測するにはどのようにすればよいか」を考えていきます。機械学習はうまく予測できる理由の妥当性に関しては求められていません。
なので、機械学習は予測がうまくいっているが、その理由がわからない「ブラックボックス」であることが問題視されています。
機械学習は本で勉強するとなると、線形代数や行列といった高度な数学の知識が必要になるのでPythonで実装しながら学ぶのが最も効率的です。
ステップ⑤:評価される目標を立て、達成する
ここまでの勉強をすれば一通りデータサイエンティストとしての講座は勉強したことになります。
勉強するだけでは他の人からどれくらいデータサイエンティストとして優秀なのかを示すことはできません。
なので、「資格取得」や「データ分析コンペで受賞」といったデータサイエンティストとして箔が付く目標を立てましょう。
データサイエンス系資格取得
代表的な資格はこれらなので、自分の取りたい資格を探し目指してみましょう!
統計検定準1級に関しては、当サイトで勉強方法を紹介しているので興味があればご覧ください。
データ分析コンペティション
データ分析コンペとは特定の課題に対して機械学習や統計学などの手法を用いて分析し、予測精度を競う競技会です。コンペは競争という意味のコンペティション(Competition)の略です。
分析コンペについては、以下のコンペがあります。
サイトによりますが、上位10%に入るといった条件でメダルを獲得でき、メダルを持っていることをアピールするとデータサイエンティストとしてかなり力を持っていることを示せ、就職にも有利に働きます。
ステップ⑥:実務で使用する
成果だけが全てではないですが、成果を残している人は勉強もできアウトプットもできる素晴らしい方です。
最後に実務で使用するために、
- 学生であれば長期インターンへの申し込み
- 社会人であればデータサイエンスの部署への交渉や転職
を考えてみましょう。
ここまで来たあなたであれば必ずデータサイエンティストとして働くことができると思います。
データサイエンティストの採用担当によると、今は特にデータサイエンティストが枯渇しているのでなるなら狙い目です!
よくある質問
統計学、機械学習、Python以外も勉強すべきか?
案件や目指す方向など必要に応じて勉強すれば結構です。
データサイエンティストで最も重要なのは、データから有益な情報を得たり、モデルを作ることだからです。
ちなみに、よく求められるスキル・言語は、SQL, Git, AWS, Azure, GCP, Tableauなどです。
Pythonのライブラリではディープラーニング系のPyTorch, Tensorflowが求められがちです。
興味のある方は調べてみてください!
統計学、機械学習の数理の勉強は必要か?
数理とは数学の理論のこと、つまり統計学・機械学習の数学的理論のことです。
この議論はよくされがちなのですが、僕は絶対に必要だと思います。
なぜなら、数理の理解がないと不適切にデータサイエンスを振り回すことになりかねないからです。
大抵のデータサイエンティストは数理を理解で躓きます。
その結果、ネットで公開されている数理の記事は間違いだらけのものが多いです。
(イメージを掴むために簡略化しているものもあると思いますが、、、)
間違った知識をインプットしないためにも数理の勉強においては「ビジネスで成果を出している人の本」ではなく、「学術的に評価されている人の本」を使いましょう。
具体的には、有名大学の教授や多く引用されている論文を書いている著者の本を探しましょう。
データサイエンティストへのロードマップ:まとめ
今回紹介したロードマップはあくまで一つの提案であり、これをやれば完璧というわけではありません。
最後にもう一度復習しておきましょう。
【ロードマップ】
ステップ①:自分に足りないスキルを把握
ステップ②:Pythonに触れる
ステップ③:統計学を学ぶ
ステップ④:機械学習を学ぶ
ステップ⑤:評価される目標を立て、達成する
ステップ⑥:実務で使用する
【勉強方法】
サポートを受けながらスクール形式で学びたい人:TechAcademy
独学で学びたい人:PyQ
ぜひ参考にして、凄腕のデータサイエンティストを目指してくださいね!
そして、大学生向けにデータサイエンティストになるための就活戦略の記事も書いているので、大学生の方はチェックしてみてください!
実際に自分の経験談をもとに書いています!
コメント