「データサイエンスのオススメ本 その④(番外編)」

フリーランスのデータサイエンティスト日記

 

5回目のエントリーになりました。

とりあえずテキスト紹介で走り出したこのBlogですが、あっという間にGLM(一般化線形モデル)に入ってしまいやや急ぎ過ぎたかなぁと感じたので、今回は前回までの振り返りをしながら少しペースダウンをして進みたいと思います。

 

あと、年末になり久しぶりに本屋さんに行ったところ「あれ、僕が紹介している本って全然置いてなくない?」と気づいてしまったのでそこらへんのフォローもしていきたいと思っています。Amazon全盛と言ってもまだまだ街の本屋に頼りにいくこともだろうし、誰もがジュンク堂八重洲ブックセンターの近くに住んでいるわけではないと思うので。

 

また、この一連のテキスト紹介エントリーは「データサイエンスはじめたばかりの人」や「これからデータサイエンスはじめる人」を主としたターゲットとして書いていたのですが、ピカピカの大学生や大学院生よりはどちらかと言うとすでに勤務している人を想定しています。そういう意味でいうと、限られた時間の中での良さげな学習環境・トレーニング環境についても少しずつ書いていきたいです。業務でバリバリでデータサイエンスしてるぜ!という方には不要かもしれませんが(いや、それでもたぶん)ほとんどの人にとっては勉強し続けることがまだまだ必要な業界(?)だと思います。

 

あとやっぱり、僕が紹介している本だとめっちゃ忙しい人(結構みんなそうだけど…)には少し時間がかかり過ぎる雰囲気があるので、簡易版みたいな学び方も少しずつ考えていきたいです。個人的には腰据えて教科書読むのが一番効率的だと思うのですが、どうしても時間がない…という人はどうしてもいるみたいです。

 

★★★

 

ところで、アメリカでは独立した統計学500以上設置されているのに対して、日本では今年(2017年)の4月から滋賀大学ではじめてデータサイエンス学部が設置されたました。評判はまだ詳しくないのですが、相当な生みの苦しみをもって誕生している学部だと思うので頑張ってほしいです。

  

www.ds.shiga-u.ac.jp

 

さて、僕は2回目のエントリー(「データサイエンスのオススメ本 その③」 – DataScientist’s diary)で「まずは概論を学ぼう」という趣旨でテキスト紹介をさせていただいたのですが、例えば時間がない人はこういう大学のシラバスやカリキュラムを参考にしてみると概論や必要な項目・順序がサクッと分かると思うのでお薦めです。

 

滋賀大だけではありません。ようやく流れになる統計系学部の波も一応フォローしておくと良いかもです。

 

横浜市立大学 www.yokohama-cu.ac.jp

 

滋賀大学が幹事校を務めるJINSE(統計教育連携ネットワーク)にも、各分野のカリキュラムや参照基準がありますのでご参考に。 

www.jinse.jp

 

残念ながら日本では統計学部・データサイエンス学部は今はまだほとんどありませんが、統計学やデータサイエンス、データ解析等の授業は様々な大学の様々な学部の中で提供されているので、うまくシラバスを活用すれば特定トピックの目的やテキストを授業期間(四半期か半期か通年か)とセットで知ることができて学習計画を多少時短にできるかもしれません。

 

変な表現ですが「オススメのシラバスは、やはり東京大学

東京大学授業カタログ

 

素晴らしい作りだし学問に対する思いのこもった記述も多く本当に重宝しています。こういう部分をザルでやらない所が東大ですよね。ちゃんとお金使えるのも羨ましいです。

 

東工大も素晴らしいです

www.ocw.titech.ac.jp

 

見ていただけると分かるのですが、結構なボリュームで講義ノート動画も公開されています。

 

今更な表現ですが、東工大以外でも講義ノートや動画の公開が世界的に進んでいるので、大学のWEBは社会人こそもっと活用すべきだといつも感じています。あと、英語の勉強にもなって一石二鳥なので海外の大学も是非チェックしましょう。フリーのOpenCourseも盛んです。

 

例えばデータサイエンスならMITのOpenCourseが便利です。

MIT OpenCourseWare | Free Online Course Materials

 

HarvardのCourse Catalogはコチラ

Harvard University Course Catalog Harvard University Course Catalog and Cross Registration

 

グローバル・スタンダードで学ぼう!とか肩肘張らなくても良いと思うのですが、単純に洋書(の教科書)の情報って貴重ですよね。

 

シラバスって考えようによっては大学の知的財産のような気もするのですが(言い過ぎか)、惜しげなく公開されているので惜しげなく利用させてもらいましょう。

  

★★★

 

大学の勉強(学部の勉強)を見下げる向きもあるかもしれませんが、理論の勉強は間違いなく大学の勉強なので、実務か理論かと2分法で考え過ぎずに参考にしてみた方が良いはずです。

 

実務が増えてきたらちょっと気持ち悪い運用はいやでも目にすると思います。たとえば独自スコアリングとかこんなことやっていいの?というようなガムシャラなアンサンブルモデルとかいずれ目にするはずです。ただし、ここで言う気持ち悪さはどちらかと言うと理論的検証(モデルの性質の詳しい調査)ができていないまま、時間とか能力とかいろんな人的限界のもとで、走ってしまっているという意味での気持ち悪さで、最近のちょっと胡散臭い「深層学習=ブラックボックス論」とはまったく違います。どちらかと言えば敗北宣言に近いです。どんなに恣意的な評価設計でも、どんなに非効率的なコーディングでも、どんなに場当たり的なルールベース・リコメンドでも、それはそれで走らなければ走らないという事態がマレにあるよ、という話です。でもそれはデータサイエンスに限った話ではないと思います。それにある意味で理論きちんと学んでいるから感じる気持ち悪さでもあるわけです。ちゃんと学ぶことはちゃんと役立つのでちゃんと大事です。なんのこっちゃ。

 

★★★

 

というわけで、急ぎの人は大学のWEBやシラバスを適宜参照しながら適当な割り振りを考えて必要知識を学んでいきましょう。ただ、やっぱりそこは大学の講義なので参考文献はやっぱり硬派なテキストが多いです。そういう意味では前段で書いた通り「読む時間ない」「置いてない」という問題はあるわけで、ここから最近の中規模本屋さんのテキストレビューを少し。

 

年末だし散歩がてら大型書店ではなくワンフロア型の書店さんをまわって参りました。年末は本屋さん行きたくなりませんか?ならないか…。

 

【オススメ本 番外編 年末の中規模本屋さんから~

今本屋さんの理工系のコーナーに行くと統計学機械学習の区分の中でまず見つかる本(シリーズ)と言えば、

 

『マンガでわかる統計学』  

マンガでわかる統計学

マンガでわかる統計学

 

 です。たぶん見たことある人多いはず。2004年出版なので、もう結構なロングセラーですね。このシリーズ、カバーはいい感じに可愛いキャラが飾っているのですが、実は中身は割としっかり書いてあります。しっかり書いてあるということは学問的誠実の観点では良いのですが、いかんせん漫画の意味が…(笑)「このテキストしか私には読めないだろう」とすがる思いを感じて手に取った人には読めない、という悲しい現実に僕は何度も出会ってきました。

セリフ(吹き出し)に行列計算が沢山入っているある程度しっかりな理系本です。高校理系数学の基礎力がある人(履修した記憶がまだ新しい人)であれば楽しめると思います。最近はBayes統計本まで出ているみたいです(僕はまだ読めてません。)

 

『マンガでわかるベイズ統計学  

マンガでわかるベイズ統計学

マンガでわかるベイズ統計学

 

 

漫画の取っ付きやすさをいかした分かりやすい記述のテキストとしては、

『マンガでわかるやさしい統計学 

マンガでわかるやさしい統計学 (池田書店のマンガでわかるシリーズ)

マンガでわかるやさしい統計学 (池田書店のマンガでわかるシリーズ)

 

ただし、内容はほぼ記述統計なので、まずは統計検定3級くらいを目指そうかなぁと思っている人にお薦めです。あと統計学と言えば推定・検定と反射的にイメージしてしまう方にも、あらためて記述統計の良さを認識するテキストとして良いと思います。データの見せ方や他者への説明方法とかってどれだけ高度な理論を学んでも迷い続けますよね。よい解説本はそこらへんの参考になることが多いです。

 

小島先生の漫画本も出ていました。僕は読んでいませんがファンの方は是非。

『マンガでやさしくわかる統計学 

タイトルが ちょっとずつ違いますね(笑)

 

あとよく見るところでは、すごく有名人な書き手のテキストシリーズがあります。まずは石村先生たちのシリーズ(沢山あり過ぎるので適当に紹介します。)

 

『すぐわかる確率・統計』 

すぐわかる確率・統計

すぐわかる確率・統計

 

 

『やさしく学べる統計学

やさしく学べる統計学

やさしく学べる統計学

 

学びはじめの頃に、一度は手に取ったことがある方が多いのではないでしょうか。 

記述がコンパクトですが、分かりやすくかつ手っ取り早く技を授けるという工夫がすごいです。ライトな数学に終始しているので、数学の学び直し中の人、数学に苦手意識が高い人がトレーニング本として読むと相性が良さそうです。データサイエンスからは少しズレますが、例えばブラック=ショールズ方程式を扱った以下のテキストは金融工学の入門書としても、数学から遠く離れた大人が大学数学へ再入門するテキストとしても素晴らしいと思います。 

 

『増補版 金融・証券のためのブラック・ショールズ微分方程式

増補版 金融・証券のためのブラック・ショールズ微分方程式

増補版 金融・証券のためのブラック・ショールズ微分方程式

 

※ちゃんと大学理系数学の記憶のある方にはあまりオススメしません。

  

理系ベストセラーのもう一方の雄が、涌井先生たちのテキスト。 

今書棚で一番よく目にするのはディープラーニングがわかる数学入門』

ディープラーニングがわかる数学入門

ディープラーニングがわかる数学入門

 

カバーを見みると「Excelで体感できるディープラーニング」と記載されています。すごい本ですね。本書に限らず、涌井先生たちのテキストは何かとExcel押しなので、Excelコアユーザーの方にはすごく取っ付きやすいと思います(もちろんExcelディープラーニングしよう、と呼び掛けているわけではなく、あくまで学習ソフトとしての位置づけで書かれています。念のため。)

 

Excelでスッキリわかるベイズ統計入門』  

Excelでスッキリわかるベイズ統計入門

Excelでスッキリわかるベイズ統計入門

 

ただ、Bayes関連の本は(詳しくはAmazonレビューに譲りますが…)あんまり入門になっていないような…と感じることが多かったです。好きな人は好きみたいですが…。

 

おそらく久保先生の緑本とか、岩波のデータサイエンスを読んだ方が大分スッキリすると思います。

 

『データ解析のための統計モデリング入門』

 

『岩波データサイエンス』

 

岩波データサイエンス Vol.1

岩波データサイエンス Vol.1

 

緑本は大型書店じゃないと置いていないかも。岩波データサイエンス、Bayes統計ならVol.1からですね。

 

 

数学よりですが、結城先生の数学ガールのシリーズも売れていますね。僕は大好きです。というか、結城先生の本こそ数学学び直しタスクにはピッタリな気がします。何気なく買って通勤電車で読んでいたら数学熱が再燃した、という人にも時々会います。なんで紹介しなかったんだろう。統計本ももちろん分かりやすく面白いです。

 

 『数学ガールの秘密ノート/やさしい統計』

 

  

もう少し大学本に寄って、大学数学への導入あるいは数学的演習のリハビリ本としての売れっ子を見ると、マセマのテキストがあります。最近本当によく見るようになりました。解説がとにかく分かりやすいですよね。いい感じに薄くてモチベーションを維持できそう、とにかく挫折しなさそうなところが素晴らしいと思います。高校数学(大学受験)のテキストも沢山出ているので、相性が良ければ高校数学から大学教養数学まで一貫した記述の中で学び直しができますね。

  

『初めから学べる評判の大学基礎数学確率統計キャンパス・ゼミ』

初めから学べると評判の大学基礎数学確率統計キャンパス・ゼミ

初めから学べると評判の大学基礎数学確率統計キャンパス・ゼミ

 

 

『スバラシク実力がつくと評判の統計学キャンパス・ゼミ』   

※高校数学のテキストは省略。いつの間にかめっちゃ増えてる!

 

 

西内啓さんの統計学は最強の学問である』シリーズもずっと元気なようです。最近「数学編」が出た模様。章立て見ると学び直し本な感じですが、読めていません。ただ僕の見たタイミングではAmazonで[確率・統計]カテゴリー、[数学]カテゴリーの[ベストセラー1位]のようです。みんな数学学び直しがしたいんだなぁ。2位以下も学び直しが多かったです。

統計学が最強の学問である[数学編]――データ分析と機械学習のための新しい教科書

統計学が最強の学問である[数学編]――データ分析と機械学習のための新しい教科書

 

  

あと、書店の定点観測だと『恋する統計学のシリーズが出ているのですが、僕は立ち読みしかしていないので何とも言えません。誰か教えてください。

恋する統計学[ベイズ統計入門]

恋する統計学[ベイズ統計入門]

 

 

統計本と数学学び直し本はこんなところかな。後半少し端折ってしまった(そして読んでいない本まで紹介してしまった…。)

 

あと言語で言うとPythonめっちゃ増えましたね。Rはどうなっていくんだろうか…僕はR大好きです。それとTensorFlow関連のテキストも少しずつ充実してきているようです。僕はふつうにチュートリアルとドキュメントで勉強しているのでそこまでフォローできていないのですが、以下のテキストは分かりやすかったです。

 

『詳解 ディープラーニング 

詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~

詳解 ディープラーニング ~TensorFlow・Kerasによる時系列データ処理~

 

  

Python本はまたまとめてエントリー書きたいのですが、入門としてはやっぱりこの2冊だと思います。 

 

『入門 Python3』

入門 Python 3

入門 Python 3

 

 

 『ゼロから作るDeep Learning

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

 

ここらへんはいつまでもO’REILLYが強いと思います。Pythonこれから始める人はまとまった時間が取れるお正月、チャンスですよ!

 

R本は、最近だと『みんなのR』がスタンダードなのかな。理論理論していない点と、ggplot押しの点が取っ付きやすいのですが、訳語はヘンテコなのが多いので注意です 

みんなのR -データ分析と統計解析の新しい教科書-

みんなのR -データ分析と統計解析の新しい教科書-

 

「Rで学ぶデータサイエンス」のシリーズとか使い勝手良いと思うのですが、置いてませんでした。

 

SQLならミック先生の本が僕は圧倒的にオススメです。以下2冊は中規模書店にも置いてあるはず。

 『SQL ゼロからはじめるデータベース操作』

SQL 第2版 ゼロからはじめるデータベース操作 (プログラミング学習シリーズ)

SQL 第2版 ゼロからはじめるデータベース操作 (プログラミング学習シリーズ)

 

 

『 達人に学ぶSQL徹底指南書』 

達人に学ぶ SQL徹底指南書 (CodeZine BOOKS)

達人に学ぶ SQL徹底指南書 (CodeZine BOOKS)

 

 

 

機械学習関連でいうと機械学習プロフェッショナルシリーズ」情報系の書棚に揃っていることが多かったです。この区分けどうなのだろうか、と一瞬思ったのですが、理工書とだいたい隣りくらいの位置関係だから問題ないかな。同シリーズだと、

 

『深層学習』  

深層学習 (機械学習プロフェッショナルシリーズ)

深層学習 (機械学習プロフェッショナルシリーズ)

 

 

がめちゃめちゃ売れましたね。深層学習の理論がコンパクトな記述で分かりやすくまとまっている名著だと思います。理論の入門書という趣で痒い所に手が届く本ではないし、特定の言語や環境をサポートしているわけではないので読んですぐ実装できる、というタイプの本でもないのですが、深層学習を学ぶ1冊目としては本当に素晴らしいテキストだと思います。

 

僕のおススメは

 『関係データ学習』

関係データ学習 (機械学習プロフェッショナルシリーズ)

関係データ学習 (機械学習プロフェッショナルシリーズ)

 

行列分解の様々なバリエーション と応用例が理解できます。

 

あとは、割と最近はじまった同規格の機械学習スタートアップシリーズ」

 

『これならわかる深層学習入門』 

機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)

機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書)

 

 

ベイズ推論による機械学習入門』 

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)

機械学習スタートアップシリーズ ベイズ推論による機械学習入門 (KS情報科学専門書)

 

2冊ともに分かりやすいです。データサイエンティスト採用されたばかりの人のトレーニング用に向いているかもしれません。

 

 

SPSSも相変わらず多いですね。SPSS本と言えば最近ようやくSPSS Modelerの解説本がでました 

実践 IBM SPSS Modeler~顧客価値を引き上げるアナリティクス

実践 IBM SPSS Modeler~顧客価値を引き上げるアナリティクス

 

Modeler導入されている現場の方は恵まれている環境だと思うので、テキストとセットで是非使い倒してください。宣伝ぽいな…。僕は割と楽しみに待ってました

 

★★★

 

今度は文庫本のコーナーから、理系文庫本と言えばちょっと前は岩波文庫の一部なイメージだったのですが、最近はちくま学系文庫のMath&Science(紫背表紙)が感動するほど素晴らしいです。数学・確率・統計本もラインナップ充実しています。そういえば、前回紹介した林知己夫先生の本もちくま学芸文庫でした。

 

『調査の科学 

調査の科学 (ちくま学芸文庫)

調査の科学 (ちくま学芸文庫)

 

  

 コルモゴロフの記念碑的著作も入ってます。

 

『確率論の基礎概念 

確率論の基礎概念 (ちくま学芸文庫)

確率論の基礎概念 (ちくま学芸文庫)

 

  

あとコレは必読応用数学夜話』 

応用数学夜話 (ちくま学芸文庫)

応用数学夜話 (ちくま学芸文庫)

  

ORの大家、森口繁一先生のテキスト。最適化とか線形計画法とかに馴染みのない方にすごくオススメです。最短経路問題をトロピカル代数で解く話とかも盛り込まれていて、数理モデルの奥行の深さを感じることができるはず。森口先生ご存知ないかといるかもしれませんが、岩波の『数学公式』作りの手1人です。 

微分積分・平面曲線 (岩波 数学公式 1)

微分積分・平面曲線 (岩波 数学公式 1)

 

  

イアン・ハッキングの科学哲学本もラインナップへ。

 

『表現と介入』  

表現と介入: 科学哲学入門 (ちくま学芸文庫)

表現と介入: 科学哲学入門 (ちくま学芸文庫)

 

データサイエンスには「サイエンス」という言葉が入っているのに、その割には携わっている人に「サイエンスする」という意識が微妙な人が多い気がしています(僕の周りだけかも…)。データ扱ってなんとなく数理モデルいじっているからサイエンスなのではなくサイエンスするからサイエンスなわけで、がむしゃらにモデルのためのモデルを作るくらいなら、データ使わないけどサイエンスしている人の方がよっぽど生産性が高いはずです。

 

じゃあサイエンスするって何かと言われると説明が難しいのですが、個人的にはファイマンのエッセイ読むのが一番良いと思います。これも文庫です。

 

 『ご冗談でしょう、ファインマンさん』

ご冗談でしょう、ファインマンさん〈上〉 (岩波現代文庫)

ご冗談でしょう、ファインマンさん〈上〉 (岩波現代文庫)

 

そして次点として科学哲学本も結構オススメです。とくにハッキングの本は「確率」とか「因果」とかを一度ゆっくり考えたい人には向いていると思います。伊藤先生の本とかマリアヴァン解析のテキスト読むだけが確率を真面目に考えるということではないはず。ただし確率論については、ハードカバーの以下のテキストがダイレクト。書店で売ってるかな…。

 

『確率の出現』 

確率の出現

確率の出現

 

 

ちくま学芸文庫に戻ると、似た趣旨ですが統計学的発想法という意味で、大家C.R.ラオ

 

統計学とは何か』

統計学とは何か ―偶然を生かす (ちくま学芸文庫)

統計学とは何か ―偶然を生かす (ちくま学芸文庫)

 

もオススメ。現実の不確実性と複雑性に立ち向かうサイエンスとしての統計学という観点を歴史的なエピソードや様々な領域の事例と共に学べます。数理的理論も実務や研究への応用と実践も哲学的な思索も滑らかに行き来する筆致はまさに大家。数理統計の教科書も素晴らしかったです。

 

★★★

 

今度は新書コーナー。理系新書と言えば今も昔もブルーバックスですね。

 

ベイズモデリングの新刊が好調の豊田先生の本が新書で読めます。

 

『違いをみぬく統計学

違いを見ぬく統計学―実験計画と分散分析入門 (ブルーバックス)

違いを見ぬく統計学―実験計画と分散分析入門 (ブルーバックス)

 

 

 『原因をさぐる統計学

原因をさぐる統計学―共分散構造分析入門 (ブルーバックス)

原因をさぐる統計学―共分散構造分析入門 (ブルーバックス)

 

 『違いを見ぬく統計学』は実験計画の入門書としてすごくオススメ。イメージとしてはフィッシャーの3原則とか聞いたことがない人が、本書1冊でデザインの視点に目覚める(かもしれない)本です。ただし、数学的ディテールはもちろんカットされてます。新書ですしね。同じく『原因をさぐる統計学』も共分散構造分析の使い所がよく分かる好著です。理論の詳細を学ぶ前に共分散構造分析がどんなものか知りたい方に、はじめの1冊としてオススメ。この辺りは書籍だと豊田先生が無双状態ですね。

 

『先を読む統計学 「情報量基準」とは何か 

先をよむ統計学―「情報量規準」とは何か (ブルーバックス)

先をよむ統計学―「情報量規準」とは何か (ブルーバックス)

 

売ってないかなぁ。売ってないかもしれません。ブルーバックス本の中でもとにかくオススメなのが本書。とにかくAICを使うに特化した本です。回帰モデルとかクロス表とか、初等的なモデルにバンバンAICを当てはめてグラフやその他指標と対照させていきます。自然にAICに慣れる本という趣です。

 

 

『データ分析 はじめの一歩―数値情報から何を読みとるか? 

データ分析 はじめの一歩―数値情報から何を読みとるか? (ブルーバックス)

データ分析 はじめの一歩―数値情報から何を読みとるか? (ブルーバックス)

 

こちらも良い本です。記述統計メインの本ですが、公的データを用いた事例ベースで全般展開しているところがユニーク。若干古い(なので使われているデータも古い)本ですが、今でも十分有用だと思います。

 

ブルーバックスの棚ラストは、 

 

『統計でウソをつく法―数式を使わない統計学入門』 

統計でウソをつく法―数式を使わない統計学入門 (ブルーバックス)

統計でウソをつく法―数式を使わない統計学入門 (ブルーバックス)

 

 世界中でベストセラーとなったあまりにも有名な元祖統計本。原著出版は1954年です。タイトルは実感シニカルですが、統計レポートとつきあう上での基本的な姿勢は今も学ぶところは多いはず。

 

統計学の(必ずしも悪意があるわけでない)誤用・乱用としては、新書ではないのですが、こちらの本も売れているようです。

 

ダメな統計学 

ダメな統計学: 悲惨なほど完全なる手引書

ダメな統計学: 悲惨なほど完全なる手引書

 

昨年は(2016年)はASA(AMERICAN STATISTICAL ASSOCIATION)のp値や有意性に関する声明も出たところなので、ASA声明と併せて読むと良いかもです。とくにこれから論文で統計学が必要な人は

 

The ASA’s Statement on p-Values: Context, Process, and Purpose

 http://amstat.tandfonline.com/doi/full/10.1080/00031305.2016.1154108?scroll=top&needAccess=true

 

あとブルーバックスに限らず新書には、こういう感じの統計リテラシーが多いですね。

 

『ウソを見破る統計学

ウソを見破る統計学―退屈させない統計入門 (ブルーバックス)

ウソを見破る統計学―退屈させない統計入門 (ブルーバックス)

 

 神永さんは『食える数学』でも有名ですね。クオンツがイケイケだった時代を見ている僕としては「食える」というのはちょっと消極的な表現ですがアレですが、中身は数学との接点の中で見る社会という趣の本です。とくに学生の方は、解析だ統計だ幾何だと選り好みせずに何でもやっておくと良いと背中を押されると思います。

 

『食える数学』

食える数学 (角川ソフィア文庫)

食える数学 (角川ソフィア文庫)

 

 

新書のリテラシー本を他2冊

 

『データはウソをつく』

データはウソをつく―科学的な社会調査の方法 (ちくまプリマー新書)

データはウソをつく―科学的な社会調査の方法 (ちくまプリマー新書)

 

 

『統計数字を疑う なぜ実感とズレるのか?』

統計数字を疑う なぜ実感とズレるのか? (光文社新書)

統計数字を疑う なぜ実感とズレるのか? (光文社新書)

 

こういう本こそ読み飛ばさずに使う姿勢が大切だと思います。どこかの誰かが出してきたレポートを疑うことは大切ですが、疑うだけなら簡単なはずです。確かめることには調べる手間が必要なわけで、その手間を惜しまないことがジワジワと経験値の差になっていくといつも思っています。

 

ブルーバックスから離れたので、その他の新書コーナーを見ます。今年はなんと言っても、

 

『データ分析の力 因果関係に迫る思考法 

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

 

素晴らしい名著だと思います。RCTからはじまり、(新書なのに!)不連続回帰モデルや集積モデル等の胆が分かった気になります。準実験としての社会政策という視点を持てることもそもそも効用大です。こういう本があると、計量経済モデルに興味を持つ人が増えると思います。僕的には今年読んだ新書(大した量読んでませんが…)の中でダントツに良かったです。お正月に是非!

 

光文社新書の統計本(兼、経済本)では、高橋洋一先生の

 

『統計・確率思考で世の中のカラクリが分かる』 

も有名ですね。統計「学」の本というよりは、社会派の本です。経済時評が好きな方は楽しめると思います。僕は(高橋先生の主張はどうあれ)随所で見える数学へのリスペクトと教養の広さが結構ツボです。

 

★★★

 

その他、今年のトレンドとしてAI関連の新書が大流行りのようです、「AIで仕事なくなる」関連の本と「AIでとにかく儲かる」本はちょっと今回の趣旨とズレるのでスルーします。前者は深刻な問題であり、後者はワクワクする話だと思うのですが、ビジネス雑誌と同様に書き手にあまり惹かれないです(こんなこと言う必要ないか…。)何でもかんでも詳しい人はいませんよね。

 

あとその他にもビジネス書コーナーにイケイケなAI本とか機械学習本が結構あったのですが、読んでいないのとしばらく読む予定がないのでスルーしてしまいました。G社とかでバリバリDeepな案件こなしている方々は別として、基本的にデータサイエンス的業務ってイケイケというよりはもっと裏方とかサポなイメージなんですが、皆さん実際はどうなのでしょうか…。あと余談ですが「東大」と「ハーバード」と「スタンフォード」と「マッキンゼー」と「外資系」が大人気ですね。

 

★★★

 

以上、中規模書店の書棚によくありそうな教科書と一般書の中間くらいの本をウォッチして紹介しました!

 

現実的な意味で言うと、ここで紹介したテキスト群については(どの単元をとっても)十分なボリュームのあるテキストはないと思います。ただ、導入本、学び直し本としては、素晴らしい本が多いなぁというのが率直な感想です。

 

なので「来年こそはデータサイエンス!」という方ならそんなに大きめな書店に行かなくても、駅ビル書店でまぁまぁ良いラインナップが期待できそうです。一方「データサイエンスやりたいぜ!」と言っている人がいつまでも入門書や啓蒙書ばかりを回遊している例も沢山見てきました。

 

超入門レベル・啓蒙レベルの本を何十冊も読むよりは(例えば東京大学出版の)教科書を時間をかけて読んだ方が良いと思います。WEB記事も同様で、特定トピックについて調べるのにはあまりにも充実している世の中になりましたが、それでも基礎部分は体系立てて順序立てて学んだ方が引き出しの負荷がかかりません。

 

上で紹介した著者の方々の本はお客さんが持っていることが多い、というのは重要なポイントだと思います。中規模書店の本棚の理系本≒非本業の人たちが手に取る本という部分もあることは覚えておくと良いかもしれません。お客さんが「ちゃんと勉強しようと思ってこの前本屋行ってさぁ」と掲げた本が、上で紹介したいずれかの著者のテキストであることは時々あります。 

 

【結び】

今回は本屋さん巡りの記憶を頼りにデータサイエンス関連の書棚レビューを行いました。今の時代、街の本屋さんに行く場面って欲しい本目当てというよりは、目当ての本がない状態でフラッと立ち寄ることの方がふつう(あればAmazonで買いますよね)だと思うのですが、ふらっと立ち寄った先で「そういえばアノBlogで紹介されてたな」とか思い出してもらえると嬉しいです。ちょっと無茶な企画な企画かもしれず、ヌケモレ沢山あると思いますがご了承ください。

 

普通の書店で手に取れる名著も沢山あるという事実は暇つぶしするにしても心強いですよね。なんというか、良い時代になったなぁという感じでした。ただやっぱり専門書は大型書店のある都心有利ですね。当たり前か。Amazonで買うにしても専門書単価を考えると中身見たいですよね。あぁ大きな書店がある街に住みたい…。

 

独立系ゆるゆるDS (@DS67517995) | Twitter

 

Source: DataScientist’s diary