ビッグデータ、主にGoogleの検索履歴を分析すると、色々なことがわかってくる、という本です。
だいぶ前に「欲しいものリスト」に入れたものを図書館で借りて読みました。

それはもう色々な事例が載っていて面白かったのですが、中でも興味深い話をいくつか。
現代アメリカ(2017年)の黒人差別の実態。
今日、黒人嫌いを表立って口にする人は少なく、アンケート調査等でも人種差別はかなり減っています。
ところが、Googleの記録では、「nigger(黒んぼ)」という語句の検索数は少なくありません。
しかもその多くが「stupid niggers」「I hate niggers」といったもの。*1
一般に、黒人差別が根強いのはアメリカ南部、特に共和党支持者の間だとされます。
しかし、筆者曰く、
だが人種差別的な検索の多発地帯には、ニューヨーク州北部、ペンシルベニア州西部、オハイオ州東部、ミシガンの工業地帯やイリノイの農村地帯、さらにはウエストバージニア州やルイジアナ州南部、ミシシッピ州などが含まれている。
だがミシシッピ州でも西部では、こうした傾向はあまり見られない。
グーグルの検索データが示唆するところによると、真の分裂は、南対北ではなく東対西なのである。

(州の名前を聞いてわかるような教養はないのですが上の地図がわかりやすかったです。引用元:アメリカの州がよくわからない(第4回) - チラガー様の部屋)
そして、民主党の大統領選候補者選挙では、人種差別的な検索が多い地域ほど、オバマより対立候補のジョン・ケリーを支持する傾向にあったのです。
つまり、民主党員も差別的傾向を持っている。
「私の研究は当初、5つの学術論文誌に却下された。(中略)だがドナルド・J・トランプが大統領に就任するのを目撃した今、私の研究成果はいっそう正しかったように思われる」
そして、2回目の当選を果たした今……。
後の調査によると、トランプ支持率が高い地域は同時に、「nigger」で検索する人の多い地域であったとのこと。おお……。
膵臓がんの予兆。
「膵臓がんと診断された」「膵臓がん 予後」のような検索をした人(つまり、膵臓がん患者らしき人)が、その前に何を検索していたか。
まず「腰痛」。その後に「肌の黄ばみ」と検索した人は、その後、膵臓がんが判明することが多い。
「腰痛」だけの人は膵臓がんではない。
「消化不良」→「腹痛」と検索した人も、膵臓がんが判明することが多い。
「消化不良」だけの人はそうではない。
「多い」というのはおよそ5%~15%で、まあそこまで高い割合ではありません。
しかし膵臓がんの早期発見は、重要かつ困難なので……。
同性愛者人口。
アンケート調査によると、アメリカでは、同性愛に寛容な州には同性愛者が多い傾向にあります。(本文中では「ゲイ」なので、男性を指している)
最も寛容なロードアイランド州には、最も不寛容なミシシッピ州の2倍の同性愛者がいる……という結果がアンケートでは出ています。
しかし、Google検索を見ると、ポルノを検索した人のうち、「ゲイ + ポルノ」などの用語で検索した人は、ロードアイランド州では約4.8%、ミシシッピ州では5.2%と、ほとんど差がありません。
一方、2倍の差があるのは、「ゲイ・テスト」(自分がゲイかどうか診断するテスト)の検索結果で、ミシシッピ州の方が2倍多いのです。
つまり、不寛容な州では、「自分がゲイだと認めたくない」という同性愛者が多い。つらそう。
また同時に、「私の夫はゲイか?」と検索する女性も、不寛容な州ほど多いのだそうです。それもつらい。
(全体として、「夫が同性愛者では?」と心配している女性は、「浮気しているのでは?」と心配している人より多いのだとか)
ちなみに、なんで「ゲイ」限定なのかというと、「女性は異性愛者でもレズビアンポルノを見る傾向にあるから(女性のポルノ検索の20%が同性愛もの)」だそう。考えさせられる。
不況と児童虐待。
2007年の「グレートリセッション」*2で、児童虐待が急増するのでは、と心配されました。
しかし、この期間、児童虐待の保護件数はかえって減少しました。
しかも、景気後退の打撃の大きな州ほど、件数が減少したのです。
……おかしい。
筆者の調べによると、グーグル検索では、「ママがぼくをぶつ」「パパに殴られた」などの検索数が、その期間急増しており、それは各地域の失業率データと一致していたのです。
このような不一致が起きた理由について、筆者は、
「虐待事例を報告したり対応したりする、教師や警官、児童保護当局者などが、この期間には仕事に忙殺されていたか、本人が失業していたために、適切に報告されなかったのではないか」
と推測します。
今のアメリカは大丈夫なのかしら……? 「政府効率化省」……。
借金を返さない人。
融資申し込みの文面に、以下のような言葉が含まれている場合、その人は返済を踏み倒す可能性が平均より高い。
「神(god)」「約束します(promise)」「お返しします(will pay)」「ありがとうございます(thank you)」「病院(hospital)」
逆に、返済する可能性が高い人の使う言葉は、
「負債なし(debt-free)」「最低支払額(minimum payment)」「低利率(lower interest rate)」「学卒者(graduate)」「税引き後(after-tax)」
最低限のマネーリテラシーがある人は、「借金を返すと約束します」と言う人よりちゃんと借金を返す、という話。
一方で、神に言及する人は借金を踏み倒す可能性が2.2倍になるとか。ヤバい。
ただ、これは、ビッグデータの倫理的な問題を指摘する章にある事例です。
統計的には上のような事実があるとしても、
「妹の入院費用が必要なんです」
と語る人への融資を、その文面を理由に拒否するようなことがあっていいのか? という。
全部書いてたらキリがないので後は箇条書き。
・「次元の呪い」(この本では、「少ないサンプルに対して多すぎる変数を調べると、『AとBには明らかな相関がある』という幻の相関関係を見いだしてしまう、という話。「SNSから株価変動の予兆を見いだす」「転載に共通した遺伝子」などの例が)
・イスラモフォビアを低減するため、オバマが行った2回の演説の異なるアプローチとその効果
・書き間違いには性的抑圧が現れるのか
・自分のペニスが小さいことを悩んでいる男性はとても多い。それを悩んでいる妻はほとんどいない(ペニスのサイズについて検索する女性は男性の1/170で、その4割は「大きすぎて痛い」)。
・中絶の取り締まりを強化すると何が起きるか(これは想像するだに怖い話だった……。「中絶 + ハンガー」とか……)
・企業がユーザーの感情を操作しようとする危険性
ともあれ。
オーウェルの「1984年」では、党はテレスクリーンを通じて国民を常に監視しています。
もちろん、実際それをやるのは途方もない人員が必要であり、実現は不可能でしょう。(そして、誰が見張りを見張るのか?)
しかし、ネット上の行動を統計的に解析するのは無人で可能です。
ビッグデータ解析という形で、「Big Brother」は実現可能なのかも……あるいは一部の地域・分野ではすでに実現しつつあるのかも知れません。
願わくば、データが明らかにする「人間の本性」への理解が、人々の幸福度を高めるような方向に活用されますように。(オバマの2回目の演説のように)