2007年12月21日

O'Reilly Statistics Hacksについて

この本、O'Reilly本家で昨年(2006年)の5月1日に刊行されたものの日本語版である。

訳者は鴨澤眞夫さん。同じO'ReillyのPython クックブック第2版を訳した人である。
私はこのクックブックを某解析ソフトウェアのお勉強用に購入したのだが、読みやすく、素晴らしい本だったと記憶している。

さて、話を戻してStatistics Hacksについて。

この本は O'ReillyのHACKシリーズ、しかも統計となれば食指がひくひくする種のオイシイ香りがしてくる本なのだが、少し気になるところがある。

それは、Amazon(米)のStatistics Hacksの販売ページにおいて、レビューが示されているのだが,

その中のS. Davisという方が言うには、書き始めの10ページにすでに統計を少しかじった人であればわかるだろう誤認が2つも含まれている、というのだ。

引用すると,

# O'ReillyのStatistics Hacksの記述では
Page 5:
"The mean will be close to some scores and far away from some others,
but if you add up those distances, you get a total that is as small as possible."

# S.Davis氏のこれに対する記述
Wrong. The mean minimizes the sum of SQUARED distances;
the MEDIAN minimizes the sum of the distances. Hand-waving on the next page apologizing
for how complicated the formula for the standard deviation is because
"there are some mathematical complications with summing distances" would suggest to me
that the omission of "squared" on page 5 was not a mere typo or a misguided attempt at simplification.


O'Reillyの書籍によれば、平均値は距離の和を最小にするものだ、としているが違う。
平均値は距離の自乗和を最小にするのだ。
これについては、氏はたいした問題ではないだろうとしている。
まぁ概念を伝えるのが大上段で、微細な誤りは問題そんなにないだろうし。

次に指摘しているのは加法定理についてのStatistics Hacksの記述についてだ。

Independent(独立)とMutually exclusive(背反)についてごちゃまぜにしてない?という指摘である。


page 10:
"Additive rule: the probability of any one of several independent events occuring is
the *sum* of each event's probability." [Emphasis on "sum" is the book's, not mine.]

This isn't just plain wrong; it's cringe-inducingly, forehead-slappingly wrong.
The additive rule is for any one of several mutually exclusive events occuring,
and independent pretty much implies *not* mutually exclusive
(the annoying corner cases being those where some events under consideration are completely impossible anyhow).
The rule for one of several independent events occuring is more complicated;
for example, the probability of a fair coin coming up "heads" on
either its first or second flip is obviously not 1,
as the author's statement would ridiculously imply, but rather 3/4.


加法定理は"あるイベントが起こる確率はそのイベントに含まれる起こりうる全ての場合の確率の和に等しい。"というもの、

指摘者の言う mutually exclusiveという言葉を使うと、
"相互に排他的(mutually exclusive)なイベントのどちらかが起こる確率はそれぞれのイベントの起こる確率の和に等しい"
というものらしい。


独立と相互排他的(背反)は一般に関係はないことについては、解説を
"関係ある?ない?(確率の講座(9))"
にお任せするとして、Davis氏の評価を見ていると
O'Reilly Statistics Hacks本はそんなに厳密ではない記述がされているよーなきがするのですよ。

そして、今回出る日本語版の先頭部分を、サンプルPDF (pdf)で見ることができるのだが、この誤りは修正されることなく、そのまんま訳されている。

鴨澤眞夫さんは訳に誤りないことが仕事なので仕方がないと思うが、O'Reilly(日米)の編集はAmazon(米)で2006年の11月ごろ (一年前ですよ) に指摘されていたのに放置してそのまま出してしまったのだろうか。

だとすると少し残念だ。


統計という気持ちの良い言葉にだまされちゃダメで慎重に使わないと危険なツールという戒めは、ここ数十年で何度も聞いてきたが、この本も安易に気持ちの良い本になっている気がしなくはない。


ここまで書いといてなんですが、厳密には過ちも有るものの、統計の基礎体力のある人にとってはEntertainmentとして楽しめる本になっているのかなとも思う。
"Excellent explanation of statistics for "normal" people" (Elihu D. Feustel "daringly" さん曰く)

買うと思うけど、多分書店で立ち読んでチェックしてからだろうな。
posted by jitterbug at 00:13| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。
この記事へのトラックバックURL
http://blog.seesaa.jp/tb/73822069

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。