科学検定

お知らせ

【科学ニュース】Excelが研究論文を台無しにする(ことがある)

スプレッドシート(表計算ソフト)のExcelが好きだという人は(ほとんど)いない。それでも多くの人は、Excelを使わざるをえないことがあるとわかっている。神の摂理によって免れている人もいるにはいるが、毎日使わなければならない人もいる。しかし科学に携わっていれば、ほとんどの人は使わざるをえない。科学の世界で仕事をしている人に最も嫌いな仕事は何かと尋ねると、プレゼンソフトのPowerpointに次いで、2番目にスプレッドシートがあがる。マイクロソフトは確かに、人気のある製品を作っている。ほとんどの人が気づいていないのは、科学界ではExcelを嫌う別の大きな理由があるということだ。

英ウェールズにあるカーディフ・メトロポリタン大学によると、Excel(およびその誤った使い方)は、研究論文に入り込む数多くのエラーの原因になっているという。

研究チームは、ニューカッスル大学神経科学研究センターの博士(PhD)から上級研究員まで17人について調査した。17人の中にMicrosoft Excelについて正規のトレーニングを受けた人はいなかったが、大多数がスプレッドシートのスキルは「中程度」と答えている。参加者の71%が、自分は“独習”のExcelユーザーであると述べていた。

スプレッドシート上の元データおよび結果をピアレビュー(専門家による審査)にかけたことがあるか聞いたところ、「はい」と答えたのはわずか20%だった。ほとんどの参加者は、自分自身で検証するか、まったく検証しないと答えていた。

これは、少なくとも神経科学分野においては、ほとんどの研究者が自身のExcelスキルを過信していると結論づけること研究チームに促した。この研究は、プレプリントサーバー(正式公開前の論文が掲載されるWebサイト)arXivに投稿されたサンプル数も少ない非常に小規模な研究ではあるが、科学界には影響が広がっているらしい。

遺伝子に関するデータを扱う場合に、スプレッドシートがどれほどの混乱をもたらしうるかをまとめた報告があがっている。Excelはデフォルト設定のままだと、遺伝子の名前を表す文字列が日付や浮動小数点数に変換されてしまうことがわかっているが、あまり広くは知られていない。

2016年8月にGenome Biology誌で公開されたこの研究では、「補足データの遺伝子リストをExcel形式で付している研究論文の5分の1で、遺伝子名が誤って変換されているのが見つかった」としている。例えば、セプチン4を表す遺伝子名「SEPT4」は、Excelでは「September 4(9月4日)」と解釈される。Excelはまた、「2310009E13」のような科学的記数法による数値を誤って認識する傾向がある(これは「2.310009×1019」と読まれなければならない)。

別の研究では、スプレッドシートによる誤りを次のように結論づけている。

「第一に、スプレッドシートの誤りはセル単位では珍しいが、計算結果の値に少なくとも1つ誤りが存在する可能性は高い。第二に、誤りは発見して修正するのがきわめて難しい。第三に、スプレッドシートの開発者と販売会社は製品の精度に過剰な自信を持っている。第一・第二の結論と第三の結論の間の乖離は、人間の認識が機能する方法によるものと考えられる。最も重要なのは、われわれは自分がおかす誤りをほとんど認識していないことだ。さらに、自分が修正した誤りは誇らしく認識しながら、誤りがどれだけ残っているかは気にとめず、リトル・ジャック・ホーナー(※)のように誤りを見つけ出す自分の能力に自分で感心しているだけなのだ」。

では、どうすべきなのか? Excelがセルをどのように解釈してデータをどのように扱うかを正しく認識していれば、問題の多くを回避できる。しかし、Excelを使うことにうんざりしているなら、マニュアルをきちんと読む必要がある。あるいは、科学者は自分の分野によりふさわしい別のスプレッドシート・ソフトを習得するのがよいだろう。

※リトル・ジャック・ホーナー:マザー・グースの一篇。クリスマスのパイに指を突っ込んでプラムを取り出し、「ぼくってお利口さん」と悦に入る男の子を描いている。

【情報ソース】

Proceedings of the EuSpRIG - A Pilot Study Exploring Spreadsheet Risk in Scientific Research
https://arxiv.org/abs/1703.09785
arXiv:1703.09785

Genome Biology - Gene name errors are widespread in the scientific literature
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1044-7
doi.org/10.1186/s13059-016-1044-7

Proc. 16th EuSpRIG Conf. "Spreadsheet Risk Management" - What We Don't Know About Spreadsheet Errors Today: The Facts, Why We Don't Believe Them, and What We Need to Do
https://arxiv.org/abs/1602.02601
arXiv:1602.02601

ZME Science - Excel spreadsheets might be ruining science for everyone
http://www.zmescience.com/science/news-science/excel-errors-science-0453543/

facebooktwitter広告2