データを改竄した記事が技術系キュレーションメディアで配信される事象について考える

考察のきっかけとなったデータ改竄記事

とある技術系キュレーションメディアで「効果に違いはあるの!?iPhoneのメモリ解放アプリの実力を調べてみた」という記事が配信されていたので、それを読んでみました。
再起動した場合と、「iMemoryGraph」と「SySight」というiPhoneのメモリ解放アプリ2つの効果の比較記事です。

あまりにも分かりやすい改竄

一番最初に目についたのは、最初に掲載された表の赤枠の箇所でした。


この表を見た時は、「下町ロケット」の佃社長と同じセリフがでました。
「なんじゃこりゃ!」

まず一つ目におかしいのは、このiMemoryGraphの平均値が1114.5と、サンプルの中の最大の数値(834)より大きく上回っている点。平均して、大きくなるっておかしいでしょう…
二つ目におかしいのは、iMemoryGraphとSySightの効果の数値が、607.5と同じ値になっている点。双方の平均値がぴったり同じになるというのは、まずあり得ないことだからです。しかも、セルを結合して表示している時点で、データのまとめ方としてもアウトです。

※追記:
607.5という数値は、iMemoryGraphとSySightの双方で認識されたメモリ解放の量、それぞれ5つを全部足しあわせて、10で割った平均値だというご指摘を頂きました。
 しかし、そういう事をしてはいけません。
何故なら、iMemoryGraphとSySightは、異なるアプリケーションであり、いわば「物差し」が違うからです。
違うアプリで計測した値は母集団としては異なるため、同じ集団として扱い、双方のサンプルの値を合算して割って平均を出してはいけないのです。

これはおかしい…という事で、Excelに実際に数値を入れて計算してみました。
再起動前再起動後効果
iMemoryGraphSySightiMemoryGraphSySightiMemoryGraphSySight
1回目167211717764550553
2回目170209834783664574
3回目132174797771665597
4回目108151762800654649
5回目157197741782584585
平均値146.8188.4770.2780623.4591.6

実際の数値は、上記のようになります。iPhoneの再起動で解放されるメモリ量について、iMemoryGraphとSySightでは、平均だけを見ると認識される量に違いがあることがわかります。

ここで、「双方で認識される解放メモリ量に違いがある」となると、比較が出来ないと思ったのでしょうか。わざわざ、数値を修正し、どちらも607.5にしたのでしょう。

しかし、このサンプルの数は双方5つしかないので、この場合は「平均値の差の検定」を使ってテストした方が良いです。検定すると、この2つのサンプルの平均の差は誤差の範疇だと分かります。
ですから、改竄して数値を合わせる必要は無かったのです。

メモリ解放機能

次に、メモリ解放機能での数値です。

これもExcelに実際に数値を入れて計算してみました。

メモリ解放前メモリ解放後効果
iMemoryGraphSySightiMemoryGraphSySightiMemoryGraphSySight
1回目114167906932792765
2回目152200920951768751
3回目99148889936790788
4回目150197888933738736
5回目168212933951765739
平均値136.6184.8907.2940.6770.6755.8
これは、数値が合いました。

ちなみに、「平均値の差の検定」をしてみても、この差は誤差の範疇です。

ウィジェットを使ったメモリの解放

SySightには、ウィジェットでのメモリ解放機能があるそうで、そちらの効果をiMemoryGraphのメモリ解放の数値と比較した表が出ています。

この表の数値の改竄されてる箇所は以下のとおりです。


Excelに数値を入れて計算した結果は、以下のとおりです。
メモリ解放前メモリ解放後効果
iMemoryGraphSySightiMemoryGraphSySightiMemoryGraphSySight
1回目12115711071151986994
2回目17121411611211990997
3回目8714110411088954947
4回目144205114911681005963
5回目1361801195122410591044
平均値131.8179.41130.61168.4998.8989

正しい数値と比較すると、iMemoryGraphの実際の計算結果より少なくなるように改竄していあるのが分かります。「SySightの方が効果がありますよ」と主張できるようにするためでしょう。

いやらしいなと思ったのが、SySightの効果の平均値について、実際の平均値よりも少なくしている(989→975.25)ところです。

ちなみに、正しい方の数値で「平均値の差の検定」をしてみても、この差は誤差の範疇です。
つまり、2つのソフトウェアの間に効果の違いはありません。

数値の改竄による購入への誘導

この記事では、上記の数値を以って、「メモリ解放に一番効果があったのは、平均975.25MBだった『SySight』でした。」と結論付けています。

ちょっと待って下さい。iMemoryGraphは、ウィジェットを使ったメモリの解放のテストで、平均が983.75でしたよね…何故、少ない数値の方を引っ張ってくるの?


これらの数値は、結論を導くには使えない数値です。
結論から言えば、双方のアプリに性能の差はありません。
サンプル数5ですしね。もっとサンプル数が増えれば、差が見えてくるかもしれません。
この手の検証をするなら、双方20回はやらないと。


ちなみに、この記事では、双方のアプリへのリンクが貼ってあります。

iMemoryGraph
https://itunes.apple.com/jp/app/imemorygraph/id348567535?mt=8&uo=4&at=11l3Ib

SySight
https://itunes.apple.com/jp/app/sysight/id568731681?mt=8&uo=4&at=11l3Ib

このURLのQuery Stringのuo=4がはiTunesアフェリエイトリンクを指します。

iMemoryGraphも、SySightも日本人の方が開発されています。
iMemoryGraphは、無料で広告を消すのに120円で、SySightは120円課金です。

この記事は、iTuneのアフェリエイトプログラムのコミッションを得るのが目的なんでしょうかね…
それは良いんですが、数値をいじるのは…

※もしかしたら、「単純に計算間違いじゃないのか?」と仰る方もいらっしゃるかもしれません。しかし、特定の箇所だけ、計算結果が「間違っていて」、それがパターン化された複数箇所となれば、それはほぼ改竄です。

キュレーションメディアの課題

この手の「ノイズ」・・・正しくない、情報としての価値がないものをが、インターネットには溢れてきています。それをどのようにして取り除くのかが、Googleをはじめとする検索サービスの課題となっています。

同じ課題が、キュレーションメディアにもあります。
「真実は人の数だけあるが、事実は一つだけ」
という言葉があります。
「事実」を人が解釈すると、人それぞれの解釈から「真実」が生まれます。

メディアの役割とは、事実を確認して事実を報道する事だと思います。
昨今は、メディアが意見を持って、その意見に即した「真実」を報道することに重きを置いているように見受けられます。

しかし、自分たちの「真実」を優先し、「事実」の検証をおざなりにすると、人々の信用を失うことは、昨今よく言われる「マスゴミ」という表現や、どこぞの新聞社の読者数の激減という事象に現れています。

もしも、キュレーションメディアが、情報の真偽を吟味せずに記事を集めて提供するだけなら、そこに大した付加価値は無いでしょう。キュレーションメディアもより大きな存在価値を持つためには、集めた記事の内容が事実であるかどうかの検証する必要があります。そうでなければ、単なるノイズの拡散に手を貸しているに過ぎません。

「悪貨は良貨を駆逐する」という言葉でよく知られるグレシャムの法則があります。
これが、情報についても同じ法則があります。

1970年にアメリカの理論経済学者であるジョージ・アカロフが「The Market for 'Lemons': Quality Uncertainty and the Market Mechanism」(「レモン」の市場:品質の不確実性と市場メカニズム)という論文をQuarterly Journal of Economicsで発表しました。
その論文で出てきた「情報の非対称性」です。Wikipediaでは、以下のように書かれています。
情報の非対称性は、市場における各取引主体が保有する情報に差があるときの、その不均等な情報構造である。「売り手」と「買い手」の間において、「売り手」のみが専門知識と情報を有し、「買い手」はそれを知らないというように、双方で情報と知識の共有ができていない状態のことを指す。情報の非対称性があるとき、一般に市場の失敗が生じパレート効率的な結果が実現できなくなる。
 この情報の非対称性が存在する状況では、逆選抜が発生します。Wikipediaでは、以下のように書かれています。
情報の非対称性が存在する状況では、情報優位者(保持している情報量が多い取引主体)は情報劣位者(保持している情報量が少ない取引主体)の無知につけ込み、粗悪な財やサービス(レモン財)を良質な財やサービスと称して提供したり、都合の悪い情報を隠して保険サービスなどの提供を受けようとするインセンティブが働く。そのため、情報劣位者はその財やサービスに対して、本来の価値より過度に悲観的な予想を抱くことになり、もし情報の非対称性が無ければ売買が行われていたはずの取引の一部が行われなくなる。そして、市場で取引されるものは、悲観的な予想に見合った粗悪な財やサービスばかりとなる。これを、通常は良いものが選ばれ生き残るという『選抜』、『淘汰』の逆であるという意味で、逆選抜、逆淘汰と呼ぶ。
もしも、キュレーションメディアで配信される記事の質が低く、事実に即していなかったり、騙すような内容であった場合には、その記事で痛い目にあったり、事実ではないと知った人たちの期待が下がり、本来のキュレーションメディアの価値より低い期待を持つようになり、良質なキュレーションメディアの存在を期待しなくなってしまいます。

結果として、キュレーションメディア全体での読者数は減少していくのです。

それは、キュレーションメディアだけでなく、元記事を提供しているサイトも同様の結果に陥ります。

IT分野については、あまりにも変化が激しく、全てを把握することは難しく、専門的知識が必要となるため、どうしても情報の非対称性は発生してしまいます。
しかし、だからといって、人々の情報量の少なさにつけ込んで、事実に則さない内容の記事を書いて誘導するのは、情報の発信者として慎むべき行為です。

そして、メディアは、その発信する情報が事実であるかどうかのチェックをしなければ、自分たちの市場を失うのです。

以上から、キュレーションメディアは、記事を収集する先を決めたら、人手で内容をチェックして信用できるかどうか内容をチェックするようにした方が良いのではないかと思います。

コメント

人気の投稿