「標準的には1回の稼働(ラン)で、1試料につき数10ギガのデータが出てきます。最初は画像データなんです。1カートリッジに8レーンで、カートリッジは2つなので、16倍すると、それだけでテラバイト近いデータになりますね。塩基配列が分かった後の段階で、文字列の情報になっても600ギガバイトです」

 清水さんはその場で計算してみて、この膨大さにあらためて感じ入ったようだ。たしかに、4種類だけの文字列で600ギガバイトというのは驚異的だ。例えば、紙の本にすると20冊以上になるオックスフォード・イングリッシュ・ディクショナリー(OED)は、かつて1枚のCD-ROMとして売れられていた(現在、電子版はウェブのみの提供のようだ)。つまり、「メガ」の世界。それなのに、ここでは「ギガ」「テラ」なのだから情報の膨大さは半端ではない。まさにビッグデータであり、分析のために専門家が必要なのはこの時点で明らかだ。

 なお、こういったデータは紛失をさけるためにデータの保管業者にバックアップを頼むそうなのだが、その際の納入方法は「ハードディスクごと」だそうだ。またさらに膨大な「生データ」(センサーが吐き出した解釈される前の画像データ)は破棄するしかないという。

 ここまで見せていただいて、どれだけ膨大なデータを手にすることが出来るか、ということは理解した。と同時に、どれだけ速く、というのも重要なポイントだ。

「いや、もうそれは、比較しようもないほど速いんですよ」と清水さんは言っていたが、なにかいい説明はできないか。

この連載の前回の
記事を見る

この連載の次の
記事を見る