「オープンソース」を使ってみよう (第27回 フリーソフトウェアを用いたゲノム科学におけるビッグデータ処理)
01/24
Use it ! OSS No Comments
Tweet
—————————————————————————-
東京農工大学ゲノム科学人材育成プログラム特任教授
石井 一夫
—————————————————————————-
1. ゲノム科学で用いられるフリーソフトウェア
次世代シーケンサーというDNA塩基配列情報を大量に産生する機器が実用化
されて数年が経過し、ゲノム科学を扱う医学、生物学の世界では日々のDNA
塩基配列データの産生量や、その取り扱うデータ量が飛躍的に増えています。
これらのデータ処理にはUNIX/Linuxを中心とするフリーソフトウェアは欠か
せません。
(1) 汎用のフリーソフトウェア
次世代シーケンサーのデータは、例えばイルミナ社製の解析機器から産生
されるデータの場合、1ファイルあたりに数千万断片から数億断片のDNA
塩基配列データとそのクウォリティデータを含むファイルが産生されます。
それを、(1) catやgrep、sed、awkなどのシェルのコマンドや、(2) Perl、
Python、Rubyなどのスクリプト言語、(3) R、Octaveなどの統計解析言語
を組み合わせて処理します。
必要に応じて、(4) MySQL、PostgreSQLなどのデータベースも使用します。
むしろ、このようなスケールのデータ解析では、データベースは必須です。
(2) 生物学的なデータ解析専用のソフトウェア
もちろん、生物学的な情報解析専用のソフトウェアも多数開発されています。
例えば、(1) 次世代シーケンサーから産生されたDNA塩基配列データを互いに
ジグソーパズルのように結合させ、長いDNA塩基配列を得るアセンブリと呼ば
れるデータ解析行程では、Velvet、Oases、Trinityなどが使用されます。
また、(2) 次世代シーケンサーから産生されたDNA塩基配列データを既知の
DNA塩基配列へ整列させるマッピングと呼ばれるデータ解析行程では、BWA、
Bowtieなどが使用されます。
(3)このようにして得られた長めのDNA塩基配列データと既知のDNA塩基配列
との相同性の検索には、BLASTなどが用いられます。Perl、Python、Ruby、
Javaなどには、(4) 生物学的なデータの解析に特化した関数などを集めた
ライブラリが整備されており、それぞれBioPerl、BioPython、BioRuby、
BioJavaと呼ばれています。
また、統計解析ソフトのRには、(5) Bioconductorと呼ばれる生物学的解析用
のパッケージ群が存在します。
RSS


