プロジェクト /

ニューロコモンズ

原文記事
The Neurocommons

詳細は、 neurocommons.orgをご覧ください。

(このプロジェクトについての詳細は、 こちらのプロジェクト紹介ページをご覧ください。)

オープンソース・ナレッジマネジメント

ニューロコモンズ・プロジェクトとは、バイオ研究のための、オープンソースのナレッジマネジメントプラットフォームを生み出すためのプロジェクトです。オープンにされている生物医学系論文の概要に対してテキスト・マイニングと自然言語処理を施し、知識体系を整理しようというパイロットプロジェクトの第一弾が、アルファテスター向けに、2007年2月に公開されました。第二弾は、データ解析ソフトウェアの開発です。このソフトウェアは、サイエンス・コモンズ名義の、オープンソースのBSDライセンスで提供される予定です。この両者により、オープンコンテンツ、オープンなウェブ標準に基づく発展性のあるオープンソース・プラットフォームを築きます。

私たちの取り組みは神経科学分野に関するもので(だから、ニューロコモンズと名付けられました)、まずは、ある一疾病に対する治療法の開発において、ネットワーク効果を実現することを目標としています。将来的には、 生物試料移送(MTA)プロジェクトを通じて、神経変性疾患への資金提供者と共に築き上げたそのコネクションを活用していきたいと考えています。ニューロコモンズは、長期的には、 コモンズベースの多人数によるピア編集作業とパイロットプロジェクトである注釈ソフトウェアを統合することや、解析プラットフォームを軸にしたオープンソース・コミュニティを形成することを中心に、活動を広げていく計画です。

(ニューロコモンズの技術的な詳細について知るには、 ニューロコモンズ技術詳細を読んでみてください。また、ご自身でお使いのデータベースが公的にフリーで使用されることを許諾するためのフォーマットについては、オープン・アクセス・データ・プロトコルや、これに関連したFAQを参考にしてください。)

プロジェクトの成り立ち…

クリエイティブ・コモンズの歴史の中では、ニューロコモンズ・プロジェクトは、 セマンティック・ウェブと共に誕生しました。 最高責任者であるジョン・ウィルバンクスが、 ワールド・ワイド・ウェブ・コンソーシアム(W3C)の中で、ライフサイエンスのためのセマンティック・ウェブ・プロジェクトを発足させ、セマンティック型のバイオインフォマティックスを扱うベンチャー企業を2003年に買収しました。科学分野のためのセマンティック・ウェブの開発には、サイエンス・コモンズのフェローであるジョナサン・リーズアラン・ラッテンバーグが中心的な役割を担っています。

ドメインの公私を問わず扱う知識の範囲が拡大してきたことで、薬学のナレッジマネジメントの専門家たちは、コモンズベースの知的生産活動方法や市場競争以前の知識共有の考え方を受け入れるようになってきました。どんな企業も、たとえPfizerのような大企業でさえ、ウェブに存在するすべての情報を取得して整理し、活用することはできないのです。

私たちの研究は、製薬業界の技術面での新しい取り組み、関心とぴったり符合しています。 構造化されていないテキストやデータベースから、共通の専門用語や関連性を掘り出し、一ドメインの中で、あるいは複数のドメインの間で共有される暗黙的セマンティックスの「地図」を提供することを目標としています。PfizerBiogenからは、アーリーステージでの議論のおいて、多大な貢献をしてもらいました。また、システム自体は、 Novartisが既に開始していたプロプライエタリなサービスの一部となるように設計されています。

現状について…

現在、ニューロコモンズ・チームが取り組んでいるのは、(RDFフォーマットの)生物医学系論文の概要に付与された注釈のオープンナレッジベースをリリース、改良および拡張すること、情報生命科学分野のためのオープンソース・コードベースのデバッグおよび最終調整作業、主要な神経科学データベースのアノテーション・グラフ化を少しずつ進めていくことです。また、これらの取り組みを通じて、神経科学のコミュニティを結束させ、システム生物学全体のオープン・アプローチを議論する場へと発展させていきたいと考えています。

このシステムを使えば、科学者は、研究所のマシンで解析された遺伝子データのリストをロードしたり、またパブリックな知を元にして関連情報を付け足してから、そのデータを送り返したりすることができるようになります。ある情報のソースとなった論文や元のデータを突き止める作業は、Googleや全文検索システムに頼る場合に比べて劇的に早く、そして確実に行えるようになります。これは、システム内のすべてのコンテンツに、その情報のソースへ遡るためのリンクを持たせているからです。システムに自分の論文を投稿したり、正確な情報をシステムに投入するインセンティブは十分にあるはずです。というのは、システムが研究対象をより正確にモデリングすることができるようになれば、よりよい研究結果を出すことができるようになるはずなのですから。

バイオインフォマティクス・コミュニティには、コンテンツと解析ソフトウェアの両方の面で参加してもらえることを期待しています。どちらの分野も、単独の機関ですべてを成し遂げることは非常に困難なことです。ナレッジの対応づけを行うのにかかる労力コストは莫大で、きっと近い将来のうちに、正確性のためにある程度の人手による作業が必要になってくるでしょう(テキスト・マイニングはもちろん必要ですが、それだけでは十分ではありません)。モデルとしているのは、機械によって自動的に記事が更新されていくWikipediaです。人が介入して最終調整を行うという点で、Wikipediaのコンテンツの翻訳と似ていると言えるかもしれません。すべてのコンテンツはRDFフォーマットであるため、互いに結びついて単一のアクセス可能なネットワークを形成することができますが、一つ一つのコンテンツは分散しており、編集が繰り返されることで、十分に正確性を持った知識モデルへと育っていきます。

将来を見据えて…

初めのうちは、既に使い方のわかっている人たちの間で重宝されるでしょう。まだ広くは浸透していないスキルで、専門知識だと見なされています。しかし、データを自動的に生成する技術が発展してきたように、自動的に注釈をつけるシステムは今後の生物学研究のメインストリームとなっていくことでしょう。

長期的で社会的な目標としては、まず、製薬業界で蓄積されている高度な技術を、より多くの研究者に公開していくことです。そして、製薬業界だけでなく大学、産業界、政府を含めた、あらゆる研究の場からアクセス可能な情報の質を高めていくことです。現時点でも、各企業の内部にばらばらに蓄積された情報を、石を拾い集めるようにしてまとめあげることはできなくはありません。しかし、あまりにコストがかかるため、他のステークホルダーには利用できないのです。この作業が自動化されないかぎり、他のステークホルダーにとって有意義で魅力的のある情報源とはなりません。これらの情報が統合され、どんな経済事情であるかに関わらず、すべての研究者に公開されることになれば、適確な質問さえすれば生物学の研究業績をきちんと得ることができるという、非常にスループットの高いシステムを作り出すことができるようになるでしょう。これにより、より多くの研究結果が「正典」として取り込まれることになり、業界が熱望してきたことである、疾病や細胞活動のより体系的な理解を進めていくことができるようになるのです。

もう一つの目標として、サイエンス・コモンズ名義のオープンソースのBSDライセンスでリリース予定の、データ解析ソフトウェアの開発があります。このソフトウェアがないため、現状では、さまざまな異なるソフトウェアでネットワークを一覧することなっており、ソフトウェアは、特定のタンパク質ネットワーク、それからいくつかの高価なクローズドプラットフォームに縛られています。まさにブラウザも検索エンジンもないウェブの世界です。このソフトウェアは、生命科学セマンティック・ウェブにおけるMozillaのような役割となるものです。バイオインフォマティクスに精通していなくとも、膨大なデータを入力し、そのデータにおいて何が起きているのか、細胞内のどの箇所の活動状態がいつ、どこで変わったかといったことについて理解できるようになります。結果として、実験からより優れた仮説が導き出され、これらの仮説からさらに質の高い実験が生まれ、多くの論文が書かれるようになり、それがまたシステムへとフィードバックされていきます。そして、これらの情報はすべてオープンでRDFフォーマットであるため、互いに結びつき合い、製薬業界のモダンなITシステムにもそのまま入力することができます。結果、製薬業界でも、より優れた研究方針を打ち立てることができるようになるでしょう。

SC-Dataの仕組み

SC-Dataは、「科学者および法律家のエキスパート・アドバイザーたち」から構成されたグループによって運営される、科学者による科学者のためのコミュニティです。リストサーブ・ディスカッションを通じて「仕様」を策定しました。また、Data Working Groupも作りましたが、こちらは、ソフトウェア開発における機能設計に相当するものです。

参考:

データベースとクリエイティブ・コモンズについての「よくある質問集」

ニューロコモンズ技術詳細ページ

サイエンス・コモンズをこの分野で適用するときの問題点などについては、 ニューロコモンズ・プロジェクトの背景説明を読んでみてください。