Science of Science (Metascience)

Keywords: Network | Citation | Meme | Scientometrics | Science as Culture | Computational Social Science

 これまで「科学はどのように発展するか」を理解するため、文献データの解析を行なってきました。文献(学
術論文)は科学者たちの研究成果の結晶であり、またそれらは種々のデータベースに集積され、様々な利用が可
能な形態で所蔵されています。これら大量の文献データを活用して、情報を抽出・統合し知見を得たり、また観
察された現象から新たな問題を設定するなどの研究が行われています。具体的には、引用関係を用いた文献や掲
載雑誌のインパクト測定、共著関係などのネットワークによる分野や研究者同士の関連調査、使用語句や付与タ
グの計測によるトレンド分析・予測などが挙げられ、競争的資金の分配などにも関わっている分野です。

 ここで問題となるのが "Sleeping Beauty" (SB) と呼ばれる文献であり、私はその発生機構の解明に取り組んで
います。各文献の被引用数を分布として見ると、いわゆるべき乗則に従い少数の文献が多数の引用を受けていま
す。これは一旦引用された文献はそれだけ人目に付きやすくなり更に引用されやすくなる、つまり「富めるもの
がさらに富む」という自然で普遍的なプロセスの結果として記述できます。これよりある一文献の典型的な被引
用履歴は、出版直後にピークを迎えた後、新規性の低下により減少していくという過程をたどります。しかし中
には、出版後数十年が経過してから突如急激に引用され始める文献、即ちSBが存在します。このような文献は出
版直後の状況だけでは正しく評価できないと言え、またこれらは特殊な例外ではなく分野にかかわらず多数存在
することが示されています。しかし現在のところ、考察は各分野におけるSBの観察や個別の事例についてにとど
まり、その統一的な発生機序はいまだ明らかではありません。「富めるものがさらに富む」というメカニズムに
従う限りは、多数の引用を獲得できるのは出版直後に引用され始めた文献のみであるため、この機構だけではSB
の存在を自然に説明できません。よって、原理の記述には別のロジックが必要になると考えられます。

 以上を踏まえて、大量文献データの解析によりSBの背後に存在する普遍的なメカニズムを解明し、科学文化発
展のより一般的な理論を構築することを目的として研究を行なっています。これを達成するために、外部知識や
恣意的なパラメータに依存しない第一原理的解析や、引用関係だけではなく言語や知識の伝播を対象とした総合
的なアプローチなどに取り組んでおり、研究成果のより正当な評価にもつながることが期待されます。

# 気持ちとしてはメタ視点に立つことによる知性の拡張、あるいはGolem XIVに近づく試みです。

Science Communication

Keywords: Genome | Sequencing | NGS | Bioinformatics | Education | Comics

 近年のNGS関連技術の発達、およびそれに伴うデータの爆発的な増大に伴い、計算機解析の需要はますます高
まっています。これと同時に、遺伝子検査サービスの登場などにより、一般社会や非専門家が「ゲノムと体質の
かかわり」といった話題に関心を強める状況も生み出されています。しかし、サービスの基盤ともなる実際の工
程に関する知識は、上記の需要や関心と比較して十分に浸透しているとは言えません。そのためバイオインフォ
マティクス分野の人材不足が叫ばれて久しく、またサービスが時として(正当な根拠に基づかずに)「おみくじ
のようなもの」と揶揄される一因にもなっていると考えられます。この状況を解決するべく、関連知識の普及を
目指した専門と非専門の中間的な著作物、即ちバイオインフォマティクス入門のための漫画作品を制作しました。

 主人公は様々な専攻の学生とし、「ゲノム配列から個人を特定できるか」をテーマとしていわゆるリシーケン
シングの解析を説明しています。概念的な解説に加え具体的なコマンドも記し、ブラックボックスを作らず再現
性を担保することを考慮していますが、あくまで幅広い層に親しみやすく、という観点から描写を試みました。
初学者や一般大衆への橋渡しを狙うのみならず、教育や科学コミュニケーションを考えるためのきっかけ・題材
となることを期待しています。Webで公開中です。

# 続編/薄い本化は未定です。


2017/05/21