学術知の構造化

なぜ「知の構造化」が重要か

学術研究の目指すところはその研究領域の最先端からわずかでも先に進むことであり、その意味で、学術知識の量が増えれば増えるほど、細部化していく特性を持っています。学術研究の成果である学術論文の製造過程がデジタル化されるにつれ、学術知識の量はそれまでとは比べものにならないほど増えています。

学術知識の量が増え、分野が細分化していくこと自体は素晴らしいことですが、その結果としてある学術分野の全体像を把握できないという問題に直面しています。例えば、以下の例で示す太陽電池分野では、1年間に約3,000の論文が出版されています。いくら天才研究者であってもこれらを全て読むことはほぼ不可能に近いと言えます。つまり、専門家であっても(細分化された)自分の研究領域以外のことは分からないのです。その結果、最先端の学術研究を踏まえないR&D戦略が実行されたり、全く現実にそぐわない科学技術振興政策が行われたりするということにつながります。「知の構造化」はこれらの問題を解決するために、知識の全体像を俯瞰することを目的とします。

例:太陽電池(Solar Cell)

ここでは太陽電池(Solar Cell)を例に、学術俯瞰マップの作成と新興学術分野を発見について簡単に紹介します。詳細は論文をご覧ください。

まず、はじめに太陽電池関連の学術論文を論文DBから漏れなく抽出します。次に、その論文間の引用関係を抽出し、引用ネットワークを作成し、最大連結成分のみを抽出します。その後、引用ネットワークをクラスタリング手法によってクラスターに分割し、各クラスター内の引用(エッジ)を同じ色で描画したものがFig.1です。

Fig.1を見ると、太陽電池分野がどのように進化してきているかが分かります。例えば、Fig. 1(a)の黄色と白色のクラスターは2003年以前にはほとんど存在せず、最近急激に成長している領域(論文群)だということが言えます。これはほんの一例にすぎませんが、学術分野内の各領域がどのように成長してきているのかが一目で分かるようになります。

太陽電池分野の進化の様子

Fig.1 太陽電池分野の進化の様子

次に、引用ネットワークの分析だけではなく、論文のアブストラクトからトピックを抽出し、それらの結果を重ね合わせたのがFig. 2です。図中の下線で示されているクラスター名以外は全て計算機で自動的に出力されます。(クラスター名のみ人間が付与しています。)Fig. 2においては#0は主にsiliconに関する論文群で平均出版年が1995.2年と最も古い論文群です。#1はcompounds系を扱い、平均出版年が1998.5年とこれもさほどあたらしくありません。他方、#2はdye-sentisized(色素増感)系(平均出版年2003.3年)、#3はpolymer(有機)系(平均出版年2002.3年)と非常に若い論文が集まっている領域だということが分かります。

現在、商用化されている太陽電池は主にシリコン系のものです。一部compounds系もありますが、高価なため宇宙ロケット等の特殊な用途に限られています。例えば、この現状の中で、太陽電池産業に新規参入しようとした場合、どの材料にフォーカスし、投資をしますか。色素増感系、有機系は、現時点ではまだ商用化されていませんが、学術研究が今現在、最も盛んに行われています。もちろん、どの材料が商業的に成功するのかはまだ分かりませんが、この研究成果は、少なくても、企業のR&Dマネージャーや政府の政策担当者が現状を正確に理解するためのツールにはなると考えています。

Fig.2 太陽電池分野の2006年時点の新興論文群の発見

Fig.2 太陽電池分野の2006年時点の新興論文群の発見