若⼿研究者コラム

冷暖自知

野口 瑶

私は機械学習などを用いてタンパク質の構造変化や低分子化合物の構造と物性についてのデータ解析を主に行っています。機械学習とはコンピュータに人間の学習と同様の処理を実行させる技術です。機械学習には解くべき課題(タスク)によって大きく三つの種類があり、そのうちの一つである「教師あり学習」は、事前に与えられるデータ(教師データ)からモデルと呼ばれる関数を構築します。このモデルを用いることで、未知のデータの予測も可能ですが、その予測は教師データに基づいています。そのため、教師データの量が不十分であったり、内容に偏りがあったり、未知のデータが教師データと全く異なる場合には正しい予測はできません。

例えば、果物の画像がオレンジのものであるかを分類するタスクでは、果物の写真とオレンジであるかどうかが教師データとなります。このとき、重要だからといってオレンジの画像ばかりを学習したモデルは、結果として正しい分類ができません。なぜなら、このモデルはオレンジ以外の果物については全く知らないため、何を見てもオレンジだと思ってしまうからです。したがって、正しく分類できるモデルを構築するためには、オレンジ以外の果物についても広く学習し、オレンジだけの特徴を発見する必要があります。

先日、学生から「良い学生生活を送るために勉強すべき科目はなんですか?」と質問を受けました。コストパフォーマンスという用語もすっかりと定着し、時間という有限な資源を効率良く利用するため、何が必要で何が不要か?と多くの人が考えています。教育においては理系に古文はいらない、文系に三角関数はいらないなど度々議論されています。

私たちが学んだ末に得られる豊かな人生は、深い見識を習得した結果です。最初のオレンジの分類モデルを思い出してみてください。重要であると思ったデータだけを学習しても、良いモデルにはなれませんでした。同じように要不要という判断で学びの幅を狭めてしまうと、客観性を損ない、専念し会得した知識も矮小化してしまいます。私が好きなゲームの曲に「近道まわり道も 迷いながらおぼえた」という歌詞があります。学問の世界は限りなく広く、私たちの人生も思った以上に長いです。今は必要ないと思うものもあるかもしれませんが、それでも様々な分野を学んでみてください。その学びが、いつの日かみなさんが本当に興味のある分野の造詣を深めてくれるはずです。