製造業とLLM用データ – フォーラム日本のものづくり

2022年11月に米国のOpenAIがchatGPTを一般に公開してからというもの、世の中はてんやわんやの大騒ぎで、今や生成AI無しでは夜も日も明けないというがごとき有様である。一般の個人ユーザやマスコミがこれに狂奔するのはもっとなことで、これまでAIなるものをおっかなびっくりで避けていた人も、日本語で質問すれば驚くような専門的な知見やしごくまっとう（に見える）答えを返してくれて、悩み事を相談すればいかにも寄り添った（ように見える）答えを返してくれる。AIなるものを一般の人々も享受できるようにしたという意味では「AIの民主化」という評価も首肯できる面はたしかにあるが、ときどきとんでもない答えを返すことがあるし、正否をにわかには判定できない（もっともらしい）答えを返すこともあり、真面目な企業がミッションクリティカルな問題にこれを利用するにはそれなりのしくみを用意しなければならない。この技術はディープラーニングを使って大規模言語モデル（LLM）を構築し、利用するのであるが、今までそれはGAFAMが主にウェブにあるデータを利用して開発してきた。したがって、ウェブにあるデータならば何でも答えることができるが、そうでなければ答えることは難しい。

ここでウェブにはない製造業の知識を例示しようといろいろやってみたが（旋盤、MEMS、ペロブスカイト製造、タービンブレード製造、冷やしばめ、ライフル溝製造、ピンホイール積、有理連続体力学、バルバス・バウ等々）今ではどんな知識もウェブには一応あるようである。なるほど。

ところが、昔はウェブのデータは事実上無限とみなされていたが、今やディープラーニングのためのウェブデータの枯渇が心配にされるまでになっている。

日本政府は遅ればせながらAIにも力を入れようとして、令和７年１２月に「人工知能基本計画」を閣議決定した。日本の強みは製造業だとして、各企業に囲い込まれて外に出てこないデータをもとに日本版製造業向けLLMを作ろうとしている。それは是とすべきだが問題はそれが本当にできるのかだ。

「人工知能基本計画」第３章第１節では「ＡＩの徹底した利活用や性能向上のため、データの集積・利活用、特に組織を越えたデータの共有及び官民連携によるデータ利活用を促進する。」としているが、まさに政府がソフトバンクグループとプリファードネットワークスにいくら金を投じても肝心のデータが出てこなければ、今の状況と何も変わらない。秘匿すべき製造データと公開してもよい知識を分離して、後者を集めて製造業用LLMモデルを開発する必要があるが、そのためには、よく考えてデータを分析・整理し、強弱をつけて公開するという日本人の最も不得意な作業をしなければならない。例えば、焼きばめでは面圧の計算式も伝達トルクの計算式もウェブにはあるが「温度を上げるほど径が広くなるので取付けは容易になりますが、あまり温度を上げ過ぎると、材料の熱処理温度域にかかる可能性があるので注意が必要です」とか、「また、穴が均一に広がらないとうまく入らずにかじりつく恐れもあるので、焼きばめを行う際は、温度だけではなく部品全体を均一に熱するように管理する必要があります」とある。ここまでは常識であり、公開済みの知識である。これより下の、ではどのように注意を保証するのか、どのように管理を可能にするのか、これこれの条件の下ではこのようにするというのが企業によって秘匿したいノウハウになるはずであるが、ただ頭ごなしにデータを出せというだけでは、データは出てこないであろう。結局、忙しい企業に代わってデータをDXして、公開してよい常識的知識と、秘匿したい機微データが整理同定できるようなフレームワークを明示化して提示しなければならない。製造業オントロジーはその一助になるはずである。