【IT】タイ国産AI基盤モデル「ThaiLLM」が正式公開 タイ語固有の文脈・文化を理解
広告

タイ国立科学技術開発庁(NSTDA)は4月上旬、高等教育科学研究革新省(MHESI)やタイ国立電子コンピューター技術研究センター(NECTEC)等の研究機関、そして民間企業と連携し、タイ語に特化した大規模言語モデル(LLM)「ThaiLLM」を正式に公開した。政府・企業・個人のデータを国内で処理できる環境を整えることで、海外AIシステムへの依存リスクを低減し、タイのデジタル主権を確立することが狙いだ。
目次
100億トークンのタイ語データで学習
ThaiLLMは政府文書・教育研究・法的テキストを含む1000億トークン以上の高品質タイ語データで訓練されており、処理速度を優先した80億パラメータモデルと、高精度タスク向けの300億パラメータモデルの2種類が提供されている。OpenAI SDKとの互換性を持つAPIを通じて開発者が即座に活用できるほか、「ThaiLLM Playground」では一般ユーザーも無料で試用できる。
民間セクターへの浸透も着実に進んでいる。カシコン銀行グループのフィンテック子会社KBTGやSCB 10Xはすでにこのモデルを自社プロジェクトに取り込んでおり、医療分野では理工系研究機関VISTECが実験的な活用を開始した。グローバルAIデータの大半は英語由来であり、タイ語データはわずか0.4%にすぎないとされている。これを補完する独自モデルの整備は、タイ語固有の文脈・文化的ニュアンスの理解という観点で大きな意義を持つ。
タイ進出企業が現地向けの業務システムや顧客サービスを開発・改修する際、このオープンソース基盤を活用することでコスト効率と適合性を高められる可能性があり、日系IT・メーカー各社も動向を注視する必要がある。

