ChatPaper.aiChatPaper

ツールの言語を話すように言語モデルを教育する

Teaching a Language Model to Speak the Language of Tools

June 29, 2025
著者: Simeon Emanuilov
cs.AI

要旨

外部ツールの統合を関数呼び出しを通じて実現することは、実用的な言語モデルアプリケーションにおいて不可欠である。しかし、ほとんどの多言語モデルは、非英語言語における信頼性の高いツール使用能力を欠いている。最先端の多言語モデルでさえ、ツールを使用するタイミングや関数呼び出しに必要な構造化された出力を生成する際に苦戦し、低リソース言語でプロンプトされた場合には言語の混乱を示すことが多い。本研究では、ブルガリア語をケーススタディとして、既存の言語モデルを適応させ、任意のターゲット言語で堅牢なツール使用を可能にする方法論を提示する。このアプローチでは、BgGPTモデルシリーズ(2.6B、9B、27Bパラメータ)を、MCP(Model Context Protocol)のような標準化されたプロトコルをサポートするために設計された10,035の関数呼び出し例を含む新しいバイリンガルデータセットで継続的にトレーニングする。本研究では、TUCAN(Tool-Using Capable Assistant Navigator)を導入し、ベースモデルと比較して関数呼び出しの精度が最大28.75%向上し、確立されたブルガリア語のベンチマークで検証されたコア言語理解能力を維持している。精度の向上に加えて、TUCANモデルは、ベースモデルの冗長で一貫性のない出力とは対照的に、クリーンで解析可能な関数呼び出しを備えた本番環境対応の応答フォーマットを示す。モデル、評価フレームワーク、およびデータセットは、他の言語での再現を可能にするために公開されている。本研究は、英語中心のシステムを超えてツール拡張能力を拡張するための実用的なアプローチを示している。
English
External tool integration through function-calling is essential for practical language model applications, yet most multilingual models lack reliable tool-use capabilities in non-English languages. Even state-of-the-art multilingual models struggle with determining when to use tools and generating the structured outputs required for function calls, often exhibiting language confusion when prompted in lower-resource languages. This work presents a methodology for adapting existing language models to enable robust tool use in any target language, using Bulgarian as a case study. The approach involves continued training of the BgGPT model series (2.6B, 9B, 27B parameters) on a novel bilingual dataset of 10,035 function-calling examples designed to support standardized protocols like MCP (Model Context Protocol). The research introduces TUCAN (Tool-Using Capable Assistant Navigator), which achieves up to 28.75% improvement in function-calling accuracy over base models while preserving core language understanding, as verified on established Bulgarian benchmarks. Beyond accuracy gains, TUCAN models demonstrate production-ready response formatting with clean, parsable function calls, contrasting with the verbose and inconsistent outputs of base models. The models, evaluation framework, and dataset are released to enable replication for other languages. This work demonstrates a practical approach for extending tool-augmented capabilities beyond English-centric systems.
PDF41July 1, 2025