ChatPaper.aiChatPaper

도구의 언어를 구사하도록 언어 모델 가르치기

Teaching a Language Model to Speak the Language of Tools

June 29, 2025
저자: Simeon Emanuilov
cs.AI

초록

외부 도구 통합을 위한 함수 호출 기능은 실용적인 언어 모델 애플리케이션에 필수적이지만, 대부분의 다국어 모델은 비영어권 언어에서 신뢰할 수 있는 도구 사용 능력이 부족합니다. 최첨단 다국어 모델조차도 언제 도구를 사용해야 하는지 결정하고 함수 호출에 필요한 구조화된 출력을 생성하는 데 어려움을 겪으며, 자원이 부족한 언어로 프롬프트를 받을 경우 언어 혼동을 보이는 경우가 많습니다. 본 연구는 불가리아어를 사례 연구로 사용하여 기존 언어 모델을 적응시켜 모든 목표 언어에서 강력한 도구 사용을 가능하게 하는 방법론을 제시합니다. 이 접근법은 BgGPT 모델 시리즈(2.6B, 9B, 27B 매개변수)를 MCP(Model Context Protocol)와 같은 표준화된 프로토콜을 지원하기 위해 설계된 10,035개의 함수 호출 예제로 구성된 새로운 이중 언어 데이터셋에 대해 지속적으로 학습하는 것을 포함합니다. 본 연구는 TUCAN(Tool-Using Capable Assistant Navigator)을 소개하며, 이는 기존 불가리아어 벤치마크에서 검증된 바와 같이 핵심 언어 이해 능력을 유지하면서 기본 모델 대비 함수 호출 정확도에서 최대 28.75%의 향상을 달성합니다. 정확도 향상 외에도, TUCAN 모델은 기본 모델의 장황하고 일관성 없는 출력과 대조적으로 깔끔하고 파싱 가능한 함수 호출을 통해 프로덕션 준비가 된 응답 형식을 보여줍니다. 이 모델, 평가 프레임워크, 데이터셋은 다른 언어에 대한 복제를 가능하게 하기 위해 공개됩니다. 본 연구는 영어 중심 시스템을 넘어 도구 강화 능력을 확장하는 실용적인 접근법을 보여줍니다.
English
External tool integration through function-calling is essential for practical language model applications, yet most multilingual models lack reliable tool-use capabilities in non-English languages. Even state-of-the-art multilingual models struggle with determining when to use tools and generating the structured outputs required for function calls, often exhibiting language confusion when prompted in lower-resource languages. This work presents a methodology for adapting existing language models to enable robust tool use in any target language, using Bulgarian as a case study. The approach involves continued training of the BgGPT model series (2.6B, 9B, 27B parameters) on a novel bilingual dataset of 10,035 function-calling examples designed to support standardized protocols like MCP (Model Context Protocol). The research introduces TUCAN (Tool-Using Capable Assistant Navigator), which achieves up to 28.75% improvement in function-calling accuracy over base models while preserving core language understanding, as verified on established Bulgarian benchmarks. Beyond accuracy gains, TUCAN models demonstrate production-ready response formatting with clean, parsable function calls, contrasting with the verbose and inconsistent outputs of base models. The models, evaluation framework, and dataset are released to enable replication for other languages. This work demonstrates a practical approach for extending tool-augmented capabilities beyond English-centric systems.
PDF41July 1, 2025