ChatPaper.aiChatPaper

Pensez: データを減らし、推論を向上させる -- フランス語LLMの再考

Pensez: Less Data, Better Reasoning -- Rethinking French LLM

March 17, 2025
著者: Huy Hoang Ha
cs.AI

要旨

大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な能力を発揮してきた。しかし、数学的推論や非英語言語のような専門領域で高い性能を達成するためには、大規模なデータセットを用いた広範な学習が必要となることが多い。本論文では、これとは対照的なアプローチを探求する:小規模で高品質な二言語(英語-フランス語)データセットを用いた戦略的なファインチューニングにより、大規模言語モデルの推論能力とフランス語の熟達度を同時に向上させる。規模に頼るのではなく、ターゲットを絞ったデータキュレーションと最適化された学習が、競争力のある、あるいはそれ以上の性能を達成できるという仮説を検証する。2,000の厳選されたサンプルを用いたターゲットを絞った教師ありファインチューニング(SFT)により、数学的推論において顕著な改善が得られることを実証する。具体的には、Pensez 7Bは、AIME25においてベースモデルの精度が最大20%向上し、フランス語のMATHレベル5ベンチマークでは12%の向上を示した。これらの結果は、LLMにおいて強力な推論性能を得るためには大規模なデータセットが必須であるという従来の前提に疑問を投げかけ、専門技能と多言語能力の両方を向上させるための戦略的なデータキュレーションと最適化されたファインチューニングの可能性を浮き彫りにしている。我々の知見は、特にリソースが制約された状況において、高性能な多言語LLMを効率的に開発する上で重要な示唆を与えるものである。
English
Large language models (LLMs) have demonstrated remarkable capabilities in various natural language processing tasks. However, achieving strong performance in specialized domains like mathematical reasoning and non-English languages often requires extensive training on massive datasets. This paper investigates a contrasting approach: strategic fine-tuning on a small, high-quality, bilingual (English-French) dataset to enhance both the reasoning capabilities and French language proficiency of a large language model. Rather than relying on scale, we explore the hypothesis that targeted data curation and optimized training can achieve competitive, or even superior, performance. We demonstrate, through targeted supervised fine-tuning (SFT) on only 2,000 carefully selected samples, significant improvements in mathematical reasoning. Specifically, Pensez 7B exhibits an increase in accuracy of the base model up to 20% on the AIME25 and a 12% increase on a French MATH level 5 benchmark. These results challenge the prevailing assumption that massive datasets are aprerequisite for strong reasoning performance in LLMs, highlighting the potential of strategic data curation and optimized fine-tuning for enhancing both specialized skills and multilingual capabilities. Our findings have implications for the efficient development of high-performing, multilingual LLMs, especially in resource-constrained scenarios.

Summary

AI-Generated Summary

PDF52March 19, 2025