翻訳と推論を統合したトレーニングによる多言語長文推論の自己改善

要旨

長文推論モデルは多言語環境において課題に直面している。非英語質問に対しても英語で推論を行う傾向があり、質問言語で推論するよう制約を課すと精度が大幅に低下する。この問題は、多言語質問理解と多言語推論の両方の能力不足に起因する。両問題を解決するため、我々は翻訳を多言語推論に統合する自己改善型フレームワーク「TRIT（Translation-Reasoning Integrated Training）」を提案する。外部フィードバックや追加の多言語データを必要とせず、本手法は多言語質問理解と応答生成を同時に強化する。MMATHデータセットにおいて、本手法は複数のベースラインを平均7ポイント上回り、回答の正確性と言語一貫性の両方を改善した。さらに詳細な分析により、翻訳トレーニングの統合が言語間質問アラインメントを10ポイント以上向上させ、数学的問題と一般領域テキストの両方における翻訳品質を向上させることを明らかにした（FLORES-200では最大8.4 COMETポイントの改善を達成）。

English

Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.

翻訳と推論を統合したトレーニングによる多言語長文推論の自己改善

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

要旨

Support