通过翻译与推理集成训练实现自我改进的多语言长链推理

Abstract

I modelli di ragionamento complesso spesso incontrano difficoltà in contesti multilingue: tendono a ragionare in inglese anche per domande non inglesi; quando vincolati a ragionare nella lingua della domanda, la precisione diminuisce sostanzialmente. Questa difficoltà è causata dalle capacità limitate sia nella comprensione multilingue delle domande che nel ragionamento multilingue. Per affrontare entrambi i problemi, proponiamo TRIT (Translation-Reasoning Integrated Training), un framework di auto-miglioramento che integra l'addestramento alla traduzione nel ragionamento multilingue. Senza feedback esterni o dati multilingue aggiuntivi, il nostro metodo migliora congiuntamente la comprensione multilingue delle domande e la generazione delle risposte. Su MMATH, il nostro metodo supera molteplici baseline di una media di 7 punti percentuali, migliorando sia la correttezza delle risposte che la coerenza linguistica. Un'analisi più approfondita rivela che l'integrazione dell'addestramento alla traduzione migliora l'allineamento cross-lingue delle domande di oltre 10 punti percentuali e potenzia la qualità della traduzione sia per le domande matematiche che per il testo di dominio generale, con guadagni fino a 8,4 punti COMET su FLORES-200.

English

Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.

通过翻译与推理集成训练实现自我改进的多语言长链推理

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Abstract

Support