Auto-amélioration du raisonnement multilingue long par un entraînement intégré traduction-raisonnement

Résumé

Les modèles de raisonnement long rencontrent souvent des difficultés en contexte multilingue : ils ont tendance à raisonner en anglais pour des questions non anglaises ; lorsqu'ils sont contraints de raisonner dans la langue de la question, leur précision chute considérablement. Cette difficulté est causée par des capacités limitées à la fois en compréhension multilingue des questions et en raisonnement multilingue. Pour résoudre ces deux problèmes, nous proposons TRIT (Translation-Reasoning Integrated Training), un cadre d'auto-amélioration qui intègre l'entraînement à la traduction dans le raisonnement multilingue. Sans rétroaction externe ni données multilingues supplémentaires, notre méthode améliore conjointement la compréhension multilingue des questions et la génération de réponses. Sur MMATH, notre méthode surpasse plusieurs modèles de référence par une moyenne de 7 points de pourcentage, améliorant à la fois l'exactitude des réponses et la cohérence linguistique. Une analyse plus poussée révèle que l'intégration de l'entraînement à la traduction améliore l'alignement translingual des questions de plus de 10 points de pourcentage et améliore la qualité de traduction pour les questions mathématiques comme pour les textes du domaine général, avec des gains allant jusqu'à 8,4 points COMET sur FLORES-200.

English

Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.

Auto-amélioration du raisonnement multilingue long par un entraînement intégré traduction-raisonnement

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Résumé

Support