Zelfverbeterend meertalig lang redeneren via geïntegreerde training van vertaling en redenering
Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training
February 5, 2026
Auteurs: Junxiao Liu, Zhijun Wang, Yixiao Li, Zhejian Lai, Liqian Huang, Xin Huang, Xue Han, Junlan Feng, Shujian Huang
cs.AI
Samenvatting
Lange redeneermodellen hebben vaak moeite in meertalige contexten: ze hebben de neiging om in het Engels te redeneren voor niet-Engelse vragen; wanneer ze worden verplicht om in de taal van de vraag te redeneren, dalen de nauwkeurigheidspercentages aanzienlijk. Deze problematiek wordt veroorzaakt door de beperkte capaciteiten voor zowel meertalig vraagbegrip als meertalig redeneren. Om beide problemen aan te pakken, stellen wij TRIT voor (Translation-Reasoning Integrated Training), een zelfverbeterend raamwerk dat de training van vertaling integreert in meertalig redeneren. Zonder externe feedback of aanvullende meertalige gegevens verbetert onze methode gezamenlijk het meertalig vraagbegrip en de responsgeneratie. Op MMATH presteert onze methode gemiddeld 7 procentpunten beter dan meerdere basislijnen, waarbij zowel de antwoordnauwkeurigheid als de taalconsistentie verbeteren. Verdere analyse toont aan dat de integratie van vertaaltraining de cross-linguale vraagalignering met meer dan 10 procentpunten verbetert en de vertaalkwaliteit voor zowel wiskundige vragen als algemeen-domeinteksten verhoogt, met winsten tot 8.4 COMET-punten op FLORES-200.
English
Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.