Самосовершенствующееся многоязычное длинное рассуждение через интегрированное обучение переводу и логическому выводу
Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training
February 5, 2026
Авторы: Junxiao Liu, Zhijun Wang, Yixiao Li, Zhejian Lai, Liqian Huang, Xin Huang, Xue Han, Junlan Feng, Shujian Huang
cs.AI
Аннотация
Крупные языковые модели, выполняющие сложные рассуждения, часто демонстрируют низкую эффективность в мультиязычных сценариях: они склонны рассуждать на английском языке даже при ответе на неанглоязычные вопросы; если же ограничить процесс рассуждений языком вопроса, точность значительно снижается. Эта проблема вызвана ограниченными способностями как к мультиязычному пониманию вопросов, так и к мультиязычным рассуждениям. Для решения обеих проблем мы предлагаем TRIT (Translation-Reasoning Integrated Training) — самообучающуюся систему, которая интегрирует тренировку перевода в процесс мультиязычных рассуждений. Без внешней обратной связи или дополнительных мультиязычных данных наш метод совместно улучшает понимание мультиязычных вопросов и генерацию ответов. На наборе данных MМATH наш метод превосходит несколько базовых моделей в среднем на 7 процентных пунктов, улучшая как правильность ответов, так и языковую согласованность. Дальнейший анализ показывает, что интеграция тренировки перевода улучшает кросс-лингвальное выравнивание вопросов более чем на 10 процентных пунктов и повышает качество перевода как математических вопросов, так и текстов общей тематики, с приростом до 8.4 баллов COMET на FLORES-200.
English
Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.