Autoperfeiçoamento do Raciocínio Longo Multilíngue via Treinamento Integrado de Tradução e Raciocínio

Resumo

Os modelos de raciocínio longo frequentemente apresentam dificuldades em ambientes multilíngues: tendem a raciocinar em inglês para perguntas não inglesas; quando restritos a raciocinar no idioma da pergunta, as precisões caem substancialmente. Essa dificuldade é causada pelas capacidades limitadas tanto para compreensão multilíngue de perguntas quanto para raciocínio multilíngue. Para abordar ambos os problemas, propomos o TRIT (Treinamento Integrado de Tradução e Raciocínio), uma estrutura de autoaprimoramento que integra o treinamento de tradução no raciocínio multilíngue. Sem feedback externo ou dados multilíngues adicionais, nosso método aprimora conjuntamente a compreensão de perguntas multilíngues e a geração de respostas. No MMATH, nosso método supera múltiplas linhas de base em média 7 pontos percentuais, melhorando tanto a correção das respostas quanto a consistência linguística. Análises adicionais revelam que a integração do treinamento de tradução melhora o alinhamento translinguístico de perguntas em mais de 10 pontos percentuais e aprimora a qualidade de tradução tanto para questões matemáticas quanto para texto de domínio geral, com ganhos de até 8.4 pontos COMET no FLORES-200.

English

Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.

Autoperfeiçoamento do Raciocínio Longo Multilíngue via Treinamento Integrado de Tradução e Raciocínio

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Resumo

Support