Quando os Modelos Raciocinam em Sua Linguagem: Controlar o Idioma do Rastro de Pensamento Tem um Custo em Precisão
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
May 28, 2025
Autores: Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza
cs.AI
Resumo
Modelos de Raciocínio de Grande Escala (LRMs) recentes com traços de pensamento têm demonstrado um forte desempenho em tarefas de raciocínio em inglês. No entanto, sua capacidade de pensar em outros idiomas é menos estudada. Essa habilidade é tão importante quanto a precisão das respostas para aplicações do mundo real, pois os usuários podem considerar o traço de raciocínio útil para supervisão apenas quando ele é expresso em seu próprio idioma. Avaliamos de forma abrangente duas famílias líderes de LRMs em nosso benchmark XReasoning e descobrimos que mesmo os modelos mais avançados frequentemente retornam ao inglês ou produzem raciocínios fragmentados em outros idiomas, revelando uma lacuna substancial no raciocínio multilíngue. Intervenções baseadas em prompts que forçam os modelos a raciocinar no idioma do usuário melhoram a legibilidade e a supervisão, mas reduzem a precisão das respostas, expondo uma importante compensação. Mostramos ainda que um treinamento pós-direcionado com apenas 100 exemplos mitiga essa incompatibilidade, embora alguma perda de precisão permaneça. Nossos resultados destacam as capacidades limitadas de raciocínio multilíngue dos LRMs atuais e delineiam direções para trabalhos futuros. O código e os dados estão disponíveis em https://github.com/Betswish/mCoT-XReasoning.
English
Recent Large Reasoning Models (LRMs) with thinking traces have shown strong
performance on English reasoning tasks. However, their ability to think in
other languages is less studied. This capability is as important as answer
accuracy for real world applications because users may find the reasoning trace
useful for oversight only when it is expressed in their own language. We
comprehensively evaluate two leading families of LRMs on our XReasoning
benchmark and find that even the most advanced models often revert to English
or produce fragmented reasoning in other languages, revealing a substantial gap
in multilingual reasoning. Prompt based interventions that force models to
reason in the users language improve readability and oversight but reduce
answer accuracy, exposing an important trade off. We further show that targeted
post training on just 100 examples mitigates this mismatch, though some
accuracy loss remains. Our results highlight the limited multilingual reasoning
capabilities of current LRMs and outline directions for future work. Code and
data are available at https://github.com/Betswish/mCoT-XReasoning.