ChatPaper.aiChatPaper

Quando os Modelos Raciocinam em Sua Linguagem: Controlar o Idioma do Rastro de Pensamento Tem um Custo em Precisão

When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

May 28, 2025
Autores: Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza
cs.AI

Resumo

Modelos de Raciocínio de Grande Escala (LRMs) recentes com traços de pensamento têm demonstrado um forte desempenho em tarefas de raciocínio em inglês. No entanto, sua capacidade de pensar em outros idiomas é menos estudada. Essa habilidade é tão importante quanto a precisão das respostas para aplicações do mundo real, pois os usuários podem considerar o traço de raciocínio útil para supervisão apenas quando ele é expresso em seu próprio idioma. Avaliamos de forma abrangente duas famílias líderes de LRMs em nosso benchmark XReasoning e descobrimos que mesmo os modelos mais avançados frequentemente retornam ao inglês ou produzem raciocínios fragmentados em outros idiomas, revelando uma lacuna substancial no raciocínio multilíngue. Intervenções baseadas em prompts que forçam os modelos a raciocinar no idioma do usuário melhoram a legibilidade e a supervisão, mas reduzem a precisão das respostas, expondo uma importante compensação. Mostramos ainda que um treinamento pós-direcionado com apenas 100 exemplos mitiga essa incompatibilidade, embora alguma perda de precisão permaneça. Nossos resultados destacam as capacidades limitadas de raciocínio multilíngue dos LRMs atuais e delineiam direções para trabalhos futuros. O código e os dados estão disponíveis em https://github.com/Betswish/mCoT-XReasoning.
English
Recent Large Reasoning Models (LRMs) with thinking traces have shown strong performance on English reasoning tasks. However, their ability to think in other languages is less studied. This capability is as important as answer accuracy for real world applications because users may find the reasoning trace useful for oversight only when it is expressed in their own language. We comprehensively evaluate two leading families of LRMs on our XReasoning benchmark and find that even the most advanced models often revert to English or produce fragmented reasoning in other languages, revealing a substantial gap in multilingual reasoning. Prompt based interventions that force models to reason in the users language improve readability and oversight but reduce answer accuracy, exposing an important trade off. We further show that targeted post training on just 100 examples mitigates this mismatch, though some accuracy loss remains. Our results highlight the limited multilingual reasoning capabilities of current LRMs and outline directions for future work. Code and data are available at https://github.com/Betswish/mCoT-XReasoning.
PDF62May 30, 2025