Wenn Modelle in Ihrer Sprache schlussfolgern: Die Kontrolle der Denkspurensprache geht auf Kosten der Genauigkeit
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy
May 28, 2025
Autoren: Jirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza
cs.AI
Zusammenfassung
Aktuelle Large Reasoning Models (LRMs) mit Denkspuren haben starke Leistungen bei englischsprachigen Denkaufgaben gezeigt. Ihre Fähigkeit, in anderen Sprachen zu denken, wurde jedoch weniger untersucht. Diese Fähigkeit ist für reale Anwendungen ebenso wichtig wie die Antwortgenauigkeit, da Benutzer die Denkspur nur dann nützlich für die Überwachung finden, wenn sie in ihrer eigenen Sprache ausgedrückt ist. Wir evaluieren umfassend zwei führende Familien von LRMs auf unserem XReasoning-Benchmark und stellen fest, dass selbst die fortschrittlichsten Modelle oft auf Englisch zurückgreifen oder fragmentierte Denkprozesse in anderen Sprachen produzieren, was eine erhebliche Lücke im mehrsprachigen Denken offenbart. Prompt-basierte Interventionen, die Modelle dazu zwingen, in der Sprache des Benutzers zu denken, verbessern die Lesbarkeit und Überwachung, reduzieren jedoch die Antwortgenauigkeit, was einen wichtigen Kompromiss aufzeigt. Wir zeigen weiter, dass gezieltes Nachtraining mit nur 100 Beispielen diese Diskrepanz mildert, obwohl ein gewisser Genauigkeitsverlust bestehen bleibt. Unsere Ergebnisse unterstreichen die begrenzten mehrsprachigen Denkfähigkeiten aktueller LRMs und skizzieren Richtungen für zukünftige Arbeiten. Code und Daten sind verfügbar unter https://github.com/Betswish/mCoT-XReasoning.
English
Recent Large Reasoning Models (LRMs) with thinking traces have shown strong
performance on English reasoning tasks. However, their ability to think in
other languages is less studied. This capability is as important as answer
accuracy for real world applications because users may find the reasoning trace
useful for oversight only when it is expressed in their own language. We
comprehensively evaluate two leading families of LRMs on our XReasoning
benchmark and find that even the most advanced models often revert to English
or produce fragmented reasoning in other languages, revealing a substantial gap
in multilingual reasoning. Prompt based interventions that force models to
reason in the users language improve readability and oversight but reduce
answer accuracy, exposing an important trade off. We further show that targeted
post training on just 100 examples mitigates this mismatch, though some
accuracy loss remains. Our results highlight the limited multilingual reasoning
capabilities of current LRMs and outline directions for future work. Code and
data are available at https://github.com/Betswish/mCoT-XReasoning.Summary
AI-Generated Summary