Wenn Modelle in Ihrer Sprache schlussfolgern: Die Kontrolle der Denkspurensprache geht auf Kosten der Genauigkeit

papers.abstract

Aktuelle Large Reasoning Models (LRMs) mit Denkspuren haben starke Leistungen bei englischsprachigen Denkaufgaben gezeigt. Ihre Fähigkeit, in anderen Sprachen zu denken, wurde jedoch weniger untersucht. Diese Fähigkeit ist für reale Anwendungen ebenso wichtig wie die Antwortgenauigkeit, da Benutzer die Denkspur nur dann nützlich für die Überwachung finden, wenn sie in ihrer eigenen Sprache ausgedrückt ist. Wir evaluieren umfassend zwei führende Familien von LRMs auf unserem XReasoning-Benchmark und stellen fest, dass selbst die fortschrittlichsten Modelle oft auf Englisch zurückgreifen oder fragmentierte Denkprozesse in anderen Sprachen produzieren, was eine erhebliche Lücke im mehrsprachigen Denken offenbart. Prompt-basierte Interventionen, die Modelle dazu zwingen, in der Sprache des Benutzers zu denken, verbessern die Lesbarkeit und Überwachung, reduzieren jedoch die Antwortgenauigkeit, was einen wichtigen Kompromiss aufzeigt. Wir zeigen weiter, dass gezieltes Nachtraining mit nur 100 Beispielen diese Diskrepanz mildert, obwohl ein gewisser Genauigkeitsverlust bestehen bleibt. Unsere Ergebnisse unterstreichen die begrenzten mehrsprachigen Denkfähigkeiten aktueller LRMs und skizzieren Richtungen für zukünftige Arbeiten. Code und Daten sind verfügbar unter https://github.com/Betswish/mCoT-XReasoning.

English

Recent Large Reasoning Models (LRMs) with thinking traces have shown strong performance on English reasoning tasks. However, their ability to think in other languages is less studied. This capability is as important as answer accuracy for real world applications because users may find the reasoning trace useful for oversight only when it is expressed in their own language. We comprehensively evaluate two leading families of LRMs on our XReasoning benchmark and find that even the most advanced models often revert to English or produce fragmented reasoning in other languages, revealing a substantial gap in multilingual reasoning. Prompt based interventions that force models to reason in the users language improve readability and oversight but reduce answer accuracy, exposing an important trade off. We further show that targeted post training on just 100 examples mitigates this mismatch, though some accuracy loss remains. Our results highlight the limited multilingual reasoning capabilities of current LRMs and outline directions for future work. Code and data are available at https://github.com/Betswish/mCoT-XReasoning.

Wenn Modelle in Ihrer Sprache schlussfolgern: Die Kontrolle der Denkspurensprache geht auf Kosten der Genauigkeit

When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

papers.abstract

Support