Selbstverbesserndes mehrsprachiges Langzeitlogikschließen durch integriertes Übersetzungs- und Logiktraining

Zusammenfassung

Große Sprachmodelle mit Reasoning-Fähigkeiten haben oft Schwierigkeiten in multilingualen Umgebungen: Sie neigen dazu, auch bei nicht-englischen Fragen auf Englisch zu schlussfolgern; wenn sie auf das Reasoning in der Fragesprache beschränkt werden, sinken die Genauigkeiten erheblich. Diese Probleme resultieren aus begrenzten Fähigkeiten sowohl im multilingualen Frageverständnis als auch im multilingualen Reasoning. Um beide Schwierigkeiten zu adressieren, schlagen wir TRIT (Translation-Reasoning Integrated Training) vor, einen sich selbst verbessernden Rahmen, der die Übersetzungsausbildung in multilinguales Reasoning integriert. Ohne externe Rückmeldungen oder zusätzliche multilinguale Daten verbessert unsere Methode gleichzeitig das multilinguale Frageverständnis und die Antwortgenerierung. Auf MMATH übertrifft unser Ansatz mehrere Baseline-Methoden im Durchschnitt um 7 Prozentpunkte und steigert sowohl die Antwortkorrektheit als auch die Sprachkonsistenz. Weitere Analysen zeigen, dass die Integration von Übersetzungstraining die cross-linguale Frageausrichtung um über 10 Prozentpunkte verbessert und die Übersetzungsqualität sowohl für mathematische Fragen als auch für allgemeine Texte erhöht, mit Gewinnen von bis zu 8,4 COMET-Punkten auf FLORES-200.

English

Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.

Selbstverbesserndes mehrsprachiges Langzeitlogikschließen durch integriertes Übersetzungs- und Logiktraining

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Zusammenfassung

Support