ChLogic: Bewertung der Robustheit des logischen Schließens in chinesischen Ausdrücken

Zusammenfassung

Große Sprachmodelle erzielen zunehmend bessere Ergebnisse auf standardisierten Benchmarks zum logischen Denken, doch ob diese Fähigkeit auch über das Englische hinaus robust bleibt, ist unklar. Wir stellen ChLogic vor, einen Englisch-Chinesischen abgestimmten Benchmark, der testet, ob Modelle ihre Leistungsfähigkeit im logischen Denken bewahren, wenn dieselbe latente logische Struktur auf Englisch und in verschiedenen chinesischen Oberflächenrealisierungen ausgedrückt wird. Der auf formalen logischen Vorlagen basierende Benchmark umfasst drei Datensätze: (i) den allgemeinen abgestimmten Satz, abgeleitet von 60 allgemeinen Aussagen aus neun Vorlagenfamilien; (ii) den schwierigen abgestimmten Satz, abgeleitet von 40 schwierigen Problemen; und (iii) den nur-chinesischen Satz, der 15 sprachspezifische Phänomentypen abdeckt. Jedes abgestimmte Element paart einen englischen Referenzausdruck mit fünf chinesischen Realisierungen. Experimente mit den Modellen Qwen3, Ministral und GLM zeigen eine anhaltende Leistungslücke zwischen Englisch und Chinesisch. Die Rückübersetzung von Standardchinesisch ins Englische verbessert oft die Leistung auf dem allgemeinen abgestimmten Satz, erzeugt jedoch gemischte Effekte auf dem schwierigen abgestimmten Satz, bei dem Qwen3-32B und GLM-5.1 nach der Übersetzung schlechter abschneiden. Diese Ergebnisse deuten darauf hin, dass chinesische Oberflächenrealisierung, Übersetzungsartefakte und modellspezifisches Verhalten gemeinsam das mehrsprachige logische Denken beeinflussen. Insgesamt bietet ChLogic einen nützlichen Belastungstest für die Robustheit mehrsprachigen Denkens.

English

Large language models perform increasingly well on standardized logical reasoning benchmarks, but whether this ability remains robust beyond English is unclear. We introduce ChLogic, an English--Chinese aligned benchmark that tests whether models preserve logical reasoning performance when the same latent logical structure is expressed in English and diverse Chinese surface realizations. Built from formal logical templates, the benchmark contains three data sets: (i) the General aligned set, derived from 60 General Propositions across nine template families; (ii) the Difficult aligned set, derived from 40 Difficult Problems; and (iii) the Chinese-only set, covering 15 language-specific phenomenon types. Each aligned item pairs one English reference expression with five Chinese realizations. Experiments on Qwen3, Ministral, and GLM models reveal a persistent English--Chinese performance gap. Back-translation from standard Chinese into English often improves performance on the General aligned set, but produces mixed effects on the Difficult aligned set, where Qwen3-32B and GLM-5.1 perform worse after translation. These results indicate that Chinese surface realization, translation artifacts, and model-specific behavior jointly affect multilingual logical reasoning. Overall, ChLogic provides a useful stress test for the robustness of multilingual reasoning.