ChLogic: Evalueren van robuustheid van logisch redeneren in Chinese uitdrukkingen

Samenvatting

Grote taalmodellen presteren steeds beter op gestandaardiseerde logisch redeneren-benchmarks, maar of dit vermogen ook robuust blijft buiten het Engels is onduidelijk. Wij introduceren ChLogic, een Engels–Chinees afgestemde benchmark die test of modellen de prestaties op het gebied van logisch redeneren behouden wanneer dezelfde latente logische structuur wordt uitgedrukt in het Engels en in uiteenlopende Chinese oppervlakterealisaties. De benchmark is opgebouwd uit formele logische sjablonen en bevat drie datasets: (i) de General aligned set, afgeleid van 60 Algemene Proposities uit negen sjabloonfamilies; (ii) de Difficult aligned set, afgeleid van 40 Moeilijke Problemen; en (iii) de uitsluitend Chinese set, die 15 taalspecifieke fenomeentypen bestrijkt. Elk afgestemd item koppelt één Engelse referentie-uitdrukking aan vijf Chinese realisaties. Experimenten met Qwen3-, Ministral- en GLM-modellen tonen een aanhoudende prestatiekloof tussen Engels en Chinees. Terugvertaling van standaard Chinees naar Engels verbetert vaak de prestaties op de General aligned set, maar levert gemengde effecten op voor de Difficult aligned set, waarbij Qwen3-32B en GLM-5.1 slechter presteren na vertaling. Deze resultaten geven aan dat Chinese oppervlakterealisatie, vertaalartefacten en modelspecifiek gedrag gezamenlijk het meertalig logisch redeneren beïnvloeden. Al met al biedt ChLogic een nuttige stresstest voor de robuustheid van meertalig redeneren.

English

Large language models perform increasingly well on standardized logical reasoning benchmarks, but whether this ability remains robust beyond English is unclear. We introduce ChLogic, an English--Chinese aligned benchmark that tests whether models preserve logical reasoning performance when the same latent logical structure is expressed in English and diverse Chinese surface realizations. Built from formal logical templates, the benchmark contains three data sets: (i) the General aligned set, derived from 60 General Propositions across nine template families; (ii) the Difficult aligned set, derived from 40 Difficult Problems; and (iii) the Chinese-only set, covering 15 language-specific phenomenon types. Each aligned item pairs one English reference expression with five Chinese realizations. Experiments on Qwen3, Ministral, and GLM models reveal a persistent English--Chinese performance gap. Back-translation from standard Chinese into English often improves performance on the General aligned set, but produces mixed effects on the Difficult aligned set, where Qwen3-32B and GLM-5.1 perform worse after translation. These results indicate that Chinese surface realization, translation artifacts, and model-specific behavior jointly affect multilingual logical reasoning. Overall, ChLogic provides a useful stress test for the robustness of multilingual reasoning.