ChLogic: Оценка устойчивости логического рассуждения в китайских выражениях

Аннотация

Большие языковые модели демонстрируют все более высокие результаты на стандартных бенчмарках логического рассуждения, однако остается неясным, сохраняется ли эта способность за пределами английского языка. Мы представляем ChLogic — согласованный англо-китайский бенчмарк, который проверяет, сохраняют ли модели производительность логического рассуждения, когда одна и та же латентная логическая структура выражается на английском языке и в различных поверхностных реализациях на китайском. Построенный на основе формальных логических шаблонов, бенчмарк включает три набора данных: (i) общий согласованный набор, полученный из 60 общих пропозиций, охватывающих девять семейств шаблонов; (ii) сложный согласованный набор, полученный из 40 сложных задач; и (iii) набор только на китайском языке, охватывающий 15 типов языковых явлений. Каждый согласованный элемент сопоставляет одно эталонное выражение на английском языке с пятью реализациями на китайском. Эксперименты на моделях Qwen3, Ministral и GLM выявили устойчивый разрыв в производительности между английским и китайским. Обратный перевод со стандартного китайского на английский часто улучшает производительность на общем согласованном наборе, но приводит к неоднозначным результатам на сложном согласованном наборе, где Qwen3-32B и GLM-5.1 после перевода показывают ухудшение. Эти результаты указывают на то, что поверхностная реализация на китайском, артефакты перевода и специфичное для модели поведение совместно влияют на многоязычное логическое рассуждение. В целом, ChLogic представляет собой полезный стресс-тест для оценки устойчивости многоязычного рассуждения.

English

Large language models perform increasingly well on standardized logical reasoning benchmarks, but whether this ability remains robust beyond English is unclear. We introduce ChLogic, an English--Chinese aligned benchmark that tests whether models preserve logical reasoning performance when the same latent logical structure is expressed in English and diverse Chinese surface realizations. Built from formal logical templates, the benchmark contains three data sets: (i) the General aligned set, derived from 60 General Propositions across nine template families; (ii) the Difficult aligned set, derived from 40 Difficult Problems; and (iii) the Chinese-only set, covering 15 language-specific phenomenon types. Each aligned item pairs one English reference expression with five Chinese realizations. Experiments on Qwen3, Ministral, and GLM models reveal a persistent English--Chinese performance gap. Back-translation from standard Chinese into English often improves performance on the General aligned set, but produces mixed effects on the Difficult aligned set, where Qwen3-32B and GLM-5.1 perform worse after translation. These results indicate that Chinese surface realization, translation artifacts, and model-specific behavior jointly affect multilingual logical reasoning. Overall, ChLogic provides a useful stress test for the robustness of multilingual reasoning.