LatentChem: от текстового CoT к латентному мышлению в химических рассуждениях
LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning
February 6, 2026
Авторы: Xinwu Ye, Yicheng Mao, Jia Zhang, Yimeng Liu, Li Hao, Fang Wu, Zhiwei Li, Yuxuan Liao, Zehong Wang, Zhiyuan Liu, Zhenfei Yin, Li Yuan, Philip Torr, Huan Sun, Xiangxiang Zeng, Mengdi Wang, Le Cong, Shenghua Gao, Xiangru Tang
cs.AI
Аннотация
Химические большие языковые модели (LLМ) преимущественно полагаются на явные цепочки рассуждений (CoT) на естественном языке для выполнения сложных логических выводов. Однако химические рассуждения по своей природе являются непрерывными и структурными, и принудительное их представление в виде дискретных языковых токенов создаёт фундаментальный разрыв в репрезентации, который ограничивает как эффективность, так и производительность. Мы представляем LatentChem, интерфейс латентного вывода, который отделяет химические вычисления от текстовой генерации, позволяя моделям выполнять многошаговые рассуждения непосредственно в непрерывном латентном пространстве, генерируя язык только для финальных результатов. Примечательно, что мы наблюдаем последовательное emergent-поведение: когда модель оптимизируется исключительно для успешного решения задачи, она спонтанно интериоризирует процесс рассуждения, постепенно отказываясь от пространных текстовых выводов в пользу неявных латентных вычислений. Этот сдвиг не является лишь стилистическим, но вычислительно преимущественным. На различных эталонах химических рассуждений LatentChem демонстрирует 59.88% показатель побед без ничьих против сильных CoT-базлинов на ChemCoTBench, обеспечивая при этом среднее ускорение вывода в 10.84 раза. Наши результаты предоставляют эмпирические доказательства того, что химические рассуждения более естественно и эффективно реализуются как непрерывные латентные динамики, а не как дискретизированные языковые траектории.
English
Chemical large language models (LLMs) predominantly rely on explicit Chain-of-Thought (CoT) in natural language to perform complex reasoning. However, chemical reasoning is inherently continuous and structural, and forcing it into discrete linguistic tokens introduces a fundamental representation mismatch that constrains both efficiency and performance. We introduce LatentChem, a latent reasoning interface that decouples chemical computation from textual generation, enabling models to perform multi-step reasoning directly in continuous latent space while emitting language only for final outputs. Remarkably, we observe a consistent emergent behavior: when optimized solely for task success, models spontaneously internalize reasoning, progressively abandoning verbose textual derivations in favor of implicit latent computation. This shift is not merely stylistic but computationally advantageous. Across diverse chemical reasoning benchmarks, LatentChem achieves a 59.88\% non-tie win rate over strong CoT-based baselines on ChemCoTBench, while delivering a 10.84times average inference speedup. Our results provide empirical evidence that chemical reasoning is more naturally and effectively realized as continuous latent dynamics rather than discretized linguistic trajectories.