LatentChem: Del pensamiento en cadena textual al pensamiento latente en el razonamiento químico
LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning
February 6, 2026
Autores: Xinwu Ye, Yicheng Mao, Jia Zhang, Yimeng Liu, Li Hao, Fang Wu, Zhiwei Li, Yuxuan Liao, Zehong Wang, Zhiyuan Liu, Zhenfei Yin, Li Yuan, Philip Torr, Huan Sun, Xiangxiang Zeng, Mengdi Wang, Le Cong, Shenghua Gao, Xiangru Tang
cs.AI
Resumen
Los modelos de lenguaje grande (LLM) químicos dependen predominantemente de Cadenas de Pensamiento (CoT) explícitas en lenguaje natural para realizar razonamientos complejos. Sin embargo, el razonamiento químico es inherentemente continuo y estructural, y forzarlo a encajar en tokens lingüísticos discretos introduce una discrepancia fundamental en la representación que limita tanto la eficiencia como el rendimiento. Presentamos LatentChem, una interfaz de razonamiento latente que desacopla el cómputo químico de la generación textual, permitiendo a los modelos realizar razonamientos de múltiples pasos directamente en un espacio latente continuo, mientras emiten lenguaje solo para las salidas finales. Notablemente, observamos un comportamiento emergente consistente: cuando se optimizan únicamente para el éxito en la tarea, los modelos internalizan espontáneamente el razonamiento, abandonando progresivamente las derivaciones textuales verbosas en favor del cómputo latente implícito. Este cambio no es meramente estilístico, sino computacionalmente ventajoso. En diversos puntos de referencia de razonamiento químico, LatentChem logra una tasa de victorias no empatadas del 59.88% sobre líneas base sólidas basadas en CoT en ChemCoTBench, mientras ofrece una aceleración promedio en la inferencia de 10.84 veces. Nuestros resultados aportan evidencia empírica de que el razonamiento químico se realiza de manera más natural y efectiva como dinámicas latentes continuas, en lugar de trayectorias lingüísticas discretizadas.
English
Chemical large language models (LLMs) predominantly rely on explicit Chain-of-Thought (CoT) in natural language to perform complex reasoning. However, chemical reasoning is inherently continuous and structural, and forcing it into discrete linguistic tokens introduces a fundamental representation mismatch that constrains both efficiency and performance. We introduce LatentChem, a latent reasoning interface that decouples chemical computation from textual generation, enabling models to perform multi-step reasoning directly in continuous latent space while emitting language only for final outputs. Remarkably, we observe a consistent emergent behavior: when optimized solely for task success, models spontaneously internalize reasoning, progressively abandoning verbose textual derivations in favor of implicit latent computation. This shift is not merely stylistic but computationally advantageous. Across diverse chemical reasoning benchmarks, LatentChem achieves a 59.88\% non-tie win rate over strong CoT-based baselines on ChemCoTBench, while delivering a 10.84times average inference speedup. Our results provide empirical evidence that chemical reasoning is more naturally and effectively realized as continuous latent dynamics rather than discretized linguistic trajectories.