LatentChem: Dal CoT Testuale al Pensiero Latente nel Ragionamento Chimico

Abstract

I modelli linguistici di grandi dimensioni (LLM) per la chimica si basano prevalentemente su ragionamenti a catena (Chain-of-Thought, CoT) espliciti in linguaggio naturale per eseguire ragionamenti complessi. Tuttavia, il ragionamento chimico è intrinsecamente continuo e strutturale, e forzarlo all'interno di token linguistici discreti introduce un disallineamento rappresentativo fondamentale che limita sia l'efficienza che le prestazioni. Introduciamo LatentChem, un'interfaccia di ragionamento latente che disaccoppia il calcolo chimico dalla generazione testuale, consentendo ai modelli di eseguire ragionamenti a più passaggi direttamente nello spazio latente continuo, emettendo linguaggio solo per gli output finali. Notevolmente, osserviamo un comportamento emergente consistente: quando ottimizzati unicamente per il successo del compito, i modelli internalizzano spontaneamente il ragionamento, abbandonando progressivamente le verbose derivazioni testuali a favore del calcolo latente implicito. Questo cambiamento non è meramente stilistico ma computazionalmente vantaggioso. In varie benchmark di ragionamento chimico, LatentChem raggiunge un tasso di vittorie non in parità del 59,88% rispetto a baseline robuste basate su CoT su ChemCoTBench, garantendo allo stesso tempo una velocizzazione media dell'inferenza di 10,84 volte. I nostri risultati forniscono evidenza empirica che il ragionamento chimico è realizzato in modo più naturale ed efficace come dinamica latente continua piuttosto che come traiettorie linguistiche discretizzate.

English

Chemical large language models (LLMs) predominantly rely on explicit Chain-of-Thought (CoT) in natural language to perform complex reasoning. However, chemical reasoning is inherently continuous and structural, and forcing it into discrete linguistic tokens introduces a fundamental representation mismatch that constrains both efficiency and performance. We introduce LatentChem, a latent reasoning interface that decouples chemical computation from textual generation, enabling models to perform multi-step reasoning directly in continuous latent space while emitting language only for final outputs. Remarkably, we observe a consistent emergent behavior: when optimized solely for task success, models spontaneously internalize reasoning, progressively abandoning verbose textual derivations in favor of implicit latent computation. This shift is not merely stylistic but computationally advantageous. Across diverse chemical reasoning benchmarks, LatentChem achieves a 59.88\% non-tie win rate over strong CoT-based baselines on ChemCoTBench, while delivering a 10.84times average inference speedup. Our results provide empirical evidence that chemical reasoning is more naturally and effectively realized as continuous latent dynamics rather than discretized linguistic trajectories.

LatentChem: Dal CoT Testuale al Pensiero Latente nel Ragionamento Chimico

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Abstract

Support