LatentChem: Do CoT Textual ao Pensamento Latente no Raciocínio Químico

Resumo

Os modelos de linguagem de grande porte (LLMs) químicos dependem predominantemente de Cadeias de Pensamento (CoT) explícitas em linguagem natural para realizar raciocínios complexos. No entanto, o raciocínio químico é inerentemente contínuo e estrutural, e forçá-lo em tokens linguísticos discretos introduz uma incompatibilidade fundamental de representação que limita tanto a eficiência quanto o desempenho. Apresentamos o LatentChem, uma interface de raciocínio latente que desacopla a computação química da geração textual, permitindo que os modelos realizem raciocínios de múltiplos passos diretamente no espaço latente contínuo, enquanto emitem linguagem apenas para as saídas finais. Notavelmente, observamos um comportamento emergente consistente: quando otimizados apenas para o sucesso da tarefa, os modelos internalizam espontaneamente o raciocínio, abandonando progressivamente as derivações textuais verbosas em favor da computação latente implícita. Esta mudança não é meramente estilística, mas computacionalmente vantajosa. Em diversos benchmarks de raciocínio químico, o LatentChem alcança uma taxa de vitória sem empate de 59,88% sobre linhas de base fortes baseadas em CoT no ChemCoTBench, enquanto proporciona uma aceleração média de 10,84 vezes na inferência. Nossos resultados fornecem evidências empíricas de que o raciocínio químico é realizado de forma mais natural e eficaz como dinâmicas latentes contínuas, em vez de trajetórias linguísticas discretizadas.

English

Chemical large language models (LLMs) predominantly rely on explicit Chain-of-Thought (CoT) in natural language to perform complex reasoning. However, chemical reasoning is inherently continuous and structural, and forcing it into discrete linguistic tokens introduces a fundamental representation mismatch that constrains both efficiency and performance. We introduce LatentChem, a latent reasoning interface that decouples chemical computation from textual generation, enabling models to perform multi-step reasoning directly in continuous latent space while emitting language only for final outputs. Remarkably, we observe a consistent emergent behavior: when optimized solely for task success, models spontaneously internalize reasoning, progressively abandoning verbose textual derivations in favor of implicit latent computation. This shift is not merely stylistic but computationally advantageous. Across diverse chemical reasoning benchmarks, LatentChem achieves a 59.88\% non-tie win rate over strong CoT-based baselines on ChemCoTBench, while delivering a 10.84times average inference speedup. Our results provide empirical evidence that chemical reasoning is more naturally and effectively realized as continuous latent dynamics rather than discretized linguistic trajectories.

LatentChem: Do CoT Textual ao Pensamento Latente no Raciocínio Químico

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Resumo

Support