ReGuLaR: Raciocínio Latente Variacional Guiado por Cadeia de Pensamento Renderizada

Resumo

Embora o pensamento em cadeia (Chain-of-Thought, CoT) melhore significativamente o desempenho dos Grandes Modelos de Linguagem (LLMs), as cadeias de raciocínio explícitas introduzem uma redundância computacional substancial. Métodos recentes de raciocínio latente tentam mitigar isso comprimindo os processos de raciocínio em um espaço latente, mas frequentemente sofrem com uma degradação severa de desempenho devido à falta de orientação adequada para a compressão. Neste estudo, propomos o Raciocínio Latente Variacional Guiado por CoT Renderizado (ReGuLaR), um paradigma de aprendizado latente simples, porém inovador, que resolve esta questão. Fundamentalmente, formulamos o raciocínio latente dentro da estrutura de Autoencoder Variacional (VAE), amostrando o estado atual do raciocínio latente a partir da distribuição posterior condicionada aos estados anteriores. Especificamente, ao aprender este modelo de raciocínio latente variacional, renderizamos as cadeias de raciocínio explícitas como imagens, das quais extraímos representações visuais-semânticas densas para regularizar a distribuição posterior, alcançando assim uma compressão eficiente com perda mínima de informação. Experimentos extensivos demonstram que o ReGuLaR supera significativamente os métodos de raciocínio latente existentes tanto em eficiência computacional quanto em eficácia do raciocínio, e até mesmo supera o CoT por meio do raciocínio multimodal, fornecendo uma solução nova e perspicaz para o raciocínio latente. Código: https://github.com/FanmengWang/ReGuLaR.

English

While Chain-of-Thought (CoT) significantly enhances the performance of Large Language Models (LLMs), explicit reasoning chains introduce substantial computational redundancy. Recent latent reasoning methods attempt to mitigate this by compressing reasoning processes into latent space, but often suffer from severe performance degradation due to the lack of appropriate compression guidance. In this study, we propose Rendered CoT-Guided variational Latent Reasoning (ReGuLaR), a simple yet novel latent learning paradigm resolving this issue. Fundamentally, we formulate latent reasoning within the Variational Auto-Encoding (VAE) framework, sampling the current latent reasoning state from the posterior distribution conditioned on previous ones. Specifically, when learning this variational latent reasoning model, we render explicit reasoning chains as images, from which we extract dense visual-semantic representations to regularize the posterior distribution, thereby achieving efficient compression with minimal information loss. Extensive experiments demonstrate that ReGuLaR significantly outperforms existing latent reasoning methods across both computational efficiency and reasoning effectiveness, and even surpasses CoT through multi-modal reasoning, providing a new and insightful solution to latent reasoning. Code: https://github.com/FanmengWang/ReGuLaR.

ReGuLaR: Raciocínio Latente Variacional Guiado por Cadeia de Pensamento Renderizada

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Resumo

Support