ReGuLaR: Variational Latent Redeneren Geleid door Gerenderde Denkketens

Samenvatting

Hoewel Chain-of-Thought (CoT) de prestaties van Large Language Models (LLM's) aanzienlijk verbetert, introduceren expliciete redeneerketens aanzienlijke computationele redundantie. Recente latente redeneermethoden proberen dit te mitigeren door redeneerprocessen in de latente ruimte te comprimeren, maar lijden vaak onder ernstige prestatievermindering door een gebrek aan geschikte compressierichtlijnen. In deze studie stellen we Rendered CoT-Guided variational Latent Reasoning (ReGuLaR) voor, een eenvoudig maar nieuw latent leerparadigma dat dit probleem oplost. Fundamenteel formuleren we latent redeneren binnen het Variational Auto-Encoding (VAE) raamwerk, waarbij we de huidige latente redeneertoestand bemonsteren uit de posteriorverdeling, geconditioneerd op voorgaande toestanden. Specifiek, bij het aanleren van dit variational latent reasoning-model, renderen we expliciete redeneerketens als afbeeldingen, waaruit we dichte visueel-semantische representaties extraheren om de posteriorverdeling te regulariseren, waardoor efficiënte compressie met minimaal informatieverlies wordt bereikt. Uitgebreide experimenten tonen aan dat ReGuLaR zowel qua computationele efficiëntie als redeneereffectiviteit aanzienlijk beter presteert dan bestaande latente redeneermethoden, en zelfs CoT overstijgt door middel van multimodaal redeneren, wat een nieuwe en inzichtelijke oplossing biedt voor latent redeneren. Code: https://github.com/FanmengWang/ReGuLaR.

English

While Chain-of-Thought (CoT) significantly enhances the performance of Large Language Models (LLMs), explicit reasoning chains introduce substantial computational redundancy. Recent latent reasoning methods attempt to mitigate this by compressing reasoning processes into latent space, but often suffer from severe performance degradation due to the lack of appropriate compression guidance. In this study, we propose Rendered CoT-Guided variational Latent Reasoning (ReGuLaR), a simple yet novel latent learning paradigm resolving this issue. Fundamentally, we formulate latent reasoning within the Variational Auto-Encoding (VAE) framework, sampling the current latent reasoning state from the posterior distribution conditioned on previous ones. Specifically, when learning this variational latent reasoning model, we render explicit reasoning chains as images, from which we extract dense visual-semantic representations to regularize the posterior distribution, thereby achieving efficient compression with minimal information loss. Extensive experiments demonstrate that ReGuLaR significantly outperforms existing latent reasoning methods across both computational efficiency and reasoning effectiveness, and even surpasses CoT through multi-modal reasoning, providing a new and insightful solution to latent reasoning. Code: https://github.com/FanmengWang/ReGuLaR.

ReGuLaR: Variational Latent Redeneren Geleid door Gerenderde Denkketens

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

Samenvatting

Support