Paleta de Raciocínio: Modulação do Raciocínio via Contextualização Latente para Exploração Controlável em (V)LMs

Resumo

A capacidade de exploração molda tanto o desempenho em tempo de inferência quanto o treinamento por reforço (RL) para grandes modelos de (visão e) linguagem, uma vez que a amostragem estocástica frequentemente produz caminhos de raciocínio redundantes com pouca diversidade em alto nível. Este artigo propõe o *Reasoning Palette*, uma nova estrutura de modulação latente que dota o modelo com uma variável latente estocástica para contextualização estratégica, orientando seu planejamento interno antes da geração de tokens. Este contexto latente é inferido a partir da incorporação *mean-pooled* de um par pergunta-resposta por meio de um *variational autoencoder* (VAE), onde cada latente amostrado codifica potencialmente um contexto de raciocínio distinto. Durante a inferência, um latente amostrado é decodificado em prefixos de tokens aprendíveis e anexado ao *prompt* de entrada, modulando a trajetória de raciocínio interna do modelo. Dessa forma, o modelo realiza uma amostragem interna sobre estratégias de raciocínio antes da geração da saída, o que molda o estilo e a estrutura de toda a sequência de resposta. Uma breve fase de aquecimento de ajuste fino supervisionado (SFT) permite que o modelo se adapte a esse condicionamento latente. Dentro da otimização por RL, o *Reasoning Palette* facilita a exploração estruturada ao permitir a injeção sob demanda de modos de raciocínio diversos, aumentando significativamente a eficiência da exploração e a capacidade de aprendizado sustentado. Experimentos em vários benchmarks de raciocínio demonstram que nosso método permite um controle interpretável e controlável sobre o comportamento estratégico do modelo de (visão e) linguagem, alcançando, assim, ganhos de desempenho consistentes em relação aos métodos padrão de RL.

English

Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.

Paleta de Raciocínio: Modulação do Raciocínio via Contextualização Latente para Exploração Controlável em (V)LMs

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

Resumo

Support