ChatPaper.aiChatPaper

Палитра рассуждений: Модуляция рассуждений через латентную контекстуализацию для управляемого исследования в (V)LM

Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

December 19, 2025
Авторы: Rujiao Long, Yang Li, Xingyao Zhang, Weixun Wang, Tianqianjin Lin, Xi Zhao, Yuchi Xu, Wenbo Su, Junchi Yan, Bo Zheng
cs.AI

Аннотация

Способность к исследованию влияет как на производительность во время вывода, так и на обучение с подкреплением (RL) для больших (визуально-) языковых моделей, поскольку стохастическая выборка часто порождает избыточные пути рассуждений с низким высокоуровневым разнообразием. В данной статье предлагается Reasoning Palette, новая framework-структура латентной модуляции, которая наделяет модель стохастической латентной переменной для стратегической контекстуализации, направляя её внутреннее планирование до генерации токенов. Этот латентный контекст выводится из усреднённого эмбеддинга пары вопрос-ответ с помощью вариационного автоэнкодера (VAE), где каждый сэмплированный латент потенциально кодирует уникальный контекст рассуждений. Во время вывода сэмплированный латент декодируется в обучаемые префиксы токенов и добавляется к входному промпту, модулируя внутреннюю траекторию рассуждений модели. Таким образом, модель выполняет внутреннюю выборку среди стратегий рассуждений до генерации вывода, что формирует стиль и структуру всей выходной последовательности. Краткая фаза контролируемого тонкого настроя (SFT) позволяет модели адаптироваться к этому латентному обусловливанию. В рамках RL-оптимизации Reasoning Palette способствует структурированному исследованию, позволяя по требованию внедрять различные режимы рассуждений, что значительно повышает эффективность исследования и устойчивую способность к обучению. Эксперименты на нескольких бенчмарках рассуждений демонстрируют, что наш метод обеспечивает интерпретируемый и контролируемый контроль над стратегическим поведением (визуально-) языковой модели, достигая таким образом стабильного прироста производительности по сравнению со стандартными RL-методами.
English
Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity. This paper proposes Reasoning Palette, a novel latent-modulation framework that endows the model with a stochastic latent variable for strategic contextualization, guiding its internal planning prior to token generation. This latent context is inferred from the mean-pooled embedding of a question-answer pair via a variational autoencoder (VAE), where each sampled latent potentially encodes a distinct reasoning context. During inference, a sampled latent is decoded into learnable token prefixes and prepended to the input prompt, modulating the model's internal reasoning trajectory. In this way, the model performs internal sampling over reasoning strategies prior to output generation, which shapes the style and structure of the entire response sequence. A brief supervised fine-tuning (SFT) warm-up phase allows the model to adapt to this latent conditioning. Within RL optimization, Reasoning Palette facilitates structured exploration by enabling on-demand injection for diverse reasoning modes, significantly enhancing exploration efficiency and sustained learning capability. Experiments across multiple reasoning benchmarks demonstrate that our method enables interpretable and controllable control over the (vision-) language model's strategic behavior, thereby achieving consistent performance gains over standard RL methods.
PDF92December 24, 2025