Размышляя в условиях неопределенности: смягчение галлюцинаций в MLRM с помощью декодирования с учетом латентной энтропии

Аннотация

Последние достижения в области мультимодальных моделей с расширенными возможностями рассуждений (MLRM) значительно повысили производительность в задачах визуального ответа на вопросы. Однако мы наблюдаем, что переходные слова (например, «потому что», «однако», «подождите») тесно связаны с галлюцинациями и склонны проявлять состояния с высокой энтропией. Мы полагаем, что адекватная контекстная информация для рассуждений может быть извлечена непосредственно из распределения вероятностей токенов. Вдохновленные теорией суперпозиционного представления, мы предлагаем использовать латентное суперпозиционное рассуждение для интеграции множества кандидатных семантик и сохранения латентных траекторий рассуждений. Гипотеза состоит в том, что зависимость от дискретных текстовых входных данных может подталкивать модель к последовательному явному рассуждению, недостаточно используя плотные контекстные сигналы на этапах рассуждения с высокой энтропией. Следовательно, мы предлагаем строить богатые семантические представления из распределений вероятностей токенов для улучшения контекстных рассуждений. Для достижения этой цели мы представляем Latent Entropy-Aware Decoding (LEAD) — эффективную декодирующую стратегию типа «plug-and-play», которая использует семантический контекст для достижения надежных рассуждений. Суть нашего метода заключается в переключении режимов рассуждения с учетом энтропии. Модель использует непрерывные эмбеддинги, взвешенные по вероятности, в состояниях с высокой энтропией и возвращается к дискретным эмбеддингам токенов по мере уменьшения энтропии. Кроме того, мы предлагаем стратегию инжекции визуальных якорей, управляемую априорными знаниями, которая побуждает модель фокусироваться на визуальной информации. Многочисленные эксперименты показывают, что LEAD эффективно снижает галлюцинации в различных MLRM на множестве бенчмарков.

English

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.

Размышляя в условиях неопределенности: смягчение галлюцинаций в MLRM с помощью декодирования с учетом латентной энтропии

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Аннотация

Support