Pensando na Incerteza: Mitigando Alucinações em MLRMs com Decodificação Consciente da Entropia Latente

Resumo

Os recentes avanços nos modelos multimodais de raciocínio de grande escala (MLRMs) melhoraram significativamente o desempenho na tarefa de resposta a perguntas visuais. No entanto, observamos que palavras de transição (por exemplo, porque, contudo e espere) estão intimamente associadas a alucinações e tendem a exibir estados de alta entropia. Argumentamos que informações adequadas de raciocínio contextual podem ser extraídas diretamente da distribuição de probabilidade dos tokens. Inspirados pela teoria da representação superposta, propomos aproveitar o raciocínio latente superposto para integrar múltiplas semânticas candidatas e manter trajetórias de raciocínio latentes. A hipótese é que a dependência de entradas textuais discretas pode conduzir o modelo para um raciocínio explícito sequencial, subutilizando pistas contextuais densas durante fases de raciocínio de alta entropia. Portanto, propomos a construção de representações semânticas ricas a partir das distribuições de probabilidade dos tokens para melhorar o raciocínio em contexto. Com este objetivo, apresentamos a Decodificação Sensível à Entropia Latente (LEAD), uma estratégia de decodificação eficiente do tipo "ligar e usar" que aproveita o contexto semântico para alcançar um raciocínio confiável. O cerne do nosso método reside na comutação do modo de raciocínio sensível à entropia. O modelo emprega embeddings contínuos ponderados por probabilidade sob estados de alta entropia e transita de volta para embeddings de tokens discretos à medida que a entropia diminui. Além disso, propomos uma estratégia de injeção de âncoras visuais guiada por prioridades que incentiva o modelo a focar-se na informação visual. Experimentos extensivos mostram que a LEAD mitiga eficazmente as alucinações em vários MLRMs em múltiplos benchmarks.

English

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.

Pensando na Incerteza: Mitigando Alucinações em MLRMs com Decodificação Consciente da Entropia Latente

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Resumo

Support