Pensando en la Incertidumbre: Mitigación de Alucinaciones en MLRM mediante Decodificación Consciente de la Entropía Latente

Resumen

Los recientes avances en modelos multimodales de razonamiento a gran escala (MLRM) han mejorado significativamente el rendimiento en tareas de respuesta visual a preguntas. Sin embargo, observamos que las palabras de transición (por ejemplo, porque, sin embargo, y espera) están estrechamente asociadas con alucinaciones y tienden a exhibir estados de alta entropía. Sostenemos que la información contextual adecuada para el razonamiento puede extraerse directamente de la distribución de probabilidad de tokens. Inspirados por la teoría de representación superpuesta, proponemos aprovechar el razonamiento latente superpuesto para integrar múltiples semánticas candidatas y mantener trayectorias de razonamiento latentes. La hipótesis es que la dependencia de entradas textuales discretas puede llevar al modelo hacia un razonamiento explícito secuencial, subutilizando señales contextuales densas durante las etapas de razonamiento de alta entropía. Por lo tanto, proponemos construir representaciones semánticas ricas a partir de las distribuciones de probabilidad de tokens para mejorar el razonamiento en contexto. Con este objetivo, presentamos Latent Entropy-Aware Decoding (LEAD), una estrategia de decodificación plug-and-play eficiente que aprovecha el contexto semántico para lograr un razonamiento confiable. El núcleo de nuestro método reside en el cambio de modo de razonamiento consciente de la entropía. El modelo emplea incrustaciones continuas ponderadas por probabilidad bajo estados de alta entropía y transiciona de vuelta a incrustaciones de tokens discretos a medida que la entropía disminuye. Además, proponemos una estrategia de inyección de anclajes visuales guiada por previos que incentiva al modelo a enfocarse en información visual. Experimentos exhaustivos demuestran que LEAD mitiga efectivamente las alucinaciones en varios MLRM en múltiples benchmarks.

English

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.

Pensando en la Incertidumbre: Mitigación de Alucinaciones en MLRM mediante Decodificación Consciente de la Entropía Latente

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Resumen

Support