Penser dans l'incertitude : Atténuer les hallucinations dans les MLRM par un décodage sensible à l'entropie latente

Résumé

Les récents progrès des modèles de raisonnement multimodal (MLRM) ont considérablement amélioré les performances en réponse à des questions visuelles. Cependant, nous observons que les mots de transition (par exemple, parce que, cependant, et attends) sont étroitement associés aux hallucinations et tendent à présenter des états à haute entropie. Nous soutenons que des informations de raisonnement contextuel adéquates peuvent être extraites directement de la distribution de probabilité des tokens. Inspirés par la théorie de la représentation superposée, nous proposons d'exploiter le raisonnement latent superposé pour intégrer de multiples sémantiques candidates et maintenir des trajectoires de raisonnement latentes. L'hypothèse est que la dépendance à des entrées textuelles discrètes pourrait conduire le modèle vers un raisonnement explicite séquentiel, sous-utilisant les indices contextuels denses durant les phases de raisonnement à haute entropie. Par conséquent, nous proposons de construire des représentations sémantiques riches à partir des distributions de probabilité des tokens pour améliorer le raisonnement en contexte. Dans ce but, nous présentons le Décodage Sensible à l'Entropie Latente (LEAD), une stratégie de décodage efficace prête à l'emploi qui exploite le contexte sémantique pour parvenir à un raisonnement fiable. Le cœur de notre méthode réside dans la commutation de mode de raisonnement sensible à l'entropie. Le modèle utilise des embeddings continus pondérés par les probabilités dans les états de haute entropie et revient aux embeddings discrets de tokens lorsque l'entropie diminue. De plus, nous proposons une stratégie d'injection d'ancres visuelles guidée par des connaissances préalables qui encourage le modèle à se concentrer sur l'information visuelle. Des expériences approfondies montrent que LEAD atténue efficacement les hallucinations sur divers MLRM et plusieurs benchmarks.

English

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.

Penser dans l'incertitude : Atténuer les hallucinations dans les MLRM par un décodage sensible à l'entropie latente

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Résumé

Support