Denken in Unsicherheit: Reduzierung von Halluzinationen in MLRMs durch latente entropiebewusste Dekodierung

Zusammenfassung

Jüngste Fortschritte bei multimodalen großen Reasoning-Modellen (MLRMs) haben die Leistung im Bereich des visuellen Frage-Antwortens erheblich verbessert. Wir beobachten jedoch, dass Übergangswörter (z. B. weil, jedoch und warte) eng mit Halluzinationen verbunden sind und tendenziell Zustände hoher Entropie aufweisen. Wir vertreten die Auffassung, dass angemessene kontextuelle Reasoning-Informationen direkt aus der Token-Wahrscheinlichkeitsverteilung extrahiert werden können. Inspiriert von der Theorie der superponierten Repräsentation schlagen wir vor, latentes superponiertes Reasoning zu nutzen, um mehrere Kandidatensemantiken zu integrieren und latente Reasoning-Pfade beizubehalten. Die Hypothese lautet, dass die Abhängigkeit von diskreten textuellen Eingaben das Modell zu sequentiellem explizitem Reasoning treiben könnte, wodurch dichte kontextuelle Hinweise in Phasen hoher Entropie unzureichend genutzt werden. Daher schlagen wir vor, reiche semantische Repräsentationen aus den Token-Wahrscheinlichkeitsverteilungen zu konstruieren, um das In-Context-Reasoning zu verbessern. Zu diesem Zweck präsentieren wir Latent Entropy-Aware Decoding (LEAD), eine effiziente Plug-and-Play-Decoding-Strategie, die semantischen Kontext nutzt, um zuverlässiges Reasoning zu erreichen. Der Kern unserer Methode liegt im entropiebewussten Wechsel des Reasoning-Modus. Unter Zuständen hoher Entropie verwendet das Modell kontinuierliche Einbettungen, die mit Wahrscheinlichkeiten gewichtet sind, und wechselt zurück zu diskreten Token-Einbettungen, sobald die Entropie abnimmt. Darüber hinaus schlagen wir eine prior-gesteuerte Strategie zur Injektion visueller Anker vor, die das Modell dazu anregt, sich auf visuelle Informationen zu konzentrieren. Umfangreiche Experimente zeigen, dass LEAD Halluzinationen bei verschiedenen MLRMs in mehreren Benchmarks wirksam reduziert.

English

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.

Denken in Unsicherheit: Reduzierung von Halluzinationen in MLRMs durch latente entropiebewusste Dekodierung

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Zusammenfassung

Support