Denken in onzekerheid: het verminderen van hallucinaties in MLRM's met latent entropie-bewuste decodering

Samenvatting

Recente vooruitgang in multimodale grote redeneermodellen (MLRM's) heeft de prestaties bij visuele vraagbeantwoording aanzienlijk verbeterd. Wij observeren echter dat overgangswoorden (zoals 'omdat', 'echter' en 'wacht') nauw verband houden met hallucinaties en de neiging vertonen om hoog-entropie toestanden aan te nemen. Wij stellen dat adequate contextuele redeneerinformatie rechtstreeks uit de token-waarschijnlijkheidsverdeling kan worden geëxtraheerd. Geïnspireerd door de theorie van supergeposeerde representatie, stellen wij voor om latente supergeposeerde redenering te benutten om meerdere kandidaat-semantieken te integreren en latente redeneertrajecten te behouden. De hypothese is dat afhankelijkheid van discrete tekstuele invoer het model mogelijk naar sequentiële expliciete redenering drijft, waarbij dichte contextuele signalen tijdens hoog-entropie redeneerfasen onderbenut blijven. Daarom stellen wij voor om rijke semantische representaties te construeren vanuit de token-waarschijnlijkheidsverdelingen om de in-context redenering te verbeteren. Met dit doel presenteren wij Latent Entropy-Aware Decoding (LEAD), een efficiënte plug-and-play decodeerstrategie die semantische context benut om betrouwbare redenering te bereiken. De kern van onze methode ligt in entropy-aware redeneermodus-switching. Het model gebruikt waarschijnlijkheidsgewogen continue embeddings onder hoog-entropie toestanden en schakelt terug naar discrete token-embeddings naarmate de entropie afneemt. Bovendien stellen wij een prior-guided visuele ankerinjectiestrategie voor die het model aanmoedigt zich op visuele informatie te focussen. Uitgebreide experimenten tonen aan dat LEAD hallucinaties effectief vermindert bij diverse MLRM's op meerdere benchmarks.

English

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.

Denken in onzekerheid: het verminderen van hallucinaties in MLRM's met latent entropie-bewuste decodering

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Samenvatting

Support