Pensare nell'Incertezza: Mitigare le Allucinazioni nei MLRMs con Decodifica Consapevole dell'Entropia Latente

Abstract

I recenti progressi nei modelli multimodali di ragionamento su larga scala (MLRM) hanno migliorato significativamente le prestazioni nel campo del question answering visivo. Tuttavia, osserviamo che le parole di transizione (ad esempio, *perché*, *tuttavia* e *aspetta*) sono strettamente associate ad allucinazioni e tendono a manifestare stati ad alta entropia. Sosteniamo che adeguate informazioni di ragionamento contestuale possano essere estratte direttamente dalla distribuzione di probabilità dei token. Ispirati dalla teoria della rappresentazione sovrapposta, proponiamo di sfruttare il ragionamento latente sovrapposto per integrare molteplici semantiche candidate e mantenere traiettorie di ragionamento latenti. L'ipotesi è che la dipendenza da input testuali discreti possa spingere il modello verso un ragionamento esplicito sequenziale, sottoutilizzando gli indizi contestuali densi durante le fasi di ragionamento ad alta entropia. Pertanto, proponiamo di costruire ricche rappresentazioni semantiche a partire dalle distribuzioni di probabilità dei token per potenziare il ragionamento in contesto. Con questo obiettivo, presentiamo il *Latent Entropy-Aware Decoding* (LEAD), una strategia di decodifica plug-and-play efficiente che sfrutta il contesto semantico per ottenere un ragionamento affidabile. Il cuore del nostro metodo risiede nella commutazione della modalità di ragionamento basata sull'entropia. Il modello utilizza embedding continui ponderati probabilisticamente in stati di alta entropia e ritorna agli embedding discreti dei token man mano che l'entropia diminuisce. Inoltre, proponiamo una strategia di iniezione di ancore visive guidata da prior che incoraggia il modello a concentrarsi sulle informazioni visive. Esperimenti estensivi dimostrano che LEAD mitiga efficacemente le allucinazioni in vari MLRM su molteplici benchmark.

English

Recent advancements in multimodal large reasoning models (MLRMs) have significantly improved performance in visual question answering. However, we observe that transition words (e.g., because, however, and wait) are closely associated with hallucinations and tend to exhibit high-entropy states. We argue that adequate contextual reasoning information can be directly extracted from the token probability distribution. Inspired by superposed representation theory, we propose leveraging latent superposed reasoning to integrate multiple candidate semantics and maintain latent reasoning trajectories. The hypothesis is that reliance on discrete textual inputs may drive the model toward sequential explicit reasoning, underutilizing dense contextual cues during high-entropy reasoning stages. Therefore, we propose constructing rich semantic representations from the token probability distributions to enhance in-context reasoning. With this goal, we present Latent Entropy-Aware Decoding (LEAD), an efficient plug-and-play decoding strategy that leverages semantic context to achieve reliable reasoning. The heart of our method lies in entropy-aware reasoning mode switching. The model employs probability-weighted continuous embeddings under high-entropy states and transitions back to discrete token embeddings as entropy decreases. Moreover, we propose a prior-guided visual anchor injection strategy that encourages the model to focus on visual information. Extensive experiments show that LEAD effectively mitigates hallucinations across various MLRMs on multiple benchmarks.

Pensare nell'Incertezza: Mitigare le Allucinazioni nei MLRMs con Decodifica Consapevole dell'Entropia Latente

Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding

Abstract

Support