Mitigazione dell'allucinazione degli oggetti tramite attenzione causale concentrica

Abstract

I recenti Large Vision Language Models (LVLM) presentano notevoli capacità di conversazione e ragionamento zero-shot date le query multimodali. Tuttavia, soffrono di allucinazioni di oggetti, un fenomeno in cui i LVLM sono inclini a generare risposte testuali non allineate ai fatti delle immagini di input. Il nostro studio pilota rivela che l'allucinazione di oggetti è strettamente legata alla Codifica della Posizione Rotativa (RoPE), un design di modellazione delle dipendenze posizionali ampiamente adottato nei LVLM esistenti. A causa del decadimento a lungo termine in RoPE, i LVLM tendono ad allucinare di più quando le indicazioni visive rilevanti sono distanti dai token di istruzione nella sequenza di input multimodale. Inoltre, osserviamo un effetto simile quando si inverte l'ordine sequenziale dei token visivi durante l'allineamento multimodale. I nostri test indicano che il decadimento a lungo termine in RoPE pone sfide ai LVLM nella cattura delle interazioni visivo-istruzione su lunghe distanze. Proponiamo l'Attenzione Causale Concentrica (CCA), una strategia di allineamento posizionale semplice ma efficace che attenua l'impatto del decadimento a lungo termine di RoPE nei LVLM riducendo naturalmente la distanza relativa tra i token visivi e di istruzione. Con CCA, i token visivi possono interagire meglio con i token di istruzione, migliorando così la capacità percettiva del modello e alleviando l'allucinazione di oggetti. Senza fronzoli, il nostro metodo di allineamento posizionale supera di gran lunga le strategie esistenti di mitigazione delle allucinazioni su diversi benchmark di allucinazioni di oggetti.

English

Recent Large Vision Language Models (LVLMs) present remarkable zero-shot conversational and reasoning capabilities given multimodal queries. Nevertheless, they suffer from object hallucination, a phenomenon where LVLMs are prone to generate textual responses not factually aligned with image inputs. Our pilot study reveals that object hallucination is closely tied with Rotary Position Encoding (RoPE), a widely adopted positional dependency modeling design in existing LVLMs. Due to the long-term decay in RoPE, LVLMs tend to hallucinate more when relevant visual cues are distant from instruction tokens in the multimodal input sequence. Additionally, we observe a similar effect when reversing the sequential order of visual tokens during multimodal alignment. Our tests indicate that long-term decay in RoPE poses challenges to LVLMs while capturing visual-instruction interactions across long distances. We propose Concentric Causal Attention (CCA), a simple yet effective positional alignment strategy that mitigates the impact of RoPE long-term decay in LVLMs by naturally reducing relative distance between visual and instruction tokens. With CCA, visual tokens can better interact with instruction tokens, thereby enhancing model's perception capability and alleviating object hallucination. Without bells and whistles, our positional alignment method surpasses existing hallucination mitigation strategies by large margins on multiple object hallucination benchmarks.

Mitigazione dell'allucinazione degli oggetti tramite attenzione causale concentrica

Mitigating Object Hallucination via Concentric Causal Attention

Abstract

Summary

Support

Support