Mitigazione dell'allucinazione degli oggetti tramite attenzione causale concentrica
Mitigating Object Hallucination via Concentric Causal Attention
October 21, 2024
Autori: Yun Xing, Yiheng Li, Ivan Laptev, Shijian Lu
cs.AI
Abstract
I recenti Large Vision Language Models (LVLM) presentano notevoli capacità di conversazione e ragionamento zero-shot date le query multimodali. Tuttavia, soffrono di allucinazioni di oggetti, un fenomeno in cui i LVLM sono inclini a generare risposte testuali non allineate ai fatti delle immagini di input. Il nostro studio pilota rivela che l'allucinazione di oggetti è strettamente legata alla Codifica della Posizione Rotativa (RoPE), un design di modellazione delle dipendenze posizionali ampiamente adottato nei LVLM esistenti. A causa del decadimento a lungo termine in RoPE, i LVLM tendono ad allucinare di più quando le indicazioni visive rilevanti sono distanti dai token di istruzione nella sequenza di input multimodale. Inoltre, osserviamo un effetto simile quando si inverte l'ordine sequenziale dei token visivi durante l'allineamento multimodale. I nostri test indicano che il decadimento a lungo termine in RoPE pone sfide ai LVLM nella cattura delle interazioni visivo-istruzione su lunghe distanze. Proponiamo l'Attenzione Causale Concentrica (CCA), una strategia di allineamento posizionale semplice ma efficace che attenua l'impatto del decadimento a lungo termine di RoPE nei LVLM riducendo naturalmente la distanza relativa tra i token visivi e di istruzione. Con CCA, i token visivi possono interagire meglio con i token di istruzione, migliorando così la capacità percettiva del modello e alleviando l'allucinazione di oggetti. Senza fronzoli, il nostro metodo di allineamento posizionale supera di gran lunga le strategie esistenti di mitigazione delle allucinazioni su diversi benchmark di allucinazioni di oggetti.
English
Recent Large Vision Language Models (LVLMs) present remarkable zero-shot
conversational and reasoning capabilities given multimodal queries.
Nevertheless, they suffer from object hallucination, a phenomenon where LVLMs
are prone to generate textual responses not factually aligned with image
inputs. Our pilot study reveals that object hallucination is closely tied with
Rotary Position Encoding (RoPE), a widely adopted positional dependency
modeling design in existing LVLMs. Due to the long-term decay in RoPE, LVLMs
tend to hallucinate more when relevant visual cues are distant from instruction
tokens in the multimodal input sequence. Additionally, we observe a similar
effect when reversing the sequential order of visual tokens during multimodal
alignment. Our tests indicate that long-term decay in RoPE poses challenges to
LVLMs while capturing visual-instruction interactions across long distances. We
propose Concentric Causal Attention (CCA), a simple yet effective positional
alignment strategy that mitigates the impact of RoPE long-term decay in LVLMs
by naturally reducing relative distance between visual and instruction tokens.
With CCA, visual tokens can better interact with instruction tokens, thereby
enhancing model's perception capability and alleviating object hallucination.
Without bells and whistles, our positional alignment method surpasses existing
hallucination mitigation strategies by large margins on multiple object
hallucination benchmarks.Summary
AI-Generated Summary