Das verborgene Leben von Tokens: Reduzierung der Halluzination großer Vision-Sprach-Modelle durch visuelle Informationslenkung.
The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering
February 5, 2025
Autoren: Zhuowei Li, Haizhou Shi, Yunhe Gao, Di Liu, Zhenting Wang, Yuxiao Chen, Ting Liu, Long Zhao, Hao Wang, Dimitris N. Metaxas
cs.AI
Zusammenfassung
Große Vision-Sprach-Modelle (LVLMs) können effektiv über sowohl textuelle als auch visuelle Eingaben Schlussfolgerungen ziehen, neigen jedoch dazu, syntaktisch kohärente, aber visuell nicht verankerte Inhalte zu halluzinieren. In diesem Artikel untersuchen wir die internen Dynamiken der Halluzination, indem wir die Rangfolgen der Token-Logits während des Generierungsprozesses untersuchen und drei Schlüsselmuster in der Informationsverarbeitung von LVLMs aufdecken: (1) allmählicher Verlust visueller Informationen - visuell verankerte Tokens werden im Laufe der Generierung allmählich weniger bevorzugt, und (2) frühe Erregung - semantisch sinnvolle Tokens erreichen ihren Höhepunkt in den Schichten früher als in der letzten Schicht. (3) verborgene echte Informationen - visuell verankerte Tokens behalten trotz fehlender endgültiger Entscheidung relativ hohe Rangfolgen bei der Inferenz bei. Basierend auf diesen Erkenntnissen schlagen wir VISTA (Visual Information Steering with Token-logit Augmentation) vor, ein trainingsfreies Interventionsrahmenwerk zur Reduzierung von Halluzinationen und Förderung echter Informationen zur Inferenzzeit. VISTA funktioniert durch die Kombination von zwei komplementären Ansätzen: Verstärkung visueller Informationen im Aktivierungsbereich und Nutzung früher Schichtaktivierungen zur Förderung semantisch sinnvoller Dekodierung. Im Vergleich zu bestehenden Methoden erfordert VISTA keine externe Überwachung und ist auf verschiedene Dekodierungsstrategien anwendbar. Umfangreiche Experimente zeigen, dass VISTA im Durchschnitt die Halluzination um etwa 40% bei der bewerteten offenen Generierungsaufgabe reduziert und kontinuierlich bestehende Methoden auf vier Benchmarks über vier Architekturen unter drei Dekodierungsstrategien übertrifft.
English
Large Vision-Language Models (LVLMs) can reason effectively over both textual
and visual inputs, but they tend to hallucinate syntactically coherent yet
visually ungrounded contents. In this paper, we investigate the internal
dynamics of hallucination by examining the tokens logits rankings throughout
the generation process, revealing three key patterns in how LVLMs process
information: (1) gradual visual information loss -- visually grounded tokens
gradually become less favored throughout generation, and (2) early excitation
-- semantically meaningful tokens achieve peak activation in the layers earlier
than the final layer. (3) hidden genuine information -- visually grounded
tokens though not being eventually decided still retain relatively high
rankings at inference. Based on these insights, we propose VISTA (Visual
Information Steering with Token-logit Augmentation), a training-free
inference-time intervention framework that reduces hallucination while
promoting genuine information. VISTA works by combining two complementary
approaches: reinforcing visual information in activation space and leveraging
early layer activations to promote semantically meaningful decoding. Compared
to existing methods, VISTA requires no external supervision and is applicable
to various decoding strategies. Extensive experiments show that VISTA on
average reduces hallucination by abount 40% on evaluated open-ended generation
task, and it consistently outperforms existing methods on four benchmarks
across four architectures under three decoding strategies.Summary
AI-Generated Summary