Das verborgene Leben von Tokens: Reduzierung der Halluzination großer Vision-Sprach-Modelle durch visuelle Informationslenkung.

papers.abstract

Große Vision-Sprach-Modelle (LVLMs) können effektiv über sowohl textuelle als auch visuelle Eingaben Schlussfolgerungen ziehen, neigen jedoch dazu, syntaktisch kohärente, aber visuell nicht verankerte Inhalte zu halluzinieren. In diesem Artikel untersuchen wir die internen Dynamiken der Halluzination, indem wir die Rangfolgen der Token-Logits während des Generierungsprozesses untersuchen und drei Schlüsselmuster in der Informationsverarbeitung von LVLMs aufdecken: (1) allmählicher Verlust visueller Informationen - visuell verankerte Tokens werden im Laufe der Generierung allmählich weniger bevorzugt, und (2) frühe Erregung - semantisch sinnvolle Tokens erreichen ihren Höhepunkt in den Schichten früher als in der letzten Schicht. (3) verborgene echte Informationen - visuell verankerte Tokens behalten trotz fehlender endgültiger Entscheidung relativ hohe Rangfolgen bei der Inferenz bei. Basierend auf diesen Erkenntnissen schlagen wir VISTA (Visual Information Steering with Token-logit Augmentation) vor, ein trainingsfreies Interventionsrahmenwerk zur Reduzierung von Halluzinationen und Förderung echter Informationen zur Inferenzzeit. VISTA funktioniert durch die Kombination von zwei komplementären Ansätzen: Verstärkung visueller Informationen im Aktivierungsbereich und Nutzung früher Schichtaktivierungen zur Förderung semantisch sinnvoller Dekodierung. Im Vergleich zu bestehenden Methoden erfordert VISTA keine externe Überwachung und ist auf verschiedene Dekodierungsstrategien anwendbar. Umfangreiche Experimente zeigen, dass VISTA im Durchschnitt die Halluzination um etwa 40% bei der bewerteten offenen Generierungsaufgabe reduziert und kontinuierlich bestehende Methoden auf vier Benchmarks über vier Architekturen unter drei Dekodierungsstrategien übertrifft.

English

Large Vision-Language Models (LVLMs) can reason effectively over both textual and visual inputs, but they tend to hallucinate syntactically coherent yet visually ungrounded contents. In this paper, we investigate the internal dynamics of hallucination by examining the tokens logits rankings throughout the generation process, revealing three key patterns in how LVLMs process information: (1) gradual visual information loss -- visually grounded tokens gradually become less favored throughout generation, and (2) early excitation -- semantically meaningful tokens achieve peak activation in the layers earlier than the final layer. (3) hidden genuine information -- visually grounded tokens though not being eventually decided still retain relatively high rankings at inference. Based on these insights, we propose VISTA (Visual Information Steering with Token-logit Augmentation), a training-free inference-time intervention framework that reduces hallucination while promoting genuine information. VISTA works by combining two complementary approaches: reinforcing visual information in activation space and leveraging early layer activations to promote semantically meaningful decoding. Compared to existing methods, VISTA requires no external supervision and is applicable to various decoding strategies. Extensive experiments show that VISTA on average reduces hallucination by abount 40% on evaluated open-ended generation task, and it consistently outperforms existing methods on four benchmarks across four architectures under three decoding strategies.

Das verborgene Leben von Tokens: Reduzierung der Halluzination großer Vision-Sprach-Modelle durch visuelle Informationslenkung.

The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering

papers.abstract

Support