Mehr Denken, weniger Sehen? Bewertung verstärkter Halluzinationen in multimodalen Reasoning-Modellen
More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models
May 23, 2025
Autoren: Chengzhi Liu, Zhongxing Xu, Qingyue Wei, Juncheng Wu, James Zou, Xin Eric Wang, Yuyin Zhou, Sheng Liu
cs.AI
Zusammenfassung
Die Rechenleistung zur Testzeit hat multimodale große Sprachmodelle befähigt, umfangreiche Argumentationsketten zu generieren, was zu einer starken Leistung bei Aufgaben wie multimodaler mathematischer Argumentation führt. Diese verbesserte Argumentationsfähigkeit geht jedoch oft mit einer erhöhten Halluzination einher: Je länger die Generierungen werden, desto mehr entfernen sich die Modelle vom bildgestützten Inhalt und verlassen sich stärker auf sprachliche Vorannahmen. Eine Aufmerksamkeitsanalyse zeigt, dass längere Argumentationsketten zu einer verringerten Fokussierung auf visuelle Eingaben führen, was zur Halluzination beiträgt. Um dieses Phänomen systematisch zu untersuchen, führen wir RH-AUC ein, eine Metrik, die quantifiziert, wie sich die Wahrnehmungsgenauigkeit eines Modells mit der Argumentationslänge verändert, und es uns ermöglicht, zu bewerten, ob das Modell die visuelle Verankerung während der Argumentation bewahrt. Wir veröffentlichen außerdem RH-Bench, einen diagnostischen Benchmark, der eine Vielzahl multimodaler Aufgaben umfasst und dazu dient, den Kompromiss zwischen Argumentationsfähigkeit und Halluzination zu bewerten. Unsere Analyse zeigt, dass (i) größere Modelle typischerweise eine bessere Balance zwischen Argumentation und Wahrnehmung erreichen und (ii) diese Balance stärker durch die Arten und Domänen der Trainingsdaten als durch deren Gesamtmenge beeinflusst wird. Diese Erkenntnisse unterstreichen die Bedeutung von Bewertungsrahmen, die sowohl die Qualität der Argumentation als auch die Wahrnehmungstreue gemeinsam berücksichtigen.
English
Test-time compute has empowered multimodal large language models to generate
extended reasoning chains, yielding strong performance on tasks such as
multimodal math reasoning. However, this improved reasoning ability often comes
with increased hallucination: as generations become longer, models tend to
drift away from image-grounded content and rely more heavily on language
priors. Attention analysis shows that longer reasoning chains lead to reduced
focus on visual inputs, which contributes to hallucination. To systematically
study this phenomenon, we introduce RH-AUC, a metric that quantifies how a
model's perception accuracy changes with reasoning length, allowing us to
evaluate whether the model preserves visual grounding during reasoning. We also
release RH-Bench, a diagnostic benchmark that spans a variety of multimodal
tasks, designed to assess the trade-off between reasoning ability and
hallucination. Our analysis reveals that (i) larger models typically achieve a
better balance between reasoning and perception, and (ii) this balance is
influenced more by the types and domains of training data than by its overall
volume. These findings underscore the importance of evaluation frameworks that
jointly consider both reasoning quality and perceptual fidelity.