Online-Selbstkalibrierung gegen Halluzinationen in visuell-sprachlichen Modellen

Zusammenfassung

Große visuell-sprachliche Modelle (LVLMs) neigen häufig zu Halluzinationen, indem sie Bildbeschreibungen generieren, die visuelle Details enthalten, die im Eingabebild nicht vorhanden sind. Aktuelle Präferenzabgleichsmethoden stützen sich typischerweise auf Aufsicht, die von stärkeren Modellen wie GPT destilliert wird. Dieses Offline-Paradigma führt jedoch zu einer Überwachungs-Wahrnehmungs-Diskrepanz: Das Schüler-Modell wird gezwungen, sich mit feinkörnigen Details abzugleichen, die seine Wahrnehmungsfähigkeit übersteigen, und lernt so zu raten statt zu sehen. Um zuverlässige Selbstüberwachung für Online-Lernen zu erhalten, identifizieren wir eine generative-diskriminative Lücke innerhalb von LVLMs, bei der Modelle eine höhere Genauigkeit bei der diskriminativen Verifikation als bei der offenen Generierung aufweisen. Unter Nutzung dieser Fähigkeit schlagen wir Online Self-CAlibRation (OSCAR) vor, ein Framework, das Monte-Carlo-Baumsuche mit einem dual-granularen Belohnungsmechanismus integriert, um Präferenzdaten zu konstruieren und das Modell iterativ via Direct Preference Optimization zu verfeinern. Umfangreiche Experimente zeigen, dass OSCAR state-of-the-art Leistung auf Halluzinations-Benchmarks erreicht und gleichzeitig die allgemeinen multimodalen Fähigkeiten verbessert.

English

Large Vision-Language Models (LVLMs) often suffer from hallucinations, generating descriptions that include visual details absent from the input image. Recent preference alignment methods typically rely on supervision distilled from stronger models such as GPT. However, this offline paradigm introduces a Supervision-Perception Mismatch: the student model is forced to align with fine-grained details beyond its perceptual capacity, learning to guess rather than to see. To obtain reliable self-supervision for online learning, we identify a Generative-Discriminative Gap within LVLMs, where models exhibit higher accuracy on discriminative verification than open-ended generation. Leveraging this capability, we propose Online Self-CAlibRation (OSCAR), a framework that integrates Monte Carlo Tree Search with a Dual-Granularity Reward Mechanism to construct preference data and iteratively refines the model via Direct Preference Optimization. Extensive experiments demonstrate that OSCAR achieves state-of-the-art performance on hallucination benchmarks while improving general multimodal capabilities.

Online-Selbstkalibrierung gegen Halluzinationen in visuell-sprachlichen Modellen

Online Self-Calibration Against Hallucination in Vision-Language Models

Zusammenfassung

Support