Selektives Training für große visuelle Sprachmodelle durch visuellen Informationsgewinn

Zusammenfassung

Große visuelle Sprachmodelle (LVLMs) haben bemerkenswerte Fortschritte erzielt, leiden jedoch oft unter Sprachverzerrung, indem sie Antworten produzieren, ohne sich auf visuelle Evidenz zu stützen. Während frühere Arbeiten versuchen, dieses Problem durch Dekodierungsstrategien, architektonische Modifikationen oder kuratierte Instruktionsdaten zu mildern, fehlt ihnen typischerweise eine quantitative Messgröße dafür, wie stark einzelne Trainingsdatenpunkte oder Tokens tatsächlich vom Bild profitieren. In dieser Arbeit führen wir den Visuellen Informationsgewinn (VIG) ein, eine auf Perplexität basierende Metrik, die die Verringerung der Vorhersageunsicherheit durch visuelle Eingabe misst. VIG ermöglicht eine feingranulare Analyse auf Ebene einzelner Datenpunkte und Tokens und hebt effektiv visuell fundierte Elemente wie Farben, räumliche Beziehungen und Attribute hervor. Darauf aufbauend schlagen wir ein VIG-gesteuertes selektives Trainingsschema vor, das Datenpunkte und Tokens mit hohem VIG priorisiert. Dieser Ansatz verbessert die visuelle Verankerung und mildert Sprachverzerrung, erzielt eine überlegene Leistung und reduziert den Überwachungsaufwand erheblich, indem er sich ausschließlich auf visuell informative Datenpunkte und Tokens konzentriert.

English

Large Vision Language Models (LVLMs) have achieved remarkable progress, yet they often suffer from language bias, producing answers without relying on visual evidence. While prior work attempts to mitigate this issue through decoding strategies, architectural modifications, or curated instruction data, they typically lack a quantitative measure of how much individual training samples or tokens actually benefit from the image. In this work, we introduce Visual Information Gain (VIG), a perplexity-based metric that measures the reduction in prediction uncertainty provided by visual input. VIG enables fine-grained analysis at both sample and token levels, effectively highlighting visually grounded elements such as colors, spatial relations, and attributes. Leveraging this, we propose a VIG-guided selective training scheme that prioritizes high-VIG samples and tokens. This approach improves visual grounding and mitigates language bias, achieving superior performance with significantly reduced supervision by focusing exclusively on visually informative samples and tokens.

Selektives Training für große visuelle Sprachmodelle durch visuellen Informationsgewinn

Selective Training for Large Vision Language Models via Visual Information Gain

Zusammenfassung

Support