Selectieve Training voor Grote Visueel-Taalmodellen via Visuele Informatietoename

Samenvatting

Grote Visueel-Taalmodellen (LVLM's) hebben opmerkelijke vooruitgang geboekt, maar lijden vaak aan taalvooroordeel, waarbij ze antwoorden produceren zonder zich op visueel bewijs te baseren. Hoewel eerder werk dit probleem probeert te verhelpen met decodeerstrategieën, architectuurwijzigingen of geselecteerde instructiedata, ontbreekt daarbij meestal een kwantitatieve maatstaf voor de vraag in hoeverre individuele trainingsvoorbeelden of tokens daadwerkelijk baat hebben bij de afbeelding. In dit werk introduceren we Visuele Informatiewinst (VIG), een op perplexiteit gebaseerde metriek die de vermindering van voorspellingsonzekerheid door visuele invoer meet. VIG maakt gedetailleerde analyse op zowel voorbeeld- als tokenniveau mogelijk en benadrukt effectief visueel onderbouwde elementen zoals kleuren, ruimtelijke relaties en attributen. Hierop voortbordurend stellen we een VIG-gestuurd selectief trainingsschema voor dat prioriteit geeft aan voorbeelden en tokens met een hoge VIG. Deze aanpak verbetert de visuele verankering en vermindert taalvooroordeel, wat superieure prestaties oplevert met aanzienlijk minder toezicht door uitsluitend te focussen op visueel informatieve voorbeelden en tokens.

English

Large Vision Language Models (LVLMs) have achieved remarkable progress, yet they often suffer from language bias, producing answers without relying on visual evidence. While prior work attempts to mitigate this issue through decoding strategies, architectural modifications, or curated instruction data, they typically lack a quantitative measure of how much individual training samples or tokens actually benefit from the image. In this work, we introduce Visual Information Gain (VIG), a perplexity-based metric that measures the reduction in prediction uncertainty provided by visual input. VIG enables fine-grained analysis at both sample and token levels, effectively highlighting visually grounded elements such as colors, spatial relations, and attributes. Leveraging this, we propose a VIG-guided selective training scheme that prioritizes high-VIG samples and tokens. This approach improves visual grounding and mitigates language bias, achieving superior performance with significantly reduced supervision by focusing exclusively on visually informative samples and tokens.

Selectieve Training voor Grote Visueel-Taalmodellen via Visuele Informatietoename

Selective Training for Large Vision Language Models via Visual Information Gain

Samenvatting

Support