Entraînement sélectif pour les grands modèles de vision et de langage via le gain d'information visuelle

Résumé

Les grands modèles de vision et langage (LVLM) ont réalisé des progrès remarquables, mais ils souffrent souvent d'un biais linguistique, produisant des réponses sans s'appuyer sur des preuves visuelles. Si les travaux antérieurs tentent d'atténuer ce problème par des stratégies de décodage, des modifications architecturales ou des données d'instruction sélectionnées, ils manquent généralement d'une mesure quantitative de la façon dont les échantillons d'entraînement individuels ou les tokens bénéficient réellement de l'image. Dans ce travail, nous introduisons le gain d'information visuelle (VIG), une métrique basée sur la perplexité qui mesure la réduction de l'incertitude de prédiction fournie par l'entrée visuelle. Le VIG permet une analyse fine aux niveaux de l'échantillon et du token, mettant efficacement en évidence les éléments visuellement ancrés tels que les couleurs, les relations spatiales et les attributs. En tirant parti de cela, nous proposons un schéma d'entraînement sélectif guidé par le VIG qui priorise les échantillons et les tokens à VIG élevé. Cette approche améliore l'ancrage visuel et atténue le biais linguistique, obtenant des performances supérieures avec une supervision considérablement réduite en se concentrant exclusivement sur les échantillons et les tokens visuellement informatifs.

English

Large Vision Language Models (LVLMs) have achieved remarkable progress, yet they often suffer from language bias, producing answers without relying on visual evidence. While prior work attempts to mitigate this issue through decoding strategies, architectural modifications, or curated instruction data, they typically lack a quantitative measure of how much individual training samples or tokens actually benefit from the image. In this work, we introduce Visual Information Gain (VIG), a perplexity-based metric that measures the reduction in prediction uncertainty provided by visual input. VIG enables fine-grained analysis at both sample and token levels, effectively highlighting visually grounded elements such as colors, spatial relations, and attributes. Leveraging this, we propose a VIG-guided selective training scheme that prioritizes high-VIG samples and tokens. This approach improves visual grounding and mitigates language bias, achieving superior performance with significantly reduced supervision by focusing exclusively on visually informative samples and tokens.

Entraînement sélectif pour les grands modèles de vision et de langage via le gain d'information visuelle

Selective Training for Large Vision Language Models via Visual Information Gain

Résumé

Support