Amélioration de la cognition et de l'explicabilité des modèles de fondation multimodaux grâce à des données auto-synthétisées
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
February 19, 2025
Auteurs: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
cs.AI
Résumé
Les grands modèles multimodaux (LMMs) ont démontré des capacités impressionnantes dans un large éventail de tâches visuelles. Cependant, ils éprouvent souvent des difficultés avec le raisonnement visuel fin, échouant à identifier des objectifs spécifiques à un domaine et à fournir des explications justifiables pour leurs prédictions. Pour remédier à cela, nous proposons un nouveau cadre de rejet visuel par échantillonnage afin d'améliorer la cognition et l'explicabilité des LMMs en utilisant des données auto-synthétisées. Plus précisément, l'affinage visuel nécessite des images, des requêtes et des réponses cibles. Notre approche commence par la synthèse de réponses interprétables qui incluent des caractéristiques visuelles vérifiables par l'homme. Ces caractéristiques sont basées sur des concepts définis par des experts, soigneusement sélectionnés en fonction de leur alignement avec le contenu de l'image. Après chaque cycle d'affinage, nous appliquons un mécanisme de filtrage sans modèle de récompense pour sélectionner les réponses interprétables de la plus haute qualité pour le prochain cycle d'ajustement. Ce processus itératif de synthèse de données et d'affinage améliore progressivement la capacité du modèle à générer des explications précises et raisonnables. Les résultats expérimentaux démontrent l'efficacité de notre méthode pour améliorer à la fois la précision et l'explicabilité des tâches de classification visuelle spécialisées.
English
Large multimodal models (LMMs) have shown impressive capabilities in a wide
range of visual tasks. However, they often struggle with fine-grained visual
reasoning, failing to identify domain-specific objectives and provide
justifiable explanations for their predictions. To address this, we propose a
novel visual rejection sampling framework to improve the cognition and
explainability of LMMs using self-synthesized data. Specifically, visual
fine-tuning requires images, queries, and target answers. Our approach begins
by synthesizing interpretable answers that include human-verifiable visual
features. These features are based on expert-defined concepts, carefully
selected based on their alignment with the image content. After each round of
fine-tuning, we apply a reward model-free filtering mechanism to select the
highest-quality interpretable answers for the next round of tuning. This
iterative process of data synthesis and fine-tuning progressively improves the
model's ability to generate accurate and reasonable explanations. Experimental
results demonstrate the effectiveness of our method in improving both the
accuracy and explainability of specialized visual classification tasks.Summary
AI-Generated Summary