Amélioration de la cognition et de l'explicabilité des modèles de fondation multimodaux grâce à des données auto-synthétisées

papers.abstract

Les grands modèles multimodaux (LMMs) ont démontré des capacités impressionnantes dans un large éventail de tâches visuelles. Cependant, ils éprouvent souvent des difficultés avec le raisonnement visuel fin, échouant à identifier des objectifs spécifiques à un domaine et à fournir des explications justifiables pour leurs prédictions. Pour remédier à cela, nous proposons un nouveau cadre de rejet visuel par échantillonnage afin d'améliorer la cognition et l'explicabilité des LMMs en utilisant des données auto-synthétisées. Plus précisément, l'affinage visuel nécessite des images, des requêtes et des réponses cibles. Notre approche commence par la synthèse de réponses interprétables qui incluent des caractéristiques visuelles vérifiables par l'homme. Ces caractéristiques sont basées sur des concepts définis par des experts, soigneusement sélectionnés en fonction de leur alignement avec le contenu de l'image. Après chaque cycle d'affinage, nous appliquons un mécanisme de filtrage sans modèle de récompense pour sélectionner les réponses interprétables de la plus haute qualité pour le prochain cycle d'ajustement. Ce processus itératif de synthèse de données et d'affinage améliore progressivement la capacité du modèle à générer des explications précises et raisonnables. Les résultats expérimentaux démontrent l'efficacité de notre méthode pour améliorer à la fois la précision et l'explicabilité des tâches de classification visuelle spécialisées.

English

Large multimodal models (LMMs) have shown impressive capabilities in a wide range of visual tasks. However, they often struggle with fine-grained visual reasoning, failing to identify domain-specific objectives and provide justifiable explanations for their predictions. To address this, we propose a novel visual rejection sampling framework to improve the cognition and explainability of LMMs using self-synthesized data. Specifically, visual fine-tuning requires images, queries, and target answers. Our approach begins by synthesizing interpretable answers that include human-verifiable visual features. These features are based on expert-defined concepts, carefully selected based on their alignment with the image content. After each round of fine-tuning, we apply a reward model-free filtering mechanism to select the highest-quality interpretable answers for the next round of tuning. This iterative process of data synthesis and fine-tuning progressively improves the model's ability to generate accurate and reasonable explanations. Experimental results demonstrate the effectiveness of our method in improving both the accuracy and explainability of specialized visual classification tasks.

Amélioration de la cognition et de l'explicabilité des modèles de fondation multimodaux grâce à des données auto-synthétisées

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

papers.abstract

Support