Verbesserung der Kognition und Erklärbarkeit multimodaler Basismodelle durch selbstsynthetisierte Daten
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data
February 19, 2025
Autoren: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
cs.AI
Zusammenfassung
Große multimodale Modelle (LMMs) haben beeindruckende Fähigkeiten in einer Vielzahl von visuellen Aufgaben gezeigt. Allerdings haben sie oft Schwierigkeiten mit feinkörniger visueller Argumentation, da sie domänenspezifische Ziele nicht identifizieren und nachvollziehbare Erklärungen für ihre Vorhersagen liefern können. Um dies zu adressieren, schlagen wir ein neuartiges Framework für visuelles Rejection Sampling vor, um die Kognition und Erklärbarkeit von LMMs mithilfe selbstsynthetisierter Daten zu verbessern. Konkret erfordert die visuelle Feinabstimmung Bilder, Abfragen und Zielantworten. Unser Ansatz beginnt mit der Synthese interpretierbarer Antworten, die menschlich überprüfbare visuelle Merkmale enthalten. Diese Merkmale basieren auf von Experten definierten Konzepten, die sorgfältig anhand ihrer Übereinstimmung mit dem Bildinhalt ausgewählt werden. Nach jeder Runde der Feinabstimmung wenden wir einen belohnungsmodellfreien Filtermechanismus an, um die qualitativ hochwertigsten interpretierbaren Antworten für die nächste Abstimmungsrunde auszuwählen. Dieser iterative Prozess der Datensynthese und Feinabstimmung verbessert schrittweise die Fähigkeit des Modells, präzise und nachvollziehbare Erklärungen zu generieren. Experimentelle Ergebnisse demonstrieren die Wirksamkeit unserer Methode bei der Verbesserung sowohl der Genauigkeit als auch der Erklärbarkeit spezialisierter visueller Klassifikationsaufgaben.
English
Large multimodal models (LMMs) have shown impressive capabilities in a wide
range of visual tasks. However, they often struggle with fine-grained visual
reasoning, failing to identify domain-specific objectives and provide
justifiable explanations for their predictions. To address this, we propose a
novel visual rejection sampling framework to improve the cognition and
explainability of LMMs using self-synthesized data. Specifically, visual
fine-tuning requires images, queries, and target answers. Our approach begins
by synthesizing interpretable answers that include human-verifiable visual
features. These features are based on expert-defined concepts, carefully
selected based on their alignment with the image content. After each round of
fine-tuning, we apply a reward model-free filtering mechanism to select the
highest-quality interpretable answers for the next round of tuning. This
iterative process of data synthesis and fine-tuning progressively improves the
model's ability to generate accurate and reasonable explanations. Experimental
results demonstrate the effectiveness of our method in improving both the
accuracy and explainability of specialized visual classification tasks.Summary
AI-Generated Summary