ChatPaper.aiChatPaper

Verbesserung der Kognition und Erklärbarkeit multimodaler Basismodelle durch selbstsynthetisierte Daten

Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data

February 19, 2025
Autoren: Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu
cs.AI

Zusammenfassung

Große multimodale Modelle (LMMs) haben beeindruckende Fähigkeiten in einer Vielzahl von visuellen Aufgaben gezeigt. Allerdings haben sie oft Schwierigkeiten mit feinkörniger visueller Argumentation, da sie domänenspezifische Ziele nicht identifizieren und nachvollziehbare Erklärungen für ihre Vorhersagen liefern können. Um dies zu adressieren, schlagen wir ein neuartiges Framework für visuelles Rejection Sampling vor, um die Kognition und Erklärbarkeit von LMMs mithilfe selbstsynthetisierter Daten zu verbessern. Konkret erfordert die visuelle Feinabstimmung Bilder, Abfragen und Zielantworten. Unser Ansatz beginnt mit der Synthese interpretierbarer Antworten, die menschlich überprüfbare visuelle Merkmale enthalten. Diese Merkmale basieren auf von Experten definierten Konzepten, die sorgfältig anhand ihrer Übereinstimmung mit dem Bildinhalt ausgewählt werden. Nach jeder Runde der Feinabstimmung wenden wir einen belohnungsmodellfreien Filtermechanismus an, um die qualitativ hochwertigsten interpretierbaren Antworten für die nächste Abstimmungsrunde auszuwählen. Dieser iterative Prozess der Datensynthese und Feinabstimmung verbessert schrittweise die Fähigkeit des Modells, präzise und nachvollziehbare Erklärungen zu generieren. Experimentelle Ergebnisse demonstrieren die Wirksamkeit unserer Methode bei der Verbesserung sowohl der Genauigkeit als auch der Erklärbarkeit spezialisierter visueller Klassifikationsaufgaben.
English
Large multimodal models (LMMs) have shown impressive capabilities in a wide range of visual tasks. However, they often struggle with fine-grained visual reasoning, failing to identify domain-specific objectives and provide justifiable explanations for their predictions. To address this, we propose a novel visual rejection sampling framework to improve the cognition and explainability of LMMs using self-synthesized data. Specifically, visual fine-tuning requires images, queries, and target answers. Our approach begins by synthesizing interpretable answers that include human-verifiable visual features. These features are based on expert-defined concepts, carefully selected based on their alignment with the image content. After each round of fine-tuning, we apply a reward model-free filtering mechanism to select the highest-quality interpretable answers for the next round of tuning. This iterative process of data synthesis and fine-tuning progressively improves the model's ability to generate accurate and reasonable explanations. Experimental results demonstrate the effectiveness of our method in improving both the accuracy and explainability of specialized visual classification tasks.

Summary

AI-Generated Summary

PDF83February 21, 2025