ChatPaper.aiChatPaper

Beschreibung der Bildunterschrift-Verbesserung mit visuellen Spezialisten für multimodale Wahrnehmung

Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

December 18, 2024
Autoren: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI

Zusammenfassung

Das Training von großen Multimodalitätsmodellen (LMMs) basiert auf beschreibenden Bildunterschriften, die Bild und Sprache verbinden. Bestehende Methoden extrahieren die Bildunterschrift entweder aus den LMM-Modellen oder erstellen sie aus Bildern aus dem Internet oder durch menschliche Eingaben. Wir schlagen vor, standardmäßige visuelle Spezialisten zu nutzen, die ursprünglich aus annotierten Bildern trainiert wurden, jedoch nicht für die Bildunterschrift, um die Bildunterschrift zu verbessern. Unser Ansatz, namens DCE, erforscht objektnahe und feinkörnige Attribute (z. B. Tiefe, Emotion und feinkörnige Kategorien) sowie Objektbeziehungen (z. B. relative Position und Mensch-Objekt-Interaktion (HOI)) und kombiniert die Attribute in der beschreibenden Bildunterschrift. Experimente zeigen, dass solche visuellen Spezialisten die Leistung bei visuellen Verständnisaufgaben sowie bei Schlussfolgerungen verbessern können, die von einem genaueren visuellen Verständnis profitieren. Wir werden den Quellcode und die Pipeline veröffentlichen, damit andere visuelle Spezialisten leicht in die Pipeline integriert werden können. Der vollständige Quellcode der DCE-Pipeline und der Datensätze werden unter https://github.com/syp2ysy/DCE verfügbar sein.
English
Training Large Multimodality Models (LMMs) relies on descriptive image caption that connects image and language. Existing methods either distill the caption from the LMM models or construct the captions from the internet images or by human. We propose to leverage off-the-shelf visual specialists, which were trained from annotated images initially not for image captioning, for enhancing the image caption. Our approach, named DCE, explores object low-level and fine-grained attributes (e.g., depth, emotion and fine-grained categories) and object relations (e.g., relative location and human-object-interaction (HOI)), and combine the attributes into the descriptive caption. Experiments demonstrate that such visual specialists are able to improve the performance for visual understanding tasks as well as reasoning that benefits from more accurate visual understanding. We will release the source code and the pipeline so that other visual specialists are easily combined into the pipeline. The complete source code of DCE pipeline and datasets will be available at https://github.com/syp2ysy/DCE.

Summary

AI-Generated Summary

PDF62December 20, 2024