Amélioration de la Légende Descriptive avec des Spécialistes Visuels pour la Perception Multimodale
Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception
December 18, 2024
Auteurs: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI
Résumé
L'entraînement des grands modèles de multimodalité (LMMs) repose sur des légendes d'images descriptives qui relient l'image et le langage. Les méthodes existantes consistent soit à distiller la légende à partir des modèles LMM, soit à construire les légendes à partir d'images sur internet ou par des humains. Nous proposons de tirer parti des spécialistes visuels prêts à l'emploi, qui ont été formés à partir d'images annotées initialement non pour le sous-titrage d'images, pour améliorer la légende de l'image. Notre approche, nommée DCE, explore les attributs de bas niveau et fins des objets (par exemple, profondeur, émotion et catégories fines) et les relations entre les objets (par exemple, emplacement relatif et interaction humain-objet (HOI)), et combine les attributs dans la légende descriptive. Les expériences démontrent que de tels spécialistes visuels sont capables d'améliorer les performances pour les tâches de compréhension visuelle ainsi que le raisonnement qui bénéficie d'une compréhension visuelle plus précise. Nous publierons le code source et le pipeline afin que d'autres spécialistes visuels puissent être facilement combinés dans le pipeline. Le code source complet du pipeline DCE et des ensembles de données sera disponible sur https://github.com/syp2ysy/DCE.
English
Training Large Multimodality Models (LMMs) relies on descriptive image
caption that connects image and language. Existing methods either distill the
caption from the LMM models or construct the captions from the internet images
or by human. We propose to leverage off-the-shelf visual specialists, which
were trained from annotated images initially not for image captioning, for
enhancing the image caption.
Our approach, named DCE, explores object low-level and fine-grained
attributes (e.g., depth, emotion and fine-grained categories) and object
relations (e.g., relative location and human-object-interaction (HOI)), and
combine the attributes into the descriptive caption. Experiments demonstrate
that such visual specialists are able to improve the performance for visual
understanding tasks as well as reasoning that benefits from more accurate
visual understanding. We will release the source code and the pipeline so that
other visual specialists are easily combined into the pipeline. The complete
source code of DCE pipeline and datasets will be available at
https://github.com/syp2ysy/DCE.Summary
AI-Generated Summary