ChatPaper.aiChatPaper

Amélioration de la Légende Descriptive avec des Spécialistes Visuels pour la Perception Multimodale

Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

December 18, 2024
Auteurs: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI

Résumé

L'entraînement des grands modèles de multimodalité (LMMs) repose sur des légendes d'images descriptives qui relient l'image et le langage. Les méthodes existantes consistent soit à distiller la légende à partir des modèles LMM, soit à construire les légendes à partir d'images sur internet ou par des humains. Nous proposons de tirer parti des spécialistes visuels prêts à l'emploi, qui ont été formés à partir d'images annotées initialement non pour le sous-titrage d'images, pour améliorer la légende de l'image. Notre approche, nommée DCE, explore les attributs de bas niveau et fins des objets (par exemple, profondeur, émotion et catégories fines) et les relations entre les objets (par exemple, emplacement relatif et interaction humain-objet (HOI)), et combine les attributs dans la légende descriptive. Les expériences démontrent que de tels spécialistes visuels sont capables d'améliorer les performances pour les tâches de compréhension visuelle ainsi que le raisonnement qui bénéficie d'une compréhension visuelle plus précise. Nous publierons le code source et le pipeline afin que d'autres spécialistes visuels puissent être facilement combinés dans le pipeline. Le code source complet du pipeline DCE et des ensembles de données sera disponible sur https://github.com/syp2ysy/DCE.
English
Training Large Multimodality Models (LMMs) relies on descriptive image caption that connects image and language. Existing methods either distill the caption from the LMM models or construct the captions from the internet images or by human. We propose to leverage off-the-shelf visual specialists, which were trained from annotated images initially not for image captioning, for enhancing the image caption. Our approach, named DCE, explores object low-level and fine-grained attributes (e.g., depth, emotion and fine-grained categories) and object relations (e.g., relative location and human-object-interaction (HOI)), and combine the attributes into the descriptive caption. Experiments demonstrate that such visual specialists are able to improve the performance for visual understanding tasks as well as reasoning that benefits from more accurate visual understanding. We will release the source code and the pipeline so that other visual specialists are easily combined into the pipeline. The complete source code of DCE pipeline and datasets will be available at https://github.com/syp2ysy/DCE.

Summary

AI-Generated Summary

PDF62December 20, 2024