ChatPaper.aiChatPaper

Verbetering van beschrijvende bijschriften met visuele specialisten voor multimodale perceptie.

Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

December 18, 2024
Auteurs: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI

Samenvatting

Het trainen van Grote Multimodaliteitsmodellen (LMM's) is afhankelijk van beschrijvende afbeeldingsbijschriften die afbeelding en taal verbinden. Bestaande methoden destilleren het bijschrift uit de LMM-modellen of construeren de bijschriften van internetafbeeldingen of door mensen. Wij stellen voor om gebruik te maken van kant-en-klare visuele specialisten, die oorspronkelijk zijn getraind op geannoteerde afbeeldingen niet voor afbeeldingsbijschriften, om het afbeeldingsbijschrift te verbeteren. Onze aanpak, genaamd DCE, onderzoekt objectkenmerken op laag niveau en fijnkorrelige kenmerken (bijv. diepte, emotie en fijnkorrelige categorieën) en objectrelaties (bijv. relatieve locatie en mens-object-interactie (HOI)), en combineert de kenmerken in het beschrijvende bijschrift. Experimenten tonen aan dat dergelijke visuele specialisten in staat zijn de prestaties voor visuele begripstaken te verbeteren, evenals redeneringen die profiteren van een nauwkeuriger visueel begrip. We zullen de broncode en de pipeline vrijgeven zodat andere visuele specialisten gemakkelijk in de pipeline kunnen worden opgenomen. De volledige broncode van de DCE-pipeline en datasets zal beschikbaar zijn op https://github.com/syp2ysy/DCE.
English
Training Large Multimodality Models (LMMs) relies on descriptive image caption that connects image and language. Existing methods either distill the caption from the LMM models or construct the captions from the internet images or by human. We propose to leverage off-the-shelf visual specialists, which were trained from annotated images initially not for image captioning, for enhancing the image caption. Our approach, named DCE, explores object low-level and fine-grained attributes (e.g., depth, emotion and fine-grained categories) and object relations (e.g., relative location and human-object-interaction (HOI)), and combine the attributes into the descriptive caption. Experiments demonstrate that such visual specialists are able to improve the performance for visual understanding tasks as well as reasoning that benefits from more accurate visual understanding. We will release the source code and the pipeline so that other visual specialists are easily combined into the pipeline. The complete source code of DCE pipeline and datasets will be available at https://github.com/syp2ysy/DCE.
PDF62February 8, 2026