ChatPaper.aiChatPaper

Улучшение описательного заголовка с помощью визуальных специалистов для мультимодального восприятия.

Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

December 18, 2024
Авторы: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI

Аннотация

Обучение больших мультимодельных моделей (LMMs) основано на описательном изображении, которое соединяет изображение и язык. Существующие методы либо извлекают подпись из моделей LMM, либо создают подписи из интернет-изображений или с помощью человека. Мы предлагаем использовать готовых визуальных специалистов, которые были обучены на аннотированных изображениях изначально не для подписывания изображений, для улучшения подписи изображения. Наш подход, названный DCE, исследует низкоуровневые и детализированные атрибуты объектов (например, глубину, эмоции и детализированные категории) и отношения между объектами (например, относительное расположение и взаимодействие человек-объект (HOI)), и объединяет атрибуты в описательную подпись. Эксперименты показывают, что такие визуальные специалисты способны улучшить производительность для задач визуального понимания, а также рассуждения, которые выигрывают от более точного визуального понимания. Мы выпустим исходный код и конвейер, чтобы другие визуальные специалисты могли легко включаться в конвейер. Полный исходный код конвейера DCE и наборы данных будут доступны на https://github.com/syp2ysy/DCE.
English
Training Large Multimodality Models (LMMs) relies on descriptive image caption that connects image and language. Existing methods either distill the caption from the LMM models or construct the captions from the internet images or by human. We propose to leverage off-the-shelf visual specialists, which were trained from annotated images initially not for image captioning, for enhancing the image caption. Our approach, named DCE, explores object low-level and fine-grained attributes (e.g., depth, emotion and fine-grained categories) and object relations (e.g., relative location and human-object-interaction (HOI)), and combine the attributes into the descriptive caption. Experiments demonstrate that such visual specialists are able to improve the performance for visual understanding tasks as well as reasoning that benefits from more accurate visual understanding. We will release the source code and the pipeline so that other visual specialists are easily combined into the pipeline. The complete source code of DCE pipeline and datasets will be available at https://github.com/syp2ysy/DCE.

Summary

AI-Generated Summary

PDF62December 20, 2024