Mejora de la descripción de subtítulos con especialistas visuales para percepción multimodal

Descriptive Caption Enhancement with Visual Specialists for Multimodal Perception

December 18, 2024
Autores: Yanpeng Sun, Jing Hao, Ke Zhu, Jiang-Jiang Liu, Yuxiang Zhao, Xiaofan Li, Gang Zhang, Zechao Li, Jingdong Wang
cs.AI

Resumen

El entrenamiento de Modelos Multimodalidad Grandes (LMMs, por sus siglas en inglés) se basa en descripciones de imágenes que conectan la imagen y el lenguaje. Los métodos existentes suelen destilar la descripción de los modelos LMM o construir las descripciones a partir de imágenes de internet o por medio de humanos. Proponemos aprovechar especialistas visuales listos para usar, que fueron entrenados inicialmente con imágenes anotadas no para generación de descripciones de imágenes, para mejorar la descripción de la imagen. Nuestro enfoque, denominado DCE, explora atributos de bajo nivel y detallados de objetos (por ejemplo, profundidad, emoción y categorías detalladas) y relaciones entre objetos (por ejemplo, ubicación relativa e interacción humano-objeto), y combina los atributos en la descripción descriptiva. Los experimentos demuestran que dichos especialistas visuales pueden mejorar el rendimiento en tareas de comprensión visual, así como en razonamientos que se benefician de una comprensión visual más precisa. Publicaremos el código fuente y el flujo de trabajo para que otros especialistas visuales puedan integrarse fácilmente en el flujo de trabajo. El código fuente completo del flujo de trabajo DCE y los conjuntos de datos estarán disponibles en https://github.com/syp2ysy/DCE.
English
Training Large Multimodality Models (LMMs) relies on descriptive image caption that connects image and language. Existing methods either distill the caption from the LMM models or construct the captions from the internet images or by human. We propose to leverage off-the-shelf visual specialists, which were trained from annotated images initially not for image captioning, for enhancing the image caption. Our approach, named DCE, explores object low-level and fine-grained attributes (e.g., depth, emotion and fine-grained categories) and object relations (e.g., relative location and human-object-interaction (HOI)), and combine the attributes into the descriptive caption. Experiments demonstrate that such visual specialists are able to improve the performance for visual understanding tasks as well as reasoning that benefits from more accurate visual understanding. We will release the source code and the pipeline so that other visual specialists are easily combined into the pipeline. The complete source code of DCE pipeline and datasets will be available at https://github.com/syp2ysy/DCE.
PDF62December 20, 2024