OMG-LLaVA: Uniendo el razonamiento y la comprensión a nivel de imagen, objeto y píxel
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
June 27, 2024
Autores: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan
cs.AI
Resumen
Los métodos actuales de segmentación universal demuestran capacidades sólidas en la comprensión de imágenes y videos a nivel de píxeles. Sin embargo, carecen de habilidades de razonamiento y no pueden ser controlados mediante instrucciones de texto. En contraste, los grandes modelos multimodales de visión y lenguaje exhiben poderosas capacidades de conversación y razonamiento basadas en la visión, pero carecen de comprensión a nivel de píxeles y tienen dificultades para aceptar indicaciones visuales para una interacción flexible con el usuario. Este artículo propone OMG-LLaVA, un nuevo y elegante marco que combina una poderosa comprensión visual a nivel de píxeles con habilidades de razonamiento. Puede aceptar diversas indicaciones visuales y de texto para una interacción flexible con el usuario. Específicamente, utilizamos un método de segmentación universal como codificador visual, integrando información de la imagen, conocimientos previos de percepción e indicaciones visuales en tokens visuales proporcionados al LLM. El LLM es responsable de comprender las instrucciones de texto del usuario y proporcionar respuestas de texto y resultados de segmentación a nivel de píxeles basados en la información visual. Proponemos la incorporación de conocimientos previos de percepción para integrar mejor estos conocimientos con las características de la imagen. OMG-LLaVA logra razonamiento y comprensión a nivel de imagen, objeto y píxel en un solo modelo, igualando o superando el rendimiento de métodos especializados en múltiples benchmarks. En lugar de utilizar el LLM para conectar a cada especialista, nuestro trabajo apunta al entrenamiento de extremo a extremo en un codificador, un decodificador y un LLM. El código y el modelo han sido liberados para futuras investigaciones.
English
Current universal segmentation methods demonstrate strong capabilities in
pixel-level image and video understanding. However, they lack reasoning
abilities and cannot be controlled via text instructions. In contrast, large
vision-language multimodal models exhibit powerful vision-based conversation
and reasoning capabilities but lack pixel-level understanding and have
difficulty accepting visual prompts for flexible user interaction. This paper
proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level
vision understanding with reasoning abilities. It can accept various visual and
text prompts for flexible user interaction. Specifically, we use a universal
segmentation method as the visual encoder, integrating image information,
perception priors, and visual prompts into visual tokens provided to the LLM.
The LLM is responsible for understanding the user's text instructions and
providing text responses and pixel-level segmentation results based on the
visual information. We propose perception prior embedding to better integrate
perception priors with image features. OMG-LLaVA achieves image-level,
object-level, and pixel-level reasoning and understanding in a single model,
matching or surpassing the performance of specialized methods on multiple
benchmarks. Rather than using LLM to connect each specialist, our work aims at
end-to-end training on one encoder, one decoder, and one LLM. The code and
model have been released for further research.Summary
AI-Generated Summary