OMG-LLaVA: Estabelecendo uma Ponte entre o Raciocínio e Compreensão em Nível de Imagem, Nível de Objeto e Nível de Pixel
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
June 27, 2024
Autores: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan
cs.AI
Resumo
Os métodos atuais de segmentação universal demonstram fortes capacidades em compreensão de imagem e vídeo a nível de pixel. No entanto, eles carecem de habilidades de raciocínio e não podem ser controlados por meio de instruções de texto. Em contraste, os grandes modelos multimodais visão-linguagem exibem poderosas capacidades de conversação e raciocínio baseadas em visão, mas carecem de compreensão a nível de pixel e têm dificuldade em aceitar instruções visuais para interação flexível do usuário. Este artigo propõe o OMG-LLaVA, um novo e elegante framework que combina uma poderosa compreensão visual a nível de pixel com habilidades de raciocínio. Ele pode aceitar vários estímulos visuais e de texto para interação flexível do usuário. Especificamente, utilizamos um método de segmentação universal como o codificador visual, integrando informações de imagem, prioridades de percepção e estímulos visuais em tokens visuais fornecidos ao LLM. O LLM é responsável por compreender as instruções de texto do usuário e fornecer respostas de texto e resultados de segmentação a nível de pixel com base nas informações visuais. Propomos a incorporação de prioridades de percepção para integrar melhor as prioridades de percepção com as características da imagem. O OMG-LLaVA alcança raciocínio e compreensão a nível de imagem, objeto e pixel em um único modelo, igualando ou superando o desempenho de métodos especializados em múltiplos benchmarks. Em vez de usar o LLM para conectar cada especialista, nosso trabalho visa o treinamento de ponta a ponta em um codificador, um decodificador e um LLM. O código e o modelo foram disponibilizados para pesquisas futuras.
English
Current universal segmentation methods demonstrate strong capabilities in
pixel-level image and video understanding. However, they lack reasoning
abilities and cannot be controlled via text instructions. In contrast, large
vision-language multimodal models exhibit powerful vision-based conversation
and reasoning capabilities but lack pixel-level understanding and have
difficulty accepting visual prompts for flexible user interaction. This paper
proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level
vision understanding with reasoning abilities. It can accept various visual and
text prompts for flexible user interaction. Specifically, we use a universal
segmentation method as the visual encoder, integrating image information,
perception priors, and visual prompts into visual tokens provided to the LLM.
The LLM is responsible for understanding the user's text instructions and
providing text responses and pixel-level segmentation results based on the
visual information. We propose perception prior embedding to better integrate
perception priors with image features. OMG-LLaVA achieves image-level,
object-level, and pixel-level reasoning and understanding in a single model,
matching or surpassing the performance of specialized methods on multiple
benchmarks. Rather than using LLM to connect each specialist, our work aims at
end-to-end training on one encoder, one decoder, and one LLM. The code and
model have been released for further research.