OMG-LLaVA: Estabelecendo uma Ponte entre o Raciocínio e Compreensão em Nível de Imagem, Nível de Objeto e Nível de Pixel

Resumo

Os métodos atuais de segmentação universal demonstram fortes capacidades em compreensão de imagem e vídeo a nível de pixel. No entanto, eles carecem de habilidades de raciocínio e não podem ser controlados por meio de instruções de texto. Em contraste, os grandes modelos multimodais visão-linguagem exibem poderosas capacidades de conversação e raciocínio baseadas em visão, mas carecem de compreensão a nível de pixel e têm dificuldade em aceitar instruções visuais para interação flexível do usuário. Este artigo propõe o OMG-LLaVA, um novo e elegante framework que combina uma poderosa compreensão visual a nível de pixel com habilidades de raciocínio. Ele pode aceitar vários estímulos visuais e de texto para interação flexível do usuário. Especificamente, utilizamos um método de segmentação universal como o codificador visual, integrando informações de imagem, prioridades de percepção e estímulos visuais em tokens visuais fornecidos ao LLM. O LLM é responsável por compreender as instruções de texto do usuário e fornecer respostas de texto e resultados de segmentação a nível de pixel com base nas informações visuais. Propomos a incorporação de prioridades de percepção para integrar melhor as prioridades de percepção com as características da imagem. O OMG-LLaVA alcança raciocínio e compreensão a nível de imagem, objeto e pixel em um único modelo, igualando ou superando o desempenho de métodos especializados em múltiplos benchmarks. Em vez de usar o LLM para conectar cada especialista, nosso trabalho visa o treinamento de ponta a ponta em um codificador, um decodificador e um LLM. O código e o modelo foram disponibilizados para pesquisas futuras.

English

Current universal segmentation methods demonstrate strong capabilities in pixel-level image and video understanding. However, they lack reasoning abilities and cannot be controlled via text instructions. In contrast, large vision-language multimodal models exhibit powerful vision-based conversation and reasoning capabilities but lack pixel-level understanding and have difficulty accepting visual prompts for flexible user interaction. This paper proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level vision understanding with reasoning abilities. It can accept various visual and text prompts for flexible user interaction. Specifically, we use a universal segmentation method as the visual encoder, integrating image information, perception priors, and visual prompts into visual tokens provided to the LLM. The LLM is responsible for understanding the user's text instructions and providing text responses and pixel-level segmentation results based on the visual information. We propose perception prior embedding to better integrate perception priors with image features. OMG-LLaVA achieves image-level, object-level, and pixel-level reasoning and understanding in a single model, matching or surpassing the performance of specialized methods on multiple benchmarks. Rather than using LLM to connect each specialist, our work aims at end-to-end training on one encoder, one decoder, and one LLM. The code and model have been released for further research.

OMG-LLaVA: Estabelecendo uma Ponte entre o Raciocínio e Compreensão em Nível de Imagem, Nível de Objeto e Nível de Pixel

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Resumo

Support