OMG-LLaVA: Overbrugging van Redeneren en Begrip op Beeldniveau, Objectniveau en Pixel
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
June 27, 2024
Auteurs: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan
cs.AI
Samenvatting
Huidige universele segmentatiemethoden tonen sterke mogelijkheden in pixel-niveau beeld- en videobegrip. Ze missen echter redeneervermogen en kunnen niet worden bestuurd via tekstinstructies. Daarentegen vertonen grote visueel-taalkundige multimodale modellen krachtige visueel gebaseerde conversatie- en redeneervermogens, maar missen pixel-niveau begrip en hebben moeite met het accepteren van visuele prompts voor flexibele gebruikersinteractie. Dit artikel stelt OMG-LLaVA voor, een nieuw en elegant framework dat krachtig pixel-niveau visueel begrip combineert met redeneervermogen. Het kan verschillende visuele en tekstprompts accepteren voor flexibele gebruikersinteractie. Specifiek gebruiken we een universele segmentatiemethode als de visuele encoder, waarbij beeldinformatie, perceptiepriors en visuele prompts worden geïntegreerd in visuele tokens die aan de LLM worden aangeboden. De LLM is verantwoordelijk voor het begrijpen van de tekstinstructies van de gebruiker en het leveren van tekstreacties en pixel-niveau segmentatieresultaten op basis van de visuele informatie. We stellen perceptie prior embedding voor om perceptiepriors beter te integreren met beeldkenmerken. OMG-LLaVA bereikt beeldniveau, objectniveau en pixel-niveau redenering en begrip in één model, en evenaart of overtreft de prestaties van gespecialiseerde methoden op meerdere benchmarks. In plaats van de LLM te gebruiken om elke specialist te verbinden, richt ons werk zich op end-to-end training van één encoder, één decoder en één LLM. De code en het model zijn vrijgegeven voor verder onderzoek.
English
Current universal segmentation methods demonstrate strong capabilities in
pixel-level image and video understanding. However, they lack reasoning
abilities and cannot be controlled via text instructions. In contrast, large
vision-language multimodal models exhibit powerful vision-based conversation
and reasoning capabilities but lack pixel-level understanding and have
difficulty accepting visual prompts for flexible user interaction. This paper
proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level
vision understanding with reasoning abilities. It can accept various visual and
text prompts for flexible user interaction. Specifically, we use a universal
segmentation method as the visual encoder, integrating image information,
perception priors, and visual prompts into visual tokens provided to the LLM.
The LLM is responsible for understanding the user's text instructions and
providing text responses and pixel-level segmentation results based on the
visual information. We propose perception prior embedding to better integrate
perception priors with image features. OMG-LLaVA achieves image-level,
object-level, and pixel-level reasoning and understanding in a single model,
matching or surpassing the performance of specialized methods on multiple
benchmarks. Rather than using LLM to connect each specialist, our work aims at
end-to-end training on one encoder, one decoder, and one LLM. The code and
model have been released for further research.