ChatPaper.aiChatPaper

OMG-LLaVA: Colmare il divario tra ragionamento e comprensione a livello di immagine, oggetto e pixel

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

June 27, 2024
Autori: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan
cs.AI

Abstract

I metodi di segmentazione universale attuali dimostrano capacità avanzate nella comprensione di immagini e video a livello di pixel. Tuttavia, mancano di abilità di ragionamento e non possono essere controllati tramite istruzioni testuali. Al contrario, i grandi modelli multimodali visione-linguaggio mostrano potenti capacità di conversazione e ragionamento basate sulla visione, ma mancano di comprensione a livello di pixel e hanno difficoltà ad accettare prompt visivi per un'interazione flessibile con l'utente. Questo articolo propone OMG-LLaVA, un nuovo ed elegante framework che combina una potente comprensione visiva a livello di pixel con abilità di ragionamento. Esso può accettare vari prompt visivi e testuali per un'interazione flessibile con l'utente. Nello specifico, utilizziamo un metodo di segmentazione universale come encoder visivo, integrando informazioni dell'immagine, priorità percettive e prompt visivi in token visivi forniti al LLM. Il LLM è responsabile della comprensione delle istruzioni testuali dell'utente e della fornitura di risposte testuali e risultati di segmentazione a livello di pixel basati sulle informazioni visive. Proponiamo l'embedding di priorità percettive per integrare meglio le priorità percettive con le caratteristiche dell'immagine. OMG-LLaVA raggiunge il ragionamento e la comprensione a livello di immagine, oggetto e pixel in un unico modello, eguagliando o superando le prestazioni di metodi specializzati su molteplici benchmark. Piuttosto che utilizzare il LLM per connettere ogni specialista, il nostro lavoro mira a un addestramento end-to-end su un encoder, un decoder e un LLM. Il codice e il modello sono stati rilasciati per ulteriori ricerche.
English
Current universal segmentation methods demonstrate strong capabilities in pixel-level image and video understanding. However, they lack reasoning abilities and cannot be controlled via text instructions. In contrast, large vision-language multimodal models exhibit powerful vision-based conversation and reasoning capabilities but lack pixel-level understanding and have difficulty accepting visual prompts for flexible user interaction. This paper proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level vision understanding with reasoning abilities. It can accept various visual and text prompts for flexible user interaction. Specifically, we use a universal segmentation method as the visual encoder, integrating image information, perception priors, and visual prompts into visual tokens provided to the LLM. The LLM is responsible for understanding the user's text instructions and providing text responses and pixel-level segmentation results based on the visual information. We propose perception prior embedding to better integrate perception priors with image features. OMG-LLaVA achieves image-level, object-level, and pixel-level reasoning and understanding in a single model, matching or surpassing the performance of specialized methods on multiple benchmarks. Rather than using LLM to connect each specialist, our work aims at end-to-end training on one encoder, one decoder, and one LLM. The code and model have been released for further research.
PDF5410November 29, 2024