OMG-LLaVA: Brückenbildung zwischen Bild-, Objekt- und Pixel-Ebene des Denkens und Verstehens
OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding
June 27, 2024
Autoren: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan
cs.AI
Zusammenfassung
Aktuelle universelle Segmentierungsmethoden zeigen starke Fähigkeiten in der pixelgenauen Bild- und Videoanalyse. Allerdings fehlt es ihnen an Begründungsfähigkeiten und sie können nicht über Textanweisungen gesteuert werden. Im Gegensatz dazu zeigen große vision-sprachliche multimodale Modelle leistungsstarke, auf Vision basierende Konversations- und Begründungsfähigkeiten, jedoch fehlt es ihnen an pixelgenauer Verständnisfähigkeit und sie haben Schwierigkeiten, visuelle Anweisungen für eine flexible Benutzerinteraktion anzunehmen. Dieser Artikel schlägt OMG-LLaVA vor, ein neues und elegantes Framework, das leistungsstarke pixelgenaue Visionserfassung mit Begründungsfähigkeiten kombiniert. Es kann verschiedene visuelle und Textanweisungen für eine flexible Benutzerinteraktion akzeptieren. Speziell verwenden wir eine universelle Segmentierungsmethode als den visuellen Encoder, der Bildinformationen, Wahrnehmungsprioritäten und visuelle Anweisungen in visuelle Token integriert, die dem LLM bereitgestellt werden. Der LLM ist verantwortlich für das Verstehen der Textanweisungen des Benutzers und das Bereitstellen von Textantworten sowie pixelgenauen Segmentierungsergebnissen basierend auf den visuellen Informationen. Wir schlagen die Einbettung von Wahrnehmungsprioritäten vor, um Wahrnehmungsprioritäten besser mit Bildmerkmalen zu integrieren. OMG-LLaVA erreicht Bild-, Objekt- und pixelgenaue Begründungs- und Verständnisfähigkeiten in einem einzigen Modell und entspricht oder übertrifft die Leistung spezialisierter Methoden auf mehreren Benchmarks. Anstatt den LLM zu verwenden, um jeden Spezialisten zu verbinden, zielt unsere Arbeit auf ein End-to-End-Training an einem Encoder, einem Decoder und einem LLM ab. Der Code und das Modell wurden für weitere Forschungszwecke veröffentlicht.
English
Current universal segmentation methods demonstrate strong capabilities in
pixel-level image and video understanding. However, they lack reasoning
abilities and cannot be controlled via text instructions. In contrast, large
vision-language multimodal models exhibit powerful vision-based conversation
and reasoning capabilities but lack pixel-level understanding and have
difficulty accepting visual prompts for flexible user interaction. This paper
proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level
vision understanding with reasoning abilities. It can accept various visual and
text prompts for flexible user interaction. Specifically, we use a universal
segmentation method as the visual encoder, integrating image information,
perception priors, and visual prompts into visual tokens provided to the LLM.
The LLM is responsible for understanding the user's text instructions and
providing text responses and pixel-level segmentation results based on the
visual information. We propose perception prior embedding to better integrate
perception priors with image features. OMG-LLaVA achieves image-level,
object-level, and pixel-level reasoning and understanding in a single model,
matching or surpassing the performance of specialized methods on multiple
benchmarks. Rather than using LLM to connect each specialist, our work aims at
end-to-end training on one encoder, one decoder, and one LLM. The code and
model have been released for further research.Summary
AI-Generated Summary