ChatPaper.aiChatPaper

OMG-LLaVA : Relier le raisonnement et la compréhension au niveau de l'image, de l'objet et du pixel

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

June 27, 2024
papers.authors: Tao Zhang, Xiangtai Li, Hao Fei, Haobo Yuan, Shengqiong Wu, Shunping Ji, Chen Change Loy, Shuicheng Yan
cs.AI

papers.abstract

Les méthodes universelles de segmentation actuelles démontrent des capacités solides dans la compréhension d'images et de vidéos au niveau des pixels. Cependant, elles manquent de capacités de raisonnement et ne peuvent pas être contrôlées via des instructions textuelles. En revanche, les grands modèles multimodaux vision-langage possèdent des capacités puissantes de conversation et de raisonnement basées sur la vision, mais manquent de compréhension au niveau des pixels et ont des difficultés à accepter des invites visuelles pour une interaction flexible avec l'utilisateur. Cet article propose OMG-LLaVA, un nouveau cadre élégant combinant une compréhension visuelle puissante au niveau des pixels avec des capacités de raisonnement. Il peut accepter diverses invites visuelles et textuelles pour une interaction flexible avec l'utilisateur. Plus précisément, nous utilisons une méthode universelle de segmentation comme encodeur visuel, intégrant les informations d'image, les connaissances perceptuelles et les invites visuelles dans des tokens visuels fournis au LLM. Le LLM est responsable de comprendre les instructions textuelles de l'utilisateur et de fournir des réponses textuelles ainsi que des résultats de segmentation au niveau des pixels basés sur les informations visuelles. Nous proposons un embedding de connaissances perceptuelles pour mieux intégrer ces connaissances avec les caractéristiques de l'image. OMG-LLaVA réalise un raisonnement et une compréhension au niveau de l'image, de l'objet et des pixels dans un seul modèle, égalant ou surpassant les performances des méthodes spécialisées sur plusieurs benchmarks. Plutôt que d'utiliser un LLM pour connecter chaque spécialiste, notre travail vise un entraînement de bout en bout sur un encodeur, un décodeur et un LLM. Le code et le modèle ont été publiés pour des recherches ultérieures.
English
Current universal segmentation methods demonstrate strong capabilities in pixel-level image and video understanding. However, they lack reasoning abilities and cannot be controlled via text instructions. In contrast, large vision-language multimodal models exhibit powerful vision-based conversation and reasoning capabilities but lack pixel-level understanding and have difficulty accepting visual prompts for flexible user interaction. This paper proposes OMG-LLaVA, a new and elegant framework combining powerful pixel-level vision understanding with reasoning abilities. It can accept various visual and text prompts for flexible user interaction. Specifically, we use a universal segmentation method as the visual encoder, integrating image information, perception priors, and visual prompts into visual tokens provided to the LLM. The LLM is responsible for understanding the user's text instructions and providing text responses and pixel-level segmentation results based on the visual information. We propose perception prior embedding to better integrate perception priors with image features. OMG-LLaVA achieves image-level, object-level, and pixel-level reasoning and understanding in a single model, matching or surpassing the performance of specialized methods on multiple benchmarks. Rather than using LLM to connect each specialist, our work aims at end-to-end training on one encoder, one decoder, and one LLM. The code and model have been released for further research.
PDF5510November 29, 2024