OMG-LLaVA : Relier le raisonnement et la compréhension au niveau de l'image, de l'objet et du pixelOMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and
Understanding
Les méthodes universelles de segmentation actuelles démontrent des capacités solides dans la compréhension d'images et de vidéos au niveau des pixels. Cependant, elles manquent de capacités de raisonnement et ne peuvent pas être contrôlées via des instructions textuelles. En revanche, les grands modèles multimodaux vision-langage possèdent des capacités puissantes de conversation et de raisonnement basées sur la vision, mais manquent de compréhension au niveau des pixels et ont des difficultés à accepter des invites visuelles pour une interaction flexible avec l'utilisateur. Cet article propose OMG-LLaVA, un nouveau cadre élégant combinant une compréhension visuelle puissante au niveau des pixels avec des capacités de raisonnement. Il peut accepter diverses invites visuelles et textuelles pour une interaction flexible avec l'utilisateur. Plus précisément, nous utilisons une méthode universelle de segmentation comme encodeur visuel, intégrant les informations d'image, les connaissances perceptuelles et les invites visuelles dans des tokens visuels fournis au LLM. Le LLM est responsable de comprendre les instructions textuelles de l'utilisateur et de fournir des réponses textuelles ainsi que des résultats de segmentation au niveau des pixels basés sur les informations visuelles. Nous proposons un embedding de connaissances perceptuelles pour mieux intégrer ces connaissances avec les caractéristiques de l'image. OMG-LLaVA réalise un raisonnement et une compréhension au niveau de l'image, de l'objet et des pixels dans un seul modèle, égalant ou surpassant les performances des méthodes spécialisées sur plusieurs benchmarks. Plutôt que d'utiliser un LLM pour connecter chaque spécialiste, notre travail vise un entraînement de bout en bout sur un encodeur, un décodeur et un LLM. Le code et le modèle ont été publiés pour des recherches ultérieures.