ChatPaper.aiChatPaper

VisionGPT-3D : Un agent multimodal généralisé pour une compréhension améliorée de la vision 3D

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

March 14, 2024
Auteurs: Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou
cs.AI

Résumé

L'évolution des composants visuels générés à partir de texte facilite la vie quotidienne des personnes, par exemple en générant des images ou des vidéos à partir de texte et en identifiant les éléments souhaités dans les images. Les modèles de vision par ordinateur impliquant des capacités multimodales dans le passé se concentraient principalement sur la détection d'images et la classification basée sur des objets bien définis. Les grands modèles de langage (LLMs) introduisent la transformation du langage naturel en objets visuels, offrant ainsi une mise en page visuelle pour les contextes textuels. OpenAI GPT-4 s'est imposé comme le modèle phare parmi les LLMs, tandis que le domaine de la vision par ordinateur (CV) regorge de modèles et d'algorithmes de pointe pour convertir des images 2D en leurs représentations 3D. Cependant, une inadéquation entre les algorithmes et le problème peut conduire à des résultats indésirables. Pour répondre à ce défi, nous proposons un framework unifié, VisionGPT-3D, afin de consolider les modèles de vision de pointe, facilitant ainsi le développement de l'IA orientée vision. VisionGPT-3D offre un framework multimodal polyvalent, s'appuyant sur les forces des modèles de fondation multimodaux. Il intègre de manière transparente divers modèles de vision de pointe et automatise la sélection de ces modèles, identifie les algorithmes de création de maillages 3D adaptés à l'analyse des cartes de profondeur 2D, et génère des résultats optimaux basés sur des entrées multimodales variées, telles que des invites textuelles. Mots-clés : VisionGPT-3D, compréhension de la vision 3D, agent multimodal
English
The evolution of text to visual components facilitates people's daily lives, such as generating image, videos from text and identifying the desired elements within the images. Computer vision models involving the multimodal abilities in the previous days are focused on image detection, classification based on well-defined objects. Large language models (LLMs) introduces the transformation from nature language to visual objects, which present the visual layout for text contexts. OpenAI GPT-4 has emerged as the pinnacle in LLMs, while the computer vision (CV) domain boasts a plethora of state-of-the-art (SOTA) models and algorithms to convert 2D images to their 3D representations. However, the mismatching between the algorithms with the problem could lead to undesired results. In response to this challenge, we propose an unified VisionGPT-3D framework to consolidate the state-of-the-art vision models, thereby facilitating the development of vision-oriented AI. VisionGPT-3D provides a versatile multimodal framework building upon the strengths of multimodal foundation models. It seamlessly integrates various SOTA vision models and brings the automation in the selection of SOTA vision models, identifies the suitable 3D mesh creation algorithms corresponding to 2D depth maps analysis, generates optimal results based on diverse multimodal inputs such as text prompts. Keywords: VisionGPT-3D, 3D vision understanding, Multimodal agent

Summary

AI-Generated Summary

PDF101December 15, 2024