VisionGPT-3D: Ein generalisierter multimodaler Agent zur Verbesserung der 3D-Vision.
VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding
March 14, 2024
Autoren: Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou
cs.AI
Zusammenfassung
Die Entwicklung von Text zu visuellen Komponenten erleichtert den Alltag der Menschen, indem Bilder und Videos aus Text generiert und die gewünschten Elemente in den Bildern identifiziert werden. Computer-Vision-Modelle, die sich in den vergangenen Tagen mit multimodalen Fähigkeiten befassen, konzentrierten sich auf die Bilderkennung und Klassifizierung basierend auf klar definierten Objekten. Große Sprachmodelle (LLMs) führen die Transformation von natürlicher Sprache zu visuellen Objekten ein, die das visuelle Layout für Textkontexte darstellen. OpenAI GPT-4 hat sich als Spitzenreiter unter den LLMs etabliert, während das Gebiet der Computer Vision (CV) eine Vielzahl von hochmodernen Modellen und Algorithmen zur Umwandlung von 2D-Bildern in ihre 3D-Repräsentationen aufweist. Allerdings kann die Nichtübereinstimmung zwischen den Algorithmen und dem Problem zu unerwünschten Ergebnissen führen. Als Antwort auf diese Herausforderung schlagen wir ein vereinheitlichtes VisionGPT-3D-Framework vor, um die hochmodernen Vision-Modelle zu konsolidieren und somit die Entwicklung von auf Vision ausgerichteter KI zu erleichtern. VisionGPT-3D bietet ein vielseitiges multimodales Framework, das auf den Stärken von multimodalen Grundlagenmodellen aufbaut. Es integriert nahtlos verschiedene hochmoderne Vision-Modelle und automatisiert die Auswahl von hochmodernen Vision-Modellen, identifiziert die geeigneten 3D-Mesh-Erstellungsalgorithmen entsprechend der Analyse von 2D-Tiefenkarten, generiert optimale Ergebnisse basierend auf vielfältigen multimodalen Eingaben wie Textvorgaben.
Stichwörter: VisionGPT-3D, 3D-Vision-Verständnis, Multimodaler Agent
English
The evolution of text to visual components facilitates people's daily lives,
such as generating image, videos from text and identifying the desired elements
within the images. Computer vision models involving the multimodal abilities in
the previous days are focused on image detection, classification based on
well-defined objects. Large language models (LLMs) introduces the
transformation from nature language to visual objects, which present the visual
layout for text contexts. OpenAI GPT-4 has emerged as the pinnacle in LLMs,
while the computer vision (CV) domain boasts a plethora of state-of-the-art
(SOTA) models and algorithms to convert 2D images to their 3D representations.
However, the mismatching between the algorithms with the problem could lead to
undesired results. In response to this challenge, we propose an unified
VisionGPT-3D framework to consolidate the state-of-the-art vision models,
thereby facilitating the development of vision-oriented AI. VisionGPT-3D
provides a versatile multimodal framework building upon the strengths of
multimodal foundation models. It seamlessly integrates various SOTA vision
models and brings the automation in the selection of SOTA vision models,
identifies the suitable 3D mesh creation algorithms corresponding to 2D depth
maps analysis, generates optimal results based on diverse multimodal inputs
such as text prompts.
Keywords: VisionGPT-3D, 3D vision understanding, Multimodal agentSummary
AI-Generated Summary