VisionGPT-3D: Un agente multimodal generalizado para una comprensión mejorada de la visión 3D
VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding
March 14, 2024
Autores: Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou
cs.AI
Resumen
La evolución de los componentes de texto a visual facilita la vida cotidiana de las personas, como la generación de imágenes y videos a partir de texto, así como la identificación de los elementos deseados dentro de las imágenes. Los modelos de visión por computadora que involucran habilidades multimodales en el pasado se centraban en la detección y clasificación de imágenes basadas en objetos bien definidos. Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) introducen la transformación del lenguaje natural a objetos visuales, presentando el diseño visual para contextos textuales. OpenAI GPT-4 ha surgido como la cúspide en los LLMs, mientras que el dominio de la visión por computadora (CV, por sus siglas en inglés) cuenta con una gran cantidad de modelos y algoritmos de última generación (SOTA, por sus siglas en inglés) para convertir imágenes 2D en sus representaciones 3D. Sin embargo, la falta de correspondencia entre los algoritmos y el problema podría llevar a resultados no deseados. En respuesta a este desafío, proponemos un marco unificado llamado VisionGPT-3D para consolidar los modelos de visión de última generación, facilitando así el desarrollo de la IA orientada a la visión. VisionGPT-3D proporciona un marco multimodal versátil que se basa en las fortalezas de los modelos fundamentales multimodales. Integra de manera fluida varios modelos de visión SOTA y automatiza la selección de estos modelos, identifica los algoritmos adecuados para la creación de mallas 3D correspondientes al análisis de mapas de profundidad 2D, y genera resultados óptimos basados en diversas entradas multimodales, como indicaciones de texto.
Palabras clave: VisionGPT-3D, comprensión de visión 3D, agente multimodal
English
The evolution of text to visual components facilitates people's daily lives,
such as generating image, videos from text and identifying the desired elements
within the images. Computer vision models involving the multimodal abilities in
the previous days are focused on image detection, classification based on
well-defined objects. Large language models (LLMs) introduces the
transformation from nature language to visual objects, which present the visual
layout for text contexts. OpenAI GPT-4 has emerged as the pinnacle in LLMs,
while the computer vision (CV) domain boasts a plethora of state-of-the-art
(SOTA) models and algorithms to convert 2D images to their 3D representations.
However, the mismatching between the algorithms with the problem could lead to
undesired results. In response to this challenge, we propose an unified
VisionGPT-3D framework to consolidate the state-of-the-art vision models,
thereby facilitating the development of vision-oriented AI. VisionGPT-3D
provides a versatile multimodal framework building upon the strengths of
multimodal foundation models. It seamlessly integrates various SOTA vision
models and brings the automation in the selection of SOTA vision models,
identifies the suitable 3D mesh creation algorithms corresponding to 2D depth
maps analysis, generates optimal results based on diverse multimodal inputs
such as text prompts.
Keywords: VisionGPT-3D, 3D vision understanding, Multimodal agentSummary
AI-Generated Summary