VisionGPT-3D: Un agente multimodal generalizado para una comprensión mejorada de la visión 3D

Resumen

La evolución de los componentes de texto a visual facilita la vida cotidiana de las personas, como la generación de imágenes y videos a partir de texto, así como la identificación de los elementos deseados dentro de las imágenes. Los modelos de visión por computadora que involucran habilidades multimodales en el pasado se centraban en la detección y clasificación de imágenes basadas en objetos bien definidos. Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) introducen la transformación del lenguaje natural a objetos visuales, presentando el diseño visual para contextos textuales. OpenAI GPT-4 ha surgido como la cúspide en los LLMs, mientras que el dominio de la visión por computadora (CV, por sus siglas en inglés) cuenta con una gran cantidad de modelos y algoritmos de última generación (SOTA, por sus siglas en inglés) para convertir imágenes 2D en sus representaciones 3D. Sin embargo, la falta de correspondencia entre los algoritmos y el problema podría llevar a resultados no deseados. En respuesta a este desafío, proponemos un marco unificado llamado VisionGPT-3D para consolidar los modelos de visión de última generación, facilitando así el desarrollo de la IA orientada a la visión. VisionGPT-3D proporciona un marco multimodal versátil que se basa en las fortalezas de los modelos fundamentales multimodales. Integra de manera fluida varios modelos de visión SOTA y automatiza la selección de estos modelos, identifica los algoritmos adecuados para la creación de mallas 3D correspondientes al análisis de mapas de profundidad 2D, y genera resultados óptimos basados en diversas entradas multimodales, como indicaciones de texto. Palabras clave: VisionGPT-3D, comprensión de visión 3D, agente multimodal

English

The evolution of text to visual components facilitates people's daily lives, such as generating image, videos from text and identifying the desired elements within the images. Computer vision models involving the multimodal abilities in the previous days are focused on image detection, classification based on well-defined objects. Large language models (LLMs) introduces the transformation from nature language to visual objects, which present the visual layout for text contexts. OpenAI GPT-4 has emerged as the pinnacle in LLMs, while the computer vision (CV) domain boasts a plethora of state-of-the-art (SOTA) models and algorithms to convert 2D images to their 3D representations. However, the mismatching between the algorithms with the problem could lead to undesired results. In response to this challenge, we propose an unified VisionGPT-3D framework to consolidate the state-of-the-art vision models, thereby facilitating the development of vision-oriented AI. VisionGPT-3D provides a versatile multimodal framework building upon the strengths of multimodal foundation models. It seamlessly integrates various SOTA vision models and brings the automation in the selection of SOTA vision models, identifies the suitable 3D mesh creation algorithms corresponding to 2D depth maps analysis, generates optimal results based on diverse multimodal inputs such as text prompts. Keywords: VisionGPT-3D, 3D vision understanding, Multimodal agent

VisionGPT-3D: Un agente multimodal generalizado para una comprensión mejorada de la visión 3D

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

Resumen

Support