Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos el primer Modelo de Reconstrucción a Gran Escala (LRM, por sus siglas en inglés) que predice el modelo 3D de un objeto a partir de una única imagen de entrada en tan solo 5 segundos. A diferencia de muchos métodos anteriores que se entrenan en conjuntos de datos de pequeña escala, como ShapeNet, de manera específica por categoría, LRM adopta una arquitectura altamente escalable basada en transformadores con 500 millones de parámetros entrenables para predecir directamente un campo de radiancia neural (NeRF) a partir de la imagen de entrada. Entrenamos nuestro modelo de extremo a extremo en datos multivista masivos que contienen alrededor de 1 millón de objetos, incluyendo tanto renderizados sintéticos de Objaverse como capturas reales de MVImgNet. Esta combinación de un modelo de alta capacidad y datos de entrenamiento a gran escala permite que nuestro modelo sea altamente generalizable y produzca reconstrucciones 3D de alta calidad a partir de diversas entradas de prueba, incluyendo capturas reales en entornos no controlados e imágenes generadas por modelos generativos. Demostraciones en video y mallas 3D interactivas pueden encontrarse en este sitio web: https://yiconghong.me/LRM/.
A pesar de que los Modelos de Lenguaje Multimodales de Gran Escala (MM-LLMs) han logrado avances emocionantes recientemente, todavía enfrentan dificultades para modelar de manera eficiente las interacciones entre entradas multimodales y la generación en modalidades no textuales. En este trabajo, proponemos TEAL (Tokenize and Embed ALl), un enfoque que trata la entrada de cualquier modalidad como una secuencia de tokens y aprende un espacio de incrustación conjunta para todas las modalidades. Específicamente, para la entrada de cualquier modalidad, TEAL primero la discretiza en una secuencia de tokens utilizando un tokenizador estándar y luego incrusta la secuencia de tokens en un espacio de incrustación conjunta mediante una matriz de incrustación aprendible. Los MM-LLMs solo necesitan predecir los tokens multimodales de manera autoregresiva, como lo hacen los LLMs textuales. Finalmente, se aplica el correspondiente des-tokenizador para generar la salida en cada modalidad basándose en la secuencia de tokens predicha. Con el espacio de incrustación conjunta, TEAL permite que los LLMs congelados realicen tareas de comprensión y generación que involucran modalidades no textuales, como imágenes y audio. Así, el LLM textual puede funcionar simplemente como una interfaz y mantener su alto rendimiento en la comprensión y generación textual. Los experimentos muestran que TEAL logra mejoras sustanciales en la comprensión multimodal e implementa un esquema simple para las generaciones multimodales.
El desarrollo de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha impulsado significativamente el campo de la comprensión multimodal, dando lugar al surgimiento de modelos multimodales de gran escala (LMMs). Para mejorar el nivel de comprensión visual, estudios recientes han dotado a los LMMs con capacidades de comprensión a nivel de región, representando las coordenadas de las cajas delimitadoras de objetos como una serie de secuencias de texto (pixel2seq). En este artículo, presentamos un nuevo paradigma para el modelado de ubicación de objetos llamado método pixel2emb, donde solicitamos al LMM que genere incrustaciones de ubicación que luego son decodificadas por diferentes decodificadores. Este paradigma permite el uso de diferentes formatos de ubicación (como cajas delimitadoras y máscaras) en conversaciones multimodales. Además, este tipo de modelado de ubicación basado en incrustaciones facilita la utilización de prácticas existentes en tareas de localización, como detección y segmentación. En escenarios con recursos limitados, nuestro método pixel2emb demuestra un rendimiento superior en comparación con los enfoques más avanzados (SOTA, por sus siglas en inglés) en tareas de entrada y salida de ubicación bajo una comparación justa. Aprovechando el método pixel2emb propuesto, entrenamos un LMM llamado NExT-Chat y demostramos su capacidad para manejar múltiples tareas como anclaje visual, descripción de regiones y razonamiento fundamentado.
La impresionante mejora cualitativa de los modelos recientes de texto a imagen ha generado una atención y adopción generalizadas. Sin embargo, carecemos de una comprensión cuantitativa integral de sus capacidades y riesgos. Para abordar esta brecha, presentamos un nuevo punto de referencia: la Evaluación Holística de Modelos de Texto a Imagen (HEIM, por sus siglas en inglés). Mientras que evaluaciones previas se centran principalmente en la alineación texto-imagen y la calidad de la imagen, nosotros identificamos 12 aspectos, incluyendo la alineación texto-imagen, la calidad de la imagen, la estética, la originalidad, el razonamiento, el conocimiento, el sesgo, la toxicidad, la equidad, la robustez, la multilingüidad y la eficiencia. Hemos seleccionado 62 escenarios que abarcan estos aspectos y evaluamos 26 modelos de texto a imagen de última generación en este punto de referencia. Nuestros resultados revelan que ningún modelo sobresale en todos los aspectos, ya que diferentes modelos demuestran diferentes fortalezas. Publicamos las imágenes generadas y los resultados de la evaluación humana para una total transparencia en https://crfm.stanford.edu/heim/v1.1.0, así como el código en https://github.com/stanford-crfm/helm, el cual está integrado con la base de código de HELM.
Presentamos 3DiffTection, un método de vanguardia para la detección de objetos 3D a partir de imágenes individuales, que aprovecha las características de un modelo de difusión consciente de la 3D. Anotar datos de imágenes a gran escala para la detección 3D es intensivo en recursos y consume mucho tiempo. Recientemente, los modelos de difusión de imágenes preentrenados a gran escala han ganado prominencia como extractores de características efectivos para tareas de percepción 2D. Sin embargo, estas características se entrenan inicialmente con datos de texto e imágenes emparejados, que no están optimizados para tareas 3D, y a menudo muestran una brecha de dominio cuando se aplican a los datos objetivo. Nuestro enfoque cierra estas brechas mediante dos estrategias de ajuste especializadas: geométrica y semántica. Para el ajuste geométrico, afinamos un modelo de difusión para realizar síntesis de nuevas vistas condicionadas a una sola imagen, introduciendo un novedoso operador de deformación epipolar. Esta tarea cumple dos criterios esenciales: la necesidad de conciencia 3D y la dependencia únicamente de datos de imágenes con pose, que están fácilmente disponibles (por ejemplo, de videos) y no requieren anotación manual. Para el refinamiento semántico, entrenamos adicionalmente el modelo con datos objetivo y supervisión de detección. Ambas fases de ajuste emplean ControlNet para preservar la integridad de las capacidades originales de las características. En el paso final, aprovechamos estas capacidades mejoradas para realizar un ensamblado de predicciones en tiempo de prueba a través de múltiples puntos de vista virtuales. A través de nuestra metodología, obtenemos características conscientes de la 3D que están adaptadas para la detección 3D y sobresalen en la identificación de correspondencias de puntos entre vistas. En consecuencia, nuestro modelo surge como un potente detector 3D, superando sustancialmente los puntos de referencia anteriores, por ejemplo, Cube-RCNN, un precedente en la detección 3D de vista única, en un 9.43\% en AP3D en el conjunto de datos Omni3D-ARkitscene. Además, 3DiffTection demuestra una robusta eficiencia de datos y generalización a datos de dominios cruzados.
Trabajos recientes han demostrado que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) podrían potenciar los modelos neuro-simbólicos tradicionales mediante capacidades de programación para traducir lenguaje en descripciones de módulos, logrando así resultados sólidos en razonamiento visual mientras se mantiene la transparencia y eficiencia del modelo. Sin embargo, estos modelos suelen generar exhaustivamente el fragmento de código completo para cada nueva instancia de una tarea, lo cual es extremadamente ineficiente. Proponemos un enfoque de razonamiento visual neuro-simbólico generativo mediante el crecimiento y reutilización de módulos. Específicamente, nuestro modelo consta de tres etapas únicas: inicialización de módulos, generación de módulos y ejecución de módulos. Primero, dada una tarea de visión y lenguaje, utilizamos LLMs para examinar si podemos reutilizar y expandir módulos establecidos para manejar esta nueva tarea. Si no es posible, inicializamos un nuevo módulo requerido por la tarea y especificamos sus entradas y salidas. Luego, el nuevo módulo se crea consultando a los LLMs para generar fragmentos de código correspondientes que cumplan con los requisitos. Para evaluar mejor la capacidad del nuevo módulo, tratamos ejemplos de entrenamiento con pocos datos como casos de prueba para ver si el nuevo módulo puede superarlos. Si es así, el nuevo módulo se añade a la biblioteca de módulos para su reutilización futura. Finalmente, evaluamos el rendimiento de nuestro modelo en el conjunto de pruebas ejecutando los programas analizados con los módulos visuales recién creados para obtener los resultados. Encontramos que el modelo propuesto posee varias ventajas. En primer lugar, tiene un desempeño competitivo en tareas estándar como respuesta a preguntas visuales y comprensión de expresiones referenciales; en segundo lugar, los módulos aprendidos de una tarea pueden transferirse sin problemas a nuevas tareas; y, por último, es capaz de adaptarse a nuevas tareas de razonamiento visual observando unos pocos ejemplos de entrenamiento y reutilizando módulos.