Artículos de investigación en IA seleccionados diariamente con traducciones
Abordamos la tarea de generación musical condicional. Presentamos MusicGen, un Modelo de Lenguaje (LM) único que opera sobre múltiples flujos de representación discreta comprimida de música, es decir, tokens. A diferencia de trabajos previos, MusicGen está compuesto por un transformer LM de una sola etapa junto con patrones eficientes de intercalación de tokens, lo que elimina la necesidad de encadenar varios modelos, por ejemplo, de manera jerárquica o mediante upsampling. Siguiendo este enfoque, demostramos cómo MusicGen puede generar muestras de alta calidad, mientras se condiciona en descripciones textuales o características melódicas, permitiendo un mejor control sobre la salida generada. Realizamos una evaluación empírica exhaustiva, considerando tanto estudios automáticos como humanos, mostrando que el enfoque propuesto es superior a las líneas base evaluadas en un benchmark estándar de texto a música. A través de estudios de ablación, arrojamos luz sobre la importancia de cada uno de los componentes que conforman MusicGen. Las muestras de música, el código y los modelos están disponibles en https://github.com/facebookresearch/audiocraft.
Las instrucciones y respuestas de alta calidad son esenciales para el rendimiento zero-shot de los modelos de lenguaje grandes en tareas interactivas de lenguaje natural. Para tareas interactivas de visión y lenguaje que involucran escenas visuales complejas, es imperativo contar con una gran cantidad de pares de instrucción-respuesta diversos y creativos para ajustar los modelos de visión y lenguaje (VLMs). Sin embargo, la disponibilidad actual de pares de instrucción-respuesta en visión y lenguaje, en términos de cantidad, diversidad y creatividad, sigue siendo limitada, lo que plantea desafíos para la generalización de los VLMs interactivos. Aquí presentamos MultI-Modal In-Context Instruction Tuning (MIMIC-IT), un conjunto de datos que comprende 2.8 millones de pares de instrucción-respuesta multimodales, con 2.2 millones de instrucciones únicas derivadas de imágenes y videos. Cada par está acompañado de información multimodal en contexto, formando contextos conversacionales destinados a potenciar los VLMs en percepción, razonamiento y planificación. El proceso de recopilación de instrucciones y respuestas, denominado Syphus, se escala utilizando una canalización de anotación automática que combina la experiencia humana con las capacidades de GPT. Utilizando el conjunto de datos MIMIC-IT, entrenamos un gran VLM llamado Otter. Basado en evaluaciones extensas realizadas en benchmarks de visión y lenguaje, se ha observado que Otter demuestra una notable competencia en percepción multimodal, razonamiento y aprendizaje en contexto. La evaluación humana revela que se alinea efectivamente con las intenciones del usuario. Publicamos el conjunto de datos MIMIC-IT, la canalización de recopilación de instrucciones y respuestas, los benchmarks y el modelo Otter.
Presentamos un nuevo método de optimización en tiempo de prueba para estimar movimiento denso y de largo alcance a partir de una secuencia de video. Los algoritmos previos de flujo óptico o seguimiento de partículas en video suelen operar dentro de ventanas temporales limitadas, enfrentando dificultades para rastrear a través de oclusiones y mantener la consistencia global de las trayectorias de movimiento estimadas. Proponemos una representación de movimiento completa y globalmente consistente, denominada OmniMotion, que permite una estimación precisa y completa del movimiento de cada píxel en un video. OmniMotion representa un video utilizando un volumen canónico cuasi-3D y realiza un seguimiento píxel a píxel mediante biyecciones entre el espacio local y el canónico. Esta representación nos permite garantizar la consistencia global, rastrear a través de oclusiones y modelar cualquier combinación de movimiento de cámara y objetos. Evaluaciones exhaustivas en el benchmark TAP-Vid y en material de video del mundo real muestran que nuestro enfoque supera por un amplio margen a los métodos más avanzados anteriores, tanto cuantitativa como cualitativamente. Consulte nuestra página del proyecto para más resultados: http://omnimotion.github.io/
Los agentes conversacionales impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) están ofreciendo una nueva forma de interactuar con datos visuales. Si bien ha habido intentos iniciales de desarrollar modelos conversacionales basados en imágenes, este trabajo aborda el campo poco explorado de las conversaciones basadas en videos mediante la introducción de Video-ChatGPT. Se trata de un modelo multimodal que combina un codificador visual adaptado para videos con un LLM. El modelo es capaz de comprender y generar conversaciones similares a las humanas sobre videos. Presentamos un nuevo conjunto de datos de 100,000 pares de video-instrucción utilizados para entrenar Video-ChatGPT, adquiridos mediante un proceso manual y semiautomatizado que es fácilmente escalable y robusto ante el ruido en las etiquetas. También desarrollamos un marco de evaluación cuantitativa para modelos de diálogo basados en videos, con el fin de analizar objetivamente las fortalezas y debilidades de los modelos propuestos. Nuestro código, modelos, conjuntos de instrucciones y demostración están disponibles en https://github.com/mbzuai-oryx/Video-ChatGPT.
Las notables capacidades de los modelos de difusión de imágenes preentrenados se han utilizado no solo para generar imágenes de tamaño fijo, sino también para crear panoramas. Sin embargo, la unión ingenua de múltiples imágenes a menudo resulta en costuras visibles. Técnicas recientes han intentado abordar este problema realizando difusiones conjuntas en múltiples ventanas y promediando características latentes en regiones superpuestas. No obstante, estos enfoques, que se centran en la generación de montajes sin costuras, a menudo producen resultados incoherentes al mezclar diferentes escenas dentro de una sola imagen. Para superar esta limitación, proponemos SyncDiffusion, un módulo plug-and-play que sincroniza múltiples difusiones mediante el descenso de gradiente a partir de una pérdida de similitud perceptual. Específicamente, calculamos el gradiente de la pérdida perceptual utilizando las imágenes desruidosas predichas en cada paso de desruido, proporcionando una guía significativa para lograr montajes coherentes. Nuestros resultados experimentales demuestran que nuestro método produce resultados significativamente más coherentes en comparación con métodos anteriores (66.35% vs. 33.65% en nuestro estudio de usuarios), manteniendo al mismo tiempo la fidelidad (evaluada por GIQA) y la compatibilidad con la entrada de texto (medida por el puntaje CLIP).
En este artículo, proponemos el Modelo de Matting para Cualquier Cosa (MAM, por sus siglas en inglés), un marco eficiente y versátil para estimar el alfa matte de cualquier instancia en una imagen con guía flexible e interactiva mediante indicaciones visuales o lingüísticas del usuario. MAM ofrece varias ventajas significativas sobre las redes especializadas de matting de imágenes anteriores: (i) MAM es capaz de manejar diversos tipos de matting de imágenes, incluyendo matting semántico, de instancia y de referencia, utilizando un solo modelo; (ii) MAM aprovecha los mapas de características del Modelo de Segmentación para Cualquier Cosa (SAM, por sus siglas en inglés) y adopta un módulo ligero de Máscara a Matte (M2M, por sus siglas en inglés) para predecir el alfa matte mediante refinamiento iterativo, el cual tiene solo 2.7 millones de parámetros entrenables; (iii) Al incorporar SAM, MAM simplifica la intervención del usuario requerida para el uso interactivo del matting de imágenes, pasando del trimap a indicaciones de caja, punto o texto. Evaluamos el rendimiento de MAM en varios benchmarks de matting de imágenes, y los resultados experimentales demuestran que MAM alcanza un rendimiento comparable al de los modelos especializados de matting de imágenes más avanzados bajo diferentes métricas en cada benchmark. En general, MAM muestra una capacidad de generalización superior y puede manejar eficazmente diversas tareas de matting de imágenes con menos parámetros, convirtiéndolo en una solución práctica para el matting de imágenes unificado. Nuestro código y modelos están disponibles en código abierto en https://github.com/SHI-Labs/Matting-Anything.
La superred con compartición de pesos se ha convertido en un componente esencial para la estimación de rendimiento en los marcos de búsqueda de arquitecturas neuronales (NAS) más avanzados (SOTA). Aunque la superred puede generar directamente diferentes subredes sin necesidad de reentrenamiento, no hay garantía de la calidad de estas subredes debido a la compartición de pesos. En tareas de PLN como la traducción automática y el modelado de lenguaje preentrenado, observamos que, dada la misma arquitectura de modelo, existe una gran brecha de rendimiento entre la superred y el entrenamiento desde cero. Por lo tanto, la superred no puede usarse directamente y es necesario reentrenar después de encontrar las arquitecturas óptimas. En este trabajo, proponemos una mezcla de superredes, una formulación generalizada de superred en la que se adopta la mezcla de expertos (MoE) para mejorar el poder expresivo del modelo de superred, con un costo de entrenamiento insignificante. De esta manera, las diferentes subredes no comparten directamente los pesos del modelo, sino a través de un mecanismo de enrutamiento basado en la arquitectura. Como resultado, los pesos del modelo de diferentes subredes se personalizan según sus arquitecturas específicas y la generación de pesos se aprende mediante descenso de gradiente. En comparación con las superredes con compartición de pesos existentes para PLN, nuestro método puede minimizar el tiempo de reentrenamiento, mejorando significativamente la eficiencia del entrenamiento. Además, el método propuesto logra el rendimiento SOTA en NAS para construir modelos de traducción automática rápidos, obteniendo un mejor equilibrio entre latencia y BLEU en comparación con HAT, el NAS SOTA para MT. También alcanzamos el rendimiento SOTA en NAS para construir modelos BERT eficientes en memoria y agnósticos a la tarea, superando a NAS-BERT y AutoDistil en varios tamaños de modelo.
Estimar la profundidad de objetos a partir de una sola imagen es una tarea valiosa para muchas aplicaciones de visión, robótica y gráficos. Sin embargo, los métodos actuales a menudo no logran producir profundidades precisas para objetos en escenas diversas. En este trabajo, proponemos una estrategia simple pero efectiva llamada *Background Prompting* que adapta la imagen del objeto de entrada con un fondo aprendido. Aprendemos los *prompts* de fondo utilizando únicamente conjuntos de datos sintéticos de objetos a pequeña escala. Para inferir la profundidad del objeto en una imagen real, colocamos el objeto segmentado en el *prompt* de fondo aprendido y ejecutamos redes de profundidad estándar. *Background Prompting* ayuda a las redes de profundidad a enfocarse en el objeto en primer plano, ya que se vuelven invariantes a las variaciones del fondo. Además, *Background Prompting* minimiza la brecha de dominio entre imágenes sintéticas y reales de objetos, lo que lleva a una mejor generalización *sim2real* que el simple ajuste fino (*finetuning*). Los resultados en múltiples conjuntos de datos sintéticos y reales demuestran mejoras consistentes en las profundidades de objetos reales para una variedad de redes de profundidad existentes. El código y los *prompts* de fondo optimizados se pueden encontrar en: https://mbaradad.github.io/depth_prompt.
Impulsados por modelos de difusión escalables entrenados en grandes conjuntos de datos de pares texto-imagen, los métodos de síntesis de texto a imagen han mostrado resultados convincentes. Sin embargo, estos modelos aún fallan en seguir con precisión las indicaciones del texto cuando se involucran múltiples objetos, atributos y composiciones espaciales en la indicación. En este artículo, identificamos las posibles razones tanto en las capas de atención cruzada como en las de auto-atención del modelo de difusión. Proponemos dos nuevas funciones de pérdida para reenfocar los mapas de atención según un diseño dado durante el proceso de muestreo. Realizamos experimentos exhaustivos en los puntos de referencia DrawBench y HRS utilizando diseños sintetizados por Modelos de Lenguaje de Gran Escala, demostrando que nuestras funciones de pérdida propuestas pueden integrarse de manera fácil y efectiva en los métodos existentes de texto a imagen y mejorar consistentemente la alineación entre las imágenes generadas y las indicaciones de texto.
Los modelos generativos de texto a imagen han permitido la síntesis de imágenes de alta resolución en diferentes dominios, pero requieren que los usuarios especifiquen el contenido que desean generar. En este artículo, consideramos el problema inverso: dada una colección de imágenes diferentes, ¿podemos descubrir los conceptos generativos que representan cada imagen? Presentamos un enfoque no supervisado para descubrir conceptos generativos a partir de una colección de imágenes, desentrañando diferentes estilos artísticos en pinturas, objetos e iluminación en escenas de cocina, y descubriendo clases de imágenes dadas imágenes de ImageNet. Mostramos cómo dichos conceptos generativos pueden representar con precisión el contenido de las imágenes, recombinarse y componerse para generar nuevas imágenes artísticas e híbridas, y utilizarse además como una representación para tareas de clasificación posteriores.
Presentamos BlenderBot 3x, una actualización del modelo conversacional BlenderBot 3, que ahora se entrena utilizando conversaciones orgánicas y datos de retroalimentación de usuarios participantes del sistema para mejorar tanto sus habilidades como su seguridad. Estamos liberando públicamente los datos de interacción desidentificados de los participantes para su uso por parte de la comunidad investigadora, con el fin de impulsar nuevos avances. Entrenar modelos con datos orgánicos es un desafío porque las interacciones con personas "en el mundo real" incluyen tanto conversaciones y retroalimentación de alta calidad, como comportamientos adversarios y tóxicos. Estudiamos técnicas que permiten aprender de instructores útiles mientras evitamos aprender de personas que intentan engañar al modelo para generar respuestas inútiles o tóxicas. BlenderBot 3x no solo es preferido en conversación frente a BlenderBot 3, sino que también demuestra producir respuestas más seguras en situaciones desafiantes. Aunque nuestros modelos actuales aún están lejos de ser perfectos, creemos que se pueden lograr mejoras adicionales mediante el uso continuo de las técnicas exploradas en este trabajo.
Los conceptos específicos de visión, como "región", han desempeñado un papel clave en la extensión de los marcos generales de aprendizaje automático a tareas como la detección de objetos. Dado el éxito de los detectores basados en regiones para el aprendizaje supervisado y los avances de los métodos intra-imagen para el aprendizaje contrastivo, exploramos el uso de regiones para el pre-entrenamiento reconstructivo. Partiendo del Autoencoding Enmascarado (MAE) tanto como referencia e inspiración, proponemos una tarea de pre-texto paralela diseñada para abordar el mapeo uno-a-muchos entre imágenes y regiones. Dado que estas regiones pueden generarse de manera no supervisada, nuestro enfoque (R-MAE) hereda la amplia aplicabilidad de MAE, al mismo tiempo que es más "consciente de las regiones". Realizamos análisis exhaustivos durante el desarrollo de R-MAE y convergemos en una variante que es tanto efectiva como eficiente (un 1.3% de sobrecarga sobre MAE). Además, muestra mejoras cuantitativas consistentes cuando se generaliza a diversos datos de pre-entrenamiento y benchmarks de detección y segmentación aguas abajo. Finalmente, proporcionamos visualizaciones cualitativas extensas para mejorar la comprensión del comportamiento y el potencial de R-MAE. El código estará disponible en https://github.com/facebookresearch/r-mae.
Un obstáculo crítico que impide el despliegue generalizado de los modelos NeRF en entornos reales es su dependencia de poses de cámara precisas. En consecuencia, existe un creciente interés en extender los modelos NeRF para optimizar conjuntamente las poses de la cámara y la representación de la escena, lo que ofrece una alternativa a las pipelines de SfM predefinidas que tienen modos de fallo bien conocidos. Los enfoques existentes para NeRF sin poses operan bajo supuestos limitados, como una distribución previa de poses o una inicialización aproximada de las mismas, lo que los hace menos efectivos en un entorno general. En este trabajo, proponemos un enfoque novedoso, LU-NeRF, que estima conjuntamente las poses de la cámara y los campos de radiancia neural con supuestos relajados sobre la configuración de las poses. Nuestro enfoque opera de manera local a global, donde primero optimizamos subconjuntos locales de los datos, denominados mini-escenas. LU-NeRF estima la pose y la geometría local para esta tarea desafiante de pocas muestras. Las poses de las mini-escenas se integran en un marco de referencia global mediante un paso robusto de sincronización de poses, donde se puede realizar una optimización global final de la pose y la escena. Demostramos que nuestra pipeline LU-NeRF supera los intentos previos de NeRF sin poses sin hacer supuestos restrictivos sobre la distribución previa de poses. Esto nos permite operar en el entorno general de poses SE(3), a diferencia de las líneas base. Nuestros resultados también indican que nuestro modelo puede ser complementario a las pipelines de SfM basadas en características, ya que se compara favorablemente con COLMAP en imágenes de baja textura y baja resolución.
Presentamos un marco de trabajo que formula la respuesta a preguntas visuales como generación de código modular. A diferencia de trabajos previos sobre enfoques modulares para VQA, nuestro método no requiere entrenamiento adicional y se basa en modelos de lenguaje preentrenados (LMs), modelos visuales preentrenados con pares de imagen-texto, y cincuenta ejemplos de VQA utilizados para aprendizaje en contexto. Los programas Python generados invocan y combinan las salidas de los modelos visuales utilizando lógica aritmética y condicional. Nuestro enfoque mejora la precisión en el conjunto de datos COVR en al menos un 3% y en el conjunto de datos GQA en aproximadamente un 2% en comparación con la línea base de pocos ejemplos que no emplea generación de código.
En este artículo, abordamos los desafíos planteados por el tiempo de entrenamiento sustancial y el consumo de memoria asociados con los transformadores de video, centrándonos en el modelo ViViT (Video Vision Transformer), en particular la versión de Codificador Factorizado, como nuestra línea base para tareas de reconocimiento de acciones. La variante del codificador factorizado sigue el enfoque de fusión tardía que adoptan muchos de los métodos más avanzados. A pesar de destacarse por sus favorables compensaciones entre velocidad y precisión entre las diferentes variantes de ViViT, su considerable tiempo de entrenamiento y requisitos de memoria siguen representando una barrera significativa. Nuestro método está diseñado para reducir esta barrera y se basa en la idea de congelar el transformador espacial durante el entrenamiento. Esto conduce a un modelo de baja precisión si se hace de manera ingenua. Sin embargo, demostramos que (1) inicializando adecuadamente el transformador temporal (un módulo responsable de procesar la información temporal) y (2) introduciendo un modelo adaptador compacto que conecta las representaciones espaciales congeladas (un módulo que se enfoca selectivamente en regiones de la imagen de entrada) con el transformador temporal, podemos disfrutar de los beneficios de congelar el transformador espacial sin sacrificar la precisión. A través de una extensa experimentación en 6 puntos de referencia, demostramos que nuestra estrategia de entrenamiento propuesta reduce significativamente los costos de entrenamiento (en aproximadamente un 50%) y el consumo de memoria, al mismo tiempo que mantiene o mejora ligeramente el rendimiento hasta en un 1,79% en comparación con el modelo base. Nuestro enfoque además desbloquea la capacidad de utilizar modelos de transformadores de imagen más grandes como nuestro transformador espacial y acceder a más fotogramas con el mismo consumo de memoria.
Las CNNs esféricas generalizan las CNNs a funciones sobre la esfera, utilizando convoluciones esféricas como la operación lineal principal. La forma más precisa y eficiente de calcular convoluciones esféricas es en el dominio espectral (a través del teorema de convolución), lo cual sigue siendo más costoso que las convoluciones planas habituales. Por esta razón, las aplicaciones de las CNNs esféricas hasta ahora se han limitado a problemas pequeños que pueden abordarse con una capacidad de modelo reducida. En este trabajo, mostramos cómo las CNNs esféricas pueden escalarse para problemas mucho más grandes. Para lograrlo, realizamos mejoras críticas que incluyen variantes novedosas de componentes comunes del modelo, una implementación de operaciones centrales para aprovechar las características de los aceleradores de hardware y representaciones de entrada específicas para la aplicación que explotan las propiedades de nuestro modelo. Los experimentos muestran que nuestras CNNs esféricas más grandes alcanzan el estado del arte en varios objetivos del benchmark molecular QM9, que anteriormente estaba dominado por redes neuronales de grafos equivariantes, y logran un rendimiento competitivo en múltiples tareas de pronóstico del tiempo. Nuestro código está disponible en https://github.com/google-research/spherical-cnn.