Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión actualmente dominan el campo de la síntesis de imágenes basada en datos gracias a su escalabilidad sin precedentes en grandes conjuntos de datos. En este artículo, identificamos y corregimos varias causas de un entrenamiento irregular e ineficaz en la popular arquitectura de modelo de difusión ADM, sin alterar su estructura de alto nivel. Al observar cambios descontrolados en la magnitud y desequilibrios tanto en las activaciones como en los pesos de la red durante el entrenamiento, rediseñamos las capas de la red para preservar, en promedio, las magnitudes de las activaciones, los pesos y las actualizaciones. Descubrimos que la aplicación sistemática de este enfoque elimina las derivas y desequilibrios observados, lo que resulta en redes considerablemente mejores con la misma complejidad computacional. Nuestras modificaciones mejoran el récord anterior de FID de 2.41 en la síntesis de ImageNet-512 a 1.81, logrado mediante muestreo determinista rápido. Como contribución independiente, presentamos un método para configurar los parámetros del promedio móvil exponencial (EMA) a posteriori, es decir, después de completar la ejecución del entrenamiento. Esto permite un ajuste preciso de la longitud del EMA sin el costo de realizar varias ejecuciones de entrenamiento, y revela sus sorprendentes interacciones con la arquitectura de la red, el tiempo de entrenamiento y la guía.
Presentamos "ImageDream", un innovador modelo de difusión multi-vista basado en imágenes para la generación de objetos 3D. ImageDream destaca por su capacidad para producir modelos 3D de mayor calidad en comparación con los métodos actuales más avanzados condicionados por imágenes. Nuestro enfoque utiliza una coordinación de cámara canónica para los objetos en las imágenes, mejorando la precisión de la geometría visual. El modelo está diseñado con varios niveles de control en cada bloque dentro del modelo de difusión basado en la imagen de entrada, donde el control global define la disposición general del objeto y el control local ajusta los detalles de la imagen. La efectividad de ImageDream se demuestra a través de evaluaciones exhaustivas utilizando una lista de prompts estándar. Para más información, visite nuestra página del proyecto en https://Image-Dream.github.io.
La fidelidad de la reluminación está limitada tanto por las representaciones de geometría como de apariencia. En cuanto a la geometría, tanto los enfoques basados en mallas como los volumétricos tienen dificultades para modelar estructuras intrincadas como la geometría 3D del cabello. Para la apariencia, los modelos de reluminación existentes tienen una fidelidad limitada y suelen ser demasiado lentos para renderizar en tiempo real con entornos continuos de alta resolución. En este trabajo, presentamos Relightable Gaussian Codec Avatars, un método para construir avatares de cabeza reluminables de alta fidelidad que pueden ser animados para generar nuevas expresiones. Nuestro modelo de geometría basado en Gaussianas 3D puede capturar detalles consistentes en 3D a nivel sub-milimétrico, como hebras de cabello y poros en secuencias faciales dinámicas. Para soportar diversos materiales de la cabeza humana, como los ojos, la piel y el cabello de manera unificada, presentamos un novedoso modelo de apariencia reluminable basado en transferencia de radiancia aprendible. Junto con los armónicos esféricos conscientes de la iluminación global para los componentes difusos, logramos una reluminación en tiempo real con reflexiones de todas las frecuencias espaciales utilizando Gaussianas esféricas. Este modelo de apariencia puede ser reluminado eficientemente tanto bajo iluminación puntual como continua. Además, mejoramos la fidelidad de las reflexiones oculares y habilitamos el control explícito de la mirada mediante la introducción de modelos oculares explícitos reluminables. Nuestro método supera a los enfoques existentes sin comprometer el rendimiento en tiempo real. También demostramos la reluminación en tiempo real de avatares en un casco de realidad virtual de consumo conectado, mostrando la eficiencia y fidelidad de nuestros avatares.
Presentamos X-Adapter, un actualizador universal que permite que los módulos preentrenados plug-and-play (por ejemplo, ControlNet, LoRA) funcionen directamente con el modelo de difusión texto-imagen actualizado (por ejemplo, SDXL) sin necesidad de un reentrenamiento adicional. Logramos este objetivo entrenando una red adicional para controlar el modelo actualizado congelado utilizando nuevos pares de datos texto-imagen. En detalle, X-Adapter mantiene una copia congelada del modelo antiguo para preservar los conectores de los diferentes plugins. Además, X-Adapter añade capas de mapeo entrenables que conectan los decodificadores de modelos de diferentes versiones para el remapeo de características. Las características remapeadas se utilizarán como guía para el modelo actualizado. Para mejorar la capacidad de guía de X-Adapter, empleamos una estrategia de entrenamiento con texto nulo para el modelo actualizado. Después del entrenamiento, también introducimos una estrategia de eliminación de ruido en dos etapas para alinear los latentes iniciales de X-Adapter y el modelo actualizado. Gracias a nuestras estrategias, X-Adapter demuestra compatibilidad universal con varios plugins y también permite que plugins de diferentes versiones trabajen juntos, expandiendo así las funcionalidades de la comunidad de difusión. Para verificar la efectividad del método propuesto, realizamos extensos experimentos y los resultados muestran que X-Adapter puede facilitar una aplicación más amplia en el modelo de difusión fundamental actualizado.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han captado una atención significativa debido a su capacidad avanzada de comprensión multimodal. Sin embargo, los trabajos existentes dependen en gran medida de codificadores específicos para cada modalidad, que suelen diferir en arquitectura y están limitados a modalidades comunes. En este artículo, presentamos OneLLM, un MLLM que alinea ocho modalidades con el lenguaje utilizando un marco unificado. Logramos esto mediante un codificador multimodal unificado y una canalización progresiva de alineación multimodal. En detalle, primero entrenamos un módulo de proyección de imágenes para conectar un codificador visual con un modelo de lenguaje (LLM). Luego, construimos un módulo de proyección universal (UPM, por sus siglas en inglés) combinando múltiples módulos de proyección de imágenes y enrutamiento dinámico. Finalmente, alineamos progresivamente más modalidades con el LLM utilizando el UPM. Para aprovechar al máximo el potencial de OneLLM en la ejecución de instrucciones, también hemos creado un conjunto de datos integral de instrucciones multimodales, que incluye 2 millones de elementos de imágenes, audio, video, nubes de puntos, mapas de profundidad/normal, IMU y actividad cerebral fMRI. OneLLM se evalúa en 25 benchmarks diversos, abarcando tareas como subtitulación multimodal, respuesta a preguntas y razonamiento, donde demuestra un rendimiento excelente. El código, los datos, el modelo y una demostración en línea están disponibles en https://github.com/csuhan/OneLLM.
Los modelos de difusión han revolucionado recientemente el campo de la síntesis de imágenes debido a su capacidad para generar imágenes fotorrealistas. Sin embargo, uno de los principales inconvenientes de los modelos de difusión es que el proceso de generación de imágenes es costoso. Una red grande de imagen a imagen debe aplicarse muchas veces para refinar iterativamente una imagen a partir de ruido aleatorio. Aunque muchos trabajos recientes proponen técnicas para reducir el número de pasos requeridos, generalmente tratan la red subyacente de eliminación de ruido como una caja negra. En este trabajo, investigamos el comportamiento de las capas dentro de la red y encontramos que 1) la salida de las capas cambia suavemente con el tiempo, 2) las capas muestran patrones distintos de cambio, y 3) el cambio de un paso a otro es a menudo muy pequeño. Planteamos la hipótesis de que muchos cálculos de las capas en la red de eliminación de ruido son redundantes. Aprovechando esto, introducimos el almacenamiento en caché de bloques, en el que reutilizamos las salidas de bloques de capas de pasos anteriores para acelerar la inferencia. Además, proponemos una técnica para determinar automáticamente los horarios de almacenamiento en caché basados en los cambios de cada bloque a lo largo de los pasos de tiempo. En nuestros experimentos, mostramos a través de FID, evaluación humana y análisis cualitativo que el almacenamiento en caché de bloques permite generar imágenes con mayor calidad visual al mismo costo computacional. Demostramos esto para diferentes modelos de última generación (LDM y EMU) y solucionadores (DDIM y DPM).
Presentamos LooseControl para permitir el condicionamiento generalizado de profundidad en la generación de imágenes basada en difusión. ControlNet, el estado del arte (SOTA) para la generación de imágenes condicionadas por profundidad, produce resultados notables, pero depende del acceso a mapas de profundidad detallados para su guía. Crear tales mapas de profundidad exactos, en muchos escenarios, es un desafío. Este artículo introduce una versión generalizada del condicionamiento de profundidad que permite muchos nuevos flujos de trabajo de creación de contenido. Específicamente, permitimos (C1) el control de límites de escena para especificar de manera aproximada escenas con solo condiciones de límite, y (C2) el control de cajas 3D para especificar las ubicaciones de diseño de los objetos objetivo en lugar de la forma y apariencia exacta de los objetos. Usando LooseControl, junto con la guía de texto, los usuarios pueden crear entornos complejos (por ejemplo, habitaciones, vistas de calles, etc.) especificando solo los límites de la escena y las ubicaciones de los objetos principales. Además, proporcionamos dos mecanismos de edición para refinar los resultados: (E1) la edición de cajas 3D permite al usuario refinar imágenes cambiando, agregando o eliminando cajas mientras se congela el estilo de la imagen. Esto produce cambios mínimos aparte de los inducidos por las cajas editadas. (E2) La edición de atributos propone posibles direcciones de edición para cambiar un aspecto particular de la escena, como la densidad general de objetos o un objeto específico. Pruebas extensas y comparaciones con líneas base demuestran la generalidad de nuestro método. Creemos que LooseControl puede convertirse en una herramienta de diseño importante para crear fácilmente entornos complejos y extenderse a otras formas de canales de guía. El código y más información están disponibles en https://shariqfarooq123.github.io/loose-control/.
Las técnicas de personalización para modelos de texto a imagen han abierto el camino a una amplia gama de aplicaciones previamente inalcanzables, permitiendo la generación de conceptos específicos en diversos contextos y estilos. Si bien los métodos existentes facilitan una personalización de alta fidelidad para conceptos individuales o un conjunto limitado y predefinido de ellos, no logran alcanzar la escalabilidad, donde un solo modelo puede representar sin problemas innumerables conceptos. En este artículo, abordamos un nuevo problema llamado Personalización Modular, con el objetivo de fusionar de manera eficiente modelos personalizados que fueron ajustados de forma independiente para conceptos individuales. Esto permite que el modelo fusionado sintetice conjuntamente conceptos en una sola imagen sin comprometer la fidelidad ni incurrir en costos computacionales adicionales. Para abordar este problema, introducimos Adaptación Ortogonal, un método diseñado para fomentar que los modelos personalizados, que no tienen acceso entre sí durante el ajuste fino, tengan pesos residuales ortogonales. Esto asegura que, durante la inferencia, los modelos personalizados puedan sumarse con una interferencia mínima. Nuestro método propuesto es simple y versátil, aplicable a casi todos los pesos optimizables en la arquitectura del modelo. A través de un extenso conjunto de evaluaciones cuantitativas y cualitativas, nuestro método supera consistentemente a las líneas de base relevantes en términos de eficiencia y preservación de identidad, demostrando un avance significativo hacia la personalización escalable de modelos de difusión.
La edición de contenido visual en videos sigue siendo un desafío formidable con dos problemas principales: 1) un control directo y sencillo por parte del usuario para producir 2) resultados de edición naturales sin distorsiones antiestéticas y artefactos después de cambiar la forma, la expresión y la disposición. Inspirados por DragGAN, una técnica reciente de edición basada en imágenes de estilo arrastre, abordamos los problemas mencionados proponiendo DragVideo, donde se adopta una interacción de usuario similar de estilo arrastre para editar contenido de video mientras se mantiene la consistencia temporal. Potenciado por modelos de difusión recientes como en DragDiffusion, DragVideo incluye el novedoso método de edición Drag-on-Video U-Net (DoVe), que optimiza los latentes de video difundidos generados por la U-Net de video para lograr el control deseado. Específicamente, utilizamos el ajuste fino LoRA específico de muestra y el control de Atención Mutua Auto-Referenciada para garantizar una reconstrucción fiel del video a partir del método DoVe. También presentamos una serie de ejemplos de prueba para la edición de video de estilo arrastre y realizamos experimentos exhaustivos en una amplia gama de tareas de edición desafiantes, como la edición de movimiento, la edición de esqueleto, etc., destacando la versatilidad y generalidad de DragVideo. Nuestros códigos, incluida la interfaz de usuario web de DragVideo, serán publicados.
En esta era, el éxito de los modelos de lenguaje a gran escala y los modelos de texto a imagen puede atribuirse al impulso de los conjuntos de datos a gran escala. Sin embargo, en el ámbito de la visión 3D, aunque se han logrado avances notables con modelos entrenados en datos sintéticos y capturados en el mundo real a gran escala, como Objaverse y MVImgNet, no se ha observado un nivel similar de progreso en el dominio de tareas centradas en humanos, en parte debido a la falta de un conjunto de datos humano a gran escala. Los conjuntos de datos existentes de captura 3D de alta fidelidad de humanos siguen siendo de tamaño mediano debido a los desafíos significativos en la adquisición de datos 3D humanos de alta calidad a gran escala. Para cerrar esta brecha, presentamos MVHumanNet, un conjunto de datos que comprende secuencias de acciones humanas desde múltiples vistas de 4,500 identidades humanas. El enfoque principal de nuestro trabajo es la recopilación de datos humanos que presentan un gran número de identidades diversas y ropa cotidiana utilizando un sistema de captura humana multi-vista, lo que facilita una recolección de datos fácilmente escalable. Nuestro conjunto de datos contiene 9,000 atuendos diarios, 60,000 secuencias de movimiento y 645 millones de fotogramas con anotaciones extensas, que incluyen máscaras humanas, parámetros de cámara, puntos clave 2D y 3D, parámetros SMPL/SMPLX y descripciones textuales correspondientes. Para explorar el potencial de MVHumanNet en diversas tareas visuales 2D y 3D, realizamos estudios piloto sobre reconocimiento de acciones consistentes en la vista, reconstrucción de NeRF humano, generación de imágenes humanas no restringidas por la vista impulsada por texto, así como generación de imágenes humanas 2D no restringidas por la vista y generación de avatares 3D. Experimentos extensos demuestran las mejoras en el rendimiento y las aplicaciones efectivas habilitadas por la escala proporcionada por MVHumanNet. Como el conjunto de datos 3D humano más grande actualmente, esperamos que la publicación de los datos de MVHumanNet con anotaciones fomente más innovaciones en el dominio de tareas centradas en humanos 3D a gran escala.
La modelización basada en agentes ha existido durante décadas y se ha aplicado ampliamente en las ciencias sociales y naturales. El alcance de este método de investigación está ahora preparado para crecer de manera significativa al incorporar las nuevas capacidades proporcionadas por los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés). Los Modelos Basados en Agentes Generativos (GABM, por sus siglas en inglés) no son simplemente Modelos Basados en Agentes (ABM) clásicos donde los agentes se comunican entre sí. Más bien, los GABM se construyen utilizando un LLM para aplicar el sentido común a situaciones, actuar de manera "razonable", recordar conocimiento semántico común, realizar llamadas API para controlar tecnologías digitales como aplicaciones, y comunicarse tanto dentro de la simulación como con los investigadores que la observan desde el exterior. Aquí presentamos Concordia, una biblioteca diseñada para facilitar la construcción y el trabajo con GABM. Concordia permite crear fácilmente simulaciones mediadas por lenguaje de entornos físicos o digitales. Los agentes de Concordia generan su comportamiento utilizando un sistema de componentes flexible que media entre dos operaciones fundamentales: las llamadas a LLM y la recuperación de memoria asociativa. Un agente especial llamado el Maestro del Juego (GM, por sus siglas en inglés), inspirado en los juegos de rol de mesa, es responsable de simular el entorno donde interactúan los agentes. Los agentes realizan acciones describiendo lo que quieren hacer en lenguaje natural. El GM luego traduce sus acciones en implementaciones adecuadas. En un mundo físico simulado, el GM verifica la plausibilidad física de las acciones de los agentes y describe sus efectos. En entornos digitales que simulan tecnologías como aplicaciones y servicios, el GM puede manejar llamadas API para integrarse con herramientas externas como asistentes de IA general (por ejemplo, Bard, ChatGPT) y aplicaciones digitales (por ejemplo, Calendario, Correo electrónico, Búsqueda, etc.). Concordia fue diseñado para apoyar una amplia gama de aplicaciones, tanto en investigación científica como en la evaluación del rendimiento de servicios digitales reales mediante la simulación de usuarios y/o la generación de datos sintéticos.
Los métodos de reconstrucción 3D, como los Campos de Radiancia Neural (NeRFs), destacan por generar vistas novedosas fotorrealistas de escenas complejas. Sin embargo, recuperar un NeRF de alta calidad generalmente requiere decenas o cientos de imágenes de entrada, lo que resulta en un proceso de captura que consume mucho tiempo. Presentamos ReconFusion para reconstruir escenas del mundo real utilizando solo unas pocas fotografías. Nuestro enfoque aprovecha un prior de difusión para la síntesis de vistas novedosas, entrenado en conjuntos de datos sintéticos y multivista, que regulariza una canalización de reconstrucción 3D basada en NeRF en poses de cámara novedosas más allá de las capturadas por el conjunto de imágenes de entrada. Nuestro método sintetiza geometría y textura realistas en regiones subrestringidas, preservando la apariencia de las regiones observadas. Realizamos una evaluación exhaustiva en varios conjuntos de datos del mundo real, incluyendo escenas de frente y de 360 grados, demostrando mejoras significativas en el rendimiento en comparación con enfoques anteriores de reconstrucción NeRF con pocas vistas.
Proponemos un método para controlar atributos materiales de objetos como rugosidad, metalicidad, albedo y transparencia en imágenes reales. Nuestro método aprovecha el conocimiento previo generativo de los modelos de texto a imagen, reconocidos por su fotorrealismo, utilizando un valor escalar e instrucciones para modificar propiedades materiales de bajo nivel. Para abordar la falta de conjuntos de datos con atributos materiales controlados, generamos un conjunto de datos sintético centrado en objetos con materiales basados en física. El ajuste fino de un modelo preentrenado de texto a imagen modificado en este conjunto de datos sintético nos permite editar propiedades materiales en imágenes del mundo real mientras preservamos todos los demás atributos. Mostramos la aplicación potencial de nuestro modelo en NeRFs con materiales editados.
Recientemente, se han logrado avances significativos en la generación de movimientos basada en texto, permitiendo la creación de movimientos humanos diversos y de alta calidad que se ajustan a descripciones textuales. Sin embargo, sigue siendo un desafío generar movimientos detallados o estilizados debido a la falta de conjuntos de datos anotados con descripciones textuales detalladas. Al adoptar una estrategia de divide y vencerás, proponemos un nuevo marco denominado Modelo de Difusión de Movimiento Humano de Grano Fino (FG-MDM) para la generación de movimientos humanos. Específicamente, primero analizamos las anotaciones textuales vagas previas en descripciones detalladas de diferentes partes del cuerpo utilizando un modelo de lenguaje grande (GPT-3.5). Luego, utilizamos estas descripciones detalladas para guiar un modelo de difusión basado en transformadores. FG-MDM puede generar movimientos detallados y estilizados incluso fuera de la distribución de los datos de entrenamiento. Nuestros resultados experimentales demuestran la superioridad de FG-MDM sobre métodos anteriores, especialmente en su fuerte capacidad de generalización. Publicaremos nuestras anotaciones textuales detalladas para HumanML3D y KIT.
Nuestra comprensión del mundo visual se centra en diversos ejes conceptuales que caracterizan diferentes aspectos de las entidades visuales. Si bien los distintos ejes conceptuales pueden especificarse fácilmente mediante el lenguaje, por ejemplo, el color, los matices visuales exactos a lo largo de cada eje a menudo superan las limitaciones de las articulaciones lingüísticas, como un estilo particular de pintura. En este trabajo, nuestro objetivo es aprender una representación de conceptos visuales informada por el lenguaje, simplemente destilando grandes modelos preentrenados de visión y lenguaje. Específicamente, entrenamos un conjunto de codificadores de conceptos para codificar la información relevante a un conjunto de ejes conceptuales informados por el lenguaje, con el objetivo de reproducir la imagen de entrada a través de un modelo preentrenado de Texto a Imagen (T2I). Para fomentar una mejor desentrelazamiento de los diferentes codificadores de conceptos, anclamos los embeddings de conceptos a un conjunto de embeddings de texto obtenidos de un modelo preentrenado de Respuesta a Preguntas Visuales (VQA). En el momento de la inferencia, el modelo extrae embeddings de conceptos a lo largo de varios ejes de nuevas imágenes de prueba, que pueden recombinarse para generar imágenes con composiciones novedosas de conceptos visuales. Con un procedimiento ligero de ajuste en tiempo de prueba, también puede generalizar a conceptos novedosos no vistos durante el entrenamiento.
Las interacciones con asistentes virtuales suelen comenzar con una frase de activación seguida de un comando. En este trabajo, exploramos la posibilidad de hacer estas interacciones más naturales eliminando la necesidad de una frase de activación. Nuestro objetivo es determinar si un usuario se dirigió al asistente virtual basándonos en señales obtenidas del audio en streaming grabado por el micrófono del dispositivo. Abordamos esta tarea combinando hipótesis 1-best y señales del decodificador de un sistema de reconocimiento automático del habla con representaciones acústicas de un codificador de audio como características de entrada para un modelo de lenguaje grande (LLM, por sus siglas en inglés). En particular, nos interesan sistemas eficientes en datos y recursos que requieran solo una pequeña cantidad de datos de entrenamiento y puedan operar en escenarios donde solo esté disponible un LLM congelado en el dispositivo. Por esta razón, nuestro modelo se entrena con 80k o menos ejemplos de datos multimodales utilizando una combinación de adaptación de bajo rango y ajuste de prefijos. Comparamos el sistema propuesto con líneas base unimodales y demostramos que el enfoque multimodal logra tasas de error iguales (EER) más bajas, utilizando solo una fracción de los datos de entrenamiento. También mostramos que las representaciones de audio especializadas de baja dimensionalidad conducen a EER más bajas que las representaciones de audio generales de alta dimensionalidad.