Artículos de investigación en IA seleccionados diariamente con traducciones
La IA generativa ha experimentado avances rápidos en los últimos años, logrando capacidades sin precedentes en comprensión multimodal y generación de código. Esto puede habilitar un nuevo paradigma en el desarrollo de interfaces, donde los LLM multimodales podrían convertir directamente diseños visuales en implementaciones de código. En este trabajo, formalizamos esto como una tarea de Design2Code y realizamos una evaluación exhaustiva. Específicamente, hemos creado manualmente un conjunto de referencia de 484 páginas web diversas del mundo real como casos de prueba y desarrollado un conjunto de métricas de evaluación automática para medir qué tan bien los LLM multimodales actuales pueden generar implementaciones de código que se rendericen directamente en las páginas web de referencia, utilizando capturas de pantalla como entrada. También complementamos las métricas automáticas con evaluaciones humanas exhaustivas. Desarrollamos un conjunto de métodos de prompting multimodal y demostramos su efectividad en GPT-4V y Gemini Pro Vision. Además, ajustamos un modelo de código abierto Design2Code-18B que iguala el rendimiento de Gemini Pro Vision. Tanto la evaluación humana como las métricas automáticas muestran que GPT-4V tiene el mejor desempeño en esta tarea en comparación con otros modelos. Además, los evaluadores consideran que las páginas web generadas por GPT-4V pueden reemplazar a las páginas de referencia originales en el 49% de los casos en términos de apariencia visual y contenido; y, sorprendentemente, en el 64% de los casos, las páginas generadas por GPT-4V se consideran mejores que las páginas de referencia originales. Nuestras métricas detalladas indican que los modelos de código abierto suelen quedarse atrás en la recuperación de elementos visuales de las páginas web de entrada y en la generación de diseños de disposición correctos, mientras que aspectos como el contenido de texto y el color pueden mejorarse drásticamente con un ajuste adecuado.
Los modelos de difusión generan datos a partir de ruido invirtiendo las trayectorias directas de los datos hacia el ruido y han surgido como una técnica poderosa de modelado generativo para datos perceptuales de alta dimensión, como imágenes y videos. El flujo rectificado es una formulación reciente de modelos generativos que conecta datos y ruido en línea recta. A pesar de sus mejores propiedades teóricas y simplicidad conceptual, aún no se ha establecido de manera decisiva como una práctica estándar. En este trabajo, mejoramos las técnicas existentes de muestreo de ruido para entrenar modelos de flujo rectificado al sesgarlas hacia escalas perceptualmente relevantes. A través de un estudio a gran escala, demostramos el rendimiento superior de este enfoque en comparación con las formulaciones de difusión establecidas para la síntesis de imágenes de alta resolución a partir de texto. Además, presentamos una arquitectura novedosa basada en transformadores para la generación de imágenes a partir de texto que utiliza pesos separados para las dos modalidades y permite un flujo bidireccional de información entre tokens de imagen y texto, mejorando la comprensión del texto, la tipografía y las calificaciones de preferencia humana. Demostramos que esta arquitectura sigue tendencias de escalado predecibles y correlaciona una menor pérdida de validación con una mejor síntesis de imágenes a partir de texto, medida mediante diversas métricas y evaluaciones humanas. Nuestros modelos más grandes superan a los modelos de última generación, y haremos públicos nuestros datos experimentales, código y pesos de los modelos.
El "virtual try-on" basado en imágenes (VTON), que tiene como objetivo generar una imagen de una persona objetivo vistiendo una prenda de una tienda, es una tarea desafiante de síntesis de imágenes que requiere no solo una alta fidelidad de la persona vestida, sino también la preservación completa de los detalles de la prenda. Para abordar este problema, proponemos Outfitting over Try-on Diffusion (OOTDiffusion), aprovechando el poder de los modelos de difusión latente preentrenados y diseñando una arquitectura de red novedosa para un "virtual try-on" realista y controlable. Sin un proceso de deformación explícito, proponemos un UNet de vestimenta para aprender las características detalladas de la prenda y fusionarlas con el cuerpo humano objetivo mediante nuestra propuesta de fusión de vestimenta en el proceso de eliminación de ruido de los modelos de difusión. Para mejorar aún más la controlabilidad de nuestro UNet de vestimenta, introducimos el "outfitting dropout" en el proceso de entrenamiento, lo que nos permite ajustar la intensidad de las características de la prenda mediante guía libre de clasificador. Nuestros experimentos exhaustivos en los conjuntos de datos VITON-HD y Dress Code demuestran que OOTDiffusion genera eficientemente imágenes de alta calidad de personas vestidas para cualquier imagen humana y de prenda, superando a otros métodos VTON tanto en fidelidad como en controlabilidad, lo que indica un avance impresionante en el "virtual try-on". Nuestro código fuente está disponible en https://github.com/levihsu/OOTDiffusion.
El desarrollo de modelos multimodales ha marcado un avance significativo en la forma en que las máquinas comprenden los videos. Estos modelos han mostrado potencial para analizar clips de video cortos. Sin embargo, cuando se trata de formatos más largos, como películas, a menudo no alcanzan el nivel esperado. Los principales obstáculos son la falta de datos de video diversos y de alta calidad, así como el trabajo intensivo requerido para recopilar o anotar dichos datos. Ante estos desafíos, proponemos MovieLLM, un marco novedoso diseñado para crear datos sintéticos de alta calidad para videos largos. Este marco aprovecha el poder de GPT-4 y modelos de texto a imagen para generar guiones detallados y visuales correspondientes. Nuestro enfoque destaca por su flexibilidad y escalabilidad, convirtiéndolo en una alternativa superior a los métodos tradicionales de recopilación de datos. Nuestros extensos experimentos validan que los datos producidos por MovieLLM mejoran significativamente el rendimiento de los modelos multimodales en la comprensión de narrativas de video complejas, superando las limitaciones de los conjuntos de datos existentes en cuanto a escasez y sesgo.
Recientemente, la generación de videos ha logrado un desarrollo significativo y rápido basado en técnicas superiores de generación de texto a imagen. En este trabajo, proponemos un marco de alta fidelidad para la generación de imagen a video, denominado AtomoVideo. Basándonos en la inyección de imágenes de múltiples granularidades, logramos una mayor fidelidad del video generado con respecto a la imagen dada. Además, gracias a conjuntos de datos de alta calidad y estrategias de entrenamiento, alcanzamos una mayor intensidad de movimiento mientras mantenemos una consistencia y estabilidad temporal superiores. Nuestra arquitectura se extiende de manera flexible a la tarea de predicción de fotogramas de video, permitiendo la predicción de secuencias largas mediante generación iterativa. Además, debido al diseño del entrenamiento de adaptadores, nuestro enfoque puede combinarse eficazmente con modelos personalizados y módulos controlables existentes. Mediante evaluaciones cuantitativas y cualitativas, AtomoVideo obtiene resultados superiores en comparación con métodos populares. Se pueden encontrar más ejemplos en nuestro sitio web del proyecto: https://atomo-video.github.io/.
Los modelos de lenguaje de gran escala (LLMs) enfrentan un desafío formidable debido a los excesivos requisitos computacionales y de memoria de la arquitectura Transformer, comúnmente utilizada. Aunque los modelos de espacio de estados (SSM) representan un nuevo tipo de arquitectura de red fundamental que ofrece una menor complejidad computacional, su rendimiento aún no iguala por completo al de los Transformers. Este artículo presenta DenseSSM, un enfoque novedoso para mejorar el flujo de información oculta entre capas en los SSMs. Al integrar selectivamente los estados ocultos de capas superficiales en capas más profundas, DenseSSM conserva información detallada crucial para la salida final. Las conexiones densas mejoradas en DenseSSM mantienen la capacidad de paralelización durante el entrenamiento y la eficiencia en la inferencia. El método propuesto puede aplicarse ampliamente a diversos tipos de SSM, como RetNet y Mamba. Con un tamaño de modelo similar, DenseSSM logra mejoras significativas, como lo demuestra DenseRetNet, que supera al RetNet original con una mejora de hasta un 5% en precisión en benchmarks públicos.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado avances significativos recientemente. Sin embargo, persisten desafíos en el reconocimiento preciso y la comprensión de detalles intrincados dentro de imágenes de alta resolución. A pesar de ser indispensables para el desarrollo de MLLMs robustos, esta área sigue estando poco investigada. Para abordar este desafío, nuestro trabajo introduce InfiMM-HD, una arquitectura novedosa diseñada específicamente para procesar imágenes de diferentes resoluciones con un bajo costo computacional. Esta innovación facilita la ampliación de los MLLMs hacia capacidades de mayor resolución. InfiMM-HD incorpora un módulo de atención cruzada y ventanas visuales para reducir los costos de computación. Al integrar este diseño arquitectónico con una canalización de entrenamiento en cuatro etapas, nuestro modelo alcanza una percepción visual mejorada de manera eficiente y rentable. El estudio empírico subraya la robustez y efectividad de InfiMM-HD, abriendo nuevas vías de exploración en áreas relacionadas. Los códigos y modelos pueden encontrarse en https://huggingface.co/Infi-MM/infimm-hd.
Los recientes avances en modelos de texto a imagen (por ejemplo, Stable Diffusion) y las tecnologías de personalización correspondientes (por ejemplo, DreamBooth y LoRA) permiten a los usuarios generar imágenes de alta calidad y gran imaginación. Sin embargo, estos modelos suelen presentar limitaciones al generar imágenes con resoluciones fuera de su dominio de entrenamiento. Para superar esta limitación, presentamos el Resolution Adapter (ResAdapter), un adaptador consistente en el dominio diseñado para modelos de difusión que permite generar imágenes con resoluciones y relaciones de aspecto ilimitadas. A diferencia de otros métodos de generación multi-resolución que procesan imágenes de resolución estática con operaciones complejas de post-procesamiento, ResAdapter genera directamente imágenes con resolución dinámica. En particular, después de aprender un profundo entendimiento de los priores de resolución pura, ResAdapter, entrenado en un conjunto de datos general, genera imágenes libres de restricciones de resolución con modelos de difusión personalizados, preservando su dominio de estilo original. Experimentos exhaustivos demuestran que ResAdapter, con solo 0.5M de parámetros, puede procesar imágenes con resoluciones flexibles para modelos de difusión arbitrarios. Experimentos adicionales muestran que ResAdapter es compatible con otros módulos (por ejemplo, ControlNet, IP-Adapter y LCM-LoRA) para la generación de imágenes en un amplio rango de resoluciones, y puede integrarse en otros modelos multi-resolución (por ejemplo, ElasticDiffusion) para generar eficientemente imágenes de mayor resolución. El enlace del proyecto es https://res-adapter.github.io.
Este informe técnico presenta TripoSR, un modelo de reconstrucción 3D que aprovecha la arquitectura transformer para la generación rápida de modelos 3D en un solo paso, produciendo mallas 3D a partir de una sola imagen en menos de 0.5 segundos. Basándose en la arquitectura de red LRM, TripoSR incorpora mejoras significativas en el procesamiento de datos, el diseño del modelo y las técnicas de entrenamiento. Las evaluaciones en conjuntos de datos públicos muestran que TripoSR exhibe un rendimiento superior, tanto cuantitativa como cualitativamente, en comparación con otras alternativas de código abierto. Publicado bajo la licencia MIT, TripoSR tiene como objetivo empoderar a investigadores, desarrolladores y creativos con los últimos avances en IA generativa 3D.
El lenguaje proporciona una forma de descomponer conceptos complejos en partes digeribles. Trabajos recientes en aprendizaje por imitación de robots utilizan políticas condicionadas por lenguaje que predicen acciones dadas observaciones visuales y la tarea de alto nivel especificada en lenguaje. Estos métodos aprovechan la estructura del lenguaje natural para compartir datos entre tareas semánticamente similares (por ejemplo, "recoger lata de refresco" y "recoger una manzana") en conjuntos de datos multitarea. Sin embargo, a medida que las tareas se vuelven más diversas semánticamente (por ejemplo, "recoger lata de refresco" y "verter taza"), compartir datos entre tareas se vuelve más difícil, por lo que aprender a mapear tareas de alto nivel a acciones requiere muchos más datos de demostración. Para conectar tareas y acciones, nuestra idea es enseñar al robot el lenguaje de las acciones, describiendo movimientos de bajo nivel con frases más detalladas como "mover brazo hacia adelante". Predecir estos movimientos de lenguaje como un paso intermedio entre tareas y acciones obliga a la política a aprender la estructura compartida de los movimientos de bajo nivel en tareas aparentemente dispares. Además, una política condicionada por movimientos de lenguaje puede corregirse fácilmente durante la ejecución mediante movimientos de lenguaje especificados por humanos. Esto permite un nuevo paradigma para políticas flexibles que pueden aprender de la intervención humana en lenguaje. Nuestro método RT-H construye una jerarquía de acciones utilizando movimientos de lenguaje: primero aprende a predecir movimientos de lenguaje y, condicionado en esto y la tarea de alto nivel, predice acciones, utilizando contexto visual en todas las etapas. Demostramos que RT-H aprovecha esta jerarquía lenguaje-acción para aprender políticas más robustas y flexibles al aprovechar efectivamente conjuntos de datos multitarea. Mostramos que estas políticas no solo permiten responder a intervenciones de lenguaje, sino que también pueden aprender de dichas intervenciones y superar a métodos que aprenden de intervenciones teleoperadas. Nuestro sitio web y videos se encuentran en https://rt-hierarchy.github.io.
La generación de activos 3D está recibiendo una atención masiva, inspirada por el reciente éxito de la creación de contenido 2D guiado por texto. Los métodos existentes de texto a 3D utilizan modelos de difusión preentrenados de texto a imagen en un problema de optimización o los ajustan en datos sintéticos, lo que a menudo resulta en objetos 3D no fotorrealistas sin fondos. En este artículo, presentamos un método que aprovecha modelos preentrenados de texto a imagen como un prior y aprende a generar imágenes multivista en un único proceso de eliminación de ruido a partir de datos del mundo real. Concretamente, proponemos integrar capas de renderizado de volumen 3D y atención entre marcos en cada bloque de la red U-Net existente del modelo de texto a imagen. Además, diseñamos una generación autoregresiva que renderiza imágenes más consistentes en 3D desde cualquier punto de vista. Entrenamos nuestro modelo en conjuntos de datos del mundo real de objetos y demostramos su capacidad para generar instancias con una variedad de formas y texturas de alta calidad en entornos auténticos. En comparación con los métodos existentes, los resultados generados por nuestro método son consistentes y tienen una calidad visual favorable (-30% FID, -37% KID).
Las tareas de generación de imagen a video (I2V) siempre han enfrentado dificultades para mantener una alta fidelidad en dominios abiertos. Las técnicas tradicionales de animación de imágenes se centran principalmente en dominios específicos, como rostros o poses humanas, lo que dificulta su generalización a dominios abiertos. Varios marcos recientes de I2V basados en modelos de difusión pueden generar contenido dinámico para imágenes de dominio abierto, pero no logran mantener la fidelidad. Descubrimos que dos factores principales de la baja fidelidad son la pérdida de detalles de la imagen y los sesgos en la predicción del ruido durante el proceso de eliminación de ruido. Para abordar esto, proponemos un método efectivo que puede aplicarse a los principales modelos de difusión de video. Este método logra alta fidelidad al complementar información más precisa de la imagen y corregir el ruido. Específicamente, dada una imagen específica, nuestro método primero agrega ruido al latente de la imagen de entrada para preservar más detalles, luego elimina el ruido del latente con una corrección adecuada para mitigar los sesgos en la predicción del ruido. Nuestro método no requiere ajustes y es plug-and-play. Los resultados experimentales demuestran la efectividad de nuestro enfoque para mejorar la fidelidad de los videos generados. Para ver más resultados de generación de imagen a video, visite el sitio web del proyecto: https://noise-rectification.github.io.
La manipulación de objetos con dos manos multifuncionales ha sido un desafío de larga data en robótica, atribuido a la naturaleza rica en contactos de muchas tareas de manipulación y a la complejidad inherente en la coordinación de un sistema bimanual de alta dimensionalidad. En este trabajo, consideramos el problema de girar tapas de diversos objetos similares a botellas con dos manos, y demostramos que las políticas entrenadas en simulación mediante aprendizaje por refuerzo profundo pueden transferirse efectivamente al mundo real. Con nuevas ideas de ingeniería en modelado físico, percepción en tiempo real y diseño de recompensas, la política demuestra capacidades de generalización en un conjunto diverso de objetos no vistos, mostrando comportamientos dinámicos y diestros. Nuestros hallazgos sirven como evidencia convincente de que el aprendizaje por refuerzo profundo combinado con la transferencia sim-to-real sigue siendo un enfoque prometedor para abordar problemas de manipulación de una complejidad sin precedentes.
La construcción de videos de punto de vista libre (FVVs) fotorrealistas de escenas dinámicas a partir de videos multivista sigue siendo un desafío significativo. A pesar de los notables avances logrados por las técnicas actuales de renderizado neuronal, estos métodos generalmente requieren secuencias de video completas para entrenamiento fuera de línea y no son capaces de renderizado en tiempo real. Para abordar estas limitaciones, presentamos 3DGStream, un método diseñado para la transmisión eficiente de FVVs de escenas dinámicas del mundo real. Nuestro método logra una reconstrucción rápida por fotograma sobre la marcha en menos de 12 segundos y un renderizado en tiempo real a 200 FPS. Específicamente, utilizamos gaussianos 3D (3DGs) para representar la escena. En lugar del enfoque ingenuo de optimizar directamente los 3DGs por fotograma, empleamos un Caché de Transformación Neuronal (NTC) compacto para modelar las traslaciones y rotaciones de los 3DGs, reduciendo significativamente el tiempo de entrenamiento y el almacenamiento requerido para cada fotograma de FVV. Además, proponemos una estrategia adaptativa de adición de 3DGs para manejar objetos emergentes en escenas dinámicas. Los experimentos demuestran que 3DGStream logra un rendimiento competitivo en términos de velocidad de renderizado, calidad de imagen, tiempo de entrenamiento y almacenamiento del modelo en comparación con los métodos más avanzados.