Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs) han sido destacables; sin embargo, estos MLLMs de dominio general a menudo carecen de la capacidad para comprender e interactuar de manera efectiva con las pantallas de interfaz de usuario (UI). En este artículo, presentamos Ferret-UI, un nuevo MLLM diseñado para mejorar la comprensión de las pantallas de UI móviles, equipado con capacidades de referencia, anclaje y razonamiento. Dado que las pantallas de UI suelen exhibir una relación de aspecto más alargada y contener objetos de interés más pequeños (por ejemplo, iconos, textos) que las imágenes naturales, incorporamos una resolución "cualquiera" en Ferret para ampliar los detalles y aprovechar características visuales mejoradas. Específicamente, cada pantalla se divide en 2 subimágenes basadas en la relación de aspecto original (es decir, división horizontal para pantallas en modo retrato y división vertical para pantallas en modo apaisado). Ambas subimágenes se codifican por separado antes de ser enviadas a los LLMs. Reunimos meticulosamente muestras de entrenamiento de una amplia gama de tareas básicas de UI, como reconocimiento de iconos, búsqueda de texto y listado de widgets. Estas muestras se formatean para seguir instrucciones con anotaciones de región para facilitar la referencia y el anclaje precisos. Para aumentar la capacidad de razonamiento del modelo, compilamos además un conjunto de datos para tareas avanzadas, que incluyen descripción detallada, conversaciones de percepción/interacción e inferencia de funciones. Después del entrenamiento en los conjuntos de datos seleccionados, Ferret-UI exhibe una comprensión sobresaliente de las pantallas de UI y la capacidad de ejecutar instrucciones de formato abierto. Para la evaluación del modelo, establecemos un punto de referencia integral que abarca todas las tareas mencionadas anteriormente. Ferret-UI no solo supera a la mayoría de los MLLMs de UI de código abierto, sino que también supera a GPT-4V en todas las tareas básicas de UI.
Los recientes avances en la generación de texto a video (T2V) han logrado un éxito notable en la síntesis de videos generales de alta calidad a partir de descripciones textuales. Un problema ampliamente pasado por alto en T2V es que los modelos existentes no han codificado adecuadamente el conocimiento físico del mundo real, por lo que los videos generados tienden a tener movimientos limitados y variaciones deficientes. En este artículo, proponemos MagicTime, un modelo de generación de videos time-lapse metamórficos, que aprende conocimiento físico del mundo real a partir de videos time-lapse e implementa la generación metamórfica. Primero, diseñamos un esquema MagicAdapter para desacoplar el entrenamiento espacial y temporal, codificar más conocimiento físico a partir de videos metamórficos y transformar modelos T2V preentrenados para generar videos metamórficos. Segundo, introducimos una estrategia de Extracción Dinámica de Fotogramas para adaptarnos a los videos time-lapse metamórficos, que tienen un rango de variación más amplio y cubren procesos metamórficos de objetos dramáticos, incorporando así más conocimiento físico que los videos generales. Finalmente, presentamos un Magic Text-Encoder para mejorar la comprensión de las indicaciones de videos metamórficos. Además, creamos un conjunto de datos de video-texto time-lapse llamado ChronoMagic, específicamente curado para desbloquear la capacidad de generación de videos metamórficos. Experimentos extensivos demuestran la superioridad y efectividad de MagicTime para generar videos metamórficos dinámicos y de alta calidad, sugiriendo que la generación de videos time-lapse es un camino prometedor hacia la construcción de simuladores metamórficos del mundo físico.
La edición efectiva de contenido personal desempeña un papel fundamental al permitir que los individuos expresen su creatividad, tejan narrativas cautivadoras dentro de sus historias visuales y eleven la calidad e impacto general de su contenido visual. Por lo tanto, en este trabajo presentamos SwapAnything, un marco novedoso que puede intercambiar cualquier objeto en una imagen con conceptos personalizados proporcionados por una referencia, manteniendo el contexto sin cambios. En comparación con los métodos existentes para el intercambio de sujetos personalizados, SwapAnything tiene tres ventajas únicas: (1) control preciso de objetos y partes arbitrarios en lugar del sujeto principal, (2) preservación más fiel de los píxeles del contexto, (3) mejor adaptación del concepto personalizado a la imagen. Primero, proponemos el intercambio de variables dirigido para aplicar control regional sobre mapas de características latentes e intercambiar variables enmascaradas para una preservación fiel del contexto y un intercambio inicial de conceptos semánticos. Luego, introducimos la adaptación de apariencia, para integrar perfectamente el concepto semántico en la imagen original en términos de ubicación, forma, estilo y contenido del objetivo durante el proceso de generación de imágenes. Resultados extensos en evaluaciones tanto humanas como automáticas demuestran mejoras significativas de nuestro enfoque sobre los métodos de referencia en el intercambio personalizado. Además, SwapAnything muestra sus habilidades precisas y fieles de intercambio en tareas de intercambio de un solo objeto, múltiples objetos, objetos parciales e intercambio entre dominios. SwapAnything también logra un gran rendimiento en el intercambio basado en texto y tareas más allá del intercambio, como la inserción de objetos.
Los recientes avances en la edición generativa de imágenes basada en difusión han desencadenado una profunda revolución, transformando el panorama de las tareas de extrapolación y restauración de imágenes. A pesar de estos progresos, el campo enfrenta desafíos inherentes, que incluyen: i) calidad inferior; ii) consistencia deficiente; iii) adherencia insuficiente a las instrucciones; iv) eficiencia de generación subóptima. Para abordar estos obstáculos, presentamos ByteEdit, un innovador marco de aprendizaje por retroalimentación meticulosamente diseñado para potenciar, cumplir y acelerar las tareas de edición generativa de imágenes. ByteEdit integra de manera fluida modelos de recompensa de imágenes dedicados a mejorar la estética y la alineación imagen-texto, al mismo tiempo que introduce un modelo de recompensa denso a nivel de píxeles, diseñado para fomentar la coherencia en la salida. Además, proponemos una estrategia pionera de aprendizaje por retroalimentación adversaria y progresiva para acelerar la velocidad de inferencia del modelo. A través de extensas evaluaciones a gran escala con usuarios, demostramos que ByteEdit supera a los principales productos de edición generativa de imágenes, incluyendo Adobe, Canva y MeiTu, tanto en calidad como en consistencia de generación. ByteEdit-Outpainting exhibe una mejora notable del 388% y 135% en calidad y consistencia, respectivamente, en comparación con el modelo base. Los experimentos también verificaron que nuestros modelos de aceleración mantienen resultados de rendimiento excelentes en términos de calidad y consistencia.
Los modelos de difusión han revolucionado el campo de la generación de imágenes, impulsando la proliferación de modelos de alta calidad y diversas aplicaciones derivadas. Sin embargo, a pesar de estos avances significativos, las soluciones competitivas actuales aún presentan varias limitaciones, como una calidad visual inferior, falta de atractivo estético e inferencia ineficiente, sin una solución integral a la vista. Para abordar estos desafíos, presentamos UniFL, un marco unificado que aprovecha el aprendizaje basado en retroalimentación para mejorar los modelos de difusión de manera integral. UniFL se destaca como una solución universal, efectiva y generalizable aplicable a diversos modelos de difusión, como SD1.5 y SDXL. En particular, UniFL incorpora tres componentes clave: aprendizaje de retroalimentación perceptual, que mejora la calidad visual; aprendizaje de retroalimentación desacoplado, que aumenta el atractivo estético; y aprendizaje de retroalimentación adversarial, que optimiza la velocidad de inferencia. Experimentos exhaustivos y estudios de usuarios extensos validan el rendimiento superior de nuestro método propuesto tanto en la mejora de la calidad de los modelos generados como en su aceleración. Por ejemplo, UniFL supera a ImageReward en un 17% en preferencia de usuarios en términos de calidad de generación y supera a LCM y SDXL Turbo en un 57% y 20%, respectivamente, en inferencia de 4 pasos. Además, hemos verificado la eficacia de nuestro enfoque en tareas derivadas, incluyendo Lora, ControlNet y AnimateDiff.
Recuperar el movimiento denso y de largo alcance de píxeles en videos es un problema desafiante. Parte de la dificultad surge del proceso de proyección 3D a 2D, lo que genera oclusiones y discontinuidades en el dominio del movimiento 2D. Aunque el movimiento 2D puede ser complejo, postulamos que el movimiento 3D subyacente a menudo puede ser simple y de baja dimensionalidad. En este trabajo, proponemos estimar trayectorias de puntos en el espacio 3D para mitigar los problemas causados por la proyección de imágenes. Nuestro método, denominado SpatialTracker, eleva píxeles 2D a 3D utilizando estimadores de profundidad monocular, representa el contenido 3D de cada fotograma de manera eficiente mediante una representación triplanar y realiza actualizaciones iterativas utilizando un transformador para estimar trayectorias 3D. El seguimiento en 3D nos permite aprovechar restricciones de "tan rígido como sea posible" (ARAP) mientras aprendemos simultáneamente una incrustación de rigidez que agrupa píxeles en diferentes partes rígidas. Una evaluación exhaustiva muestra que nuestro enfoque logra un rendimiento de seguimiento de vanguardia tanto cualitativa como cuantitativamente, particularmente en escenarios desafiantes como la rotación fuera del plano.
Generar escenas centradas en humanos de mayor resolución con detalles y controles sigue siendo un desafío para los modelos de difusión de texto a imagen existentes. Este desafío surge del tamaño limitado de las imágenes de entrenamiento, la capacidad del codificador de texto (tokens limitados) y la inherente dificultad de generar escenas complejas que involucren múltiples humanos. Aunque los métodos actuales han intentado abordar únicamente el límite del tamaño de entrenamiento, a menudo han producido escenas centradas en humanos con artefactos severos. Proponemos BeyondScene, un marco novedoso que supera las limitaciones anteriores, generando escenas centradas en humanos de mayor resolución (más de 8K) con una correspondencia excepcional entre texto e imagen y naturalidad, utilizando modelos de difusión preentrenados existentes. BeyondScene emplea un enfoque escalonado y jerárquico para generar inicialmente una imagen base detallada que se centra en elementos cruciales en la creación de instancias para múltiples humanos y descripciones detalladas que superan el límite de tokens del modelo de difusión, y luego convertir sin problemas la imagen base en una salida de mayor resolución, superando el tamaño de las imágenes de entrenamiento e incorporando detalles conscientes del texto y las instancias mediante nuestro novedoso proceso de ampliación jerárquica consciente de instancias, que consiste en nuestra propuesta de difusión directa con inyección de alta frecuencia y difusión conjunta adaptativa. BeyondScene supera a los métodos existentes en términos de correspondencia con descripciones de texto detalladas y naturalidad, allanando el camino para aplicaciones avanzadas en la creación de escenas centradas en humanos de mayor resolución más allá de la capacidad de los modelos de difusión preentrenados sin un costoso reentrenamiento. Página del proyecto: https://janeyeon.github.io/beyond-scene.
Con el éxito de los modelos de lenguaje de gran escala (LLMs), la integración de modelos de visión en LLMs para construir modelos fundamentales de visión y lenguaje ha ganado mucho interés recientemente. Sin embargo, los modelos multimodales de gran escala basados en LLMs existentes (por ejemplo, Video-LLaMA, VideoChat) solo pueden procesar un número limitado de fotogramas para la comprensión de videos cortos. En este estudio, nos centramos principalmente en diseñar un modelo eficiente y efectivo para la comprensión de videos a largo plazo. En lugar de intentar procesar más fotogramas simultáneamente como la mayoría de los trabajos existentes, proponemos procesar videos de manera en línea y almacenar la información de videos pasados en un banco de memoria. Esto permite que nuestro modelo haga referencia al contenido histórico de video para análisis a largo plazo sin exceder las limitaciones de longitud de contexto de los LLMs o los límites de memoria de la GPU. Nuestro banco de memoria puede integrarse sin problemas en los LLMs multimodales actuales de manera inmediata. Realizamos extensos experimentos en diversas tareas de comprensión de videos, como la comprensión de videos largos, la respuesta a preguntas sobre videos y la generación de subtítulos de videos, y nuestro modelo puede alcanzar un rendimiento de vanguardia en múltiples conjuntos de datos. El código está disponible en https://boheumd.github.io/MA-LMM/.
Modelar y renderizar avatares fotorrealistas es de crucial importancia en muchas aplicaciones. Sin embargo, los métodos existentes que construyen un avatar 3D a partir de observaciones visuales tienen dificultades para reconstruir humanos vestidos. Presentamos PhysAvatar, un marco novedoso que combina el renderizado inverso con la física inversa para estimar automáticamente la forma y apariencia de un humano a partir de datos de video multi-vista, junto con los parámetros físicos de la tela de su ropa. Para este propósito, adoptamos una técnica de Gaussianos 4D alineados con mallas para el seguimiento espacio-temporal de mallas, así como un renderizador inverso basado en física para estimar las propiedades intrínsecas de los materiales. PhysAvatar integra un simulador físico para estimar los parámetros físicos de las prendas utilizando optimización basada en gradientes de manera fundamentada. Estas capacidades novedosas permiten a PhysAvatar crear renderizaciones de alta calidad de avatares vestidos con ropa holgada bajo movimientos y condiciones de iluminación no vistos en los datos de entrenamiento. Esto marca un avance significativo hacia el modelado de humanos digitales fotorrealistas utilizando renderizado inverso basado en física con la física en el ciclo. Nuestro sitio web del proyecto está en: https://qingqing-zhao.github.io/PhysAvatar.
En el campo de rápida evolución de los modelos generativos, el desarrollo de sistemas eficientes y de alta fidelidad para la generación de imágenes a partir de texto mediante difusión representa una frontera significativa. Este estudio presenta YaART, un novedoso modelo de difusión en cascada para la generación de imágenes a partir de texto, de grado productivo y alineado con las preferencias humanas mediante Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). Durante el desarrollo de YaART, nos enfocamos especialmente en las decisiones relacionadas con el tamaño del modelo y del conjunto de datos de entrenamiento, aspectos que no habían sido investigados sistemáticamente en modelos de difusión en cascada para la generación de imágenes a partir de texto. En particular, analizamos de manera exhaustiva cómo estas elecciones afectan tanto la eficiencia del proceso de entrenamiento como la calidad de las imágenes generadas, aspectos de gran importancia en la práctica. Además, demostramos que los modelos entrenados con conjuntos de datos más pequeños pero de mayor calidad pueden competir exitosamente con aquellos entrenados con conjuntos de datos más grandes, estableciendo un escenario más eficiente para el entrenamiento de modelos de difusión. Desde la perspectiva de la calidad, YaART es consistentemente preferido por los usuarios sobre muchos modelos existentes de última generación.
En este artículo, presentamos MoMA: un modelo de imágenes personalizado de vocabulario abierto y sin necesidad de entrenamiento que cuenta con capacidades flexibles de zero-shot. A medida que los modelos fundamentales de texto a imagen evolucionan rápidamente, crece la demanda de una traducción robusta de imagen a imagen. Para abordar esta necesidad, MoMA se especializa en la generación de imágenes personalizadas basadas en sujetos. Utilizando un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) de código abierto, entrenamos a MoMA para desempeñar un doble rol como extractor de características y generador. Este enfoque sinergiza eficazmente la información de la imagen de referencia y el prompt de texto para producir características de imagen valiosas, facilitando un modelo de difusión de imágenes. Para aprovechar mejor las características generadas, introducimos además un novedoso método de atajo de auto-atención que transfiere eficientemente las características de imagen a un modelo de difusión de imágenes, mejorando el parecido del objeto objetivo en las imágenes generadas. Notablemente, como un módulo plug-and-play sin ajustes, nuestro modelo requiere solo una imagen de referencia y supera a los métodos existentes en la generación de imágenes con alta fidelidad de detalles, mayor preservación de la identidad y fidelidad al prompt. Nuestro trabajo es de código abierto, proporcionando así acceso universal a estos avances.
Presentamos Diffusion-KTO, un enfoque novedoso para alinear modelos de difusión de texto a imagen mediante la formulación del objetivo de alineación como la maximización de la utilidad humana esperada. Dado que este objetivo se aplica a cada generación de manera independiente, Diffusion-KTO no requiere la recopilación de costosos datos de preferencias por pares ni el entrenamiento de un modelo de recompensa complejo. En su lugar, nuestro objetivo requiere señales binarias simples por imagen, como "me gusta" o "no me gusta", que están ampliamente disponibles. Después del ajuste fino utilizando Diffusion-KTO, los modelos de difusión de texto a imagen muestran un rendimiento superior en comparación con las técnicas existentes, incluido el ajuste fino supervisado y Diffusion-DPO, tanto en términos de juicio humano como de métricas de evaluación automática como PickScore e ImageReward. En general, Diffusion-KTO desbloquea el potencial de aprovechar las señales binarias por imagen fácilmente disponibles y amplía la aplicabilidad de alinear modelos de difusión de texto a imagen con las preferencias humanas.
Los Transformers han catalizado avances en los campos de visión por computadora y procesamiento del lenguaje natural (NLP). Sin embargo, su considerable complejidad computacional impone limitaciones para su aplicación en tareas de contexto largo, como la generación de imágenes de alta resolución. Este artículo presenta una serie de arquitecturas adaptadas del modelo RWKV utilizado en NLP, con modificaciones necesarias ajustadas para modelos de difusión aplicados a tareas de generación de imágenes, denominadas Diffusion-RWKV. Similar a los modelos de difusión con Transformers, nuestro modelo está diseñado para manejar eficientemente entradas divididas en secuencias con condiciones adicionales, al mismo tiempo que escala de manera efectiva, acomodando tanto parámetros a gran escala como conjuntos de datos extensos. Su ventaja distintiva radica en su reducida complejidad de agregación espacial, lo que lo hace excepcionalmente hábil para procesar imágenes de alta resolución, eliminando así la necesidad de operaciones de ventaneo o agrupamiento en caché. Los resultados experimentales en tareas de generación de imágenes tanto condicionadas como no condicionadas demuestran que Diffusion-RWKV logra un rendimiento igual o superior a los modelos de difusión basados en CNN o Transformers en métricas como FID e IS, mientras reduce significativamente el uso total de FLOPs computacionales.
Los avances recientes en los modelos de difusión han demostrado una notable capacidad para editar imágenes 2D basadas en indicaciones de texto. Sin embargo, extender estas técnicas para editar escenas en Campos de Radiancia Neural (NeRF) es complejo, ya que editar fotogramas 2D individuales puede resultar en inconsistencias entre múltiples vistas. Nuestra idea clave es que la geometría de una escena NeRF puede servir como puente para integrar estas ediciones 2D. Utilizando esta geometría, empleamos un ControlNet condicionado por profundidad para mejorar la coherencia de cada modificación de imagen 2D. Además, introducimos un enfoque de inpaint que aprovecha la información de profundidad de las escenas NeRF para distribuir las ediciones 2D entre diferentes imágenes, asegurando robustez frente a errores y desafíos de remuestreo. Nuestros resultados revelan que esta metodología logra ediciones más consistentes, realistas y detalladas que los métodos líderes existentes para la edición de escenas NeRF impulsada por texto.
La respuesta a preguntas en videos largos es una tarea desafiante que implica reconocer actividades a corto plazo y razonar sobre sus relaciones detalladas. Los modelos de lenguaje de gran escala para video (vLLMs) de última generación se presentan como una solución prometedora debido a sus capacidades emergentes demostradas en nuevas tareas. Sin embargo, a pesar de haber sido entrenados en millones de videos cortos de segundos de duración, los vLLMs no pueden comprender videos de varios minutos ni responder con precisión preguntas sobre ellos. Para abordar esta limitación, proponemos un enfoque ligero y autosupervisado, Key frame-conditioned long video-LLM (Koala), que introduce consultas espacio-temporales aprendibles para adaptar vLLMs preentrenados y generalizar a videos más largos. Nuestro enfoque incorpora dos nuevos tokenizadores que se condicionan en tokens visuales calculados a partir de fotogramas clave dispersos del video para comprender momentos tanto cortos como largos. Entrenamos nuestra propuesta en HowTo100M y demostramos su efectividad en benchmarks de comprensión de videos largos en modo zero-shot, donde supera a los modelos grandes de última generación en un 3-6% de precisión absoluta en todas las tareas. Sorprendentemente, también mostramos empíricamente que nuestro enfoque no solo ayuda a un vLLM preentrenado a comprender videos largos, sino que también mejora su precisión en el reconocimiento de acciones a corto plazo.