Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Ferret-UI: Comprensión Fundamentada de Interfaces de Usuario Móviles con LLMs Multimodales
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Apr 8

ByKeen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan

Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs) han sido destacables; sin embargo, estos MLLMs de dominio general a menudo carecen de la capacidad para comprender e interactuar de manera efectiva con las pantallas de interfaz de usuario (UI). En este artículo, presentamos Ferret-UI, un nuevo MLLM diseñado para mejorar la comprensión de las pantallas de UI móviles, equipado con capacidades de referencia, anclaje y razonamiento. Dado que las pantallas de UI suelen exhibir una relación de aspecto más alargada y contener objetos de interés más pequeños (por ejemplo, iconos, textos) que las imágenes naturales, incorporamos una resolución "cualquiera" en Ferret para ampliar los detalles y aprovechar características visuales mejoradas. Específicamente, cada pantalla se divide en 2 subimágenes basadas en la relación de aspecto original (es decir, división horizontal para pantallas en modo retrato y división vertical para pantallas en modo apaisado). Ambas subimágenes se codifican por separado antes de ser enviadas a los LLMs. Reunimos meticulosamente muestras de entrenamiento de una amplia gama de tareas básicas de UI, como reconocimiento de iconos, búsqueda de texto y listado de widgets. Estas muestras se formatean para seguir instrucciones con anotaciones de región para facilitar la referencia y el anclaje precisos. Para aumentar la capacidad de razonamiento del modelo, compilamos además un conjunto de datos para tareas avanzadas, que incluyen descripción detallada, conversaciones de percepción/interacción e inferencia de funciones. Después del entrenamiento en los conjuntos de datos seleccionados, Ferret-UI exhibe una comprensión sobresaliente de las pantallas de UI y la capacidad de ejecutar instrucciones de formato abierto. Para la evaluación del modelo, establecemos un punto de referencia integral que abarca todas las tareas mencionadas anteriormente. Ferret-UI no solo supera a la mayoría de los MLLMs de UI de código abierto, sino que también supera a GPT-4V en todas las tareas básicas de UI.

MagicTime: Modelos de generación de vídeos time-lapse como simuladores metamórficos
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

Apr 7

ByShenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo

Los recientes avances en la generación de texto a video (T2V) han logrado un éxito notable en la síntesis de videos generales de alta calidad a partir de descripciones textuales. Un problema ampliamente pasado por alto en T2V es que los modelos existentes no han codificado adecuadamente el conocimiento físico del mundo real, por lo que los videos generados tienden a tener movimientos limitados y variaciones deficientes. En este artículo, proponemos MagicTime, un modelo de generación de videos time-lapse metamórficos, que aprende conocimiento físico del mundo real a partir de videos time-lapse e implementa la generación metamórfica. Primero, diseñamos un esquema MagicAdapter para desacoplar el entrenamiento espacial y temporal, codificar más conocimiento físico a partir de videos metamórficos y transformar modelos T2V preentrenados para generar videos metamórficos. Segundo, introducimos una estrategia de Extracción Dinámica de Fotogramas para adaptarnos a los videos time-lapse metamórficos, que tienen un rango de variación más amplio y cubren procesos metamórficos de objetos dramáticos, incorporando así más conocimiento físico que los videos generales. Finalmente, presentamos un Magic Text-Encoder para mejorar la comprensión de las indicaciones de videos metamórficos. Además, creamos un conjunto de datos de video-texto time-lapse llamado ChronoMagic, específicamente curado para desbloquear la capacidad de generación de videos metamórficos. Experimentos extensivos demuestran la superioridad y efectividad de MagicTime para generar videos metamórficos dinámicos y de alta calidad, sugiriendo que la generación de videos time-lapse es un camino prometedor hacia la construcción de simuladores metamórficos del mundo físico.

ByteEdit: Potenciar, Cumplir y Acelerar la Edición Generativa de Imágenes
ByteEdit: Boost, Comply and Accelerate Generative Image Editing

Apr 7

ByYuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu

Los recientes avances en la edición generativa de imágenes basada en difusión han desencadenado una profunda revolución, transformando el panorama de las tareas de extrapolación y restauración de imágenes. A pesar de estos progresos, el campo enfrenta desafíos inherentes, que incluyen: i) calidad inferior; ii) consistencia deficiente; iii) adherencia insuficiente a las instrucciones; iv) eficiencia de generación subóptima. Para abordar estos obstáculos, presentamos ByteEdit, un innovador marco de aprendizaje por retroalimentación meticulosamente diseñado para potenciar, cumplir y acelerar las tareas de edición generativa de imágenes. ByteEdit integra de manera fluida modelos de recompensa de imágenes dedicados a mejorar la estética y la alineación imagen-texto, al mismo tiempo que introduce un modelo de recompensa denso a nivel de píxeles, diseñado para fomentar la coherencia en la salida. Además, proponemos una estrategia pionera de aprendizaje por retroalimentación adversaria y progresiva para acelerar la velocidad de inferencia del modelo. A través de extensas evaluaciones a gran escala con usuarios, demostramos que ByteEdit supera a los principales productos de edición generativa de imágenes, incluyendo Adobe, Canva y MeiTu, tanto en calidad como en consistencia de generación. ByteEdit-Outpainting exhibe una mejora notable del 388% y 135% en calidad y consistencia, respectivamente, en comparación con el modelo base. Los experimentos también verificaron que nuestros modelos de aceleración mantienen resultados de rendimiento excelentes en términos de calidad y consistencia.

SwapAnything: Habilitando el Intercambio Arbitrario de Objetos en la Edición Visual Personalizada
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

Apr 8

ByJing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang

La edición efectiva de contenido personal desempeña un papel fundamental al permitir que los individuos expresen su creatividad, tejan narrativas cautivadoras dentro de sus historias visuales y eleven la calidad e impacto general de su contenido visual. Por lo tanto, en este trabajo presentamos SwapAnything, un marco novedoso que puede intercambiar cualquier objeto en una imagen con conceptos personalizados proporcionados por una referencia, manteniendo el contexto sin cambios. En comparación con los métodos existentes para el intercambio de sujetos personalizados, SwapAnything tiene tres ventajas únicas: (1) control preciso de objetos y partes arbitrarios en lugar del sujeto principal, (2) preservación más fiel de los píxeles del contexto, (3) mejor adaptación del concepto personalizado a la imagen. Primero, proponemos el intercambio de variables dirigido para aplicar control regional sobre mapas de características latentes e intercambiar variables enmascaradas para una preservación fiel del contexto y un intercambio inicial de conceptos semánticos. Luego, introducimos la adaptación de apariencia, para integrar perfectamente el concepto semántico en la imagen original en términos de ubicación, forma, estilo y contenido del objetivo durante el proceso de generación de imágenes. Resultados extensos en evaluaciones tanto humanas como automáticas demuestran mejoras significativas de nuestro enfoque sobre los métodos de referencia en el intercambio personalizado. Además, SwapAnything muestra sus habilidades precisas y fieles de intercambio en tareas de intercambio de un solo objeto, múltiples objetos, objetos parciales e intercambio entre dominios. SwapAnything también logra un gran rendimiento en el intercambio basado en texto y tareas más allá del intercambio, como la inserción de objetos.

UniFL: Mejora de Stable Diffusion mediante Aprendizaje Unificado por Retroalimentación
UniFL: Improve Stable Diffusion via Unified Feedback Learning

Apr 8

ByJiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li

Los modelos de difusión han revolucionado el campo de la generación de imágenes, impulsando la proliferación de modelos de alta calidad y diversas aplicaciones derivadas. Sin embargo, a pesar de estos avances significativos, las soluciones competitivas actuales aún presentan varias limitaciones, como una calidad visual inferior, falta de atractivo estético e inferencia ineficiente, sin una solución integral a la vista. Para abordar estos desafíos, presentamos UniFL, un marco unificado que aprovecha el aprendizaje basado en retroalimentación para mejorar los modelos de difusión de manera integral. UniFL se destaca como una solución universal, efectiva y generalizable aplicable a diversos modelos de difusión, como SD1.5 y SDXL. En particular, UniFL incorpora tres componentes clave: aprendizaje de retroalimentación perceptual, que mejora la calidad visual; aprendizaje de retroalimentación desacoplado, que aumenta el atractivo estético; y aprendizaje de retroalimentación adversarial, que optimiza la velocidad de inferencia. Experimentos exhaustivos y estudios de usuarios extensos validan el rendimiento superior de nuestro método propuesto tanto en la mejora de la calidad de los modelos generados como en su aceleración. Por ejemplo, UniFL supera a ImageReward en un 17% en preferencia de usuarios en términos de calidad de generación y supera a LCM y SDXL Turbo en un 57% y 20%, respectivamente, en inferencia de 4 pasos. Además, hemos verificado la eficacia de nuestro enfoque en tareas derivadas, incluyendo Lora, ControlNet y AnimateDiff.

SpatialTracker: Seguimiento de cualquier píxel 2D en el espacio 3D
SpatialTracker: Tracking Any 2D Pixels in 3D Space

Apr 5

ByYuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou

Recuperar el movimiento denso y de largo alcance de píxeles en videos es un problema desafiante. Parte de la dificultad surge del proceso de proyección 3D a 2D, lo que genera oclusiones y discontinuidades en el dominio del movimiento 2D. Aunque el movimiento 2D puede ser complejo, postulamos que el movimiento 3D subyacente a menudo puede ser simple y de baja dimensionalidad. En este trabajo, proponemos estimar trayectorias de puntos en el espacio 3D para mitigar los problemas causados por la proyección de imágenes. Nuestro método, denominado SpatialTracker, eleva píxeles 2D a 3D utilizando estimadores de profundidad monocular, representa el contenido 3D de cada fotograma de manera eficiente mediante una representación triplanar y realiza actualizaciones iterativas utilizando un transformador para estimar trayectorias 3D. El seguimiento en 3D nos permite aprovechar restricciones de "tan rígido como sea posible" (ARAP) mientras aprendemos simultáneamente una incrustación de rigidez que agrupa píxeles en diferentes partes rígidas. Una evaluación exhaustiva muestra que nuestro enfoque logra un rendimiento de seguimiento de vanguardia tanto cualitativa como cuantitativamente, particularmente en escenarios desafiantes como la rotación fuera del plano.

MA-LMM: Modelo Multimodal Grande Aumentado con Memoria para la Comprensión de Videos a Largo Plazo
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

Apr 8

ByBo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim

Con el éxito de los modelos de lenguaje de gran escala (LLMs), la integración de modelos de visión en LLMs para construir modelos fundamentales de visión y lenguaje ha ganado mucho interés recientemente. Sin embargo, los modelos multimodales de gran escala basados en LLMs existentes (por ejemplo, Video-LLaMA, VideoChat) solo pueden procesar un número limitado de fotogramas para la comprensión de videos cortos. En este estudio, nos centramos principalmente en diseñar un modelo eficiente y efectivo para la comprensión de videos a largo plazo. En lugar de intentar procesar más fotogramas simultáneamente como la mayoría de los trabajos existentes, proponemos procesar videos de manera en línea y almacenar la información de videos pasados en un banco de memoria. Esto permite que nuestro modelo haga referencia al contenido histórico de video para análisis a largo plazo sin exceder las limitaciones de longitud de contexto de los LLMs o los límites de memoria de la GPU. Nuestro banco de memoria puede integrarse sin problemas en los LLMs multimodales actuales de manera inmediata. Realizamos extensos experimentos en diversas tareas de comprensión de videos, como la comprensión de videos largos, la respuesta a preguntas sobre videos y la generación de subtítulos de videos, y nuestro modelo puede alcanzar un rendimiento de vanguardia en múltiples conjuntos de datos. El código está disponible en https://boheumd.github.io/MA-LMM/.

BeyondScene: Generación de Escenas Centradas en Humanos de Mayor Resolución con Difusión Preentrenada
BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion

Apr 6

ByGwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun

Generar escenas centradas en humanos de mayor resolución con detalles y controles sigue siendo un desafío para los modelos de difusión de texto a imagen existentes. Este desafío surge del tamaño limitado de las imágenes de entrenamiento, la capacidad del codificador de texto (tokens limitados) y la inherente dificultad de generar escenas complejas que involucren múltiples humanos. Aunque los métodos actuales han intentado abordar únicamente el límite del tamaño de entrenamiento, a menudo han producido escenas centradas en humanos con artefactos severos. Proponemos BeyondScene, un marco novedoso que supera las limitaciones anteriores, generando escenas centradas en humanos de mayor resolución (más de 8K) con una correspondencia excepcional entre texto e imagen y naturalidad, utilizando modelos de difusión preentrenados existentes. BeyondScene emplea un enfoque escalonado y jerárquico para generar inicialmente una imagen base detallada que se centra en elementos cruciales en la creación de instancias para múltiples humanos y descripciones detalladas que superan el límite de tokens del modelo de difusión, y luego convertir sin problemas la imagen base en una salida de mayor resolución, superando el tamaño de las imágenes de entrenamiento e incorporando detalles conscientes del texto y las instancias mediante nuestro novedoso proceso de ampliación jerárquica consciente de instancias, que consiste en nuestra propuesta de difusión directa con inyección de alta frecuencia y difusión conjunta adaptativa. BeyondScene supera a los métodos existentes en términos de correspondencia con descripciones de texto detalladas y naturalidad, allanando el camino para aplicaciones avanzadas en la creación de escenas centradas en humanos de mayor resolución más allá de la capacidad de los modelos de difusión preentrenados sin un costoso reentrenamiento. Página del proyecto: https://janeyeon.github.io/beyond-scene.

YaART: Otra Tecnología Más de Renderizado ART
YaART: Yet Another ART Rendering Technology

Apr 8

BySergey Kastryulin, Artem Konev, Alexander Shishenya, Eugene Lyapustin, Artem Khurshudov, Alexander Tselousov, Nikita Vinokurov, Denis Kuznedelev, Alexander Markovich, Grigoriy Livshits, Alexey Kirillov, Anastasiia Tabisheva, Liubov Chubarova, Marina Kaminskaia, Alexander Ustyuzhanin, Artemii Shvetsov, Daniil Shlenskii, Valerii Startsev, Dmitrii Kornilov, Mikhail Romanov, Artem Babenko, Sergei Ovcharenko, Valentin Khrulkov

En el campo de rápida evolución de los modelos generativos, el desarrollo de sistemas eficientes y de alta fidelidad para la generación de imágenes a partir de texto mediante difusión representa una frontera significativa. Este estudio presenta YaART, un novedoso modelo de difusión en cascada para la generación de imágenes a partir de texto, de grado productivo y alineado con las preferencias humanas mediante Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). Durante el desarrollo de YaART, nos enfocamos especialmente en las decisiones relacionadas con el tamaño del modelo y del conjunto de datos de entrenamiento, aspectos que no habían sido investigados sistemáticamente en modelos de difusión en cascada para la generación de imágenes a partir de texto. En particular, analizamos de manera exhaustiva cómo estas elecciones afectan tanto la eficiencia del proceso de entrenamiento como la calidad de las imágenes generadas, aspectos de gran importancia en la práctica. Además, demostramos que los modelos entrenados con conjuntos de datos más pequeños pero de mayor calidad pueden competir exitosamente con aquellos entrenados con conjuntos de datos más grandes, estableciendo un escenario más eficiente para el entrenamiento de modelos de difusión. Desde la perspectiva de la calidad, YaART es consistentemente preferido por los usuarios sobre muchos modelos existentes de última generación.

PhysAvatar: Aprendiendo la Física de Avatares 3D Vestidos a partir de Observaciones Visuales
PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations

Apr 5

ByYang Zheng, Qingqing Zhao, Guandao Yang, Wang Yifan, Donglai Xiang, Florian Dubost, Dmitry Lagun, Thabo Beeler, Federico Tombari, Leonidas Guibas, Gordon Wetzstein

Modelar y renderizar avatares fotorrealistas es de crucial importancia en muchas aplicaciones. Sin embargo, los métodos existentes que construyen un avatar 3D a partir de observaciones visuales tienen dificultades para reconstruir humanos vestidos. Presentamos PhysAvatar, un marco novedoso que combina el renderizado inverso con la física inversa para estimar automáticamente la forma y apariencia de un humano a partir de datos de video multi-vista, junto con los parámetros físicos de la tela de su ropa. Para este propósito, adoptamos una técnica de Gaussianos 4D alineados con mallas para el seguimiento espacio-temporal de mallas, así como un renderizador inverso basado en física para estimar las propiedades intrínsecas de los materiales. PhysAvatar integra un simulador físico para estimar los parámetros físicos de las prendas utilizando optimización basada en gradientes de manera fundamentada. Estas capacidades novedosas permiten a PhysAvatar crear renderizaciones de alta calidad de avatares vestidos con ropa holgada bajo movimientos y condiciones de iluminación no vistos en los datos de entrenamiento. Esto marca un avance significativo hacia el modelado de humanos digitales fotorrealistas utilizando renderizado inverso basado en física con la física en el ciclo. Nuestro sitio web del proyecto está en: https://qingqing-zhao.github.io/PhysAvatar.

Alineación de Modelos de Difusión mediante la Optimización de la Utilidad Humana
Aligning Diffusion Models by Optimizing Human Utility

Apr 6

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka

Presentamos Diffusion-KTO, un enfoque novedoso para alinear modelos de difusión de texto a imagen mediante la formulación del objetivo de alineación como la maximización de la utilidad humana esperada. Dado que este objetivo se aplica a cada generación de manera independiente, Diffusion-KTO no requiere la recopilación de costosos datos de preferencias por pares ni el entrenamiento de un modelo de recompensa complejo. En su lugar, nuestro objetivo requiere señales binarias simples por imagen, como "me gusta" o "no me gusta", que están ampliamente disponibles. Después del ajuste fino utilizando Diffusion-KTO, los modelos de difusión de texto a imagen muestran un rendimiento superior en comparación con las técnicas existentes, incluido el ajuste fino supervisado y Diffusion-DPO, tanto en términos de juicio humano como de métricas de evaluación automática como PickScore e ImageReward. En general, Diffusion-KTO desbloquea el potencial de aprovechar las señales binarias por imagen fácilmente disponibles y amplía la aplicabilidad de alinear modelos de difusión de texto a imagen con las preferencias humanas.

MoMA: Adaptador Multimodal de LLM para Generación Rápida de Imágenes Personalizadas
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

Apr 8

ByKunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang

En este artículo, presentamos MoMA: un modelo de imágenes personalizado de vocabulario abierto y sin necesidad de entrenamiento que cuenta con capacidades flexibles de zero-shot. A medida que los modelos fundamentales de texto a imagen evolucionan rápidamente, crece la demanda de una traducción robusta de imagen a imagen. Para abordar esta necesidad, MoMA se especializa en la generación de imágenes personalizadas basadas en sujetos. Utilizando un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) de código abierto, entrenamos a MoMA para desempeñar un doble rol como extractor de características y generador. Este enfoque sinergiza eficazmente la información de la imagen de referencia y el prompt de texto para producir características de imagen valiosas, facilitando un modelo de difusión de imágenes. Para aprovechar mejor las características generadas, introducimos además un novedoso método de atajo de auto-atención que transfiere eficientemente las características de imagen a un modelo de difusión de imágenes, mejorando el parecido del objeto objetivo en las imágenes generadas. Notablemente, como un módulo plug-and-play sin ajustes, nuestro modelo requiere solo una imagen de referencia y supera a los métodos existentes en la generación de imágenes con alta fidelidad de detalles, mayor preservación de la identidad y fidelidad al prompt. Nuestro trabajo es de código abierto, proporcionando así acceso universal a estos avances.

Diffusion-RWKV: Escalando Arquitecturas Similares a RWKV para Modelos de Difusión
Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

Apr 6

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

Los Transformers han catalizado avances en los campos de visión por computadora y procesamiento del lenguaje natural (NLP). Sin embargo, su considerable complejidad computacional impone limitaciones para su aplicación en tareas de contexto largo, como la generación de imágenes de alta resolución. Este artículo presenta una serie de arquitecturas adaptadas del modelo RWKV utilizado en NLP, con modificaciones necesarias ajustadas para modelos de difusión aplicados a tareas de generación de imágenes, denominadas Diffusion-RWKV. Similar a los modelos de difusión con Transformers, nuestro modelo está diseñado para manejar eficientemente entradas divididas en secuencias con condiciones adicionales, al mismo tiempo que escala de manera efectiva, acomodando tanto parámetros a gran escala como conjuntos de datos extensos. Su ventaja distintiva radica en su reducida complejidad de agregación espacial, lo que lo hace excepcionalmente hábil para procesar imágenes de alta resolución, eliminando así la necesidad de operaciones de ventaneo o agrupamiento en caché. Los resultados experimentales en tareas de generación de imágenes tanto condicionadas como no condicionadas demuestran que Diffusion-RWKV logra un rendimiento igual o superior a los modelos de difusión basados en CNN o Transformers en métricas como FID e IS, mientras reduce significativamente el uso total de FLOPs computacionales.

DATENeRF: Edición Basada en Texto con Conciencia de Profundidad en NeRFs
DATENeRF: Depth-Aware Text-based Editing of NeRFs

Apr 6

BySara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall

Los avances recientes en los modelos de difusión han demostrado una notable capacidad para editar imágenes 2D basadas en indicaciones de texto. Sin embargo, extender estas técnicas para editar escenas en Campos de Radiancia Neural (NeRF) es complejo, ya que editar fotogramas 2D individuales puede resultar en inconsistencias entre múltiples vistas. Nuestra idea clave es que la geometría de una escena NeRF puede servir como puente para integrar estas ediciones 2D. Utilizando esta geometría, empleamos un ControlNet condicionado por profundidad para mejorar la coherencia de cada modificación de imagen 2D. Además, introducimos un enfoque de inpaint que aprovecha la información de profundidad de las escenas NeRF para distribuir las ediciones 2D entre diferentes imágenes, asegurando robustez frente a errores y desafíos de remuestreo. Nuestros resultados revelan que esta metodología logra ediciones más consistentes, realistas y detalladas que los métodos líderes existentes para la edición de escenas NeRF impulsada por texto.

Koala: Modelo de lenguaje de video largo condicionado por fotogramas clave
Koala: Key frame-conditioned long video-LLM

Apr 5

ByReuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko

La respuesta a preguntas en videos largos es una tarea desafiante que implica reconocer actividades a corto plazo y razonar sobre sus relaciones detalladas. Los modelos de lenguaje de gran escala para video (vLLMs) de última generación se presentan como una solución prometedora debido a sus capacidades emergentes demostradas en nuevas tareas. Sin embargo, a pesar de haber sido entrenados en millones de videos cortos de segundos de duración, los vLLMs no pueden comprender videos de varios minutos ni responder con precisión preguntas sobre ellos. Para abordar esta limitación, proponemos un enfoque ligero y autosupervisado, Key frame-conditioned long video-LLM (Koala), que introduce consultas espacio-temporales aprendibles para adaptar vLLMs preentrenados y generalizar a videos más largos. Nuestro enfoque incorpora dos nuevos tokenizadores que se condicionan en tokens visuales calculados a partir de fotogramas clave dispersos del video para comprender momentos tanto cortos como largos. Entrenamos nuestra propuesta en HowTo100M y demostramos su efectividad en benchmarks de comprensión de videos largos en modo zero-shot, donde supera a los modelos grandes de última generación en un 3-6% de precisión absoluta en todas las tareas. Sorprendentemente, también mostramos empíricamente que nuestro enfoque no solo ayuda a un vLLM preentrenado a comprender videos largos, sino que también mejora su precisión en el reconocimiento de acciones a corto plazo.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Ferret-UI: Comprensión Fundamentada de Interfaces de Usuario Móviles con LLMs Multimodales
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Apr 8

ByKeen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan

MagicTime: Modelos de generación de vídeos time-lapse como simuladores metamórficos
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

Apr 7

ByShenghai Yuan, Jinfa Huang, Yujun Shi, Yongqi Xu, Ruijie Zhu, Bin Lin, Xinhua Cheng, Li Yuan, Jiebo Luo

ByteEdit: Potenciar, Cumplir y Acelerar la Edición Generativa de Imágenes
ByteEdit: Boost, Comply and Accelerate Generative Image Editing

Apr 7

ByYuxi Ren, Jie Wu, Yanzuo Lu, Huafeng Kuang, Xin Xia, Xionghui Wang, Qianqian Wang, Yixing Zhu, Pan Xie, Shiyin Wang, Xuefeng Xiao, Yitong Wang, Min Zheng, Lean Fu

SwapAnything: Habilitando el Intercambio Arbitrario de Objetos en la Edición Visual Personalizada
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing

Apr 8

ByJing Gu, Yilin Wang, Nanxuan Zhao, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang

UniFL: Mejora de Stable Diffusion mediante Aprendizaje Unificado por Retroalimentación
UniFL: Improve Stable Diffusion via Unified Feedback Learning

Apr 8

ByJiacheng Zhang, Jie Wu, Yuxi Ren, Xin Xia, Huafeng Kuang, Pan Xie, Jiashi Li, Xuefeng Xiao, Weilin Huang, Min Zheng, Lean Fu, Guanbin Li

SpatialTracker: Seguimiento de cualquier píxel 2D en el espacio 3D
SpatialTracker: Tracking Any 2D Pixels in 3D Space

Apr 5

ByYuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou

MA-LMM: Modelo Multimodal Grande Aumentado con Memoria para la Comprensión de Videos a Largo Plazo
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding

Apr 8

ByBo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim

BeyondScene: Generación de Escenas Centradas en Humanos de Mayor Resolución con Difusión Preentrenada
BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion

Apr 6

ByGwanghyun Kim, Hayeon Kim, Hoigi Seo, Dong Un Kang, Se Young Chun

YaART: Otra Tecnología Más de Renderizado ART
YaART: Yet Another ART Rendering Technology

Apr 8

PhysAvatar: Aprendiendo la Física de Avatares 3D Vestidos a partir de Observaciones Visuales
PhysAvatar: Learning the Physics of Dressed 3D Avatars from Visual Observations

Apr 5

ByYang Zheng, Qingqing Zhao, Guandao Yang, Wang Yifan, Donglai Xiang, Florian Dubost, Dmitry Lagun, Thabo Beeler, Federico Tombari, Leonidas Guibas, Gordon Wetzstein

Alineación de Modelos de Difusión mediante la Optimización de la Utilidad Humana
Aligning Diffusion Models by Optimizing Human Utility

Apr 6

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Yusuke Kato, Kazuki Kozuka

MoMA: Adaptador Multimodal de LLM para Generación Rápida de Imágenes Personalizadas
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

Apr 8

ByKunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang

Diffusion-RWKV: Escalando Arquitecturas Similares a RWKV para Modelos de Difusión
Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

Apr 6

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

DATENeRF: Edición Basada en Texto con Conciencia de Profundidad en NeRFs
DATENeRF: Depth-Aware Text-based Editing of NeRFs

Apr 6

BySara Rojas, Julien Philip, Kai Zhang, Sai Bi, Fujun Luan, Bernard Ghanem, Kalyan Sunkavall

Koala: Modelo de lenguaje de video largo condicionado por fotogramas clave
Koala: Key frame-conditioned long video-LLM

Apr 5

ByReuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko