Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

ShowUI: Un Modelo de Visión-Lenguaje-Acción para Agente Visual de Interfaz Gráfica de Usuario
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

La construcción de asistentes de Interfaz Gráfica de Usuario (GUI) tiene un gran potencial para mejorar la productividad del flujo de trabajo humano. Aunque la mayoría de los agentes se basan en lenguaje, dependiendo de API de código cerrado con meta-información rica en texto (por ejemplo, HTML o árbol de accesibilidad), muestran limitaciones en la percepción de elementos visuales de la interfaz de usuario como lo hacen los humanos, resaltando la necesidad de agentes visuales de GUI. En este trabajo, desarrollamos un modelo visión-lenguaje-acción en el mundo digital, llamado ShowUI, que presenta las siguientes innovaciones: (i) Selección de Tokens Visuales Guiada por la Interfaz de Usuario para reducir costos computacionales formulando capturas de pantalla como un grafo conectado de la interfaz de usuario, identificando de manera adaptativa sus relaciones redundantes y sirviendo como criterio para la selección de tokens durante bloques de autoatención; (ii) Transmisión Interleada de Visión-Lenguaje-Acción que unifica de manera flexible diversas necesidades dentro de tareas de GUI, permitiendo la gestión efectiva del historial visual-acción en la navegación o emparejando secuencias de consulta-acción de múltiples turnos por captura de pantalla para mejorar la eficiencia del entrenamiento; (iii) Conjuntos de Datos de Instrucciones de GUI de Alta Calidad a Pequeña Escala mediante una cuidadosa curación de datos y empleando una estrategia de remuestreo para abordar desequilibrios significativos en los tipos de datos. Con los componentes mencionados, ShowUI, un modelo 2B ligero que utiliza 256K datos, logra una sólida precisión del 75.1% en la localización de capturas de pantalla sin entrenamiento previo. Su selección de tokens guiada por la interfaz de usuario reduce adicionalmente el 33% de tokens visuales redundantes durante el entrenamiento y acelera el rendimiento en un 1.4x. Experimentos de navegación en los entornos web Mind2Web, móvil AITW y en línea MiniWob subrayan aún más la efectividad y potencial de nuestro modelo en el avance de agentes visuales de GUI. Los modelos están disponibles en https://github.com/showlab/ShowUI.

ROICtrl: Mejora del Control de Instancias para la Generación Visual
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

El lenguaje natural a menudo tiene dificultades para asociar con precisión información posicional y atributiva con múltiples instancias, lo que limita a los modelos de generación visual basados en texto actuales a composiciones más simples que solo presentan unas pocas instancias dominantes. Para abordar esta limitación, este trabajo mejora los modelos de difusión al introducir control de instancias regionales, donde cada instancia está gobernada por un cuadro delimitador emparejado con una descripción de forma libre. Los métodos previos en esta área suelen depender de codificaciones de posición implícitas o máscaras de atención explícitas para separar regiones de interés (ROIs), lo que resulta en inyecciones de coordenadas inexactas o una gran carga computacional. Inspirados por ROI-Align en detección de objetos, introducimos una operación complementaria llamada ROI-Unpool. Juntas, ROI-Align y ROI-Unpool permiten una manipulación explícita, eficiente y precisa de ROIs en mapas de características de alta resolución para generación visual. Basándonos en ROI-Unpool, proponemos ROICtrl, un adaptador para modelos de difusión preentrenados que permite un control preciso de instancias regionales. ROICtrl es compatible con modelos de difusión ajustados por la comunidad, así como con complementos basados en espaciales existentes (por ejemplo, ControlNet, T2I-Adapter) y complementos basados en incrustaciones (por ejemplo, IP-Adapter, ED-LoRA), ampliando sus aplicaciones a generación multi-instancia. Los experimentos muestran que ROICtrl logra un rendimiento superior en el control de instancias regionales mientras reduce significativamente los costos computacionales.

Vías en el Manifold de Imágenes: Edición de Imágenes a través de Generación de Video
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Los avances recientes en edición de imágenes, impulsados por modelos de difusión de imágenes, han mostrado un progreso notable. Sin embargo, aún existen desafíos significativos, ya que estos modelos a menudo tienen dificultades para seguir instrucciones de edición complejas con precisión y comprometen frecuentemente la fidelidad al alterar elementos clave de la imagen original. Simultáneamente, la generación de videos ha avanzado notablemente, con modelos que funcionan efectivamente como simuladores de mundo consistentes y continuos. En este artículo, proponemos fusionar estos dos campos utilizando modelos de imagen a video para la edición de imágenes. Reformulamos la edición de imágenes como un proceso temporal, utilizando modelos de video preentrenados para crear transiciones suaves desde la imagen original hasta la edición deseada. Este enfoque recorre continuamente el espacio de imágenes, asegurando ediciones consistentes al tiempo que preserva los aspectos clave de la imagen original. Nuestro enfoque logra resultados de vanguardia en la edición de imágenes basada en texto, demostrando mejoras significativas tanto en la precisión de la edición como en la preservación de la imagen.

Generación de Video a Texto Preservando la Identidad mediante Descomposición de Frecuencia
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

La generación de texto a video que preserva la identidad (IPT2V) tiene como objetivo crear videos de alta fidelidad con una identidad humana consistente. Es una tarea importante en la generación de videos, pero sigue siendo un problema abierto para los modelos generativos. Este documento empuja la frontera técnica de IPT2V en dos direcciones que no han sido resueltas en la literatura: (1) Un flujo de trabajo sin ajustes tediosos caso por caso, y (2) Un esquema de control basado en heurísticas que preserva la identidad de manera consciente de la frecuencia y basado en DiT. Proponemos ConsisID, un modelo IPT2V controlable basado en DiT sin ajustes para mantener la identidad humana consistente en el video generado. Inspirado en hallazgos previos en el análisis de frecuencia de transformadores de difusión, emplea señales de control de identidad en el dominio de frecuencia, donde las características faciales pueden descomponerse en características globales de baja frecuencia y características intrínsecas de alta frecuencia. En primer lugar, desde una perspectiva de baja frecuencia, introducimos un extractor facial global, que codifica imágenes de referencia y puntos clave faciales en un espacio latente, generando características enriquecidas con información de baja frecuencia. Estas características se integran luego en capas superficiales de la red para aliviar los desafíos de entrenamiento asociados con DiT. En segundo lugar, desde una perspectiva de alta frecuencia, diseñamos un extractor facial local para capturar detalles de alta frecuencia e inyectarlos en bloques transformadores, mejorando la capacidad del modelo para preservar características detalladas. Proponemos una estrategia de entrenamiento jerárquica para aprovechar la información de frecuencia para la preservación de la identidad, transformando un modelo de generación de video preentrenado básico en un modelo IPT2V. Experimentos extensos demuestran que nuestro esquema heurístico consciente de la frecuencia proporciona una solución de control óptima para modelos basados en DiT. Gracias a este esquema, nuestro ConsisID genera videos de alta calidad que preservan la identidad, avanzando hacia una IPT2V más efectiva.

MME-Survey: Un Estudio Exhaustivo sobre la Evaluación de Modelos de Lenguaje Multimodales
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Como una dirección destacada de la Inteligencia Artificial General (IAG), los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) han captado una atención creciente tanto de la industria como de la academia. Basándose en LLMs pre-entrenados, esta familia de modelos desarrolla aún más capacidades de percepción y razonamiento multimodales impresionantes, como escribir código dado un diagrama de flujo o crear historias basadas en una imagen. En el proceso de desarrollo, la evaluación es crítica ya que proporciona retroalimentación intuitiva y orientación sobre cómo mejorar los modelos. Distinto del paradigma tradicional de entrenamiento-evaluación-prueba que solo favorece una única tarea como la clasificación de imágenes, la versatilidad de los MLLMs ha impulsado la aparición de varios nuevos puntos de referencia y métodos de evaluación. En este documento, nuestro objetivo es presentar un estudio exhaustivo de la evaluación de MLLM, discutiendo cuatro aspectos clave: 1) los tipos de puntos de referencia resumidos divididos por las capacidades de evaluación, incluyendo capacidades fundamentales, autoanálisis del modelo y aplicaciones extendidas; 2) el proceso típico de construcción de puntos de referencia, que consiste en la recopilación de datos, la anotación y precauciones; 3) la forma sistemática de evaluación compuesta por juez, métrica y herramientas; 4) la perspectiva para el próximo punto de referencia. Este trabajo tiene como objetivo ofrecer a los investigadores una comprensión sencilla de cómo evaluar efectivamente los MLLMs según diferentes necesidades e inspirar mejores métodos de evaluación, impulsando así el progreso de la investigación en MLLM.

Gráfico de Escena Entrelazado para la Generación Entrelazada de Texto e Imágenes Evaluación
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

Muchas consultas de usuarios del mundo real (por ejemplo, "¿Cómo hacer arroz frito con huevo?") podrían beneficiarse de sistemas capaces de generar respuestas con pasos textuales acompañados de imágenes, similar a un libro de cocina. Los modelos diseñados para generar texto e imágenes entrelazados enfrentan desafíos para garantizar la consistencia dentro y entre estas modalidades. Para abordar estos desafíos, presentamos ISG, un marco de evaluación integral para la generación de texto e imagen entrelazados. ISG aprovecha una estructura de grafo de escena para capturar las relaciones entre bloques de texto e imagen, evaluando las respuestas en cuatro niveles de granularidad: holístico, estructural, a nivel de bloque y específico de imagen. Esta evaluación multinivel permite una evaluación matizada de la consistencia, coherencia y precisión, y proporciona retroalimentación interpretable de pregunta-respuesta. En conjunto con ISG, presentamos un banco de pruebas, ISG-Bench, que abarca 1,150 muestras en 8 categorías y 21 subcategorías. Este conjunto de datos de referencia incluye dependencias complejas entre lenguaje y visión, y respuestas ideales para evaluar de manera efectiva modelos en tareas centradas en la visión, como la transferencia de estilo, un área desafiante para los modelos actuales. Utilizando ISG-Bench, demostramos que los modelos recientes unificados de visión y lenguaje tienen un bajo rendimiento en la generación de contenido entrelazado. Mientras que los enfoques composicionales que combinan modelos de lenguaje e imagen por separado muestran una mejora del 111% sobre los modelos unificados a nivel holístico, su rendimiento sigue siendo subóptimo tanto a nivel de bloque como de imagen. Para facilitar el trabajo futuro, desarrollamos ISG-Agent, un agente de referencia que emplea un proceso "planificar-ejecutar-refinar" para invocar herramientas, logrando una mejora del 122% en el rendimiento.

SketchAgent: Generación de Bocetos Secuenciales Dirigida por Lenguaje
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

El bocetaje sirve como una herramienta versátil para externalizar ideas, permitiendo una exploración rápida y comunicación visual que abarca diversas disciplinas. Si bien los sistemas artificiales han impulsado avances sustanciales en la creación de contenido y la interacción humano-computadora, capturar la naturaleza dinámica y abstracta del bocetaje humano sigue siendo un desafío. En este trabajo, presentamos SketchAgent, un método de generación de bocetos secuencial impulsado por lenguaje que permite a los usuarios crear, modificar y refinar bocetos a través de interacciones dinámicas y conversacionales. Nuestro enfoque no requiere entrenamiento ni ajuste fino. En su lugar, aprovechamos la naturaleza secuencial y el rico conocimiento previo de modelos de lenguaje multimodales grandes (LLMs) listos para usar. Presentamos un lenguaje de bocetaje intuitivo, introducido al modelo a través de ejemplos en contexto, permitiéndole "dibujar" utilizando acciones basadas en cadenas. Estas acciones se procesan en gráficos vectoriales y luego se representan para crear un boceto en un lienzo de píxeles, que puede ser accedido nuevamente para tareas adicionales. Al dibujar trazo a trazo, nuestro agente captura las cualidades evolutivas y dinámicas intrínsecas al bocetaje. Demostramos que SketchAgent puede generar bocetos a partir de diversos estímulos, participar en dibujos impulsados por diálogo y colaborar significativamente con usuarios humanos.

Reconsideración de la Reducción de Tokens en MLLMs: Hacia un Paradigma Unificado para Aceleración sin Entrenamiento.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Para acelerar la inferencia de Modelos de Lenguaje Multimodales Grandes y Pesados (MLLMs), este estudio reconsidera el panorama actual de la investigación de reducción de tokens sin entrenamiento. Lamentamos encontrar que los componentes críticos de los métodos existentes están estrechamente entrelazados, con sus interconexiones y efectos aún no claros para la comparación, transferencia y expansión. Por lo tanto, proponemos un paradigma unificado de ''filtrar-correlacionar-comprimir'' que descompone la reducción de tokens en tres etapas distintas dentro de un proceso en serie, manteniendo objetivos y elementos de diseño consistentes y permitiendo implementaciones únicas. Además, desmitificamos los trabajos populares y los subsumimos en nuestro paradigma para mostrar su universalidad. Finalmente, ofrecemos una serie de métodos fundamentados en el paradigma, logrando un equilibrio entre velocidad y precisión a lo largo de diferentes fases de la inferencia. Los resultados experimentales en 10 pruebas indican que nuestros métodos pueden lograr una reducción de hasta un 82.4% en FLOPs con un impacto mínimo en el rendimiento, superando simultáneamente los métodos actuales sin entrenamiento. Nuestra página del proyecto se encuentra en https://ficoco-accelerate.github.io/.

La cuantificación de bajo bit favorece a los LLMs subentrenados: Leyes de escala para LLMs cuantificados con 100T tokens de entrenamiento.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

Revelamos que la cuantificación de bajo número de bits favorece a los modelos de lenguaje grandes insuficientemente entrenados (LLMs) al observar que los modelos con tamaños más grandes o menos tokens de entrenamiento experimentan menos degradación inducida por la cuantificación (QiD) al aplicar la cuantificación de bajo número de bits, mientras que los modelos más pequeños con extensos tokens de entrenamiento sufren una degradación significativa de QiD. Para obtener una comprensión más profunda de esta tendencia, estudiamos más de 1500 puntos de control de LLM cuantificados de varios tamaños y en diferentes niveles de entrenamiento (insuficientemente entrenados o completamente entrenados) en un entorno controlado, derivando leyes de escala para comprender la relación entre QiD y factores como el número de tokens de entrenamiento, tamaño del modelo y ancho de bits. Con las leyes de escala derivadas, proponemos una nueva perspectiva en la que podemos utilizar QiD para medir los niveles de entrenamiento de un LLM y determinar el número de tokens de entrenamiento requeridos para entrenar completamente LLMs de varios tamaños. Además, utilizamos las leyes de escala para predecir el rendimiento de cuantificación de diferentes LLMs de tamaños variados entrenados con 100 billones de tokens. Nuestra proyección muestra que el rendimiento de cuantificación de bajo número de bits de los modelos futuros, que se espera que sean entrenados con más de 100 billones de tokens, puede NO ser deseable. Esto plantea un desafío potencial para la cuantificación de bajo número de bits en el futuro y destaca la necesidad de ser conscientes del nivel de entrenamiento de un modelo al evaluar la investigación de cuantificación de bajo número de bits. Para facilitar la investigación futura sobre este problema, liberamos todos los más de 1500 puntos de control cuantificados utilizados en este trabajo en https://huggingface.co/Xu-Ouyang.

SAR3D: Generación y comprensión autoregresiva de objetos 3D a través de VQVAE 3D multinivel
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

Los modelos autoregresivos han demostrado un éxito notable en diversos campos, desde grandes modelos de lenguaje (LLMs) hasta grandes modelos multimodales (LMMs) y generación de contenido 2D, acercándose cada vez más a la inteligencia artificial general (AGI). A pesar de estos avances, la aplicación de enfoques autoregresivos a la generación y comprensión de objetos 3D sigue siendo en gran medida inexplorada. Este artículo presenta Scale AutoRegressive 3D (SAR3D), un marco novedoso que aprovecha un autoencoder variacional vector cuantificado en 3D a múltiples escalas (VQVAE) para tokenizar objetos 3D para una generación autoregresiva eficiente y una comprensión detallada. Al predecir la siguiente escala en una representación latente a múltiples escalas en lugar del siguiente token individual, SAR3D reduce significativamente el tiempo de generación, logrando una generación rápida de objetos 3D en tan solo 0.82 segundos en una GPU A6000. Además, dado que los tokens están enriquecidos con información jerárquica 3D, ajustamos finamente un LLM preentrenado en ellos, lo que permite la comprensión multimodal del contenido 3D. Nuestros experimentos muestran que SAR3D supera a los métodos actuales de generación 3D tanto en velocidad como en calidad, y permite a los LLM interpretar y describir modelos 3D de manera exhaustiva.

VLRewardBench: Un desafiante banco de pruebas para modelos generativos de recompensa visión-lenguaje
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Los modelos generativos de recompensa visión-lenguaje (VL-GenRMs) desempeñan un papel crucial en la alineación y evaluación de sistemas de IA multimodales, sin embargo, su propia evaluación sigue siendo poco explorada. Los métodos de evaluación actuales se basan principalmente en etiquetas de preferencia anotadas por IA de tareas VL tradicionales, lo cual puede introducir sesgos y a menudo no desafía de manera efectiva a los modelos de vanguardia. Para abordar estas limitaciones, presentamos VL-RewardBench, un banco de pruebas integral que abarca consultas multimodales generales, detección de alucinaciones visuales y tareas de razonamiento complejas. A través de nuestro pipeline de anotación asistido por IA que combina la selección de muestras con verificación humana, curamos 1,250 ejemplos de alta calidad diseñados específicamente para sondear las limitaciones del modelo. La evaluación exhaustiva en 16 principales modelos grandes de visión-lenguaje, demuestra la efectividad de VL-RewardBench como un banco de pruebas desafiante, donde incluso GPT-4o logra solo un 65.4% de precisión, y modelos de código abierto de vanguardia como Qwen2-VL-72B, luchan por superar el azar. Es importante destacar que el rendimiento en VL-RewardBench se correlaciona fuertemente (r de Pearson > 0.9) con la precisión de MMMU-Pro utilizando muestreo Best-of-N con VL-GenRMs. Los experimentos de análisis revelan tres ideas críticas para mejorar los VL-GenRMs: (i) los modelos fallan predominantemente en tareas básicas de percepción visual en lugar de tareas de razonamiento; (ii) los beneficios de escalar en tiempo de inferencia varían drásticamente según la capacidad del modelo; y (iii) entrenar VL-GenRMs para aprender a juzgar aumenta sustancialmente la capacidad de juicio (+14.7% de precisión para un VL-GenRM de 7B). Creemos que VL-RewardBench junto con las ideas experimentales se convertirán en un recurso valioso para avanzar en los VL-GenRMs.

Aprendizaje de Representaciones 3D a partir de Programas 3D Procedurales
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

El aprendizaje auto-supervisado ha surgido como un enfoque prometedor para adquirir representaciones 3D transferibles a partir de nubes de puntos 3D no etiquetadas. A diferencia de las imágenes 2D, que son ampliamente accesibles, adquirir activos 3D requiere experiencia especializada o equipos de escaneo 3D profesionales, lo que dificulta la escalabilidad y plantea preocupaciones de derechos de autor. Para abordar estos desafíos, proponemos aprender representaciones 3D a partir de programas 3D procedurales que generan automáticamente formas 3D utilizando primitivas simples y aumentaciones. Notablemente, a pesar de carecer de contenido semántico, las representaciones 3D aprendidas a partir de este conjunto de datos sintetizado tienen un rendimiento comparable con representaciones de vanguardia aprendidas a partir de modelos 3D reconocibles semánticamente (por ejemplo, aviones) en diversas tareas 3D posteriores, incluida la clasificación de formas, segmentación de partes y completado de nubes de puntos enmascaradas. Nuestro análisis sugiere además que los métodos actuales de aprendizaje auto-supervisado capturan principalmente estructuras geométricas en lugar de semántica de alto nivel.

SALOVA: Asistente de Video Largo con Segmentos para Recuperación Dirigida y Enrutamiento en el Análisis de Videos de Formato Largo
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

A pesar de los avances en los Modelos Multimodales Grandes, aplicarlos a contenido de video largo y sin recortar sigue siendo un desafío debido a limitaciones en la longitud del contexto y la sobrecarga de memoria sustancial. Estas restricciones a menudo resultan en una pérdida significativa de información y una reducción de la relevancia en las respuestas del modelo. Con el crecimiento exponencial de datos de video en plataformas web, comprender videos de formato largo es crucial para avanzar en la inteligencia generalizada. En este documento, presentamos SALOVA: Asistente de Video Largo con Segmentos Aumentados, un marco de trabajo de video-LLM novedoso diseñado para mejorar la comprensión de contenido de video extenso a través de un proceso de recuperación dirigido. Abordamos dos desafíos principales para lograrlo: (i) Presentamos el conjunto de datos SceneWalk, una colección de alta calidad de 87.8K videos largos, cada uno densamente subtitulado a nivel de segmento para permitir que los modelos capturen la continuidad de escenas y mantengan un contexto descriptivo rico. (ii) Desarrollamos diseños arquitectónicos robustos que integran un mecanismo de enrutamiento dinámico y un proyector espacio-temporal para recuperar y procesar eficientemente segmentos de video relevantes basados en consultas de usuario. Nuestro marco de trabajo mitiga las limitaciones de los video-LMM actuales al permitir la identificación precisa y recuperación de segmentos de video relevantes en respuesta a consultas, mejorando así la relevancia contextual de las respuestas generadas. A través de experimentos extensos, SALOVA demuestra una capacidad mejorada en el procesamiento de videos complejos de formato largo, mostrando una capacidad significativa para mantener la integridad contextual a lo largo de secuencias extendidas.

FINECAPTION: Generación de subtítulos de imágenes composicionales enfocándose en donde desee en cualquier nivel de granularidad
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

La llegada de los Modelos de Visión-Lenguaje Grandes (VLMs, por sus siglas en inglés) ha avanzado significativamente las tareas multimodales, permitiendo un razonamiento más sofisticado y preciso en diversas aplicaciones, incluyendo la descripción de imágenes y videos, la respuesta a preguntas visuales y la recuperación cruzada de modalidades. A pesar de sus capacidades superiores, los VLMs enfrentan dificultades con la percepción de información detallada sobre la composición regional de imágenes. Específicamente, tienen problemas para alinear con precisión las máscaras de segmentación con las semánticas correspondientes y describir de manera precisa los aspectos compositivos de las regiones referidas. Sin embargo, la composicionalidad - la capacidad de entender y generar nuevas combinaciones de componentes visuales y textuales conocidos - es fundamental para facilitar un razonamiento coherente y una comprensión entre modalidades por parte de los VLMs. Para abordar este problema, proponemos FINECAPTION, un nuevo VLM que puede reconocer máscaras arbitrarias como entradas referenciales y procesar imágenes de alta resolución para la descripción de imágenes de manera compositiva en diferentes niveles de granularidad. Para respaldar este esfuerzo, presentamos COMPOSITIONCAP, un nuevo conjunto de datos para la descripción de imágenes regionales compuestas a múltiples niveles, que introduce la tarea de descripción de imágenes regionales consciente de atributos compositivos. Los resultados empíricos demuestran la efectividad de nuestro modelo propuesto en comparación con otros VLMs de última generación. Además, analizamos las capacidades de los VLMs actuales en el reconocimiento de diversos estímulos visuales para la descripción de imágenes regionales compuestas, resaltando áreas para mejorar en el diseño y entrenamiento de los VLMs.

AnchorCrafter: Animar CiberAnclas Vendiendo Tus Productos a través de la Generación de Videos de Interacción Humano-Objeto
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

La generación automática de videos de promoción de productos en estilo ancla presenta oportunidades prometedoras en el comercio en línea, la publicidad y la participación del consumidor. Sin embargo, esto sigue siendo una tarea desafiante a pesar de los avances significativos en la generación de videos humanos guiados por poses. Al abordar este desafío, identificamos la integración de interacciones humano-objeto (HOI) en la generación de videos humanos guiados por poses como un problema central. Con este fin, presentamos AnchorCrafter, un novedoso sistema basado en difusión diseñado para generar videos 2D con un humano objetivo y un objeto personalizado, logrando una alta fidelidad visual e interacciones controlables. Específicamente, proponemos dos innovaciones clave: la percepción de apariencia HOI, que mejora el reconocimiento de la apariencia del objeto desde perspectivas arbitrarias de múltiples vistas y desvincula la apariencia del objeto y del humano, y la inyección de movimiento HOI, que permite interacciones humano-objeto complejas al superar los desafíos en la condicionamiento de la trayectoria del objeto y la gestión de la inter-oclusión. Además, introducimos la pérdida de reponderación de región HOI, un objetivo de entrenamiento que mejora el aprendizaje de los detalles del objeto. Experimentos extensos demuestran que nuestro sistema propuesto supera a los métodos existentes en la preservación de la apariencia y la conciencia de la forma del objeto, al mismo tiempo que mantiene la consistencia en la apariencia y el movimiento humanos. Página del proyecto: https://cangcz.github.io/Anchor-Crafter/

EfficientViM: Visión Eficiente Mamba con Mezclador de Estado Oculto basado en la Dualidad del Espacio de Estados.
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

Para la implementación de redes neuronales en entornos con recursos limitados, trabajos previos han construido arquitecturas ligeras con convolución y atención para capturar dependencias locales y globales, respectivamente. Recientemente, el modelo de espacio de estados ha surgido como una interacción de tokens globales efectiva con su favorable costo computacional lineal en el número de tokens. Sin embargo, se ha explorado menos el uso de espinazos visuales eficientes construidos con SSM. En este documento, presentamos Vision Mamba Eficiente (EfficientViM), una arquitectura novedosa construida sobre la dualidad de espacio de estados basada en mezclador de estados ocultos (HSM-SSD) que captura eficientemente dependencias globales con un costo computacional reducido. En la capa HSM-SSD, rediseñamos la capa SSD anterior para habilitar la operación de mezcla de canales dentro de los estados ocultos. Además, proponemos una fusión de estados ocultos en múltiples etapas para reforzar aún más el poder de representación de los estados ocultos, y proporcionamos el diseño que alivia el cuello de botella causado por las operaciones limitadas por la memoria. Como resultado, la familia EfficientViM logra un nuevo equilibrio entre velocidad y precisión de vanguardia en ImageNet-1k, ofreciendo hasta un 0.7% de mejora en el rendimiento sobre el segundo mejor modelo SHViT con una velocidad más rápida. Además, observamos mejoras significativas en el rendimiento y la precisión en comparación con trabajos anteriores al escalar imágenes o al emplear entrenamiento por destilación. El código está disponible en https://github.com/mlvlab/EfficientViM.

MolReFlect: Hacia alineamientos detallados en contexto entre moléculas y textos
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

El descubrimiento de moléculas es un campo de investigación fundamental que impacta desde los medicamentos que tomamos hasta los materiales que utilizamos. Recientemente, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han sido ampliamente adoptados en la comprensión y generación de moléculas, sin embargo, las alineaciones entre las moléculas y sus correspondientes leyendas siguen siendo un desafío significativo. Esfuerzos previos a menudo tratan a la molécula como una cadena SMILES general o un grafo molecular, descuidando las alineaciones detalladas entre las subestructuras moleculares y las frases textuales descriptivas, las cuales son cruciales para predicciones precisas y explicables. En este caso, presentamos MolReFlect, un novedoso marco de trabajo profesor-alumno diseñado para realizar las alineaciones molécula-leyenda de manera detallada y contextual. Nuestro enfoque aprovecha inicialmente un profesor LLM más grande para etiquetar las alineaciones detalladas extrayendo directamente frases críticas de leyendas de moléculas o cadenas SMILES e implicándolas en las subestructuras o características correspondientes. Para refinar estas alineaciones, proponemos Reflexión Selectiva en Contexto, que recupera resultados de extracciones previas como ejemplos de contexto para que el profesor LLM reflexione y permite que un alumno LLM más pequeño seleccione entre la reflexión en contexto y los resultados de extracciones previas. Finalmente, mejoramos el proceso de aprendizaje del alumno LLM a través de Ajuste de Molécula en Contexto de Cadena de Pensamiento, integrando las alineaciones detalladas y los procesos de razonamiento dentro del formato de Cadena de Pensamiento. Nuestros resultados experimentales demuestran que MolReFlect permite a LLMs como Mistral-7B superar significativamente los baselines anteriores, logrando un rendimiento de última generación en el conjunto de datos ChEBI-20. Este avance no solo mejora las capacidades generativas de los LLMs en la tarea de traducción molécula-leyenda, sino que también contribuye a un marco de trabajo más explicativo.

Prueba de Turing de Contador Visual (VCT^2): Descubriendo los Desafíos para la Detección de Imágenes Generadas por IA e Introduciendo el Índice de IA Visual (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

La proliferación de técnicas de IA para la generación de imágenes, junto con su creciente accesibilidad, ha suscitado preocupaciones significativas sobre el posible uso indebido de estas imágenes para difundir desinformación. Los recientes métodos de detección de imágenes generadas por IA (AGID) incluyen CNNDetection, NPR, Detección de Imágenes DM, Detección de Imágenes Falsas, DIRE, LASTED, Detección de Imágenes GAN, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake y Detección de Deep Fakes. Sin embargo, sostenemos que las técnicas AGID de vanguardia actuales son insuficientes para detectar eficazmente las imágenes generadas por IA contemporáneas y abogamos por una reevaluación integral de estos métodos. Presentamos el Test de Turing Visual Contrarreloj (VCT^2), un banco de pruebas que comprende ~130K imágenes generadas por modelos de texto a imagen contemporáneos (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 y Midjourney 6). VCT^2 incluye dos conjuntos de estímulos obtenidos de tweets de la cuenta de Twitter de New York Times y subtítulos del conjunto de datos MS COCO. También evaluamos el rendimiento de las técnicas AGID mencionadas anteriormente en el banco de pruebas VCT^2, resaltando su falta de efectividad en la detección de imágenes generadas por IA. A medida que los modelos de IA generativos de imágenes continúan evolucionando, la necesidad de un marco cuantificable para evaluar estos modelos se vuelve cada vez más crítica. Para satisfacer esta necesidad, proponemos el Índice de IA Visual (V_AI), que evalúa imágenes generadas desde diversas perspectivas visuales, incluida la complejidad de textura y la coherencia de objetos, estableciendo un nuevo estándar para evaluar modelos de IA generativos de imágenes. Para fomentar la investigación en este ámbito, ponemos a disposición públicamente nuestros conjuntos de datos COCO_AI y Twitter_AI en https://huggingface.co/datasets/anonymous1233/COCO_AI y https://huggingface.co/datasets/anonymous1233/twitter_AI.

Generación de Imágenes Humanas Controlables con Prendas Múltiples Personalizadas
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

Presentamos BootComp, un nuevo marco basado en modelos de difusión de texto a imagen para la generación de imágenes humanas controlables con múltiples prendas de referencia. Aquí, el principal cuello de botella es la adquisición de datos para el entrenamiento: recolectar un conjunto de datos a gran escala de imágenes de alta calidad de prendas de referencia por sujeto humano es bastante desafiante, es decir, idealmente, se necesita recopilar manualmente cada fotografía de prenda usada por cada humano. Para abordar esto, proponemos un pipeline de generación de datos para construir un amplio conjunto de datos sintéticos, que consiste en pares de humanos y múltiples prendas, mediante la introducción de un modelo para extraer cualquier imagen de prenda de referencia de cada imagen humana. Para garantizar la calidad de los datos, también proponemos una estrategia de filtrado para eliminar datos generados no deseados basados en la medición de similitudes perceptuales entre la prenda presentada en la imagen humana y la prenda extraída. Finalmente, mediante la utilización del conjunto de datos sintéticos construido, entrenamos un modelo de difusión que tiene dos rutas de eliminación de ruido paralelas que utilizan múltiples imágenes de prendas como condiciones para generar imágenes humanas mientras se preservan sus detalles detallados. Además, demostramos la amplia aplicabilidad de nuestro marco adaptándolo a diferentes tipos de generación basada en referencia en el dominio de la moda, incluyendo la prueba virtual de prendas y la generación de imágenes humanas controlables con otras condiciones, como la pose, el rostro, etc.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

ShowUI: Un Modelo de Visión-Lenguaje-Acción para Agente Visual de Interfaz Gráfica de Usuario
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl: Mejora del Control de Instancias para la Generación Visual
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Vías en el Manifold de Imágenes: Edición de Imágenes a través de Generación de Video
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Generación de Video a Texto Preservando la Identidad mediante Descomposición de Frecuencia
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME-Survey: Un Estudio Exhaustivo sobre la Evaluación de Modelos de Lenguaje Multimodales
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Gráfico de Escena Entrelazado para la Generación Entrelazada de Texto e Imágenes Evaluación
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent: Generación de Bocetos Secuenciales Dirigida por Lenguaje
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Reconsideración de la Reducción de Tokens en MLLMs: Hacia un Paradigma Unificado para Aceleración sin Entrenamiento.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

La cuantificación de bajo bit favorece a los LLMs subentrenados: Leyes de escala para LLMs cuantificados con 100T tokens de entrenamiento.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D: Generación y comprensión autoregresiva de objetos 3D a través de VQVAE 3D multinivel
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench: Un desafiante banco de pruebas para modelos generativos de recompensa visión-lenguaje
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Aprendizaje de Representaciones 3D a partir de Programas 3D Procedurales
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA: Asistente de Video Largo con Segmentos para Recuperación Dirigida y Enrutamiento en el Análisis de Videos de Formato Largo
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

FINECAPTION: Generación de subtítulos de imágenes composicionales enfocándose en donde desee en cualquier nivel de granularidad
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter: Animar CiberAnclas Vendiendo Tus Productos a través de la Generación de Videos de Interacción Humano-Objeto
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM: Visión Eficiente Mamba con Mezclador de Estado Oculto basado en la Dualidad del Espacio de Estados.
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect: Hacia alineamientos detallados en contexto entre moléculas y textos
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Prueba de Turing de Contador Visual (VCT^2): Descubriendo los Desafíos para la Detección de Imágenes Generadas por IA e Introduciendo el Índice de IA Visual (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

Generación de Imágenes Humanas Controlables con Prendas Múltiples Personalizadas
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin