Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

¿Crowdsourcing, rastreo o generación? Creación de SEA-VL, un conjunto de datos multicultural de visión y lenguaje para el sudeste asiático
Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Mar 10

BySamuel Cahyawijaya, Holy Lovenia, Joel Ruben Antony Moniz, Tack Hwa Wong, Mohammad Rifqi Farhansyah, Thant Thiri Maung, Frederikus Hudi, David Anugraha, Muhammad Ravi Shulthan Habibi, Muhammad Reza Qorib, Amit Agarwal, Joseph Marvin Imperial, Hitesh Laxmichand Patel, Vicky Feliren, Bahrul Ilmi Nasution, Manuel Antonio Rufino, Genta Indra Winata, Rian Adam Rajagede, Carlos Rafael Catalan, Mohamed Fazli Imam, Priyaranjan Pattnayak, Salsabila Zahirah Pranida, Kevin Pratama, Yeshil Bangera, Adisai Na-Thalang, Patricia Nicole Monderin, Yueqi Song, Christian Simon, Lynnette Hui Xian Ng, Richardy Lobo' Sapan, Taki Hasan Rafi, Bin Wang, Supryadi, Kanyakorn Veerakanjana, Piyalitt Ittichaiwong, Matthew Theodore Roque, Karissa Vincentio, Takdanai Kreangphet, Phakphum Artkaew, Kadek Hendrawan Palgunadi, Yanzhi Yu, Rochana Prih Hastuti, William Nixon, Mithil Bangera, Adrian Xuan Wei Lim, Aye Hninn Khine, Hanif Muhammad Zhafran, Teddy Ferdinan, Audra Aurora Izzani, Ayushman Singh, Evan, Jauza Akbar Krito, Michael Anugraha, Fenal Ashokbhai Ilasariya, Haochen Li, John Amadeo Daniswara, Filbert Aurelian Tjiaranata, Eryawan Presma Yulianrifat, Can Udomcharoenchaikit, Fadil Risdian Ansori, Mahardika Krisna Ihsani, Giang Nguyen, Anab Maulana Barik, Dan John Velasco, Rifo Ahmad Genadi, Saptarshi Saha, Chengwei Wei, Isaiah Flores, Kenneth Ko Han Chen, Anjela Gail Santos, Wan Shen Lim, Kaung Si Phyo, Tim Santos, Meisyarah Dwiastuti, Jiayun Luo, Jan Christian Blaise Cruz, Ming Shan Hee, Ikhlasul Akmal Hanif, M. Alif Al Hakim, Muhammad Rizky Sya'ban, Kun Kerdthaisong, Lester James V. Miranda, Fajri Koto, Tirana Noor Fatyanosa, Alham Fikri Aji, Jostin Jerico Rosal, Jun Kevin, Robert Wijaya, Onno P. Kampman, Ruochen Zhang, Börje F. Karlsson, Peerat Limkonchotiwat

101

El Sudeste Asiático (SEA) es una región de extraordinaria diversidad lingüística y cultural, pero sigue estando significativamente subrepresentada en la investigación de visión y lenguaje (VL). Esto a menudo resulta en modelos de inteligencia artificial (IA) que no logran captar los matices culturales de SEA. Para llenar este vacío, presentamos SEA-VL, una iniciativa de código abierto dedicada a desarrollar datos de alta calidad y culturalmente relevantes para los idiomas de SEA. Al involucrar a colaboradores de países de SEA, SEA-VL busca garantizar una mejor relevancia y diversidad cultural, fomentando una mayor inclusión de lenguas subrepresentadas en la investigación VL. Más allá del crowdsourcing, nuestra iniciativa da un paso más en la exploración de la recopilación automática de imágenes culturalmente relevantes mediante rastreo web y generación de imágenes. En primer lugar, encontramos que el rastreo de imágenes alcanza aproximadamente un 85% de relevancia cultural, siendo más eficiente en costos y tiempo que el crowdsourcing. En segundo lugar, a pesar del progreso sustancial en los modelos generativos de visión, las imágenes sintéticas siguen siendo poco confiables para reflejar con precisión las culturas de SEA. Las imágenes generadas a menudo no logran reflejar las tradiciones matizadas y los contextos culturales de la región. En conjunto, recopilamos 1.28 millones de imágenes culturalmente relevantes de SEA, más de 50 veces más grande que otros conjuntos de datos existentes. A través de SEA-VL, buscamos cerrar la brecha de representación en SEA, fomentando el desarrollo de sistemas de IA más inclusivos que representen auténticamente las diversas culturas de toda la región.

LMM-R1: Potenciando LMMs de 3B con Capacidades de Razonamiento Fuerte mediante Aprendizaje por Refuerzo Basado en Reglas en Dos Etapas
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Mar 10

ByYingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang

Mejorar el razonamiento en Modelos Multimodales de Gran Escala (LMMs) enfrenta desafíos únicos debido a la compleja interacción entre la percepción visual y el razonamiento lógico, particularmente en arquitecturas compactas de 3 mil millones de parámetros, donde las limitaciones arquitectónicas restringen la capacidad de razonamiento y la alineación de modalidades. Mientras que el aprendizaje por refuerzo basado en reglas (RL) sobresale en dominios de solo texto, su extensión multimodal enfrenta dos barreras críticas: (1) limitaciones de datos debido a respuestas ambiguas y escasez de ejemplos de razonamiento complejo, y (2) degradación del razonamiento fundamental inducida por el preentrenamiento multimodal. Para abordar estos desafíos, proponemos \method, un marco de dos etapas que adapta el RL basado en reglas para el razonamiento multimodal a través de la Mejora del Razonamiento Fundamental (FRE) seguida del Entrenamiento de Generalización Multimodal (MGT). La etapa FRE primero fortalece las habilidades de razonamiento utilizando datos de solo texto con RL basado en reglas, luego la etapa MGT generaliza estas capacidades de razonamiento a dominios multimodales. Los experimentos en Qwen2.5-VL-Instruct-3B demuestran que \method logra mejoras promedio del 4.83% y 4.5% sobre las líneas base en benchmarks multimodales y de solo texto, respectivamente, con una ganancia del 3.63% en tareas complejas de Juego de Fútbol. Estos resultados validan que la mejora del razonamiento basado en texto permite una generalización multimodal efectiva, ofreciendo un paradigma eficiente en datos que evita el costoso uso de datos de entrenamiento multimodal de alta calidad.

YuE: Escalando Modelos de Fundación Abiertos para la Generación de Música de Larga Duración
YuE: Scaling Open Foundation Models for Long-Form Music Generation

Mar 11

ByRuibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo

Abordamos la tarea de generación de música de larga duración—específicamente el desafiante problema de convertir letras en canciones—mediante la introducción de YuE, una familia de modelos fundacionales abiertos basados en la arquitectura LLaMA2. En concreto, YuE escala a billones de tokens y genera hasta cinco minutos de música mientras mantiene la alineación lírica, una estructura musical coherente y melodías vocales atractivas con acompañamiento adecuado. Esto se logra a través de (1) predicción de siguiente token desacoplada por pista para superar señales de mezcla densa, (2) condicionamiento progresivo estructural para la alineación lírica en contextos largos, y (3) una receta de preentrenamiento multitarea y multifase para converger y generalizar. Además, rediseñamos la técnica de aprendizaje en contexto para la generación de música, permitiendo transferencia de estilo versátil (por ejemplo, convertir el city pop japonés en un rap en inglés mientras se preserva el acompañamiento original) y generación bidireccional. Mediante una evaluación exhaustiva, demostramos que YuE iguala o incluso supera a algunos sistemas propietarios en musicalidad y agilidad vocal. Además, el ajuste fino de YuE permite controles adicionales y un mejor soporte para lenguajes minoritarios. Más allá de la generación, mostramos que las representaciones aprendidas por YuE funcionan bien en tareas de comprensión musical, donde los resultados de YuE igualan o superan a los métodos de vanguardia en el benchmark MARBLE. Palabras clave: letras a canción, generación de canciones, larga duración, modelo fundacional, generación de música.

Optimización del Cómputo en Tiempo de Prueba mediante Ajuste Fino con Meta-Aprendizaje por Refuerzo
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Mar 10

ByYuxiao Qu, Matthew Y. R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar

Entrenar modelos para utilizar eficazmente el cómputo en tiempo de prueba es crucial para mejorar el rendimiento en razonamiento de los LLM. Los métodos actuales lo hacen principalmente mediante ajuste fino en trazas de búsqueda o ejecutando RL con recompensas de resultado 0/1, pero ¿utilizan estos enfoques eficientemente el cómputo en tiempo de prueba? ¿Seguirían escalando estos enfoques a medida que aumenta el presupuesto? En este artículo, intentamos responder estas preguntas. Formalizamos el problema de optimizar el cómputo en tiempo de prueba como un problema de meta-aprendizaje por refuerzo (RL), lo cual proporciona una perspectiva fundamentada sobre cómo gastar el cómputo en tiempo de prueba. Esta perspectiva nos permite ver el flujo extenso de salida del LLM como compuesto por varios episodios ejecutados en tiempo de prueba y nos lleva a utilizar una noción de arrepentimiento acumulado sobre los tokens de salida como una forma de medir la eficacia del cómputo en tiempo de prueba. Similar a cómo los algoritmos de RL pueden equilibrar mejor la exploración y la explotación durante el entrenamiento, minimizar el arrepentimiento acumulado también proporcionaría el mejor equilibrio entre exploración y explotación en el flujo de tokens. Aunque demostramos que los modelos de vanguardia no minimizan el arrepentimiento, es posible lograrlo maximizando una recompensa densa adicional junto con la recompensa de resultado 0/1 en RL. Esta recompensa adicional es el "progreso" realizado por cada bloque subsiguiente en el flujo de salida, cuantificado por el cambio en la probabilidad de éxito eventual. Utilizando estas ideas, desarrollamos Meta Reinforcement Fine-Tuning, o MRT, una nueva clase de métodos de ajuste fino para optimizar el cómputo en tiempo de prueba. MRT conduce a una mejora relativa de 2-3x en el rendimiento y aproximadamente 1.5x en eficiencia de tokens para razonamiento matemático en comparación con RL basado en recompensas de resultado.

Gemini Embedding: Incrustaciones Generalizables de Gemini
Gemini Embedding: Generalizable Embeddings from Gemini

Mar 10

ByJinhyuk Lee, Feiyang Chen, Sahil Dua, Daniel Cer, Madhuri Shanbhogue, Iftekhar Naim, Gustavo Hernández Ábrego, Zhe Li, Kaifeng Chen, Henrique Schechter Vera, Xiaoqi Ren, Shanfeng Zhang, Daniel Salz, Michael Boratko, Jay Han, Blair Chen, Shuo Huang, Vikram Rao, Paul Suganthan, Feng Han, Andreas Doumanoglou, Nithi Gupta, Fedor Moiseev, Cathy Yip, Aashi Jain, Simon Baumgartner, Shahrokh Shahi, Frank Palma Gomez, Sandeep Mariserla, Min Choi, Parashar Shah, Sonam Goenka, Ke Chen, Ye Xia, Koert Chen, Sai Meher Karthik Duddu, Yichang Chen, Trevor Walker, Wenlei Zhou, Rakesh Ghiya, Zach Gleicher, Karan Gill, Zhe Dong, Mojtaba Seyedhosseini, Yunhsuan Sung, Raphael Hoffmann, Tom Duerig

En este informe presentamos Gemini Embedding, un modelo de embeddings de última generación que aprovecha el poder de Gemini, el modelo de lenguaje grande más avanzado de Google. Aprovechando las capacidades inherentes de Gemini para comprender múltiples idiomas y código, Gemini Embedding genera embeddings altamente generalizables para textos que abarcan numerosos idiomas y modalidades textuales. Las representaciones generadas por Gemini Embedding pueden precomputarse y aplicarse a una variedad de tareas posteriores, incluyendo clasificación, similitud, agrupamiento, clasificación por relevancia y recuperación de información. Evaluado en el Massive Multilingual Text Embedding Benchmark (MMTEB), que incluye más de cien tareas en más de 250 idiomas, Gemini Embedding supera sustancialmente a los modelos de última generación anteriores, demostrando mejoras considerables en la calidad de los embeddings. Al lograr un rendimiento de vanguardia en los benchmarks multilingües, en inglés y de código de MMTEB, nuestro modelo unificado muestra capacidades sólidas en una amplia selección de tareas y supera a modelos especializados específicos de dominio.

Seedream 2.0: Un modelo fundacional de generación de imágenes bilingüe nativo chino-inglés
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

Mar 10

ByLixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang

El rápido avance de los modelos de difusión ha catalizado un progreso notable en el campo de la generación de imágenes. Sin embargo, modelos prevalentes como Flux, SD3.5 y Midjourney aún enfrentan problemas como el sesgo del modelo, capacidades limitadas de renderizado de texto y una comprensión insuficiente de los matices culturales chinos. Para abordar estas limitaciones, presentamos Seedream 2.0, un modelo base de generación de imágenes bilingüe nativo chino-inglés que sobresale en diversas dimensiones, gestionando hábilmente indicaciones de texto tanto en chino como en inglés, y apoyando la generación de imágenes y el renderizado de texto bilingües. Desarrollamos un sistema de datos potente que facilita la integración de conocimiento, y un sistema de subtítulos que equilibra la precisión y la riqueza en la descripción de imágenes. En particular, Seedream está integrado con un modelo de lenguaje grande bilingüe desarrollado internamente como codificador de texto, permitiéndole aprender conocimiento nativo directamente de datos masivos. Esto le permite generar imágenes de alta fidelidad con matices culturales precisos y expresiones estéticas descritas en chino o inglés. Además, se aplica Glyph-Aligned ByT5 para un renderizado de texto flexible a nivel de caracteres, mientras que un Scaled ROPE generaliza bien a resoluciones no entrenadas. Optimizaciones posteriores al entrenamiento en múltiples fases, incluyendo iteraciones de SFT y RLHF, mejoran aún más la capacidad general. A través de una experimentación extensa, demostramos que Seedream 2.0 alcanza un rendimiento de vanguardia en múltiples aspectos, incluyendo seguimiento de indicaciones, estética, renderizado de texto y corrección estructural. Además, Seedream 2.0 ha sido optimizado mediante múltiples iteraciones de RLHF para alinear estrechamente su salida con las preferencias humanas, como lo revela su destacada puntuación ELO. Adicionalmente, puede adaptarse fácilmente a un modelo de edición de imágenes basado en instrucciones, como SeedEdit, con una fuerte capacidad de edición que equilibra el seguimiento de instrucciones y la consistencia de la imagen.

MagicInfinite: Generando Videos Infinitos de Personas Hablando con Tus Palabras y Voz
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

Mar 7

ByHongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou

Presentamos MagicInfinite, un novedoso marco de Transformer de difusión (DiT) que supera las limitaciones tradicionales de la animación de retratos, ofreciendo resultados de alta fidelidad en diversos tipos de personajes: humanos realistas, figuras de cuerpo completo y personajes de anime estilizados. Soporta diversas poses faciales, incluyendo vistas de espalda, y anima uno o varios personajes con máscaras de entrada para la designación precisa del hablante en escenas con múltiples personajes. Nuestro enfoque aborda desafíos clave con tres innovaciones: (1) mecanismos de atención completa 3D con una estrategia de eliminación de ruido de ventana deslizante, permitiendo la generación infinita de videos con coherencia temporal y calidad visual en diversos estilos de personajes; (2) un esquema de aprendizaje curricular en dos etapas, integrando audio para sincronización labial, texto para dinámicas expresivas e imágenes de referencia para la preservación de la identidad, permitiendo un control multimodal flexible en secuencias largas; y (3) máscaras específicas por región con funciones de pérdida adaptativas para equilibrar el control textual global y la guía de audio local, soportando animaciones específicas por hablante. La eficiencia se mejora mediante nuestras innovadoras técnicas de destilación unificada de pasos y cfg, logrando un aumento de velocidad de inferencia de 20x sobre el modelo base: generando un video de 10 segundos a 540x540p en 10 segundos o 720x720p en 30 segundos en 8 GPUs H100, sin pérdida de calidad. Las evaluaciones en nuestro nuevo benchmark demuestran la superioridad de MagicInfinite en la sincronización audio-labial, la preservación de la identidad y la naturalidad del movimiento en diversos escenarios. Está disponible públicamente en https://www.hedra.com/, con ejemplos en https://magicinfinite.github.io/.

Diferencia de Acción en Video
Video Action Differencing

Mar 10

ByJames Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy

¿Cómo difieren dos individuos al realizar la misma acción? En este trabajo, presentamos Video Action Differencing (VidDiff), la novedosa tarea de identificar diferencias sutiles entre videos de la misma acción, la cual tiene múltiples aplicaciones, como el coaching y el aprendizaje de habilidades. Para facilitar el desarrollo en esta nueva tarea, primero creamos VidDiffBench, un conjunto de datos de referencia que contiene 549 pares de videos, con anotaciones humanas de 4,469 diferencias de acción detalladas y 2,075 marcas de tiempo que indican dónde ocurren estas diferencias. Nuestros experimentos demuestran que VidDiffBench representa un desafío significativo para los modelos multimodales grandes (LMMs) de última generación, como GPT-4o y Qwen2-VL. Al analizar los casos de fallo de los LMMs en VidDiffBench, destacamos dos desafíos clave para esta tarea: localizar subacciones relevantes en dos videos y realizar comparaciones detalladas entre fotogramas. Para superar estos desafíos, proponemos el método VidDiff, un flujo de trabajo agéntico que divide la tarea en tres etapas: propuesta de diferencias de acción, localización de fotogramas clave y diferenciación de fotogramas, donde cada etapa utiliza modelos base especializados. Para fomentar la investigación futura en esta nueva tarea, publicamos el conjunto de datos en https://huggingface.co/datasets/jmhb/VidDiffBench y el código en http://jmhb0.github.io/viddiff.

UniF^2ace: Comprensión y Generación Detallada de Rostros con Modelos Multimodales Unificados
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

Mar 11

ByJunzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li

Los modelos multimodales unificados (UMMs, por sus siglas en inglés) han surgido como un paradigma poderoso en la investigación fundamental de visión por computadora, demostrando un potencial significativo tanto en la comprensión como en la generación de imágenes. Sin embargo, las investigaciones existentes en el dominio facial se centran principalmente en la comprensión de atributos faciales generales, con una capacidad limitada para manejar atributos faciales detallados y sin abordar capacidades de generación. Para superar estas limitaciones, proponemos UniF^2ace, el primer UMM diseñado específicamente para la comprensión y generación facial detallada. En general, entrenamos UniF^2ace en un conjunto de datos especializado construido internamente, utilizando dos técnicas de difusión mutuamente beneficiosas y una arquitectura de mezcla de expertos de dos niveles. Específicamente, primero construimos un conjunto de datos facial a gran escala, UniF^2ace-130K, que contiene 130K pares de imagen-texto con un millón de pares de preguntas y respuestas que abarcan una amplia gama de atributos faciales. Segundo, establecemos una conexión teórica entre la coincidencia de puntuación de difusión discreta y los modelos generativos enmascarados, optimizando simultáneamente los límites inferiores de evidencia, lo que mejora significativamente la capacidad del modelo para sintetizar detalles faciales. Finalmente, introducimos una mezcla de expertos tanto a nivel de token como de secuencia, permitiendo un aprendizaje eficiente de representaciones detalladas para tareas de comprensión y generación. Experimentos exhaustivos en UniF^2ace-130K demuestran que UniF^2ace supera a los UMMs y modelos generativos existentes, logrando un rendimiento superior en tareas de comprensión y generación.

SegAgent: Exploración de las capacidades de comprensión de píxeles en MLLM mediante la imitación de trayectorias de anotadores humanos
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

Mar 11

ByMuzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen

Si bien los MLLM han demostrado capacidades adecuadas de comprensión de imágenes, aún tienen dificultades con la comprensión a nivel de píxeles, lo que limita sus aplicaciones prácticas. Las tareas de evaluación actuales, como VQA y la localización visual, siguen siendo demasiado generales para evaluar con precisión la comprensión detallada a nivel de píxeles. Aunque la segmentación es fundamental para la comprensión a nivel de píxeles, los métodos existentes a menudo requieren que los MLLM generen tokens implícitos, decodificados a través de decodificadores de píxeles externos. Este enfoque interrumpe el espacio de salida de texto del MLLM, lo que podría comprometer las capacidades lingüísticas y reducir la flexibilidad y extensibilidad, sin reflejar la comprensión intrínseca del modelo a nivel de píxeles. Por lo tanto, presentamos la Tarea de Anotación de Máscara Similar a Humana (HLMAT), un nuevo paradigma en el que los MLLM imitan a los anotadores humanos utilizando herramientas de segmentación interactiva. Al modelar la segmentación como un Proceso de Decisión de Markov de múltiples pasos, HLMAT permite que los MLLM generen iterativamente puntos de clic basados en texto, logrando máscaras de alta calidad sin cambios arquitectónicos ni tokens implícitos. A través de esta configuración, desarrollamos SegAgent, un modelo ajustado en trayectorias de anotación similares a las humanas, que alcanza un rendimiento comparable a los métodos de vanguardia (SOTA) y admite tareas adicionales como el refinamiento de máscaras y el filtrado de anotaciones. HLMAT proporciona un protocolo para evaluar la comprensión detallada a nivel de píxeles en los MLLM e introduce una tarea de toma de decisiones de múltiples pasos centrada en la visión que facilita la exploración de las habilidades de razonamiento visual de los MLLM. Nuestras adaptaciones del método de mejora de políticas StaR y la búsqueda en árbol guiada por PRM mejoran aún más la robustez del modelo en tareas de segmentación complejas, sentando las bases para futuros avances en la percepción visual detallada y la toma de decisiones de múltiples pasos para los MLLM.

Generación de Videos Largos Multi-Eventos sin Ajuste mediante Muestreo Acoplado Sincronizado
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

Mar 11

BySubin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin

Si bien los avances recientes en los modelos de difusión de texto a video permiten la generación de videos cortos de alta calidad a partir de un solo prompt, generar videos largos del mundo real en una sola pasada sigue siendo un desafío debido a la limitación de datos y los altos costos computacionales. Para abordar esto, varios trabajos proponen enfoques sin ajuste, es decir, extender modelos existentes para la generación de videos largos, utilizando específicamente múltiples prompts para permitir cambios de contenido dinámicos y controlados. Sin embargo, estos métodos se centran principalmente en garantizar transiciones suaves entre fotogramas adyacentes, lo que a menudo conduce a una deriva de contenido y una pérdida gradual de coherencia semántica en secuencias más largas. Para abordar este problema, proponemos Synchronized Coupled Sampling (SynCoS), un marco de inferencia novedoso que sincroniza las rutas de eliminación de ruido en todo el video, asegurando una coherencia a largo plazo tanto en fotogramas adyacentes como distantes. Nuestro enfoque combina dos estrategias de muestreo complementarias: muestreo inverso y basado en optimización, que garantizan transiciones locales fluidas y refuerzan la coherencia global, respectivamente. Sin embargo, alternar directamente entre estos muestreos desalinea las trayectorias de eliminación de ruido, interrumpiendo la guía del prompt e introduciendo cambios de contenido no deseados, ya que operan de manera independiente. Para resolver esto, SynCoS los sincroniza mediante un paso de tiempo anclado y un ruido base fijo, asegurando un muestreo completamente acoplado con rutas de eliminación de ruido alineadas. Experimentos extensos muestran que SynCoS mejora significativamente la generación de videos largos con múltiples eventos, logrando transiciones más suaves y una coherencia a largo plazo superior, superando enfoques anteriores tanto cuantitativa como cualitativamente.

El razonamiento implícito en los Transformadores es razonamiento a través de atajos.
Implicit Reasoning in Transformers is Reasoning through Shortcuts

Mar 10

ByTianhe Lin, Jian Xie, Siyu Yuan, Deqing Yang

El cómputo en tiempo de prueba está surgiendo como un nuevo paradigma para mejorar las capacidades de razonamiento complejo de múltiples pasos en los modelos de lenguaje, como lo demuestran los éxitos de o1 y o3 de OpenAI, así como R1 de DeepSeek. En comparación con el razonamiento explícito en el cómputo en tiempo de prueba, el razonamiento implícito es más eficiente en inferencia, ya que requiere menos tokens generados. Sin embargo, ¿por qué no surge la capacidad avanzada de razonamiento en el estilo de razonamiento implícito? En este trabajo, entrenamos GPT-2 desde cero en un conjunto de datos curado de razonamiento matemático de múltiples pasos y realizamos experimentos analíticos para investigar cómo los modelos de lenguaje realizan razonamiento implícito en tareas de múltiples pasos. Nuestros hallazgos revelan: 1) Los modelos de lenguaje pueden realizar razonamiento paso a paso y alcanzar una alta precisión tanto en pruebas dentro del dominio como fuera del dominio mediante razonamiento implícito. Sin embargo, esta capacidad solo surge cuando se entrena con datos de patrones fijos. 2) Por el contrario, las habilidades de razonamiento implícito que surgen del entrenamiento con datos de patrones no fijos tienden a sobreajustarse a un patrón específico y no logran generalizar más allá. Notablemente, esta limitación también se observa en los modelos de lenguaje de última generación. Estos hallazgos sugieren que los modelos de lenguaje adquieren razonamiento implícito a través del aprendizaje de atajos, lo que les permite un rendimiento sólido en tareas con patrones similares, pero carecen de generalización.

LightGen: Generación eficiente de imágenes mediante destilación de conocimiento y optimización directa de preferencias
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

Mar 11

ByXianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim

Los avances recientes en la generación de texto a imagen se han basado principalmente en conjuntos de datos extensos y arquitecturas con un gran número de parámetros. Estos requisitos limitan severamente la accesibilidad para investigadores y profesionales que carecen de recursos computacionales sustanciales. En este artículo, presentamos \model, un paradigma de entrenamiento eficiente para modelos de generación de imágenes que utiliza la destilación de conocimiento (KD, por sus siglas en inglés) y la Optimización Directa de Preferencias (DPO). Inspirándonos en el éxito de las técnicas de KD de datos ampliamente adoptadas en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), LightGen destila conocimiento de modelos de texto a imagen de última generación (SOTA) en una arquitectura Autoregresiva Enmascarada (MAR) compacta con solo 0.7 mil millones de parámetros. Utilizando un conjunto de datos sintético compacto de solo 2 millones de imágenes de alta calidad generadas a partir de variados textos descriptivos, demostramos que la diversidad de datos supera significativamente el volumen de datos en la determinación del rendimiento del modelo. Esta estrategia reduce drásticamente las demandas computacionales y disminuye el tiempo de pre-entrenamiento de potencialmente miles de días-GPU a apenas 88 días-GPU. Además, para abordar las limitaciones inherentes de los datos sintéticos, particularmente los detalles de alta frecuencia deficientes y las inexactitudes espaciales, integramos la técnica DPO que refina la fidelidad de la imagen y la precisión posicional. Experimentos exhaustivos confirman que LightGen logra una calidad de generación de imágenes comparable a los modelos SOTA, mientras reduce significativamente los recursos computacionales y amplía la accesibilidad en entornos con recursos limitados. El código está disponible en https://github.com/XianfengWu01/LightGen.

OmniMamba: Comprensión y Generación Multimodal Eficiente y Unificada mediante Modelos de Espacio de Estados
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

Mar 11

ByJialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang

Los recientes avances en los modelos de comprensión multimodal unificada y generación visual (o generación multimodal) se han visto obstaculizados por su complejidad computacional cuadrática y su dependencia de datos de entrenamiento a gran escala. Presentamos OmniMamba, el primer modelo de generación multimodal basado en una arquitectura lineal que genera tanto texto como imágenes a través de un paradigma unificado de predicción del siguiente token. El modelo aprovecha al máximo la alta eficiencia computacional y de memoria de Mamba-2, extendiendo sus capacidades desde la generación de texto hasta la generación multimodal. Para abordar la ineficiencia de datos de los modelos unificados existentes, proponemos dos innovaciones clave: (1) vocabularios desacoplados para guiar la generación específica de cada modalidad, y (2) LoRA específico de tareas para una adaptación eficiente en parámetros. Además, introducimos una estrategia de entrenamiento en dos etapas desacopladas para mitigar el desequilibrio de datos entre las dos tareas. Equipado con estas técnicas, OmniMamba logra un rendimiento competitivo con JanusFlow mientras supera a Show-o en diversos benchmarks, a pesar de haber sido entrenado con solo 2 millones de pares de imagen-texto, lo que es 1,000 veces menos que Show-o. Cabe destacar que OmniMamba sobresale con una eficiencia de inferencia excepcional, logrando una aceleración de hasta 119.2 veces y una reducción del 63% en la memoria de GPU para la generación de secuencias largas en comparación con los modelos basados en Transformer. El código y los modelos están disponibles en https://github.com/hustvl/OmniMamba.

Explotación de Recuperadores de Información Basados en Instrucciones para la Obtención de Información Maliciosa
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

Mar 11

ByParishad BehnamGhader, Nicholas Meade, Siva Reddy

Los recuperadores que siguen instrucciones han sido ampliamente adoptados junto con los LLMs en aplicaciones del mundo real, pero se ha investigado poco sobre los riesgos de seguridad relacionados con sus capacidades de búsqueda cada vez mayores. Estudiamos empíricamente la capacidad de los recuperadores para satisfacer consultas maliciosas, tanto cuando se usan directamente como cuando se utilizan en una configuración basada en generación aumentada por recuperación. Concretamente, investigamos seis recuperadores líderes, incluyendo NV-Embed y LLM2Vec, y encontramos que, ante solicitudes maliciosas, la mayoría de los recuperadores pueden (para >50% de las consultas) seleccionar pasajes relevantes y dañinos. Por ejemplo, LLM2Vec selecciona correctamente pasajes para el 61.35% de nuestras consultas maliciosas. Además, descubrimos un riesgo emergente con los recuperadores que siguen instrucciones, donde información altamente relevante y dañina puede ser resaltada al explotar sus capacidades de seguimiento de instrucciones. Finalmente, demostramos que incluso LLMs alineados con la seguridad, como Llama3, pueden satisfacer solicitudes maliciosas cuando se les proporcionan pasajes recuperados dañinos en contexto. En resumen, nuestros hallazgos subrayan los riesgos de uso malicioso asociados con el aumento de la capacidad de los recuperadores.

LocAgent: Agentes de LLM Guiados por Grafos para la Localización de Código
LocAgent: Graph-Guided LLM Agents for Code Localization

Mar 12

ByZhaoling Chen, Xiangru Tang, Gangda Deng, Fang Wu, Jialong Wu, Zhiwei Jiang, Viktor Prasanna, Arman Cohan, Xingyao Wang

La localización de código—identificar con precisión dónde en una base de código se deben realizar cambios—es una tarea fundamental pero desafiante en el mantenimiento de software. Los enfoques existentes tienen dificultades para navegar eficientemente bases de código complejas al identificar secciones de código relevantes. El desafío radica en conectar descripciones de problemas en lenguaje natural con los elementos de código apropiados, lo que a menudo requiere razonamiento a través de estructuras jerárquicas y múltiples dependencias. Presentamos LocAgent, un marco que aborda la localización de código mediante representaciones basadas en grafos. Al analizar bases de código en grafos dirigidos heterogéneos, LocAgent crea una representación ligera que captura las estructuras del código (archivos, clases, funciones) y sus dependencias (importaciones, invocaciones, herencia), permitiendo que los agentes de LLM busquen y localicen entidades relevantes de manera efectiva a través de un potente razonamiento multi-salto. Los resultados experimentales en benchmarks del mundo real demuestran que nuestro enfoque mejora significativamente la precisión en la localización de código. En particular, nuestro método con el modelo ajustado Qwen-2.5-Coder-Instruct-32B logra resultados comparables a los modelos propietarios de vanguardia (SOTA) a un costo considerablemente reducido (aproximadamente un 86% menos), alcanzando hasta un 92.7% de precisión en la localización a nivel de archivo, mientras mejora las tasas de éxito en la resolución de problemas de GitHub en un 12% para múltiples intentos (Pass@10). Nuestro código está disponible en https://github.com/gersteinlab/LocAgent.

Memoria Nativa de IA 2.0: Segundo Yo
AI-native Memory 2.0: Second Me

Mar 11

ByJiale Wei, Xiang Ying, Tao Gao, Felix Tao, Jingbo Shang

La interacción humana con el mundo externo implica fundamentalmente el intercambio de memoria personal, ya sea con otros individuos, sitios web, aplicaciones o, en el futuro, agentes de IA. Una parte significativa de esta interacción es redundante, ya que requiere que los usuarios proporcionen repetidamente la misma información en diferentes contextos. Las soluciones existentes, como las credenciales almacenadas en el navegador, los mecanismos de autocompletado y los sistemas de autenticación unificada, han intentado mitigar esta redundancia actuando como intermediarios que almacenan y recuperan datos de usuario comúnmente utilizados. El surgimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) presenta una oportunidad para redefinir la gestión de la memoria a través de un paradigma nativo de IA: SECOND ME. SECOND ME actúa como un sistema inteligente y persistente de descarga de memoria que retiene, organiza y utiliza dinámicamente el conocimiento específico del usuario. Al servir como intermediario en las interacciones del usuario, puede generar respuestas conscientes del contexto de manera autónoma, prellenar información requerida y facilitar una comunicación fluida con sistemas externos, reduciendo significativamente la carga cognitiva y la fricción en la interacción. A diferencia de las soluciones tradicionales de almacenamiento de memoria, SECOND ME va más allá de la retención estática de datos al aprovechar la parametrización de memoria basada en LLMs. Esto permite una organización estructurada, razonamiento contextual y recuperación adaptativa de conocimiento, facilitando un enfoque más sistemático e inteligente para la gestión de la memoria. A medida que los agentes personales impulsados por IA, como SECOND ME, se integran cada vez más en los ecosistemas digitales, SECOND ME representa un paso crítico hacia la mejora de la interacción humano-mundo con sistemas de memoria persistentes, conscientes del contexto y autooptimizables. Hemos publicado el sistema de implementación completamente localizable en GitHub: https://github.com/Mindverse/Second-Me.

"Componentes Principales" Habilitan un Nuevo Lenguaje de Imágenes
"Principal Components" Enable A New Language of Images

Mar 11

ByXin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi

Presentamos un novedoso marco de tokenización visual que incorpora una estructura demostrable similar al PCA en el espacio latente de tokens. Mientras que los tokenizadores visuales existentes se centran principalmente en optimizar la fidelidad de reconstrucción, a menudo descuidan las propiedades estructurales del espacio latente, un factor crítico tanto para la interpretabilidad como para las tareas posteriores. Nuestro método genera una secuencia causal de tokens 1D para imágenes, donde cada token sucesivo aporta información no superpuesta con una varianza explicada decreciente garantizada matemáticamente, análoga al análisis de componentes principales. Esta restricción estructural asegura que el tokenizador extraiga primero las características visuales más destacadas, con cada token subsiguiente añadiendo información complementaria pero decreciente. Además, identificamos y resolvimos un efecto de acoplamiento espectro-semántico que causa el entrelazamiento no deseado de contenido semántico de alto nivel y detalles espectrales de bajo nivel en los tokens, mediante el uso de un decodificador de difusión. Los experimentos demuestran que nuestro enfoque logra un rendimiento de reconstrucción de vanguardia y permite una mejor interpretabilidad alineada con el sistema visual humano. Además, los modelos auto-regresivos entrenados en nuestras secuencias de tokens alcanzan un rendimiento comparable a los métodos actuales más avanzados, mientras que requieren menos tokens para el entrenamiento y la inferencia.

Conjunto de datos Robusto-1: Comparación entre humanos y modelos de lenguaje visual en preguntas y respuestas visuales de conducción autónoma fuera de distribución en Perú
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

Mar 10

ByDunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza

A medida que los modelos fundacionales multimodales comienzan a implementarse experimentalmente en vehículos autónomos, una pregunta razonable que nos hacemos es cuán similares son estas respuestas a las de los humanos en ciertas situaciones de conducción, especialmente aquellas que están fuera de distribución. Para estudiar esto, creamos el conjunto de datos Robusto-1, que utiliza datos de video de cámaras de tablero de Perú, un país con uno de los conductores más agresivos del mundo, un alto índice de tráfico y una proporción elevada de objetos callejeros extraños en comparación con los comunes, que probablemente nunca se hayan visto durante el entrenamiento. En particular, para probar preliminarmente a nivel cognitivo qué tan bien se comparan los Modelos de Lenguaje Visual Fundacionales (VLMs) con los humanos en la conducción, nos alejamos de los cuadros delimitadores, mapas de segmentación, mapas de ocupación o estimación de trayectorias, y nos enfocamos en la Respuesta Visual a Preguntas (VQA) multimodal, comparando tanto a humanos como a máquinas mediante un método popular en neurociencia de sistemas conocido como Análisis de Similitud Representacional (RSA). Dependiendo del tipo de preguntas que hagamos y las respuestas que den estos sistemas, mostraremos en qué casos los VLMs y los humanos convergen o divergen, lo que nos permitirá explorar su alineación cognitiva. Encontramos que el grado de alineación varía significativamente según el tipo de preguntas que se hagan a cada tipo de sistema (humanos vs. VLMs), destacando una brecha en su alineación.

VisualSimpleQA: Un punto de referencia para la evaluación desacoplada de modelos grandes de visión y lenguaje en la respuesta a preguntas de búsqueda de hechos
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

Mar 9

ByYanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu

Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés) han demostrado logros notables, aunque la generación de respuestas no factuales sigue siendo prevalente en tareas de búsqueda de hechos (QA). Los benchmarks multimodales actuales para la búsqueda de hechos se centran principalmente en comparar las salidas de los modelos con respuestas de referencia, ofreciendo información limitada sobre el rendimiento de los módulos específicos de cada modalidad. Para cerrar esta brecha, presentamos VisualSimpleQA, un benchmark multimodal de búsqueda de hechos con dos características clave. En primer lugar, permite una evaluación simplificada y desacoplada de los LVLMs en las modalidades visual y lingüística. En segundo lugar, incorpora criterios de dificultad bien definidos para guiar la anotación humana y facilita la extracción de un subconjunto desafiante, VisualSimpleQA-hard. Los experimentos con 15 LVLMs muestran que incluso modelos de última generación como GPT-4o alcanzan apenas un 60%+ de precisión en tareas multimodales de búsqueda de hechos en VisualSimpleQA y un 30%+ en VisualSimpleQA-hard. Además, la evaluación desacoplada en estos modelos resalta oportunidades significativas de mejora tanto en los módulos visuales como en los lingüísticos. El conjunto de datos está disponible en https://huggingface.co/datasets/WYLing/VisualSimpleQA.

CineBrain: Un conjunto de datos cerebrales multimodal a gran escala durante el procesamiento de narrativas audiovisuales naturalistas
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing

Mar 10

ByJianxiong Gao, Yichang Liu, Baofeng Yang, Jianfeng Feng, Yanwei Fu

En este artículo, presentamos CineBrain, el primer conjunto de datos a gran escala que incluye registros simultáneos de EEG y fMRI durante la estimulación audiovisual dinámica. Reconociendo las fortalezas complementarias de la alta resolución temporal del EEG y la cobertura espacial profunda del fMRI, CineBrain proporciona aproximadamente seis horas de contenido narrativo de la popular serie de televisión The Big Bang Theory para cada uno de los seis participantes. Basándonos en este conjunto de datos único, proponemos CineSync, un marco innovador de decodificación multimodal que integra un Codificador de Fusión Multimodal con un Decodificador de Latentes Neuronales basado en difusión. Nuestro enfoque fusiona eficazmente las señales de EEG y fMRI, mejorando significativamente la calidad de la reconstrucción de estímulos audiovisuales complejos. Para facilitar una evaluación rigurosa, introducimos Cine-Benchmark, un protocolo de evaluación integral que valora las reconstrucciones en dimensiones semánticas y perceptivas. Los resultados experimentales demuestran que CineSync alcanza un rendimiento de reconstrucción de video de vanguardia y destacan nuestro éxito inicial en la combinación de fMRI y EEG para reconstruir tanto estímulos de video como de audio. Página del proyecto: https://jianxgao.github.io/CineBrain.

Evaluación Comparativa de Modelos de IA en Ingeniería de Software: Una Revisión, Herramienta de Búsqueda y Protocolo de Mejora
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol

Mar 7

ByRoham Koohestani, Philippe de Bekker, Maliheh Izadi

Los puntos de referencia (benchmarks) son esenciales para una evaluación consistente y la reproducibilidad. La integración de la Inteligencia Artificial en la Ingeniería de Software (IA4SE) ha dado lugar a numerosos benchmarks para tareas como la generación de código y la corrección de errores. Sin embargo, este auge presenta desafíos: (1) conocimiento disperso de los benchmarks entre tareas, (2) dificultad para seleccionar benchmarks relevantes, (3) ausencia de un estándar uniforme para el desarrollo de benchmarks, y (4) limitaciones de los benchmarks existentes. En este artículo, revisamos 173 estudios e identificamos 204 benchmarks de IA4SE. Clasificamos estos benchmarks, analizamos sus limitaciones y exponemos brechas en las prácticas. Basándonos en nuestra revisión, creamos BenchScout, una herramienta de búsqueda semántica para encontrar benchmarks relevantes, utilizando agrupación automática de los contextos de los estudios asociados. Realizamos un estudio de usuario con 22 participantes para evaluar la usabilidad, efectividad e intuición de BenchScout, obteniendo puntuaciones promedio de 4.5, 4.0 y 4.1 sobre 5. Para avanzar en los estándares de benchmarking, proponemos BenchFrame, un método unificado para mejorar la calidad de los benchmarks. Como estudio de caso, aplicamos BenchFrame al benchmark HumanEval y abordamos sus principales limitaciones. Esto resultó en HumanEvalNext, que incluye (1) errores corregidos, (2) conversión de lenguaje mejorada, (3) cobertura de pruebas ampliada y (4) mayor dificultad. Luego, evaluamos diez modelos de lenguaje de código de última generación en HumanEval, HumanEvalPlus y HumanEvalNext. En HumanEvalNext, los modelos mostraron una reducción en la puntuación pass@1 del 31.22% y 19.94% en comparación con HumanEval y HumanEvalPlus, respectivamente.

Mezcla de Expertos Hecha Intrínsecamente Interpretable
Mixture of Experts Made Intrinsically Interpretable

Mar 5

ByXingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr

Las neuronas en los modelos de lenguaje de gran escala a menudo exhiben polisemanticidad, codificando simultáneamente múltiples conceptos no relacionados y oscureciendo la interpretabilidad. En lugar de depender de métodos post-hoc, presentamos MoE-X, un modelo de lenguaje de Mezcla de Expertos (MoE, por sus siglas en inglés) diseñado para ser intrínsecamente interpretable. Nuestro enfoque se basa en la observación de que, en los modelos de lenguaje, las redes más amplias con activaciones dispersas tienen más probabilidades de capturar factores interpretables. Sin embargo, entrenar directamente redes dispersas tan grandes es computacionalmente prohibitivo. Las arquitecturas MoE ofrecen una alternativa escalable al activar solo un subconjunto de expertos para cualquier entrada dada, alineándose inherentemente con los objetivos de interpretabilidad. En MoE-X, establecemos esta conexión reformulando la capa MoE como un MLP disperso y grande equivalente. Este enfoque permite escalar eficientemente el tamaño oculto mientras se mantiene la dispersión. Para mejorar aún más la interpretabilidad, aplicamos activaciones dispersas dentro de cada experto y rediseñamos el mecanismo de enrutamiento para priorizar a los expertos con la mayor dispersión de activación. Estos diseños aseguran que solo las características más destacadas sean enrutadas y procesadas por los expertos. Evaluamos MoE-X en tareas de ajedrez y lenguaje natural, demostrando que logra un rendimiento comparable a los modelos densos mientras mejora significativamente la interpretabilidad. MoE-X alcanza una perplejidad mejor que GPT-2, con una interpretabilidad que supera incluso a los enfoques basados en autoencodificadores dispersos (SAE).

^RFLAV: Ajuste de flujo continuo para la generación infinita de audio y video
^RFLAV: Rolling Flow matching for infinite Audio Video generation

Mar 11

ByAlex Ergasti, Giuseppe Gabriele Tarollo, Filippo Botti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati

La generación conjunta de audio y video (AV) sigue siendo un desafío significativo en la inteligencia artificial generativa, principalmente debido a tres requisitos críticos: la calidad de las muestras generadas, la sincronización multimodal fluida y la coherencia temporal, con pistas de audio que coincidan con los datos visuales y viceversa, y una duración ilimitada del video. En este artículo, presentamos , una arquitectura novedosa basada en transformadores que aborda todos los desafíos clave de la generación AV. Exploramos tres módulos distintos de interacción entre modalidades, con nuestro módulo de fusión temporal ligero emergiendo como el enfoque más efectivo y computacionalmente eficiente para alinear las modalidades de audio y visuales. Nuestros resultados experimentales demuestran que supera a los modelos más avanzados existentes en tareas de generación multimodal AV. Nuestro código y puntos de control están disponibles en https://github.com/ErgastiAlex/R-FLAV.

AnyMoLe: Interpolación de Movimientos para Cualquier Personaje Aprovechando Modelos de Difusión de Vídeo
AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models

Mar 11

ByKwan Yun, Seokhyeon Hong, Chaelin Kim, Junyong Noh

A pesar de los recientes avances en la interpolación de movimiento basada en aprendizaje, se ha pasado por alto una limitación clave: la necesidad de conjuntos de datos específicos para cada personaje. En este trabajo, presentamos AnyMoLe, un método novedoso que aborda esta limitación al aprovechar modelos de difusión de video para generar fotogramas intermedios de movimiento para personajes arbitrarios sin necesidad de datos externos. Nuestro enfoque emplea un proceso de generación de fotogramas en dos etapas para mejorar la comprensión contextual. Además, para cerrar la brecha de dominio entre las animaciones de personajes del mundo real y las renderizadas, introducimos ICAdapt, una técnica de ajuste fino para modelos de difusión de video. Adicionalmente, proponemos una técnica de optimización de "imitación de movimiento-video", que permite la generación fluida de movimiento para personajes con estructuras articulares arbitrarias utilizando características 2D y 3D. AnyMoLe reduce significativamente la dependencia de datos mientras genera transiciones suaves y realistas, lo que lo hace aplicable a una amplia gama de tareas de interpolación de movimiento.

BiasEdit: Eliminación de sesgos en modelos de lenguaje estereotipados mediante edición del modelo
BiasEdit: Debiasing Stereotyped Language Models via Model Editing

Mar 11

ByXin Xu, Wei Xu, Ningyu Zhang, Julian McAuley

Estudios previos han establecido que los modelos de lenguaje manifiestan sesgos estereotipados. Las estrategias existentes para mitigar estos sesgos, como reentrenar un modelo con datos contrafactuales, proyección de representaciones y técnicas de prompting, a menudo no logran eliminar eficientemente los sesgos o alterar directamente las representaciones sesgadas internas de los modelos. Para abordar estos problemas, proponemos BiasEdit, un método eficiente de edición de modelos que elimina los sesgos estereotipados de los modelos de lenguaje mediante redes ligeras que actúan como editores para generar actualizaciones de parámetros. BiasEdit emplea una función de pérdida de desviación que guía a las redes editoras para realizar ediciones locales en parámetros parciales de un modelo de lenguaje con el fin de mitigar los sesgos, mientras preserva las capacidades de modelado del lenguaje durante la edición mediante una función de pérdida de retención. Los experimentos en StereoSet y Crows-Pairs demuestran la efectividad, eficiencia y robustez de BiasEdit en la eliminación de sesgos en comparación con líneas base tangenciales de mitigación de sesgos, y muestran un impacto mínimo o nulo en las capacidades generales de los modelos de lenguaje. Además, realizamos un rastreo de sesgos para explorar la presencia de sesgos en varios módulos y estudiamos los impactos de la edición de sesgos en diferentes componentes de los modelos de lenguaje.

Refiriéndose a Cualquier Persona
Referring to Any Person

Mar 11

ByQing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang

Los seres humanos son, sin duda, los participantes más importantes en la visión por computadora, y la capacidad de detectar a cualquier individuo dada una descripción en lenguaje natural, una tarea que definimos como referirse a cualquier persona, tiene un valor práctico sustancial. Sin embargo, observamos que los modelos existentes generalmente no logran alcanzar una usabilidad en el mundo real, y los puntos de referencia actuales están limitados por su enfoque en referencias uno a uno, lo que obstaculiza el progreso en esta área. En este trabajo, revisitamos esta tarea desde tres perspectivas críticas: definición de la tarea, diseño del conjunto de datos y arquitectura del modelo. Primero, identificamos cinco aspectos de las entidades referenciables y tres características distintivas de esta tarea. A continuación, presentamos HumanRef, un nuevo conjunto de datos diseñado para abordar estos desafíos y reflejar mejor las aplicaciones del mundo real. Desde una perspectiva de diseño de modelos, integramos un modelo de lenguaje multimodal con un marco de detección de objetos, construyendo un modelo robusto de referencia llamado RexSeek. Los resultados experimentales revelan que los modelos de última generación, que funcionan bien en puntos de referencia comúnmente utilizados como RefCOCO/+/g, tienen dificultades con HumanRef debido a su incapacidad para detectar múltiples individuos. En contraste, RexSeek no solo sobresale en la referencia humana, sino que también generaliza eficazmente a la referencia de objetos comunes, lo que lo hace ampliamente aplicable en diversas tareas de percepción. El código está disponible en https://github.com/IDEA-Research/RexSeek.

Más allá de los modelos solo-decodificador: Los modelos de lenguaje grandes pueden ser buenos codificadores para la traducción automática
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

Mar 9

ByYingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu

El campo de la traducción automática neuronal (NMT, por sus siglas en inglés) ha evolucionado con la llegada de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Gran parte del enfoque reciente en el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) se ha centrado en modelar la traducción automática y muchos otros problemas utilizando un único decodificador Transformer preentrenado, mientras que las arquitecturas codificador-decodificador, que eran estándar en los modelos NMT anteriores, han recibido relativamente menos atención. En este artículo, exploramos modelos de traducción que son universales, eficientes y fáciles de optimizar, combinando el mundo de los LLMs con el mundo de la NMT. Aplicamos los LLMs a la codificación de la NMT y dejamos el decodificador de la NMT sin cambios. También desarrollamos métodos para adaptar los LLMs para que funcionen mejor con el decodificador de la NMT. Además, construimos un nuevo conjunto de datos que incluye múltiples tareas para evaluar cómo el sistema de traducción automática generaliza en diversas tareas. Las evaluaciones en los conjuntos de datos WMT y los nuestros muestran que los resultados utilizando nuestro método igualan o superan una variedad de líneas base en términos de calidad de traducción, pero logran aceleraciones en la inferencia de 2.4 a 6.5 veces y una reducción del 75% en la huella de memoria de la caché KV. También demuestra una fuerte generalización en una variedad de tareas relacionadas con la traducción.

Emparejamiento Inductivo de Momentos
Inductive Moment Matching

Mar 10

ByLinqi Zhou, Stefano Ermon, Jiaming Song

Los modelos de difusión y Flow Matching generan muestras de alta calidad pero son lentos en la inferencia, y su destilación en modelos de pocos pasos a menudo conduce a inestabilidad y ajustes extensos. Para resolver estos compromisos, proponemos Inductive Moment Matching (IMM), una nueva clase de modelos generativos para muestreo en uno o pocos pasos con un procedimiento de entrenamiento de una sola etapa. A diferencia de la destilación, IMM no requiere inicialización mediante preentrenamiento ni optimización de dos redes; y a diferencia de los Consistency Models, IMM garantiza convergencia a nivel de distribución y se mantiene estable bajo diversos hiperparámetros y arquitecturas de modelos estándar. IMM supera a los modelos de difusión en ImageNet-256x256 con un FID de 1.99 utilizando solo 8 pasos de inferencia y logra un FID de 2 pasos de 1.98 en CIFAR-10, estableciendo un nuevo estado del arte para un modelo entrenado desde cero.

Trampa de la Perplejidad: Los Recuperadores Basados en Modelos de Lenguaje Sobrevaloran Documentos con Baja Perplejidad
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

Mar 11

ByHaoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen

Estudios previos han encontrado que los modelos de recuperación basados en PLM (Modelos de Lenguaje Preentrenados) muestran una preferencia por el contenido generado por LLM (Modelos de Lenguaje de Gran Escala), asignando puntuaciones de relevancia más altas a estos documentos incluso cuando su calidad semántica es comparable a la de los escritos por humanos. Este fenómeno, conocido como sesgo de fuente, amenaza el desarrollo sostenible del ecosistema de acceso a la información. Sin embargo, las causas subyacentes del sesgo de fuente permanecen sin explorar. En este artículo, explicamos el proceso de recuperación de información mediante un gráfico causal y descubrimos que los recuperadores basados en PLM aprenden características de perplejidad para la estimación de relevancia, lo que provoca el sesgo de fuente al clasificar más alto los documentos con baja perplejidad. Un análisis teórico revela además que el fenómeno surge de la correlación positiva entre los gradientes de las funciones de pérdida en la tarea de modelado del lenguaje y la tarea de recuperación. Basándonos en este análisis, se propone un método de eliminación de sesgo en tiempo de inferencia inspirado en la causalidad, llamado Diagnóstico y Corrección Causal (CDC, por sus siglas en inglés). CDC primero diagnostica el efecto del sesgo de la perplejidad y luego separa este efecto de la puntuación de relevancia estimada en general. Los resultados experimentales en tres dominios demuestran la superior efectividad de CDC en la eliminación de sesgos, destacando la validez de nuestro marco explicativo propuesto. Los códigos fuente están disponibles en https://github.com/WhyDwelledOnAi/Perplexity-Trap.

ObjectMover: Generación de movimiento de objetos con prior de video
ObjectMover: Generative Object Movement with Video Prior

Mar 11

ByXin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi

Por simple que parezca, mover un objeto a otra ubicación dentro de una imagen es, de hecho, una tarea desafiante de edición de imágenes que requiere rearmonizar la iluminación, ajustar la pose según la perspectiva, rellenar con precisión las regiones ocluidas y garantizar una sincronización coherente de sombras y reflejos, todo ello manteniendo la identidad del objeto. En este artículo, presentamos ObjectMover, un modelo generativo capaz de realizar movimientos de objetos en escenas altamente complejas. Nuestra idea clave es modelar esta tarea como un problema de secuencia a secuencia y ajustar un modelo de generación de videos para aprovechar su conocimiento sobre la generación consistente de objetos a lo largo de los fotogramas. Demostramos que, con este enfoque, nuestro modelo es capaz de adaptarse a escenarios del mundo real complejos, manejando la armonización de iluminaciones extremas y el movimiento de efectos de objetos. Dado que no existen datos a gran escala para el movimiento de objetos, construimos una pipeline de generación de datos utilizando un motor de juegos moderno para sintetizar pares de datos de alta calidad. Además, proponemos una estrategia de aprendizaje multitarea que permite entrenar con datos de videos del mundo real para mejorar la generalización del modelo. A través de experimentos exhaustivos, demostramos que ObjectMover obtiene resultados sobresalientes y se adapta bien a escenarios del mundo real.

RayFlow: Aceleración de Difusión Consciente de Instancias mediante Trayectorias de Flujo Adaptativas
RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories

Mar 10

ByHuiyang Shao, Xin Xia, Yuhong Yang, Yuxi Ren, Xing Wang, Xuefeng Xiao

Los modelos de difusión han logrado un éxito notable en diversos dominios. Sin embargo, su lenta velocidad de generación sigue siendo un desafío crítico. Los métodos de aceleración existentes, aunque buscan reducir los pasos, a menudo comprometen la calidad de las muestras, la controlabilidad o introducen complejidades en el entrenamiento. Por lo tanto, proponemos RayFlow, un marco de difusión novedoso que aborda estas limitaciones. A diferencia de métodos anteriores, RayFlow guía cada muestra a lo largo de una ruta única hacia una distribución objetivo específica de la instancia. Este método minimiza los pasos de muestreo mientras preserva la diversidad y estabilidad en la generación. Además, introducimos Time Sampler, una técnica de muestreo por importancia para mejorar la eficiencia del entrenamiento al enfocarse en los pasos de tiempo cruciales. Experimentos extensos demuestran la superioridad de RayFlow en la generación de imágenes de alta calidad con una velocidad mejorada, mayor control y eficiencia en el entrenamiento en comparación con las técnicas de aceleración existentes.

Inferencia Consciente de la Capacidad: Mitigando el Efecto del Rezagado en Mezclas de Expertos
Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

Mar 7

ByShwai He, Weilin Cai, Jiayi Huang, Ang Li

La Mezcla de Expertos (MoE, por sus siglas en inglés) es una arquitectura efectiva para escalar modelos de lenguaje grandes al aprovechar la activación dispersa de expertos, optimizando el equilibrio entre rendimiento y eficiencia. Sin embargo, bajo el paralelismo de expertos, MoE sufre ineficiencias en la inferencia debido a una asignación desequilibrada de tokens a expertos, donde algunos expertos están sobrecargados mientras que otros permanecen subutilizados. Este desequilibrio conduce a una mala utilización de recursos y a un aumento de la latencia, ya que el experto más cargado dicta el retraso general, un fenómeno que definimos como el \textit{Efecto Rezagado}. Para mitigar esto, proponemos Inferencia Consciente de la Capacidad, que incluye dos técnicas clave: (1) \textit{Descarte de Tokens Consciente de la Capacidad}, que descarta tokens sobrecargados para regular la latencia máxima de MoE, y (2) \textit{Redirección de Tokens Consciente de la Capacidad}, que reasigna tokens desbordados a expertos subutilizados, equilibrando la distribución de tokens. Estas técnicas optimizan colectivamente la utilización tanto de expertos con alta carga como con baja carga, lo que resulta en una canalización de inferencia de MoE más eficiente. Experimentos extensos demuestran la efectividad de nuestros métodos, mostrando mejoras significativas en la eficiencia de inferencia, por ejemplo, un aumento promedio del 0.2\% en el rendimiento y una aceleración de 1.94 veces en la inferencia en Mixtral-8x7B-Instruct.

QuoTA: Asignación de Tokens Orientada a Consultas mediante Desacoplamiento de Consultas CoT para la Comprensión de Videos Largos
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

Mar 11

ByYongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji

Los avances recientes en la comprensión de videos largos suelen mitigar la redundancia visual mediante la poda de tokens visuales basada en la distribución de atención. Sin embargo, aunque los métodos existentes emplean la poda de tokens de baja respuesta a posteriori en las capas del decodificador, pasan por alto la correlación semántica a nivel de entrada entre los tokens visuales y las instrucciones (consulta). En este artículo, proponemos QuoTA, un módulo de entrenamiento libre a priori que extiende los modelos grandes de video-lenguaje (LVLM) existentes para la asignación de tokens visuales basada en la evaluación de importancia a nivel de fotogramas orientada a la consulta. La selección de tokens orientada a la consulta es crucial, ya que alinea el procesamiento visual con los requisitos específicos de la tarea, optimizando la utilización del presupuesto de tokens mientras preserva el contenido semánticamente relevante. Específicamente, (i) QuoTA asigna estratégicamente puntuaciones de importancia a nivel de fotogramas basadas en la relevancia de la consulta, permitiendo la asignación de tokens visuales de una sola vez antes de las interacciones multimodales en las capas del decodificador, (ii) desacoplamos la consulta mediante el razonamiento de Cadena de Pensamientos para facilitar una puntuación de importancia de fotogramas más precisa basada en LVLM, y (iii) QuoTA ofrece una funcionalidad plug-and-play que se extiende a los LVLM existentes. Los resultados experimentales extensivos demuestran que la implementación de QuoTA con LLaVA-Video-7B produce una mejora promedio del rendimiento del 3.2% en seis benchmarks (incluyendo Video-MME y MLVU) mientras opera dentro de un presupuesto idéntico de tokens visuales que la línea base. Los códigos están disponibles en https://github.com/MAC-AutoML/QuoTA.

Colapso de los Recuperadores Densos: Sesgos Cortos, Tempranos y Literales Superando la Evidencia Factual
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

Mar 6

ByMohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng

Los modelos de recuperación densa se utilizan comúnmente en aplicaciones de Recuperación de Información (IR), como la Generación Aumentada por Recuperación (RAG). Dado que a menudo sirven como el primer paso en estos sistemas, su robustez es crucial para evitar fallos. En este trabajo, al reutilizar un conjunto de datos de extracción de relaciones (por ejemplo, Re-DocRED), diseñamos experimentos controlados para cuantificar el impacto de sesgos heurísticos, como favorecer documentos más cortos, en recuperadores como Dragon+ y Contriever. Nuestros hallazgos revelan vulnerabilidades significativas: los recuperadores a menudo dependen de patrones superficiales como priorizar en exceso los inicios de los documentos, documentos más cortos, entidades repetidas y coincidencias literales. Además, tienden a pasar por alto si el documento contiene la respuesta a la consulta, careciendo de una comprensión semántica profunda. Notablemente, cuando se combinan múltiples sesgos, los modelos exhiben una degradación catastrófica en el rendimiento, seleccionando el documento que contiene la respuesta en menos del 3% de los casos sobre un documento sesgado sin la respuesta. Además, demostramos que estos sesgos tienen consecuencias directas para aplicaciones posteriores como RAG, donde los documentos preferidos por el recuperador pueden engañar a los LLMs, resultando en una caída del 34% en el rendimiento en comparación con no proporcionar ningún documento.

Evaluación de la Inteligencia mediante Ensayo y Error
Evaluating Intelligence via Trial and Error

Feb 26

ByJingtao Zhan, Jiahao Zhao, Jiayu Li, Yiqun Liu, Bo Zhang, Qingyao Ai, Jiaxin Mao, Hongning Wang, Min Zhang, Shaoping Ma

La inteligencia es un rasgo crucial para que las especies encuentren soluciones dentro de un número limitado de intentos de prueba y error. Basándonos en esta idea, presentamos el Juego de Supervivencia como un marco para evaluar la inteligencia en función del número de intentos fallidos en un proceso de prueba y error. Menos fallos indican una mayor inteligencia. Cuando tanto la expectativa como la varianza del número de fallos son finitas, esto señala la capacidad de encontrar consistentemente soluciones a nuevos desafíos, lo que definimos como el Nivel Autónomo de inteligencia. Utilizando el Juego de Supervivencia, evaluamos exhaustivamente los sistemas de IA existentes. Nuestros resultados muestran que, aunque los sistemas de IA alcanzan el Nivel Autónomo en tareas simples, todavía están lejos de lograrlo en tareas más complejas, como la visión, la búsqueda, la recomendación y el lenguaje. Si bien escalar las tecnologías actuales de IA podría ayudar, esto tendría un costo astronómico. Las proyecciones sugieren que alcanzar el Nivel Autónomo para tareas generales requeriría 10^{26} parámetros. Para poner esto en perspectiva, cargar un modelo tan masivo requiere tantas GPUs H100 que su valor total es 10^{7} veces el valor de mercado de Apple Inc. Incluso con la Ley de Moore, soportar una escala de parámetros tan grande tomaría 70 años. Este costo asombroso resalta la complejidad de las tareas humanas y las insuficiencias de las tecnologías actuales de IA. Para investigar más a fondo este fenómeno, realizamos un análisis teórico del Juego de Supervivencia y sus resultados experimentales. Nuestros hallazgos sugieren que las tareas humanas poseen una propiedad de criticidad. Como resultado, el Nivel Autónomo requiere una comprensión profunda de los mecanismos subyacentes de la tarea. Sin embargo, los sistemas de IA actuales no comprenden completamente estos mecanismos y, en su lugar, dependen de una imitación superficial, lo que les dificulta alcanzar un nivel autónomo. Creemos que el Juego de Supervivencia no solo puede guiar el desarrollo futuro de la IA, sino también ofrecer profundas perspectivas sobre la inteligencia humana.

PlainQAFact: Métrica Automática de Evaluación de Factualidad para la Generación de Resúmenes en Lenguaje Sencillo en el Ámbito Biomédico
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation

Mar 11

ByZhiwen You, Yue Guo

Las salidas alucinadas de los modelos de lenguaje representan riesgos en el ámbito médico, especialmente para audiencias no especializadas que toman decisiones relacionadas con la salud. Los métodos existentes de evaluación de factualidad, como los basados en implicación y en preguntas y respuestas (QA), enfrentan dificultades en la generación de resúmenes en lenguaje sencillo (PLS) debido al fenómeno de explicación elaborativa, que introduce contenido externo (por ejemplo, definiciones, antecedentes, ejemplos) ausente en el documento fuente para mejorar la comprensión. Para abordar esto, presentamos PlainQAFact, un marco entrenado en un conjunto de datos anotado por humanos y de grano fino, PlainFact, para evaluar la factualidad tanto de oraciones simplificadas del fuente como de aquellas con explicaciones elaborativas. PlainQAFact primero clasifica el tipo de factualidad y luego la evalúa utilizando un método de puntuación basado en QA aumentado con recuperación de información. Nuestro enfoque es ligero y computacionalmente eficiente. Los resultados empíricos muestran que las métricas de factualidad existentes no logran evaluar efectivamente la factualidad en PLS, especialmente en explicaciones elaborativas, mientras que PlainQAFact alcanza un rendimiento de vanguardia. Además, analizamos su efectividad en diversas fuentes de conocimiento externo, estrategias de extracción de respuestas, medidas de superposición y niveles de granularidad de documentos, refinando así su evaluación general de factualidad.

Las ideas en el escalamiento durante la inferencia pueden beneficiar a los algoritmos de preentrenamiento generativo.
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

Mar 10

ByJiaming Song, Linqi Zhou

En los últimos años, hemos presenciado avances significativos en los modelos base a través del preentrenamiento generativo, aunque la innovación algorítmica en este ámbito se ha estancado principalmente en torno a modelos autorregresivos para señales discretas y modelos de difusión para señales continuas. Este estancamiento crea un cuello de botella que nos impide desbloquear por completo el potencial de los datos multimodales ricos, lo que a su vez limita el progreso en la inteligencia multimodal. Argumentamos que una perspectiva centrada en la inferencia, que prioriza la eficiencia de escalado durante el tiempo de inferencia en términos de longitud de secuencia y pasos de refinamiento, puede inspirar nuevos algoritmos de preentrenamiento generativo. Utilizando el Emparejamiento de Momentos Inductivo (IMM, por sus siglas en inglés) como ejemplo concreto, demostramos cómo abordar las limitaciones en el proceso de inferencia de los modelos de difusión mediante modificaciones específicas da lugar a un algoritmo estable de una sola etapa que logra una calidad de muestreo superior con una eficiencia de inferencia más de un orden de magnitud mayor.

NullFace: Anonimización Facial Localizada sin Entrenamiento
NullFace: Training-Free Localized Face Anonymization

Mar 11

ByHan-Wei Kung, Tuomas Varanka, Terence Sim, Nicu Sebe

Las preocupaciones sobre la privacidad en torno al creciente número de cámaras están aumentando en la era digital actual. Aunque los métodos de anonimización existentes pueden ocultar la información de identidad, a menudo tienen dificultades para preservar la utilidad de las imágenes. En este trabajo, presentamos un método libre de entrenamiento para la anonimización de rostros que preserva atributos clave no relacionados con la identidad. Nuestro enfoque utiliza un modelo de difusión de texto a imagen preentrenado sin necesidad de optimización o entrenamiento. Comienza invirtiendo la imagen de entrada para recuperar su ruido inicial. Luego, el ruido se reduce mediante un proceso de difusión condicionado por la identidad, donde las incrustaciones de identidad modificadas aseguran que el rostro anonimizado sea distinto de la identidad original. Nuestro enfoque también admite la anonimización localizada, dando a los usuarios control sobre qué regiones faciales se anonimizan o se mantienen intactas. Evaluaciones exhaustivas frente a métodos de vanguardia muestran que nuestro enfoque sobresale en anonimización, preservación de atributos y calidad de imagen. Su flexibilidad, robustez y practicidad lo hacen adecuado para aplicaciones del mundo real. El código y los datos se pueden encontrar en https://github.com/hanweikung/nullface.

OTTER: Un modelo visión-lenguaje-acción con extracción de características visuales consciente del texto
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Mar 5

ByHuang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel

Los modelos Visión-Lenguaje-Acción (VLA, por sus siglas en inglés) tienen como objetivo predecir acciones robóticas basadas en observaciones visuales e instrucciones de lenguaje. Los enfoques existentes requieren ajustar modelos preentrenados de visión y lenguaje (VLMs), ya que las características visuales y lingüísticas se introducen de forma independiente en las políticas posteriores, lo que degrada las alineaciones semánticas preentrenadas. Proponemos OTTER, una arquitectura VLA novedosa que aprovecha estas alineaciones existentes mediante la extracción explícita de características visuales conscientes del texto. En lugar de procesar todas las características visuales, OTTER extrae y pasa selectivamente solo las características visuales relevantes para la tarea que están alineadas semánticamente con la instrucción de lenguaje al transformador de políticas. Esto permite que OTTER mantenga congelados los codificadores de visión y lenguaje preentrenados. De esta manera, OTTER preserva y utiliza la rica comprensión semántica aprendida durante el preentrenamiento a gran escala, lo que permite capacidades sólidas de generalización en escenarios de cero disparos. En experimentos de simulación y del mundo real, OTTER supera significativamente a los modelos VLA existentes, demostrando una fuerte generalización de cero disparos a objetos y entornos novedosos. Video, código, puntos de control y conjunto de datos: https://ottervla.github.io/.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

¿Crowdsourcing, rastreo o generación? Creación de SEA-VL, un conjunto de datos multicultural de visión y lenguaje para el sudeste asiático
Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Mar 10

101

LMM-R1: Potenciando LMMs de 3B con Capacidades de Razonamiento Fuerte mediante Aprendizaje por Refuerzo Basado en Reglas en Dos Etapas
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Mar 10

ByYingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang

YuE: Escalando Modelos de Fundación Abiertos para la Generación de Música de Larga Duración
YuE: Scaling Open Foundation Models for Long-Form Music Generation

Mar 11

Optimización del Cómputo en Tiempo de Prueba mediante Ajuste Fino con Meta-Aprendizaje por Refuerzo
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Mar 10

ByYuxiao Qu, Matthew Y. R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar

Gemini Embedding: Incrustaciones Generalizables de Gemini
Gemini Embedding: Generalizable Embeddings from Gemini

Mar 10

Seedream 2.0: Un modelo fundacional de generación de imágenes bilingüe nativo chino-inglés
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

Mar 10

MagicInfinite: Generando Videos Infinitos de Personas Hablando con Tus Palabras y Voz
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

Mar 7

ByHongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou

Diferencia de Acción en Video
Video Action Differencing

Mar 10

ByJames Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy

UniF^2ace: Comprensión y Generación Detallada de Rostros con Modelos Multimodales Unificados
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

Mar 11

ByJunzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li

SegAgent: Exploración de las capacidades de comprensión de píxeles en MLLM mediante la imitación de trayectorias de anotadores humanos
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

Mar 11

ByMuzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen

Generación de Videos Largos Multi-Eventos sin Ajuste mediante Muestreo Acoplado Sincronizado
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

Mar 11

BySubin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin

El razonamiento implícito en los Transformadores es razonamiento a través de atajos.
Implicit Reasoning in Transformers is Reasoning through Shortcuts

Mar 10

ByTianhe Lin, Jian Xie, Siyu Yuan, Deqing Yang

LightGen: Generación eficiente de imágenes mediante destilación de conocimiento y optimización directa de preferencias
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

Mar 11

ByXianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim

OmniMamba: Comprensión y Generación Multimodal Eficiente y Unificada mediante Modelos de Espacio de Estados
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

Mar 11

ByJialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang

Explotación de Recuperadores de Información Basados en Instrucciones para la Obtención de Información Maliciosa
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

Mar 11

ByParishad BehnamGhader, Nicholas Meade, Siva Reddy

LocAgent: Agentes de LLM Guiados por Grafos para la Localización de Código
LocAgent: Graph-Guided LLM Agents for Code Localization

Mar 12

ByZhaoling Chen, Xiangru Tang, Gangda Deng, Fang Wu, Jialong Wu, Zhiwei Jiang, Viktor Prasanna, Arman Cohan, Xingyao Wang

Memoria Nativa de IA 2.0: Segundo Yo
AI-native Memory 2.0: Second Me

Mar 11

ByJiale Wei, Xiang Ying, Tao Gao, Felix Tao, Jingbo Shang

"Componentes Principales" Habilitan un Nuevo Lenguaje de Imágenes
"Principal Components" Enable A New Language of Images

Mar 11

ByXin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi

Conjunto de datos Robusto-1: Comparación entre humanos y modelos de lenguaje visual en preguntas y respuestas visuales de conducción autónoma fuera de distribución en Perú
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

Mar 10

ByDunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza

VisualSimpleQA: Un punto de referencia para la evaluación desacoplada de modelos grandes de visión y lenguaje en la respuesta a preguntas de búsqueda de hechos
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

Mar 9

ByYanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu

CineBrain: Un conjunto de datos cerebrales multimodal a gran escala durante el procesamiento de narrativas audiovisuales naturalistas
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing

Mar 10

ByJianxiong Gao, Yichang Liu, Baofeng Yang, Jianfeng Feng, Yanwei Fu

Evaluación Comparativa de Modelos de IA en Ingeniería de Software: Una Revisión, Herramienta de Búsqueda y Protocolo de Mejora
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol

Mar 7

ByRoham Koohestani, Philippe de Bekker, Maliheh Izadi

Mezcla de Expertos Hecha Intrínsecamente Interpretable
Mixture of Experts Made Intrinsically Interpretable

Mar 5

ByXingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr

^RFLAV: Ajuste de flujo continuo para la generación infinita de audio y video
^RFLAV: Rolling Flow matching for infinite Audio Video generation

Mar 11

ByAlex Ergasti, Giuseppe Gabriele Tarollo, Filippo Botti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati

AnyMoLe: Interpolación de Movimientos para Cualquier Personaje Aprovechando Modelos de Difusión de Vídeo
AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models

Mar 11

ByKwan Yun, Seokhyeon Hong, Chaelin Kim, Junyong Noh

BiasEdit: Eliminación de sesgos en modelos de lenguaje estereotipados mediante edición del modelo
BiasEdit: Debiasing Stereotyped Language Models via Model Editing

Mar 11

ByXin Xu, Wei Xu, Ningyu Zhang, Julian McAuley

Refiriéndose a Cualquier Persona
Referring to Any Person

Mar 11

ByQing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang

Más allá de los modelos solo-decodificador: Los modelos de lenguaje grandes pueden ser buenos codificadores para la traducción automática
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

Mar 9

ByYingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu

Emparejamiento Inductivo de Momentos
Inductive Moment Matching

Mar 10

ByLinqi Zhou, Stefano Ermon, Jiaming Song

Trampa de la Perplejidad: Los Recuperadores Basados en Modelos de Lenguaje Sobrevaloran Documentos con Baja Perplejidad
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

Mar 11

ByHaoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen

ObjectMover: Generación de movimiento de objetos con prior de video
ObjectMover: Generative Object Movement with Video Prior

Mar 11

ByXin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi

RayFlow: Aceleración de Difusión Consciente de Instancias mediante Trayectorias de Flujo Adaptativas
RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories

Mar 10

ByHuiyang Shao, Xin Xia, Yuhong Yang, Yuxi Ren, Xing Wang, Xuefeng Xiao

Inferencia Consciente de la Capacidad: Mitigando el Efecto del Rezagado en Mezclas de Expertos
Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

Mar 7

ByShwai He, Weilin Cai, Jiayi Huang, Ang Li

QuoTA: Asignación de Tokens Orientada a Consultas mediante Desacoplamiento de Consultas CoT para la Comprensión de Videos Largos
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

Mar 11

ByYongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji

Colapso de los Recuperadores Densos: Sesgos Cortos, Tempranos y Literales Superando la Evidencia Factual
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

Mar 6

ByMohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng

Evaluación de la Inteligencia mediante Ensayo y Error
Evaluating Intelligence via Trial and Error

Feb 26

ByJingtao Zhan, Jiahao Zhao, Jiayu Li, Yiqun Liu, Bo Zhang, Qingyao Ai, Jiaxin Mao, Hongning Wang, Min Zhang, Shaoping Ma

PlainQAFact: Métrica Automática de Evaluación de Factualidad para la Generación de Resúmenes en Lenguaje Sencillo en el Ámbito Biomédico
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation

Mar 11

ByZhiwen You, Yue Guo

Las ideas en el escalamiento durante la inferencia pueden beneficiar a los algoritmos de preentrenamiento generativo.
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

Mar 10

ByJiaming Song, Linqi Zhou

NullFace: Anonimización Facial Localizada sin Entrenamiento
NullFace: Training-Free Localized Face Anonymization

Mar 11

ByHan-Wei Kung, Tuomas Varanka, Terence Sim, Nicu Sebe

OTTER: Un modelo visión-lenguaje-acción con extracción de características visuales consciente del texto
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Mar 5

ByHuang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel