ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Agente de Modelo de Lenguaje de Gran Escala: Una Revisión sobre Metodología, Aplicaciones y Desafíos
Large Language Model Agent: A Survey on Methodology, Applications and Challenges

Mar 27
ByJunyu Luo, Weizhi Zhang, Ye Yuan, Yusheng Zhao, Junwei Yang, Yiyang Gu, Bohan Wu, Binqi Chen, Ziyue Qiao, Qingqing Long, Rongcheng Tu, Xiao Luo, Wei Ju, Zhiping Xiao, Yifan Wang, Meng Xiao, Chenwu Liu, Jingyang Yuan, Shichang Zhang, Yiqiao Jin, Fan Zhang, Xian Wu, Hanqing Zhao, Dacheng Tao, Philip S. Yu, Ming Zhang
83
2

La era de los agentes inteligentes está sobre nosotros, impulsada por avances revolucionarios en los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Los agentes basados en LLM, con comportamientos orientados a objetivos y capacidades de adaptación dinámica, representan potencialmente una vía crítica hacia la inteligencia artificial general. Este estudio deconstruye sistemáticamente los sistemas de agentes LLM a través de una taxonomía centrada en metodologías, vinculando fundamentos arquitectónicos, mecanismos de colaboración y vías evolutivas. Unificamos hilos de investigación fragmentados al revelar conexiones fundamentales entre los principios de diseño de agentes y sus comportamientos emergentes en entornos complejos. Nuestro trabajo ofrece una perspectiva arquitectónica unificada, examinando cómo se construyen los agentes, cómo colaboran y cómo evolucionan con el tiempo, al mismo tiempo que aborda metodologías de evaluación, aplicaciones de herramientas, desafíos prácticos y diversos dominios de aplicación. Al revisar los últimos desarrollos en este campo en rápida evolución, ofrecemos a los investigadores una taxonomía estructurada para comprender los agentes LLM e identificamos direcciones prometedoras para futuras investigaciones. La colección está disponible en https://github.com/luo-junyu/Awesome-Agent-Papers.

2

Video-R1: Refuerzo del Razonamiento en Vídeo para MLLMs
Video-R1: Reinforcing Video Reasoning in MLLMs

Mar 27
ByKaituo Feng, Kaixiong Gong, Bohao Li, Zonghao Guo, Yibing Wang, Tianshuo Peng, Benyou Wang, Xiangyu Yue
79
6

Inspirados por el éxito de DeepSeek-R1 en la elicitación de habilidades de razonamiento mediante el aprendizaje por refuerzo (RL) basado en reglas, presentamos Video-R1 como el primer intento de explorar sistemáticamente el paradigma R1 para la elicitación del razonamiento en videos dentro de modelos de lenguaje multimodal de gran escala (MLLMs). Sin embargo, la aplicación directa del entrenamiento RL con el algoritmo GRPO al razonamiento en videos presenta dos desafíos principales: (i) la falta de modelado temporal para el razonamiento en videos, y (ii) la escasez de datos de alta calidad para el razonamiento en videos. Para abordar estos problemas, primero proponemos el algoritmo T-GRPO, que fomenta que los modelos utilicen información temporal en los videos para el razonamiento. Además, en lugar de depender únicamente de datos de video, incorporamos datos de alta calidad para el razonamiento en imágenes en el proceso de entrenamiento. Hemos construido dos conjuntos de datos: Video-R1-COT-165k para el arranque en frío SFT y Video-R1-260k para el entrenamiento RL, ambos compuestos por datos de imágenes y videos. Los resultados experimentales demuestran que Video-R1 logra mejoras significativas en benchmarks de razonamiento en videos como VideoMMMU y VSI-Bench, así como en benchmarks generales de video como MVBench y TempCompass, entre otros. Destacablemente, Video-R1-7B alcanza un 35.8% de precisión en el benchmark de razonamiento espacial en videos VSI-Bench, superando al modelo comercial propietario GPT-4o. Todos los códigos, modelos y datos han sido liberados.

3

UI-R1: Mejora de la Predicción de Acciones en Agentes de Interfaz Gráfica mediante Aprendizaje por Refuerzo
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

Mar 27
ByZhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Guanjing Xiong, Hongsheng Li
62
9

El reciente DeepSeek-R1 ha demostrado la aparición de capacidades de razonamiento en los modelos de lenguaje grandes (LLMs) mediante el aprendizaje por refuerzo (RL) con recompensas basadas en reglas. Basándonos en esta idea, somos los primeros en explorar cómo el RL basado en reglas puede mejorar las capacidades de razonamiento de los modelos de lenguaje grandes multimodales (MLLMs) para tareas de predicción de acciones en interfaces gráficas de usuario (GUI). Para ello, hemos creado un conjunto de datos pequeño pero de alta calidad que incluye 136 tareas desafiantes, abarcando cinco tipos de acciones comunes en dispositivos móviles. También introducimos una recompensa de acción unificada basada en reglas, permitiendo la optimización del modelo mediante algoritmos basados en políticas como Group Relative Policy Optimization (GRPO). Los resultados experimentales demuestran que nuestro modelo propuesto, eficiente en datos, UI-R1-3B, logra mejoras sustanciales tanto en tareas dentro del dominio (ID) como fuera del dominio (OOD). Específicamente, en el benchmark ID AndroidControl, la precisión del tipo de acción mejora en un 15%, mientras que la precisión de localización aumenta en un 10.3%, en comparación con el modelo base (es decir, Qwen2.5-VL-3B). En el benchmark OOD de localización en GUI ScreenSpot-Pro, nuestro modelo supera al modelo base en un 6.0% y alcanza un rendimiento competitivo con modelos más grandes (por ejemplo, OS-Atlas-7B), los cuales están entrenados mediante ajuste fino supervisado (SFT) en 76K datos. Estos resultados subrayan el potencial del aprendizaje por refuerzo basado en reglas para avanzar en la comprensión y control de GUI, allanando el camino para futuras investigaciones en este dominio.

4

Desafiando los límites del razonamiento: Un punto de referencia olímpico en matemáticas para modelos de lenguaje de gran escala
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

Mar 27
ByHaoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
38
4

En los últimos años, el rápido desarrollo de modelos de razonamiento a gran escala ha llevado a la saturación de los benchmarks existentes para evaluar el razonamiento matemático, destacando la urgente necesidad de marcos de evaluación más desafiantes y rigurosos. Para abordar esta brecha, presentamos OlymMATH, un novedoso benchmark matemático de nivel olímpico, diseñado para evaluar rigurosamente las capacidades de razonamiento complejo de los LLMs. OlymMATH incluye 200 problemas cuidadosamente seleccionados, cada uno verificado manualmente y disponible en versiones paralelas en inglés y chino. Los problemas están organizados sistemáticamente en dos niveles de dificultad distintos: (1) problemas de nivel AIME (fáciles) que establecen una línea base para la evaluación del razonamiento matemático, y (2) problemas significativamente más desafiantes (difíciles) diseñados para superar los límites de los modelos más avanzados actuales. En nuestro benchmark, estos problemas abarcan cuatro campos matemáticos principales, cada uno incluyendo una solución numérica verificable para permitir una evaluación objetiva basada en reglas. Los resultados empíricos subrayan el desafío significativo que presenta OlymMATH, con modelos de última generación como DeepSeek-R1 y el o3-mini de OpenAI mostrando una precisión notablemente limitada en el subconjunto de problemas difíciles. Además, el benchmark facilita una evaluación bilingüe integral de las habilidades de razonamiento matemático, una dimensión crítica que sigue siendo en gran medida desatendida en los benchmarks de razonamiento matemático convencionales. Publicamos el benchmark OlymMATH en el proyecto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

5

VBench-2.0: Avanzando en el Conjunto de Evaluación de Generación de Vídeo para la Fidelidad Intrínseca
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Mar 27
ByDian Zheng, Ziqi Huang, Hongbo Liu, Kai Zou, Yinan He, Fan Zhang, Yuanhan Zhang, Jingwen He, Wei-Shi Zheng, Yu Qiao, Ziwei Liu
33
2

La generación de videos ha avanzado significativamente, evolucionando desde la producción de resultados poco realistas hasta la generación de videos que parecen visualmente convincentes y temporalmente coherentes. Para evaluar estos modelos generativos de video, se han desarrollado puntos de referencia como VBench, que miden su fidelidad, evaluando factores como la estética por fotograma, la consistencia temporal y la adherencia básica al prompt. Sin embargo, estos aspectos representan principalmente una fidelidad superficial, que se centra en si el video parece visualmente convincente en lugar de si se ajusta a los principios del mundo real. Aunque los modelos recientes obtienen resultados cada vez mejores en estas métricas, todavía luchan por generar videos que no solo sean visualmente plausibles, sino fundamentalmente realistas. Para lograr verdaderos "modelos del mundo" a través de la generación de video, la próxima frontera radica en la fidelidad intrínseca, asegurando que los videos generados se ajusten a las leyes físicas, el razonamiento de sentido común, la corrección anatómica y la integridad compositiva. Alcanzar este nivel de realismo es esencial para aplicaciones como la producción cinematográfica asistida por IA y el modelado de mundos simulados. Para cerrar esta brecha, presentamos VBench-2.0, un punto de referencia de próxima generación diseñado para evaluar automáticamente los modelos generativos de video en términos de su fidelidad intrínseca. VBench-2.0 evalúa cinco dimensiones clave: Fidelidad Humana, Controlabilidad, Creatividad, Física y Sentido Común, cada una desglosada en capacidades más detalladas. Adaptado para dimensiones individuales, nuestro marco de evaluación integra generalistas, como los VLMs y LLMs más avanzados, y especialistas, incluyendo métodos de detección de anomalías propuestos para la generación de video. Realizamos anotaciones extensas para garantizar la alineación con el juicio humano. Al ir más allá de la fidelidad superficial hacia la fidelidad intrínseca, VBench-2.0 tiene como objetivo establecer un nuevo estándar para la próxima generación de modelos generativos de video en la búsqueda de la fidelidad intrínseca.

6

ReaRAG: El razonamiento guiado por conocimiento mejora la factualidad de los modelos de razonamiento a gran escala con generación aumentada por recuperación iterativa
ReaRAG: Knowledge-guided Reasoning Enhances Factuality of Large Reasoning Models with Iterative Retrieval Augmented Generation

Mar 27
ByZhicheng Lee, Shulin Cao, Jinxin Liu, Jiajie Zhang, Weichuan Liu, Xiaoyin Che, Lei Hou, Juanzi Li
29
4

Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) exhiben habilidades de razonamiento notables, pero dependen principalmente del conocimiento paramétrico, lo que limita su precisión factual. Aunque trabajos recientes han equipado a los LRMs basados en aprendizaje por refuerzo (RL) con capacidades de recuperación de información, estos sufren de "sobrepensamiento" y carecen de robustez en el razonamiento, reduciendo su efectividad en tareas de respuesta a preguntas (QA). Para abordar esto, proponemos ReaRAG, un modelo de razonamiento mejorado en factualidad que explora consultas diversas sin iteraciones excesivas. Nuestra solución incluye un marco novedoso de construcción de datos con un límite superior en la longitud de la cadena de razonamiento. Específicamente, primero aprovechamos un LRM para generar pensamiento deliberado, luego seleccionamos una acción de un espacio de acciones predefinido (Buscar y Finalizar). Para la acción Buscar, se ejecuta una consulta en el motor RAG, donde el resultado se devuelve como observación para guiar los pasos de razonamiento posteriores. Este proceso se repite hasta que se elige una acción Finalizar. Beneficiándose de las fuertes capacidades de razonamiento de ReaRAG, nuestro enfoque supera a los baselines existentes en QA de múltiples saltos. Un análisis adicional destaca su fuerte capacidad reflexiva para reconocer errores y refinar su trayectoria de razonamiento. Nuestro estudio mejora la factualidad de los LRMs mientras integra efectivamente un razonamiento robusto para la Generación Aumentada por Recuperación (RAG).

7

ChatAnyone: Generación de videos de retratos estilizados en tiempo real con un modelo jerárquico de difusión de movimiento.
ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model

Mar 27
ByJinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo
27
3

Los retratos de videochat interactivos en tiempo real han sido cada vez más reconocidos como la tendencia futura, particularmente debido al notable progreso alcanzado en las tecnologías de chat de texto y voz. Sin embargo, los métodos existentes se centran principalmente en la generación en tiempo real de movimientos de la cabeza, pero tienen dificultades para producir movimientos corporales sincronizados que coincidan con estas acciones de la cabeza. Además, lograr un control detallado sobre el estilo de habla y los matices de las expresiones faciales sigue siendo un desafío. Para abordar estas limitaciones, presentamos un marco novedoso para la generación de retratos de video estilizados en tiempo real, permitiendo un videochat expresivo y flexible que se extiende desde la cabeza parlante hasta la interacción de la parte superior del cuerpo. Nuestro enfoque consta de las siguientes dos etapas. La primera etapa involucra modelos eficientes de difusión de movimiento jerárquico, que consideran tanto representaciones de movimiento explícitas como implícitas basadas en entradas de audio, lo que puede generar una amplia gama de expresiones faciales con control estilístico y sincronización entre los movimientos de la cabeza y el cuerpo. La segunda etapa tiene como objetivo generar videos de retrato que incluyan movimientos de la parte superior del cuerpo, incluyendo gestos con las manos. Inyectamos señales de control explícitas de las manos en el generador para producir movimientos de manos más detallados, y además realizamos un refinamiento facial para mejorar el realismo y la expresividad general del video de retrato. Adicionalmente, nuestro enfoque soporta la generación eficiente y continua de videos de retrato de la parte superior del cuerpo en una resolución máxima de 512 * 768 a hasta 30 fps en una GPU 4090, permitiendo videochat interactivo en tiempo real. Los resultados experimentales demuestran la capacidad de nuestro enfoque para producir videos de retrato con una rica expresividad y movimientos naturales de la parte superior del cuerpo.

8

LeX-Art: Replanteando la generación de texto mediante la síntesis escalable de datos de alta calidad
LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis

Mar 27
ByShitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li
26
2

Presentamos LeX-Art, un conjunto integral para la síntesis de texto-imagen de alta calidad que cierra sistemáticamente la brecha entre la expresividad de los prompts y la fidelidad en la representación del texto. Nuestro enfoque sigue un paradigma centrado en los datos, construyendo una canalización de síntesis de datos de alta calidad basada en Deepseek-R1 para curar LeX-10K, un conjunto de datos de 10K imágenes de alta resolución y estéticamente refinadas de 1024x1024 píxeles. Más allá de la construcción del conjunto de datos, desarrollamos LeX-Enhancer, un modelo robusto de enriquecimiento de prompts, y entrenamos dos modelos de texto a imagen, LeX-FLUX y LeX-Lumina, logrando un rendimiento de vanguardia en la representación de texto. Para evaluar sistemáticamente la generación de texto visual, introducimos LeX-Bench, un benchmark que evalúa la fidelidad, la estética y la alineación, complementado por la Distancia de Edición Normalizada por Pares (PNED), una métrica novedosa para la evaluación robusta de la precisión del texto. Los experimentos demuestran mejoras significativas, con LeX-Lumina logrando un aumento del 79.81% en PNED en CreateBench, y LeX-FLUX superando a los baselines en precisión de color (+3.18%), posición (+4.45%) y tipografía (+3.81%). Nuestros códigos, modelos, conjuntos de datos y demo están disponibles públicamente.

9

Embodied-Reasoner: Sinergizando Búsqueda Visual, Razonamiento y Acción para Tareas Interactivas de Embodiment
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Mar 27
ByWenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang
23
3

Los recientes avances en los modelos de pensamiento profundo han demostrado capacidades de razonamiento notables en tareas matemáticas y de codificación. Sin embargo, su efectividad en dominios encarnados que requieren interacción continua con entornos a través de trayectorias intercaladas de imágenes y acciones sigue siendo en gran medida inexplorada. Presentamos Embodied Reasoner, un modelo que extiende el razonamiento estilo o1 a tareas de búsqueda encarnada interactiva. A diferencia del razonamiento matemático que se basa principalmente en la deducción lógica, los escenarios encarnados exigen comprensión espacial, razonamiento temporal y reflexión continua basada en el historial de interacciones. Para abordar estos desafíos, sintetizamos 9.3k trayectorias coherentes de Observación-Pensamiento-Acción que contienen 64k imágenes interactivas y 90k procesos de pensamiento diversos (análisis, razonamiento espacial, reflexión, planificación y verificación). Desarrollamos una canalización de entrenamiento de tres etapas que mejora progresivamente las capacidades del modelo a través del aprendizaje por imitación, la autoexploración mediante muestreo por rechazo y la autocorrección mediante ajuste de reflexión. La evaluación muestra que nuestro modelo supera significativamente a los modelos avanzados de razonamiento visual, por ejemplo, supera a OpenAI o1, o3-mini y Claude-3.7 en un +9%, 24% y +13%, respectivamente. El análisis revela que nuestro modelo exhibe menos búsquedas repetidas e inconsistencias lógicas, con ventajas particulares en tareas complejas de largo horizonte. Los entornos del mundo real también muestran nuestra superioridad, exhibiendo menos casos de búsquedas repetidas e inconsistencias lógicas.

10

Lumina-Image 2.0: Un Marco Unificado y Eficiente para la Generación de Imágenes
Lumina-Image 2.0: A Unified and Efficient Image Generative Framework

Mar 27
ByQi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Jiakang Yuan, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Manyuan Zhang, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Conghui He, Bo Zhang, Xiaohong Liu, Hongsheng Li, Yu Qiao, Chang Xu, Peng Gao
22
3

Presentamos Lumina-Image 2.0, un marco avanzado de generación de texto a imagen que logra un progreso significativo en comparación con trabajos anteriores, Lumina-Next. Lumina-Image 2.0 se basa en dos principios clave: (1) Unificación: adopta una arquitectura unificada (Unified Next-DiT) que trata los tokens de texto e imagen como una secuencia conjunta, permitiendo interacciones multimodales naturales y facilitando la expansión fluida de tareas. Además, dado que los sistemas de subtitulado de alta calidad pueden proporcionar pares de entrenamiento texto-imagen semánticamente alineados, introducimos un sistema de subtitulado unificado, Unified Captioner (UniCap), diseñado específicamente para tareas de generación de texto a imagen (T2I). UniCap destaca por generar subtítulos completos y precisos, acelerando la convergencia y mejorando la adherencia a las indicaciones. (2) Eficiencia: para mejorar la eficiencia de nuestro modelo propuesto, desarrollamos estrategias de entrenamiento progresivo en múltiples etapas e introducimos técnicas de aceleración de inferencia sin comprometer la calidad de la imagen. Evaluaciones exhaustivas en benchmarks académicos y arenas públicas de texto a imagen demuestran que Lumina-Image 2.0 ofrece un rendimiento sólido incluso con solo 2.6 mil millones de parámetros, destacando su escalabilidad y eficiencia de diseño. Hemos publicado los detalles de entrenamiento, el código y los modelos en https://github.com/Alpha-VLLM/Lumina-Image-2.0.

11

ResearchBench: Evaluación de Modelos de Lenguaje de Gran Escala en el Descubrimiento Científico mediante Descomposición de Tareas Basada en Inspiración
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition

Mar 27
ByYujie Liu, Zonglin Yang, Tong Xie, Jinjie Ni, Ben Gao, Yuqiang Li, Shixiang Tang, Wanli Ouyang, Erik Cambria, Dongzhan Zhou
21
2

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado potencial para asistir en la investigación científica, aunque su capacidad para descubrir hipótesis de investigación de alta calidad sigue sin examinarse debido a la falta de un punto de referencia dedicado. Para abordar esta brecha, presentamos el primer punto de referencia a gran escala para evaluar LLMs con un conjunto casi suficiente de sub-tareas de descubrimiento científico: recuperación de inspiración, composición de hipótesis y clasificación de hipótesis. Desarrollamos un marco automatizado que extrae componentes críticos —preguntas de investigación, revisiones de antecedentes, inspiraciones e hipótesis— de artículos científicos en 12 disciplinas, con validación experta que confirma su precisión. Para evitar la contaminación de datos, nos enfocamos exclusivamente en artículos publicados en 2024, asegurando una superposición mínima con los datos de preentrenamiento de los LLMs. Nuestra evaluación revela que los LLMs tienen un buen desempeño en la recuperación de inspiraciones, una tarea fuera de distribución, lo que sugiere su capacidad para resaltar asociaciones de conocimiento novedosas. Esto posiciona a los LLMs como "minas de hipótesis de investigación", capaces de facilitar el descubrimiento científico automatizado al generar hipótesis innovadoras a gran escala con una intervención humana mínima.

12

FinAudio: Un punto de referencia para modelos de lenguaje grande de audio en aplicaciones financieras
FinAudio: A Benchmark for Audio Large Language Models in Financial Applications

Mar 26
ByYupeng Cao, Haohang Li, Yangyang Yu, Shashidhar Reddy Javaji, Yueru He, Jimin Huang, Zining Zhu, Qianqian Xie, Xiao-yang Liu, Koduvayur Subbalakshmi, Meikang Qiu, Sophia Ananiadou, Jian-Yun Nie
19
2

Los Modelos de Lenguaje de Gran Escala para Audio (AudioLLMs) han recibido una atención generalizada y han mejorado significativamente el rendimiento en tareas de audio como conversación, comprensión de audio y reconocimiento automático de voz (ASR). A pesar de estos avances, existe una ausencia de un punto de referencia para evaluar AudioLLMs en escenarios financieros, donde los datos de audio, como las llamadas de conferencias de resultados y los discursos de CEOs, son recursos cruciales para el análisis financiero y las decisiones de inversión. En este artículo, presentamos FinAudio, el primer punto de referencia diseñado para evaluar la capacidad de los AudioLLMs en el dominio financiero. Primero definimos tres tareas basadas en las características únicas del dominio financiero: 1) ASR para audio financiero corto, 2) ASR para audio financiero largo, y 3) resumen de audio financiero largo. Luego, recopilamos dos conjuntos de datos de audio corto y dos de audio largo, respectivamente, y desarrollamos un nuevo conjunto de datos para el resumen de audio financiero, que conforman el punto de referencia FinAudio. Posteriormente, evaluamos siete AudioLLMs prevalentes en FinAudio. Nuestra evaluación revela las limitaciones de los AudioLLMs existentes en el dominio financiero y ofrece ideas para mejorar los AudioLLMs. Todos los conjuntos de datos y códigos serán publicados.

13

El video sintético mejora la fidelidad física en la síntesis de video.
Synthetic Video Enhances Physical Fidelity in Video Synthesis

Mar 26
ByQi Zhao, Xingyu Ni, Ziyu Wang, Feng Cheng, Ziyan Yang, Lu Jiang, Bohan Wang
16
3

Investigamos cómo mejorar la fidelidad física de los modelos de generación de vídeo aprovechando vídeos sintéticos derivados de pipelines de gráficos por computadora. Estos vídeos renderizados respetan la física del mundo real, como mantener la consistencia 3D, y sirven como un recurso valioso que puede potencialmente mejorar los modelos de generación de vídeo. Para aprovechar este potencial, proponemos una solución que selecciona e integra datos sintéticos mientras introduce un método para transferir su realismo físico al modelo, reduciendo significativamente los artefactos no deseados. A través de experimentos en tres tareas representativas que enfatizan la consistencia física, demostramos su eficacia en la mejora de la fidelidad física. Aunque nuestro modelo aún carece de una comprensión profunda de la física, nuestro trabajo ofrece una de las primeras demostraciones empíricas de que el vídeo sintético mejora la fidelidad física en la síntesis de vídeo. Sitio web: https://kevinz8866.github.io/simulation/

14

Tamaño de paso óptimo para el muestreo de difusión
Optimal Stepsize for Diffusion Sampling

Mar 27
ByJianning Pei, Han Hu, Shuyang Gu
13
2

Los modelos de difusión logran una calidad de generación notable, pero sufren de un muestreo computacionalmente intensivo debido a una discretización de pasos subóptima. Mientras que trabajos existentes se centran en optimizar las direcciones de eliminación de ruido, nosotros abordamos el diseño fundamentado de los calendarios de tamaño de paso. Este artículo propone la Destilación de Tamaño de Paso Óptimo, un marco de programación dinámica que extrae calendarios teóricamente óptimos al destilar conocimiento de trayectorias de referencia. Al reformular la optimización del tamaño de paso como una minimización recursiva de errores, nuestro método garantiza límites globales de discretización mediante la explotación de subestructuras óptimas. Crucialmente, los calendarios destilados demuestran una fuerte robustez en arquitecturas, solucionadores de EDO y calendarios de ruido. Los experimentos muestran una generación de texto a imagen 10 veces más rápida mientras se preserva un 99.4% del rendimiento en GenEval. Nuestro código está disponible en https://github.com/bebebe666/OptimalSteps.

15

Explorando la Evolución de la Cognición Física en la Generación de Videos: Una Revisión
Exploring the Evolution of Physics Cognition in Video Generation: A Survey

Mar 27
ByMinghui Lin, Xiang Wang, Yishan Wang, Shu Wang, Fengqi Dai, Pengxiang Ding, Cunxiang Wang, Zhengrong Zuo, Nong Sang, Siteng Huang, Donglin Wang
11
2

Los recientes avances en la generación de videos han experimentado un progreso significativo, especialmente con el rápido desarrollo de los modelos de difusión. A pesar de esto, sus deficiencias en la cognición física han recibido gradualmente una atención generalizada: el contenido generado a menudo viola las leyes fundamentales de la física, cayendo en el dilema de "realismo visual pero absurdo físico". Los investigadores han comenzado a reconocer cada vez más la importancia de la fidelidad física en la generación de videos y han intentado integrar cogniciones físicas heurísticas, como representaciones de movimiento y conocimiento físico, en los sistemas generativos para simular escenarios dinámicos del mundo real. Considerando la falta de una visión sistemática en este campo, este estudio tiene como objetivo proporcionar un resumen exhaustivo de los diseños de arquitectura y sus aplicaciones para llenar este vacío. Específicamente, discutimos y organizamos el proceso evolutivo de la cognición física en la generación de videos desde una perspectiva de la ciencia cognitiva, mientras proponemos una taxonomía de tres niveles: 1) percepción de esquema básico para la generación, 2) cognición pasiva del conocimiento físico para la generación, y 3) cognición activa para la simulación del mundo, abarcando métodos de vanguardia, paradigmas clásicos y puntos de referencia. Posteriormente, enfatizamos los desafíos clave inherentes en este dominio y delineamos posibles vías para futuras investigaciones, contribuyendo a avanzar las fronteras de la discusión tanto en la academia como en la industria. A través de una revisión estructurada y un análisis interdisciplinario, este estudio tiene como objetivo proporcionar una guía direccional para el desarrollo de paradigmas de generación de videos interpretables, controlables y físicamente consistentes, impulsando así los modelos generativos desde la etapa de "mimetismo visual" hacia una nueva fase de "comprensión física similar a la humana".

16

Feature4X: Conectando cualquier video monocular a la IA agentica 4D con campos de características gaussianos versátiles
Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields

Mar 26
ByShijie Zhou, Hui Ren, Yijia Weng, Shuwang Zhang, Zhen Wang, Dejia Xu, Zhiwen Fan, Suya You, Zhangyang Wang, Leonidas Guibas, Achuta Kadambi
10
2

Los recientes avances en modelos 2D y multimodales han logrado un éxito notable al aprovechar el entrenamiento a gran escala en extensos conjuntos de datos. Sin embargo, extender estos logros para permitir interacciones de forma libre y operaciones semánticas de alto nivel con escenas 3D/4D complejas sigue siendo un desafío. Esta dificultad surge de la disponibilidad limitada de conjuntos de datos 3D/4D o multivista anotados a gran escala, que son cruciales para tareas generalizables de visión y lenguaje, como la segmentación basada en vocabulario abierto y en indicaciones, la edición guiada por lenguaje y la respuesta a preguntas visuales (VQA). En este artículo, presentamos Feature4X, un marco universal diseñado para extender cualquier funcionalidad de un modelo de visión 2D al ámbito 4D, utilizando únicamente entrada de video monocular, ampliamente disponible en contenido generado por usuarios. La "X" en Feature4X representa su versatilidad, permitiendo cualquier tarea a través de la destilación adaptable de campos de características 4D condicionados por modelos. En el núcleo de nuestro marco se encuentra una estrategia de optimización dinámica que unifica múltiples capacidades de modelos en una única representación. Además, hasta donde sabemos, Feature4X es el primer método en destilar y elevar las características de modelos de video fundamentales (por ejemplo, SAM2, InternVideo2) a un campo de características 4D explícito utilizando Gaussian Splatting. Nuestros experimentos muestran la segmentación de cualquier cosa en nuevas vistas, la edición geométrica y de apariencia de escenas, y VQA de forma libre en todos los pasos de tiempo, potenciados por LLMs en bucles de retroalimentación. Estos avances amplían el alcance de las aplicaciones de IA agentica al proporcionar una base para sistemas escalables, conscientes del contexto y espacio-tiempo, capaces de interacción inmersiva con escenas dinámicas 4D.

17

Difusión Discreta Multimodal Unificada
Unified Multimodal Discrete Diffusion

Mar 26
ByAlexander Swerdlow, Mihir Prabhudesai, Siddharth Gandhi, Deepak Pathak, Katerina Fragkiadaki
9
2

Los modelos generativos multimodales que pueden comprender y generar contenido a través de múltiples modalidades están dominados por enfoques autorregresivos (AR), que procesan tokens secuencialmente de izquierda a derecha o de arriba hacia abajo. Estos modelos manejan conjuntamente imágenes, texto, video y audio para diversas tareas, como la generación de subtítulos para imágenes, la respuesta a preguntas y la generación de imágenes. En este trabajo, exploramos los modelos de difusión discreta como una formulación generativa unificada en el dominio conjunto de texto e imágenes, basándonos en su reciente éxito en la generación de texto. Los modelos de difusión discreta ofrecen varias ventajas sobre los modelos AR, incluyendo un mayor control sobre la calidad versus la diversidad de las muestras generadas, la capacidad de realizar inpainting multimodal conjunto (en los dominios de texto e imágenes) y una mayor controlabilidad en la generación mediante guías. Aprovechando estos beneficios, presentamos el primer Modelo de Difusión Discreta Multimodal Unificado (UniDisc), que es capaz de comprender y generar conjuntamente texto e imágenes para una variedad de tareas posteriores. Comparamos UniDisc con modelos AR multimodales, realizando un análisis de escalabilidad y demostrando que UniDisc supera a estos en términos de rendimiento y cómputo en tiempo de inferencia, controlabilidad mejorada, capacidad de edición, inpainting y un equilibrio flexible entre el tiempo de inferencia y la calidad de la generación. El código y visualizaciones adicionales están disponibles en https://unidisc.github.io.

18

Adaptación de Biblioteca Semántica: Recuperación y Fusión LoRA para Segmentación Semántica de Vocabulario Abierto
Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation

Mar 27
ByReza Qorbani, Gianluca Villani, Theodoros Panagiotakopoulos, Marc Botet Colomer, Linus Härenstam-Nielsen, Mattia Segu, Pier Luigi Dovesi, Jussi Karlgren, Daniel Cremers, Federico Tombari, Matteo Poggi
9
2

Los modelos de segmentación semántica de vocabulario abierto asocian visión y texto para etiquetar píxeles de un conjunto indefinido de clases utilizando consultas textuales, ofreciendo un rendimiento versátil en conjuntos de datos novedosos. Sin embargo, grandes diferencias entre los dominios de entrenamiento y prueba degradan su rendimiento, requiriendo ajustes finos para aplicaciones efectivas en el mundo real. Presentamos Semantic Library Adaptation (SemLA), un marco novedoso para la adaptación de dominio en tiempo de prueba sin necesidad de entrenamiento adicional. SemLA aprovecha una biblioteca de adaptadores basados en LoRA indexados con incrustaciones CLIP, fusionando dinámicamente los adaptadores más relevantes según la proximidad al dominio objetivo en el espacio de incrustaciones. Este enfoque construye un modelo ad-hoc adaptado a cada entrada específica sin entrenamiento adicional. Nuestro método escala eficientemente, mejora la explicabilidad al rastrear las contribuciones de los adaptadores y protege inherentemente la privacidad de los datos, haciéndolo ideal para aplicaciones sensibles. Experimentos exhaustivos en un benchmark de 20 dominios construido sobre 10 conjuntos de datos estándar demuestran la superior adaptabilidad y rendimiento de SemLA en diversos entornos, estableciendo un nuevo estándar en la adaptación de dominio para la segmentación semántica de vocabulario abierto.

19

ZJUKLAB en SemEval-2025 Tarea 4: Desaprendizaje mediante Fusión de Modelos
ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging

Mar 27
ByHaoming Xu, Shuxun Wang, Yanqiu Zhao, Yi Zhong, Ziyan Jiang, Ningyuan Zhao, Shumin Deng, Huajun Chen, Ningyu Zhang
8
2

Este artículo presenta la propuesta del equipo ZJUKLAB para la tarea 4 de SemEval-2025: Eliminación de contenido sensible en modelos de lenguaje grandes. Esta tarea tiene como objetivo eliminar selectivamente conocimiento sensible de los modelos de lenguaje grandes, evitando tanto problemas de olvido excesivo como insuficiente. Proponemos un sistema de eliminación que aprovecha la fusión de modelos (específicamente TIES-Merging), combinando dos modelos especializados en un modelo más equilibrado tras la eliminación. Nuestro sistema logra resultados competitivos, ocupando el segundo lugar entre 26 equipos, con una puntuación en línea de 0.944 para la Agregación de la Tarea y 0.487 para la Agregación general. En este artículo, también realizamos experimentos locales y llevamos a cabo un análisis exhaustivo del proceso de eliminación, examinando trayectorias de rendimiento, dinámicas de pérdida y perspectivas de pesos, junto con varios experimentos complementarios, para comprender la efectividad de nuestro método. Además, analizamos las limitaciones de nuestro método y las métricas de evaluación, destacando que las puntuaciones MIA y las métricas basadas en ROUGE por sí solas son insuficientes para evaluar completamente la eliminación exitosa. Finalmente, enfatizamos la necesidad de metodologías de evaluación más completas y una reconsideración de los objetivos de eliminación en investigaciones futuras. El código está disponible en https://github.com/zjunlp/unlearn/tree/main/semeval25.

20

LLPut: Investigación de Modelos de Lenguaje de Gran Escala para la Generación de Entradas Basadas en Reportes de Errores
LLPut: Investigating Large Language Models for Bug Report-Based Input Generation

Mar 26
ByAlif Al Hasan, Subarna Saha, Mia Mohammad Imran, Tarannum Shaila Zaman
6
2

Las entradas que provocan fallos desempeñan un papel crucial en el diagnóstico y análisis de errores de software. Los informes de errores suelen contener estas entradas, que los desarrolladores extraen para facilitar la depuración. Dado que los informes de errores están escritos en lenguaje natural, investigaciones previas han aprovechado diversas técnicas de Procesamiento del Lenguaje Natural (PLN) para la extracción automatizada de entradas. Con el surgimiento de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés), surge una pregunta de investigación importante: ¿qué tan efectivamente pueden los LLM generativos extraer entradas que provocan fallos de los informes de errores? En este artículo, proponemos LLPut, una técnica para evaluar empíricamente el rendimiento de tres LLM generativos de código abierto —LLaMA, Qwen y Qwen-Coder— en la extracción de entradas relevantes de informes de errores. Realizamos una evaluación experimental en un conjunto de datos de 206 informes de errores para evaluar la precisión y efectividad de estos modelos. Nuestros hallazgos proporcionan información sobre las capacidades y limitaciones de los LLM generativos en el diagnóstico automatizado de errores.

21

Tracktention: Aprovechamiento del seguimiento de puntos para procesar videos de manera más rápida y eficiente
Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better

Mar 25
ByZihang Lai, Andrea Vedaldi
2
2

La consistencia temporal es crucial en la predicción de videos para garantizar que las salidas sean coherentes y estén libres de artefactos. Los métodos tradicionales, como la atención temporal y la convolución 3D, pueden tener dificultades con movimientos significativos de objetos y no capturar dependencias temporales de largo alcance en escenas dinámicas. Para abordar esta limitación, proponemos la Capa de Tracktention, un componente arquitectónico novedoso que integra explícitamente información de movimiento utilizando pistas de puntos, es decir, secuencias de puntos correspondientes a lo largo de los fotogramas. Al incorporar estas señales de movimiento, la Capa de Tracktention mejora la alineación temporal y maneja eficazmente movimientos complejos de objetos, manteniendo representaciones de características consistentes a lo largo del tiempo. Nuestro enfoque es computacionalmente eficiente y puede integrarse sin problemas en modelos existentes, como los Transformers de Visión, con modificaciones mínimas. Puede utilizarse para actualizar modelos diseñados únicamente para imágenes a modelos de última generación para video, superando en ocasiones a modelos diseñados nativamente para la predicción de video. Demostramos esto en la predicción de profundidad de video y la colorización de video, donde los modelos mejorados con la Capa de Tracktention muestran una consistencia temporal significativamente mejorada en comparación con los modelos base.

22

LOCATEdit: Atención Cruzada Optimizada con Laplaciano de Grafos para Edición Localizada de Imágenes Guiada por Texto
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing

Mar 27
ByAchint Soni, Meet Soni, Sirisha Rambhatla
1
2

La edición de imágenes guiada por texto tiene como objetivo modificar regiones específicas de una imagen según instrucciones en lenguaje natural, manteniendo la estructura general y la fidelidad del fondo. Los métodos existentes utilizan máscaras derivadas de mapas de atención cruzada generados por modelos de difusión para identificar las regiones objetivo que deben modificarse. Sin embargo, dado que los mecanismos de atención cruzada se centran en la relevancia semántica, tienen dificultades para mantener la integridad de la imagen. Como resultado, estos métodos a menudo carecen de consistencia espacial, lo que lleva a artefactos y distorsiones en la edición. En este trabajo, abordamos estas limitaciones e introducimos LOCATEdit, que mejora los mapas de atención cruzada mediante un enfoque basado en grafos que utiliza relaciones entre parches derivadas de la auto-atención para mantener una atención suave y coherente en las regiones de la imagen, asegurando que las alteraciones se limiten a los elementos designados mientras se conserva la estructura circundante. \method supera de manera consistente y sustancial a los métodos de referencia en PIE-Bench, demostrando su rendimiento de vanguardia y efectividad en diversas tareas de edición. El código está disponible en https://github.com/LOCATEdit/LOCATEdit/.

Mar 27
Mar 28
Mar 31