HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

23 papers found

Matrix-Game: Modelo Fundacional Interactivo del Mundo
Matrix-Game: Interactive World Foundation Model

Jun 23

ByYifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou

Presentamos Matrix-Game, un modelo fundacional de mundo interactivo para la generación controlada de mundos de juego. Matrix-Game se entrena mediante un pipeline de dos etapas que primero realiza un preentrenamiento a gran escala sin etiquetas para la comprensión del entorno, seguido de un entrenamiento con etiquetas de acciones para la generación de videos interactivos. Para respaldar esto, hemos creado Matrix-Game-MC, un conjunto de datos integral de Minecraft que comprende más de 2,700 horas de clips de video de juego sin etiquetas y más de 1,000 horas de clips de alta calidad con anotaciones detalladas de acciones de teclado y mouse. Nuestro modelo adopta un paradigma de generación controlada de imagen a mundo, condicionado por una imagen de referencia, contexto de movimiento y acciones del usuario. Con más de 17 mil millones de parámetros, Matrix-Game permite un control preciso sobre las acciones de los personajes y los movimientos de la cámara, manteniendo una alta calidad visual y coherencia temporal. Para evaluar el rendimiento, desarrollamos GameWorld Score, un benchmark unificado que mide la calidad visual, la calidad temporal, la controlabilidad de las acciones y la comprensión de las reglas físicas en la generación de mundos de Minecraft. Experimentos extensivos muestran que Matrix-Game supera consistentemente a los modelos anteriores de mundos de Minecraft de código abierto (incluyendo Oasis y MineWorld) en todas las métricas, con mejoras particularmente fuertes en controlabilidad y consistencia física. Evaluaciones humanas doble ciego confirman además la superioridad de Matrix-Game, destacando su capacidad para generar videos perceptualmente realistas y precisamente controlables en diversos escenarios de juego. Para facilitar futuras investigaciones sobre la generación interactiva de imagen a mundo, abriremos el código de los pesos del modelo Matrix-Game y el benchmark GameWorld Score en https://github.com/SkyworkAI/Matrix-Game.

JarvisArt: Liberando la Creatividad Artística Humana mediante un Agente Inteligente de Retoque Fotográfico
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

Jun 21

ByYunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan

El retoque fotográfico se ha convertido en un elemento integral de la narrativa visual contemporánea, permitiendo a los usuarios capturar estéticas y expresar creatividad. Si bien herramientas profesionales como Adobe Lightroom ofrecen capacidades potentes, requieren un conocimiento sustancial y un esfuerzo manual considerable. En contraste, las soluciones existentes basadas en inteligencia artificial proporcionan automatización, pero a menudo presentan una ajustabilidad limitada y una generalización deficiente, lo que no satisface las diversas y personalizadas necesidades de edición. Para cerrar esta brecha, presentamos JarvisArt, un agente impulsado por un modelo de lenguaje multimodal (MLLM) que comprende la intención del usuario, imita el proceso de razonamiento de artistas profesionales y coordina inteligentemente más de 200 herramientas de retoque dentro de Lightroom. JarvisArt se somete a un proceso de entrenamiento en dos etapas: un ajuste fino supervisado inicial mediante Chain-of-Thought para establecer habilidades básicas de razonamiento y uso de herramientas, seguido de una Optimización de Política Relativa de Grupo para Retoque (GRPO-R) para mejorar aún más su toma de decisiones y competencia en el uso de herramientas. También proponemos el Protocolo Agente-a-Lightroom para facilitar una integración fluida con Lightroom. Para evaluar el rendimiento, desarrollamos MMArt-Bench, un nuevo punto de referencia construido a partir de ediciones reales de usuarios. JarvisArt demuestra una interacción amigable con el usuario, una generalización superior y un control detallado sobre ajustes tanto globales como locales, abriendo un nuevo camino para el retoque fotográfico inteligente. Cabe destacar que supera a GPT-4o con una mejora del 60% en métricas promedio a nivel de píxel en MMArt-Bench para la fidelidad del contenido, manteniendo capacidades comparables de seguimiento de instrucciones. Página del proyecto: https://jarvisart.vercel.app/.

AnimaX: Animando lo inanimado en 3D con modelos de difusión conjunta de video y pose
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Jun 24

ByZehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng

Presentamos AnimaX, un marco de animación 3D de avance directo que conecta los precedentes de movimiento de los modelos de difusión de video con la estructura controlable de la animación basada en esqueletos. Los métodos tradicionales de síntesis de movimiento están restringidos a topologías esqueléticas fijas o requieren una costosa optimización en espacios de deformación de alta dimensión. En contraste, AnimaX transfiere eficazmente el conocimiento de movimiento basado en video al dominio 3D, soportando mallas articuladas diversas con esqueletos arbitrarios. Nuestro método representa el movimiento 3D como mapas de poses 2D multi-vista y multi-fotograma, y permite la difusión conjunta de video y poses condicionada por representaciones de plantillas y un prompt textual de movimiento. Introducimos codificaciones posicionales compartidas y embeddings conscientes de la modalidad para garantizar la alineación espacio-temporal entre secuencias de video y poses, transfiriendo eficazmente los precedentes de video a la tarea de generación de movimiento. Las secuencias de poses multi-vista resultantes se triangulan en posiciones de articulaciones 3D y se convierten en animación de mallas mediante cinemática inversa. Entrenado en un nuevo conjunto de datos curado de 160,000 secuencias rigged, AnimaX logra resultados de vanguardia en VBench en generalización, fidelidad de movimiento y eficiencia, ofreciendo una solución escalable para la animación 3D agnóstica de categorías. Página del proyecto: https://anima-x.github.io/{https://anima-x.github.io/}.

Skywork-SWE: Revelando las Leyes de Escalado de Datos para la Ingeniería de Software en LLMs
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Jun 24

ByLiang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou

La ingeniería de software (SWE, por sus siglas en inglés) ha surgido recientemente como un campo crucial para evaluar a los agentes de LLM de próxima generación, exigiendo capacidades inherentes en dos dimensiones críticas: la resolución iterativa y sostenida de problemas (por ejemplo, >50 rondas de interacción) y la gestión de dependencias de contexto largo (por ejemplo, >32k tokens). Sin embargo, el proceso de curación de datos en SWE sigue siendo notoriamente laborioso, ya que depende en gran medida de la anotación manual para el filtrado de archivos de código y la configuración de entornos de ejecución dedicados para ejecutar y validar pruebas unitarias. Como resultado, la mayoría de los conjuntos de datos existentes se limitan a solo unos pocos miles de instancias obtenidas de GitHub. Para abordar esto, proponemos una canalización de curación de datos incremental y automatizada que escala sistemáticamente tanto el volumen como la diversidad de los conjuntos de datos de SWE. Nuestro conjunto de datos incluye 10,169 instancias de tareas reales en Python provenientes de 2,531 repositorios distintos de GitHub, cada una acompañada de una tarea especificada en lenguaje natural y una imagen de entorno de ejecución dedicada para la validación automatizada de pruebas unitarias. Hemos curado cuidadosamente más de 8,000 trayectorias de entrenamiento validadas en tiempo de ejecución a partir de nuestro conjunto de datos propuesto de SWE. Al ajustar el modelo Skywork-SWE en estas trayectorias, descubrimos un fenómeno notable de escalado de datos: el rendimiento del modelo entrenado para capacidades de ingeniería de software en LLM continúa mejorando a medida que aumenta el tamaño de los datos, sin mostrar signos de saturación. En particular, nuestro modelo Skywork-SWE alcanza un 38.0% de precisión pass@1 en el benchmark SWE-bench Verified sin utilizar verificadores o múltiples ejecuciones, estableciendo un nuevo estado del arte (SOTA) entre los LLM basados en Qwen2.5-Coder-32B construidos sobre el marco de agentes OpenHands. Además, con la incorporación de técnicas de escalado en tiempo de prueba, el rendimiento mejora aún más hasta un 47.0% de precisión, superando los resultados SOTA anteriores para modelos con menos de 32B parámetros. Publicamos el checkpoint del modelo Skywork-SWE-32B para acelerar futuras investigaciones.

Chain-of-Experts: Desbloqueando el Poder de Comunicación de los Modelos de Mezcla de Expertos
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

Jun 23

ByZihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu

Proponemos Chain-of-Experts (CoE), una nueva arquitectura Mixture-of-Experts (MoE) que introduce comunicación secuencial entre expertos dentro de cada capa. A diferencia de los modelos MoE tradicionales, donde los expertos operan de manera independiente y en paralelo, CoE procesa los tokens de forma iterativa a través de una cadena de expertos dentro de una capa. Para permitir la selección dinámica de expertos en cada iteración, CoE emplea un enrutador dedicado en cada paso de iteración dentro de una capa. Este diseño permite que los tokens reevalúen y seleccionen diferentes expertos durante cada iteración, en lugar de ser asignados estáticamente. Como resultado, CoE introduce un mecanismo de enrutamiento flexible que aumenta la diversidad de combinaciones de expertos y enriquece la capacidad representativa del modelo. CoE demuestra un mejor rendimiento bajo un cómputo fijo: en tareas de razonamiento matemático, reduce la pérdida de validación de 1.20 a 1.12 en comparación con un MoE estándar. Más allá del rendimiento, CoE ofrece un nuevo eje de escalado: la profundidad a través de la iteración de expertos, que complementa el escalado convencional en anchura/profundidad. Por ejemplo, usar 2x iteraciones iguala el rendimiento de 3x selecciones de expertos (en anchura), mientras reduce el uso de memoria en un 17.6-42% en relación con otras estrategias de escalado. Nuestro análisis revela que los beneficios de CoE provienen de su estructura residual iterativa y la especialización mejorada de los expertos potenciada por el enrutamiento iterativo, que juntos desbloquean representaciones más expresivas. El código está disponible en https://github.com/ZihanWang314/coe.

GRPO-CARE: Aprendizaje por Refuerzo Consciente de la Consistencia para el Razonamiento Multimodal
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Jun 19

ByYi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu

Los enfoques recientes de aprendizaje por refuerzo, como GRPO supervisado por resultados, han avanzado el razonamiento de cadena de pensamiento en modelos de lenguaje grandes (LLMs), aunque su adaptación a modelos de lenguaje multimodales (MLLMs) aún no ha sido explorada. Para abordar la falta de evaluación rigurosa de los métodos de posentrenamiento para MLLMs, presentamos SEED-Bench-R1, un punto de referencia con videos complejos del mundo real que requieren una percepción y razonamiento equilibrados. Ofrece un amplio conjunto de entrenamiento y evalúa la generalización en tres desafíos crecientes: dentro de la distribución, entre entornos y entre entornos y tareas. Utilizando SEED-Bench-R1, encontramos que el GRPO estándar, aunque mejora la precisión de las respuestas, a menudo reduce la coherencia lógica entre los pasos de razonamiento y las respuestas, con solo un 57.9% de tasa de consistencia. Esto se debe a que las señales de recompensa se centran únicamente en las respuestas finales, fomentando atajos, y las penalizaciones estrictas de KL limitan la exploración. Para abordar esto, proponemos GRPO-CARE, un marco de RL consciente de la consistencia que optimiza tanto la corrección de las respuestas como la coherencia del razonamiento sin supervisión explícita. GRPO-CARE introduce una recompensa de dos niveles: (1) una recompensa base por la corrección de la respuesta, y (2) un bono de consistencia adaptativo, calculado comparando la probabilidad de razonamiento a respuesta del modelo (a través de un modelo de referencia de evolución lenta) con sus pares. Este mecanismo dual amplifica las recompensas para las rutas de razonamiento que son tanto correctas como lógicamente consistentes. Al reemplazar las penalizaciones de KL con este bono adaptativo, GRPO-CARE supera al GRPO estándar en SEED-Bench-R1, logrando una ganancia de rendimiento del 6.7% en el nivel de evaluación más difícil y una mejora del 24.5% en la consistencia. También muestra una fuerte transferibilidad, mejorando el rendimiento del modelo en diversos puntos de referencia de comprensión de videos. Nuestro trabajo contribuye con un punto de referencia diseñado sistemáticamente y un marco de posentrenamiento generalizable, avanzando en el desarrollo de MLLMs más interpretables y robustos.

Modelo Unificado de Visión-Lenguaje-Acción
Unified Vision-Language-Action Model

Jun 24

ByYuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang

Los modelos visión-lenguaje-acción (VLAs) han captado una atención significativa por su potencial para avanzar en la manipulación robótica. Sin embargo, enfoques previos dependen predominantemente de las capacidades de comprensión general de los modelos visión-lenguaje (VLMs) para generar señales de acción, a menudo pasando por alto la rica estructura temporal y causal incrustada en las observaciones visuales. En este artículo, presentamos UniVLA, un modelo VLA multimodal unificado y nativo que modela autoregresivamente las señales de visión, lenguaje y acción como secuencias de tokens discretos. Esta formulación permite un aprendizaje flexible de tareas multimodales, particularmente a partir de datos de video a gran escala. Al incorporar el modelado del mundo durante el post-entrenamiento, UniVLA captura dinámicas causales de los videos, facilitando una transferencia efectiva al aprendizaje de políticas descendentes, especialmente para tareas de largo horizonte. Nuestro enfoque establece nuevos resultados de vanguardia en varios puntos de referencia de simulación ampliamente utilizados, incluyendo CALVIN, LIBERO y Simplenv-Bridge, superando significativamente métodos anteriores. Por ejemplo, UniVLA logra una tasa de éxito promedio del 95.5% en el punto de referencia LIBERO, superando el 85.5% de pi0-FAST. Además, demostramos su amplia aplicabilidad en la manipulación del mundo real con ALOHA y la conducción autónoma.

ScaleCap: Generación Escalable de Subtítulos de Imágenes en Tiempo de Inferencia mediante Debiasing de Doble Modalidad
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Jun 24

ByLong Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin

Este artículo presenta ScaleCap, una estrategia escalable de generación de descripciones de imágenes en tiempo de inferencia que produce descripciones completas y detalladas. Los principales desafíos de la generación de alta calidad de descripciones de imágenes radican en los sesgos inherentes de los modelos de lenguaje y visión multimodal (LVLM): el sesgo multimodal resulta en una granularidad descriptiva desequilibrada, ofreciendo descripciones detalladas de algunos elementos mientras apenas menciona otros; el sesgo lingüístico conduce a descripciones alucinadas de objetos inexistentes. Para abordar estos problemas, proponemos una estrategia escalable de generación de descripciones sin sesgos, que enriquece y calibra continuamente la descripción con un mayor presupuesto de inferencia. Específicamente, proponemos dos componentes novedosos: respuesta heurística a preguntas y calificación contrastiva de oraciones. El primero genera preguntas específicas basadas en la imagen y las responde para inyectar progresivamente información relevante en la descripción. El segundo emplea decodificación contrastiva offline a nivel de oración para identificar y eliminar eficazmente las alucinaciones causadas por sesgos lingüísticos. Con un mayor costo de inferencia, ScaleCap plantea más preguntas heurísticas para capturar progresivamente detalles visuales adicionales, generando descripciones más precisas, equilibradas e informativas. Experimentos extensos de alineación de modalidades demuestran la efectividad de ScaleCap. La anotación de 450K imágenes con ScaleCap y su uso para el preentrenamiento de LVLM conduce a mejoras consistentes en el rendimiento en 11 benchmarks ampliamente utilizados. Además, ScaleCap muestra una riqueza y fidelidad sobresalientes en las descripciones generadas con dos tareas adicionales: reemplazar imágenes con descripciones en tareas de VQA, y reconstruir imágenes a partir de descripciones para evaluar la cobertura semántica. El código está disponible en https://github.com/Cooperx521/ScaleCap.

SWE-SQL: Iluminando las Rutas de los LLM para Resolver Problemas de SQL de Usuarios en Aplicaciones del Mundo Real
SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Jun 23

ByJinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng

La resolución de problemas complejos de SQL sigue siendo un cuello de botella significativo en las aplicaciones de bases de datos del mundo real. Los modelos de lenguaje de gran escala (LLMs) actuales, aunque competentes en la traducción de texto a SQL, no han sido evaluados rigurosamente en la tarea más desafiante de depuración de problemas de SQL. Para abordar esta brecha, presentamos BIRD-CRITIC, un nuevo punto de referencia para la depuración de problemas de SQL que comprende 530 tareas de PostgreSQL (BIRD-CRITIC-PG) y 570 tareas multi-dialecto (BIRD-CRITIC-Multi), extraídas de problemas auténticos de usuarios y reproducidas en nuevos entornos para facilitar una evaluación rigurosa. Las evaluaciones de referencia subrayan la complejidad de la tarea, con el modelo de razonamiento líder O3-Mini logrando solo un 38.87% de tasa de éxito en BIRD-CRITIC-PG y un 33.33% en BIRD-CRITIC-Multi. Mientras tanto, avanzar en los modelos de código abierto para tareas de bases de datos es crucial para empoderar el desarrollo local mientras se protege la privacidad de los datos. Por lo tanto, presentamos Six-Gym (Sql-fIX-Gym), un entorno de entrenamiento para elevar las capacidades de los modelos de código abierto en la depuración de problemas de SQL. Este entorno aprovecha la estrategia SQL-Rewind, que genera automáticamente conjuntos de datos ejecutables de problemas-soluciones mediante la ingeniería inversa de problemas a partir de SQLs verificados. Sin embargo, los métodos populares de ajuste fino basados en trayectorias no exploran señales de supervisión sustanciales. Además, proponemos f-Plan Boosting, que extrae planes de depuración de alto nivel de las soluciones de SQL, permitiendo que los LLMs maestros produzcan un 73.7% más de trayectorias exitosas para el entrenamiento. Integramos estos componentes en un agente de código abierto, Bird-Fixer. Basado en Qwen-2.5-Coder-14B, Bird-Fixer logra un 38.11% de tasa de éxito en BIRD-CRITIC-PG y un 29.65% en BIRD-CRITIC-Multi, superando a modelos propietarios líderes como Claude-3.7-Sonnet y GPT-4.1, marcando un paso significativo hacia la democratización de capacidades sofisticadas de depuración de SQL. El tablero de clasificación y el código fuente están disponibles en: https://bird-critic.github.io/

¿Pueden los Modelos de Lenguaje de Gran Escala Capturar las Discrepancias de los Anotadores Humanos?
Can Large Language Models Capture Human Annotator Disagreements?

Jun 24

ByJingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash

La variación en la anotación humana (es decir, los desacuerdos en la anotación) es común en el Procesamiento del Lenguaje Natural (PLN) y a menudo refleja información importante, como la subjetividad de la tarea y la ambigüedad de las muestras. Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan cada vez más para la anotación automática con el fin de reducir el esfuerzo humano, su evaluación suele centrarse en predecir las etiquetas de "verdad fundamental" basadas en la mayoría de votos. Sin embargo, aún no está claro si estos modelos también capturan la variación informativa en la anotación humana. Nuestro trabajo aborda esta brecha evaluando exhaustivamente la capacidad de los LLMs para predecir desacuerdos en la anotación sin acceso a etiquetas humanas repetidas. Nuestros resultados muestran que los LLMs tienen dificultades para modelar desacuerdos, lo cual puede pasarse por alto en evaluaciones basadas en etiquetas mayoritarias. Cabe destacar que, aunque el razonamiento estilo RLVR (Aprendizaje por Refuerzo con Recompensas Verificables) generalmente mejora el rendimiento de los LLMs, degrada su desempeño en la predicción de desacuerdos. Nuestros hallazgos resaltan la necesidad crítica de evaluar y mejorar los anotadores basados en LLMs en el modelado de desacuerdos. Código y datos disponibles en https://github.com/EdisonNi-hku/Disagreement_Prediction.

MMSearch-R1: Incentivando a los LMMs para la búsqueda
MMSearch-R1: Incentivizing LMMs to Search

Jun 25

ByJinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu

El despliegue robusto de modelos multimodales grandes (LMMs, por sus siglas en inglés) en escenarios del mundo real requiere acceso a fuentes de conocimiento externas, dada la complejidad y naturaleza dinámica de la información en entornos reales. Los enfoques existentes, como la generación aumentada por recuperación (RAG, por sus siglas en inglés) y los agentes de búsqueda con ingeniería de prompts, dependen de pipelines rígidos, lo que a menudo conduce a comportamientos de búsqueda ineficientes o excesivos. Presentamos MMSearch-R1, el primer marco de aprendizaje por refuerzo de extremo a extremo que permite a los LMMs realizar búsquedas bajo demanda y de múltiples turnos en entornos de Internet del mundo real. Nuestro marco integra herramientas de búsqueda tanto de imágenes como de texto, permitiendo que el modelo razone cuándo y cómo invocarlas, guiado por una recompensa basada en resultados con una penalización por búsqueda. Para apoyar el entrenamiento, recopilamos un conjunto de datos de preguntas y respuestas visuales (VQA, por sus siglas en inglés) de búsqueda multimodal a través de un pipeline semi-automatizado que cubre diversas necesidades de conocimiento visual y textual, y seleccionamos un subconjunto equilibrado con muestras que requieren búsqueda y muestras que no la requieren, lo que resulta esencial para moldear un comportamiento de búsqueda eficiente y bajo demanda. Experimentos exhaustivos en tareas VQA intensivas en conocimiento y de búsqueda de información muestran que nuestro modelo no solo supera a los baselines basados en RAG del mismo tamaño, sino que también iguala el rendimiento de un modelo basado en RAG más grande mientras reduce las llamadas de búsqueda en más del 30%. Además, analizamos hallazgos empíricos clave para ofrecer insights prácticos que impulsen la investigación en búsqueda multimodal.

La orientación en el dominio de la frecuencia permite un muestreo de alta fidelidad a escalas bajas de CFG.
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

Jun 24

BySeyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber

La guía sin clasificador (Classifier-Free Guidance, CFG) se ha convertido en un componente esencial de los modelos modernos de difusión condicional. Aunque es altamente efectiva en la práctica, los mecanismos subyacentes mediante los cuales CFG mejora la calidad, el detalle y la alineación con el prompt no se comprenden completamente. Presentamos una perspectiva novedosa sobre CFG al analizar sus efectos en el dominio de la frecuencia, mostrando que las frecuencias bajas y altas tienen impactos distintos en la calidad de la generación. Específicamente, la guía de baja frecuencia gobierna la estructura global y la alineación con la condición, mientras que la guía de alta frecuencia mejora principalmente la fidelidad visual. Sin embargo, aplicar una escala uniforme en todas las frecuencias —como se hace en CFG estándar— conduce a una sobresaturación y una reducción de la diversidad en escalas altas, así como a una degradación de la calidad visual en escalas bajas. Basándonos en estas observaciones, proponemos la guía desacoplada por frecuencia (Frequency-Decoupled Guidance, FDG), un enfoque efectivo que descompone CFG en componentes de baja y alta frecuencia y aplica fuerzas de guía separadas a cada componente. FDG mejora la calidad de la imagen en escalas de guía bajas y evita los inconvenientes de las escalas altas de CFG por diseño. A través de experimentos exhaustivos en múltiples conjuntos de datos y modelos, demostramos que FDG mejora consistentemente la fidelidad de las muestras mientras preserva la diversidad, lo que resulta en una mejora del FID y el recall en comparación con CFG, estableciendo nuestro método como una alternativa plug-and-play a la guía sin clasificador estándar.

SRFT: Un método de una sola etapa con ajuste fino supervisado y por refuerzo para el razonamiento
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Jun 24

ByYuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en tareas de razonamiento, aunque la integración óptima del Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL) sigue siendo un desafío fundamental. A través de un análisis exhaustivo de las distribuciones de tokens, la dinámica de aprendizaje y los mecanismos de integración desde perspectivas basadas en la entropía, revelamos diferencias clave entre estos paradigmas: el SFT induce cambios globales de grano grueso en las distribuciones de políticas de los LLMs, mientras que el RL realiza optimizaciones selectivas de grano fino, con la entropía como un indicador crítico de la efectividad del entrenamiento. Basándonos en estas observaciones, proponemos el Ajuste Fino Supervisado por Refuerzo (SRFT), un método de una sola etapa que unifica ambos paradigmas de ajuste fino mediante mecanismos de ponderación conscientes de la entropía. Nuestro enfoque aplica simultáneamente SFT y RL para optimizar directamente el LLM utilizando demostraciones y rollouts de autoexploración, en lugar de métodos secuenciales de dos etapas. Experimentos extensos muestran que el SRFT alcanza un 59.1% de precisión promedio, superando a los métodos sin RL en un 9.0% en cinco benchmarks de razonamiento matemático y en un 10.9% en tres benchmarks fuera de distribución.

SimpleGVR: Una Línea Base Simple para la Superresolución de Video con Cascada Latente
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

Jun 24

ByLiangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong

Los modelos de difusión latente han surgido como un paradigma líder para la generación eficiente de videos. Sin embargo, a medida que las expectativas de los usuarios se orientan hacia salidas de mayor resolución, depender únicamente del cómputo latente resulta insuficiente. Un enfoque prometedor implica desacoplar el proceso en dos etapas: generación de contenido semántico y síntesis de detalles. La primera emplea un modelo base computacionalmente intensivo en resoluciones más bajas, mientras que la segunda aprovecha un modelo ligero de super-resolución de video en cascada (VSR) para lograr una salida de alta resolución. En este trabajo, nos centramos en estudiar principios clave de diseño para los modelos VSR en cascada, los cuales están poco explorados actualmente. Primero, proponemos dos estrategias de degradación para generar pares de entrenamiento que imiten mejor las características de salida del modelo base, asegurando la alineación entre el modelo VSR y su generador ascendente. Segundo, proporcionamos insights críticos sobre el comportamiento del modelo VSR mediante un análisis sistemático de (1) estrategias de muestreo de pasos temporales y (2) efectos de la amplificación de ruido en entradas de baja resolución (LR). Estos hallazgos informan directamente nuestras innovaciones arquitectónicas y de entrenamiento. Finalmente, introducimos la unidad temporal entrelazada y la atención local dispersa para lograr un entrenamiento e inferencia eficientes, reduciendo drásticamente la sobrecarga computacional. Experimentos extensivos demuestran la superioridad de nuestro marco sobre los métodos existentes, con estudios de ablación que confirman la eficacia de cada elección de diseño. Nuestro trabajo establece una línea base simple pero efectiva para la generación de super-resolución de video en cascada, ofreciendo insights prácticos para guiar avances futuros en sistemas de síntesis en cascada eficientes.

Escalado de Decodificación Especulativa con Razonamiento Anticipado
Scaling Speculative Decoding with Lookahead Reasoning

Jun 24

ByYichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang

Los modelos de razonamiento destacan por generar largas cadenas de pensamiento, pero decodificar los miles de tokens resultantes es lento. La decodificación especulativa a nivel de token (SD, por sus siglas en inglés) ayuda, pero su beneficio está limitado, ya que la probabilidad de que una conjetura completa de gamma-tokens sea correcta disminuye exponencialmente a medida que gamma crece. Esto significa que asignar más capacidad de cómputo para borradores de tokens más largos enfrenta un límite algorítmico, lo que hace que la aceleración sea modesta e independiente del hardware. Elevamos este límite con el Razonamiento de Anticipación, que aprovecha una segunda capa de paralelismo a nivel de paso. Nuestra idea clave es que los modelos de razonamiento generan paso a paso, y cada paso solo necesita ser semánticamente correcto, no una coincidencia exacta de tokens. En el Razonamiento de Anticipación, un modelo de borrador ligero propone varios pasos futuros; el modelo objetivo expande cada propuesta en un solo paso por lotes, y un verificador mantiene los pasos semánticamente correctos mientras permite que el objetivo regenere los que fallen. La SD a nivel de token sigue operando dentro de cada paso de razonamiento, por lo que las dos capas de paralelismo se multiplican. Demostramos que el Razonamiento de Anticipación eleva la aceleración máxima de la SD tanto teórica como empíricamente. En los benchmarks de GSM8K, AIME y otros, el Razonamiento de Anticipación mejora la aceleración de la SD de 1.4x a 2.1x mientras preserva la calidad de las respuestas, y su aceleración escala mejor con un mayor rendimiento de GPU. Nuestro código está disponible en https://github.com/hao-ai-lab/LookaheadReasoning.

USAD: Representación Universal de Voz y Audio mediante Destilación
USAD: Universal Speech and Audio Representation via Distillation

Jun 23

ByHeng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu

El aprendizaje auto-supervisado (SSL, por sus siglas en inglés) ha revolucionado las representaciones de audio, aunque los modelos suelen ser específicos de dominio, centrándose en tareas de habla o no habla. En este trabajo, presentamos la Distilación Universal de Habla y Audio (USAD, por sus siglas en inglés), un enfoque unificado para el aprendizaje de representaciones de audio que integra diversos tipos de audio —habla, sonido y música— en un solo modelo. USAD emplea una distilación eficiente de capa a capa a partir de modelos SSL específicos de dominio para entrenar un estudiante en un conjunto de datos de audio exhaustivo. USAD ofrece un rendimiento competitivo en varios benchmarks y conjuntos de datos, incluyendo tareas de procesamiento de habla a nivel de marco e instancia, etiquetado de audio y clasificación de sonidos, logrando resultados cercanos al estado del arte con un solo codificador en los benchmarks SUPERB y HEAR.

Perdido en la mezcla: Evaluando la comprensión de LLM sobre texto con cambio de código
Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text

Jun 16

ByAmr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang

El cambio de código (CSW, por sus siglas en inglés) es el acto de alternar entre dos o más lenguajes dentro de un mismo discurso. Este fenómeno está ampliamente extendido en comunidades multilingües y es cada vez más frecuente en el contenido en línea, donde los usuarios mezclan idiomas de manera natural en su comunicación cotidiana. Como resultado, los Modelos de Lenguaje de Gran Escala (LLMs), que ahora son fundamentales para el procesamiento y generación de contenido, están frecuentemente expuestos a entradas con cambio de código. Dado su uso generalizado, es crucial comprender cómo los LLMs procesan y razonan sobre este tipo de texto multilingüe. Este artículo presenta una evaluación sistemática de la comprensión de los LLMs bajo el cambio de código, generando variantes CSW de benchmarks establecidos de razonamiento y comprensión. Si bien se observa una degradación cuando los tokens en idiomas extranjeros interrumpen el texto en inglés—incluso bajo restricciones lingüísticas—la incorporación del inglés en otros idiomas a menudo mejora la comprensión. Aunque el uso de prompts arroja resultados mixtos, el ajuste fino ofrece un camino más estable para mitigar la degradación.

¿Por qué los LLM de código abierto tienen dificultades con el análisis de datos? Un estudio empírico sistemático
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

Jun 24

ByYuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) muestran potencial para automatizar tareas de análisis de datos, aunque los modelos de código abierto enfrentan limitaciones significativas en escenarios que requieren un razonamiento intensivo. En este trabajo, investigamos estrategias para mejorar las capacidades de análisis de datos de los LLMs de código abierto. Mediante la creación de un conjunto de datos inicial que abarca escenarios diversos y realistas, evaluamos los modelos en tres dimensiones: comprensión de datos, generación de código y planificación estratégica. Nuestro análisis revela tres hallazgos clave: (1) La calidad de la planificación estratégica es el principal determinante del rendimiento del modelo; (2) El diseño de la interacción y la complejidad de la tarea influyen significativamente en las capacidades de razonamiento; (3) La calidad de los datos tiene un impacto mayor que la diversidad para alcanzar un rendimiento óptimo. Aprovechamos estas conclusiones para desarrollar una metodología de síntesis de datos, demostrando mejoras significativas en las capacidades de razonamiento analítico de los LLMs de código abierto.

Afinamiento Ortogonal Escalable
Orthogonal Finetuning Made Scalable

Jun 24

ByZeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf

El ajuste fino ortogonal (OFT, por sus siglas en inglés) ofrece una adaptación altamente eficiente en términos de parámetros mientras previene el olvido catastrófico, pero sus altas demandas de tiempo de ejecución y memoria limitan su implementación práctica. Identificamos el cuello de botella computacional central en OFT como su implementación centrada en pesos, que depende de multiplicaciones matriz-matriz costosas con complejidad cúbica. Para superar esto, proponemos OFTv2, una reformulación centrada en entradas que, en su lugar, utiliza multiplicaciones matriz-vector (es decir, computación sin matrices), reduciendo el costo computacional a cuadrático. Además, introducimos la parametrización Cayley-Neumann, una parametrización ortogonal eficiente que aproxima la inversión de matrices en la transformación de Cayley mediante una serie de Neumann truncada. Estas modificaciones permiten que OFTv2 logre un entrenamiento hasta 10 veces más rápido y un uso de memoria GPU 3 veces menor sin comprometer el rendimiento. Adicionalmente, extendemos OFTv2 para admitir el ajuste fino de modelos base cuantizados y demostramos que supera al popular QLoRA en estabilidad de entrenamiento, eficiencia y uso de memoria.

KnowRL: Explorando el Aprendizaje por Refuerzo Basado en Conocimiento para la Factualidad
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality

Jun 24

ByBaochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Los Modelos de Lenguaje de Gran Escala (LLMs), particularmente los modelos de pensamiento lento, suelen exhibir una grave alucinación, generando contenido incorrecto debido a su incapacidad para reconocer con precisión los límites del conocimiento durante el razonamiento. Si bien el Aprendizaje por Refuerzo (RL) puede mejorar las habilidades de razonamiento complejo, su mecanismo de recompensa orientado a resultados a menudo carece de supervisión factual sobre el proceso de pensamiento, lo que agrava aún más el problema de la alucinación. Para abordar la alta alucinación en los modelos de pensamiento lento, proponemos el RL mejorado con conocimiento, KnowRL. KnowRL guía a los modelos para realizar un pensamiento lento basado en hechos al integrar una recompensa de factualidad, basada en la verificación del conocimiento, en el proceso de entrenamiento de RL, ayudándoles a reconocer sus límites de conocimiento. Este enfoque de entrada factual específica durante el entrenamiento de RL permite que el modelo aprenda e internalice estrategias de razonamiento basadas en hechos. Al recompensar directamente la adherencia a los hechos dentro de los pasos de razonamiento, KnowRL fomenta un proceso de pensamiento más confiable. Los resultados experimentales en tres conjuntos de datos de evaluación de alucinación y dos conjuntos de datos de evaluación de razonamiento demuestran que KnowRL mitiga efectivamente las alucinaciones en los modelos de pensamiento lento mientras mantiene sus capacidades originales de razonamiento sólido. Nuestro código está disponible en https://github.com/zjunlp/KnowRL.

Mejora de la Generación Progresiva con Emparejamiento de Flujo Descomponible
Improving Progressive Generation with Decomposable Flow Matching

Jun 24

ByMoayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

La generación de modalidades visuales de alta dimensionalidad es una tarea computacionalmente intensiva. Una solución común es la generación progresiva, donde las salidas se sintetizan de manera espectral autorregresiva de gruesa a fina. Si bien los modelos de difusión se benefician de la naturaleza de gruesa a fina del proceso de eliminación de ruido, rara vez se adoptan arquitecturas explícitas de múltiples etapas. Estas arquitecturas han aumentado la complejidad del enfoque general, introduciendo la necesidad de una formulación de difusión personalizada, transiciones entre etapas dependientes de la descomposición, muestreadores ad-hoc o una cascada de modelos. Nuestra contribución, el **Emparejamiento de Flujo Descomponible (DFM)**, es un marco simple y efectivo para la generación progresiva de medios visuales. DFM aplica el Emparejamiento de Flujo de manera independiente en cada nivel de una representación multiescala definida por el usuario (como la pirámide Laplaciana). Como muestran nuestros experimentos, nuestro enfoque mejora la calidad visual tanto para imágenes como para videos, obteniendo resultados superiores en comparación con marcos multietapa anteriores. En Imagenet-1k 512px, DFM logra mejoras del 35.2% en las puntuaciones FDD sobre la arquitectura base y del 26.4% sobre la línea base de mejor rendimiento, bajo el mismo cómputo de entrenamiento. Cuando se aplica al ajuste fino de modelos grandes, como FLUX, DFM muestra una velocidad de convergencia más rápida hacia la distribución de entrenamiento. Crucialmente, todas estas ventajas se logran con un solo modelo, simplicidad arquitectónica y modificaciones mínimas en las tuberías de entrenamiento existentes.

Operación y Mantenimiento Inteligente y Optimización de Modelos Predictivos para Mejorar la Eficiencia en la Generación de Energía Eólica
Intelligent Operation and Maintenance and Prediction Model Optimization for Improving Wind Power Generation Efficiency

Jun 19

ByXun Liu, Xiaobin Wu, Jiaqi He, Rajan Das Gupta

Este estudio explora la efectividad de los modelos de mantenimiento predictivo y la optimización de los sistemas inteligentes de Operación y Mantenimiento (O&M) para mejorar la eficiencia en la generación de energía eólica. A través de una investigación cualitativa, se realizaron entrevistas estructuradas a cinco ingenieros y gerentes de mantenimiento de parques eólicos, cada uno con amplia experiencia en operaciones de turbinas. Utilizando análisis temático, el estudio reveló que, aunque los modelos de mantenimiento predictivo reducen eficazmente el tiempo de inactividad al identificar fallas mayores, a menudo tienen dificultades para detectar fallos menores y graduales. Los desafíos clave identificados incluyen falsos positivos, mal funcionamiento de sensores y dificultades para integrar nuevos modelos con sistemas de turbinas más antiguos. Tecnologías avanzadas como gemelos digitales, sistemas SCADA y monitoreo de condición han mejorado significativamente las prácticas de mantenimiento de turbinas. Sin embargo, estas tecnologías aún requieren mejoras, particularmente en el refinamiento de la IA y la integración de datos en tiempo real. Los hallazgos enfatizan la necesidad de un desarrollo continuo para optimizar completamente el rendimiento de las turbinas eólicas y apoyar la adopción más amplia de energías renovables.

Mem4Nav: Mejorando la Navegación Visión-Lenguaje en Entornos Urbanos con un Sistema Jerárquico de Memoria a Corto-Largo Plazo con Cognición Espacial
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

Jun 24

ByLixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li

La Navegación Visión-Lenguaje (VLN) en entornos urbanos a gran escala requiere que los agentes corporeizados fundamenten instrucciones lingüísticas en escenas complejas y recuerden experiencias relevantes a lo largo de horizontes temporales prolongados. Los enfoques modulares previos ofrecen interpretabilidad pero carecen de una memoria unificada, mientras que los agentes de extremo a extremo basados en (M)LLM sobresalen en fusionar visión y lenguaje, aunque siguen limitados por ventanas de contexto fijas y razonamiento espacial implícito. Presentamos Mem4Nav, un sistema jerárquico de memoria a corto y largo plazo para cognición espacial que puede potenciar cualquier arquitectura base de VLN. Mem4Nav combina un octree disperso para indexación de vóxeles de grano fino con un grafo topológico semántico para conectividad de puntos de referencia de alto nivel, almacenando ambos en tokens de memoria entrenables incrustados mediante un Transformer reversible. La memoria a largo plazo (LTM) comprime y retiene observaciones históricas tanto en los nodos del octree como del grafo, mientras que la memoria a corto plazo (STM) almacena en caché entradas multimodales recientes en coordenadas relativas para evitar obstáculos en tiempo real y planificación local. En cada paso, la recuperación de la STM reduce drásticamente el contexto dinámico, y, cuando se necesita un historial más profundo, los tokens de la LTM se decodifican sin pérdidas para reconstruir incrustaciones pasadas. Evaluado en Touchdown y Map2Seq con tres arquitecturas base (modular, VLN de última generación con LLM basado en prompts, y VLN de última generación con MLLM de atención segmentada), Mem4Nav logra mejoras de 7-13 puntos porcentuales en Completación de Tareas, reducción suficiente de SPD y una mejora de >10 pp en nDTW. Las ablaciones confirman la indispensabilidad tanto del mapa jerárquico como de los módulos de memoria dual. Nuestro código es de código abierto en https://github.com/tsinghua-fib-lab/Mem4Nav.