Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Reflexionar, Reintentar, Recompensar: Mejora Autónoma de Modelos de Lenguaje mediante Aprendizaje por Refuerzo
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

May 30

ByShelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh

267

Exploramos un método para mejorar el rendimiento de los modelos de lenguaje de gran escala mediante la autorreflexión y el aprendizaje por refuerzo. Al incentivar al modelo a generar mejores autorreflexiones cuando responde incorrectamente, demostramos que la capacidad del modelo para resolver tareas complejas y verificables puede mejorarse incluso cuando la generación de datos sintéticos no es factible y solo se dispone de retroalimentación binaria. Nuestro marco de trabajo opera en dos etapas: primero, al fallar en una tarea dada, el modelo genera un comentario autorreflexivo que analiza su intento previo; segundo, se le da al modelo otro intento en la tarea con la autorreflexión en contexto. Si el intento posterior tiene éxito, se recompensan los tokens generados durante la fase de autorreflexión. Nuestros resultados experimentales muestran mejoras sustanciales en el rendimiento en una variedad de arquitecturas de modelos, con mejoras de hasta el 34.7% en la escritura de ecuaciones matemáticas y del 18.1% en la llamada de funciones. Notablemente, los modelos más pequeños ajustados (de 1.5 mil millones a 7 mil millones de parámetros) superan a modelos de la misma familia que son 10 veces más grandes. Por lo tanto, nuestro paradigma novedoso es una vía emocionante hacia modelos de lenguaje más útiles y confiables que pueden automejorarse en tareas desafiantes con retroalimentación externa limitada.

UniWorld: Codificadores Semánticos de Alta Resolución para la Comprensión y Generación Visual Unificada
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Jun 3

ByBin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan

Aunque los modelos unificados existentes ofrecen un rendimiento sólido en la comprensión de visión y lenguaje y en la generación de texto a imagen, están limitados en la exploración de tareas de percepción y manipulación de imágenes, las cuales son urgentemente demandadas por los usuarios para una amplia gama de aplicaciones. Recientemente, OpenAI lanzó su potente modelo GPT-4o-Image para la percepción y manipulación integral de imágenes, logrando una capacidad expresiva y captando el interés de la comunidad. Al observar el rendimiento de GPT-4o-Image en nuestros experimentos cuidadosamente diseñados, inferimos que GPT-4o-Image aprovecha características extraídas por codificadores semánticos en lugar de VAE, mientras que los VAE se consideran componentes esenciales en muchos modelos de manipulación de imágenes. Motivados por estas observaciones inspiradoras, presentamos un marco generativo unificado llamado UniWorld, basado en características semánticas proporcionadas por potentes modelos de visión-lenguaje y codificadores semánticos contrastivos. Como resultado, construimos un modelo unificado robusto utilizando solo el 1% de los datos de BAGEL, el cual supera consistentemente a BAGEL en benchmarks de edición de imágenes. UniWorld también mantiene capacidades competitivas de comprensión y generación de imágenes, logrando un rendimiento sólido en múltiples tareas de percepción de imágenes. Hacemos completamente de código abierto nuestros modelos, incluyendo los pesos del modelo, scripts de entrenamiento y evaluación, y conjuntos de datos.

VS-Bench: Evaluación de VLMs para el razonamiento estratégico y la toma de decisiones en entornos multiagente
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Jun 3

ByZelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang

Los avances recientes en los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés) han ampliado sus capacidades hacia tareas de agentes interactivos, aunque los puntos de referencia existentes siguen limitados a entornos de un solo agente o basados únicamente en texto. En contraste, los escenarios del mundo real a menudo involucran múltiples agentes que interactúan en contextos visuales y lingüísticos ricos, lo que plantea desafíos tanto en observaciones multimodales como en interacciones estratégicas. Para cerrar esta brecha, presentamos Visual Strategic Bench (VS-Bench), un punto de referencia multimodal que evalúa los VLMs en razonamiento estratégico y toma de decisiones en entornos multiagente. VS-Bench comprende ocho entornos basados en visión que abarcan interacciones cooperativas, competitivas y de motivos mixtos, diseñados para evaluar la capacidad de los agentes para predecir los movimientos futuros de otros y optimizar objetivos a largo plazo. Consideramos dos dimensiones de evaluación complementarias, incluyendo la evaluación fuera de línea del razonamiento estratégico mediante la precisión en la predicción de la siguiente acción y la evaluación en línea de la toma de decisiones mediante el retorno normalizado por episodio. Experimentos extensos con catorce VLMs líderes revelan una brecha significativa entre los modelos actuales y el rendimiento óptimo, con los mejores modelos alcanzando un 47.8% de precisión en la predicción y un 24.3% de retorno normalizado. Además, realizamos análisis en profundidad sobre observaciones multimodales, escalamiento en tiempo de prueba, comportamientos sociales y casos de fallo de los agentes VLM. Al estandarizar la evaluación y resaltar las limitaciones de los modelos existentes, visualizamos VS-Bench como una base para futuras investigaciones sobre agentes multimodales estratégicos. El código y los datos están disponibles en https://vs-bench.github.io.

SynthRL: Escalando el razonamiento visual con síntesis de datos verificable
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Jun 2

ByZijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh

Los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) entrenados mediante aprendizaje por refuerzo con recompensa verificable (RLVR, por sus siglas en inglés) han mostrado avances notables en la escalabilidad efectiva del cómputo en tiempo de prueba. En este trabajo, investigamos cómo los datos sintetizados de RL pueden mejorar aún más el RLVR. Para ello, proponemos SynthRL, una pipeline escalable y garantizada para el escalamiento automático de datos en el entrenamiento de RL orientado al razonamiento. SynthRL consta de tres etapas clave: (1) selección de preguntas semilla con una distribución adecuada, (2) aumento de estas preguntas en variantes más desafiantes mientras se preservan las respuestas originales, y (3) una etapa de verificación garantizada que asegura una corrección casi perfecta y un aumento en la dificultad. Nuestros experimentos empíricos demuestran la escalabilidad y efectividad de SynthRL. Al aplicarlo al conjunto de datos MMK12, SynthRL sintetiza más de 3.3K preguntas adicionales verificables y desafiantes a partir de aproximadamente 8K muestras semilla. Los modelos entrenados con nuestros datos sintetizados logran mejoras consistentes en cinco benchmarks de razonamiento matemático visual fuera del dominio, con una mejora significativa sobre los modelos base entrenados únicamente con datos semilla. Cabe destacar que un análisis detallado revela que las mejoras son más pronunciadas en las muestras de evaluación más desafiantes, lo que resalta la efectividad de SynthRL para elicitar patrones de razonamiento más profundos y complejos.

GUI-Actor: Fundamentación Visual Independiente de Coordenadas para Agentes de Interfaz Gráfica
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Jun 3

ByQianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao

Uno de los principales desafíos en la construcción de agentes GUI impulsados por VLM es el anclaje visual, es decir, localizar la región adecuada de la pantalla para la ejecución de acciones basándose tanto en el contenido visual como en los planes textuales. La mayoría de los trabajos existentes formula esto como una tarea de generación de coordenadas basada en texto. Sin embargo, estos enfoques presentan varias limitaciones: alineación espacial-semántica débil, incapacidad para manejar objetivos de supervisión ambiguos y un desajuste entre la naturaleza densa de las coordenadas de pantalla y la granularidad gruesa a nivel de parches de las características visuales extraídas por modelos como los Vision Transformers. En este artículo, proponemos GUI-Actor, un método basado en VLM para el anclaje GUI sin coordenadas. En su núcleo, GUI-Actor introduce una cabeza de acción basada en atención que aprende a alinear un token dedicado <ACTOR> con todos los tokens de parches visuales relevantes, permitiendo que el modelo proponga una o más regiones de acción en un único paso hacia adelante. En línea con esto, diseñamos además un verificador de anclaje para evaluar y seleccionar la región de acción más plausible entre las candidatas propuestas para la ejecución de la acción. Experimentos extensivos muestran que GUI-Actor supera a los métodos previos más avanzados en múltiples benchmarks de anclaje de acciones GUI, con una mejora en la generalización a resoluciones y diseños de pantalla no vistos. Notablemente, GUI-Actor-7B incluso supera a UI-TARS-72B (38.1) en ScreenSpot-Pro, alcanzando puntajes de 40.7 con Qwen2-VL y 44.6 con Qwen2.5-VL como backbones. Además, al incorporar el verificador, encontramos que ajustar finamente solo la cabeza de acción recién introducida (~100M parámetros para el modelo de 7B) mientras se mantiene congelado el backbone VLM es suficiente para lograr un rendimiento comparable a los modelos más avanzados anteriores, destacando que GUI-Actor puede dotar al VLM subyacente con capacidades efectivas de anclaje sin comprometer sus fortalezas de propósito general.

CSVQA: Un punto de referencia multimodal en chino para evaluar las capacidades de razonamiento STEM en modelos de lenguaje visual
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

May 30

ByAi Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song

Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado avances notables en la comprensión multimodal, aunque sus capacidades para el razonamiento científico siguen siendo insuficientemente evaluadas. Los puntos de referencia multimodales actuales se centran principalmente en evaluar la comprensión genérica de imágenes o el razonamiento basado en texto, careciendo de contextos científicos auténticos que requieran la integración de conocimientos específicos del dominio con el análisis de evidencia visual. Para abordar esta brecha, presentamos CSVQA, un punto de referencia multimodal diagnóstico diseñado específicamente para evaluar el razonamiento científico a través de la respuesta a preguntas visuales fundamentadas en dominios específicos. Nuestro punto de referencia incluye 1,378 pares de preguntas-respuestas cuidadosamente construidos que abarcan diversas disciplinas STEM, cada uno de los cuales exige conocimientos del dominio, integración de evidencia visual y razonamiento de orden superior. En comparación con los puntos de referencia multimodales anteriores, CSVQA pone un mayor énfasis en el contenido científico del mundo real y el razonamiento complejo. Además, proponemos un protocolo de evaluación riguroso para evaluar sistemáticamente si las predicciones del modelo están respaldadas por pasos de razonamiento intermedios válidos basados en explicaciones curadas. Nuestra evaluación exhaustiva de 15 VLMs en este punto de referencia revela disparidades notables en el rendimiento, ya que incluso el modelo propietario mejor clasificado alcanza solo un 49.6\% de precisión. Esta evidencia empírica subraya la necesidad urgente de avanzar en las capacidades de razonamiento científico de los VLMs. Nuestro CSVQA está disponible en https://huggingface.co/datasets/Skywork/CSVQA.

OmniSpatial: Hacia un Benchmark Integral de Razonamiento Espacial para Modelos de Lenguaje y Visión
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Jun 3

ByMengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi

El razonamiento espacial es un aspecto clave de la psicología cognitiva y sigue siendo un cuello de botella importante para los modelos actuales de visión y lenguaje (VLMs, por sus siglas en inglés). Aunque se ha realizado una extensa investigación para evaluar o mejorar la comprensión de los VLMs sobre relaciones espaciales básicas, como distinguir izquierda de derecha, cerca de lejos y el conteo de objetos, estas tareas representan solo el nivel más fundamental del razonamiento espacial. En este trabajo, presentamos OmniSpatial, un punto de referencia integral y desafiante para el razonamiento espacial, basado en la psicología cognitiva. OmniSpatial abarca cuatro categorías principales: razonamiento dinámico, lógica espacial compleja, interacción espacial y toma de perspectiva, con 50 subcategorías detalladas. Mediante la recopilación de datos en Internet y una cuidadosa anotación manual, construimos más de 1.5K pares de preguntas y respuestas. Experimentos extensos muestran que tanto los VLMs de código abierto como los de código cerrado, así como los modelos existentes de razonamiento y comprensión espacial, presentan limitaciones significativas en la comprensión espacial integral. Además, analizamos casos de fallo y proponemos posibles direcciones para futuras investigaciones.

OThink-R1: Cambio Intrínseco entre Modos de Pensamiento Rápido/Lento para la Mitigación del Sobre-Razonamiento
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Jun 3

ByShengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang

Los modelos avanzados recientes de razonamiento a gran escala (LRMs, por sus siglas en inglés) aprovechan el razonamiento extendido de cadena de pensamiento (CoT, por sus siglas en inglés) para resolver tareas complejas, logrando un rendimiento de vanguardia. A pesar de su éxito, identificamos un problema crítico: una porción sustancial de tareas simples resueltas por los LRMs también pueden ser abordadas por modelos de lenguaje grandes (LLMs, por sus siglas en inglés) no basados en razonamiento, utilizando significativamente menos tokens, lo que indica que el razonamiento complejo puede no ser siempre necesario. Para abordar esto, analizamos sistemáticamente las trayectorias de razonamiento de los LRMs y presentamos un método que utiliza paradigmas identificados y un LLM-Juez para clasificar estas trayectorias como Razonamiento Redundante o Razonamiento Esencial. Además, introducimos OThink-R1, un método que poda los pasos de razonamiento redundantes mientras preserva la validez lógica. OThink-R1 emplea dinámicamente el modo de no pensamiento (pensamiento rápido) para problemas sencillos, mientras que recurre al pensamiento deliberado (pensamiento lento) para problemas complejos. Los experimentos en tareas matemáticas y de respuesta a preguntas demuestran que OThink-R1 reduce la redundancia de razonamiento en casi un 23% en promedio sin comprometer la precisión, ofreciendo pautas prácticas para modelos de razonamiento eficientes. El código está disponible en https://github.com/AgenticIR-Lab/OThink-R1.

FinMME: Conjunto de Datos de Referencia para la Evaluación del Razonamiento Multi-Modal en el Ámbito Financiero
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30

ByJunyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han experimentado un desarrollo acelerado en los últimos años. Sin embargo, en el ámbito financiero, existe una notable carencia de conjuntos de datos de evaluación multimodal efectivos y especializados. Para impulsar el desarrollo de los MLLMs en el dominio financiero, presentamos FinMME, que abarca más de 11,000 muestras de investigación financiera de alta calidad en 18 dominios financieros y 6 clases de activos, incluyendo 10 tipos principales de gráficos y 21 subtipos. Garantizamos la calidad de los datos mediante 20 anotadores y mecanismos de validación cuidadosamente diseñados. Además, desarrollamos FinScore, un sistema de evaluación que incorpora penalizaciones por alucinaciones y una evaluación multidimensional de capacidades para proporcionar una valoración imparcial. Los resultados experimentales extensivos demuestran que incluso modelos de última generación como GPT-4o muestran un rendimiento insatisfactorio en FinMME, resaltando su naturaleza desafiante. El benchmark exhibe una alta robustez, con variaciones en las predicciones bajo diferentes indicaciones que se mantienen por debajo del 1%, demostrando una fiabilidad superior en comparación con los conjuntos de datos existentes. Nuestro conjunto de datos y protocolo de evaluación están disponibles en https://huggingface.co/datasets/luojunyu/FinMME y https://github.com/luo-junyu/FinMME.

Cerebro Visual Encarnado: Permitir que los Modelos de Lenguaje Multimodales a Gran Escala Vean, Piensen y Controlen en Espacios
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

May 30

ByGen Luo, Ganlin Yang, Ziyang Gong, Guanzhou Chen, Haonan Duan, Erfei Cui, Ronglei Tong, Zhi Hou, Tianyi Zhang, Zhe Chen, Shenglong Ye, Lewei Lu, Jingbo Wang, Wenhai Wang, Jifeng Dai, Yu Qiao, Rongrong Ji, Xizhou Zhu

El notable progreso de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) ha atraído una atención creciente hacia su extensión a entidades físicas como los robots con patas. Esto típicamente requiere que los MLLMs no solo adquieran habilidades de comprensión multimodal, sino que también integren capacidades de razonamiento visual-espacial e interacción física. Sin embargo, los métodos existentes luchan por unificar estas capacidades debido a sus diferencias fundamentales. En este artículo, presentamos el Cerebro Visual Embebido (VeBrain), un marco unificado para la percepción, el razonamiento y el control en el mundo real. VeBrain reformula el control robótico en tareas comunes basadas en texto de MLLMs en el espacio visual 2D, unificando así los objetivos y los espacios de mapeo de diferentes tareas. Luego, se propone un nuevo adaptador robótico para convertir las señales de control textual de los MLLMs en políticas de movimiento de robots reales. Desde la perspectiva de los datos, introducimos además VeBrain-600k, un conjunto de datos de instrucciones de alta calidad que abarca diversas capacidades de VeBrain. En VeBrain-600k, dedicamos cientos de horas a recopilar, curar y anotar los datos, y adoptamos el razonamiento en cadena multimodal (CoT, por sus siglas en inglés) para mezclar las diferentes capacidades en una sola conversación. Experimentos extensos en 13 benchmarks multimodales y 5 benchmarks de inteligencia espacial demuestran el rendimiento superior de VeBrain en comparación con MLLMs existentes como Qwen2.5-VL. Cuando se despliega en robots con patas y brazos robóticos, VeBrain muestra una fuerte adaptabilidad, flexibilidad y capacidades compositivas en comparación con los métodos existentes. Por ejemplo, en comparación con Qwen2.5-VL, VeBrain no solo logra mejoras sustanciales en MMVet con un +5.6%, sino que también sobresale en tareas de robots con patas con un promedio de ganancias del +50%.

DINGO: Inferencia con Restricciones para Modelos de Lenguaje Basados en Difusión
DINGO: Constrained Inference for Diffusion LLMs

May 29

ByTarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh

Los modelos de lenguaje basados en difusión (Diffusion LLMs) han surgido como una alternativa prometedora a los modelos de lenguaje autoregresivos convencionales, ofreciendo un potencial significativo para mejorar la eficiencia en tiempo de ejecución. Sin embargo, los modelos de difusión existentes carecen de la capacidad para hacer cumplir de manera demostrable restricciones formales especificadas por el usuario, como expresiones regulares, lo que los hace poco confiables para tareas que requieren salidas estructuradas, como la generación de JSON con esquema fijo. A diferencia de los modelos autoregresivos, que generan tokens de manera secuencial, los Diffusion LLMs predicen un bloque de tokens en paralelo. Este paralelismo hace que los algoritmos tradicionales de decodificación restringida, diseñados para la predicción secuencial de tokens, sean ineficaces para preservar la verdadera distribución de salida. Para abordar esta limitación, proponemos DINGO, una estrategia de decodificación restringida basada en programación dinámica que es tanto eficiente como demostrablemente preservadora de la distribución. DINGO permite muestrear cadenas de salida con la mayor probabilidad bajo la distribución predicha por el modelo, mientras satisface estrictamente cualquier expresión regular especificada por el usuario. En benchmarks estándar de matemáticas simbólicas y generación de JSON, DINGO logra una mejora de hasta 68 puntos porcentuales en comparación con la inferencia no restringida.

MotionSight: Potenciando la Comprensión de Movimientos de Granularidad Fina en Modelos de Lenguaje Multimodales
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Jun 2

ByYipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai

A pesar de los avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), su competencia en la comprensión detallada del movimiento en videos sigue siendo críticamente limitada. A menudo carecen de diferenciación entre fotogramas y tienden a promediar o ignorar señales visuales sutiles. Además, aunque el prompting visual ha mostrado potencial en imágenes estáticas, su aplicación a las complejidades temporales de los videos, particularmente para la comprensión detallada del movimiento, sigue siendo en gran medida inexplorada. Investigamos si es posible desbloquear capacidades inherentes para mejorar la percepción del movimiento en los MLLMs y permitir firmas visuales distintivas diseñadas para desacoplar las señales de movimiento de objetos y de la cámara. En este estudio, presentamos MotionSight, un método novedoso de zero-shot que introduce el enfoque visual centrado en objetos y el desenfoque de movimiento como prompts visuales para mejorar efectivamente la comprensión detallada del movimiento sin necesidad de entrenamiento. Para convertir esto en activos de datos valiosos, hemos creado MotionVid-QA, el primer conjunto de datos a gran escala para la comprensión detallada del movimiento en videos, con anotaciones jerárquicas que incluyen datos de SFT y de preferencia, {\Theta}(40K) clips de video y {\Theta}(87K) preguntas y respuestas. Los experimentos muestran que MotionSight alcanza un rendimiento de código abierto de vanguardia y compite con modelos comerciales. En particular, para la comprensión detallada del movimiento, presentamos una técnica novedosa de zero-shot y un conjunto de datos a gran escala y de alta calidad. Todo el código y las anotaciones estarán disponibles públicamente.

Robot-R1: Aprendizaje por Refuerzo para el Razonamiento Embebido Mejorado en Robótica
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

May 29

ByDongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo

Los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han demostrado recientemente un gran potencial para avanzar en el campo de la robótica al combinar el razonamiento encarnado con el control de robots. Un enfoque común implica entrenar en tareas de razonamiento encarnado relacionadas con el control de robots utilizando el Ajuste Fino Supervisado (SFT, por sus siglas en inglés). Sin embargo, los conjuntos de datos de SFT a menudo se construyen de manera heurística y no están explícitamente optimizados para mejorar el control de robots. Además, el SFT suele generar problemas como el olvido catastrófico y una reducción en el rendimiento de generalización. Para abordar estas limitaciones, presentamos Robot-R1, un marco novedoso que aprovecha el aprendizaje por refuerzo para mejorar el razonamiento encarnado específicamente para el control de robots. Robot-R1 aprende a predecir el siguiente estado clave necesario para completar una tarea, condicionado por la imagen actual de la escena y los metadatos del entorno derivados de demostraciones expertas. Inspirado por el enfoque de aprendizaje DeepSeek-R1, Robot-R1 muestrea respuestas basadas en razonamiento y refuerza aquellas que conducen a predicciones más precisas. Nuestros experimentos muestran que los modelos entrenados con Robot-R1 superan a los métodos de SFT en tareas de razonamiento encarnado. A pesar de tener solo 7 mil millones de parámetros, Robot-R1 incluso supera a GPT-4o en tareas de razonamiento relacionadas con el control de acciones de bajo nivel, como el razonamiento espacial y de movimientos primitivos.

Sparse-vDiT: Liberando el Poder de la Atención Dispersa para Acelerar Transformadores de Difusión de Video
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Jun 3

ByPengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen

Si bien los Transformadores de Difusión (DiTs) han logrado avances en la generación de videos, esta tarea de generación de secuencias largas sigue estando limitada por la complejidad cuadrática de los mecanismos de atención, lo que resulta en una latencia de inferencia significativa. A través de un análisis detallado de los mapas de atención en el Transformador de Difusión de Video (vDiT), identificamos tres patrones de dispersión recurrentes: estructuras diagonales, multi-diagonales y de franjas verticales. Incluso se pueden omitir del 3 al 6\% de las cabezas de atención. Crucialmente, estos patrones exhiben fuertes correlaciones con la profundidad de la capa y la posición de la cabeza, pero muestran una dependencia limitada del contenido de entrada. Aprovechando estos hallazgos, proponemos Sparse-vDiT, un marco de aceleración por dispersión para vDiT que comprende: 1) Kernels dispersos optimizados por patrones que reemplazan la atención densa con implementaciones computacionalmente eficientes para cada patrón de dispersión identificado. 2) Un algoritmo de búsqueda de dispersión difusa fuera de línea que selecciona la estrategia de cálculo disperso óptima por capa y cabeza mediante un modelado de costos consciente del hardware. Después de determinar la configuración óptima, fusionamos las cabezas dentro de la misma capa que comparten la misma estrategia de atención, mejorando la eficiencia de la inferencia. Integrado en modelos vDiT de última generación (CogVideoX1.5, HunyuanVideo y Wan2.1), Sparse-vDiT logra reducciones teóricas de FLOP de 2.09 veces, 2.38 veces y 1.67 veces, y aceleraciones reales de inferencia de 1.76 veces, 1.85 veces y 1.58 veces, respectivamente, mientras mantiene una alta fidelidad visual, con valores de PSNR que alcanzan 24.13, 27.09 y 22.59. Nuestro trabajo demuestra que la dispersión estructural latente en los vDiTs puede ser explotada sistemáticamente para la síntesis de videos largos.

Co-Evolución de Codificador LLM y Probador de Unidades mediante Aprendizaje por Refuerzo
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Jun 3

ByYinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang

Proponemos CURE, un novedoso marco de aprendizaje por refuerzo con un diseño de recompensas dedicado que co-evoluciona las capacidades de generación de código y pruebas unitarias basándose en los resultados de su interacción, sin necesidad de código de referencia como supervisión. Este enfoque permite un entrenamiento flexible y escalable, y posibilita que el evaluador de pruebas unitarias aprenda directamente de los errores del generador de código. Nuestros modelos derivados ReasonFlux-Coder-7B y 14B mejoran la precisión en la generación de código en un 5.3% y la precisión Best-of-N en un 9.0% tras la optimización en los modelos Qwen2.5-Instruct, superando a modelos de tamaño similar como Qwen-Coder, DeepSeek-Coder y Seed-Coder. Estos modelos se extienden naturalmente a tareas posteriores, como el escalado en tiempo de prueba y la codificación agentiva, logrando una mejora del 8.1% sobre el modelo base. Para el modelo long-CoT, nuestro ReasonFlux-Coder-4B supera consistentemente a Qwen3-4B mientras alcanza un 64.8% de eficiencia en inferencia para la generación de pruebas unitarias. Cabe destacar que también encontramos que nuestro modelo puede servir como un modelo de recompensa efectivo para el aprendizaje por refuerzo en modelos base. Proyecto: https://github.com/Gen-Verse/CURE

Optimización de Fidelidad del Sujeto Guiada por Negativos para la Generación Dirigida por Sujetos en Cero Disparos
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Jun 4

ByChaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon

Presentamos Optimización de Fidelidad del Sujeto (SFO, por sus siglas en inglés), un novedoso marco de aprendizaje comparativo para la generación impulsada por sujetos en modo zero-shot que mejora la fidelidad del sujeto. A diferencia de los métodos de ajuste fino supervisado que dependen únicamente de objetivos positivos y utilizan la pérdida de difusión como en la etapa de preentrenamiento, SFO introduce objetivos negativos sintéticos y guía explícitamente al modelo a favorecer los positivos sobre los negativos mediante comparaciones por pares. Para los objetivos negativos, proponemos Muestreo Negativo con Degradación de Condiciones (CDNS, por sus siglas en inglés), que genera automáticamente negativos distintivos e informativos al degradar intencionalmente las señales visuales y textuales sin necesidad de costosas anotaciones humanas. Además, reasignamos los pesos de los pasos de difusión para centrar el ajuste fino en los pasos intermedios donde emergen los detalles del sujeto. Experimentos exhaustivos demuestran que SFO con CDNS supera significativamente a los métodos de referencia en términos de fidelidad del sujeto y alineación con el texto en un benchmark de generación impulsada por sujetos. Página del proyecto: https://subjectfidelityoptimization.github.io/

AnimeShooter: Un Conjunto de Datos de Animación Multi-Shot para la Generación de Vídeos Guiada por Referencia
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

Jun 3

ByLu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu

Los recientes avances en contenido generado por IA (AIGC) han acelerado significativamente la producción de animación. Para crear animaciones atractivas, es esencial generar clips de video multi-escena coherentes con guiones narrativos y referencias de personajes. Sin embargo, los conjuntos de datos públicos existentes se centran principalmente en escenarios del mundo real con descripciones globales, y carecen de imágenes de referencia para una guía consistente de personajes. Para cerrar esta brecha, presentamos AnimeShooter, un conjunto de datos de animación multi-escena guiada por referencias. AnimeShooter cuenta con anotaciones jerárquicas completas y una fuerte consistencia visual entre escenas a través de una canalización automatizada. Las anotaciones a nivel de historia proporcionan una visión general de la narrativa, incluyendo la trama, escenas clave y perfiles de los personajes principales con imágenes de referencia, mientras que las anotaciones a nivel de escena descomponen la historia en escenas consecutivas, cada una anotada con escenario, personajes y subtítulos visuales tanto narrativos como descriptivos. Además, un subconjunto dedicado, AnimeShooter-audio, ofrece pistas de audio sincronizadas para cada escena, junto con descripciones de audio y fuentes de sonido. Para demostrar la efectividad de AnimeShooter y establecer una línea base para la tarea de generación de video multi-escena guiada por referencias, presentamos AnimeShooterGen, que aprovecha Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) y modelos de difusión de video. La imagen de referencia y las escenas previamente generadas son procesadas primero por el MLLM para producir representaciones conscientes tanto de la referencia como del contexto, las cuales se utilizan como condición para que el modelo de difusión decodifique la escena siguiente. Los resultados experimentales muestran que el modelo entrenado en AnimeShooter logra una consistencia visual superior entre escenas y una adherencia destacada a la guía visual de referencia, lo que resalta el valor de nuestro conjunto de datos para la generación coherente de videos animados.

Síntesis de Imágenes en Resolución Nativa
Native-Resolution Image Synthesis

Jun 3

ByZidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang

Presentamos la síntesis de imágenes en resolución nativa, un nuevo paradigma de modelado generativo que permite la síntesis de imágenes en resoluciones y relaciones de aspecto arbitrarias. Este enfoque supera las limitaciones de los métodos convencionales de imágenes cuadradas con resolución fija al manejar de manera nativa tokens visuales de longitud variable, un desafío central para las técnicas tradicionales. Para ello, introducimos el Transformer de difusión en resolución nativa (NiT), una arquitectura diseñada para modelar explícitamente diferentes resoluciones y relaciones de aspecto dentro de su proceso de eliminación de ruido. Libre de las restricciones de formatos fijos, NiT aprende distribuciones visuales intrínsecas a partir de imágenes que abarcan un amplio rango de resoluciones y relaciones de aspecto. Notablemente, un único modelo NiT logra simultáneamente un rendimiento de vanguardia en los benchmarks de ImageNet-256x256 y 512x512. Sorprendentemente, similar a las robustas capacidades zero-shot observadas en modelos avanzados de lenguaje, NiT, entrenado únicamente en ImageNet, demuestra un excelente rendimiento de generalización zero-shot. Genera con éxito imágenes de alta fidelidad en resoluciones previamente no vistas (por ejemplo, 1536 x 1536) y diversas relaciones de aspecto (por ejemplo, 16:9, 3:1, 4:3), como se muestra en la Figura 1. Estos hallazgos indican el potencial significativo del modelado en resolución nativa como un puente entre el modelado generativo visual y las metodologías avanzadas de modelos de lenguaje.

LumosFlow: Generación de Videos Largos Guiada por Movimiento
LumosFlow: Motion-Guided Long Video Generation

Jun 3

ByJiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su

La generación de videos largos ha ganado creciente atención debido a sus amplias aplicaciones en campos como el entretenimiento y la simulación. A pesar de los avances, sintetizar secuencias largas temporalmente coherentes y visualmente atractivas sigue siendo un desafío formidable. Los enfoques convencionales suelen sintetizar videos largos generando y concatenando secuencialmente clips cortos, o generando fotogramas clave y luego interpolando los fotogramas intermedios de manera jerárquica. Sin embargo, ambos métodos aún presentan desafíos significativos, lo que lleva a problemas como repetición temporal o transiciones poco naturales. En este artículo, revisitamos la pipeline jerárquica de generación de videos largos e introducimos LumosFlow, un marco que incorpora explícitamente guía de movimiento. Específicamente, primero empleamos el Modelo de Difusión de Texto a Video con Movimiento Amplio (LMTV-DM) para generar fotogramas clave con intervalos de movimiento más grandes, asegurando así la diversidad de contenido en los videos largos generados. Dada la complejidad de interpolar transiciones contextuales entre fotogramas clave, descomponemos además la interpolación de fotogramas intermedios en generación de movimiento y refinamiento posterior. Para cada par de fotogramas clave, el Modelo de Difusión de Flujo Óptico Latente (LOF-DM) sintetiza flujos ópticos complejos y de gran movimiento, mientras que MotionControlNet refina los resultados deformados para mejorar la calidad y guiar la generación de fotogramas intermedios. En comparación con la interpolación tradicional de fotogramas de video, logramos una interpolación de 15x, asegurando un movimiento razonable y continuo entre fotogramas adyacentes. Los experimentos muestran que nuestro método puede generar videos largos con movimiento y apariencia consistentes. El código y los modelos estarán disponibles públicamente tras la aceptación. Nuestra página del proyecto: https://jiahaochen1.github.io/LumosFlow/

RelationAdapter: Aprendizaje y transferencia de relaciones visuales con Transformadores de Difusión
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Jun 3

ByYan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang

Inspirado por el mecanismo de aprendizaje en contexto de los modelos de lenguaje de gran escala (LLMs), está surgiendo un nuevo paradigma de edición de imágenes basada en prompts visuales generalizables. Los métodos existentes de referencia única suelen centrarse en ajustes de estilo o apariencia y tienen dificultades con transformaciones no rígidas. Para abordar estas limitaciones, proponemos aprovechar pares de imágenes fuente-destino para extraer y transferir la intención de edición consciente del contenido a nuevas imágenes de consulta. Con este fin, presentamos RelationAdapter, un módulo ligero que permite a los modelos basados en Transformadores de Difusión (DiT) capturar y aplicar eficazmente transformaciones visuales a partir de ejemplos mínimos. También introducimos Relation252K, un conjunto de datos integral que comprende 218 tareas de edición diversas, para evaluar la generalización y adaptabilidad del modelo en escenarios impulsados por prompts visuales. Los experimentos en Relation252K muestran que RelationAdapter mejora significativamente la capacidad del modelo para comprender y transferir la intención de edición, lo que se traduce en avances notables en la calidad de generación y el rendimiento general de la edición.

DCM: Modelo de Consistencia de Doble Experto para la Generación Eficiente y de Alta Calidad de Videos
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

Jun 3

ByZhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu

Los Modelos de Difusión han logrado resultados notables en la síntesis de video, pero requieren pasos iterativos de eliminación de ruido, lo que conlleva un sobrecosto computacional significativo. Los Modelos de Consistencia han hecho avances importantes en la aceleración de los modelos de difusión. Sin embargo, su aplicación directa a los modelos de difusión de video a menudo resulta en una degradación severa de la consistencia temporal y los detalles de apariencia. En este trabajo, al analizar la dinámica de entrenamiento de los Modelos de Consistencia, identificamos un conflicto clave en la dinámica de aprendizaje durante el proceso de destilación: existe una discrepancia significativa en los gradientes de optimización y las contribuciones de pérdida en diferentes pasos de tiempo. Esta discrepancia impide que el modelo estudiante destilado alcance un estado óptimo, lo que lleva a una consistencia temporal comprometida y detalles de apariencia degradados. Para abordar este problema, proponemos un Modelo de Consistencia de Doble Experto (DCM) eficiente en parámetros, donde un experto semántico se enfoca en aprender el diseño semántico y el movimiento, mientras que un experto en detalles se especializa en el refinamiento de detalles finos. Además, introducimos la Pérdida de Coherencia Temporal para mejorar la consistencia del movimiento en el experto semántico y aplicamos Pérdida GAN y Pérdida de Coincidencia de Características para mejorar la calidad de síntesis del experto en detalles. Nuestro enfoque logra una calidad visual de vanguardia con un número significativamente reducido de pasos de muestreo, demostrando la efectividad de la especialización de expertos en la destilación de modelos de difusión de video. Nuestro código y modelos están disponibles en https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.

Las hojas de datos no son suficientes: Rúbricas de datos para métricas de calidad automatizadas y rendición de cuentas
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Jun 2

ByGenta Indra Winata, David Anugraha, Emmy Liu, Alham Fikri Aji, Shou-Yi Hung, Aditya Parashar, Patrick Amadeus Irawan, Ruochen Zhang, Zheng-Xin Yong, Jan Christian Blaise Cruz, Niklas Muennighoff, Seungone Kim, Hanyang Zhao, Sudipta Kar, Kezia Erina Suryoraharjo, M. Farid Adilazuarda, En-Shiun Annie Lee, Ayu Purwarianti, Derry Tanti Wijaya, Monojit Choudhury

Los conjuntos de datos de alta calidad son fundamentales para entrenar y evaluar modelos de aprendizaje automático, sin embargo, su creación—especialmente con anotaciones humanas precisas—sigue siendo un desafío significativo. Muchas propuestas de artículos sobre conjuntos de datos carecen de originalidad, diversidad o un control de calidad riguroso, y estas deficiencias a menudo se pasan por alto durante la revisión por pares. Las propuestas también omiten frecuentemente detalles esenciales sobre la construcción y las propiedades de los conjuntos de datos. Si bien herramientas existentes, como las hojas de datos, buscan promover la transparencia, son en gran medida descriptivas y no proporcionan métodos estandarizados y medibles para evaluar la calidad de los datos. De manera similar, los requisitos de metadatos en conferencias fomentan la responsabilidad, pero se aplican de manera inconsistente. Para abordar estas limitaciones, este documento de posición aboga por la integración de métricas de evaluación sistemáticas basadas en rúbricas en el proceso de revisión de conjuntos de datos—especialmente a medida que el volumen de propuestas sigue creciendo. También exploramos métodos escalables y rentables para la generación de datos sintéticos, incluyendo herramientas dedicadas y enfoques de LLM-como-juez, para apoyar una evaluación más eficiente. Como un llamado a la acción, presentamos DataRubrics, un marco estructurado para evaluar la calidad de conjuntos de datos generados tanto por humanos como por modelos. Aprovechando los avances recientes en la evaluación basada en LLM, DataRubrics ofrece una solución reproducible, escalable y accionable para la evaluación de la calidad de los conjuntos de datos, permitiendo tanto a los autores como a los revisores mantener estándares más altos en la investigación centrada en datos. También publicamos código para apoyar la reproducibilidad de las evaluaciones basadas en LLM en https://github.com/datarubrics/datarubrics.

FlowMo: Guía de Flujo Basada en Varianza para Movimiento Coherente en la Generación de Videos
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Jun 1

ByAriel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer

Los modelos de difusión de texto a video son notoriamente limitados en su capacidad para modelar aspectos temporales como el movimiento, la física y las interacciones dinámicas. Los enfoques existentes abordan esta limitación reentrenando el modelo o introduciendo señales de condicionamiento externas para imponer consistencia temporal. En este trabajo, exploramos si es posible extraer una representación temporal significativa directamente de las predicciones de un modelo preentrenado, sin necesidad de entrenamiento adicional o entradas auxiliares. Presentamos FlowMo, un novedoso método de guía sin entrenamiento que mejora la coherencia del movimiento utilizando únicamente las propias predicciones del modelo en cada paso de difusión. FlowMo primero deriva una representación temporal libre de sesgos de apariencia midiendo la distancia entre los latentes correspondientes a fotogramas consecutivos. Esto resalta la estructura temporal implícita predicha por el modelo. Luego, estima la coherencia del movimiento midiendo la varianza por parches a lo largo de la dimensión temporal y guía al modelo para reducir esta varianza dinámicamente durante el muestreo. Experimentos extensos en múltiples modelos de texto a video demuestran que FlowMo mejora significativamente la coherencia del movimiento sin sacrificar la calidad visual o la alineación con el texto, ofreciendo una solución efectiva de tipo plug-and-play para mejorar la fidelidad temporal de los modelos de difusión de video preentrenados.

Entrenamiento de Modelos de Lenguaje para Generar Código de Calidad con Retroalimentación de Análisis de Programas
Training Language Models to Generate Quality Code with Program Analysis Feedback

May 28

ByFeng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang

La generación de código con modelos de lenguaje de gran escala (LLMs), a menudo denominada *vibe coding*, está siendo cada vez más adoptada en producción, pero no logra garantizar la calidad del código, particularmente en aspectos de seguridad (por ejemplo, vulnerabilidades de inyección SQL) y mantenibilidad (por ejemplo, anotaciones de tipo faltantes). Los métodos existentes, como el ajuste fino supervisado y el procesamiento posterior basado en reglas, dependen de anotaciones laboriosas o heurísticas frágiles, lo que limita su escalabilidad y efectividad. Proponemos REAL, un marco de aprendizaje por refuerzo que incentiva a los LLMs a generar código de calidad para producción utilizando retroalimentación guiada por análisis de programas. Específicamente, REAL integra dos señales automatizadas: (1) análisis de programas que detectan defectos de seguridad o mantenibilidad y (2) pruebas unitarias que aseguran la corrección funcional. A diferencia de trabajos anteriores, nuestro marco es independiente del *prompt* y no requiere referencias, permitiendo una supervisión escalable sin intervención manual. Los experimentos en múltiples conjuntos de datos y escalas de modelos demuestran que REAL supera a los métodos más avanzados en evaluaciones simultáneas de funcionalidad y calidad del código. Nuestro trabajo cierra la brecha entre la creación rápida de prototipos y el código listo para producción, permitiendo que los LLMs ofrezcan tanto velocidad como calidad.

Ctrl-Crash: Difusión Controlable para Colisiones de Automóviles Realistas
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

May 30

ByAnthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal

Las técnicas de difusión de video han avanzado significativamente en los últimos años; sin embargo, enfrentan dificultades para generar imágenes realistas de accidentes automovilísticos debido a la escasez de eventos de este tipo en la mayoría de los conjuntos de datos de conducción. Mejorar la seguridad vial requiere simulaciones de accidentes realistas y controlables. Para abordar este problema, proponemos Ctrl-Crash, un modelo de generación de videos de accidentes automovilísticos controlable que se condiciona mediante señales como cuadros delimitadores, tipos de colisión y un fotograma inicial. Nuestro enfoque permite la generación de escenarios contrafactuales, donde pequeñas variaciones en la entrada pueden dar lugar a resultados de accidentes drásticamente diferentes. Para permitir un control detallado durante la inferencia, utilizamos guía libre de clasificadores con escalas ajustables de manera independiente para cada señal de condicionamiento. Ctrl-Crash logra un rendimiento de vanguardia en métricas cuantitativas de calidad de video (por ejemplo, FVD y JEDi) y en evaluaciones cualitativas basadas en la percepción humana del realismo físico y la calidad del video, en comparación con métodos previos basados en difusión.

Agentes de Modelos de Lenguaje con Autodesafío
Self-Challenging Language Model Agents

Jun 2

ByYifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar

Los modelos de lenguaje de gran escala se están convirtiendo rápidamente en la base para agentes inteligentes capaces de utilizar herramientas. Sin embargo, entrenar a estos agentes es un desafío, ya que requiere la creación y anotación humana de un conjunto diverso de tareas, herramientas y criterios de evaluación. En este artículo, proponemos el marco de Auto-Desafío para entrenar a un agente en tareas de alta calidad generadas por él mismo. El agente primero asume el rol de desafiante y genera una tarea después de interactuar con las herramientas proporcionadas. Las tareas adoptan la forma de una nueva clase general de problemas denominada Código-como-Tarea, que se define mediante una instrucción, una función de verificación y casos de solución y fallo que sirven como pruebas, permitiendo filtrar solo las tareas de alta calidad. Luego, el agente toma el rol de ejecutor y se entrena en esas tareas con aprendizaje por refuerzo, utilizando la retroalimentación de evaluación como recompensa. La evaluación en dos puntos de referencia existentes para agentes que utilizan herramientas en múltiples turnos, M3ToolEval y TauBench, muestra que el marco de Auto-Desafío logra una mejora de más del doble en Llama-3.1-8B-Instruct, a pesar de utilizar únicamente datos de entrenamiento autogenerados.

PCoreSet: Aprendizaje Activo Efectivo mediante Distilación de Conocimiento de Modelos Visión-Lenguaje
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Jun 1

BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang

La destilación de conocimiento (KD, por sus siglas en inglés) es un marco ampliamente utilizado para entrenar modelos compactos y específicos de tareas aprovechando el conocimiento de modelos maestros. Sin embargo, su aplicación al aprendizaje activo (AL, por sus siglas en inglés), que busca minimizar los costos de anotación mediante la selección iterativa de muestras, sigue siendo poco explorada. Esta brecha surge del hecho de que KD generalmente asume acceso a datos etiquetados suficientes, mientras que AL opera en escenarios con escasez de datos donde los modelos maestros específicos de tareas a menudo no están disponibles. En este artículo, presentamos ActiveKD, un marco que integra AL con KD aprovechando las capacidades de cero y pocos disparos de los grandes modelos de visión y lenguaje (VLMs, por sus siglas en inglés). Un aspecto clave de ActiveKD es el sesgo de predicción estructurada de los VLMs, es decir, sus predicciones forman agrupaciones en el espacio de probabilidad. Consideramos esta estructura como un sesgo inductivo del modelo maestro, capturando patrones de salida generalizables que benefician el aprendizaje del estudiante. Para explotar este sesgo, proponemos Probabilistic CoreSet (PCoreSet), una estrategia de selección que maximiza la cobertura en el espacio de probabilidad en lugar del espacio de características. PCoreSet selecciona estratégicamente muestras no etiquetadas categóricamente diversas, facilitando una transferencia más eficiente del conocimiento del maestro bajo presupuestos limitados de anotación. Las evaluaciones en 11 conjuntos de datos muestran que PCoreSet supera consistentemente a los métodos de selección existentes dentro del marco de ActiveKD, avanzando la investigación en la intersección de AL y KD.

SHARE: Un Asistente Jerárquico de Corrección de Acciones basado en SLM para Texto-a-SQL
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

May 31

ByGe Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng

Los enfoques actuales de autocorrección en text-to-SQL enfrentan dos limitaciones críticas: 1) Los métodos convencionales de autocorrección dependen de llamadas recursivas a LLMs, lo que resulta en un sobrecosto computacional multiplicativo, y 2) Los LLMs tienen dificultades para implementar una detección y corrección efectiva de errores en consultas SQL declarativas, ya que no logran demostrar el razonamiento subyacente. En este trabajo, proponemos SHARE, un asistente de corrección jerárquica basado en SLM que permite a los LLMs realizar una localización de errores más precisa y una corrección eficiente. SHARE orquesta tres Pequeños Modelos de Lenguaje (SLMs) especializados en una secuencia de pasos, donde primero transforma las consultas SQL declarativas en trayectorias de acciones paso a paso que revelan el razonamiento subyacente, seguido de un refinamiento granular en dos fases. Además, proponemos una novedosa estrategia de autoevolución jerárquica para un entrenamiento eficiente en términos de datos. Los resultados experimentales demuestran que SHARE mejora efectivamente las capacidades de autocorrección y se muestra robusto en diversos LLMs. Además, nuestro análisis exhaustivo muestra que SHARE mantiene un rendimiento sólido incluso en entornos de entrenamiento con recursos limitados, lo cual es particularmente valioso para aplicaciones de text-to-SQL con restricciones de privacidad de datos.

Alineación de Conceptos Consciente del Movimiento para la Edición Consistente de Videos
Motion-Aware Concept Alignment for Consistent Video Editing

Jun 1

ByTong Zhang, Juan C Leon Alcazar, Bernard Ghanem

Presentamos MoCA-Video (Alineación de Conceptos con Conciencia de Movimiento en Video), un marco de trabajo sin entrenamiento que cierra la brecha entre la mezcla semántica en el dominio de la imagen y el video. Dado un video generado y una imagen de referencia proporcionada por el usuario, MoCA-Video inyecta las características semánticas de la imagen de referencia en un objeto específico dentro del video, preservando el movimiento original y el contexto visual. Nuestro enfoque aprovecha un programa de eliminación de ruido diagonal y segmentación independiente de la clase para detectar y rastrear objetos en el espacio latente y controlar con precisión la ubicación espacial de los objetos mezclados. Para garantizar la coherencia temporal, incorporamos correcciones semánticas basadas en momento y estabilización de ruido residual gamma para transiciones suaves entre fotogramas. Evaluamos el rendimiento de MoCA utilizando las métricas estándar SSIM, LPIPS a nivel de imagen, LPIPS temporal, e introducimos una nueva métrica llamada CASS (Puntuación de Desplazamiento de Alineación Conceptual) para evaluar la consistencia y efectividad de los cambios visuales entre el prompt de origen y los fotogramas modificados del video. Utilizando un conjunto de datos autoconstruido, MoCA-Video supera a los baselines actuales, logrando una consistencia espacial superior, un movimiento coherente y una puntuación CASS significativamente más alta, a pesar de no requerir entrenamiento o ajuste fino. MoCA-Video demuestra que la manipulación estructurada en la trayectoria de ruido de difusión permite una síntesis de video controlable y de alta calidad.

Aceleración de LLMs de Difusión mediante Decodificación Paralela Adaptativa
Accelerating Diffusion LLMs via Adaptive Parallel Decoding

May 31

ByDaniel Israel, Guy Van den Broeck, Aditya Grover

La velocidad de generación de los LLM está limitada por el decodificado autoregresivo, donde los tokens se predicen secuencialmente uno por uno. Alternativamente, los modelos de lenguaje grande basados en difusión (dLLM) permiten teóricamente la generación paralela de tokens, pero en la práctica tienen dificultades para alcanzar la velocidad de los modelos autoregresivos sin sacrificar significativamente la calidad. Por ello, introducimos el decodificado paralelo adaptativo (APD), un método novedoso que ajusta dinámicamente el número de tokens muestreados en paralelo. Logramos esto definiendo una mezcla multiplicativa entre las probabilidades marginales del dLLM y la probabilidad conjunta de secuencias bajo un pequeño modelo autoregresivo auxiliar. Esto invierte la configuración estándar del decodificado especulativo, donde el objetivo es muestrear a partir de un verificador autoregresivo grande utilizando un modelo más pequeño como borrador. Además, optimizamos APD habilitando el almacenamiento en caché de KV y limitando el tamaño de la entrada enmascarada. En conjunto, nuestro método propone tres parámetros ajustables para intercambiar de manera flexible el rendimiento y la calidad. Demostramos que APD ofrece un rendimiento notablemente mayor con degradaciones mínimas de calidad en benchmarks posteriores.

ORV: Generación de Vídeo Robótico Centrado en Ocupación 4D
ORV: 4D Occupancy-centric Robot Video Generation

Jun 3

ByXiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao

La adquisición de datos de simulación robótica del mundo real mediante teleoperación es notoriamente lenta y laboriosa. Recientemente, los modelos generativos impulsados por acciones han ganado una amplia adopción en el aprendizaje y simulación de robots, ya que eliminan preocupaciones de seguridad y reducen los esfuerzos de mantenimiento. Sin embargo, las secuencias de acciones utilizadas en estos métodos a menudo resultan en una precisión de control limitada y una pobre generalización debido a su alineación globalmente gruesa. Para abordar estas limitaciones, proponemos ORV, un marco de generación de videos robóticos centrado en la ocupación, que utiliza secuencias de ocupación semántica 4D como una representación detallada para proporcionar una guía semántica y geométrica más precisa en la generación de videos. Al aprovechar representaciones basadas en ocupación, ORV permite la traducción fluida de datos de simulación en videos robóticos fotorrealistas, asegurando una alta consistencia temporal y una controlabilidad precisa. Además, nuestro marco soporta la generación simultánea de videos multi-vista de operaciones de agarre robótico, una capacidad importante para tareas de aprendizaje robótico posteriores. Los resultados experimentales extensos demuestran que ORV supera consistentemente los métodos de referencia existentes en varios conjuntos de datos y sub-tareas. Demo, Código y Modelo: https://orangesodahub.github.io/ORV

TL;DR: Demasiado largo, reajuste de pesos para la compresión eficiente del razonamiento en LLM
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Jun 3

ByZhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado recientemente avances notables al aprovechar el Aprendizaje por Refuerzo y técnicas extendidas de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, el desafío de realizar razonamiento lingüístico eficiente—especialmente durante la inferencia con salidas extremadamente largas—ha captado una atención creciente por parte de la comunidad investigadora. En este trabajo, proponemos un pipeline de entrenamiento basado en ratios dinámicos que no depende de anotaciones de datos sofisticadas ni de interpolación entre múltiples modelos. Equilibramos continuamente los pesos entre los datos del Sistema 1 y el Sistema 2 del modelo para eliminar procesos de razonamiento redundantes, preservando al mismo tiempo la capacidad de razonamiento del modelo. Validamos nuestro enfoque en los modelos DeepSeek-R1-Distill-7B y DeepSeek-R1-Distill-14B, así como en un conjunto diverso de benchmarks con niveles de dificultad variables. Nuestro método reduce significativamente el número de tokens de salida en casi un 40%, manteniendo la precisión del razonamiento. Nuestro código y datos estarán disponibles próximamente.

Multimodal DeepResearcher: Generación de Informes Intercalados de Texto y Gráficos desde Cero con un Marco Agéntico
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Jun 3

ByZhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen

Las visualizaciones juegan un papel crucial en la comunicación efectiva de conceptos e información. Los avances recientes en razonamiento y generación aumentada por recuperación han permitido que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) realicen investigaciones profundas y generen informes exhaustivos. A pesar de su progreso, los marcos de investigación profunda existentes se centran principalmente en la generación de contenido exclusivamente textual, dejando la generación automatizada de textos y visualizaciones intercaladas poco explorada. Esta nueva tarea plantea desafíos clave en el diseño de visualizaciones informativas y su integración efectiva con informes textuales. Para abordar estos desafíos, proponemos la Descripción Formal de Visualización (FDV, por sus siglas en inglés), una representación textual estructurada de gráficos que permite a los LLMs aprender y generar visualizaciones diversas y de alta calidad. Basándonos en esta representación, presentamos Multimodal DeepResearcher, un marco agéntico que descompone la tarea en cuatro etapas: (1) investigación, (2) textualización de informes ejemplares, (3) planificación y (4) generación de informes multimodales. Para la evaluación de los informes multimodales generados, desarrollamos MultimodalReportBench, que contiene 100 temas diversos como entradas junto con 5 métricas dedicadas. Experimentos extensos en modelos y métodos de evaluación demuestran la efectividad de Multimodal DeepResearcher. Notablemente, utilizando el mismo modelo Claude 3.7 Sonnet, Multimodal DeepResearcher logra una tasa de victoria general del 82\% sobre el método de referencia.

QARI-OCR: Reconocimiento de Texto Árabe de Alta Fidelidad mediante Adaptación de Modelos de Lenguaje Multimodales de Gran Escala
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Jun 2

ByAhmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila

Las complejidades inherentes de la escritura árabe; su naturaleza cursiva, los signos diacríticos (tashkeel) y la tipografía variada, plantean desafíos persistentes para el Reconocimiento Óptico de Caracteres (OCR). Presentamos Qari-OCR, una serie de modelos de visión-lenguaje derivados de Qwen2-VL-2B-Instruct, optimizados progresivamente para el árabe mediante ajustes iterativos en conjuntos de datos sintéticos especializados. Nuestro modelo líder, QARI v0.2, establece un nuevo estado del arte de código abierto con una Tasa de Error de Palabra (WER) de 0.160, una Tasa de Error de Carácter (CER) de 0.061 y una puntuación BLEU de 0.737 en textos ricos en diacríticos. Qari-OCR demuestra un manejo superior de tashkeel, diversas fuentes y diseños de documentos, junto con un rendimiento impresionante en imágenes de baja resolución. Exploraciones adicionales (QARI v0.3) muestran un fuerte potencial para la comprensión estructural de documentos y el texto manuscrito. Este trabajo ofrece una mejora notable en la precisión y eficiencia del OCR en árabe, con todos los modelos y conjuntos de datos liberados para fomentar investigaciones futuras.

Control-R: Hacia un escalado controlable en tiempo de prueba
Control-R: Towards controllable test-time scaling

May 30

ByDi Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou

Este artículo aborda los desafíos del pensamiento insuficiente y excesivo en el razonamiento de cadenas largas de pensamiento (CoT, por sus siglas en inglés) para Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) mediante la introducción de Campos de Control de Razonamiento (RCF, por sus siglas en inglés), un enfoque novedoso en tiempo de prueba que inyecta señales de control estructuradas para guiar el razonamiento desde una perspectiva de búsqueda en árbol. Los RCF permiten a los modelos ajustar el esfuerzo de razonamiento según las condiciones de control dadas al resolver tareas complejas. Además, presentamos el conjunto de datos Control-R-4K, que consta de problemas desafiantes anotados con procesos de razonamiento detallados y campos de control correspondientes. Para mejorar aún más el control del razonamiento, proponemos un método de Ajuste Fino por Destilación Condicional (CDF, por sus siglas en inglés), que entrena al modelo—específicamente Control-R-32B—para ajustar eficazmente el esfuerzo de razonamiento durante la prueba. Los resultados experimentales en puntos de referencia como AIME2024 y MATH500 demuestran que nuestro enfoque logra un rendimiento de vanguardia a escala de 32B, al tiempo que permite un proceso de razonamiento de CoT largo (L-CoT) controlable. En general, este trabajo introduce un paradigma efectivo para el escalado controlable del razonamiento en tiempo de prueba.

Una pieza faltante para los modelos de razonamiento de código abierto: un conjunto de datos para mitigar el arranque en frío de LLMs con cadenas de pensamiento cortas en RL.
One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL

Jun 3

ByHyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee

Con el lanzamiento de R1, un modelo de razonamiento a gran escala (LRM, por sus siglas en inglés) disponible públicamente, los investigadores comúnmente entrenan nuevos LRMs mediante el entrenamiento de modelos de lenguaje en las largas cadenas de pensamiento (CoT, por sus siglas en inglés) inferidas por R1. Si bien trabajos previos muestran que las capacidades de los LRMs pueden reproducirse mediante destilación directa, la dependencia continua de los modelos existentes (por ejemplo, R1) sigue siendo una limitación crítica para el avance del campo. Como primer paso hacia el desarrollo independiente de LRMs, este artículo explora la posibilidad de construir un conjunto de datos de CoT largos utilizando LLMs que no están entrenados para escalar en tiempo de inferencia. Con este fin, presentamos la Colección de CoT Largos, un conjunto de datos de 100K razonamientos CoT anotados utilizando LLMs de CoT cortos existentes. Desarrollamos una canalización que introduce las nuevas estrategias de razonamiento de o1 en LLMs de CoT cortos, permitiéndoles pensar más tiempo e introduciendo controlabilidad sobre el presupuesto de pensamiento para gestionar mejor el problema de sobrepensar. Nuestros extensos análisis validan que nuestro conjunto de datos alcanza una calidad comparable a—o ligeramente inferior a—la de R1. Además, nuestros experimentos demuestran que el entrenamiento en nuestro conjunto de datos no solo fortalece las habilidades de razonamiento general, sino que también proporciona una base sólida para el aprendizaje por refuerzo—los modelos inicializados con nuestros datos logran ganancias 2-3 veces mayores con RLVR.

¿Cuánto retroceso es suficiente? Explorando la interacción entre SFT y RL en la mejora del razonamiento de los LLM
How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning

May 30

ByHongyi James Cai, Junlin Wang, Xiaoyin Chen, Bhuwan Dhingra

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mejorado significativamente sus capacidades de razonamiento, particularmente en problemas matemáticos y lógicos con respuestas verificables, mediante técnicas como el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo (RL). Investigaciones previas indican que el RL internaliza efectivamente estrategias de búsqueda, permitiendo cadenas de razonamiento largas (CoT), donde el retroceso (backtracking) emerge naturalmente como una habilidad aprendida. Sin embargo, los beneficios precisos del retroceso, específicamente cuánto contribuye a las mejoras en el razonamiento y el grado óptimo de su uso, siguen siendo poco comprendidos. En este trabajo, investigamos sistemáticamente la dinámica entre el SFT y el RL en ocho tareas de razonamiento: Countdown, Sudoku, Arc 1D, Geometría, Rotación de Cubo de Colores, Funciones de Lista, Acertijos de Zebra y Autorreferencia. Nuestros hallazgos destacan que las secuencias cortas de CoT utilizadas en el SFT como calentamiento tienen una contribución moderada al entrenamiento de RL, en comparación con un RL sin preparación; sin embargo, dicha contribución disminuye cuando las tareas se vuelven más difíciles. Motivados por esta observación, construimos conjuntos de datos sintéticos que varían sistemáticamente en el número de pasos de retroceso y realizamos experimentos controlados para aislar la influencia de la corrección (contenido) o la estructura (frecuencia de retroceso). Descubrimos que (1) las secuencias de CoT más largas con retrocesos generalmente inducen un entrenamiento de RL mejor y más estable, y (2) los problemas más desafiantes con espacios de búsqueda más grandes tienden a necesitar un mayor número de retrocesos durante la etapa de SFT. Además, demostramos mediante experimentos con datos destilados que el entrenamiento de RL no se ve mayormente afectado por la corrección de las secuencias largas de CoT, lo que sugiere que el RL prioriza los patrones estructurales sobre la corrección del contenido. En conjunto, nuestros resultados ofrecen ideas prácticas para diseñar estrategias de entrenamiento óptimas que escalen efectivamente el razonamiento en los LLMs.

Descubrimiento Profundo en Videos: Búsqueda Agéntica con Uso de Herramientas para la Comprensión de Videos de Larga Duración
Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

May 23

ByXiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu

La comprensión de videos de larga duración presenta desafíos significativos debido a la extensa complejidad espacio-temporal y la dificultad de responder preguntas en contextos tan prolongados. Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado avances considerables en capacidades de análisis de video y manejo de contextos extensos, continúan exhibiendo limitaciones al procesar videos de una hora de duración con alta densidad de información. Para superar estas limitaciones, proponemos el agente Deep Video Discovery (DVD) que aprovecha una estrategia de búsqueda agentiva sobre segmentos de video. A diferencia de agentes de video anteriores que diseñan manualmente un flujo de trabajo rígido, nuestro enfoque enfatiza la naturaleza autónoma de los agentes. Al proporcionar un conjunto de herramientas centradas en la búsqueda sobre una base de datos de video de múltiples granularidades, nuestro agente DVD aprovecha la capacidad de razonamiento avanzado del LLM para planificar su estado de observación actual, seleccionar estratégicamente herramientas, formular parámetros apropiados para las acciones y refinar iterativamente su razonamiento interno a la luz de la información recopilada. Realizamos una evaluación exhaustiva en múltiples benchmarks de comprensión de videos largos que demuestra la ventaja del diseño completo del sistema. Nuestro agente DVD alcanza un rendimiento de vanguardia (SOTA), superando significativamente trabajos previos por un amplio margen en el desafiante conjunto de datos LVBench. También se proporcionan estudios de ablación exhaustivos y análisis detallados de herramientas, ofreciendo insights para avanzar aún más en el desarrollo de agentes inteligentes adaptados a tareas de comprensión de videos de larga duración. El código será publicado posteriormente.

MERIT: Recuperación Semántica Multilingüe con Consultas de Múltiples Condiciones Intercaladas
MERIT: Multilingual Semantic Retrieval with Interleaved Multi-Condition Query

Jun 3

ByWei Chow, Yuan Gao, Linfeng Li, Xian Wang, Qi Xu, Hang Song, Lingdong Kong, Ran Zhou, Yi Zeng, Yidong Cai, Botian Jiang, Shilin Xu, Jiajun Zhang, Minghui Qiu, Xiangtai Li, Tianshu Yang, Siliang Tang, Juncheng Li

La recuperación semántica es crucial para las aplicaciones modernas, pero sigue siendo poco explorada en la investigación actual. Los conjuntos de datos existentes se limitan a un solo idioma, una sola imagen o condiciones de recuperación únicas, a menudo sin explotar plenamente la capacidad expresiva de la información visual, como lo evidencia el mantenimiento del rendimiento cuando las imágenes se reemplazan por descripciones. Sin embargo, los escenarios prácticos de recuperación frecuentemente involucran consultas intercaladas con múltiples condiciones y varias imágenes. Por ello, este artículo presenta MERIT, el primer conjunto de datos multilingüe para la recuperación semántica intercalada con múltiples condiciones, que comprende 320,000 consultas con 135,000 productos en 5 idiomas, abarcando 7 categorías de productos distintas. Experimentos exhaustivos en MERIT identifican una limitación de los modelos existentes: enfocarse únicamente en la información semántica global mientras descuidan elementos condicionales específicos en las consultas. En consecuencia, proponemos Coral, un novedoso marco de ajuste fino que adapta modelos de lenguaje multimodal preentrenados (MLLMs) mediante la integración de reconstrucción de embeddings para preservar elementos condicionales detallados y aprendizaje contrastivo para extraer semántica global integral. Los experimentos demuestran que Coral logra una mejora del 45.9% en el rendimiento sobre enfoques convencionales en MERIT, con fuertes capacidades de generalización validadas en 8 benchmarks de recuperación establecidos. En conjunto, nuestras contribuciones —un nuevo conjunto de datos, la identificación de limitaciones críticas en enfoques existentes y un marco innovador de ajuste fino— establecen una base para futuras investigaciones en la recuperación semántica intercalada con múltiples condiciones.

FuseLIP: Incrustaciones Multimodales mediante Fusión Temprana de Tokens Discretos
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens

Jun 3

ByChristian Schlarmann, Francesco Croce, Nicolas Flammarion, Matthias Hein

El preentrenamiento contrastivo de lenguaje-imagen alinea las características de pares texto-imagen en un espacio latente común mediante codificadores distintos para cada modalidad. Si bien este enfoque logra un rendimiento impresionante en varias tareas de cero disparos, no puede manejar de forma nativa entradas multimodales, es decir, codificar una imagen y un texto en un único vector de características. Como remedio, es una práctica común utilizar módulos adicionales para fusionar las características extraídas por los codificadores unimodales. En este trabajo, presentamos FuseLIP, una arquitectura alternativa para la incrustación multimodal. Aprovechando los avances recientes en tokenizadores discretos de imágenes, proponemos utilizar un único modelo transformador que opera sobre un vocabulario extendido de tokens de texto e imágenes. Este enfoque de fusión temprana permite que las diferentes modalidades interactúen en cada nivel de codificación y obtengan representaciones más ricas en comparación con la fusión tardía común. Recopilamos nuevos conjuntos de datos para el preentrenamiento y evaluación multimodal, diseñando tareas desafiantes para modelos de codificación multimodal. Demostramos que FuseLIP supera a otros enfoques en tareas de incrustación multimodal, como VQA y la recuperación de transformación de imágenes guiada por texto, mientras que es comparable a los baselines en tareas unimodales.

M^3FinMeeting: Un Conjunto de Datos de Evaluación para la Comprensión de Reuniones Financieras Multilingüe, Multisectorial y de Múltiples Tareas
M^3FinMeeting: A Multilingual, Multi-Sector, and Multi-Task Financial Meeting Understanding Evaluation Dataset

Jun 3

ByJie Zhu, Junhui Li, Yalong Wen, Xiandong Li, Lifan Guo, Feng Chen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han llevado al desarrollo de nuevos puntos de referencia para evaluar su desempeño en el ámbito financiero. Sin embargo, los puntos de referencia financieros actuales suelen basarse en artículos de noticias, informes de ganancias o anuncios, lo que dificulta capturar la dinámica del mundo real de las reuniones financieras. Para abordar esta brecha, proponemos un nuevo punto de referencia llamado M^3FinMeeting, que es un conjunto de datos multilingüe, multisectorial y multitarea diseñado para la comprensión de reuniones financieras. En primer lugar, M^3FinMeeting admite inglés, chino y japonés, mejorando la comprensión de las discusiones financieras en diversos contextos lingüísticos. En segundo lugar, abarca varios sectores industriales definidos por el Estándar de Clasificación Industrial Global (GICS), asegurando que el punto de referencia cubra una amplia gama de actividades financieras. Finalmente, M^3FinMeeting incluye tres tareas: resumen, extracción de pares pregunta-respuesta (QA) y respuesta a preguntas, facilitando una evaluación más realista y completa de la comprensión. Los resultados experimentales con siete LLMs populares revelan que incluso los modelos de contexto largo más avanzados tienen un margen significativo de mejora, demostrando la efectividad de M^3FinMeeting como punto de referencia para evaluar las habilidades de comprensión de reuniones financieras de los LLMs.

Los Ángulos No Mienten: Desbloqueando el Aprendizaje por Refuerzo Eficiente en Entrenamiento a Través de las Señales del Propio Modelo
Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals

Jun 2

ByQinsi Wang, Jinghan Ke, Hancheng Ye, Yueqian Lin, Yuzhe Fu, Jianyi Zhang, Kurt Keutzer, Chenfeng Xu, Yiran Chen

Los paradigmas actuales de Ajuste Fino por Refuerzo (RFT) para Modelos de Lenguaje a Gran Escala (LLMs) adolecen de ineficiencia en el uso de muestras debido a la exposición redundante de consultas idénticas bajo un muestreo uniforme de datos. Si bien trabajos previos han explorado el aprendizaje curricular mediante métricas heurísticas de dificultad, estas estrategias presentan limitaciones al ignorar las señales de aprendizaje intrínsecas generadas por el propio modelo, lo que conduce a regímenes de entrenamiento subóptimos. En este artículo, identificamos una señal inherente al modelo denominada concentración angular, que refleja efectivamente la capacidad de un LLM para aprender de datos específicos. Demostramos teórica y empíricamente una correlación entre la distribución angular de los vectores de estado oculto de los tokens y el gradiente resultante, revelando una preferencia de aprendizaje por datos que exhiben una mayor concentración angular. Inspirados por este hallazgo, proponemos GAIN-RL, un marco de Aprendizaje por Refuerzo Navegado por Información Angular basado en Gradientes. Al aprovechar la señal intrínseca de concentración angular del modelo, GAIN-RL selecciona dinámicamente los datos de entrenamiento en cada época, asegurando actualizaciones de gradiente consistentemente impactantes y, por lo tanto, mejorando significativamente la eficiencia general del entrenamiento. Las evaluaciones empíricas muestran que GAIN-RL (GRPO) logra una aceleración de más de 2.5 veces en la eficiencia del entrenamiento en diversas tareas matemáticas y de codificación, y en diferentes escalas de modelos. Además, el muestreo eficiente de GAIN-RL (GRPO) produce un entrenamiento eficiente en datos, alcanzando un mejor rendimiento con la mitad de los datos originales en comparación con GRPO estándar utilizando todos los datos de entrenamiento. El código está disponible en https://github.com/wangqinsi1/GAINRL/tree/main.

Hanfu-Bench: Un punto de referencia multimodal para la comprensión y transcreación cultural a través del tiempo
Hanfu-Bench: A Multimodal Benchmark on Cross-Temporal Cultural Understanding and Transcreation

Jun 2

ByLi Zhou, Lutong Yu, Dongchu Xie, Shaohuan Cheng, Wenyan Li, Haizhou Li

La cultura es un dominio rico y dinámico que evoluciona tanto en la geografía como en el tiempo. Sin embargo, los estudios existentes sobre la comprensión cultural con modelos de visión y lenguaje (VLMs) se centran principalmente en la diversidad geográfica, pasando por alto las dimensiones temporales críticas. Para cerrar esta brecha, presentamos Hanfu-Bench, un novedoso conjunto de datos multimodal curado por expertos. El Hanfu, una vestimenta tradicional que abarca las antiguas dinastías chinas, sirve como un patrimonio cultural representativo que refleja los profundos aspectos temporales de la cultura china, al mismo tiempo que sigue siendo muy popular en la sociedad contemporánea china. Hanfu-Bench consta de dos tareas principales: comprensión visual cultural y transcreación de imágenes culturales. La primera tarea examina el reconocimiento de características culturales temporales basado en entradas de una o varias imágenes a través de preguntas de opción múltiple con respuestas visuales, mientras que la segunda se centra en transformar la vestimenta tradicional en diseños modernos mediante la herencia de elementos culturales y la adaptación al contexto moderno. Nuestra evaluación muestra que los VLMs cerrados tienen un desempeño comparable al de no expertos en la comprensión visual cultural, pero se quedan un 10\% por debajo de los expertos humanos, mientras que los VLMs abiertos se quedan aún más atrás que los no expertos. Para la tarea de transcreación, una evaluación humana multifacética indica que el modelo con mejor desempeño alcanza una tasa de éxito de solo el 42\%. Nuestro benchmark proporciona un banco de pruebas esencial, revelando desafíos significativos en esta nueva dirección de comprensión cultural temporal y adaptación creativa.

ReFoCUS: Optimización de Marcos Guiada por Refuerzo para la Comprensión Contextual
ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding

Jun 2

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

Los recientes avances en los Modelos Multimodales de Gran Escala (LMMs) han permitido un razonamiento efectivo entre visión y lenguaje, pero la capacidad para comprender contenido de video sigue limitada por estrategias subóptimas de selección de fotogramas. Los enfoques existentes suelen depender de heurísticas estáticas o módulos externos de recuperación para alimentar información de fotogramas en los video-LLMs, lo que puede fallar en proporcionar información relevante para la consulta. En este trabajo, presentamos ReFoCUS (Optimización de Fotogramas Guiada por Refuerzo para la Comprensión Contextual), un novedoso marco de optimización a nivel de fotogramas que traslada el objetivo de optimización desde las respuestas textuales hacia la selección de entradas visuales. ReFoCUS aprende una política de selección de fotogramas mediante aprendizaje por refuerzo, utilizando señales de recompensa derivadas de un LMM de referencia para reflejar las preferencias intrínsecas del modelo por fotogramas que mejor respaldan respuestas temporalmente fundamentadas. Para explorar eficientemente el amplio espacio combinatorio de fotogramas, empleamos una arquitectura de selección condicional y autorregresiva que garantiza coherencia temporal mientras reduce la complejidad. Nuestro enfoque no requiere supervisión explícita a nivel de fotogramas y mejora consistentemente el rendimiento en razonamiento en múltiples benchmarks de preguntas y respuestas sobre videos, destacando los beneficios de alinear la selección de fotogramas con la utilidad interna del modelo.

Interpolación Controlable de Fotogramas Clave Centrada en Humanos con Prior Generativo
Controllable Human-centric Keyframe Interpolation with Generative Prior

Jun 3

ByZujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy

Los métodos de interpolación existentes utilizan priores de difusión de video preentrenados para generar fotogramas intermedios entre fotogramas clave muestreados de manera dispersa. En ausencia de guía geométrica 3D, estos métodos tienen dificultades para producir resultados plausibles en movimientos humanos complejos y articulados, y ofrecen un control limitado sobre la dinámica sintetizada. En este artículo, presentamos PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), un marco novedoso que integra señales de guía humana 3D en el proceso de difusión para la Interpolación de Fotogramas Clave Centrada en Humanos Controlable (CHKI). Para proporcionar pistas espaciales y estructurales ricas para la interpolación, nuestro PoseFuse3D, un modelo de control informado en 3D, incluye un codificador SMPL-X novedoso que transforma la geometría y la forma 3D en el espacio de condicionamiento latente 2D, junto con una red de fusión que integra estas pistas 3D con incrustaciones de pose 2D. Para la evaluación, construimos CHKI-Video, un nuevo conjunto de datos anotado con poses 2D y parámetros SMPL-X 3D. Demostramos que PoseFuse3D-KI supera consistentemente los métodos de referencia más avanzados en CHKI-Video, logrando una mejora del 9% en PSNR y una reducción del 38% en LPIPS. Las ablaciones exhaustivas demuestran que nuestro modelo PoseFuse3D mejora la fidelidad de la interpolación.

Saber antes de decir: Las representaciones de los LLM codifican información sobre el éxito de la cadena de pensamiento antes de la finalización.
Knowing Before Saying: LLM Representations Encode Information About Chain-of-Thought Success Before Completion

May 30

ByAnum Afzal, Florian Matthes, Gal Chechik, Yftah Ziser

Investigamos si el éxito de un proceso de Cadena de Pensamiento (CoT) en modo zero-shot puede predecirse antes de su finalización. Descubrimos que un clasificador de sondeo, basado en representaciones de modelos de lenguaje grandes (LLM), tiene un buen desempeño incluso antes de que se genere un solo token, lo que sugiere que la información crucial sobre el proceso de razonamiento ya está presente en las representaciones iniciales. En contraste, una línea de base sólida basada en BERT, que depende únicamente de los tokens generados, tiene un peor desempeño, probablemente porque se basa en indicadores lingüísticos superficiales en lugar de dinámicas de razonamiento más profundas. Sorprendentemente, el uso de pasos de razonamiento posteriores no siempre mejora la clasificación. Cuando el contexto adicional no es útil, las representaciones iniciales se asemejan más a las posteriores, lo que sugiere que los LLM codifican información clave desde el principio. Esto implica que el razonamiento a menudo puede detenerse temprano sin pérdida. Para probar esto, realizamos experimentos de parada temprana, mostrando que truncar el razonamiento CoT aún mejora el rendimiento en comparación con no usar CoT en absoluto, aunque persiste una brecha en comparación con el razonamiento completo. Sin embargo, enfoques como el aprendizaje supervisado o el aprendizaje por refuerzo diseñados para acortar las cadenas de CoT podrían aprovechar la orientación de nuestro clasificador para identificar cuándo la parada temprana es efectiva. Nuestros hallazgos proporcionan ideas que pueden respaldar tales métodos, ayudando a optimizar la eficiencia de CoT mientras se preservan sus beneficios.

R^2ec: Hacia Modelos de Recomendación a Gran Escala con Razonamiento
R^2ec: Towards Large Recommender Models with Reasoning

May 22

ByRunyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie

Los grandes modelos de recomendación han extendido los LLMs como potentes recomendadores mediante la codificación o generación de ítems, y los recientes avances en el razonamiento de LLMs han motivado de manera sincrónica la exploración del razonamiento en la recomendación. Los estudios actuales suelen posicionar a los LLMs como módulos externos de razonamiento para generar pensamientos auxiliares que mejoren los flujos convencionales de recomendación. Sin embargo, estos diseños desacoplados están limitados por un costo significativo de recursos y una optimización conjunta subóptima. Para abordar estos problemas, proponemos \name, un modelo unificado de recomendación a gran escala con capacidades intrínsecas de razonamiento. Inicialmente, reconceptualizamos la arquitectura del modelo para facilitar el razonamiento intercalado y la recomendación en el proceso autoregresivo. Posteriormente, proponemos RecPO, un marco de aprendizaje por refuerzo correspondiente que optimiza \name\ tanto en sus capacidades de razonamiento como de recomendación simultáneamente en una única actualización de política; RecPO introduce un esquema de recompensa fusionada que aprovecha únicamente las etiquetas de recomendación para simular la capacidad de razonamiento, eliminando la dependencia de anotaciones especializadas de razonamiento. Los experimentos en tres conjuntos de datos con diversas líneas base verifican la efectividad de \name, mostrando mejoras relativas del 68.67\% en Hit@5 y del 45.21\% en NDCG@20. El código está disponible en https://github.com/YRYangang/RRec.

ByteMorph: Evaluación de la Edición de Imágenes Guiada por Instrucciones con Movimientos No Rígidos
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions

Jun 3

ByDi Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang

La edición de imágenes con instrucciones para reflejar movimientos no rígidos, cambios de perspectiva de la cámara, deformaciones de objetos, articulaciones humanas e interacciones complejas, representa un problema desafiante y poco explorado en visión por computadora. Los enfoques y conjuntos de datos existentes se centran principalmente en escenas estáticas o transformaciones rígidas, lo que limita su capacidad para manejar ediciones expresivas que involucran movimiento dinámico. Para abordar esta brecha, presentamos ByteMorph, un marco integral para la edición de imágenes basada en instrucciones con énfasis en movimientos no rígidos. ByteMorph comprende un conjunto de datos a gran escala, ByteMorph-6M, y un modelo de referencia sólido basado en el Transformer de Difusión (DiT), denominado ByteMorpher. ByteMorph-6M incluye más de 6 millones de pares de edición de imágenes de alta resolución para entrenamiento, junto con un benchmark de evaluación cuidadosamente seleccionado, ByteMorph-Bench. Ambos capturan una amplia variedad de tipos de movimiento no rígido en diversos entornos, figuras humanas y categorías de objetos. El conjunto de datos se construye utilizando generación de datos guiada por movimiento, técnicas de composición por capas y subtitulado automático para garantizar diversidad, realismo y coherencia semántica. Además, llevamos a cabo una evaluación exhaustiva de los métodos recientes de edición de imágenes basados en instrucciones, tanto del ámbito académico como comercial.

Revisitando LRP: La Atribución Posicional como el Ingrediente Faltante para la Explicabilidad de los Transformers
Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability

Jun 2

ByYarden Bakish, Itamar Zimerman, Hila Chefer, Lior Wolf

El desarrollo de herramientas efectivas de explicabilidad para Transformers es una búsqueda crucial en la investigación de aprendizaje profundo. Uno de los enfoques más prometedores en este dominio es la Propagación de Relevancia por Capas (LRP, por sus siglas en inglés), que propaga puntuaciones de relevancia hacia atrás a través de la red hasta el espacio de entrada redistribuyendo valores de activación según reglas predefinidas. Sin embargo, los métodos existentes basados en LRP para la explicabilidad de Transformers pasan por alto por completo un componente crítico de la arquitectura Transformer: su codificación posicional (PE, por sus siglas en inglés), lo que resulta en la violación de la propiedad de conservación y la pérdida de un tipo importante y único de relevancia, que también está asociado con características estructurales y posicionales. Para abordar esta limitación, reformulamos el espacio de entrada para la explicabilidad de Transformers como un conjunto de pares posición-token. Esto nos permite proponer reglas especializadas de LRP fundamentadas teóricamente, diseñadas para propagar atribuciones a través de varios métodos de codificación posicional, incluyendo PE Rotatorio, Aprendible y Absoluto. Experimentos exhaustivos con clasificadores ajustados y modelos de base de cero-shot, como LLaMA 3, demuestran que nuestro método supera significativamente al estado del arte tanto en tareas de explicabilidad de visión como de PNL. Nuestro código está disponible públicamente.

Más allá del aprendizaje en contexto: Alineación de la generación de texto extenso en modelos de lenguaje de gran escala mediante directrices de atributos inherentes a la tarea
Beyond In-Context Learning: Aligning Long-form Generation of Large Language Models via Task-Inherent Attribute Guidelines

Jun 2

ByDo Xuan Long, Duong Ngoc Yen, Do Xuan Trong, Luu Anh Tuan, Kenji Kawaguchi, Shafiq Joty, Min-Yen Kan, Nancy F. Chen

El aprendizaje en contexto (ICL, por sus siglas en inglés) es una capacidad importante, aunque no completamente comprendida, de los modelos de lenguaje preentrenados de gran escala (LLMs). Puede mejorar significativamente el rendimiento en tareas utilizando unos pocos ejemplos, denominados demostraciones, sin necesidad de ajuste fino. Aunque es efectivo en tareas de respuesta a preguntas, el ICL a menudo tiene un rendimiento inferior en tareas de generación de texto extenso, como la resumen. Bajo suposiciones realistas adecuadas, demostramos empírica y teóricamente que las demostraciones de ICL por sí solas son insuficientes para enseñar a los LLMs las distribuciones de lenguaje y formato necesarias para la generación. Argumentamos a favor de una exposición explícita a las distribuciones de la tarea y planteamos la hipótesis de que definirlas mediante indicaciones mejora el rendimiento del modelo. Con este fin, presentamos LongGuide, que genera eficientemente dos flujos paralelos de directrices que capturan las propiedades del lenguaje y el formato de la tarea: (i) Directrices de Métricas (MGs) que instruyen a los modelos para optimizar métricas autoevaluadas; y (ii) Directrices de Restricciones de Salida (OCGs) que limitan la generación tanto a nivel de tokens como de oraciones. LongGuide selecciona automáticamente la mejor combinación de directrices, mejorando tanto los LLMs de código abierto como los de código cerrado en más de un 5% en configuraciones de cero y pocos ejemplos. Demostramos que LongGuide es generalizable, puede ser aprendido por modelos débiles para mejorar a los fuertes, y se integra sinérgicamente con optimizadores automáticos de indicaciones.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Reflexionar, Reintentar, Recompensar: Mejora Autónoma de Modelos de Lenguaje mediante Aprendizaje por Refuerzo
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

May 30

ByShelly Bensal, Umar Jamil, Christopher Bryant, Melisa Russak, Kiran Kamble, Dmytro Mozolevskyi, Muayad Ali, Waseem AlShikh

267

UniWorld: Codificadores Semánticos de Alta Resolución para la Comprensión y Generación Visual Unificada
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Jun 3

ByBin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan

VS-Bench: Evaluación de VLMs para el razonamiento estratégico y la toma de decisiones en entornos multiagente
VS-Bench: Evaluating VLMs for Strategic Reasoning and Decision-Making in Multi-Agent Environments

Jun 3

ByZelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang

SynthRL: Escalando el razonamiento visual con síntesis de datos verificable
SynthRL: Scaling Visual Reasoning with Verifiable Data Synthesis

Jun 2

ByZijian Wu, Jinjie Ni, Xiangyan Liu, Zichen Liu, Hang Yan, Michael Qizhe Shieh

GUI-Actor: Fundamentación Visual Independiente de Coordenadas para Agentes de Interfaz Gráfica
GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents

Jun 3

CSVQA: Un punto de referencia multimodal en chino para evaluar las capacidades de razonamiento STEM en modelos de lenguaje visual
CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs

May 30

ByAi Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song

OmniSpatial: Hacia un Benchmark Integral de Razonamiento Espacial para Modelos de Lenguaje y Visión
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Jun 3

ByMengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi

OThink-R1: Cambio Intrínseco entre Modos de Pensamiento Rápido/Lento para la Mitigación del Sobre-Razonamiento
OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

Jun 3

ByShengjia Zhang, Junjie Wu, Jiawei Chen, Changwang Zhang, Xingyu Lou, Wangchunshu Zhou, Sheng Zhou, Can Wang, Jun Wang

FinMME: Conjunto de Datos de Referencia para la Evaluación del Razonamiento Multi-Modal en el Ámbito Financiero
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

May 30

ByJunyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

Cerebro Visual Encarnado: Permitir que los Modelos de Lenguaje Multimodales a Gran Escala Vean, Piensen y Controlen en Espacios
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces

May 30

DINGO: Inferencia con Restricciones para Modelos de Lenguaje Basados en Difusión
DINGO: Constrained Inference for Diffusion LLMs

May 29

ByTarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh

MotionSight: Potenciando la Comprensión de Movimientos de Granularidad Fina en Modelos de Lenguaje Multimodales
MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Jun 2

ByYipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai

Robot-R1: Aprendizaje por Refuerzo para el Razonamiento Embebido Mejorado en Robótica
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

May 29

ByDongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo

Sparse-vDiT: Liberando el Poder de la Atención Dispersa para Acelerar Transformadores de Difusión de Video
Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers

Jun 3

ByPengtao Chen, Xianfang Zeng, Maosen Zhao, Peng Ye, Mingzhu Shen, Wei Cheng, Gang Yu, Tao Chen

Co-Evolución de Codificador LLM y Probador de Unidades mediante Aprendizaje por Refuerzo
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Jun 3

ByYinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang

Optimización de Fidelidad del Sujeto Guiada por Negativos para la Generación Dirigida por Sujetos en Cero Disparos
Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation

Jun 4

ByChaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon

AnimeShooter: Un Conjunto de Datos de Animación Multi-Shot para la Generación de Vídeos Guiada por Referencia
AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation

Jun 3

ByLu Qiu, Yizhuo Li, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu

Síntesis de Imágenes en Resolución Nativa
Native-Resolution Image Synthesis

Jun 3

ByZidong Wang, Lei Bai, Xiangyu Yue, Wanli Ouyang, Yiyuan Zhang

LumosFlow: Generación de Videos Largos Guiada por Movimiento
LumosFlow: Motion-Guided Long Video Generation

Jun 3

ByJiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su

RelationAdapter: Aprendizaje y transferencia de relaciones visuales con Transformadores de Difusión
RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers

Jun 3

ByYan Gong, Yiren Song, Yicheng Li, Chenglin Li, Yin Zhang

DCM: Modelo de Consistencia de Doble Experto para la Generación Eficiente y de Alta Calidad de Videos
DCM: Dual-Expert Consistency Model for Efficient and High-Quality Video Generation

Jun 3

ByZhengyao Lv, Chenyang Si, Tianlin Pan, Zhaoxi Chen, Kwan-Yee K. Wong, Yu Qiao, Ziwei Liu

Las hojas de datos no son suficientes: Rúbricas de datos para métricas de calidad automatizadas y rendición de cuentas
Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

Jun 2

FlowMo: Guía de Flujo Basada en Varianza para Movimiento Coherente en la Generación de Videos
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

Jun 1

ByAriel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer

Entrenamiento de Modelos de Lenguaje para Generar Código de Calidad con Retroalimentación de Análisis de Programas
Training Language Models to Generate Quality Code with Program Analysis Feedback

May 28

ByFeng Yao, Zilong Wang, Liyuan Liu, Junxia Cui, Li Zhong, Xiaohan Fu, Haohui Mai, Vish Krishnan, Jianfeng Gao, Jingbo Shang

Ctrl-Crash: Difusión Controlable para Colisiones de Automóviles Realistas
Ctrl-Crash: Controllable Diffusion for Realistic Car Crashes

May 30

ByAnthony Gosselin, Ge Ya Luo, Luis Lara, Florian Golemo, Derek Nowrouzezahrai, Liam Paull, Alexia Jolicoeur-Martineau, Christopher Pal

Agentes de Modelos de Lenguaje con Autodesafío
Self-Challenging Language Model Agents

Jun 2

ByYifei Zhou, Sergey Levine, Jason Weston, Xian Li, Sainbayar Sukhbaatar

PCoreSet: Aprendizaje Activo Efectivo mediante Distilación de Conocimiento de Modelos Visión-Lenguaje
PCoreSet: Effective Active Learning through Knowledge Distillation from Vision-Language Models

Jun 1

BySeongjae Kang, Dong Bok Lee, Hyungjoon Jang, Dongseop Kim, Sung Ju Hwang

SHARE: Un Asistente Jerárquico de Corrección de Acciones basado en SLM para Texto-a-SQL
SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL

May 31

ByGe Qu, Jinyang Li, Bowen Qin, Xiaolong Li, Nan Huo, Chenhao Ma, Reynold Cheng

Alineación de Conceptos Consciente del Movimiento para la Edición Consistente de Videos
Motion-Aware Concept Alignment for Consistent Video Editing

Jun 1

ByTong Zhang, Juan C Leon Alcazar, Bernard Ghanem

Aceleración de LLMs de Difusión mediante Decodificación Paralela Adaptativa
Accelerating Diffusion LLMs via Adaptive Parallel Decoding

May 31

ByDaniel Israel, Guy Van den Broeck, Aditya Grover

ORV: Generación de Vídeo Robótico Centrado en Ocupación 4D
ORV: 4D Occupancy-centric Robot Video Generation

Jun 3

ByXiuyu Yang, Bohan Li, Shaocong Xu, Nan Wang, Chongjie Ye, Zhaoxi Chen, Minghan Qin, Yikang Ding, Xin Jin, Hang Zhao, Hao Zhao

TL;DR: Demasiado largo, reajuste de pesos para la compresión eficiente del razonamiento en LLM
TL;DR: Too Long, Do Re-weighting for Effcient LLM Reasoning Compression

Jun 3

ByZhong-Zhi Li, Xiao Liang, Zihao Tang, Lei Ji, Peijie Wang, Haotian Xu, Xing W, Haizhen Huang, Weiwei Deng, Ying Nian Wu, Yeyun Gong, Zhijiang Guo, Xiao Liu, Fei Yin, Cheng-Lin Liu

Multimodal DeepResearcher: Generación de Informes Intercalados de Texto y Gráficos desde Cero con un Marco Agéntico
Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework

Jun 3

ByZhaorui Yang, Bo Pan, Han Wang, Yiyao Wang, Xingyu Liu, Minfeng Zhu, Bo Zhang, Wei Chen

QARI-OCR: Reconocimiento de Texto Árabe de Alta Fidelidad mediante Adaptación de Modelos de Lenguaje Multimodales de Gran Escala
QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation

Jun 2

ByAhmed Wasfy, Omer Nacar, Abdelakreem Elkhateb, Mahmoud Reda, Omar Elshehy, Adel Ammar, Wadii Boulila

Control-R: Hacia un escalado controlable en tiempo de prueba
Control-R: Towards controllable test-time scaling

May 30

ByDi Zhang, Weida Wang, Junxian Li, Xunzhi Wang, Jiatong Li, Jianbo Wu, Jingdi Lei, Haonan He, Peng Ye, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou