ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Informe Técnico Kling-Omni
Kling-Omni Technical Report

Dec 18
ByKling Team, Jialu Chen, Yuanzheng Ci, Xiangyu Du, Zipeng Feng, Kun Gai, Sainan Guo, Feng Han, Jingbin He, Kang He, Xiao Hu, Xiaohua Hu, Boyuan Jiang, Fangyuan Kong, Hang Li, Jie Li, Qingyu Li, Shen Li, Xiaohan Li, Yan Li, Jiajun Liang, Borui Liao, Yiqiao Liao, Weihong Lin, Quande Liu, Xiaokun Liu, Yilun Liu, Yuliang Liu, Shun Lu, Hangyu Mao, Yunyao Mao, Haodong Ouyang, Wenyu Qin, Wanqi Shi, Xiaoyu Shi, Lianghao Su, Haozhi Sun, Peiqin Sun, Pengfei Wan, Chao Wang, Chenyu Wang, Meng Wang, Qiulin Wang, Runqi Wang, Xintao Wang, Xuebo Wang, Zekun Wang, Min Wei, Tiancheng Wen, Guohao Wu, Xiaoshi Wu, Zhenhua Wu, Da Xie, Yingtong Xiong, Yulong Xu, Sile Yang, Zikang Yang, Weicai Ye, Ziyang Yuan, Shenglong Zhang, Shuaiyu Zhang, Yuanxing Zhang, Yufan Zhang, Wenzheng Zhao, Ruiliang Zhou, Yan Zhou, Guosheng Zhu, Yongjie Zhu
122
2

Presentamos Kling-Omni, un marco generativo generalista diseñado para sintetizar vídeos de alta fidelidad directamente a partir de entradas multimodales de lenguaje visual. Adoptando una perspectiva integral (end-to-end), Kling-Omni elimina la separación funcional entre diversas tareas de generación, edición y razonamiento inteligente de vídeos, integrándolas en un sistema holístico. A diferencia de los enfoques basados en pipelines fragmentados, Kling-Omni admite una amplia gama de entradas del usuario, incluyendo instrucciones de texto, imágenes de referencia y contextos de vídeo, procesándolas en una representación multimodal unificada para ofrecer una creación de contenido videográfico de calidad cinematográfica y altamente inteligente. Para respaldar estas capacidades, construimos un sistema de datos integral que sirve como base para la creación multimodal de vídeos. El marco se ve potenciado además por estrategias eficientes de pre-entrenamiento a gran escala y optimizaciones de infraestructura para la inferencia. Evaluaciones exhaustivas revelan que Kling-Omni demuestra capacidades excepcionales en generación contextual, edición basada en razonamiento y seguimiento de instrucciones multimodales. Trascendiendo su función como herramienta de creación de contenido, creemos que Kling-Omni representa un avance crucial hacia simuladores multimodales del mundo capaces de percibir, razonar, generar e interactuar con mundos dinámicos y complejos.

2

Adaptación de la IA Agéntica
Adaptation of Agentic AI

Dec 18
ByPengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han
64
4

Los sistemas de IA agentes más avanzados se construyen sobre modelos de base que pueden adaptarse para planificar, razonar e interactuar con herramientas externas con el fin de realizar tareas cada vez más complejas y especializadas. A medida que estos sistemas aumentan en capacidad y alcance, la adaptación se convierte en un mecanismo central para mejorar el rendimiento, la fiabilidad y la generalización. En este artículo, unificamos el panorama de investigación en rápida expansión en un marco sistemático que abarca tanto las adaptaciones del agente como las adaptaciones de las herramientas. Además, descomponemos estas adaptaciones en formas señalizadas por la ejecución de herramientas y señalizadas por la salida del agente para la adaptación del agente, así como en formas independientes del agente y supervisadas por el agente para la adaptación de las herramientas. Demostramos que este marco ayuda a clarificar el espacio de diseño de las estrategias de adaptación en la IA agente, explicita sus compensaciones y proporciona una guía práctica para seleccionar o cambiar entre estrategias durante el diseño del sistema. A continuación, revisamos los enfoques representativos en cada categoría, analizamos sus fortalezas y limitaciones, y destacamos los principales desafíos abiertos y las oportunidades futuras. En general, este artículo pretende ofrecer una base conceptual y una hoja de ruta práctica para investigadores y profesionales que buscan construir sistemas de IA agentes más capaces, eficientes y fiables.

3

LLaDA2.0: Escalando Modelos de Lenguaje de Difusión a 100.000 Millones
LLaDA2.0: Scaling Up Diffusion Language Models to 100B

Dec 10
ByTiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang
55
2

Este artículo presenta LLaDA2.0 — una tupla de modelos de lenguaje grandes de difusión discreta (dLLM) que escalan hasta 100.000 millones de parámetros totales mediante una conversión sistemática a partir de modelos autorregresivos (AR) — estableciendo un nuevo paradigma para el despliegue a escala de frontera. En lugar de un costoso entrenamiento desde cero, LLaDA2.0 mantiene los principios de herencia del conocimiento, adaptación progresiva y diseño consciente de la eficiencia, convirtiendo de forma fluida un modelo AR preentrenado en un dLLM con un novedoso esquema de entrenamiento en 3 fases basado en WSD a nivel de bloque: aumento progresivo del tamaño del bloque en la difusión por bloques (calentamiento), difusión de secuencia completa a gran escala (estable) y reversión a una difusión por bloques de tamaño compacto (decaimiento). Junto con la alineación posterior al entrenamiento mediante SFT y DPO, obtenemos LLaDA2.0-mini (16B) y LLaDA2.0-flash (100B), dos variantes ajustadas por instrucciones de Mixture-of-Experts (MoE) optimizadas para el despliegue práctico. Al preservar las ventajas del decodificado paralelo, estos modelos ofrecen un rendimiento y una eficiencia superiores a escala de frontera. Ambos modelos fueron liberados como código abierto.

4

La Predicción de Incrustaciones Vecinas Hace Fuertes a los Aprendices Visuales
Next-Embedding Prediction Makes Strong Vision Learners

Dec 18
BySihan Xu, Ziqiao Ma, Wenhao Chai, Xuweiyi Chen, Weiyang Jin, Joyce Chai, Saining Xie, Stella X. Yu
51
2

Inspirados por el éxito de la preentrenación generativa en lenguaje natural, nos preguntamos si los mismos principios pueden producir aprendices visuales auto-supervisados sólidos. En lugar de entrenar modelos para generar características destinadas a uso posterior, los entrenamos para generar *embeddings* que realicen tareas predictivas directamente. Este trabajo explora dicho cambio: de aprender representaciones a aprender modelos. Específicamente, los modelos aprenden a predecir *embeddings* de parches futuros condicionados a *embeddings* pasados, utilizando enmascaramiento causal y detención del gradiente, lo que denominamos Autoregresión Predictiva del Siguiente *Embedding* (NEPA, por sus siglas en inglés). Demostramos que un Transformer simple, preentrenado en ImageNet-1k con la predicción del siguiente *embedding* como único objetivo de aprendizaje, es efectivo, sin necesidad de reconstrucción de píxeles, tokens discretos, pérdida contrastiva o cabezales específicos por tarea. Esta formulación conserva la simplicidad arquitectónica y la escalabilidad, sin requerir complejidad de diseño adicional. NEPA logra resultados sólidos en diversas tareas, alcanzando un 83.8% y un 85.3% de precisión *top-1* en ImageNet-1K con arquitecturas *backbone* ViT-B y ViT-L tras el ajuste fino, y transfiriéndose efectivamente a la segmentación semántica en ADE20K. Creemos que la preentrenación generativa a partir de *embeddings* ofrece una alternativa simple, escalable y potencialmente agnóstica a la modalidad para el aprendizaje visual auto-supervisado.

5

StereoPilot: Aprendizaje de Conversión Estéreo Unificada y Eficiente mediante Priors Generativos
StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Dec 18
ByGuibao Shen, Yihua Du, Wenhang Ge, Jing He, Chirui Chang, Donghao Zhou, Zhen Yang, Luozhou Wang, Xin Tao, Ying-Cong Chen
34
2

El rápido crecimiento de las pantallas estereoscópicas, incluyendo los cascos de realidad virtual y los cines 3D, ha generado una demanda creciente de contenido de vídeo estereoscópico de alta calidad. Sin embargo, la producción de vídeos 3D sigue siendo costosa y compleja, mientras que la conversión automática de Monocular a Estéreo se ve obstaculizada por las limitaciones de la pipeline multi-etapa "Profundidad-Deformación-Relleno" (DWI). Este paradigma sufre de propagación de errores, ambigüedad de profundidad e inconsistencia de formato entre las configuraciones estereoscópicas paralelas y convergentes. Para abordar estos desafíos, presentamos UniStereo, el primer conjunto de datos unificado a gran escala para la conversión de vídeo estereoscópico, que cubre ambos formatos estéreo para permitir una evaluación comparativa justa y un entrenamiento robusto de modelos. Basándonos en este conjunto de datos, proponemos StereoPilot, un modelo eficiente de propagación directa que sintetiza directamente la vista objetivo sin depender de mapas de profundidad explícitos o de un muestreo iterativo por difusión. Equipado con un conmutador de dominio entrenable y una pérdida de consistencia cíclica, StereoPilot se adapta sin problemas a diferentes formatos estéreo y logra una consistencia mejorada. Experimentos exhaustivos demuestran que StereoPilot supera significativamente a los métodos más avanzados tanto en fidelidad visual como en eficiencia computacional. Página del proyecto: https://hit-perfect.github.io/StereoPilot/.

6

Seedance 1.5 Pro: Un Modelo Fundacional Nativo de Generación Conjunta Audio-Visual
Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

Dec 15
ByHeyi Chen, Siyan Chen, Xin Chen, Yanfei Chen, Ying Chen, Zhuo Chen, Feng Cheng, Tianheng Cheng, Xinqi Cheng, Xuyan Chi, Jian Cong, Jing Cui, Qinpeng Cui, Qide Dong, Junliang Fan, Jing Fang, Zetao Fang, Chengjian Feng, Han Feng, Mingyuan Gao, Yu Gao, Dong Guo, Qiushan Guo, Boyang Hao, Qingkai Hao, Bibo He, Qian He, Tuyen Hoang, Ruoqing Hu, Xi Hu, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Donglei Ji, Siqi Jiang, Wei Jiang, Yunpu Jiang, Zhuo Jiang, Ashley Kim, Jianan Kong, Zhichao Lai, Shanshan Lao, Yichong Leng, Ai Li, Feiya Li, Gen Li, Huixia Li, JiaShi Li, Liang Li, Ming Li, Shanshan Li, Tao Li, Xian Li, Xiaojie Li, Xiaoyang Li, Xingxing Li, Yameng Li, Yifu Li, Yiying Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Zhiqiang Liang, Wang Liao, Yalin Liao, Heng Lin, Kengyu Lin, Shanchuan Lin, Xi Lin, Zhijie Lin, Feng Ling, Fangfang Liu, Gaohong Liu, Jiawei Liu, Jie Liu, Jihao Liu, Shouda Liu, Shu Liu, Sichao Liu, Songwei Liu, Xin Liu, Xue Liu, Yibo Liu, Zikun Liu, Zuxi Liu, Junlin Lyu, Lecheng Lyu, Qian Lyu, Han Mu, Xiaonan Nie, Jingzhe Ning, Xitong Pan, Yanghua Peng, Lianke Qin, Xueqiong Qu, Yuxi Ren, Kai Shen, Guang Shi, Lei Shi, Yan Song, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Yan Sun, Zeyu Sun, Wenjing Tang, Yaxue Tang, Zirui Tao, Feng Wang, Furui Wang, Jinran Wang, Junkai Wang, Ke Wang, Kexin Wang, Qingyi Wang, Rui Wang, Sen Wang, Shuai Wang, Tingru Wang, Weichen Wang, Xin Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Ziyu Wang, Guoqiang Wei, Wanru Wei, Di Wu, Guohong Wu, Hanjie Wu, Jian Wu, Jie Wu, Ruolan Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Liang Xiang, Fei Xiao, XueFeng Xiao, Pan Xie, Shuangyi Xie, Shuang Xu, Jinlan Xue, Shen Yan, Bangbang Yang, Ceyuan Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yang Yang, Yihang Yang, ZhiXian Yang, Ziyan Yang, Songting Yao, Yifan Yao, Zilyu Ye, Bowen Yu, Jian Yu, Chujie Yuan, Linxiao Yuan, Sichun Zeng, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Chuntao Zhang, Heng Zhang, Jingjie Zhang, Kuo Zhang, Liang Zhang, Liying Zhang, Manlin Zhang, Ting Zhang, Weida Zhang, Xiaohe Zhang, Xinyan Zhang, Yan Zhang, Yuan Zhang, Zixiang Zhang, Fengxuan Zhao, Huating Zhao, Yang Zhao, Hao Zheng, Jianbin Zheng, Xiaozheng Zheng, Yangyang Zheng, Yijie Zheng, Jiexin Zhou, Jiahui Zhu, Kuan Zhu, Shenhan Zhu, Wenjia Zhu, Benhui Zou, Feilong Zuo
32
2

Los recientes avances en generación de vídeo han allanado el camino para la generación audiovisual unificada. En este trabajo presentamos Seedance 1.5 pro, un modelo fundamental diseñado específicamente para la generación nativa conjunta de audio y vídeo. Utilizando una arquitectura de Transformer de Difusión de doble rama, el modelo integra un módulo conjunto intermodal con una pipeline de datos multietapa especializada, logrando una sincronización audiovisual excepcional y una calidad de generación superior. Para garantizar su utilidad práctica, implementamos meticulosas optimizaciones posteriores al entrenamiento, incluyendo Ajuste Fino Supervisado (SFT) en conjuntos de datos de alta calidad y Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) con modelos de recompensa multidimensionales. Además, introducimos un marco de aceleración que incrementa la velocidad de inferencia en más de 10 veces. Seedance 1.5 pro se distingue por su precisa sincronización labial multilingüe y dialectal, control dinámico de cámara cinematográfica y coherencia narrativa mejorada, posicionándose como un motor robusto para la creación de contenido de nivel profesional. Seedance 1.5 pro ya está disponible en Volcano Engine en https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.

7

Profundidad en Panoramas Cualesquiera: Un Modelo Fundamental para la Estimación de Profundidad Panorámica
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

Dec 18
ByXin Lin, Meixi Song, Dizhe Zhang, Wenxuan Lu, Haodong Li, Bo Du, Ming-Hsuan Yang, Truong Nguyen, Lu Qi
29
2

En este trabajo, presentamos un modelo fundacional de profundidad métrica panorámica que generaliza a través de diversas distancias de escena. Exploramos un paradigma de datos en bucle desde la perspectiva tanto de la construcción de datos como del diseño del marco de trabajo. Recopilamos un conjunto de datos a gran escala combinando conjuntos de datos públicos, datos sintéticos de alta calidad de nuestro simulador UE5 y modelos de texto a imagen, e imágenes panorámicas reales de la web. Para reducir las brechas de dominio entre datos interiores/exteriores y sintéticos/reales, introducimos una pipeline de curación de pseudoetiquetas en tres etapas para generar una referencia confiable para imágenes no etiquetadas. Para el modelo, adoptamos DINOv3-Large como columna vertebral por su fuerte generalización preentrenada, e introducimos una cabezal de máscara de rango plug-and-play, una optimización centrada en la nitidez y una optimización centrada en la geometría para mejorar la robustez a distancias variables y hacer cumplir la coherencia geométrica entre vistas. Los experimentos en múltiples benchmarks (por ejemplo, Stanford2D3D, Matterport3D y Deep360) demuestran un rendimiento sólido y una generalización zero-shot, con predicciones métricas particularmente robustas y estables en diversas escenas del mundo real. La página del proyecto se puede encontrar en: https://insta360-research-team.github.io/DAP_website/

8

Refocalización Generativa: Control Flexible del Desenfoque a partir de una Única Imagen
Generative Refocusing: Flexible Defocus Control from a Single Image

Dec 18
ByChun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu
27
2

El control de la profundidad de campo es esencial en fotografía, pero lograr el enfoque perfecto a menudo requiere varios intentos o equipos especializados. El reenfoque a partir de una única imagen sigue siendo un desafío. Este proceso implica recuperar contenido nítido y crear un desenfoque (bokeh) realista. Los métodos actuales presentan inconvenientes significativos: requieren imágenes con todo enfocado, dependen de datos sintéticos de simuladores y ofrecen un control limitado sobre la apertura. Presentamos Generative Refocusing, un proceso en dos pasos que utiliza DeblurNet para recuperar imágenes con todo enfocado a partir de varias entradas y BokehNet para crear un bokeh controlable. Nuestra principal innovación es el entrenamiento semi-supervisado. Este método combina datos sintéticos emparejados con imágenes reales de bokeh no emparejadas, utilizando metadatos EXIF para capturar características ópticas reales que van más allá de lo que los simuladores pueden proporcionar. Nuestros experimentos demuestran que logramos un rendimiento superior en las pruebas comparativas de eliminación de desenfoque, síntesis de bokeh y reenfoque. Adicionalmente, nuestro Generative Refocusing permite ajustes guiados por texto y formas de apertura personalizadas.

9

DeContext como Defensa: Edición Segura de Imágenes en Transformadores de Difusión
DeContext as Defense: Safe Image Editing in Diffusion Transformers

Dec 18
ByLinghui Shen, Mingyue Cui, Xingyi Yang
22
2

Los modelos de difusión en contexto permiten a los usuarios modificar imágenes con una facilidad y realismo notables. Sin embargo, esta misma capacidad plantea serias preocupaciones sobre la privacidad: las imágenes personales pueden manipularse fácilmente para suplantar identidades, difundir desinformación u otros usos maliciosos, todo ello sin el consentimiento del propietario. Si bien trabajos anteriores han explorado perturbaciones en la entrada para protegerse del mal uso en la generación personalizada de imágenes a partir de texto, la robustez de los modelos modernos de gran escala basados en DiT en contexto sigue sin examinarse en gran medida. En este artículo, proponemos DeContext, un nuevo método para proteger las imágenes de entrada de la edición no autorizada en contexto. Nuestra idea clave es que la información contextual de la imagen fuente se propaga a la salida principalmente a través de las capas de atención multimodal. Al inyectar pequeñas perturbaciones dirigidas que debilitan estas rutas de atención cruzada, DeContext interrumpe este flujo y desacopla eficazmente el vínculo entre la entrada y la salida. Esta defensa simple es a la vez eficiente y robusta. Además, demostramos que los pasos iniciales de eliminación de ruido y bloques específicos del transformador dominan la propagación del contexto, lo que nos permite concentrar las perturbaciones donde más importan. Los experimentos en Flux Kontext y Step1X-Edit muestran que DeContext bloquea consistentemente las ediciones de imagen no deseadas mientras preserva la calidad visual. Estos resultados destacan la efectividad de las perturbaciones basadas en atención como una defensa poderosa contra la manipulación de imágenes.

10

Alquimista: Desbloqueando la Eficiencia en el Entrenamiento de Modelos de Texto a Imagen mediante la Selección de Datos por Meta-Gradientes
Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

Dec 18
ByKaixin Ding, Yang Zhou, Xi Chen, Miao Yang, Jiarong Ou, Rui Chen, Xin Tao, Hengshuang Zhao
21
2

Los recientes avances en los modelos generativos de Texto a Imagen (T2I), como Imagen, Stable Diffusion y FLUX, han conducido a mejoras notables en la calidad visual. Sin embargo, su rendimiento está fundamentalmente limitado por la calidad de los datos de entrenamiento. Los conjuntos de datos de imágenes sintéticas o obtenidas mediante rastreo web a menudo contienen muestras de baja calidad o redundantes, lo que genera una fidelidad visual degradada, entrenamiento inestable y cómputo ineficiente. Por lo tanto, una selección efectiva de datos es crucial para mejorar la eficiencia de los datos. Los enfoques existentes se basan en una costosa curación manual o en puntuaciones heurísticas basadas en características unidimensionales para el filtrado de datos de Texto a Imagen. Aunque se ha explorado el método basado en meta-aprendizaje en los LLM, no existe una adaptación para las modalidades de imagen. Con este fin, proponemos **Alchemist**, un marco basado en meta-gradientes para seleccionar un subconjunto adecuado de pares de datos texto-imagen a gran escala. Nuestro enfoque aprende automáticamente a evaluar la influencia de cada muestra optimizando iterativamente el modelo desde una perspectiva centrada en los datos. Alchemist consta de dos etapas clave: calificación de datos y poda de datos. Entrenamos un calificador ligero para estimar la influencia de cada muestra basándose en información de gradiente, mejorada con percepción multi-granular. Luego utilizamos la estrategia Shift-Gsampling para seleccionar subconjuntos informativos para un entrenamiento eficiente del modelo. Alchemist es el primer marco de selección de datos automático, escalable y basado en meta-gradientes para el entrenamiento de modelos de Texto a Imagen. Los experimentos en conjuntos de datos tanto sintéticos como obtenidos por rastreo web demuestran que Alchemist mejora consistentemente la calidad visual y el rendimiento en tareas posteriores. El entrenamiento con un 50% de los datos seleccionados por Alchemist puede superar al entrenamiento con el conjunto de datos completo.

11

El Mundo es Tu Lienzo: Pintando Eventos Accionables con Imágenes de Referencia, Trayectorias y Texto
The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

Dec 18
ByHanlin Wang, Hao Ouyang, Qiuyu Wang, Yue Yu, Yihao Meng, Wen Wang, Ka Leong Cheng, Shuailei Ma, Qingyan Bai, Yixuan Li, Cheng Chen, Yanhong Zeng, Xing Zhu, Yujun Shen, Qifeng Chen
19
2

Presentamos WorldCanvas, un marco para eventos mundiales accionables por instrucciones que permite simulaciones ricas y dirigidas por el usuario mediante la combinación de texto, trayectorias e imágenes de referencia. A diferencia de los enfoques basados únicamente en texto y los métodos existentes de imagen-a-video controlados por trayectorias, nuestro enfoque multimodal combina trayectorias —que codifican movimiento, sincronización y visibilidad— con lenguaje natural para la intención semántica e imágenes de referencia para la base visual de la identidad de objetos. Esto posibilita la generación de eventos coherentes y controlables que incluyen interacciones multiagente, entrada/salida de objetos, apariencia guiada por referencia y eventos contraintuitivos. Los videos resultantes demuestran no solo coherencia temporal sino también consistencia emergente, preservando la identidad de los objetos y la escena a pesar de las desapariciones temporales. Al apoyar la generación expresiva de eventos mundiales, WorldCanvas avanza los modelos de mundo desde predictores pasivos hasta simuladores interactivos moldeados por el usuario. Nuestra página del proyecto está disponible en: https://worldcanvas.github.io/.

12

REGULA Tus Latentes con Semántica Global y Local para Difusión Enredada
REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

Dec 18
ByGiorgos Petsangourakis, Christos Sgouropoulos, Bill Psomas, Theodoros Giannakopoulos, Giorgos Sfikas, Ioannis Kakogeorgiou
19
2

Los modelos de difusión latente (LDM) logran una síntesis de imágenes de vanguardia, pero su objetivo de eliminación de ruido de estilo reconstructivo proporciona solo una supervisión semántica indirecta: la semántica de alto nivel emerge lentamente, requiere entrenamientos más largos y limita la calidad de las muestras. Trabajos recientes inyectan semántica de Modelos Fundacionales de Visión (VFM) externamente mediante alineación de representaciones o internamente modelando conjuntamente solo un segmento estrecho de características VFM dentro del proceso de difusión, subutilizando la rica, no lineal y multi-capa semántica espacial disponible. Introducimos REGLUE (Entrelazamiento de Representaciones con Codificación Unificada Global-Local), un marco unificado de difusión latente que modela conjuntamente (i) latentes de imagen VAE, (ii) semántica VFM local compacta (a nivel de parche) y (iii) un token global [CLS] (a nivel de imagen) dentro de una única arquitectura SiT. Un compresor semántico convolucional ligero agrega no linealmente características VFM multicapa en una representación espacialmente estructurada y de baja dimensión, que se entrelaza con los latentes VAE en el proceso de difusión. Una pérdida de alineación externa regulariza adicionalmente las representaciones internas hacia objetivos VFM congelados. En ImageNet 256x256, REGLUE mejora consistentemente el FID y acelera la convergencia respecto a las líneas base SiT-B/2 y SiT-XL/2, así como sobre REPA, ReDi y REG. Experimentos exhaustivos muestran que (a) la semántica espacial VFM es crucial, (b) la compresión no lineal es clave para desbloquear su beneficio completo, y (c) los tokens globales y la alineación externa actúan como mejoras complementarias y ligeras dentro de nuestro marco de modelado conjunto global-local-latente. El código está disponible en https://github.com/giorgospets/reglue.

13

N3D-VLM: La Fundamentación Nativa 3D Permite un Razonamiento Espacial Preciso en Modelos de Visión y Lenguaje
N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Dec 18
ByYuxin Wang, Lei Ke, Boqiang Zhang, Tianyuan Qu, Hanxun Yu, Zhenpeng Huang, Meng Yu, Dan Xu, Dong Yu
17
2

Si bien los modelos multimodales actuales pueden responder preguntas basadas en imágenes 2D, carecen de percepción intrínseca de objetos 3D, lo que limita su capacidad para comprender las relaciones espaciales y las señales de profundidad en escenas 3D. En este trabajo, proponemos N3D-VLM, un novedoso marco unificado que integra de forma fluida la percepción nativa de objetos 3D con el razonamiento visual consciente del 3D, permitiendo tanto una localización 3D precisa como una comprensión espacial interpretable. A diferencia de los modelos convencionales de extremo a extremo que predicen respuestas directamente a partir de entradas RGB/RGB-D, nuestro enfoque dota al modelo de capacidades de percepción nativa de objetos 3D, permitiéndole localizar objetos directamente en el espacio 3D basándose en descripciones textuales. Sobre la base de una localización precisa de objetos 3D, el modelo realiza además un razonamiento explícito en 3D, logrando una comprensión espacial más interpretable y estructurada. Para respaldar un entrenamiento robusto de estas capacidades, desarrollamos un pipeline escalable de construcción de datos que aprovecha la estimación de profundidad para elevar anotaciones 2D a gran escala al espacio 3D, aumentando significativamente la diversidad y cobertura de los datos de localización de objetos 3D, obteniendo un volumen más de seis veces mayor que el mayor conjunto de datos existente de detección 3D en imagen única. Además, el pipeline genera conjuntos de datos de preguntas y respuestas espaciales que se centran en el razonamiento de cadena de pensamiento (CoT) en 3D, facilitando el entrenamiento conjunto tanto para la localización de objetos 3D como para el razonamiento espacial 3D. Los resultados experimentales demuestran que nuestro marco unificado no solo logra un rendimiento de vanguardia en tareas de localización 3D, sino que también supera consistentemente a los métodos existentes en razonamiento espacial 3D dentro de modelos de visión y lenguaje.

14

JustRL: Escalado de un LLM de 1.5B con una Receta Sencilla de Aprendizaje por Refuerzo
JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Dec 18
ByBingxiang He, Zekai Qu, Zeyuan Liu, Yinghao Chen, Yuxin Zuo, Cheng Qian, Kaiyan Zhang, Weize Chen, Chaojun Xiao, Ganqu Cui, Ning Ding, Zhiyuan Liu
13
3

Los recientes avances en el aprendizaje por refuerzo para modelos de lenguaje a gran escala han convergido hacia una creciente complejidad: pipelines de entrenamiento multietapa, programaciones dinámicas de hiperparámetros y estrategias de aprendizaje curricular. Esto plantea una pregunta fundamental: ¿Es necesaria esta complejidad? Presentamos JustRL, un enfoque minimalista que utiliza un entrenamiento monofásico con hiperparámetros fijos y logra un rendimiento de vanguardia en dos modelos de razonamiento de 1.500 millones de parámetros (54,9 % y 64,3 % de precisión promedio en nueve benchmarks matemáticos), utilizando además el doble menos de capacidad de cálculo que los enfoques sofisticados. Los mismos hiperparámetros se transfieren entre ambos modelos sin ajustes, y el entrenamiento exhibe una mejora suave y monótona durante más de 4.000 pasos, sin los colapsos o estancamientos que normalmente motivan intervenciones. Críticamente, las ablaciones revelan que añadir "trucos estándar" como penalizaciones explícitas por longitud y verificadores robustos puede degradar el rendimiento al colapsar la exploración. Estos resultados sugieren que el campo podría estar añadiendo complejidad para resolver problemas que desaparecen con una línea base estable y escalada. Publicamos nuestros modelos y código para establecer una línea base simple y validada para la comunidad.

15

AdaTooler-V: Uso Adaptativo de Herramientas para Imágenes y Vídeos
AdaTooler-V: Adaptive Tool-Use for Images and Videos

Dec 18
ByChaoyang Wang, Kaituo Feng, Dongyang Chen, Zhongyu Wang, Zhixun Li, Sicheng Gao, Meng Meng, Xu Zhou, Manyuan Zhang, Yuzhang Shang, Xiangyu Yue
10
2

Los avances recientes han demostrado que los modelos de lenguaje multimodal (MLLM) se benefician de una cadena de pensamiento (CoT) intercalada multimodal con interacciones de herramientas visuales. Sin embargo, los modelos de código abierto existentes a menudo exhiben patrones de razonamiento ciegos en el uso de herramientas, invocándolas incluso cuando son innecesarias, lo que incrementa significativamente la sobrecarga computacional y degrada el rendimiento del modelo. Para abordar este problema, proponemos AdaTooler-V, un MLLM que realiza un uso adaptativo de herramientas determinando si un problema visual realmente las requiere. En primer lugar, presentamos AT-GRPO, un algoritmo de aprendizaje por refuerzo que ajusta adaptativamente las escalas de recompensa basándose en la Puntuación de Beneficio de la Herramienta de cada muestra, incentivando al modelo a invocar herramientas solo cuando proporcionan mejoras genuinas. Además, construimos dos conjuntos de datos para apoyar el entrenamiento: AdaTooler-V-CoT-100k para el arranque en frío mediante SFT y AdaTooler-V-300k para el aprendizaje por refuerzo con recompensas verificables en datos de imagen única, múltiples imágenes y video. Los experimentos en doce benchmarks demuestran la sólida capacidad de razonamiento de AdaTooler-V, superando a los métodos existentes en diversas tareas de razonamiento visual. Notablemente, AdaTooler-V-7B alcanza una precisión del 89.8% en el benchmark de alta resolución V*, superando al modelo comercial propietario GPT-4o y a Gemini 1.5 Pro. Todo el código, modelos y datos han sido liberados.

16

EasyV2V: Un Marco de Edición de Video Basado en Instrucciones de Alta Calidad
EasyV2V: A High-quality Instruction-based Video Editing Framework

Dec 18
ByJinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
10
2

Si bien la edición de imágenes ha avanzado rápidamente, la edición de vídeo sigue estando menos explorada, enfrentando desafíos en consistencia, control y generalización. Estudiamos el espacio de diseño de datos, arquitectura y control, e introducimos EasyV2V, un marco simple y efectivo para la edición de vídeo basada en instrucciones. En el aspecto de datos, componemos expertos existentes con inversas rápidas para construir pares de vídeo diversos, elevamos pares de edición de imagen a vídeos mediante supervisión de fotograma único y pares pseudo con movimiento afín compartido, extraemos clips con descripciones densas para pares de vídeo y añadimos supervisión de transición para enseñar cómo se desarrollan las ediciones. En el aspecto del modelo, observamos que los modelos preentrenados de texto a vídeo poseen capacidad de edición, lo que motiva un diseño simplificado. La simple concatenación de secuencias para el acondicionamiento con un fino ajuste ligero de LoRA es suficiente para entrenar un modelo sólido. Para el control, unificamos el control espacio-temporal mediante un mecanismo de máscara única y admitimos imágenes de referencia opcionales. En general, EasyV2V funciona con entradas flexibles, por ejemplo, vídeo+texto, vídeo+máscara+texto, vídeo+máscara+referencia+texto, y logra resultados de edición de vídeo de vanguardia, superando a sistemas concurrentes y comerciales. Página del proyecto: https://snap-research.github.io/easyv2v/

17

FlashPortrait: Animación Infinita de Retratos 6 Veces Más Rápida con Predicción Adaptativa de Latentes
FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Dec 18
ByShuyuan Tu, Yueming Pan, Yinming Huang, Xintong Han, Zhen Xing, Qi Dai, Kai Qiu, Chong Luo, Zuxuan Wu
9
2

Los métodos actuales de aceleración basados en difusión para animación de retratos largos tienen dificultades para garantizar la consistencia de identidad (ID). Este artículo presenta FlashPortrait, un transformador de difusión de video de extremo a extremo capaz de sintetizar videos de longitud infinida que preservan la ID, logrando hasta una aceleración de 6x en la velocidad de inferencia. En particular, FlashPortrait comienza calculando las características de expresión facial independientes de la identidad mediante un extractor preexistente. Luego introduce un Bloque de Expresión Facial Normalizada para alinear las características faciales con los latentes de difusión mediante su normalización con sus respectivas medias y varianzas, mejorando así la estabilidad de identidad en el modelado facial. Durante la inferencia, FlashPortrait adopta un esquema dinámico de ventana deslizante con mezcla ponderada en áreas superpuestas, garantizando transiciones suaves y consistencia de ID en animaciones largas. En cada ventana contextual, basándose en la tasa de variación de latentes en pasos temporales específicos y la relación de magnitud derivada entre capas de difusión, FlashPortrait utiliza derivadas de latente de orden superior en el paso temporal actual para predecir directamente los latentes en pasos futuros, saltando así varios pasos de desruido y logrando una aceleración de velocidad de 6x. Los experimentos en benchmarks demuestran la efectividad de FlashPortrait tanto cualitativa como cuantitativamente.

18

Multimodal RewardBench 2: Evaluación de Modelos de Recompensa Omni para Texto e Imágenes Entrelazados
Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Dec 18
ByYushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad
9
2

Los modelos de recompensa (RMs) son esenciales para entrenar modelos de lenguaje grandes (LLMs), pero siguen siendo poco explorados para los modelos omni que manejan secuencias intercaladas de imágenes y texto. Presentamos Multimodal RewardBench 2 (MMRB2), el primer benchmark integral para modelos de recompensa en comprensión multimodal y generación (intercalada). MMRB2 abarca cuatro tareas: texto-a-imagen, edición de imágenes, generación intercalada y razonamiento multimodal ("pensar-con-imágenes"), proporcionando 1.000 pares de preferencias anotados por expertos por tarea, provenientes de 23 modelos y agentes a través de 21 tareas fuente. MMRB2 está diseñado con: (1) instrucciones prácticas pero desafiantes; (2) respuestas de modelos y agentes de vanguardia; y (3) pares de preferencia con un fuerte consenso de expertos humanos, curados mediante una estrategia de filtrado por ensamblaje. Utilizando MMRB2, estudiamos los jueces existentes para cada subtarea, incluyendo el enfoque de LLM multimodal como juez y modelos entrenados con preferencias humanas. El último Gemini 3 Pro alcanza una precisión del 75-80%. GPT-5 y Gemini 2.5 Pro alcanzan una precisión del 66-75%, en comparación con >90% para los humanos, pero superan al ampliamente utilizado GPT-4o (59%). El modelo de código abierto con mejor rendimiento, Qwen3-VL-32B, logra precisiones similares a Gemini 2.5 Flash (64%). También demostramos que el rendimiento en MMRB2 se correlaciona fuertemente con el éxito en tareas posteriores utilizando el muestreo Best-of-N y realizamos un análisis en profundidad que muestra áreas clave para mejorar los modelos de recompensa en el futuro.

19

Exploración frente a Explotación: Repensando RLVR mediante Recorte, Entropía y Recompensa Espuria
Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Dec 18
ByPeter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
9
2

Este artículo examina la compensación exploración-explotación en el aprendizaje por refuerzo con recompensas verificables (RLVR), un marco para mejorar el razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs). Estudios recientes sugieren que RLVR puede elicitar un razonamiento matemático sólido en LLMs mediante dos mecanismos aparentemente paradójicos: las recompensas espurias, que suprimen la explotación al recompensar resultados no relacionados con la verdad fundamental, y la minimización de entropía, que suprime la exploración al impulsar el modelo hacia salidas más confiadas y deterministas. Esto destaca una dinámica desconcertante: tanto desalentar la explotación como desalentar la exploración mejoran el rendimiento del razonamiento, sin embargo, los principios subyacentes que reconcilian estos efectos siguen siendo poco comprendidos. Nos centramos en dos preguntas fundamentales: (i) cómo se relaciona la entropía de la política con el rendimiento, y (ii) si las recompensas espurias producen ganancias, potencialmente a través de la interacción del sesgo de recorte y la contaminación del modelo. Nuestros resultados muestran que el sesgo de recorte bajo recompensas espurias reduce la entropía de la política, conduciendo a salidas más confiadas y deterministas, mientras que la minimización de entropía por sí sola es insuficiente para la mejora. Además, proponemos un modelo de desalineación de recompensas que explica por qué las recompensas espurias pueden mejorar el rendimiento más allá de entornos contaminados. Nuestros hallazgos aclaran los mecanismos detrás de los beneficios de las recompensas espurias y proporcionan principios para un entrenamiento RLVR más efectivo.

20

RePlan: Planificación de Regiones Guiada por Razonamiento para la Edición de Imágenes Complejas Basada en Instrucciones
RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Dec 18
ByTianyuan Qu, Lei Ke, Xiaohang Zhan, Longxiang Tang, Yuqi Liu, Bohao Peng, Bei Yu, Dong Yu, Jiaya Jia
9
2

La edición de imágenes basada en instrucciones permite el control mediante lenguaje natural sobre las modificaciones visuales; sin embargo, los modelos existentes flaquean ante la Complejidad Instrucción-Visual (IV-Complexity), donde instrucciones intrincadas se encuentran con escenas desordenadas o ambiguas. Presentamos RePlan (Planificación Alineada con Regiones), un marco de trabajo de planificar-y-ejecutar que acopla un planificador de visión y lenguaje con un editor de difusión. El planificador descompone las instrucciones mediante un razonamiento paso a paso y las ancla explícitamente a regiones objetivo; el editor luego aplica los cambios usando un mecanismo de inyección de atención-región libre de entrenamiento, permitiendo ediciones multi-región precisas y en paralelo sin la necesidad de un repintado iterativo. Para fortalecer la planificación, aplicamos aprendizaje por refuerzo basado en GRPO utilizando 1,000 ejemplos de solo instrucciones, logrando mejoras sustanciales en la fidelidad del razonamiento y la confiabilidad del formato. Además, presentamos IV-Edit, un benchmark centrado en la anclaje de grano fino y las ediciones que requieren conocimiento intensivo. En escenarios de alta IV-Complexity, RePlan supera consistentemente a sólidos modelos de referencia entrenados con conjuntos de datos mucho más grandes, mejorando la precisión regional y la fidelidad general. Nuestra página del proyecto: https://replan-iv-edit.github.io

21

ModelTables: Un Corpus de Tablas sobre Modelos
ModelTables: A Corpus of Tables about Models

Dec 18
ByZhengyuan Dong, Victor Zhong, Renée J. Miller
8
1

Presentamos ModelTables, un benchmark de tablas en Model Lakes que captura la semántica estructurada de las tablas de rendimiento y configuración, a menudo pasada por alto por la recuperación basada únicamente en texto. El corpus se construye a partir de tarjetas de modelos de Hugging Face, archivos README de GitHub y artículos referenciados, vinculando cada tabla con su modelo circundante y contexto de publicación. En comparación con las tablas de lagos de datos abiertos, las tablas de modelos son más pequeñas pero exhiben relaciones intertabla más densas, lo que refleja una evolución estrechamente acoplada de modelos y benchmarks. La versión actual cubre más de 60K modelos y 90K tablas. Para evaluar la relación entre modelos y tablas, construimos una verdad de base multisource utilizando tres señales complementarias: (1) enlaces de citas de artículos, (2) enlaces explícitos en tarjetas de modelo y herencia, y (3) conjuntos de datos de entrenamiento compartidos. Presentamos un caso de uso empírico extenso para el benchmark que es la búsqueda de tablas. Comparamos operadores de búsqueda canónicos de Data Lake (unibles, unificables, por palabra clave) y líneas base de Recuperación de Información (recuperación densa, dispersa, híbrida) en este benchmark. La recuperación semántica de tablas basada en unión alcanza un 54.8 % de P@1 en general (54.6 % en citas, 31.3 % en herencia, 30.6 % en señales de conjunto de datos compartidos); la recuperación densa basada en tablas alcanza un 66.5 % de P@1, y la recuperación híbrida con metadatos logra un 54.1 %. Esta evaluación indica un claro margen de mejora para desarrollar mejores métodos de búsqueda de tablas. Al liberar ModelTables y su protocolo de creación, proporcionamos el primer benchmark a gran escala de datos estructurados que describen modelos de IA. Nuestro caso de uso de descubrimiento de tablas en Model Lakes proporciona intuición y evidencia para desarrollar una recuperación semántica más precisa, una comparación estructurada y una organización fundamentada del conocimiento estructurado de modelos. El código fuente, los datos y otros artefactos están disponibles en https://github.com/RJMillerLab/ModelTables.

22

VenusBench-GD: Un Benchmark Integral de Interfaz Gráfica Multiplataforma para Diversas Tareas de Grounding
VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

Dec 18
ByBeitong Zhou, Zhexiao Huang, Yuan Guo, Zhangxuan Gu, Tianyu Xia, Zichen Luo, Fei Tang, Dehan Kong, Yanyi Shang, Suling Ou, Zhenlin Guo, Changhua Meng, Shuheng Shen
8
2

La fundamentación de interfaces gráficas (GUI) es un componente crítico para construir agentes de GUI capaces. Sin embargo, los puntos de referencia existentes para la fundamentación adolecen de limitaciones significativas: o bien proporcionan un volumen de datos insuficiente y una cobertura de dominios estrecha, o se centran excesivamente en una única plataforma y requieren un conocimiento de dominio altamente especializado. En este trabajo, presentamos VenusBench-GD, un punto de referencia integral y bilingüe para la fundamentación de GUI que abarca múltiples plataformas, permitiendo una evaluación jerárquica para aplicaciones del mundo real. VenusBench-GD contribuye de la siguiente manera: (i) introducimos un punto de referencia a gran escala y multiplataforma con una cobertura extensa de aplicaciones, diversos elementos de interfaz de usuario y datos anotados enriquecidos, (ii) establecemos una canalización de construcción de datos de alta calidad para tareas de fundamentación, logrando una mayor precisión en la anotación que los puntos de referencia existentes, y (iii) ampliamos el alcance de la fundamentación de elementos proponiendo una taxonomía de tareas jerárquica que divide la fundamentación en categorías básica y avanzada, abarcando seis subtareas distintas diseñadas para evaluar los modelos desde perspectivas complementarias. Nuestros hallazgos experimentales revelan perspectivas críticas: los modelos multimodales de propósito general ahora igualan o incluso superan a los modelos especializados en GUI en tareas básicas de fundamentación. Por el contrario, las tareas avanzadas aún favorecen a los modelos especializados en GUI, aunque estos exhiben un sobreajuste significativo y una pobre robustez. Estos resultados subrayan la necesidad de marcos de evaluación integrales y multinivel.

23

Audición para Traducir: La Efectividad de la Integración de la Modalidad del Habla en los Modelos de Lenguaje Grande
Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

Dec 18
BySara Papi, Javier Garcia Gilabert, Zachary Hopton, Vilém Zouhar, Carlos Escolano, Gerard I. Gállego, Jorge Iranzo-Sánchez, Ahrii Kim, Dominik Macháček, Patricia Schmidtova, Maike Züfle
7
1

A medida que los Grandes Modelos de Lenguaje (LLM) se expanden más allá del texto, la integración del habla como modalidad nativa ha dado lugar a los SpeechLLM, cuyo objetivo es traducir el lenguaje hablado directamente, evitando así los enfoques tradicionales basados en transcripción. Sin embargo, si esta integración mejora la calidad de la traducción de voz a texto frente a las arquitecturas en cascada establecidas sigue siendo una cuestión abierta. Presentamos *Hearing to Translate*, el primer conjunto de pruebas integral que evalúa rigurosamente 5 SpeechLLM de última generación frente a 16 sistemas fuertes, tanto directos como en cascada, que combinan modelos fundamentales de habla (SFM) líderes con LLM multilingües. Nuestro análisis abarca 16 benchmarks, 13 pares de idiomas y 9 condiciones desafiantes, incluyendo habla con disfluencias, ruido y formato largo. En esta evaluación exhaustiva, encontramos que los sistemas en cascada siguen siendo los más confiables en general, mientras que los SpeechLLM actuales solo igualan a los sistemas en cascada en escenarios específicos, y los SFM se quedan por detrás de ambos. Esto subraya que integrar un LLM, ya sea dentro del modelo o en un *pipeline*, es esencial para una traducción de voz de alta calidad.

24

Diferencias que Importan: Auditoría de Modelos para la Detección y Rectificación de Brechas de Capacidad
Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

Dec 18
ByQihao Liu, Chengzhi Mao, Yaojie Liu, Alan Yuille, Wen-Sheng Chu
5
1

Los métodos de evaluación convencionales para los LLM multimodales (MLLM) carecen de interpretabilidad y a menudo son insuficientes para revelar completamente las brechas significativas de capacidad entre modelos. Para abordar esto, presentamos AuditDM, un marco automatizado que descubre y rectifica activamente los modos de fallo de los MLLM mediante la auditoría de su divergencia. AuditDM ajusta mediante fine-tuning un MLLM como auditor mediante aprendizaje por refuerzo para generar preguntas desafiantes e imágenes contrafactuales que maximicen el desacuerdo entre los modelos objetivo. Una vez entrenado, el auditor descubre ejemplares diversos e interpretables que revelan las debilidades del modelo y sirven como datos libres de anotación para la rectificación. Cuando se aplica a modelos de última generación como Gemma-3 y PaliGemma-2, AuditDM descubre más de 20 tipos de fallos distintos. El fine-tuning basado en estos descubrimientos mejora consistentemente todos los modelos en 16 benchmarks, y permite que un modelo de 3B supere a su contraparte de 28B. Nuestros resultados sugieren que, a medida que el escalado de datos alcanza rendimientos decrecientes, la auditoría dirigida de modelos ofrece un camino efectivo para el diagnóstico y la mejora de los mismos.

25

Insight Miner: Un Conjunto de Datos de Análisis de Series Temporales para la Alineación Transversal de Dominios con Lenguaje Natural
Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

Dec 12
ByYunkai Zhang, Yawen Zhang, Ming Zheng, Kezhen Chen, Chongyang Gao, Ruian Ge, Siyuan Teng, Amine Jelloul, Jinmeng Rao, Xiaoyuan Guo, Chiang-Wei Fang, Zeyu Zheng, Jie Yang
4
2

Los datos de series temporales son fundamentales en numerosos ámbitos científicos e industriales, como el análisis ambiental, la agricultura, el transporte y las finanzas. Sin embargo, extraer información de estos datos normalmente requiere un profundo conocimiento del dominio, un proceso que consume mucho tiempo y es intensivo en mano de obra. En este artículo, proponemos Insight Miner, un modelo multimodal a gran escala (LMM) diseñado para generar descripciones de series temporales de alta calidad y exhaustivas, enriquecidas con conocimiento específico del dominio. Para facilitar esto, presentamos TS-Insights (disponible en \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}), el primer conjunto de datos de dominio general para la alineación de series temporales y lenguaje. TS-Insights contiene 100k ventanas de series temporales muestreadas a partir de 20 conjuntos de datos de pronóstico. Construimos este conjunto de datos utilizando un novedoso flujo de trabajo agentico, donde empleamos herramientas estadísticas para extraer características de las series temporales en bruto antes de sintetizarlas en descripciones coherentes de tendencias utilizando GPT-4. Tras el ajuste por instrucción en TS-Insights, Insight Miner supera a modelos multimodales de vanguardia, como LLaVA liu2023llava y GPT-4, en la generación de descripciones e información de series temporales. Nuestros hallazgos sugieren una dirección prometedora para aprovechar los LMM en el análisis de series temporales y representan un paso fundamental hacia la habilitación de los LLM para interpretar las series temporales como una modalidad de entrada nativa.

26

Atención Dispersa Log-Lineal Entrenable para Transformadores de Difusión Eficientes
Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers

Dec 18
ByYifan Zhou, Zeqi Xiao, Tianyi Wei, Shuai Yang, Xingang Pan
3
2

Los Transformadores de Difusión (DiTs) establecen el estado del arte en generación visual, pero su coste cuadrático de autoatención limita fundamentalmente la escalabilidad a secuencias largas de tokens. Los enfoques recientes de atención dispersa Top-K reducen la computación de los DiTs comprimiendo los tokens en representaciones por bloques y seleccionando un pequeño conjunto de bloques clave relevantes, pero aún adolecen de (i) un coste cuadrático de selección sobre los tokens comprimidos y (ii) la necesidad de aumentar K para mantener la calidad del modelo a medida que las secuencias crecen. Identificamos que su ineficiencia se debe al diseño de un solo nivel, ya que un único nivel grueso es insuficiente para representar la estructura global. En este artículo, presentamos la Atención Dispersa Log-Lineal (LLSA), un mecanismo de atención dispersa entrenable para secuencias de tokens extremadamente largas que reduce tanto los costes de selección como de atención de una complejidad cuadrática a log-lineal mediante la utilización de una estructura jerárquica. LLSA realiza una selección Top-K jerárquica, adoptando progresivamente una selección Top-K dispersa con los índices encontrados en el nivel anterior, e introduce un mecanismo de Enriquecimiento KV Jerárquico que preserva el contexto global mientras utiliza menos tokens de diferente granularidad durante el cálculo de la atención. Para soportar un entrenamiento eficiente, desarrollamos una implementación de GPU de alto rendimiento que utiliza únicamente índices dispersos tanto para las pasadas hacia adelante como hacia atrás, eliminando la necesidad de máscaras de atención densas. Evaluamos LLSA en la generación de imágenes de alta resolución en espacio de píxeles sin utilizar `patchification` ni codificación VAE. LLSA acelera la inferencia de atención en 28.27x y el entrenamiento de DiT en 6.09x en secuencias de tokens de 256x256 píxeles, manteniendo la calidad de la generación. Los resultados demuestran que LLSA ofrece una dirección prometedora para entrenar DiTs de secuencias largas de manera eficiente. El código está disponible en: https://github.com/SingleZombie/LLSA

27

FrameDiffuser: Difusión Condicionada por G-Buffer para el Renderizado Neuronal de Fotogramas hacia Adelante
FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

Dec 18
ByOle Beisswenger, Jan-Niklas Dihlmann, Hendrik P. A. Lensch
3
2

La renderización neuronal para aplicaciones interactivas requiere traducir propiedades geométricas y de materiales (búfer G) a imágenes fotorrealistas con iluminación realista en cada fotograma. Aunque los enfoques recientes basados en difusión muestran potencial para la síntesis de imágenes condicionadas por búfer G, enfrentan limitaciones críticas: los modelos de imagen única como RGBX generan fotogramas independientemente sin coherencia temporal, mientras que modelos de video como DiffusionRenderer son computacionalmente demasiado costosos para la mayoría de configuraciones de gaming domésticas y requieren secuencias completas por adelantado, lo que los hace inadecuados para aplicaciones interactivas donde los fotogramas futuros dependen de la entrada del usuario. Presentamos FrameDiffuser, un marco de renderización neuronal autorregresivo que genera fotogramas temporalmente coherentes y fotorrealistas condicionándose en datos de búfer G y en la salida previa del modelo. Tras un fotograma inicial, FrameDiffuser opera exclusivamente con datos entrantes de búfer G -que incluyen geometría, materiales y propiedades superficiales- mientras utiliza su fotograma generado previamente para guía temporal, manteniendo una generación estable y coherente a lo largo de cientos o miles de fotogramas. Nuestra arquitectura de doble condicionamiento combina ControlNet para guía estructural con ControlLoRA para coherencia temporal. Una estrategia de entrenamiento en tres etapas permite una generación autorregresiva estable. Especializamos nuestro modelo para entornos individuales, priorizando la coherencia y la velocidad de inferencia sobre la generalización amplia, demostrando que el entrenamiento específico por entorno logra una calidad fotorrealista superior con iluminación, sombras y reflejos precisos en comparación con enfoques generalizados.

28

Flujo Normalizador Bidireccional: De los Datos al Ruido y Viceversa
Bidirectional Normalizing Flow: From Data to Noise and Back

Dec 11
ByYiyang Lu, Qiao Sun, Xianbang Wang, Zhicheng Jiang, Hanhong Zhao, Kaiming He
2
1

Los Flujos de Normalización (NFs) se han consolidado como un marco teórico sólido para el modelado generativo. Los NFs estándar constan de un proceso directo y un proceso inverso: el proceso directo mapea los datos al ruido, mientras que el proceso inverso genera muestras invirtiéndolo. Las transformaciones directas típicas de los NFs están restringidas por una invertibilidad explícita, lo que garantiza que el proceso inverso pueda actuar como su inversa analítica exacta. Los desarrollos recientes en TARFlow y sus variantes han revitalizado los métodos de NF al combinar Transformers y flujos autorregresivos, pero también han expuesto la decodificación causal como un cuello de botella principal. En este trabajo, presentamos el Flujo de Normalización Bidireccional (BiFlow), un marco que elimina la necesidad de una inversa analítica exacta. BiFlow aprende un modelo inverso que aproxima el mapeo inverso subyacente de ruido a datos, permitiendo funciones de pérdida y arquitecturas más flexibles. Los experimentos en ImageNet demuestran que BiFlow, en comparación con su contraparte de decodificación causal, mejora la calidad de la generación mientras acelera el muestreo hasta en dos órdenes de magnitud. BiFlow produce resultados de vanguardia entre los métodos basados en NF y un rendimiento competitivo entre los métodos de evaluación única ("1-NFE"). Tras los recientes avances alentadores en NFs, esperamos que nuestro trabajo atraiga una mayor atención hacia este paradigma clásico.

29

Aprendizaje por Refuerzo Variacional Acoplado para el Razonamiento General de Modelos de Lenguaje
Coupled Variational Reinforcement Learning for Language Model General Reasoning

Dec 14
ByXueru Wen, Jie Lou, Yanjiang Liu, Hongyu Lin, Ben He, Xianpei Han, Le Sun, Yaojie Lu, Debing Zhang
2
2

Si bien el aprendizaje por refuerzo ha logrado avances impresionantes en el razonamiento de modelos de lenguaje, se ve limitado por el requisito de recompensas verificables. Métodos recientes de RL libres de verificador abordan esta limitación utilizando las probabilidades intrínsecas de que los LLM generen respuestas de referencia como señales de recompensa. Sin embargo, estos enfoques normalmente muestran trazas de razonamiento condicionadas únicamente a la pregunta. Este diseño desacopla el muestreo de trazas de razonamiento de la información de la respuesta, lo que conduce a una exploración ineficiente y a una incoherencia entre las trazas y las respuestas finales. En este artículo, proponemos \b{Aprendizaje por Refuerzo Variacional Acoplado} (CoVRL), que une la inferencia variacional y el aprendizaje por refuerzo acoplando distribuciones previas y posteriores mediante una estrategia de muestreo híbrida. Al construir y optimizar una distribución compuesta que integra estas dos distribuciones, CoVRL permite una exploración eficiente mientras preserva una fuerte coherencia entre el pensamiento y la respuesta. Experimentos exhaustivos en benchmarks de razonamiento matemático y general muestran que CoVRL mejora el rendimiento en un 12.4\% respecto al modelo base y logra una mejora adicional del 2.3\% sobre sólidos baselines de RL libres de verificador de última generación, proporcionando un marco fundamentado para mejorar las capacidades de razonamiento general de los modelos de lenguaje.

30

Make-It-Poseable: Modelo de Posado por Propagación Directa en el Espacio Latente para la Animación de Personajes Humanoides 3D
Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation

Dec 18
ByZhiyang Guo, Ori Zhang, Jax Xiang, Alan Zhao, Wengang Zhou, Houqiang Li
2
2

La pose de personajes 3D es una tarea fundamental en gráficos por computadora y visión artificial. Sin embargo, métodos existentes como el auto-rigging y la generación condicionada por posturas a menudo enfrentan desafíos como la predicción imprecisa de pesos de skinning, imperfecciones topológicas y un pobre ajuste a la postura, lo que limita su robustez y generalización. Para superar estas limitaciones, presentamos Make-It-Poseable, un novedoso framework de avance directo que reformula el posing de personajes como un problema de transformación en el espacio latente. En lugar de deformar vértices de malla como en los flujos tradicionales, nuestro método reconstruye el personaje en nuevas posturas manipulando directamente su representación latente. El núcleo de nuestro método es un transformer de posing latente que manipula tokens de forma basándose en el movimiento esquelético. Este proceso se ve facilitado por una representación densa de la postura para un control preciso. Para garantizar una geometría de alta fidelidad y acomodar cambios topológicos, también introducimos una estrategia de supervisión en el espacio latente y un módulo de finalización adaptativo. Nuestro método demuestra un rendimiento superior en la calidad del posing. Además, se extiende naturalmente a aplicaciones de edición 3D como el reemplazo y refinamiento de partes.

31

MomaGraph: Grafos de Escena Unificados con Conciencia del Estado mediante un Modelo de Visión-Lenguaje para la Planificación de Tareas Embebidas
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Dec 18
ByYuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
1
2

Los manipuladores móviles en entornos domésticos deben ser capaces tanto de navegar como de manipular. Esto requiere una representación de escena compacta y semánticamente rica que capture la ubicación de los objetos, su funcionalidad y qué partes son accionables. Los grafos de escena son una opción natural; sin embargo, trabajos previos a menudo separan las relaciones espaciales de las funcionales, tratan las escenas como instantáneas estáticas sin estados de los objetos ni actualizaciones temporales, y pasan por alto la información más relevante para realizar la tarea actual. Para abordar estas limitaciones, presentamos MomaGraph, una representación de escena unificada para agentes corporizados que integra relaciones espacial-funcionales y elementos interactivos a nivel de piezas. No obstante, avanzar en dicha representación requiere tanto datos adecuados como una evaluación rigurosa, aspectos que han estado mayormente ausentes. Por ello, contribuimos con MomaGraph-Scenes, el primer conjunto de datos a gran escala de grafos de escena ricamente anotados y orientados a tareas en entornos domésticos, junto con MomaGraph-Bench, un conjunto de evaluación sistemática que abarca seis capacidades de razonamiento, desde la planificación de alto nivel hasta la comprensión detallada de la escena. Sobre esta base, desarrollamos además MomaGraph-R1, un modelo de visión y lenguaje de 7B entrenado con aprendizaje por refuerzo en MomaGraph-Scenes. MomaGraph-R1 predice grafos de escena orientados a tareas y funciona como un planificador de tareas de cero disparos bajo un marco de trabajo Grafo-luego-Planificar. Experimentos exhaustivos demuestran que nuestro modelo logra resultados de vanguardia entre los modelos de código abierto, alcanzando un 71.6% de precisión en la evaluación (+11.4% sobre el mejor baseline), a la vez que generaliza en benchmarks públicos y se transfiere eficazmente a experimentos con robots reales.

32

Razonando Dentro de la Mente: Entrelazado Multimodal Dinámico en el Espacio Latente
Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

Dec 14
ByChengzhi Liu, Yuzhe Yang, Yue Fan, Qingyue Wei, Sheng Liu, Xin Eric Wang
1
1

Los recientes avances en Modelos de Lenguaje Grandes Multimodales (MLLMs) han mejorado significativamente la comprensión y el razonamiento cross-modal mediante la incorporación del razonamiento en Cadena de Pensamiento (CoT) en el espacio semántico. Basándose en esto, estudios recientes extienden el mecanismo CoT a la modalidad visual, permitiendo a los modelos integrar información visual durante el razonamiento mediante herramientas externas o generación explícita de imágenes. Sin embargo, estos métodos siguen dependiendo de un razonamiento explícito paso a paso, presentan una interacción percepción-razonamiento inestable y un notable sobrecosto computacional. Inspirados por la cognición humana, postulamos que el pensamiento se desarrolla no de forma lineal, sino a través de la intercalación dinámica del razonamiento y la percepción dentro de la mente. Motivados por esta perspectiva, proponemos DMLR, un marco de Razonamiento Latente Multimodal Dinámico en tiempo de prueba que emplea una optimización de gradiente de política latente guiada por confianza para refinar tokens de pensamiento latente y lograr un razonamiento en profundidad. Además, se introduce una Estrategia de Inyección Visual Dinámica, que recupera las características visuales más relevantes en cada token de pensamiento latente y actualiza el conjunto de los mejores parches visuales. Los parches actualizados se inyectan luego en el token de pensamiento latente para lograr una intercalación visual-textual dinámica. Los experimentos realizados en siete benchmarks de razonamiento multimodal y varias arquitecturas de modelo demuestran que DMLR mejora significativamente el rendimiento de razonamiento y percepción, manteniendo al mismo tiempo una alta eficiencia inferencial.

33

Espacios de Ambiente para la Conexión Creativa y Expresión de Conceptos Visuales
Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

Dec 16
ByHuzheng Yang, Katherine Xu, Andrew Lu, Michael D. Grossberg, Yutong Bai, Jianbo Shi
1
1

La creación de nuevos conceptos visuales a menudo requiere conectar ideas distintas a través de sus atributos compartidos más relevantes: su esencia o "vibra". Presentamos la Fusión de Vibraciones (Vibe Blending), una tarea novedosa para generar híbridos coherentes y significativos que revelen estos atributos compartidos entre imágenes. Lograr tales fusiones es un desafío para los métodos actuales, que tienen dificultades para identificar y recorrer trayectorias no lineales que conecten conceptos distantes en el espacio latente. Proponemos el Espacio de Vibraciones (Vibe Space), una variedad de grafos jerárquica que aprende geodésicas de baja dimensionalidad en espacios de características como CLIP, permitiendo transiciones suaves y semánticamente consistentes entre conceptos. Para evaluar la calidad creativa, diseñamos un marco de trabajo inspirado en la cognición que combina juicios humanos, razonamiento de modelos de lenguaje grande (LLM) y una puntuación de dificultad geométrica basada en trayectorias. Encontramos que el Espacio de Vibraciones produce fusiones que los humanos califican consistentemente como más creativas y coherentes que los métodos actuales.

34

TabReX: Evaluación Explicable Sin Referencia para Datos Tabulares
TabReX : Tabular Referenceless eXplainable Evaluation

Dec 17
ByTejas Anvekar, Juhna Park, Aparna Garimella, Vivek Gupta
1
1

La evaluación de la calidad de las tablas generada por modelos de lenguaje grandes (LLM) sigue siendo un desafío abierto: las métricas existentes o bien aplanan las tablas a texto, ignorando la estructura, o dependen de referencias fijas que limitan la generalización. Presentamos TabReX, un marco de evaluación sin referencias y basado en propiedades para la generación tabular mediante razonamiento basado en grafos. TabReX convierte tanto el texto fuente como las tablas generadas en grafos de conocimiento canónicos, los alinea mediante un proceso de emparejamiento guiado por un LLM y calcula puntuaciones interpretables y conscientes de rúbricas que cuantifican la fidelidad estructural y fáctica. La métrica resultante proporciona compensaciones controlables entre sensibilidad y especificidad, produciendo juicios alineados con evaluaciones humanas y trazas de error a nivel de celda. Para evaluar sistemáticamente la robustez de la métrica, presentamos TabReX-Bench, un benchmark a gran escala que abarca seis dominios y doce tipos de perturbación impulsados por un planificador en tres niveles de dificultad. Los resultados empíricos muestran que TabReX logra la correlación más alta con las clasificaciones de expertos, se mantiene estable bajo perturbaciones más difíciles y permite un análisis detallado modelo-frente-a-prompt, estableciendo un nuevo paradigma para la evaluación confiable y explicable de sistemas de generación estructurada.

35

Mejora de Transformadores Recursivos con Mezcla de LoRAs
Improving Recursive Transformers with Mixture of LoRAs

Dec 14
ByMohammadmahdi Nouriborji, Morteza Rohanian, Omid Rohanian
0
1

El uso compartido de parámetros en transformadores recursivos reduce el tamaño del modelo pero colapsa la expresividad por capas. Proponemos Mixture of LoRAs (MoL), un mecanismo ligero de cómputo condicional que inserta expertos de Adaptación de Bajo Rango (LoRA) dentro de una red neuronal feed-forward (FFN) compartida. MoL permite la modulación condicional por token en el espacio de pesos de la FFN compartida sin desvincular los parámetros del *backbone*, a diferencia de enfoques previos que añaden adaptadores fijos o externamente adjuntos. Preentrenamos una arquitectura recursiva modernizada, ModernALBERT, integrando *rotary embeddings*, GeGLU, FlashAttention y una inicialización basada en destilación. En GLUE, SQuAD-v2 y BEIR, ModernALBERT (50M--120M) logra un rendimiento de vanguardia entre los modelos compactos y supera a líneas base completamente parametrizadas de mayor tamaño. También proponemos un procedimiento de fusión de expertos que comprime MoL en un único adaptador durante la inferencia preservando la precisión, permitiendo un despliegue eficiente. Nuestros resultados demuestran que la modulación condicional en el espacio de pesos restaura efectivamente la expresividad perdida bajo el uso compartido agresivo de parámetros en transformadores recursivos.

36

EmoCaliber: Avanzando en la Comprensión Visual de Emociones Fiable mediante Verbalización y Calibración de la Confianza
EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

Dec 17
ByDaiqing Wu, Dongbao Yang, Can Ma. Yu Zhou
0
1

La Comprensión Visual de Emociones (VEC, por sus siglas en inglés) tiene como objetivo inferir polaridades de sentimiento o categorías emocionales a partir de indicios afectivos incrustados en imágenes. En los últimos años, los Modelos de Lenguaje Grandes Multimodales (MLLMs) han establecido un paradigma popular en VEC, aprovechando su generalización para unificar las tareas de VEC definidas bajo diversas taxonomías emocionales. Si bien este paradigma logra un éxito notable, típicamente formula la VEC como una tarea determinista, requiriendo que el modelo genere una única etiqueta emocional definitiva para cada imagen. Dicha formulación no tiene suficientemente en cuenta la subjetividad inherente a la percepción emocional, pasando por alto interpretaciones alternativas que pueden ser igualmente plausibles para diferentes observadores. Para abordar esta limitación, proponemos dotar a los MLLMs de capacidades para verbalizar su confianza en las predicciones emocionales. Esta señal adicional proporciona a los usuarios una estimación tanto de la plausibilidad de interpretaciones alternativas como de la competencia auto-evaluada de los MLLMs, mejorando así la fiabilidad en la práctica. Partiendo de esta idea, introducimos un marco de entrenamiento de tres etapas que dota progresivamente al modelo de razonamiento estructurado, le enseña a verbalizar la confianza y calibra la expresión de la misma, culminando en EmoCaliber, un MLLM consciente de la confianza para VEC. Mediante evaluaciones justas y exhaustivas en el benchmark unificado VECBench, EmoCaliber demuestra una superioridad general frente a los métodos existentes tanto en predicción emocional como en estimación de confianza. Estos resultados validan la efectividad de nuestro enfoque y marcan un paso factible hacia sistemas VEC más fiables. Página del proyecto: https://github.com/wdqqdw/EmoCaliber.

37

Nemotron-Math: Destilación Eficiente de Razonamiento Matemático de Contexto Largo a partir de Supervisión Multimodal
Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

Dec 17
ByWei Du, Shubham Toshniwal, Branislav Kisacanin, Sadegh Mahdavi, Ivan Moshkov, George Armstrong, Stephen Ge, Edgar Minasyan, Feng Chen, Igor Gitman
0
1

La supervisión de razonamiento matemático de alta calidad requiere estilos de razonamiento diversos, trazas extensas e integración efectiva de herramientas, capacidades que los conjuntos de datos existentes solo proporcionan de forma limitada. Aprovechando la capacidad de generación multimodal de gpt-oss-120b, presentamos Nemotron-Math, un conjunto de datos de razonamiento matemático a gran escala que contiene 7.5 millones de trazas de solución en modos de razonamiento alto, medio y bajo, cada uno disponible tanto con como sin razonamiento con integración de herramientas Python (TIR). El conjunto de datos integra 85K problemas curados de AoPS con 262K problemas comunitarios de StackExchange-Math, combinando tareas estructuradas de competencia con consultas matemáticas diversas del mundo real. Realizamos evaluaciones controladas para valorar la calidad del conjunto de datos. Nemotron-Math supera consistentemente al OpenMathReasoning original en problemas equivalentes de AoPS. La incorporación de StackExchange-Math mejora sustancialmente la robustez y generalización, especialmente en HLE-Math, mientras mantiene la precisión en benchmarks de competencias matemáticas. Para apoyar el entrenamiento eficiente de contexto largo, desarrollamos una estrategia secuencial agrupada que acelera el ajuste fino de longitud de contexto de 128K entre 2 y 3 veces sin pérdida significativa de precisión. En general, Nemotron-Math permite un rendimiento de vanguardia, incluyendo 100% de precisión maj@16 en AIME 2024 y 2025 con Python TIR.

38

Compartir Estado entre Prompts y Programas
Sharing State Between Prompts and Programs

Dec 16
ByEllie Y. Cheng, Logan Weber, Tian Jin, Michael Carbin
0
1

El auge de los grandes modelos de lenguaje (LLM) ha introducido un nuevo tipo de programación: la programación en lenguaje natural. Al escribir instrucciones (prompts) que dirigen a los LLM para realizar procesamiento de lenguaje natural, generación de código, razonamiento, etc., los usuarios están escribiendo código en lenguaje natural —código en lenguaje natural— para que el LLM lo ejecute. Un área de investigación emergente permite la interoperabilidad entre el código en lenguaje natural y los lenguajes formales como Python. Presentamos una nueva abstracción de programación, el estado compartido del programa, que elimina el trabajo manual requerido para permitir la interoperabilidad entre el código en lenguaje natural y el estado del programa. Con el estado compartido del programa, los programadores pueden escribir código natural que escribe directamente variables del programa, realiza cálculos con objetos del programa e implementa flujo de control en el programa. Presentamos un esquema para especificar interfaces de función natural que extienden los sistemas de programación para admitir código natural y aprovechamos este esquema para especificar el estado compartido del programa como una interfaz de función natural. Implementamos el estado compartido del programa en el sistema de programación Nightjar. Nightjar permite a los programadores escribir programas en Python que contienen código natural que comparte el estado del programa de Python. Demostramos que los programas de Nightjar logran una precisión en las tareas comparable o superior a las implementaciones escritas manualmente (+4-19%), mientras reducen las líneas de código en un 39,6% en promedio. La contrapartida de usar Nightjar es que puede incurrir en una sobrecarga de tiempo de ejecución (0,4-4,3 veces el tiempo de ejecución de las implementaciones manuales).

Dec 18
Dec 19