Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Informe Técnico de Seed1.5-VL
Seed1.5-VL Technical Report

May 11, 2025

Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song

1464

Presentamos Seed1.5-VL, un modelo base de visión y lenguaje diseñado para avanzar en la comprensión y razonamiento multimodal de propósito general. Seed1.5-VL está compuesto por un codificador visual de 532 millones de parámetros y un modelo de lenguaje Mixture-of-Experts (MoE) con 20 mil millones de parámetros activos. A pesar de su arquitectura relativamente compacta, ofrece un rendimiento sólido en una amplia gama de benchmarks públicos de VLM y suites de evaluación internas, logrando un rendimiento de vanguardia en 38 de los 60 benchmarks públicos. Además, en tareas centradas en agentes, como el control de interfaces gráficas y el juego, Seed1.5-VL supera a los principales sistemas multimodales, incluyendo OpenAI CUA y Claude 3.7. Más allá de la comprensión visual y de video, también demuestra fuertes habilidades de razonamiento, lo que lo hace particularmente efectivo para desafíos de razonamiento multimodal como los rompecabezas visuales. Creemos que estas capacidades permitirán aplicaciones más amplias en diversas tareas. En este informe, proporcionamos principalmente una revisión exhaustiva de nuestras experiencias en la construcción de Seed1.5-VL en las etapas de diseño del modelo, construcción de datos y entrenamiento, con la esperanza de que este informe pueda inspirar futuras investigaciones. Seed1.5-VL ahora está accesible en https://www.volcengine.com/ (ID del modelo de Volcano Engine: doubao-1-5-thinking-vision-pro-250428).

MiMo: Desbloqueando el Potencial de Razonamiento de los Modelos de Lenguaje — Desde el Pretrenamiento hasta el Postrenamiento
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025

Xiaomi LLM-Core Team, Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang, Hailin Zhang, Huaqiu Liu, Jiebao Xiao, Jinhao Dong, Liang Zhao, Peidian Li, Peng Wang, Shihua Yu, Shimao Chen, Weikun Wang, Wenhan Ma, Xiangwei Deng, Yi Huang, Yifan Song, Zihan Jiang, Bowen Ye, Can Cai, Chenhong He, Dong Zhang, Duo Zhang, Guoan Wang, Hao Tian, Haochen Zhao, Heng Qu, Hongshen Xu, Jun Shi, Kainan Bao, QingKai Fang, Kang Zhou, Kangyang Zhou, Lei Li, Menghang Zhu, Nuo Chen, Qiantong Wang, Shaohui Liu, Shicheng Li, Shuhao Gu, Shuhuai Ren, Shuo Liu, Sirui Deng, Weiji Zhuang, Weiwei Lv, Wenyu Yang, Xin Zhang, Xing Yong, Xing Zhang, Xingchen Song, Xinzhe Xu, Xu Wang, Yihan Yan, Yu Tu, Yuanyuan Tian, Yudong Wang, Yue Yu, Zhenru Lin, Zhichao Song, Zihao Yue

806

Presentamos MiMo-7B, un modelo de lenguaje grande diseñado específicamente para tareas de razonamiento, optimizado tanto en las etapas de preentrenamiento como de posentrenamiento. Durante el preentrenamiento, mejoramos la canalización de preprocesamiento de datos y empleamos una estrategia de mezcla de datos en tres etapas para fortalecer el potencial de razonamiento del modelo base. MiMo-7B-Base se preentrena con 25 billones de tokens, utilizando además un objetivo de Predicción Multi-Token para mejorar el rendimiento y acelerar la velocidad de inferencia. Durante el posentrenamiento, seleccionamos un conjunto de datos de 130K problemas verificables de matemáticas y programación para el aprendizaje por refuerzo, integrando un esquema de recompensa basado en la dificultad de las pruebas para mitigar los problemas de recompensas dispersas y empleando un remuestreo estratégico de datos para estabilizar el entrenamiento. Evaluaciones exhaustivas demuestran que MiMo-7B-Base posee un potencial de razonamiento excepcional, superando incluso a modelos mucho más grandes de 32B. El modelo final ajustado con RL, MiMo-7B-RL, logra un rendimiento superior en tareas de matemáticas, código y razonamiento general, superando el rendimiento de OpenAI o1-mini. Los puntos de control del modelo están disponibles en https://github.com/xiaomimimo/MiMo.

Step1X-3D: Hacia la Generación de Activos 3D Texturizados de Alta Fidelidad y Controlable
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025

Weiyu Li, Xuanyang Zhang, Zheng Sun, Di Qi, Hao Li, Wei Cheng, Weiwei Cai, Shihao Wu, Jiarui Liu, Zihao Wang, Xiao Chen, Feipeng Tian, Jianxiong Pan, Zeming Li, Gang Yu, Xiangyu Zhang, Daxin Jiang, Ping Tan

603

Si bien la inteligencia artificial generativa ha avanzado significativamente en los dominios de texto, imagen, audio y video, la generación 3D sigue estando relativamente poco desarrollada debido a desafíos fundamentales como la escasez de datos, limitaciones algorítmicas y la fragmentación del ecosistema. Para abordar esto, presentamos Step1X-3D, un marco abierto que resuelve estos desafíos mediante: (1) una rigurosa canalización de curación de datos que procesa más de 5M de activos para crear un conjunto de datos de 2M de alta calidad con propiedades geométricas y texturales estandarizadas; (2) una arquitectura nativa 3D en dos etapas que combina un generador de geometría híbrido VAE-DiT con un módulo de síntesis de texturas basado en difusión; y (3) la liberación completa de código abierto de modelos, código de entrenamiento y módulos de adaptación. Para la generación de geometría, el componente híbrido VAE-DiT produce representaciones TSDF empleando codificación latente basada en perceiver con muestreo de bordes nítidos para preservar detalles. El módulo de síntesis de texturas basado en difusión asegura la consistencia entre vistas mediante condicionamiento geométrico y sincronización en el espacio latente. Los resultados de referencia demuestran un rendimiento de vanguardia que supera los métodos de código abierto existentes, al mismo tiempo que alcanza una calidad competitiva con soluciones propietarias. Notablemente, el marco conecta de manera única los paradigmas de generación 2D y 3D al permitir la transferencia directa de técnicas de control 2D (por ejemplo, LoRA) a la síntesis 3D. Al avanzar simultáneamente en la calidad de los datos, la fidelidad algorítmica y la reproducibilidad, Step1X-3D busca establecer nuevos estándares para la investigación abierta en la generación controlada de activos 3D.

Aprendizaje a partir de pares en modelos de razonamiento
Learning from Peers in Reasoning Models

May 12, 2025

Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang

454

Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) tienen la capacidad de autocorregirse incluso cuando cometen errores en sus rutas de razonamiento. Sin embargo, nuestro estudio revela que cuando el proceso de razonamiento comienza con un inicio breve pero deficiente, resulta difícil para el modelo recuperarse. Nos referimos a este fenómeno como la "Trampa de Dominancia del Prefijo". Inspirados por hallazgos psicológicos que indican que la interacción entre pares puede promover la autocorrección sin afectar negativamente a los individuos ya precisos, proponemos **Aprendizaje entre Pares** (LeaP, por sus siglas en inglés) para abordar este fenómeno. Específicamente, cada cierto número de tokens, cada ruta de razonamiento resume su razonamiento intermedio y lo comparte con otras a través de un mecanismo de enrutamiento, permitiendo que las rutas incorporen perspectivas de sus pares durante la inferencia. Sin embargo, observamos que los modelos más pequeños a veces no siguen eficazmente las instrucciones de resumen y reflexión. Para abordar esto, los ajustamos en nuestra serie de modelos **LeaP-T**. Los experimentos en AIME 2024, AIME 2025, AIMO 2025 y GPQA Diamond muestran que LeaP proporciona mejoras sustanciales. Por ejemplo, QwQ-32B con LeaP logra casi 5 puntos absolutos más que la línea base en promedio, y supera a DeepSeek-R1-671B en tres benchmarks de matemáticas con una ganancia promedio de 3.3 puntos. Notablemente, nuestro modelo ajustado LeaP-T-7B iguala el rendimiento de DeepSeek-R1-Distill-Qwen-14B en AIME 2024. Un análisis en profundidad revela la robusta corrección de errores de LeaP gracias a las perspectivas oportunas de los pares, mostrando una fuerte tolerancia a errores y manejo de diversas dificultades en las tareas. LeaP marca un hito al permitir que los LRMs colaboren durante el razonamiento. Nuestro código, conjuntos de datos y modelos están disponibles en https://learning-from-peers.github.io/.

Modelos Generativos Continuos Unificados
Unified Continuous Generative Models

May 12, 2025

Peng Sun, Yi Jiang, Tao Lin

443

Los avances recientes en modelos generativos continuos, incluyendo enfoques de múltiples pasos como difusión y emparejamiento de flujos (que generalmente requieren de 8 a 1000 pasos de muestreo) y métodos de pocos pasos como los modelos de consistencia (típicamente de 1 a 8 pasos), han demostrado un rendimiento generativo impresionante. Sin embargo, el trabajo existente a menudo trata estos enfoques como paradigmas distintos, lo que resulta en metodologías de entrenamiento y muestreo separadas. Introducimos un marco unificado para el entrenamiento, muestreo y análisis de estos modelos. Nuestra implementación, el Entrenador y Muestreador Unificado de Modelos Generativos Continuos (UCGM-{T,S}), alcanza un rendimiento de vanguardia (SOTA). Por ejemplo, en ImageNet 256x256 utilizando un transformador de difusión de 675M, UCGM-T entrena un modelo de múltiples pasos que logra un FID de 1.30 en 20 pasos y un modelo de pocos pasos que alcanza un FID de 1.42 en solo 2 pasos. Además, al aplicar UCGM-S a un modelo preentrenado (anteriormente con un FID de 1.26 en 250 pasos), se mejora el rendimiento a un FID de 1.06 en solo 40 pasos. El código está disponible en: https://github.com/LINs-lab/UCGM.

REFINE-AF: Un Marco Agnóstico a la Tarea para Alinear Modelos de Lenguaje mediante Instrucciones Autogeneradas usando Aprendizaje por Refuerzo con Retroalimentación Automatizada
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025

Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

306

Los modelos de lenguaje de gran escala (LLMs) basados en instrucciones han demostrado ser efectivos en numerosas tareas de Procesamiento de Lenguaje Natural (NLP) con pocos ejemplos (few-shot) o sin ejemplos (zero-shot). Sin embargo, la creación de datos de instrucciones anotados por humanos es un proceso que consume tiempo, es costoso y, a menudo, está limitado en cantidad y diversidad de tareas. Investigaciones previas han intentado abordar este desafío proponiendo marcos de trabajo capaces de generar instrucciones de manera semi-automatizada y agnóstica a la tarea, directamente desde el propio modelo. Muchos de estos esfuerzos han dependido de modelos grandes basados únicamente en parámetros API, como GPT-3.5 (175B), que son costosos y están sujetos a límites en el número de consultas. Este artículo explora el rendimiento de tres LLMs pequeños de código abierto, como LLaMA 2-7B, LLaMA 2-13B y Mistral 7B, utilizando un marco de trabajo semi-automatizado, reduciendo así la intervención humana, el esfuerzo y el costo requeridos para generar un conjunto de datos de instrucciones para el ajuste fino de LLMs. Además, demostramos que la incorporación de un algoritmo de entrenamiento basado en Aprendizaje por Refuerzo (RL) en este marco de trabajo basado en LLMs conduce a mejoras adicionales. Nuestra evaluación del conjunto de datos revela que estos marcos de trabajo basados en RL logran mejoras sustanciales en el 63-66% de las tareas en comparación con enfoques anteriores.

DanceGRPO: Liberando el potencial de GRPO en la generación visual
DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025

Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo

293

Los recientes avances en modelos generativos, particularmente en modelos de difusión y flujos rectificados, han revolucionado la creación de contenido visual, aunque alinear las salidas de los modelos con las preferencias humanas sigue siendo un desafío crítico. Los métodos existentes basados en aprendizaje por refuerzo (RL) para la generación visual enfrentan limitaciones importantes: incompatibilidad con los paradigmas modernos de muestreo basados en Ecuaciones Diferenciales Ordinarias (ODEs), inestabilidad en el entrenamiento a gran escala y falta de validación para la generación de videos. Este artículo presenta DanceGRPO, el primer marco unificado que adapta la Optimización de Políticas Relativas de Grupo (GRPO) a los paradigmas de generación visual, desplegando un único algoritmo de RL en dos paradigmas generativos (modelos de difusión y flujos rectificados), tres tareas (texto a imagen, texto a video, imagen a video), cuatro modelos base (Stable Diffusion, HunyuanVideo, FLUX, SkyReel-I2V) y cinco modelos de recompensa (estética de imagen/video, alineación texto-imagen, calidad de movimiento en video y recompensa binaria). Hasta donde sabemos, DanceGRPO es el primer marco unificado basado en RL capaz de adaptarse sin problemas entre diversos paradigmas generativos, tareas, modelos base y modelos de recompensa. DanceGRPO demuestra mejoras consistentes y sustanciales, superando a los baselines hasta en un 181% en benchmarks como HPS-v2.1, CLIP Score, VideoAlign y GenEval. Notablemente, DanceGRPO no solo puede estabilizar la optimización de políticas para la generación compleja de videos, sino que también permite que la política generativa capture mejor las trayectorias de eliminación de ruido para la escalabilidad de inferencia Best-of-N y aprenda de retroalimentación binaria dispersa. Nuestros resultados establecen a DanceGRPO como una solución robusta y versátil para escalar tareas de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) en la generación visual, ofreciendo nuevas perspectivas sobre la armonización entre el aprendizaje por refuerzo y la síntesis visual. El código será liberado.

Skywork-VL Reward: Un Modelo de Recompensa Efectivo para la Comprensión y el Razonamiento Multimodal
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025

Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

293

Proponemos Skywork-VL Reward, un modelo de recompensa multimodal que proporciona señales de recompensa tanto para tareas de comprensión como de razonamiento multimodal. Nuestro enfoque técnico consta de dos componentes clave: primero, construimos un conjunto de datos de preferencias multimodal a gran escala que abarca una amplia gama de tareas y escenarios, con respuestas recopiladas tanto de modelos estándar de visión y lenguaje (VLMs) como de razonadores VLM avanzados. Segundo, diseñamos una arquitectura de modelo de recompensa basada en Qwen2.5-VL-7B-Instruct, integrando una cabeza de recompensa y aplicando un ajuste fino en múltiples etapas utilizando una pérdida de clasificación por pares sobre datos de preferencias por pares. Las evaluaciones experimentales muestran que Skywork-VL Reward alcanza resultados de vanguardia en el benchmark multimodal VL-RewardBench y exhibe un rendimiento competitivo en el benchmark exclusivo de texto RewardBench. Además, los datos de preferencia construidos basados en nuestro Skywork-VL Reward resultan altamente efectivos para entrenar Mixed Preference Optimization (MPO), lo que conduce a mejoras significativas en las capacidades de razonamiento multimodal. Nuestros resultados destacan a Skywork-VL Reward como un avance significativo hacia modelos de recompensa generales y confiables para la alineación multimodal. Nuestro modelo ha sido liberado públicamente para promover la transparencia y la reproducibilidad.

AttentionInfluence: Adopción de la Influencia de Cabezas de Atención para la Selección de Datos de Pretrenamiento de Débil a Fuerte
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12, 2025

Kai Hua, Steven Wu, Ge Zhang, Ke Shen

262

Recientemente, ha habido un creciente interés en recopilar datos de preentrenamiento intensivos en razonamiento para mejorar la capacidad de razonamiento complejo de los modelos de lenguaje grandes (LLMs). Los enfoques anteriores generalmente dependen de clasificadores supervisados para identificar dichos datos, lo que requiere etiquetado por humanos o LLMs, introduciendo a menudo sesgos específicos del dominio. Dado que las cabezas de atención son cruciales para el razonamiento en contexto, proponemos AttentionInfluence, un método simple pero efectivo, sin señal de supervisión y que no requiere entrenamiento. Nuestro enfoque permite que un pequeño modelo de lenguaje preentrenado actúe como un selector de datos robusto mediante una simple operación de enmascaramiento de cabezas de atención. Específicamente, identificamos las cabezas de recuperación y calculamos la diferencia de pérdida al enmascarar estas cabezas. Aplicamos AttentionInfluence a un modelo denso de 1.3B parámetros para realizar la selección de datos en el corpus SmolLM de 241B tokens, y mezclamos el corpus SmolLM con el subconjunto seleccionado que comprende 73B tokens para preentrenar un modelo denso de 7B parámetros utilizando 1T tokens de entrenamiento y programación de tasa de aprendizaje WSD. Nuestros resultados experimentales demuestran mejoras sustanciales, que van desde 1.4pp hasta 3.5pp, en varios puntos de referencia intensivos en conocimiento y razonamiento (es decir, MMLU, MMLU-Pro, AGIEval-en, GSM8K y HumanEval). Esto demuestra una propiedad efectiva de escalado de débil a fuerte, donde modelos pequeños mejoran el rendimiento final de modelos más grandes, ofreciendo un camino prometedor y escalable para la selección de datos centrada en el razonamiento.

Dinámicas de Aprendizaje en el Preentrenamiento Continuo para Modelos de Lenguaje a Gran Escala
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12, 2025

Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

194

El Preentrenamiento Continuo (CPT, por sus siglas en inglés) se ha convertido en un método popular y efectivo para aplicar modelos base robustos a tareas específicas de dominio. En este trabajo, exploramos la dinámica de aprendizaje durante el proceso de CPT en modelos de lenguaje de gran escala. Nos enfocamos específicamente en cómo evoluciona el rendimiento general y en el dominio específico en cada paso de entrenamiento, midiendo el rendimiento del dominio a través de las pérdidas de validación. Hemos observado que la curva de pérdida del CPT caracteriza fundamentalmente la transición de una curva a otra curva oculta, y podría describirse desacoplando los efectos del cambio de distribución y el decremento de la tasa de aprendizaje. Derivamos una ley de escalamiento para CPT que combina estos dos factores, permitiendo predecir la pérdida en cualquier paso de entrenamiento (continuo) y a través de diferentes programaciones de tasas de aprendizaje (LRS) en CPT. Nuestra formulación presenta una comprensión integral de varios factores críticos en CPT, incluyendo el potencial de pérdida, la tasa de aprendizaje máxima, los pasos de entrenamiento, la proporción de repetición, entre otros. Además, nuestro enfoque puede adaptarse para personalizar los hiperparámetros de entrenamiento según diferentes objetivos de CPT, como equilibrar el rendimiento general y específico del dominio. Experimentos extensos demuestran que nuestra ley de escalamiento se mantiene en diversos conjuntos de datos de CPT y con diferentes hiperparámetros de entrenamiento.

WebGen-Bench: Evaluación de LLMs en la Generación de Sitios Web Interactivos y Funcionales desde Cero
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6, 2025

Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

162

Los agentes basados en LLM han demostrado un gran potencial en la generación y gestión de código dentro de bases de código complejas. En este artículo, presentamos WebGen-Bench, un nuevo benchmark diseñado para medir la capacidad de un agente basado en LLM para crear bases de código de sitios web multifile desde cero. Contiene instrucciones diversas para la generación de sitios web, creadas mediante el esfuerzo combinado de anotadores humanos y GPT-4o. Estas instrucciones abarcan tres categorías principales y trece categorías menores, cubriendo casi todos los tipos importantes de aplicaciones web. Para evaluar la calidad de los sitios web generados, utilizamos GPT-4o para generar casos de prueba dirigidos a cada funcionalidad descrita en las instrucciones, y luego los filtramos, ajustamos y organizamos manualmente para garantizar su precisión, lo que resulta en 647 casos de prueba. Cada caso de prueba especifica una operación que debe realizarse en el sitio web y el resultado esperado después de la operación. Para automatizar las pruebas y mejorar la reproducibilidad, empleamos un potente agente de navegación web para ejecutar pruebas en los sitios web generados y determinar si las respuestas observadas coinciden con los resultados esperados. Evaluamos tres frameworks de agentes de código de alto rendimiento, Bolt.diy, OpenHands y Aider, utilizando múltiples LLM propietarios y de código abierto como motores. La combinación con mejor rendimiento, Bolt.diy impulsado por DeepSeek-R1, logra solo un 27,8\% de precisión en los casos de prueba, lo que destaca la naturaleza desafiante de nuestro benchmark. Además, construimos WebGen-Instruct, un conjunto de entrenamiento que consta de 6.667 instrucciones para la generación de sitios web. Entrenar Qwen2.5-Coder-32B-Instruct en trayectorias de Bolt.diy generadas a partir de un subconjunto de este conjunto de entrenamiento alcanza una precisión del 38,2\%, superando el rendimiento del mejor modelo propietario.

INTELLECT-2: Un modelo de razonamiento entrenado mediante aprendizaje por refuerzo descentralizado globalmente
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025

Prime Intellect Team, Sami Jaghouar, Justus Mattern, Jack Min Ong, Jannik Straube, Manveer Basra, Aaron Pazdera, Kushal Thaman, Matthew Di Ferrante, Felix Gabriel, Fares Obeid, Kemal Erdem, Michael Keiblinger, Johannes Hagemann

132

Presentamos INTELLECT-2, la primera ejecución de entrenamiento de aprendizaje por refuerzo (RL, por sus siglas en inglés) distribuida globalmente para un modelo de lenguaje de 32 mil millones de parámetros. A diferencia de los esfuerzos de entrenamiento centralizados tradicionales, INTELLECT-2 entrena un modelo de razonamiento utilizando RL completamente asíncrono a través de un enjambre dinámico y heterogéneo de contribuidores de cómputo sin permisos. Para habilitar una ejecución de entrenamiento con esta infraestructura única, construimos varios componentes desde cero: presentamos PRIME-RL, nuestro marco de entrenamiento diseñado específicamente para el aprendizaje por refuerzo distribuido y asíncrono, basado en componentes novedosos como TOPLOC, que verifica las trayectorias de trabajadores de inferencia no confiables, y SHARDCAST, que transmite eficientemente los pesos de la política desde los nodos de entrenamiento a los trabajadores de inferencia. Más allá de los componentes de infraestructura, proponemos modificaciones a la receta estándar de entrenamiento GRPO y técnicas de filtrado de datos que fueron cruciales para lograr la estabilidad del entrenamiento y asegurar que nuestro modelo aprendiera con éxito su objetivo de entrenamiento, mejorando así a QwQ-32B, el modelo de razonamiento más avanzado en el rango de 32 mil millones de parámetros. Liberamos INTELLECT-2 junto con todo nuestro código y datos, con la esperanza de fomentar y facilitar una investigación más abierta en el campo del entrenamiento descentralizado.

Generación Visual Autorregresiva Continua mediante Maximización de Puntuación
Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025

Chenze Shao, Fandong Meng, Jie Zhou

122

La sabiduría convencional sugiere que los modelos autorregresivos se utilizan para procesar datos discretos. Cuando se aplican a modalidades continuas, como los datos visuales, el modelado visual autorregresivo (VAR, por sus siglas en inglés) suele recurrir a enfoques basados en cuantización para transformar los datos en un espacio discreto, lo que puede introducir una pérdida significativa de información. Para abordar este problema, presentamos un marco de VAR continuo que permite la generación visual autorregresiva directa sin cuantización vectorial. El fundamento teórico subyacente son las reglas de puntuación estrictamente propias, que proporcionan herramientas estadísticas potentes capaces de evaluar qué tan bien un modelo generativo aproxima la distribución verdadera. Dentro de este marco, todo lo que necesitamos es seleccionar una puntuación estrictamente propia y establecerla como el objetivo de entrenamiento a optimizar. Principalmente exploramos una clase de objetivos de entrenamiento basados en la puntuación de energía, que no depende de la verosimilitud y, por lo tanto, supera la dificultad de hacer predicciones probabilísticas en el espacio continuo. Esfuerzos anteriores sobre generación autorregresiva continua, como GIVT y la pérdida de difusión, también pueden derivarse de nuestro marco utilizando otras puntuaciones estrictamente propias. Código fuente: https://github.com/shaochenze/EAR.

MonetGPT: Resolver acertijos mejora las habilidades de retoque de imágenes en MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025

Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

112

El retoque es una tarea esencial en la post-manipulación de fotografías en bruto. La edición generativa, guiada por texto o trazos, ofrece una nueva herramienta accesible para los usuarios, pero puede alterar fácilmente la identidad de los objetos originales de maneras inaceptables e impredecibles. En contraste, aunque las ediciones procedimentales tradicionales, comúnmente soportadas por herramientas de edición de fotos (por ejemplo, Gimp, Lightroom), son conservadoras, siguen siendo preferidas por los profesionales. Desafortunadamente, el retoque de calidad profesional implica muchas operaciones individuales de edición procedimental que son difíciles de planificar para la mayoría de los principiantes. En este artículo, nos preguntamos si un modelo de lenguaje multimodal de gran escala (MLLM) puede ser entrenado para criticar fotografías en bruto, sugerir remedios adecuados y finalmente implementarlos con un conjunto dado de operaciones de imagen procedimentales predefinidas. Demostramos que los MLLMs pueden primero ser conscientes de las operaciones subyacentes de procesamiento de imágenes, entrenándolos para resolver acertijos visuales especialmente diseñados. Posteriormente, un MLLM consciente de las operaciones puede tanto planificar como proponer secuencias de edición. Para facilitar el entrenamiento, dado un conjunto de fotos editadas por expertos, sintetizamos un conjunto de datos de razonamiento manipulando procedimentalmente las ediciones expertas y luego fundamentando un LLM preentrenado en los ajustes visuales, para sintetizar razonamientos para el ajuste fino. Las operaciones de retoque propuestas son, por construcción, comprensibles para los usuarios, preservan los detalles y la resolución de los objetos, y pueden ser opcionalmente anuladas. Evaluamos nuestra configuración en una variedad de ejemplos de prueba y mostramos ventajas, en términos de explicabilidad y preservación de la identidad, sobre las alternativas generativas y otras alternativas procedimentales existentes. El código, los datos, los modelos y los resultados complementarios se pueden encontrar en nuestro sitio web del proyecto en https://monetgpt.github.io.

Razonamiento Sinérgico de Conocimiento Interno-Externo Reforzado para un Agente de Búsqueda Adaptativa Eficiente
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12, 2025

Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu

102

La generación aumentada por recuperación (RAG, por sus siglas en inglés) es una estrategia común para reducir las alucinaciones en los Modelos de Lenguaje de Gran Escala (LLMs). Si bien el aprendizaje por refuerzo (RL) puede permitir que los LLMs actúen como agentes de búsqueda al activar capacidades de recuperación, los existentes a menudo subutilizan su conocimiento interno. Esto puede llevar a recuperaciones redundantes, posibles conflictos de conocimiento perjudiciales y un aumento en la latencia de inferencia. Para abordar estas limitaciones, se necesita urgentemente un agente de búsqueda eficiente y adaptable capaz de discernir el momento óptimo de recuperación e integrar de manera sinérgica el conocimiento paramétrico (interno) y el recuperado (externo). Este artículo presenta el Agente de Razonamiento Sinérgico de Conocimiento Interno-Externo Reforzado (IKEA), que puede identificar su propio límite de conocimiento y priorizar la utilización del conocimiento interno, recurriendo a la búsqueda externa solo cuando el conocimiento interno se considera insuficiente. Esto se logra utilizando una novedosa función de recompensa consciente del límite de conocimiento y un conjunto de datos de entrenamiento consciente del límite de conocimiento. Estos están diseñados para el RL orientado a la sinergia de conocimiento interno-externo, incentivando al modelo a proporcionar respuestas precisas, minimizar recuperaciones innecesarias y fomentar búsquedas externas apropiadas cuando su propio conocimiento es insuficiente. Las evaluaciones en múltiples tareas de razonamiento de conocimiento demuestran que IKEA supera significativamente a los métodos de referencia, reduce considerablemente la frecuencia de recuperación y exhibe capacidades de generalización robustas.

Posición: Las Competencias de IA Establecen el Estándar de Oro para el Rigor Empírico en la Evaluación de GenAI
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1, 2025

D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating

En este documento de posición, observamos que la evaluación empírica en IA Generativa se encuentra en un punto crítico, ya que las estrategias tradicionales de evaluación y comparación en aprendizaje automático son insuficientes para satisfacer las necesidades de evaluar los modelos y sistemas modernos de GenAI. Existen muchas razones para esto, incluyendo el hecho de que estos modelos suelen tener espacios de entrada y salida prácticamente ilimitados, generalmente no poseen un objetivo de verdad fundamental bien definido, y a menudo exhiben fuertes bucles de retroalimentación y dependencia de predicciones basadas en el contexto de salidas previas del modelo. Además de estos problemas críticos, argumentamos que los problemas de {\em filtración} y {\em contaminación} son, de hecho, los más importantes y difíciles de abordar en las evaluaciones de GenAI. Curiosamente, el campo de las Competencias de IA ha desarrollado medidas y prácticas efectivas para combatir la filtración con el propósito de contrarrestar el engaño por parte de actores malintencionados en un entorno competitivo. Esto convierte a las Competencias de IA en un recurso especialmente valioso (pero subutilizado). Es momento de que el campo considere a las Competencias de IA como el estándar de oro para el rigor empírico en la evaluación de GenAI, y de aprovechar y valorar sus resultados en consecuencia.

UMoE: Unificación de la Atención y la FFN con Expertos Compartidos
UMoE: Unifying Attention and FFN with Shared Experts

May 12, 2025

Yuanhang Yang, Chaozheng Wang, Jing Li

Las arquitecturas de Mezcla Escasa de Expertos (MoE, por sus siglas en inglés) han surgido como un enfoque prometedor para escalar los modelos Transformer. Si bien los trabajos iniciales incorporaron principalmente MoE en las capas de redes neuronales feed-forward (FFN), estudios recientes han explorado la extensión del paradigma MoE a las capas de atención para mejorar el rendimiento del modelo. Sin embargo, las capas MoE basadas en atención existentes requieren implementaciones especializadas y demuestran un rendimiento subóptimo en comparación con sus contrapartes basadas en FFN. En este artículo, buscamos unificar los diseños MoE en las capas de atención y FFN mediante la introducción de una nueva reformulación del mecanismo de atención, revelando una estructura subyacente similar a FFN dentro de los módulos de atención. Nuestra arquitectura propuesta, UMoE, logra un rendimiento superior a través de capas MoE basadas en atención, al mismo tiempo que permite un uso eficiente de parámetros compartidos entre los componentes de FFN y atención.

DynamicRAG: Aprovechando las salidas de modelos de lenguaje extenso como retroalimentación para la reranking dinámico en generación aumentada por recuperación
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

May 12, 2025

Jiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han

Los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés) combinan modelos de lenguaje de gran escala (LLMs) con la recuperación de conocimiento externo, lo que los hace altamente efectivos para tareas intensivas en conocimiento. Un componente crucial pero a menudo poco explorado en estos sistemas es el reranker, que refina los documentos recuperados para mejorar la calidad y la explicabilidad de la generación. El desafío de seleccionar el número óptimo de documentos (k) sigue sin resolverse: demasiados pocos pueden omitir información crítica, mientras que demasiados introducen ruido e ineficiencias. Aunque estudios recientes han explorado rerankers basados en LLMs, estos principalmente aprovechan el conocimiento interno del modelo y pasan por alto las señales de supervisión enriquecedoras que los LLMs pueden proporcionar, como utilizar la calidad de la respuesta como retroalimentación para optimizar las decisiones de reranking. En este artículo, proponemos DynamicRAG, un novedoso marco RAG en el que el reranker ajusta dinámicamente tanto el orden como el número de documentos recuperados en función de la consulta. Modelamos el reranker como un agente optimizado mediante aprendizaje por refuerzo (RL), utilizando recompensas derivadas de la calidad de la salida del LLM. En siete conjuntos de datos intensivos en conocimiento, DynamicRAG demuestra un rendimiento superior, logrando resultados de vanguardia. El modelo, los datos y el código están disponibles en https://github.com/GasolSun36/DynamicRAG.

LLAMAPIE: Asistentes de Conversación Proactivos Intrauriculares
LLAMAPIE: Proactive In-Ear Conversation Assistants

May 7, 2025

Tuochao Chen, Nicholas Batchelder, Alisa Liu, Noah Smith, Shyamnath Gollakota

Presentamos LlamaPIE, el primer asistente proactivo en tiempo real diseñado para mejorar las conversaciones humanas mediante orientación discreta y concisa entregada a través de dispositivos audibles. A diferencia de los modelos de lenguaje tradicionales que requieren una invocación explícita por parte del usuario, este asistente opera en segundo plano, anticipando las necesidades del usuario sin interrumpir las conversaciones. Abordamos varios desafíos, incluyendo determinar cuándo responder, elaborar respuestas concisas que enriquezcan las conversaciones, aprovechar el conocimiento del usuario para brindar asistencia contextualizada y realizar procesamiento en tiempo real y en el dispositivo. Para lograrlo, construimos un conjunto de datos de diálogos semi-sintéticos y proponemos una canalización de dos modelos: un modelo pequeño que decide cuándo responder y un modelo más grande que genera la respuesta. Evaluamos nuestro enfoque en conjuntos de datos del mundo real, demostrando su eficacia para proporcionar asistencia útil y discreta. Estudios de usuarios con nuestro asistente, implementado en hardware Apple Silicon M2, muestran una fuerte preferencia por el asistente proactivo en comparación con una línea base sin asistencia y un modelo reactivo, destacando el potencial de LlamaPIE para mejorar las conversaciones en vivo.

H^{3}DP: Política de Difusión Triplemente Jerárquica para el Aprendizaje Visuomotor
H^{3}DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

May 12, 2025

Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, Huazhe Xu

El aprendizaje de políticas visuomotoras ha experimentado avances significativos en la manipulación robótica, con enfoques recientes que dependen principalmente de modelos generativos para modelar la distribución de acciones. Sin embargo, estos métodos a menudo pasan por alto el acoplamiento crítico entre la percepción visual y la predicción de acciones. En este trabajo, presentamos la Política de Difusión Triplemente Jerárquica~(H^{\mathbf{3}DP}), un marco novedoso de aprendizaje visuomotor que incorpora explícitamente estructuras jerárquicas para fortalecer la integración entre las características visuales y la generación de acciones. H^{3}DP contiene 3 niveles de jerarquía: (1) una estratificación de entrada consciente de la profundidad que organiza las observaciones RGB-D basándose en la información de profundidad; (2) representaciones visuales multiescala que codifican características semánticas en distintos niveles de granularidad; y (3) un proceso de difusión condicionado jerárquicamente que alinea la generación de acciones de grueso a fino con las características visuales correspondientes. Experimentos exhaustivos demuestran que H^{3}DP produce una mejora relativa promedio del +27.5% sobre los métodos de referencia en 44 tareas de simulación y logra un rendimiento superior en 4 tareas desafiantes de manipulación bimanual en el mundo real. Página del proyecto: https://lyy-iiis.github.io/h3dp/.

La Prevención de Desbordamiento Mejora los Modelos de Lenguaje Recurrentes de Contexto Largo
Overflow Prevention Enhances Long-Context Recurrent LLMs

May 12, 2025

Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes

Una tendencia reciente en los LLM es el desarrollo de modelos recurrentes subcuadráticos que mejoran la eficiencia en el procesamiento de contextos largos. Investigamos los principales modelos de gran contexto, centrándonos en cómo su memoria recurrente de tamaño fijo afecta su rendimiento. Nuestros experimentos revelan que, incluso cuando estos modelos son entrenados para contextos extendidos, su uso de contextos largos sigue estando subutilizado. Específicamente, demostramos que un procedimiento de inferencia basado en fragmentos, que identifica y procesa solo la porción más relevante de la entrada, puede mitigar fallos en la memoria recurrente y ser efectivo para muchas tareas de contexto largo: en LongBench, nuestro método mejora el rendimiento general de Falcon3-Mamba-Inst-7B en un 14%, Falcon-Mamba-Inst-7B en un 28%, RecurrentGemma-IT-9B en un 50% y RWKV6-Finch-7B en un 51%. Sorprendentemente, este enfoque simple también conduce a resultados de vanguardia en el desafiante benchmark LongBench v2, mostrando un rendimiento competitivo con Transformers de tamaño equivalente. Además, nuestros hallazgos plantean dudas sobre si los modelos recurrentes realmente explotan las dependencias de largo alcance, ya que nuestra estrategia de un solo fragmento ofrece un rendimiento superior, incluso en tareas que presumiblemente requieren relaciones entre contextos.

Atribución de Documentos: Examinando Relaciones de Citación mediante Modelos de Lenguaje a Gran Escala
Document Attribution: Examining Citation Relationships using Large Language Models

May 9, 2025

Vipula Rawte, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka

A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se aplican cada vez más a tareas basadas en documentos —como la resumen de documentos, la respuesta a preguntas y la extracción de información—, donde los requisitos del usuario se centran en recuperar información de los documentos proporcionados en lugar de depender del conocimiento paramétrico del modelo, garantizar la confiabilidad y la interpretabilidad de estos sistemas se ha convertido en una preocupación crítica. Un enfoque central para abordar este desafío es la atribución, que implica rastrear las salidas generadas hasta sus documentos de origen. Sin embargo, dado que los LLMs pueden producir respuestas inexactas o imprecisas, es crucial evaluar la confiabilidad de estas citas. Para abordar esto, nuestro trabajo propone dos técnicas. (1) Un enfoque de cero disparos (zero-shot) que enmarca la atribución como una tarea simple de implicación textual. Nuestro método, que utiliza flan-ul2, muestra una mejora del 0.27% y del 2.4% sobre la mejor línea base en los conjuntos ID y OOD de AttributionBench, respectivamente. (2) También exploramos el papel del mecanismo de atención en la mejora del proceso de atribución. Utilizando un LLM más pequeño, flan-t5-small, las puntuaciones F1 superan a la línea base en casi todas las capas, excepto en la capa 4 y en las capas 8 a 11.

Aprendizaje Profundo Asistido por Física e Informado por Topología para la Predicción Meteorológica
Physics-Assisted and Topology-Informed Deep Learning for Weather Prediction

May 8, 2025

Jiaqi Zheng, Qing Ling, Yerong Feng

Aunque los modelos de aprendizaje profundo han demostrado un potencial notable en la predicción del tiempo, la mayoría de ellos pasan por alto ya sea la física de la evolución subyacente del clima o la topografía de la superficie terrestre. Ante estas desventajas, desarrollamos PASSAT, un novedoso modelo de aprendizaje profundo asistido por física e informado por la topografía para la predicción del tiempo. PASSAT atribuye la evolución del clima a dos factores clave: (i) el proceso de advección, que puede caracterizarse mediante la ecuación de advección y las ecuaciones de Navier-Stokes; (ii) la interacción Tierra-atmósfera, que es difícil de modelar y calcular. PASSAT también tiene en cuenta la topografía de la superficie terrestre, en lugar de tratarla simplemente como un plano. Con estas consideraciones, PASSAT resuelve numéricamente la ecuación de advección y las ecuaciones de Navier-Stokes en la variedad esférica, utiliza una red neuronal gráfica esférica para capturar la interacción Tierra-atmósfera y genera los campos de velocidad iniciales, cruciales para resolver la ecuación de advección, a partir de la misma red neuronal gráfica esférica. En el conjunto de datos ERA5 con resolución de 5.625°, PASSAT supera tanto a los modelos de predicción del tiempo basados en aprendizaje profundo más avanzados como al modelo operativo de predicción numérica del tiempo IFS T42. El código y los puntos de control están disponibles en https://github.com/Yumenomae/PASSAT_5p625.

Emparejamiento de Flujo Discreto Guiado por Múltiples Objetivos para el Diseño Controlable de Secuencias Biológicas
Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design

May 11, 2025

Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee

Diseñar secuencias biológicas que satisfagan múltiples criterios funcionales y biofísicos, a menudo conflictivos, sigue siendo un desafío central en la ingeniería de biomoléculas. Aunque los modelos de emparejamiento de flujo discreto han mostrado recientemente potencial para un muestreo eficiente en espacios de secuencias de alta dimensionalidad, los enfoques existentes abordan solo objetivos individuales o requieren incrustaciones continuas que pueden distorsionar las distribuciones discretas. Presentamos Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), un marco general para dirigir cualquier generador de emparejamiento de flujo en tiempo discreto preentrenado hacia compensaciones Pareto-eficientes en múltiples objetivos escalares. En cada paso de muestreo, MOG-DFM calcula una puntuación híbrida de rango-direccional para las transiciones candidatas y aplica un filtro hipercónico adaptativo para garantizar un progreso multiobjetivo consistente. También entrenamos dos modelos de emparejamiento de flujo discreto incondicionales, PepDFM para la generación diversa de péptidos y EnhancerDFM para la generación de ADN potenciador funcional, como modelos base de generación para MOG-DFM. Demostramos la eficacia de MOG-DFM en la generación de péptidos ligantes optimizados en cinco propiedades (hemólisis, antiadherencia, solubilidad, vida media y afinidad de unión), y en el diseño de secuencias de ADN con clases específicas de potenciadores y formas de ADN. En conjunto, MOG-DFM se consolida como una herramienta poderosa para el diseño de secuencias de biomoléculas guiado por múltiples propiedades.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Informe Técnico de Seed1.5-VL
Seed1.5-VL Technical Report

May 11, 2025

1464

MiMo: Desbloqueando el Potencial de Razonamiento de los Modelos de Lenguaje — Desde el Pretrenamiento hasta el Postrenamiento
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

May 12, 2025

806

Step1X-3D: Hacia la Generación de Activos 3D Texturizados de Alta Fidelidad y Controlable
Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

May 12, 2025

603

Aprendizaje a partir de pares en modelos de razonamiento
Learning from Peers in Reasoning Models

May 12, 2025

Tongxu Luo, Wenyu Du, Jiaxi Bi, Stephen Chung, Zhengyang Tang, Hao Yang, Min Zhang, Benyou Wang

454

Modelos Generativos Continuos Unificados
Unified Continuous Generative Models

May 12, 2025

Peng Sun, Yi Jiang, Tao Lin

443

REFINE-AF: Un Marco Agnóstico a la Tarea para Alinear Modelos de Lenguaje mediante Instrucciones Autogeneradas usando Aprendizaje por Refuerzo con Retroalimentación Automatizada
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025

Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal

306

DanceGRPO: Liberando el potencial de GRPO en la generación visual
DanceGRPO: Unleashing GRPO on Visual Generation

May 12, 2025

Zeyue Xue, Jie Wu, Yu Gao, Fangyuan Kong, Lingting Zhu, Mengzhao Chen, Zhiheng Liu, Wei Liu, Qiushan Guo, Weilin Huang, Ping Luo

293

Skywork-VL Reward: Un Modelo de Recompensa Efectivo para la Comprensión y el Razonamiento Multimodal
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning

May 12, 2025

Xiaokun Wang, Chris, Jiangbo Pei, Wei Shen, Yi Peng, Yunzhuo Hao, Weijie Qiu, Ai Jian, Tianyidan Xie, Xuchen Song, Yang Liu, Yahui Zhou

293

AttentionInfluence: Adopción de la Influencia de Cabezas de Atención para la Selección de Datos de Pretrenamiento de Débil a Fuerte
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection

May 12, 2025

Kai Hua, Steven Wu, Ge Zhang, Ke Shen

262

Dinámicas de Aprendizaje en el Preentrenamiento Continuo para Modelos de Lenguaje a Gran Escala
Learning Dynamics in Continual Pre-Training for Large Language Models

May 12, 2025

Xingjin Wang, Howe Tissue, Lu Wang, Linjing Li, Daniel Dajun Zeng

194

WebGen-Bench: Evaluación de LLMs en la Generación de Sitios Web Interactivos y Funcionales desde Cero
WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch

May 6, 2025

Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

162

INTELLECT-2: Un modelo de razonamiento entrenado mediante aprendizaje por refuerzo descentralizado globalmente
INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

May 12, 2025

132

Generación Visual Autorregresiva Continua mediante Maximización de Puntuación
Continuous Visual Autoregressive Generation via Score Maximization

May 12, 2025

Chenze Shao, Fandong Meng, Jie Zhou

122

MonetGPT: Resolver acertijos mejora las habilidades de retoque de imágenes en MLLMs
MonetGPT: Solving Puzzles Enhances MLLMs' Image Retouching Skills

May 9, 2025

Niladri Shekhar Dutt, Duygu Ceylan, Niloy J. Mitra

112

Razonamiento Sinérgico de Conocimiento Interno-Externo Reforzado para un Agente de Búsqueda Adaptativa Eficiente
Reinforced Internal-External Knowledge Synergistic Reasoning for Efficient Adaptive Search Agent

May 12, 2025

Ziyang Huang, Xiaowei Yuan, Yiming Ju, Jun Zhao, Kang Liu

102

Posición: Las Competencias de IA Establecen el Estándar de Oro para el Rigor Empírico en la Evaluación de GenAI
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation

May 1, 2025

D. Sculley, Will Cukierski, Phil Culliton, Sohier Dane, Maggie Demkin, Ryan Holbrook, Addison Howard, Paul Mooney, Walter Reade, Megan Risdal, Nate Keating