Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

Mind2Web 2: Evaluación de Búsqueda Agéntica con Agente-como-Juez
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Jun 26, 2025

Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jiménez Gutiérrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

421

La búsqueda agentiva, como los sistemas de Deep Research, donde los modelos de lenguaje de gran escala navegan autónomamente por la web, sintetizan información y devuelven respuestas completas respaldadas por citas, representa un cambio importante en cómo los usuarios interactúan con la información a escala web. Aunque promete una mayor eficiencia y descarga cognitiva, la creciente complejidad y apertura de la búsqueda agentiva ha superado los puntos de referencia y metodologías de evaluación existentes, que en gran medida asumen horizontes de búsqueda cortos y respuestas estáticas. En este artículo, presentamos Mind2Web 2, un punto de referencia de 130 tareas realistas, de alta calidad y de largo horizonte que requieren navegación web en tiempo real y una extensa síntesis de información, construido con más de 1,000 horas de trabajo humano. Para abordar el desafío de evaluar respuestas complejas y variables en el tiempo, proponemos un novedoso marco de Agente-como-Juez. Nuestro método construye agentes jueces específicos para cada tarea basados en un diseño de rúbrica de estructura arbórea para evaluar automáticamente tanto la corrección de las respuestas como la atribución de las fuentes. Realizamos una evaluación exhaustiva de nueve sistemas de búsqueda agentiva de vanguardia y del rendimiento humano, junto con un análisis detallado de errores para obtener ideas para el desarrollo futuro. El sistema con mejor rendimiento, OpenAI Deep Research, ya puede alcanzar el 50-70% del rendimiento humano mientras gasta la mitad del tiempo, mostrando un gran potencial. En conjunto, Mind2Web 2 proporciona una base rigurosa para el desarrollo y evaluación de la próxima generación de sistemas de búsqueda agentiva.

FaSTA^: Agente de Trayectoria Rápida-Lenta con Minería de Subrutinas para la Edición Eficiente de Imágenes en Múltiples Pasos
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

Jun 26, 2025

Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou

382

Desarrollamos un agente neurosimbólico rentable para abordar tareas desafiantes de edición de imágenes en múltiples pasos, como "Detectar el banco en la imagen mientras se recolorea a rosa. Además, eliminar el gato para una vista más clara y recolorear la pared a amarillo". Este agente combina la planificación rápida y de alto nivel de subtareas mediante modelos de lenguaje grandes (LLMs) con el uso lento, preciso y local de herramientas, junto con una búsqueda A^* por subtarea para encontrar una ruta de herramientas rentable: una secuencia de llamadas a herramientas de IA. Para reducir el costo de A^* en subtareas similares, realizamos razonamiento inductivo sobre rutas de herramientas previamente exitosas mediante LLMs, extrayendo y refinando continuamente subrutinas de uso frecuente para reutilizarlas como nuevas herramientas en tareas futuras dentro de un esquema de planificación rápida-lenta adaptativa. En este enfoque, las subrutinas de alto nivel se exploran primero, y solo cuando fallan, se activa la búsqueda A^* de bajo nivel. Las subrutinas simbólicas reutilizables reducen considerablemente el costo de exploración en subtareas del mismo tipo aplicadas a imágenes similares, dando lugar a un agente de ruta de herramientas rápida-lenta similar al humano, denominado "FaSTA^*": la planificación rápida de subtareas seguida de la selección de subrutinas basada en reglas por subtarea se intenta primero mediante LLMs, lo que se espera cubra la mayoría de las tareas, mientras que la búsqueda lenta A^* solo se activa para subtareas novedosas y desafiantes. Al compararlo con enfoques recientes de edición de imágenes, demostramos que FaSTA^* es significativamente más eficiente computacionalmente, manteniéndose competitivo con el estado del arte en términos de tasa de éxito.

MADrive: Modelado de Escenas de Conducción Aumentado con Memoria
MADrive: Memory-Augmented Driving Scene Modeling

Jun 26, 2025

Polina Karpikova, Daniil Selikhanovych, Kirill Struminsky, Ruslan Musaev, Maria Golitsyna, Dmitry Baranchuk

351

Los avances recientes en la reconstrucción de escenas han impulsado el modelado altamente realista de entornos de conducción autónoma (AD) mediante el uso de splatting 3D con Gaussianas. Sin embargo, las reconstrucciones resultantes siguen estrechamente vinculadas a las observaciones originales y tienen dificultades para respaldar la síntesis fotorrealista de escenarios de conducción significativamente alterados o novedosos. Este trabajo presenta MADrive, un marco de reconstrucción aumentado con memoria diseñado para extender las capacidades de los métodos existentes de reconstrucción de escenas, reemplazando los vehículos observados con activos 3D visualmente similares recuperados de un banco de memoria externo a gran escala. Específicamente, presentamos MAD-Cars, un conjunto de datos curado de aproximadamente 70K videos de 360° de automóviles capturados en entornos reales, y un módulo de recuperación que encuentra las instancias de automóviles más similares en el banco de memoria, reconstruye los activos 3D correspondientes a partir del video y los integra en la escena objetivo mediante alineación de orientación y reiluminación. Los reemplazos resultantes proporcionan representaciones completas de vehículos en la escena desde múltiples vistas, permitiendo la síntesis fotorrealista de configuraciones sustancialmente alteradas, como se demuestra en nuestros experimentos. Página del proyecto: https://yandex-research.github.io/madrive/

WorldVLA: Hacia un Modelo de Mundo de Acciones Autoregresivo
WorldVLA: Towards Autoregressive Action World Model

Jun 26, 2025

Jun Cen, Chaohui Yu, Hangjie Yuan, Yuming Jiang, Siteng Huang, Jiayan Guo, Xin Li, Yibing Song, Hao Luo, Fan Wang, Deli Zhao, Hao Chen

343

Presentamos WorldVLA, un modelo autoregresivo del mundo de acciones que unifica la comprensión y generación de acciones e imágenes. Nuestro WorldVLA integra un modelo Visión-Lenguaje-Acción (VLA) y un modelo del mundo en un único marco de trabajo. El modelo del mundo predice imágenes futuras aprovechando tanto la comprensión de acciones como de imágenes, con el propósito de aprender la física subyacente del entorno para mejorar la generación de acciones. Mientras tanto, el modelo de acciones genera las acciones subsiguientes basándose en observaciones de imágenes, lo que ayuda a la comprensión visual y, a su vez, contribuye a la generación visual del modelo del mundo. Demostramos que WorldVLA supera a los modelos de acciones y del mundo por separado, destacando la mejora mutua entre el modelo del mundo y el modelo de acciones. Además, observamos que el rendimiento del modelo de acciones se deteriora al generar secuencias de acciones de manera autoregresiva. Este fenómeno puede atribuirse a la capacidad limitada de generalización del modelo para la predicción de acciones, lo que conduce a la propagación de errores desde acciones anteriores a las subsiguientes. Para abordar este problema, proponemos una estrategia de máscara de atención que enmascara selectivamente acciones previas durante la generación de la acción actual, lo que muestra una mejora significativa en el rendimiento en la tarea de generación de fragmentos de acciones.

¿Dónde encontrar la comprensión en el preentrenamiento de modelos de lenguaje? Monitorear la transición de memorización a generalización sin pruebas
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Jun 26, 2025

Ziyue Li, Chenrui Fan, Tianyi Zhou

262

Grokking, es decir, el rendimiento en pruebas sigue mejorando mucho después de que la pérdida de entrenamiento haya convergido, ha sido observado recientemente en el entrenamiento de redes neuronales, lo que hace que el mecanismo de generalización y otras capacidades emergentes, como el razonamiento, resulten misteriosos. Mientras que estudios previos suelen entrenar modelos pequeños en unas pocas tareas específicas o de juguete durante miles de épocas, nosotros realizamos el primer estudio de grokking en puntos de control durante el preentrenamiento de un solo paso de un modelo de lenguaje grande (LLM) de 7B, es decir, OLMoE. Calculamos la pérdida de entrenamiento y evaluamos la generalización en diversas tareas de referencia, incluyendo razonamiento matemático, generación de código y tareas de recuperación de conocimiento de sentido común o específico de un dominio. Nuestro estudio, por primera vez, verifica que el grokking sigue ocurriendo durante el preentrenamiento de modelos fundacionales a gran escala, aunque diferentes datos pueden entrar en etapas de grokking de manera asincrónica. Además, desmitificamos la "emergencia de la generalización" del grokking al investigar la dinámica interna de los LLM. Específicamente, encontramos que las rutas de las muestras de entrenamiento (es decir, las elecciones de expertos a través de las capas) evolucionan desde ser aleatorias y específicas de la instancia hasta volverse más estructuradas y compartibles entre muestras durante el grokking. Además, la complejidad de la ruta de una muestra se reduce a pesar de la pérdida convergida. Esto indica una conversión de memorización a generalización, proporcionando una explicación mecanicista de la generalización retrasada. En el estudio, desarrollamos dos métricas novedosas para cuantificar la distancia de las rutas y la complejidad de una sola ruta. Demostramos su capacidad para predecir la mejora en la generalización en diversas tareas posteriores. Estas métricas son eficientes, fáciles de calcular y dependen únicamente de los datos de entrenamiento. Por lo tanto, tienen un valor práctico para el preentrenamiento, permitiéndonos monitorear el rendimiento de generalización sin necesidad de ajuste fino ni pruebas. Teóricamente, demostramos que las rutas más estructuradas reducen la complejidad del modelo y mejoran el límite de generalización.

Aprendiendo a omitir las capas intermedias de los Transformers
Learning to Skip the Middle Layers of Transformers

Jun 26, 2025

Tim Lawson, Laurence Aitchison

142

La computación condicional es una estrategia popular para hacer que los Transformers sean más eficientes. Los métodos existentes suelen enfocarse en módulos individuales (por ejemplo, capas de mezcla de expertos) o saltan capas de manera independiente entre sí. Sin embargo, investigaciones sobre interpretabilidad han demostrado que las capas intermedias de los Transformers presentan una mayor redundancia, y que las primeras capas agregan información en posiciones de tokens. Guiados por estas ideas, proponemos una arquitectura novedosa que salta dinámicamente un número variable de capas desde el centro hacia afuera. En particular, un mecanismo de compuerta aprendido determina si se debe omitir un tramo simétrico de bloques centrales según la entrada, y un mecanismo de atención con compuerta evita que los tokens subsiguientes atiendan a las posiciones de tokens omitidas. Las normas residuales se controlan con un esquema de 'sándwich' o 'perilayernorm', y la dispersión de las compuertas con una pérdida de regularización adaptativa. Nuestro objetivo era reducir los requisitos de cómputo para tokens 'más simples' y potencialmente fomentar una jerarquía representativa emergente de múltiples niveles; sin embargo, en las escalas investigadas, nuestro enfoque no logra mejoras en la relación entre la entropía cruzada de validación y los FLOPs estimados en comparación con líneas base densas con menos capas. Publicamos nuestro código en https://github.com/tim-lawson/skip-middle.

SAM4D: Segmentación de Cualquier Objeto en Flujos de Cámara y LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

Jun 26, 2025

Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li

131

Presentamos SAM4D, un modelo fundacional multimodal y temporal diseñado para la segmentación mediante indicaciones en flujos de cámara y LiDAR. Se introduce la Codificación de Posición Multimodal Unificada (UMPE, por sus siglas en inglés) para alinear las características de la cámara y el LiDAR en un espacio 3D compartido, permitiendo una interacción y segmentación multimodal sin interrupciones. Además, proponemos la Atención de Memoria Multimodal Consciente del Movimiento (MCMA, por sus siglas en inglés), que aprovecha la compensación del movimiento propio para mejorar la consistencia temporal y la recuperación de características a largo plazo, asegurando una segmentación robusta en escenarios de conducción autónoma dinámicamente cambiantes. Para evitar cuellos de botella en la anotación, desarrollamos un motor de datos automatizado multimodal que combina máscaras de video impulsadas por VFM, reconstrucción espacio-temporal 4D y fusión de máscaras multimodales. Este marco genera pseudoetiquetas alineadas entre cámara y LiDAR a una velocidad órdenes de magnitud más rápida que la anotación humana, preservando la fidelidad semántica derivada de VFM en las representaciones de nubes de puntos. Realizamos experimentos extensivos en el conjunto de datos construido Waymo-4DSeg, los cuales demuestran la potente capacidad de segmentación multimodal y el gran potencial en la anotación de datos del SAM4D propuesto.

PhysRig: Marco de trabajo diferenciable basado en física para skinning y rigging en el modelado realista de objetos articulados
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Jun 26, 2025

Hao Zhang, Haolan Xu, Chun Feng, Varun Jampani, Narendra Ahuja

El skinning y el rigging son componentes fundamentales en la animación, la reconstrucción de objetos articulados, la transferencia de movimiento y la generación 4D. Los enfoques existentes se basan predominantemente en el Linear Blend Skinning (LBS), debido a su simplicidad y diferenciabilidad. Sin embargo, el LBS introduce artefactos como la pérdida de volumen y deformaciones poco naturales, y no logra modelar materiales elásticos como tejidos blandos, pelaje y apéndices flexibles (por ejemplo, trompas de elefante, orejas y tejidos grasos). En este trabajo, proponemos PhysRig: un marco de skinning y rigging basado en física diferenciable que supera estas limitaciones al integrar el esqueleto rígido en una representación volumétrica (por ejemplo, una malla tetraédrica), que se simula como una estructura de cuerpo blando deformable impulsada por el esqueleto animado. Nuestro método aprovecha la mecánica de medios continuos y discretiza el objeto como partículas incrustadas en una malla de fondo euleriana para garantizar la diferenciabilidad con respecto tanto a las propiedades del material como al movimiento del esqueleto. Además, introducimos prototipos de materiales, reduciendo significativamente el espacio de aprendizaje mientras mantenemos una alta expresividad. Para evaluar nuestro marco, construimos un conjunto de datos sintético completo utilizando mallas de Objaverse, The Amazing Animals Zoo y MixaMo, cubriendo diversas categorías de objetos y patrones de movimiento. Nuestro método supera consistentemente los enfoques tradicionales basados en LBS, generando resultados más realistas y físicamente plausibles. Además, demostramos la aplicabilidad de nuestro marco en la tarea de transferencia de poses, destacando su versatilidad para el modelado de objetos articulados.

Predicción de Video Egocéntrico con Condicionamiento de Cuerpo Completo
Whole-Body Conditioned Egocentric Video Prediction

Jun 26, 2025

Yutong Bai, Danny Tran, Amir Bar, Yann LeCun, Trevor Darrell, Jitendra Malik

Entrenamos modelos para Predecir Video Egocéntrico a partir de Acciones Humanas (PEVA), dados el video pasado y una acción representada por la pose corporal relativa en 3D. Al condicionar las trayectorias de poses cinemáticas, estructuradas por la jerarquía de articulaciones del cuerpo, nuestro modelo aprende a simular cómo las acciones físicas humanas moldean el entorno desde un punto de vista en primera persona. Entrenamos un transformador de difusión condicional autorregresivo en Nymeria, un conjunto de datos a gran escala de video egocéntrico y captura de poses corporales del mundo real. Además, diseñamos un protocolo de evaluación jerárquico con tareas de dificultad creciente, permitiendo un análisis exhaustivo de las capacidades de predicción y control encarnado del modelo. Nuestro trabajo representa un intento inicial de abordar los desafíos de modelar entornos complejos del mundo real y comportamientos de agentes encarnados mediante la predicción de video desde la perspectiva de un ser humano.

Arch-Router: Alineación del Enrutamiento de Modelos de Lenguaje con las Preferencias Humanas
Arch-Router: Aligning LLM Routing with Human Preferences

Jun 19, 2025

Co Tran, Salman Paracha, Adil Hafeez, Shuguang Chen

Con la rápida proliferación de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), cada uno optimizado para diferentes fortalezas, estilos o perfiles de latencia/costo, el enrutamiento se ha convertido en una técnica esencial para operacionalizar el uso de distintos modelos. Sin embargo, los enfoques actuales de enrutamiento de LLMs presentan dos limitaciones clave: evalúan el rendimiento utilizando puntos de referencia que a menudo no capturan las preferencias humanas impulsadas por criterios de evaluación subjetivos, y generalmente seleccionan entre un conjunto limitado de modelos. En este trabajo, proponemos un marco de enrutamiento alineado con preferencias que guía la selección de modelos al emparejar consultas con dominios definidos por el usuario (por ejemplo, viajes) o tipos de acción (por ejemplo, edición de imágenes), ofreciendo un mecanismo práctico para codificar preferencias en las decisiones de enrutamiento. Específicamente, presentamos Arch-Router, un modelo compacto de 1.5B que aprende a mapear consultas a preferencias de dominio-acción para decisiones de enrutamiento de modelos. Nuestro enfoque también permite agregar nuevos modelos para enrutamiento sin necesidad de reentrenamiento o modificaciones arquitectónicas. Experimentos en conjuntos de datos conversacionales demuestran que nuestro enfoque alcanza resultados de vanguardia (SOTA, por sus siglas en inglés) en la correspondencia de consultas con preferencias humanas, superando a los principales modelos propietarios. Nuestro enfoque captura criterios de evaluación subjetivos y hace que las decisiones de enrutamiento sean más transparentes y flexibles. Nuestro modelo está disponible en: https://huggingface.co/katanemo/Arch-Router-1.5B.

Un Sistema Agéntico para el Diagnóstico de Enfermedades Raras con Razonamiento Trazable
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Jun 25, 2025

Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie

Las enfermedades raras afectan colectivamente a más de 300 millones de personas en todo el mundo, sin embargo, el diagnóstico oportuno y preciso sigue siendo un desafío persistente. Esto se debe en gran medida a su heterogeneidad clínica, la baja prevalencia individual y el limitado conocimiento que la mayoría de los clínicos tienen sobre estas condiciones. Aquí presentamos DeepRare, el primer sistema agente de diagnóstico de enfermedades raras impulsado por un modelo de lenguaje de gran escala (LLM, por sus siglas en inglés), capaz de procesar entradas clínicas heterogéneas. El sistema genera hipótesis diagnósticas clasificadas para enfermedades raras, cada una acompañada de una cadena de razonamiento transparente que vincula los pasos analíticos intermedios con evidencia médica verificable. DeepRare consta de tres componentes clave: un host central con un módulo de memoria a largo plazo; servidores de agentes especializados responsables de tareas analíticas específicas de dominio, que integran más de 40 herramientas especializadas y fuentes de conocimiento médico actualizadas a escala web, garantizando acceso a la información clínica más reciente. Este diseño modular y escalable permite un razonamiento diagnóstico complejo mientras mantiene la trazabilidad y adaptabilidad. Evaluamos DeepRare en ocho conjuntos de datos. El sistema demuestra un rendimiento diagnóstico excepcional entre 2,919 enfermedades, logrando un 100% de precisión para 1,013 enfermedades. En evaluaciones basadas en HPO, DeepRare supera significativamente a otros 15 métodos, como herramientas de diagnóstico bioinformático tradicionales, LLMs y otros sistemas agentes, alcanzando un puntaje promedio Recall@1 del 57.18% y superando al segundo mejor método (Reasoning LLM) por un margen sustancial de 23.79 puntos porcentuales. Para escenarios de entrada multimodal, DeepRare alcanza un 70.60% en Recall@1 en comparación con el 53.20% de Exomiser en 109 casos. La verificación manual de las cadenas de razonamiento por expertos clínicos alcanza un 95.40% de concordancia. Además, el sistema DeepRare se ha implementado como una aplicación web fácil de usar en http://raredx.cn/doctor.

FairyGen: Video animado narrativo a partir de un único personaje dibujado por un niño
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Jun 26, 2025

Jiayi Zheng, Xiaodong Cun

Proponemos FairyGen, un sistema automático para generar videos de dibujos animados basados en historias a partir de un único dibujo infantil, preservando fielmente su estilo artístico único. A diferencia de los métodos previos de narración que se centran principalmente en la consistencia de los personajes y el movimiento básico, FairyGen desvincula explícitamente el modelado de personajes de la generación de fondos estilizados e incorpora el diseño de planos cinematográficos para respaldar una narración expresiva y coherente. Dado un boceto de un único personaje, primero empleamos un MLLM para generar un guion gráfico estructurado con descripciones a nivel de plano que especifican configuraciones del entorno, acciones del personaje y perspectivas de cámara. Para garantizar la consistencia visual, introducimos un adaptador de propagación de estilo que captura el estilo visual del personaje y lo aplica al fondo, conservando fielmente la identidad visual completa del personaje mientras sintetiza escenas consistentes en estilo. Un módulo de diseño de planos mejora aún más la diversidad visual y la calidad cinematográfica mediante el recorte de fotogramas y la síntesis de múltiples vistas basada en el guion gráfico. Para animar la historia, reconstruimos un proxy 3D del personaje para derivar secuencias de movimiento físicamente plausibles, que luego se utilizan para ajustar un modelo de difusión de imagen a video basado en MMDiT. Además, proponemos un adaptador de personalización de movimiento en dos etapas: la primera etapa aprende características de apariencia a partir de fotogramas temporalmente desordenados, desvinculando la identidad del movimiento; la segunda etapa modela la dinámica temporal utilizando una estrategia de desplazamiento de pasos de tiempo con pesos de identidad congelados. Una vez entrenado, FairyGen renderiza directamente escenas de video diversas y coherentes alineadas con el guion gráfico. Experimentos extensos demuestran que nuestro sistema produce animaciones que son fieles en estilo, con movimiento natural estructurado narrativamente, destacando su potencial para la animación de historias personalizadas y atractivas. El código estará disponible en https://github.com/GVCLab/FairyGen.

Mundo de Bloques Generativo: Moviendo Objetos en Imágenes
Generative Blocks World: Moving Things Around in Pictures

Jun 25, 2025

Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, D. A. Forsyth, Anand Bhattad

Describimos Generative Blocks World para interactuar con la escena de una imagen generada mediante la manipulación de abstracciones geométricas simples. Nuestro método representa las escenas como ensamblajes de primitivas 3D convexas, y la misma escena puede representarse con diferentes cantidades de primitivas, lo que permite a un editor mover tanto estructuras completas como pequeños detalles. Una vez que se ha editado la geometría de la escena, la imagen se genera mediante un método basado en flujo que está condicionado por la profundidad y una sugerencia de textura. Nuestra sugerencia de textura tiene en cuenta las primitivas 3D modificadas, superando la consistencia de textura proporcionada por las técnicas existentes de almacenamiento en caché clave-valor. Estas sugerencias de textura (a) permiten movimientos precisos de objetos y cámaras y (b) preservan en gran medida la identidad de los objetos representados. Experimentos cuantitativos y cualitativos demuestran que nuestro enfoque supera a trabajos anteriores en fidelidad visual, capacidad de edición y generalización composicional.

DiLoCoX: Un marco de entrenamiento a gran escala con baja comunicación para clústeres descentralizados
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

Jun 26, 2025

Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

El entrenamiento distribuido de modelos base, particularmente los modelos de lenguaje grandes (LLMs), requiere un alto nivel de comunicación. En consecuencia, depende en gran medida de un clúster centralizado con interconexiones rápidas y confiables. ¿Podemos llevar a cabo el entrenamiento en redes lentas y así liberar el poder de los clústeres descentralizados cuando trabajamos con modelos que superan los 100 mil millones de parámetros? En este artículo, proponemos DiLoCoX, un marco de entrenamiento descentralizado a gran escala con baja comunicación. Combina Paralelismo en Tuberías con una Política de Doble Optimizador, Superposición de un Paso de Retraso entre Comunicación y Entrenamiento Local, y un Esquema de Compresión Adaptativa de Gradientes. Esta combinación mejora significativamente la escala de parámetros y la velocidad de pre-entrenamiento del modelo. Justificamos los beneficios de la superposición de un paso de retraso entre comunicación y entrenamiento local, así como el esquema de compresión adaptativa de gradientes, mediante un análisis teórico de convergencia. Empíricamente, demostramos que DiLoCoX es capaz de pre-entrenar un modelo base de 107B en una red de 1Gbps. En comparación con AllReduce convencional, DiLoCoX puede lograr una aceleración de 357x en el entrenamiento distribuido mientras mantiene una degradación insignificante en la convergencia del modelo. Hasta donde sabemos, este es el primer marco de entrenamiento descentralizado aplicado con éxito a modelos con más de 100 mil millones de parámetros.

DuaShepherd: Integración de la Corrección Paso a Paso y las Recompensas Potenciales para el Razonamiento Matemático
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

Jun 21, 2025

Yuanhao Wu, Juntong Song, Hanning Zhang, Tong Zhang, Cheng Niu

En este artículo, proponemos DuaShepherd, un marco novedoso de modelado de recompensas que integra dos señales de recompensa complementarias, corrección y potencial, para mejorar las capacidades de razonamiento matemático de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Mientras que las señales basadas en corrección enfatizan la identificación de errores paso a paso, las señales basadas en potencial se centran en la probabilidad de alcanzar la respuesta final correcta. Desarrollamos una canalización automatizada para construir un conjunto de datos a gran escala para el modelado de recompensas que incluye ambas señales. Se exploró una arquitectura unificada de múltiples cabezales para entrenar los dos modelos de recompensas en una configuración de múltiples tareas, demostrando beneficios al aprender tanto la corrección como el potencial en paralelo. Al combinar estas dos señales en una probabilidad compuesta, nuestro modelo logra mejoras consistentes en el rendimiento en múltiples puntos de referencia. Las evaluaciones empíricas en MATH500 y ProcessBench confirman que esta recompensa combinada supera significativamente a los modelos entrenados con un solo tipo de recompensa, alcanzando un rendimiento de vanguardia bajo restricciones de recursos comparables.

MuseControlLite: Generación musical multifuncional con condicionadores ligeros
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

Jun 23, 2025

Fang-Duo Tsai, Shih-Lun Wu, Weijaw Lee, Sheng-Ping Yang, Bo-Rui Chen, Hao-Chung Cheng, Yi-Hsuan Yang

Proponemos MuseControlLite, un mecanismo ligero diseñado para ajustar finamente modelos de generación de texto a música mediante el condicionamiento preciso utilizando diversos atributos musicales variables en el tiempo y señales de audio de referencia. El hallazgo clave es que los embeddings posicionales, que rara vez han sido utilizados por los modelos de generación de texto a música en el condicionador para condiciones de texto, son críticos cuando la condición de interés es una función del tiempo. Usando el control de melodía como ejemplo, nuestros experimentos muestran que simplemente añadir embeddings posicionales rotatorios a las capas de atención cruzada desacopladas aumenta la precisión del control del 56.6% al 61.1%, mientras requiere 6.75 veces menos parámetros entrenables que los mecanismos de ajuste fino más avanzados, utilizando el mismo modelo preentrenado de Transformer de difusión de Stable Audio Open. Evaluamos diversas formas de control de atributos musicales, inpainting de audio y outpainting de audio, demostrando una mejor capacidad de control en comparación con MusicGen-Large y Stable Audio Open ControlNet a un costo de ajuste fino significativamente menor, con solo 85M parámetros entrenables. El código fuente, los puntos de control del modelo y ejemplos de demostración están disponibles en: https://musecontrollite.github.io/web/.

HeurAgenix: Aprovechamiento de los LLM para Resolver Desafíos Complejos de Optimización Combinatoria
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Jun 18, 2025

Xianliang Yang, Ling Zhang, Haolong Qian, Lei Song, Jiang Bian

Los algoritmos heurísticos desempeñan un papel fundamental en la resolución de problemas de optimización combinatoria (CO), aunque los diseños tradicionales dependen en gran medida de la experiencia manual y tienen dificultades para generalizar en instancias diversas. Presentamos HeurAgenix, un marco de hiperheurística de dos etapas impulsado por modelos de lenguaje grandes (LLMs) que primero evoluciona heurísticas y luego las selecciona automáticamente. En la fase de evolución heurística, HeurAgenix aprovecha un LLM para comparar soluciones heurísticas iniciales con soluciones de mayor calidad y extraer estrategias de evolución reutilizables. Durante la resolución de problemas, selecciona dinámicamente la heurística más prometedora para cada estado del problema, guiado por la capacidad de percepción del LLM. Para mayor flexibilidad, este selector puede ser un LLM de última generación o un modelo ligero ajustado con menor costo de inferencia. Para mitigar la escasez de supervisión confiable causada por la complejidad del CO, ajustamos el selector heurístico ligero con un mecanismo de doble recompensa que aprovecha conjuntamente señales de preferencias de selección y percepción del estado, permitiendo una selección robusta bajo anotaciones ruidosas. Experimentos extensos en benchmarks canónicos muestran que HeurAgenix no solo supera a las hiperheurísticas basadas en LLM existentes, sino que también iguala o supera a solucionadores especializados. El código está disponible en https://github.com/microsoft/HeurAgenix.

¿Dónde encontrar la comprensión en el preentrenamiento de modelos de lenguaje? Monitorear la transición de memorización a generalización sin pruebas
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Jun 26, 2025

Ziyue Li, Chenrui Fan, Tianyi Zhou

262

Papers Diarios

Mind2Web 2: Evaluación de Búsqueda Agéntica con Agente-como-Juez
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Agente de Trayectoria Rápida-Lenta con Minería de Subrutinas para la Edición Eficiente de Imágenes en Múltiples Pasos
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

MADrive: Modelado de Escenas de Conducción Aumentado con Memoria
MADrive: Memory-Augmented Driving Scene Modeling

WorldVLA: Hacia un Modelo de Mundo de Acciones Autoregresivo
WorldVLA: Towards Autoregressive Action World Model

¿Dónde encontrar la comprensión en el preentrenamiento de modelos de lenguaje? Monitorear la transición de memorización a generalización sin pruebas
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Aprendiendo a omitir las capas intermedias de los Transformers
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmentación de Cualquier Objeto en Flujos de Cámara y LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

PhysRig: Marco de trabajo diferenciable basado en física para skinning y rigging en el modelado realista de objetos articulados
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Predicción de Video Egocéntrico con Condicionamiento de Cuerpo Completo
Whole-Body Conditioned Egocentric Video Prediction

Arch-Router: Alineación del Enrutamiento de Modelos de Lenguaje con las Preferencias Humanas
Arch-Router: Aligning LLM Routing with Human Preferences

Un Sistema Agéntico para el Diagnóstico de Enfermedades Raras con Razonamiento Trazable
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

FairyGen: Video animado narrativo a partir de un único personaje dibujado por un niño
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Mundo de Bloques Generativo: Moviendo Objetos en Imágenes
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Un marco de entrenamiento a gran escala con baja comunicación para clústeres descentralizados
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

DuaShepherd: Integración de la Corrección Paso a Paso y las Recompensas Potenciales para el Razonamiento Matemático
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

MuseControlLite: Generación musical multifuncional con condicionadores ligeros
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

HeurAgenix: Aprovechamiento de los LLM para Resolver Desafíos Complejos de Optimización Combinatoria
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges

Support

Support

Papers Diarios

Mind2Web 2: Evaluación de Búsqueda Agéntica con Agente-como-Juez
Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

FaSTA^: Agente de Trayectoria Rápida-Lenta con Minería de Subrutinas para la Edición Eficiente de Imágenes en Múltiples Pasos
FaSTA^: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

MADrive: Modelado de Escenas de Conducción Aumentado con Memoria
MADrive: Memory-Augmented Driving Scene Modeling

WorldVLA: Hacia un Modelo de Mundo de Acciones Autoregresivo
WorldVLA: Towards Autoregressive Action World Model

¿Dónde encontrar la comprensión en el preentrenamiento de modelos de lenguaje? Monitorear la transición de memorización a generalización sin pruebas
Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test

Aprendiendo a omitir las capas intermedias de los Transformers
Learning to Skip the Middle Layers of Transformers

SAM4D: Segmentación de Cualquier Objeto en Flujos de Cámara y LiDAR
SAM4D: Segment Anything in Camera and LiDAR Streams

PhysRig: Marco de trabajo diferenciable basado en física para skinning y rigging en el modelado realista de objetos articulados
PhysRig: Differentiable Physics-Based Skinning and Rigging Framework for Realistic Articulated Object Modeling

Predicción de Video Egocéntrico con Condicionamiento de Cuerpo Completo
Whole-Body Conditioned Egocentric Video Prediction

Arch-Router: Alineación del Enrutamiento de Modelos de Lenguaje con las Preferencias Humanas
Arch-Router: Aligning LLM Routing with Human Preferences

Un Sistema Agéntico para el Diagnóstico de Enfermedades Raras con Razonamiento Trazable
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

FairyGen: Video animado narrativo a partir de un único personaje dibujado por un niño
FairyGen: Storied Cartoon Video from a Single Child-Drawn Character

Mundo de Bloques Generativo: Moviendo Objetos en Imágenes
Generative Blocks World: Moving Things Around in Pictures

DiLoCoX: Un marco de entrenamiento a gran escala con baja comunicación para clústeres descentralizados
DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

DuaShepherd: Integración de la Corrección Paso a Paso y las Recompensas Potenciales para el Razonamiento Matemático
DuaShepherd: Integrating Stepwise Correctness and Potential Rewards for Mathematical Reasoning

MuseControlLite: Generación musical multifuncional con condicionadores ligeros
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners

HeurAgenix: Aprovechamiento de los LLM para Resolver Desafíos Complejos de Optimización Combinatoria
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges