Artículos de investigación en IA seleccionados diariamente con traducciones
El enrutador es el componente fundamental de los modelos de Mezcla de Expertos. Al actuar como representantes de los expertos, las filas de la matriz del enrutador calculan su similitud con las entradas de la Mezcla de Expertos para determinar qué subconjunto de expertos se activa. Idealmente, cada fila del enrutador está diseñada para codificar la matriz del experto en este vector representativo, de modo que su producto escalar con el token pueda reflejar mejor la afinidad token-experto. Sin embargo, no existen principios de diseño que impongan esta condensación. En este artículo, proponemos alinear cada fila del enrutador con la dirección singular principal del experto asociado, ya que esta dirección proporciona la descripción matemática más expresiva de una matriz. Basándonos en este principio, proponemos un rediseño del enrutador mediante la Iteración de Potencia en Variedades (MPI, por sus siglas en inglés). Específicamente, introduce un paradigma de "Potencia y luego Retracción", donde se realiza un paso de iteración de potencia en los pesos del enrutador, seguido de una retracción para imponer una restricción de norma que garantice tanto la eficiencia como la estabilidad. Teóricamente, demostramos que MPI hace que las filas del enrutador converjan hacia las direcciones singulares principales de los expertos asociados. Empíricamente, preentrenamos modelos de Mezcla de Expertos en escalas desde 1B hasta 11B parámetros para confirmar que esta alineación facilita modelos de Mezcla de Expertos más efectivos.
El progreso científico depende de un ciclo repetido de exploración, experimentación y abstracción. Los investigadores prueban direcciones candidatas, interpretan la evidencia e incorporan las lecciones resultantes en intentos posteriores. Estudiamos cómo un agente de IA puede ejecutar este ciclo de forma autónoma durante horizontes temporales prolongados. Presentamos Arbor, un marco general para la investigación autónoma que combina un coordinador de larga duración, ejecutores de corta duración y el Refinamiento del Árbol de Hipótesis (RAH), un árbol persistente que vincula hipótesis, artefactos, evidencia e ideas destiladas a lo largo del tiempo. El coordinador gestiona la estrategia global de investigación sobre el árbol, mientras que los ejecutores implementan y prueban hipótesis individuales en árboles de trabajo aislados. A medida que los resultados regresan, Arbor actualiza el árbol, propaga lecciones reutilizables, refina la frontera de búsqueda y admite mejoras verificadas. Este diseño transforma la investigación autónoma de una secuencia de intentos locales en un proceso acumulativo donde la estrategia, la ejecución y la evidencia se transmiten a través del tiempo. Evaluamos Arbor bajo Optimización Autónoma (OA), un entorno operativo en el que un agente mejora un artefacto de investigación inicial mediante experimentación iterativa sin supervisión humana a nivel de paso. En seis tareas reales de investigación en entrenamiento de modelos, ingeniería de arneses y síntesis de datos, Arbor logra el mejor resultado fuera de la muestra en las seis tareas, alcanzando más de 2,5 veces la ganancia relativa promedio fuera de la muestra de Codex y Claude Code bajo la misma interfaz de tarea y presupuesto de recursos. En MLE-Bench Lite, Arbor alcanza un 86,36% de Medalla General con GPT-5.5, el resultado más fuerte en nuestra comparación.
Los entornos sirven como sistemas interactivos para agentes basados en modelos de lenguaje grande (LLM) en diversos escenarios y desempeñan un papel crucial en impulsar la evolución continua de las capacidades del modelo. A pesar de esta importancia, los trabajos existentes carecen de una categorización sistemática y un análisis profundo. Este artículo estudia sistemáticamente las investigaciones actuales sobre entornos agentivos desde la perspectiva del ciclo de vida de la ingeniería de entornos, abarcando su modelado, síntesis, evaluación y aplicación. Específicamente, el artículo presenta primero entornos representativos desde las perspectivas de ocho atributos y ocho dominios, proporcionando análisis detallados de sus trayectorias de desarrollo y destacando sus capacidades centrales. En segundo lugar, para la síntesis automatizada de entornos, se introducen dos paradigmas, como la síntesis simbólica y la síntesis neuronal. Este artículo también muestra diferentes métodos de evaluación de entornos en cada paradigma. En tercer lugar, se discuten las aplicaciones correspondientes de entornos desde la perspectiva de la co-evolución agente-entorno. En concreto, el artículo caracteriza las principales vías para la evolución de agentes en entornos dinámicos desde cuatro perspectivas complementarias: evolución de la experiencia centrada en la memoria, evolución del flujo de trabajo centrada en la orquestación, evolución fuera de línea centrada en la trayectoria y evolución en línea centrada en la exploración. Y se identifican tres paradigmas de evolución del entorno: enfoques impulsados por redes neuronales, impulsados por dificultad e impulsados por escalamiento. Por último, se discuten varias direcciones futuras prometedoras, que incluyen Entorno como Servicio, Entornos Multiagente y Entornos Neuro-Simbólicos.
Agentes de propósito general como OpenClaw se utilizan cada vez más como usuarios autónomos de herramientas, pero su capacidad de codificación es difícil de medir bajo SWE-bench: un agente genérico por sí solo no cumple con el contrato de espacio de trabajo Docker limpio, parche y predicción requerido para la puntuación. Presentamos Claw-SWE-Bench, un punto de referencia multilingüe al estilo de SWE-bench y un protocolo adaptador que hace comparables arneses de agentes heterogéneos, o claws, bajo condiciones justas que incluyen un prompt fijo, presupuesto de tiempo de ejecución, contrato de espacio de trabajo, procedimiento de extracción de parches y evaluador. El punto de referencia completo contiene 350 instancias de resolución de issues de GitHub en 8 idiomas y 43 repositorios, extraídas de SWE-bench-Multilingual y SWE-bench-Verified-Mini tras la limpieza de commits futuros. También publicamos Claw-SWE-Bench Lite para una validación más rápida, un subconjunto de 80 instancias seleccionado mediante un procedimiento consciente de costos y rango sobre 17 columnas de calibración. En el punto de referencia completo, OpenClaw con un adaptador de diff directo mínimo obtiene solo un 19.1% de Pass@1, mientras que el adaptador completo alcanza el 73.4% con el mismo backbone GLM 5.1, lo que demuestra que el diseño del adaptador es esencial para que los arneses al estilo OpenClaw realicen tareas de codificación de manera efectiva. En un barrido de OpenClaw por nueve modelos y un barrido de cinco claws por dos modelos, la elección del modelo cambia Pass@1 en 29.4 pp y la elección del arnés en 27.4 pp bajo modelos fijos; sistemas con precisión similar pueden diferir sustancialmente en el costo total de API. Por lo tanto, Claw-SWE-Bench trata el arnés y la contabilidad de costos como ejes de primera clase en la evaluación de agentes de codificación al estilo SWE, proporcionando tanto un punto de referencia completo como un conjunto de referencia de bajo costo para una comparación reproducible. Los datos están disponibles en https://github.com/opensquilla/claw-swe-bench y https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.
Los modelos de recompensa son fundamentales para el post-entrenamiento de texto a imagen, pero la preferencia visual es subjetiva y se representa mejor como una distribución sobre puntuaciones en rúbrica que como un escalar determinista. Los modelos de recompensa existentes —escalares, de tokens de puntuación y por pares— comprimen en exceso la incertidumbre y las diferencias de puntuación finas, mientras que las recompensas generativas basadas en razonamiento proporcionan juicios más robustos, pero resultan costosas de implementar y difíciles de utilizar como señales de optimización directas. Proponemos Z-Reward, un marco de modelado de recompensas profesor-alumno que separa el juicio intensivo en razonamiento del despliegue eficiente de la recompensa. El profesor es un VLM grande que utiliza razonamiento para inferir distribuciones de puntuación alineadas con la rúbrica, y se entrena con Optimización Directa de Puntuación por Grupos (GDSO), la cual combina recompensas de gradiente de política provenientes de expectativas de distribución con supervisión puntual y por pares directa sobre distribuciones de puntuación y brechas de puntuación. El alumno se entrena con Destilación de Puntuación Internalizada en Razonamiento (RISD), que transfiere la distribución de puntuación condicionada por razonamiento del profesor a un VLM compacto sin requerir cadenas de razonamiento explícitas en el momento de la inferencia. En nuestro conjunto de evaluación anotado internamente, el profesor GDSO de 27B alcanza un 89,6% de precisión en preferencia humana, superando a SFT, RewardDance y GRPO, mientras que el alumno RISD de 9B alcanza un 88,6%, superando la línea base OPD y aproximándose estrechamente al profesor de mayor tamaño. Además, demostramos que Z-Reward puede servir como señal de recompensa diferenciable para la optimización de texto a imagen, logrando una mejora neta del 41,3% en preferencia humana respecto a la línea base SFT.
Los codificadores tabulares suelen evaluarse dentro de tuberías (pipelines) extremo a extremo específicas de cada tarea, por lo que los modelos de diferentes paradigmas de entrenamiento son difíciles de comparar directamente incluso cuando operan sobre señales tabulares similares. Presentamos TRL-Bench, un punto de referencia (benchmark) multigranular de aprendizaje de representaciones tabulares (TRL) que estandariza la evaluación a nivel de representación entre paradigmas: cada codificador exporta embeddings de filas, columnas o tablas a través de su envoltorio (wrapper) compatible, y cabezales ligeros compartidos los exploran en tres conjuntos de pruebas: TRL-CTbench (columna/tabla), TRL-Rbench (fila) y TRL-DLTE (enriquecimiento composicional de lagos de datos tabulares que abarca las tres granularidades). Para respaldar este entorno estandarizado, publicamos activos de referencia curados y reformulaciones de tareas, incluyendo 50 tablas de OpenML con 123 objetivos verificados, 16 reformulaciones de enlaces entre pares de filas y un lago DLTE de 47,772 tablas derivado de 1,379 tablas padre. A través de 20 modelos y 16 tareas, TRL-Bench muestra que, una vez que las condiciones posteriores (downstream) están estandarizadas, la calidad del codificador es específica de la capacidad y no se captura con una única tabla de clasificación (leaderboard). En TRL-CTbench, los codificadores de texto genéricos suelen liderar en tareas con una fuerte señal de texto superficial, mientras que los especialistas tabulares ganan donde su objetivo de preentrenamiento se alinea con la tarea. En TRL-Rbench, la predicción dentro de la tabla y los enlaces entre tablas favorecen diferentes regímenes de entrenamiento, con un rendimiento de enlace atómico que se correlaciona fuertemente con la etapa de emparejamiento de filas de las tuberías DLTE. En TRL-DLTE, las tuberías más fuertes combinan especialistas con capacidades coincidentes en lugar de reutilizar un único codificador, y la calidad óptima extremo a extremo depende del ajuste compositivo no aditivo más que solo del rango marginal por etapa. TRL-Bench proporciona un protocolo común para medir la señal reutilizable en representaciones tabulares exportadas bajo condiciones posteriores compartidas. Código y datos: https://github.com/LOGO-CUHKSZ/TRL-Bench
El razonamiento espacial a partir de videos egocéntricos es inherentemente desafiante porque la evidencia observable está limitada por la trayectoria de la cámara. Los métodos existentes se basan en inferencias de un solo paso, lo que obliga a los modelos a resolver la ambigüedad geométrica mediante prioridades semánticas en lugar de evidencia verificable. Sostenemos que el razonamiento espacial debería ser revisable: las conclusiones formadas con evidencia limitada deberían permanecer abiertas a revisión cuando se disponga de puntos de vista complementarios. Basándonos en esta idea, proponemos Reason, then Re-reason (ReRe), un marco de inferencia sin entrenamiento y en tiempo de ejecución con dos fases: en la Fase de Razonamiento, un MLLM formula una hipótesis espacial a partir del video original; en la Fase de Repensamiento, verifica o revisa la hipótesis observando un video sintetizado de vista novedosa. Para habilitar una revisión efectiva entre vistas, diseñamos un pipeline de Geometría a Video que renderiza vistas novedosas estratégicamente complementarias a partir de la geometría 3D predicha. Estas vistas presentan una perspectiva elevada y oblicua con cobertura que abarca la escena, preservando al mismo tiempo la interfaz nativa de video del MLLM sin modificaciones arquitectónicas. Evaluaciones exhaustivas en VSI-Bench y STI-Bench demuestran que ReRe impulsa sustancialmente a los MLLM de código abierto para rivalizar con el rendimiento de última generación de los propietarios. Página del proyecto: https://zhenjiemao.github.io/ReRe/
A medida que las capacidades de los agentes de código basados en LLM continúan avanzando, su rol esperado se expande más allá de la corrección localizada de errores en bases de código existentes hacia el diseño e implementación de repositorios de software completos a partir de especificaciones de alto nivel. Sin embargo, entrenar agentes para tareas de ingeniería de software de horizonte prolongado sigue siendo difícil debido a la escasez de datos de generación de repositorios completos, a gran escala y verificables. En este artículo, presentamos DeNovoSWE, un conjunto de datos a gran escala para la generación de repositorios completos. DeNovoSWE comprende 4.818 instancias de alta calidad, donde cada instancia requiere generar un repositorio completo a partir de documentación. Nuestro conjunto de datos se construye automáticamente mediante un flujo de trabajo agente en entorno aislado cuidadosamente diseñado, lo que permite una curación escalable sin anotación humana. DeNovoSWE se construye con la filosofía de "divide y vencerás" y de crítica y reparación. Para equilibrar la calidad y diversidad de los datos, introducimos además una estrategia de filtrado de trayectorias consciente de la dificultad. El ajuste fino de Qwen3-30B-A3B en DeNovoSWE mejora sustancialmente el rendimiento en ingeniería de software de horizonte prolongado, elevando su puntuación en el desafiante punto de referencia BeyondSWE-Doc2Repo del 5,8% al 47,2%.
Los modelos Visión-Lenguaje-Acción (VLA) heredan un anclaje semántico de preentrenamientos a gran escala y se desempeñan competentemente en tareas de manipulación dentro de la distribución. Sin embargo, este anclaje se basa en pares estáticos de imagen y texto, mientras que la manipulación es un proceso continuo y rico en contacto cuya dinámica dicho preentrenamiento no puede capturar. Presentamos World Pilot, un marco VLA que aumenta la política con prioridades provenientes de un Modelo Mundo-Acción (WAM), enrutadas en la cadena de decisión a través de dos vías complementarias. El Condicionamiento Latente condiciona la capa de percepción a un latente de evolución de la escena, y el Condicionamiento de Acción proporciona una trayectoria anticipada como prioridad de movimiento al generador de acciones. Juntas, las dos prioridades dotan al VLA de una vista anticipada de la escena y una indicación de movimiento a nivel de trayectoria junto con su condicionamiento semántico, y la prioridad de evolución de la escena sigue siendo efectiva incluso cuando es proporcionada por un modelo de mundo preentrenado en video que no ha sido post-entrenado en acción. World Pilot alcanza una tasa de éxito total del 84.7% en el benchmark LIBERO-Plus de generalización zero-shot fuera de distribución, y la tasa de éxito más alta en cada entorno robótico real en cuatro tareas de manipulación, con los mayores márgenes bajo cambios de punto de vista, geometría, estado deformable y pose. Sitio web del proyecto: https://world-pilot.github.io/
Los transformadores dominan el modelado moderno de secuencias, pero su atención cuadrática conlleva un coste computacional sustancial. Las arquitecturas subcuadráticas ofrecen una alternativa escalable. Sin embargo, aún no está claro qué diseños producen los modelos de secuencias más efectivos. Comparamos tres enfoques principales: xLSTM, Mamba-2 y Gated DeltaNet. Evaluamos estos modelos en tareas con dependencias complejas: (1) preentrenamiento de modelos de código, (2) destilación de modelos de código a partir de modelos de lenguaje grandes, y (3) preentrenamiento de modelos fundacionales de series temporales. En estos escenarios, xLSTM ofrece el rendimiento general más sólido. Para explicar la ventaja de xLSTM, presentamos una formulación unificada y analizamos los mecanismos arquitectónicos subyacentes, centrándonos en el seguimiento de estado y las dinámicas de memoria. Nuestros resultados muestran que xLSTM permite una corrección de memoria más flexible y estable mediante su esquema de compuertas. Corroboramos estos hallazgos en tareas sintéticas controladas de generalización de longitud. En general, nuestros resultados indican que las ganancias de xLSTM en tareas complejas provienen de un robusto seguimiento y acumulación de estado.
La combinatoria es fundamental para la resolución de problemas matemáticos de nivel olímpico, ya que requiere un razonamiento discreto profundo, construcciones creativas y una visión estructural rigurosa. Evidencias recientes sugieren que incluso los modelos de frontera más potentes actuales presentan un rendimiento desigual en combinatoria olímpica, revelando una brecha en el razonamiento matemático creativo. Presentamos ComBench, un punto de referencia de combinatoria de nivel olímpico para evaluar y diagnosticar las capacidades de razonamiento combinatorio de los modelos de lenguaje de gran escala. ComBench contiene 100 problemas de competencia anotados por humanos, organizados en dos entornos complementarios: problemas centrados en el análisis, que requieren principalmente argumentos matemáticos rigurosos, y problemas centrados en la construcción, que exigen construcciones explícitas además de justificaciones de corrección. El protocolo de evaluación combina la evaluación de pruebas guiada por rúbrica con la verificación determinista de construcciones, exponiendo casos en los que la calidad de la prueba y la validez de la construcción divergen. Los experimentos con modelos de frontera de código abierto y cerrado muestran que ComBench está lejos de saturarse: el modelo más fuerte alcanza un 65.4% en el promedio general y un 75.3% en el mejor resultado general en @4. Además, encontramos que el Razonamiento Riguroso de Pruebas y la Realización Constructiva son capacidades distintas: Kimi-K2.6 va por detrás de GPT-5.5 en la evaluación de pruebas centradas en el análisis, pero lo supera en el mejor resultado general en @4 centrado en la construcción, mientras que los problemas de Existencia y Construcción siguen siendo consistentemente los más difíciles en los modelos de frontera representativos.
El progreso reciente en los modelos fundamentales se ha desplazado hacia un comportamiento agéntico que implica razonamiento en múltiples pasos y uso de herramientas. Sin embargo, los esfuerzos de código abierto se centran principalmente en entornos dominados por texto, dejando poco exploradas las tareas multimodales de horizonte largo. Esta brecha es evidente en tareas de video que requieren comprensión temporal sostenida e interacción iterativa. Presentamos InternVideo3, un marco que mejora estas capacidades mediante el Razonamiento Contextual Multimodal (MCR). MCR trata la comprensión como un proceso de bucle cerrado sobre un contexto compartido y en evolución que contiene observaciones, instrucciones, razonamiento, acciones de herramientas y memoria. Esto enmarca la comprensión de videos largos como acumulación y verificación de evidencia. Para garantizar la eficiencia, introducimos la Atención Latente Multimodal de Múltiples Cabezas (M^2LA), una reparametrización que preserva tokens y comprime los estados de la caché KV mientras retiene el flujo completo de tokens. Nuestro entrenamiento por etapas incluye preentrenamiento continuado, ajuste fino supervisado de corto a largo, aprendizaje por refuerzo basado en reglas y destilación en política. Los experimentos muestran que InternVideo3 logra un rendimiento sólido en puntos de referencia como Video-MME, MLVU y EgoSchema. Además, instanciamos el modelo como un agente de video con herramientas de recuperación, demostrando un comportamiento sólido basado en evidencia. Nuestros resultados sugieren que el manejo eficiente del contexto y el razonamiento en bucle cerrado son vitales para adaptar los modelos multimodales abiertos hacia una agencia visualmente fundamentada de horizonte largo.
Los Modelos de Lenguaje de Gran Escala (LLMs) se utilizan cada vez más para la generación de código, lo que suscita preocupaciones por su posible uso indebido para producir código malicioso. Al mismo tiempo, la Decodificación Restringida por Gramática (GCD) se ha adoptado ampliamente para mejorar la fiabilidad del código generado por LLMs al imponer validez sintáctica. En este artículo, revelamos un riesgo contraintuitivo: esta técnica orientada a la fiabilidad puede convertirse en una superficie de ataque. Descubrimos un nuevo ataque de jailbreak, denominado CodeSpear, que explota la GCD para inducir a los LLMs a generar código malicioso. Nuestros experimentos muestran que simplemente aplicar una restricción gramatical de código benigna puede efectivamente vulnerar los LLMs. Para abordar esta vulnerabilidad, proponemos CodeShield, un enfoque de alineación de seguridad que preserva robustamente el comportamiento seguro incluso bajo restricciones gramaticales controladas por el atacante. CodeShield alinea el modelo en la modalidad de código enseñándole a generar código honeypot bajo GCD. Dicho código es semánticamente inofensivo, por lo que no implementa la solicitud maliciosa, y estructuralmente diverso, lo que dificulta su supresión mediante el endurecimiento de la gramática. Al mismo tiempo, CodeShield preserva las negativas en lenguaje natural cuando dicho lenguaje está disponible. Los experimentos realizados en 10 LLMs populares y 4 puntos de referencia muestran que CodeSpear supera a las líneas base representativas de jailbreak y aumenta la tasa de éxito de ataque en más de 30 puntos porcentuales en promedio. CodeShield también restaura la seguridad bajo CodeSpear mientras preserva la utilidad benigna. Nuestros hallazgos revelan un riesgo fundamental de la GCD y exigen prestar mayor atención a sus posibles implicaciones de seguridad.
El aprendizaje por refuerzo (RL) se ha convertido en un componente clave de los modelos de lenguaje grandes modernos, pero la etapa de rollout sigue siendo el principal cuello de botella en los pipelines de entrenamiento con RL. Aunque la Predicción de Múltiples Tokens (MTP) ofrece una solución natural para acelerar los rollouts mediante decodificación especulativa, muchos estudios han observado que las tasas de aceptación de MTP se degradan significativamente durante el entrenamiento con RL, lo que conduce a una aceleración limitada. Para abordar este cuello de botella, presentamos Bebop, un estudio sistemático de MTP en el post-entrenamiento de LLM, y ofrecemos recetas prácticas para integrar MTP en pipelines de RL a gran escala. Primero, revelamos que la tasa de aceptación de MTP está fundamentalmente acotada por la fluctuación de la entropía del modelo, la cual muestra una clara relación lineal negativa con el incremento de la entropía en la etapa de RL. Segundo, mostramos que el muestreo por rechazo probabilístico alivia en gran medida la perturbación introducida por la entropía en RL en comparación con el muestreo codicioso de borradores. Además, identificamos que los objetivos de entrenamiento convencionales de MTP (entropía cruzada o KL) son subóptimos en estos entornos, por lo que proponemos una novedosa pérdida de variación total (TV) extremo a extremo que optimiza directamente la tasa de aceptación del muestreo por rechazo multi-paso, logrando mejoras de aproximadamente un 10% en la tasa de aceptación, alcanzando tasas de aceptación de hasta el 95% y ganancias adicionales de hasta un 25% en el rendimiento de inferencia en tareas de razonamiento matemático, generación de código y tareas agentivas. Tercero, evaluamos varias estrategias de entrenamiento online de MTP durante el RL y mostramos que el entrenamiento de MTP previo al RL con la pérdida TV extremo a extremo y muestreo por rechazo logra una tasa de aceptación y una aceleración consistentes durante todo el proceso de RL, eliminando la necesidad de costosas actualizaciones online de MTP. Proporcionamos extensos experimentos y análisis que validan nuestros hallazgos. Los resultados experimentales muestran que nuestro método logra una aceleración extremo a extremo de hasta 1.8x en el entrenamiento asíncrono con RL de los modelos Qwen3.5, Qwen3.6 y Qwen3.7.
El aprendizaje por refuerzo con recompensas verificables (RLVR) es un enfoque prometedor para mejorar el razonamiento y el comportamiento agéntico en modelos de lenguaje grandes. Sin embargo, la optimización de políticas intensiva en despliegues a menudo se ve limitada por un contraste de recompensa insuficiente, que surge cuando instrucciones excesivamente simples o complejas generan retroalimentación de baja varianza, y cuando las recompensas basadas únicamente en el resultado asignan la misma evaluación terminal a cada decisión en un despliegue de múltiples turnos. Trabajos anteriores se han centrado en asignar los recursos de despliegue disponibles a instrucciones prometedoras, pero solo aprovechan la informatividad de la muestra a nivel de instrucción y descuidan la variación en la informatividad a nivel de prefijo entre los distintos turnos dentro de un mismo despliegue. Este trabajo aborda el RL agéntico de múltiples turnos modelando cada turno de pensamiento-acción-observación al estilo ReAct como un nodo semánticamente distinto, lo que permite que la asignación de presupuesto se extienda desde las raíces de las instrucciones hasta los prefijos a nivel de turno con continuaciones adicionales, formando naturalmente despliegues en estructura de árbol. Introducimos la Asignación de Despliegues en Árbol para Exploración Contrastiva (TRACE, por sus siglas en inglés), un marco unificado de asignación de despliegues que mejora el contraste de recompensa dentro de un presupuesto de muestreo fijo. Técnicamente, TRACE asigna el presupuesto de despliegue tanto a raíces de instrucciones como a prefijos intermedios que tienen mayor probabilidad de generar recompensas terminales mixtas. Un predictor generalizable compartido estima la probabilidad condicional de éxito en estos anclajes a partir de los historiales de prefijos para guiar esta asignación. La estructura arbórea adaptativa resultante enriquece la retroalimentación basada únicamente en el resultado y amplifica la señal de actualización de la política. Empíricamente, TRACE logra un rendimiento competitivo y ganancias en eficiencia en benchmarks agénticos típicos; por ejemplo, mejora la precisión promedio de Qwen3-14B en Preguntas y Respuestas de Múltiples Saltos en 2.8 puntos en comparación con líneas base competitivas, con igual costo de muestreo.
Los modelos de visión y lenguaje (VLMs) proyectan imágenes en cientos o miles de tokens visuales, lo que encarece la inferencia del decodificador tanto en el cómputo de atención como en la memoria de caché KV. Los métodos existentes de reducción de tokens visuales siguen, en gran medida, un paradigma de clasificación y eliminación: puntúan los tokens visuales, conservan un subconjunto compacto y descartan permanentemente el resto. Mostramos que esta acción irreversible es frágil porque la importancia de los tokens visuales cambia a través de la profundidad del decodificador; tokens con baja puntuación en una etapa pueden volverse relevantes en capas posteriores, especialmente para consultas sensibles al anclaje. Proponemos Reroute, un complemento sin entrenamiento que reemplaza la eliminación por un enrutamiento recuperable. En cada etapa de enrutamiento, los tokens visuales seleccionados atraviesan los bloques del decodificador, mientras que los tokens diferidos omiten la etapa y reingresan al grupo de candidatos en la siguiente decisión de enrutamiento. Reroute reutiliza las reglas de puntuación de atención existentes y los cronogramas por etapa, preservando la clase teórica de TFLOPs y presupuesto de caché KV del método de poda que mejora. En variantes de FastV, PDrop y Nüwa sobre los backbones LLaVA-1.5 y Qwen, reroute mejora el anclaje bajo una reducción agresiva de tokens, manteniendo al mismo tiempo el rendimiento general en VQA. Estos resultados sugieren que la reducción de tokens visuales en VLMs no debe considerarse únicamente como una poda irreversible, sino también como un enrutamiento recuperable. El código puede encontrarse aquí: https://github.com/elmma/mllm-reroute/
Encontrar direcciones interpretables en las representaciones de modelos de lenguaje es fundamental para comprender y controlar el comportamiento del modelo. Los autoencoders dispersos (SAEs) se han convertido en la herramienta estándar para este propósito, pero usarlos como la primera lente predeterminada a menudo requiere entrenar, almacenar y evaluar grandes diccionarios sobrecompletos. Este cuello de botella limita la exploración rápida y plantea una pregunta fundamental: ¿cuánta estructura interpretable ya es visible a partir de la geometría de las activaciones antes de entrenar otro diccionario neuronal? Nuestra intuición es simple: muchas direcciones interpretables son selectivas respecto a los tokens, y estas direcciones deberían parecer menos gaussianas que las direcciones aleatorias. Por lo tanto, retomamos el análisis de componentes independientes (ICA), un método clásico para encontrar direcciones no gaussianas, como una lente compacta para la interpretabilidad de modelos de lenguaje. Descubrimos que el ICA ha sido subestimado para la interpretabilidad de LLM, porque los usos previos a menudo dependían de implementaciones de ICA listas para usar que son frágiles en las activaciones de LLM y carecían de herramientas sistemáticas para inspeccionar y evaluar las direcciones recuperadas. Para salvar estas brechas, presentamos ICALens, el primer flujo de trabajo práctico para un análisis ICA estable, eficiente y auditable de representaciones de LLM. Combina un pipeline FastICA paralelo optimizado en GPU con recetas de estabilidad específicas para LLM y mejores diagnósticos de ajuste, lo que permite un análisis eficiente y fiable por capas. En GPT-2 Small, Gemma 2 2B y Qwen 3.5 2B Base, ICALens recupera de manera eficiente direcciones compactas e interpretables por humanos sin necesidad de entrenamiento de diccionarios basado en gradientes por capa. En SAEBench, ICA es competitivo con SAEs públicos en sondaje disperso y los supera en perturbación dirigida de sondas bajo presupuestos pequeños o medianos. Estos resultados sugieren que el ICA no debe considerarse como una línea base débil, sino como una lente eficiente y complementaria para explorar las representaciones de modelos de lenguaje.
El entrenamiento autónomo de LLM suele enmarcarse como búsqueda de recetas, lo que deja el arnés de entrenamiento mayormente estático. Esta limitación se agudiza en el RL agentivo, donde los cuellos de botella cambiantes y las recompensas escalares enmascaran diversos modos de fallo. Presentamos EvoTrainer, un marco de entrenamiento autónomo que co-evoluciona las políticas de LLM y los arneses del lado del entrenamiento mediante retroalimentación empírica: diagnostica evidencia a nivel de despliegue, revisa diagnósticos, realiza pruebas retrospectivas de intervenciones y acumula habilidades reutilizables. Evaluado en razonamiento matemático, generación de código de programación competitiva e ingeniería de software a nivel de repositorio, EvoTrainer iguala o supera las referencias de RL diseñadas por humanos bajo los mismos datos, código base y protocolo de evaluación, con la mayor ganancia en el SWE agentivo de horizonte largo. Los análisis de trayectorias muestran que las estrategias retenidas divergen entre dominios, los diagnósticos evolucionados evitan que se promuevan ramas de alta puntuación inválidas, y las habilidades reutilizables moldean la búsqueda posterior. El RL autónomo de LLM debería avanzar más allá de la búsqueda de recetas hacia la evolución conjunta de las políticas y los arneses de entrenamiento que las interpretan.
Presentamos Embodied-R1.5, un Modelo Fundamental Embodied (EFM) unificado que integra capacidades integrales de razonamiento corpóreo —que abarcan cognición corpórea, planificación de tareas, corrección y señalización— dentro de una arquitectura única orientada a la inteligencia física general. Aprovechando tres canalizaciones automatizadas de construcción de datos para expandir significativamente la cobertura de datos de capacidades críticas, construimos un sistema de datos a gran escala de más de 15 mil millones de tokens y diseñamos una receta de aprendizaje por refuerzo (RL) multitarea balanceada para aliviar los conflictos de tareas heterogéneas. Además, introducimos un marco de bucle cerrado Planificador-Anclador-Corrector (PGC) que permite a un único modelo ejecutar de forma autónoma y autocorregirse en tareas de largo horizonte. Con solo 8 mil millones de parámetros, Embodied-R1.5 alcanza el estado del arte en 16 de 24 benchmarks de VLM corpóreos, superando a modelos líderes como Gemini-Robotics-ER-1.5 y GPT-5.4. Gracias a las capacidades corpóreas internalizadas, Embodied-R1.5 puede ajustarse finamente como un VLA con solo una pequeña cantidad de datos, superando a modelos VLA líderes como π_{0.5} en 4 conjuntos populares de benchmarks de manipulación. Además, realizamos extensos experimentos cero disparo en robots reales, validando el rendimiento en el seguimiento de instrucciones, el anclaje de affordances, la manipulación de objetos articulados y tareas complejas de largo horizonte, demostrando una fuerte generalización al mundo físico. Publicamos los pesos del modelo, los conjuntos de datos, el código de entrenamiento y EmbodiedEvalKit, un marco de evaluación adaptado para tareas corpóreas, con el fin de facilitar futuras investigaciones en EFMs.
El Aprendizaje por Refuerzo (RL) con entornos verificables ha surgido como un enfoque poderoso para mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs). Aunque investigaciones previas demuestran que escalar la cantidad de entornos mejora el rendimiento del RL, los métodos manuales o de construcción individual existentes presentan límites de escalado lineal, lo que dificulta la generalización del razonamiento a escala. Este artículo introduce RACES (Recursive Automated Composition for Environment Scaling), un marco conceptual que considera los entornos verificables como bloques de construcción componibles que pueden ensamblarse recursivamente. La idea clave es que cuando el codominio (tipo de salida) de un entorno coincide con el dominio (tipo de entrada) de otro, pueden fusionarse automáticamente en un nuevo entorno verificable, permitiendo la composición recursiva. RACES se implementa con 300 entornos individuales y define un conjunto de operadores de composición (SEQUENTIAL, PARALLEL, SORT y SELECT) que inducen diversos patrones de razonamiento. Experimentos exhaustivos muestran que el entrenamiento con RL en estos entornos compuestos mejora consistentemente la generalización del razonamiento. En concreto, RACES mejora a DeepSeek-R1-Distill-Qwen-14B en un promedio de 3.1 puntos (de 48.2 a 51.3) y aumenta el rendimiento de Qwen3-14B de 58.8 a 61.1 en seis benchmarks, los cuales no se habían visto durante la construcción de los entornos de entrenamiento. Además, RACES consigue un rendimiento comparable al entrenamiento con 300 entornos individuales utilizando solo 50 entornos base, lo que demuestra una eficiencia significativa en la utilización de entornos.
Los generadores de video preentrenados son modelos prometedores del mundo visual que exhiben habilidades emergentes para resolver tareas; sin embargo, su dependencia de descripciones textuales detalladas limita su uso directo para la planificación y la toma de decisiones. Los enfoques existentes externalizan este razonamiento a modelos de lenguaje o de lenguaje-visión, o se basan en un ajuste fino supervisado con pares de videos de ejecución de tareas, cuya recolección es costosa y difícil de escalar. Proponemos un marco escalable que desencadena la capacidad de resolver tareas en dichos modelos mediante la combinación de autodestilación con aprendizaje por refuerzo. Dada una imagen de escena no etiquetada, un modelo de lenguaje-visión genera una tarea candidata y una solución detallada paso a paso. La solución condiciona un modelo de difusión de video preentrenado, el Demostrador; destilamos su comportamiento en un Ejecutor condicionado únicamente por la imagen y una breve indicación de tarea. Esto transfiere el conocimiento de ejecución desde la generación guiada por descripciones a la resolución de tareas condicionada por instrucciones, sin necesidad de supervisión de video con tareas curadas. Mejoramos aún más el Ejecutor con aprendizaje por refuerzo a partir de la retroalimentación del VLM (modelo de lenguaje-visión), aprovechando la asimetría entre juzgar si un video muestreado satisface una tarea y generar la solución. Los experimentos en nuestro WorldTasks-Benchmark propuesto y en el benchmark de robótica DreamGen muestran que el Ejecutor supera al Demostrador bajo nuestro protocolo de evaluación basado en VLM y se transfiere competitivamente a tareas robóticas.
El paralelismo de canalizaciones (pipeline parallelism) es esencial para entrenar grandes redes neuronales, pero los esquemas existentes incurren en compromisos entre rendimiento, memoria y consistencia de la optimización. Las canalizaciones síncronas preservan la consistencia de pesos hacia adelante/atrás pero sufren de burbujas; las canalizaciones asíncronas eliminan las burbujas pero introducen desajustes de versión de pesos, lo que típicamente requiere mecanismos de almacenamiento, predicción o corrección de pesos. Presentamos PACI (Pipeline Asynchronous training with Controlled Inconsistency, o entrenamiento asíncrono de canalizaciones con inconsistencia controlada), un método de canalización asíncrona sin burbujas que acota la deriva de versiones hacia adelante/atrás sin almacenamiento de pesos, predicción, copias adicionales de parámetros ni sincronización global. La idea clave es usar la acumulación local de gradientes como mecanismo de control de versiones: al ralentizar la evolución de la versión de los parámetros en relación con el retardo de la canalización, PACI limita el número de actualizaciones del optimizador que cruza cualquier micro-lote, manteniendo al mismo tiempo la utilización en estado estacionario. En el preentrenamiento de modelos de lenguaje tipo GPT, PACI iguala la estabilidad y la perplejidad final de la canalización síncrona 1F1B-flush, retiene la misma huella de memoria máxima, alcanza un rendimiento de canalización completamente utilizado y mejora el tiempo hasta alcanzar la precisión en hasta 1.69 veces en comparación con la línea base de vaciado más rápida. Estos resultados muestran que la inconsistencia hacia adelante/atrás no necesita ser eliminada: cuando se acota explícitamente, puede intercambiarse de manera segura por ganancias sustanciales de eficiencia.
Los modelos de difusión han impulsado consistentemente el progreso en la generación de texto a imagen. Sin embargo, resulta difícil atribuir los avances recientes a opciones específicas de modelado y datos: los modelos de pesos abiertos más avanzados ofrecen ablaciones limitadas y no divulgan sus datos de entrenamiento ni los detalles completos del mismo. La comunidad investigadora necesita modelos completamente abiertos (pesos, datos y código) como base para futuras investigaciones; sin embargo, los modelos completamente abiertos existentes aún tienen un rendimiento significativamente inferior al de los modelos líderes. En este proyecto, realizamos una investigación sistemática de las opciones de diseño de modelado y datos en el entrenamiento e inferencia de difusión texto a imagen, con más de 300 experimentos controlados que suman más de 700 000 horas de TPU v6e. Nuestros experimentos destacan varios hallazgos empíricos (por ejemplo, la ponderación igualitaria es un valor predeterminado sólido para mezclar conjuntos de datos curados) y decisiones de diseño simples (por ejemplo, adaptadores de codificador de texto más grandes mejoran el rendimiento con parámetros agregados mínimos) para entrenar modelos robustos. Guiados por estos conocimientos, entrenamos i1, un modelo de difusión texto a imagen de 3 mil millones de parámetros que utiliza únicamente conjuntos de datos disponibles públicamente. i1 es competitivo con los modelos líderes en cinco puntos de referencia representativos (GenEval, DPG, PRISM, CVTG-2K y LongText), y supera al mejor modelo completamente abierto existente en un promedio de 29,5 puntos porcentuales absolutos. Proporcionamos los puntos de control de i1, el código de entrenamiento e inferencia, y la tubería de procesamiento de datos. En conjunto, nuestros hallazgos y la receta de i1 establecen una base práctica para futuras investigaciones abiertas en modelos de difusión texto a imagen. Nuestro código está disponible en https://github.com/zlab-princeton/i1.
Los agentes de uso de computadora (CUAs) dependen de observaciones visuales de interfaces gráficas de usuario, donde cada captura de pantalla se codifica en una gran cantidad de tokens visuales. A medida que las trayectorias de interacción se alargan, el costo de tokens aumenta rápidamente, limitando la cantidad de historial que puede incorporarse bajo presupuestos fijos de contexto y cómputo. Esto ha resultado en ninguna o muy limitada mejora en el rendimiento al utilizar historial, a diferencia de otros dominios. Abordamos esta ineficiencia introduciendo ReVision, que se utiliza para entrenar modelos de lenguaje multimodales en trayectorias donde se eliminan parches visuales redundantes mediante un selector de parches aprendido que compara representaciones de parches en capturas de pantalla consecutivas, preservando al mismo tiempo la estructura espacial requerida por el modelo. En tres puntos de referencia, OSWorld, WebTailBench y AgentNetBench, al procesar trayectorias con 5 capturas de pantalla de historial utilizando Qwen2.5-VL-7B, ReVision reduce el uso de tokens en un 46% en promedio, al tiempo que mejora la tasa de éxito en un 3% en comparación con la línea base sin eliminación. Esto establece una clara ganancia de eficiencia, permitiendo a los agentes procesar trayectorias más largas con menos tokens. Con esta eficiencia mejorada, reevaluamos el papel del historial en los CUAs y encontramos que el rendimiento continúa mejorando a medida que se incorporan más observaciones pasadas cuando se elimina la redundancia.
Las habilidades de agente proporcionan un mecanismo ligero para extender agentes de propósito general, pero su formato abierto las expone a ataques de envenenamiento de habilidades. Una inyección prácticamente peligrosa debe permanecer invisible: si la ejecución del payload descarrila la tarea legítima del usuario, la señal de fallo resultante invita a inspeccionar la habilidad. Por ello, evaluamos los ataques mediante la Tasa de Éxito de Ataque (Attack Success Rate, ASR), que requiere que el payload inyectado se ejecute y que la tarea del usuario pase su verificador en el mismo ensayo. Bajo este enfoque, los ataques previos de envenenamiento de habilidades enfrentan una compensación entre fiabilidad y sigilo: las inyecciones en cabeceras YAML se cargan de forma fiable pero son fácilmente inspeccionables, mientras que las inyecciones en el cuerpo más sigilosas, que colocan comandos maliciosos explícitos en la prosa de la habilidad, son menos fiables porque los comandos fuera de contexto despiertan la sospecha del propio agente. Introducimos POISE, un ataque consciente de la posición que comprime el desencadenante en una única instrucción de cuerpo de apariencia benigna, la sitúa en una posición factible y utiliza un generador consciente del contexto para mezclarla con pasos previos de configuración o requisitos cercanos. En Skill-Inject con codex+gpt-5.2, POISE alcanza un 89.3% de ASR, 28.0 puntos por encima de una línea base de cuerpo con colocación aleatoria y 2.6 puntos por encima de una línea base solo YAML, mientras conserva la ventaja de sigilo de la colocación en el cuerpo. Ese sigilo constituye el margen decisivo: debido a que los cuerpos de habilidades legítimas requieren naturalmente operaciones privilegiadas con herramientas, los escáneres de LLM son hipersensibles, marcando falsamente un 74.6% de las habilidades limpias en promedio entre cuatro jueces y ambos conjuntos de referencia. Al mimetizarse entre estas falsas alarmas, POISE provoca que solo el 5.6% de las variantes envenenadas obtengan una nueva alerta de alto riesgo sobre sus líneas base limpias, volviendo ineficaces las defensas estáticas actuales.
La predicción de la Vida Útil Restante (RUL) es esencial para el mantenimiento predictivo industrial; sin embargo, muchos enfoques basados en aprendizaje automático dependen de una extensa ingeniería de características o de grandes conjuntos de datos etiquetados para entrenar modelos secuenciales específicos de cada tarea. En este trabajo, presentamos un enfoque de aprendizaje ligero en el que aprovechamos un modelo base preentrenado y congelado de series temporales (TSFM) y lo combinamos con una pequeña cabeza de regresión para la estimación de RUL a partir de flujos de sensores multivariantes. Más concretamente, utilizamos Chronos-2 como columna vertebral congelada para extraer características de ventana de contexto y entrenamos una red neuronal de regresión ligera para predecir la RUL. Los experimentos realizados con datos reales de sensores industriales de dos tipos de dispositivos muestran que las características de Chronos-2 mejoran consistentemente en comparación con las líneas base recurrentes, convolucionales, basadas en Transformer y de gradiente potenciado bajo el mismo protocolo de preprocesamiento y evaluación. Además, analizamos el impacto de la longitud de contexto y observamos que el rendimiento mejora significativamente con historiales más largos, lo que indica que las representaciones de TSFM ofrecen una alternativa práctica y eficiente en términos de datos para la estimación de RUL en entornos industriales.
Muchos modelos modernos de visión-lenguaje (VLM) se basan en la decodificación autorregresiva de tokens discretos. Si bien las interfaces de salida basadas en texto permiten un preentrenamiento escalable y una fuerte generalización cero disparo en diversas tareas, no son adecuadas para problemas que requieren salidas continuas precisas, como la localización de límites temporales de eventos o la generación de acciones de control robótico. Para abordar este desafío, proponemos DRIFT, un marco general para adaptar VLM preentrenados a tareas de decodificación continua. DRIFT combina un predictor base, que proporciona una estimación aproximada de la salida objetivo, con un módulo de refinamiento generativo basado en emparejamiento de flujo que mejora iterativamente la predicción. Esta formulación residual transforma el problema de modelado generativo de aprender una distribución global de salida a modelar una distribución residual localizada alrededor de un prior fuerte, simplificando sustancialmente la optimización. Evaluamos DRIFT en tareas tanto de percepción como de planificación, incluyendo el anclaje visual y el control robótico. A través de múltiples tareas y arquitecturas que abarcan MLLM, VLA y WAM, DRIFT supera consistentemente a un conjunto sólido de soluciones basadas en regresión y generativas.
Existen dos técnicas principales de Ajuste Fino Eficiente en Parámetros (PEFT) para Modelos de Lenguaje de Gran Escala (LLMs). Mientras que la Adaptación de Bajo Rango (LoRA) introduce pesos adicionales entre las capas del LLM, la Inserción Suave de Indicaciones (Soft Prompting) introduce tokens brutos adicionales específicos del ajuste fino en la entrada del LLM. Sin embargo, ambas requieren modificaciones en los grafos computacionales de los LLMs precompilados y preoptimizados. Como resultado, ninguna cuenta con soporte completo en motores de alto rendimiento como vLLM. Proponemos un ajuste fino con ART (Entrenamiento mediante Refuerzo Basado en Arte). Este método inyecta información en un Modelo de Lenguaje de Gran Escala Multimodal (MLLM) congelado, optimizando únicamente su entrada visual bruta, lo que permite el enfoque de tokens suaves sobre grafos computacionales precompilados. Se basa en la retropropagación de gradientes hacia una matriz de píxeles plana y, por lo tanto, admite cualquier objetivo de ajuste fino. Además, la entrada visual optimizada puede estilizarse como obras de arte computacionales relevantes para la tarea. La efectividad del enfoque se confirma para diferentes tamaños de una arquitectura Qwen abierta popular y para varios puntos de referencia textuales. En concreto, ART alcanza una precisión competitiva con LoRA en puntos de referencia de matemáticas y de uso estructurado de herramientas.
Estudios previos han demostrado que los modelos de lenguaje grandes (LLMs) ajustados por instrucciones están peor calibrados que sus versiones preentrenadas base. Sin embargo, se sabe poco sobre el efecto que la plantilla de chat, frecuentemente utilizada, tiene en la calibración de los LLMs conversacionales. En este trabajo, investigamos los mecanismos que impulsan esta descalibración desacoplando los efectos del algoritmo de post-entrenamiento y el formato de chat. Encontramos que, aunque el ajuste por instrucciones perjudica fundamentalmente la calibración, la plantilla de chat agrava el problema mediante un "sesgo de propiedad": los modelos son significativamente más confiados en sus propias respuestas que en respuestas idénticas proporcionadas por un usuario. Experimentos exhaustivos con seis LLMs modernos de pesos abiertos, tres puntos de referencia y tres métodos de obtención de confianza muestran que los modelos asignan hasta un 26% más de confianza a sus propias respuestas. Aprovechando esta observación, proponemos una estrategia simple en tiempo de inferencia: enmarcar la respuesta del modelo como entrada del usuario durante la obtención de confianza. Este enfoque reduce significativamente el exceso de confianza y mejora la calibración hasta en un 26% sin necesidad de reentrenamiento, estrechando la brecha entre los modelos base y los ajustados por instrucciones.
Los Modelos de Lenguaje de Gran Escala (LLMs) ofrecen un nuevo potencial para las tareas de traducción, pero a menudo experimentan una degradación en su rendimiento al manejar idiomas de bajos recursos. Para abordar esta limitación, proponemos un enfoque para el ajuste fino de LLMs en un idioma de bajos recursos, el malayo de Kupang. Nuestro método implica diseñar un conjunto de instrucciones aprovechando características léxicas y semánticas explícitas de un diccionario bilingüe, e introducir el Ajuste Continuo de Instrucciones (CIT, por sus siglas en inglés), un paradigma de entrenamiento que permite un entrenamiento iterativo basado en instrucciones. Los resultados experimentales demuestran que nuestro modelo, denominado Lius, logra mejoras notables en comparación con los modelos estándar ajustados con instrucciones, superándolos por 4 a 6 puntos, y sobrepasando tanto a los modelos de Traducción Automática Neuronal (NMT) como a los LLMs multilingües por 10 a 13 puntos en varias métricas de evaluación. Estos hallazgos resaltan el potencial de nuestro enfoque para mitigar la dependencia de datos paralelos a gran escala en la traducción de idiomas de bajos recursos.
Los modelos de lenguaje grandes (LLMs) se utilizan ampliamente para abordar tareas complejas mediante flujos de trabajo autónomos. Recientemente, las habilidades reutilizables de lenguaje natural han surgido como un paradigma popular para inyectar conocimiento procedimental en aplicaciones de LLM. Dado que las habilidades más utilizadas a menudo se invocan repetidamente, incluir su texto completo en cada contexto aumenta significativamente el costo de prellenado y la latencia. Aunque las técnicas de compresión de texto tienen el potencial de resolver este problema, la mayoría de los métodos existentes están diseñados para comprimir conocimiento factual en documentos, en lugar de conocimiento procedimental, lo que los hace insuficientes para la compresión de habilidades. En este artículo, argumentamos que un método eficaz de compresión de habilidades debe: 1) preservar las dependencias lógicas entre flujos de trabajo y protocolos de herramientas, 2) permitir una compresión ligera y fuera de línea para habilidades comunitarias actualizadas con frecuencia, y 3) ser adaptable a las diferentes complejidades de las habilidades. Para abordar esto, presentamos SKIM (SKIll coMpression), un marco adaptativo de compresión de tokens suaves multi-resolución para habilidades procedimentales. Dependiendo de la complejidad de cada habilidad, SKIM crea diferentes números de tokens suaves que no solo mejoran la eficiencia de la inferencia del LLM, sino que también preservan la efectividad del uso de la habilidad. Los experimentos indican que SKIM comprime las habilidades al 30% o 60% de su longitud original de tokens, manteniendo un mejor rendimiento en las tareas que los métodos de compresión existentes. Hemos publicado nuestro código en https://github.com/bebr2/SKIM.
Comprender y predecir cómo evolucionan las creencias sociales en respuesta a eventos —desde cambios de políticas hasta avances científicos— sigue siendo un desafío fundamental en las ciencias sociales. Dado el conocimiento de sentido común y la inteligencia social de los LLM, nos preguntamos: ¿Pueden los LLM modelar la dinámica de las creencias sociales tras eventos sociales? En este trabajo, introducimos el concepto del Modelo del Mundo Social (SWM, por sus siglas en inglés), un marco general diseñado para capturar cómo evolucionan las creencias sociales en respuesta a eventos importantes. SWM aprende funciones de transición de estado para las creencias sociales mediante la extracción de patrones temporales en datos sociales y la optimización de la cota inferior de la evidencia, sin necesidad de anotaciones humanas explícitas que vinculen eventos con cambios de creencias, ni de costosos datos de censos. Para evaluar SWM, presentamos un punto de referencia, SWM-bench, derivado de mercados de predicción del mundo real, específicamente Kalshi y Polymarket. SWM-bench incluye más de 12,000 puntos de datos para tareas de predicción de creencias sociales que abarcan diversos ámbitos como política, finanzas y criptomonedas. Nuestros resultados experimentales muestran que SWM supera significativamente a los modelos de series temporales fundamentales, logrando resultados de vanguardia en los datos de Kalshi y demostrando un rendimiento competitivo en los datos de Polymarket, al tiempo que ofrece información interpretable sobre los mecanismos subyacentes de la dinámica de las creencias sociales.
Los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) están en auge para acelerar el descubrimiento científico, más recientemente en tareas avanzadas como la generación de hipótesis científicas válidas. Sin embargo, en muchos contextos de descubrimiento, el objetivo no es identificar una única hipótesis óptima, ya que la validación puede ser ruidosa y costosa, y los científicos se benefician de un conjunto de hipótesis alternativas de alta calidad que mitigan la incertidumbre posterior sobre las mejores soluciones. No obstante, las recetas de búsqueda evolutiva comúnmente utilizadas tienden a priorizar la optimización sobre la exploración en la generación de hipótesis, y la presión selectiva resultante durante el proceso de búsqueda conduce al colapso de la diversidad. Motivados por estas limitaciones, formulamos la búsqueda de hipótesis como un problema de muestreo, donde el objetivo es producir de manera eficiente hipótesis diversas y de alta calidad bajo un presupuesto de validación fijo. Basándonos en esta perspectiva, proponemos \ours, un marco evolutivo inspirado en el algoritmo clásico de temple paralelo que busca hipótesis en múltiples niveles de temperatura y permite un intercambio de información fundamentado entre temperaturas para mejorar la exploración sin interrumpir la convergencia. En dominios que incluyen el descubrimiento molecular, el descubrimiento de ecuaciones y el descubrimiento de algoritmos, nuestro enfoque mejora consistentemente tanto la calidad como la diversidad de las hipótesis bajo el mismo presupuesto de validación, y produce candidatos que se mantienen robustos bajo validaciones computacionales posteriores más costosas.
Los modelos base de series temporales genéricos se transfieren mal a la telemetría de redes inalámbricas, cuyas señales son intermitentes, presentan inflación de ceros y están acopladas entre capas de protocolo. Presentamos APEX, un transformador nativo de la red, solo con decodificador, para pronosticar la telemetría empresarial de puntos de acceso (AP), y lo evaluamos en la degradación de DHCP como tarea de red representativa. APEX se preentrena con telemetría multivariante de 10 canales de aproximadamente 4,500 redes inalámbricas de producción (~100,000 series temporales de AP, 34 métricas por AP), y está disponible como APEX-Large (269M, en la nube) y APEX-Edge (10.5M, en el borde). En un punto de referencia de degradación de DHCP de 192 pasos (4 días), APEX-Large reduce el MAE en un 18% respecto al modelo base más fuerte (Toto) y en un 38% respecto a SARIMA, con un F1 de detección de anomalías de 0.93, mientras que APEX-Edge permite una inferencia subsegundo que preserva la privacidad en hardware de borde de clase AP. Estos resultados sugieren que el preentrenamiento nativo de la red es una base práctica para las operaciones inalámbricas proactivas.
A medida que los sistemas de recomendación evolucionan hacia interfaces conversacionales agénticas y de múltiples turnos, los paradigmas de evaluación no han logrado mantener el ritmo. Los benchmarks actuales a menudo dependen de evaluaciones basadas en "LLM-as-a-judge", que introducen subjetividad, altos costos e inconsistencia. Presentamos τ-Rec, un benchmark para sistemas de recomendación agénticos que reemplaza la evaluación subjetiva con recompensas verificables y un mecanismo de elicitación con etiquetado de revelación (RTE) que controla cómo surgen las restricciones de la tarea durante el diálogo. Al probar los agentes contra predicados de catálogo estructurados y emplear una métrica de fiabilidad pass^k, τ-Rec proporciona una prueba sistemática para el razonamiento consistente. Nuestra evaluación de nueve configuraciones en cinco familias de modelos —GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B y GPT-5 mini— revela un abrupto precipicio de fiabilidad, donde incluso el mejor modelo alcanza solo ~57% en pass^1 y ~38% en pass^4, lo que resalta una brecha crítica en el despliegue actual de agentes conversacionales. Todo el código y los datos están disponibles públicamente en https://github.com/nbharaths/tau-rec.
La selección de datos de entrenamiento se encuentra entre las tareas más importantes, aunque intensivas en mano de obra, del desarrollo moderno de inteligencia artificial: los profesionales proponen, implementan, evalúan y revisan de forma iterativa políticas de datos a partir de retroalimentación ruidosa de evaluaciones comparativas. Nos preguntamos si los agentes codificadores generalistas pueden automatizar este bucle de curado de datos. Presentamos *Curation-Bench*, un benchmark centrado en agentes que fija el modelo, la receta de entrenamiento y el conjunto de evaluación, a la vez que otorga a los agentes acceso por línea de comandos para inspeccionar datos, implementar políticas, enviarlas a un pipeline fijo de entrenamiento/evaluación y revisarlas. En una instanciación de ajuste por instrucciones en visión-lenguaje, los agentes listos para usar alcanzan sólidas líneas base publicadas de selección de datos en diez iteraciones. Sin embargo, el análisis de trayectorias revela una persistente *brecha entre ejecución e investigación*: los agentes principalmente ajustan variantes locales de política en lugar de explorar nuevas familias de políticas, incluso cuando se les proporcionan guías estratégicas y referencias de artículos. Los andamios (scaffolds) que exigen que cada iteración cite, instancie y adapte un método previo orientan a los agentes hacia una exploración guiada por métodos. El agente con andamiaje compone de forma autónoma —sin intervención humana en el diseño— una política de selección de datos que supera sólidas líneas base publicadas con una décima parte de su presupuesto de datos. En general, los agentes actuales pueden ejecutar el bucle de curado, pero una investigación de datos fiable requiere adaptación de métodos asistida por andamiaje, no solo indicaciones abiertas (prompting). El código y el benchmark son de código abierto.
El entrenamiento posterior para modelos de razonamiento suele combinar el ajuste fino supervisado con aprendizaje por refuerzo basado en recompensas verificables, más comúnmente con GRPO. Sin embargo, este algoritmo sufre de recompensas dispersas, exploración limitada y colapso modal. Basándonos en trabajos recientes sobre autodestilación, proponemos Destilación por Retroalimentación, un método de entrenamiento donde el modelo es entrenado para igualar, a nivel de tokens, su propia distribución condicionada a una retroalimentación privilegiada generada por un modelo de lenguaje. La Destilación por Retroalimentación ofrece supervisión a nivel de tokens y puede inyectar conocimiento externo. Al evaluar nuestro método para la demostración de teoremas en Lean4, encontramos que la Destilación por Retroalimentación mantiene una mayor diversidad en las trayectorias generadas que GRPO, lo que resulta en una mayor entropía de la política y un mejor escalado de pass@k. Ambos métodos son complementarios: inicializar GRPO desde un punto de control de Destilación por Retroalimentación supera a cualquiera de los métodos por separado. En conjunto, nuestros resultados sugieren una vía prometedora para mejorar el entrenamiento posterior en razonamiento complejo.
La resonancia magnética (RM) cerebral desempeña un papel central en el estudio del desarrollo neurológico, el envejecimiento y las enfermedades. Una aplicación clave es la Predicción de la Edad Cerebral (Brain Age Prediction, BAP), que estima la edad cerebral biológica de un individuo a partir de datos de RM. Los modelos eficaces de BAP requieren conjuntos de datos grandes, diversos y equilibrados en cuanto a la edad, mientras que los conjuntos de datos de RM 3D existentes presentan sesgos demográficos, lo que limita la equidad y la generalizabilidad. Adquirir nuevos datos es costoso y está sujeto a restricciones éticas, lo que motiva el uso de aumento de datos generativo. Los métodos generativos actuales se basan a menudo en modelos de difusión latente, que operan en espacios latentes de baja dimensión aprendidos para abordar las demandas de memoria de los datos de RM volumétricos. Sin embargo, estos métodos suelen ser lentos en la inferencia, pueden introducir artefactos debido a la compresión latente y rara vez están condicionados por la edad, lo que afecta el rendimiento de BAP. En este trabajo, proponemos FlowLet, un marco generativo condicional que sintetiza RM 3D condicionadas por la edad aprovechando el emparejamiento de flujo (flow matching) dentro de un dominio de wavelets 3D invertible, lo que ayuda a evitar artefactos de reconstrucción y reduce las demandas computacionales. Los experimentos muestran que FlowLet genera volúmenes de alta fidelidad con pocos pasos de muestreo. El entrenamiento de modelos BAP con datos generados por FlowLet mejora el rendimiento para grupos de edad subrepresentados, y el análisis basado en regiones confirma la preservación de las estructuras anatómicas.
Los pipelines modernos de entrenamiento de LLM dependen cada vez más de otros modelos para generar datos, filtrar corpus, evaluar resultados y guiar decisiones de desarrollo. Estas dependencias son recursivas: un modelo puede depender de un artefacto upstream cuyas propias dependencias están documentadas solo en versiones y artefactos separados. Como resultado, la estructura completa de dependencias se encuentra fragmentada en artefactos públicos heterogéneos, con una complejidad y profundidad recursiva que supera con creces la capacidad humana de rastreo. Introducimos ModSleuth, un sistema agéntico que reconstruye recursivamente grafos de dependencias de LLM a partir de artefactos públicos con evidencia fundamentada en las fuentes. Descubrimos que el principal desafío ya no es la extracción de información, sino definir qué constituye una dependencia y reconciliar las referencias a artefactos en documentación incongruente. Abordamos estos desafíos mediante una formalización que distingue dependencias directas e indirectas, representa roles heterogéneos del pipeline a través de relaciones centradas en operaciones, y resuelve identidades de artefactos entre nombres, versiones y repositorios. Aplicando ModSleuth a cuatro publicaciones de LLM ricas en artefactos públicos, recuperamos 1 060 dependencias verificadas en las fuentes y construimos grafos de dependencia a gran escala del desarrollo moderno de LLM. Estos grafos revelan obligaciones de licencia en múltiples saltos, acoplamiento entre entrenamiento y evaluación, discrepancias entre artefactos publicados y los utilizados en el entrenamiento, e incoherencias en la documentación que de otro modo serían difíciles de detectar. Publicamos ModSleuth y los grafos de dependencia resultantes para apoyar un análisis transparente de los ecosistemas cada vez más complejos que subyacen a los LLM modernos.
La atención dispersa reduce el cómputo y el ancho de banda de memoria para la inferencia de LLM con contexto largo. Sin embargo, persisten dos desafíos clave: (1) la capacidad de la caché KV sigue creciendo con la longitud de la secuencia, y su descarga a la memoria de la CPU introduce un cuello de botella de transferencia PCIe; (2) el propio paso de selección dispersa conserva una complejidad de O(T²) y puede dominar el costo de atención en contextos largos. Proponemos SparDA, una arquitectura de atención dispersa desacoplada que introduce una cuarta proyección por capa, el Forecast, junto con Query, Key y Value. El Forecast predice los bloques KV que necesitará la siguiente capa, lo que permite una selección anticipada que superpone la precarga de CPU a GPU con la ejecución de la capa actual. Debido a que el Forecast está desacoplado de la consulta de atención, nuestra implementación de GQA utiliza una cabeza Forecast por grupo GQA, reduciendo la sobrecarga de selección en comparación con el selector multi-cabeza original. SparDA añade menos del 0,5% de parámetros y entrena solo las proyecciones Forecast igualando la distribución de atención del selector original. En dos modelos de 8B preentrenados con dispersión, SparDA iguala o mejora ligeramente la precisión y ofrece hasta 1,25 veces de aceleración en prefill y 1,7 veces en decodificación con respecto a la línea base de atención dispersa con descarga. Al permitir tamaños de lote factibles más grandes en una sola GPU, SparDA alcanza además hasta 5,3 veces mayor rendimiento de decodificación que la línea base dispersa sin descarga. Nuestro código fuente está disponible en https://github.com/NVlabs/SparDA.