Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los textos públicos de alta calidad se aproximan al agotamiento, un fenómeno conocido como el Muro de Datos, el pre-entrenamiento está transitando de más *tokens* a mejores *tokens*. Sin embargo, los métodos existentes o bien dependen de filtros estáticos heurísticos que ignoran la dinámica del entrenamiento, o utilizan criterios dinámicos pero agnósticos al optimizador basados en gradientes brutos. Proponemos OPUS (Selección de Utilidad Proyectada Inducida por el Optimizador), un marco de selección dinámica de datos que define la utilidad en el espacio de actualización inducido por el optimizador. OPUS puntúa los candidatos proyectando sus actualizaciones efectivas, moldeadas por optimizadores modernos, sobre una dirección objetivo derivada de un *proxy* estable y de distribución interna. Para garantizar la escalabilidad, empleamos la técnica *Ghost* con *CountSketch* para la eficiencia computacional, y el muestreo de Boltzmann para la diversidad de datos, incurriendo en solo un 4,7% de sobrecarga computacional adicional. OPUS logra resultados notables en diversos corpus, niveles de calidad, optimizadores y escalas de modelos. En el pre-entrenamiento de GPT-2 Large/XL en FineWeb y FineWeb-Edu con 30B de *tokens*, OPUS supera a los baselines de nivel industrial e incluso al entrenamiento completo con 200B de *tokens*. Además, cuando se combina con filtros estáticos de nivel industrial, OPUS mejora aún más la eficiencia del pre-entrenamiento, incluso con datos de menor calidad. Asimismo, en el pre-entrenamiento continuo de Qwen3-8B-Base en SciencePedia, OPUS logra un rendimiento superior utilizando solo 0,5B de *tokens* en comparación con el entrenamiento completo con 3B de *tokens*, lo que demuestra ganancias significativas en eficiencia de datos en dominios especializados.
Los agentes autónomos de interfaz gráfica interactúan con entornos mediante la percepción de interfaces y la ejecución de acciones. Como entorno virtual de pruebas, el modelo GUI World dota a los agentes de una capacidad de previsión similar a la humana mediante predicciones condicionadas por acciones. Sin embargo, los enfoques existentes basados en texto y píxeles presentan dificultades para lograr simultáneamente alta fidelidad visual y controlabilidad estructural granular. Para abordar este problema, proponemos Code2World, un codificador visión-lenguaje que simula el siguiente estado visual mediante la generación de código renderizable. Específicamente, para resolver el problema de escasez de datos, construimos AndroidCode traduciendo trayectorias de GUI a HTML de alta fidelidad y refinando el código sintetizado mediante un mecanismo de revisión con retroalimentación visual, obteniendo un corpus de más de 80K pares pantalla-acción de alta calidad. Para adaptar los modelos de visión-lenguaje existentes a la predicción de código, primero realizamos Fine-Tuning Supervisado (SFT) como inicio en frío para el seguimiento de formato de diseño, luego aplicamos Refuerzo de Aprendizaje con Conciencia de Renderizado (RARL), que utiliza el resultado renderizado como señal de recompensa mediante la imposición de fidelidad semántica visual y consistencia de acciones. Experimentos exhaustivos demuestran que Code2World-8B logra el mejor rendimiento en predicción de siguiente interfaz de usuario, rivalizando con los competitivos GPT-5 y Gemini-3-Pro-Image. Notablemente, Code2World mejora significativamente las tasas de éxito en navegación descendente de manera flexible, aumentando Gemini-2.5-Flash en +9.5% en navegación AndroidWorld. El código está disponible en https://github.com/AMAP-ML/Code2World.
Los agentes de interfaz gráfica han surgido como un paradigma poderoso para automatizar interacciones en entornos digitales, aunque lograr simultáneamente una amplia generalidad y un rendimiento de tareas consistentemente sólido sigue siendo un desafío. En este informe presentamos UI-Venus-1.5, un agente de interfaz gráfica unificado de extremo a extremo diseñado para aplicaciones robustas en entornos reales. La familia de modelos propuesta comprende dos variantes densas (2B y 8B) y una variante de mezcla de expertos (30B-A3B) para satisfacer diversos escenarios de aplicación posteriores. En comparación con nuestra versión anterior, UI-Venus-1.5 introduce tres avances técnicos clave: (1) una etapa integral de entrenamiento intermedio que aprovecha 10 mil millones de tokens en más de 30 conjuntos de datos para establecer semántica fundamental de interfaz gráfica; (2) Aprendizaje por Refuerzo en línea con desarrollos de trayectoria completa, alineando los objetivos de entrenamiento con la navegación dinámica de largo horizonte en entornos a gran escala; y (3) un agente de interfaz gráfica unificado construido mediante Fusión de Modelos, que sintetiza modelos específicos de dominio (base, web y móvil) en un punto de control cohesivo. Evaluaciones exhaustivas demuestran que UI-Venus-1.5 establece un nuevo estado del arte en benchmarks como ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%) y AndroidWorld (77.6%), superando significativamente líneas base anteriores sólidas. Adicionalmente, UI-Venus-1.5 demuestra capacidades robustas de navegación en diversas aplicaciones móviles chinas, ejecutando efectivamente instrucciones de usuario en escenarios del mundo real. Código: https://github.com/inclusionAI/UI-Venus; Modelo: https://huggingface.co/collections/inclusionAI/ui-venus
La resolución de problemas humanos nunca es la repetición de una única mentalidad, entendiendo por tal un modo distinto de procesamiento cognitivo. Al abordar una tarea específica, no dependemos de una sola mentalidad; en su lugar, integramos múltiples mentalidades dentro del único proceso de solución. Sin embargo, los métodos de razonamiento de LLM existentes caen en una trampa común: aplican la misma mentalidad fija en todos los pasos, pasando por alto que las diferentes etapas para resolver un mismo problema requieren mentalidades fundamentalmente distintas. Esta suposición de mentalidad única impide que los modelos alcancen el siguiente nivel de inteligencia. Para abordar esta limitación, proponemos Cadena de Mentalidad (CoM), un marco agéntico libre de entrenamiento que permite una orquestación adaptativa de mentalidades a nivel de paso. CoM descompone el razonamiento en cuatro mentalidades funcionalmente heterogéneas: Espacial, Convergente, Divergente y Algorítmica. Un Meta-Agente selecciona dinámicamente la mentalidad óptima basándose en el estado de razonamiento en evolución, mientras que una Puerta de Contexto bidireccional filtra el flujo de información entre módulos para mantener la efectividad y eficiencia. Los experimentos en seis benchmarks desafiantes que abarcan matemáticas, generación de código, preguntas y respuestas científicas y razonamiento espacial demuestran que CoM logra un rendimiento de vanguardia, superando a la línea base más fuerte en un 4.96% y un 4.72% en precisión general en Qwen3-VL-32B-Instruct y Gemini-2.0-Flash, respectivamente, equilibrando al mismo tiempo la eficiencia del razonamiento. Nuestro código está disponible públicamente en https://github.com/QuantaAlpha/chain-of-mindset.
Los agentes de modelos de lenguaje grande (LLM) han demostrado resultados sorprendentes en tareas complejas, pero a menudo operan de forma aislada, sin aprender de experiencias pasadas. Los métodos existentes basados en memoria almacenan principalmente trayectorias brutas, que suelen ser redundantes y contener mucho ruido. Esto impide que los agentes extraigan patrones de comportamiento reutilizables y de alto nivel, esenciales para la generalización. En este artículo, proponemos SkillRL, un marco que cierra la brecha entre la experiencia bruta y la mejora de políticas mediante el descubrimiento automático de habilidades y la evolución recursiva. Nuestro enfoque introduce un mecanismo de destilación basado en la experiencia para construir una biblioteca jerárquica de habilidades (SkillBank), una estrategia de recuperación adaptable para heurísticas generales y específicas de tareas, y un mecanismo de evolución recursiva que permite que la biblioteca de habilidades co-evolucione con la política del agente durante el aprendizaje por refuerzo. Estas innovaciones reducen significamente la huella de tokens mientras mejoran la utilidad del razonamiento. Los resultados experimentales en ALFWorld, WebShop y siete tareas aumentadas con búsqueda demuestran que SkillRL logra un rendimiento de vanguardia, superando a líneas de base sólidas en más de un 15.3% y manteniendo la robustez a medida que aumenta la complejidad de las tareas. El código está disponible en https://github.com/aiming-lab/SkillRL.
La transición de la manipulación simbólica al razonamiento de nivel científico representa una frontera crucial para los Modelos de Lenguaje a Gran Escala (LLMs), donde la física sirve como prueba fundamental para vincular la lógica abstracta con la realidad física. La física exige que un modelo mantenga coherencia física con las leyes que gobiernan el universo, una tarea que requiere fundamentalmente percepción multimodal para anclar la lógica abstracta en la realidad. A nivel de Olimpiada, los diagramas suelen ser constitutivos y no meramente ilustrativos, conteniendo restricciones esenciales, como condiciones de contorno y simetrías espaciales, que están ausentes en el texto. Para salvar esta brecha visual-lógica, presentamos P1-VL, una familia de modelos de visión y lenguaje de código abierto diseñados para el razonamiento científico avanzado. Nuestro método armoniza el Aprendizaje por Refuerzo Curricular, que emplea una expansión progresiva de la dificultad para estabilizar el post-entrenamiento, con la Ampliación Agéntica, permitiendo una auto-verificación iterativa durante la inferencia. Evaluado en HiPhO, un riguroso benchmark que incluye 13 exámenes de 2024-2025, nuestro modelo principal P1-VL-235B-A22B se convierte en el primer Modelo de Visión y Lenguaje (VLM) de código abierto en obtener 12 medallas de oro y logra el rendimiento de vanguardia entre los modelos de código abierto. Nuestro sistema aumentado de forma agéntica alcanza el puesto No.2 en la clasificación global, solo por detrás de Gemini-3-Pro. Más allá de la física, P1-VL demuestra una notable capacidad de razonamiento científico y generalización, estableciendo ventajas significativas sobre los modelos base en benchmarks de STEM. Al liberar P1-VL como código abierto, proporcionamos un paso fundamental hacia la inteligencia física de propósito general para alinear mejor las percepciones visuales con las leyes físicas abstractas en la descubierta científica automatizada.
Los recientes avances en los modelos de lenguaje a gran escala (LLM) han potenciado a los agentes autónomos para realizar tareas complejas que requieren interacciones multi-turno con herramientas y entornos. Sin embargo, la escalabilidad de dicho entrenamiento de agentes se ve limitada por la carencia de entornos diversos y fiables. En este artículo, proponemos el Modelo de Mundo del Agente (AWM), una pipeline de generación de entornos completamente sintéticos. Utilizando esta pipeline, escalamos a 1.000 entornos que cubren escenarios cotidianos, en los que los agentes pueden interactuar con conjuntos de herramientas ricos (35 herramientas por entorno de media) y obtener observaciones de alta calidad. Cabe destacar que estos entornos están basados en código y respaldados por bases de datos, lo que proporciona transiciones de estado más fiables y consistentes que los entornos simulados por LLMs. Además, permiten una interacción del agente más eficiente en comparación con la recopilación de trayectorias de entornos realistas. Para demostrar la eficacia de este recurso, realizamos aprendizaje por refuerzo a gran escala para agentes de uso de herramientas multi-turno. Gracias a los entornos completamente ejecutables y a los estados accesibles de las bases de datos, también podemos diseñar funciones de recompensa fiables. Los experimentos en tres benchmarks muestran que el entrenamiento exclusivamente en entornos sintéticos, en lugar de en entornos específicos del benchmark, produce una fuerte generalización fuera de distribución. El código está disponible en https://github.com/Snowflake-Labs/agent-world-model.
La atención dispersa por bloques es prometedora para acelerar el prellenado de LLM de contexto largo, pero la identificación eficiente de bloques relevantes sigue siendo un cuello de botella. Los métodos existentes suelen emplear atención de grano grueso como aproximación para estimar la importancia de los bloques, pero a menudo recurren a búsquedas o puntuaciones costosas a nivel de token, lo que genera una sobrecarga de selección significativa. En este trabajo, rastreamos la imprecisión de la atención estándar de grano grueso mediante promedio global (mean pooling) hasta una causa teórica fundamental: la interacción entre el promedio global y los Embeddings Posicionales Rotatorios (RoPE). Demostramos que el promedio global actúa como un filtro de paso bajo que induce interferencia destructiva en las dimensiones de alta frecuencia, creando efectivamente un "punto ciego" para la información posicional local (por ejemplo, patrones de barra). Para abordar esto, presentamos Prism, un enfoque espectral libre de entrenamiento que descompone la selección de bloques en ramas de alta y baja frecuencia. Mediante la aplicación de una calibración de temperatura basada en energía, Prism restaura las señales posicionales atenuadas directamente desde las representaciones agrupadas, permitiendo la estimación de la importancia de los bloques utilizando únicamente operaciones a nivel de bloque, mejorando así la eficiencia. Evaluaciones exhaustivas confirman que Prism mantiene una precisión equivalente a la atención completa mientras ofrece una aceleración de hasta 5.1 veces.
Recientemente, los Modelos de Lenguaje Grandes de Difusión (dLLMs) han demostrado ventajas únicas de eficiencia, habilitadas por su mecanismo de decodificación inherentemente paralelo y paradigma de generación flexible. Mientras tanto, a pesar del rápido avance de los Agentes de Búsqueda, su despliegue práctico está limitado por una restricción fundamental, denominada 1) Desafío de Latencia: la ejecución en serie del razonamiento en múltiples rondas, la llamada a herramientas y la espera de respuestas de las herramientas bajo el paradigma de agente ReAct induce una severa latencia de extremo a extremo. Intuitivamente, los dLLMs pueden aprovechar sus fortalezas distintivas para optimizar la eficiencia operativa de los agentes bajo el paradigma de agente ReAct. Prácticamente, los modelos base dLLM existentes se enfrentan al 2) Desafío de la Capacidad del Agente. Es decir, los dLLMs existentes exhiben capacidades de razonamiento y llamada a herramientas notablemente débiles, lo que impide que estas ventajas se materialicen efectivamente en la práctica. En este artículo, proponemos DLLM-Searcher, un marco de optimización para Agentes de Búsqueda basados en dLLM. Para resolver el Desafío de la Capacidad del Agente, diseñamos un pipeline de post-entrenamiento en dos etapas que abarca el Fine-Tuning Supervisado Agéntico (Agentic SFT) y la Optimización de Preferencias con Reducción de Varianza Agéntica (Agentic VRPO), lo cual mejora las capacidades de búsqueda de información y razonamiento del dLLM base. Para mitigar el Desafío de Latencia, aprovechamos el mecanismo de generación flexible de los dLLMs y proponemos un nuevo paradigma de agente denominado Razonamiento y Actuación en Paralelo (P-ReAct). P-ReAct guía al modelo para que priorice la decodificación de instrucciones de tool_call, permitiendo así que el modelo siga pensando mientras espera la respuesta de la herramienta. Los resultados experimentales demuestran que DLLM-Searcher logra un rendimiento comparable al de los principales agentes de búsqueda basados en LLM y que P-ReAct ofrece una aceleración de la inferencia de aproximadamente el 15%. Nuestro código está disponible en https://anonymous.4open.science/r/DLLM-Searcher-553C.
La escalabilidad de los modelos del mundo controlables por acciones se ve limitada por la escasez de etiquetas de acción. Si bien el aprendizaje de acciones latentes promete extraer interfaces de control a partir de video sin etiquetar, los latentes aprendidos a menudo no se transfieren entre contextos: entrelazan claves específicas de la escena y carecen de un sistema de coordenadas compartido. Esto ocurre porque los objetivos estándar operan únicamente dentro de cada clip, sin proporcionar un mecanismo para alinear la semántica de las acciones entre contextos. Nuestra idea clave es que, aunque las acciones no son observadas, sus efectos semánticos son observables y pueden servir como referencia compartida. Introducimos SeqΔ-REPA, un objetivo de alineación de efectos de control a nivel de secuencia que ancla la acción latente integrada a diferencias de características temporales provenientes de un codificador de video auto-supervisado y congelado. Sobre esta base, presentamos Olaf-World, un pipeline que realiza el pre-entrenamiento de modelos de video del mundo condicionados por acciones a partir de video pasivo a gran escala. Experimentos exhaustivos demuestran que nuestro método aprende un espacio de acción latente más estructurado, lo que conduce a una transferencia de acciones cero-shot más sólida y a una adaptación más eficiente en cuanto a datos a nuevas interfaces de control en comparación con los métodos de referencia del estado del arte.
Estudiamos la edición de imágenes basada en instrucciones dentro de flujos de trabajo profesionales e identificamos tres desafíos persistentes: (i) los editores suelen sobre-editar, modificando contenido más allá de la intención del usuario; (ii) los modelos existentes son mayoritariamente de un solo turno, mientras que las ediciones multi-turno pueden alterar la fidelidad de los objetos; y (iii) la evaluación en resoluciones cercanas a 1K está desalineada con los flujos de trabajo reales que suelen operar con imágenes de ultra alta definición (por ejemplo, 4K). Proponemos Agent Banana, un marco agéntico jerárquico planificador-ejecutor para una edición deliberativa, de alta fidelidad y consciente de los objetos. Agent Banana introduce dos mecanismos clave: (1) el Plegado de Contexto, que comprime historiales largos de interacción en una memoria estructurada para un control estable a largo plazo; y (2) la Descomposición en Capas de Imagen, que realiza ediciones localizadas basadas en capas para preservar las regiones no objetivo mientras permite salidas en resolución nativa. Para respaldar una evaluación rigurosa, construimos HDD-Bench, un benchmark basado en diálogos y de alta definición, que cuenta con objetivos verificables paso a paso e imágenes nativas 4K (11.8M píxeles) para diagnosticar fallos de largo horizonte. En HDD-Bench, Agent Banana logra la mejor consistencia multi-turno y fidelidad del fondo (por ejemplo, IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) manteniéndose competitivo en el seguimiento de instrucciones, y también obtiene un rendimiento sólido en benchmarks estándar de edición de un solo turno. Esperamos que este trabajo impulse la edición de imágenes agéntica confiable, de grado profesional, y su integración en flujos de trabajo reales.
La generación autoregresiva de vídeo permite la síntesis de vídeos largos condicionando iterativamente cada nuevo lote de fotogramas en el contenido generado previamente. Sin embargo, trabajos recientes han demostrado que tales arquitecturas sufren de una severa deriva temporal, donde los errores se acumulan y amplifican a lo largo de horizontes largos. Nuestra hipótesis es que esta deriva no se origina principalmente por una capacidad insuficiente del modelo, sino por la propagación de errores en tiempo de inferencia. Específicamente, sostenemos que la deriva surge de la reutilización incontrolada de tokens latentes de condicionamiento corruptos durante la inferencia autoregresiva. Para corregir esta acumulación de errores, proponemos un método simple, aplicable en tiempo de inferencia, que mitiga la deriva temporal identificando y eliminando los tokens latentes inestables antes de que sean reutilizados para el condicionamiento. Para ello, definimos los tokens inestables como aquellos tokens latentes cuyas representaciones se desvían significativamente de las del lote generado previamente, lo que indica una posible corrupción o deriva semántica. Al eliminar explícitamente los tokens latentes corruptos del contexto autoregresivo, en lugar de modificar regiones espaciales completas o los parámetros del modelo, nuestro método evita que información latente no fiable influya en los pasos futuros de generación. Como resultado, mejora significativamente la consistencia temporal en horizontes largos sin modificar la arquitectura del modelo, el procedimiento de entrenamiento o abandonar el espacio latente.
Estudios recientes han explorado modelos autorregresivos para la generación de imágenes, con resultados prometedores, y han combinado modelos de difusión con marcos autorregresivos para optimizar la generación de imágenes mediante pérdidas de difusión. En este estudio, presentamos un análisis teórico de los modelos de difusión y autorregresivos con pérdida de difusión, destacando las ventajas de estos últimos. Presentamos una comparación teórica de la difusión condicional y la difusión autorregresiva con pérdida de difusión, demostrando que la optimización por desruido de *patches* en los modelos autorregresivos mitiga eficazmente los errores de condición y conduce a una distribución de condición estable. Nuestro análisis también revela que la generación autorregresiva de la condición refina dicha condición, provocando que la influencia del error de condición decaiga exponencialmente. Además, introducimos un novedoso enfoque de refinamiento de condición basado en la teoría del Transporte Óptimo (TO) para abordar la "inconsistencia de condición". Demostramos teóricamente que formular el refinamiento de condición como un Flujo Gradiente de Wasserstein garantiza la convergencia hacia la distribución de condición ideal, mitigando eficazmente la inconsistencia de condición. Los experimentos demuestran la superioridad de nuestro método sobre los modelos de difusión y autorregresivos que utilizan métodos con pérdida de difusión.
Los modelos Visión-Lenguaje-Acción (VLA) han surgido como un paradigma prometedor para el control robótico de propósito general, atrayendo atención la escalado en tiempo de prueba (TTS) para mejorar la robustez más allá del entrenamiento. Sin embargo, los métodos TTS existentes para VLAs requieren entrenamiento adicional, verificadores y múltiples pasadas hacia adelante, lo que los hace impracticables para su despliegue. Además, intervienen solo en la decodificación de acciones manteniendo las representaciones visuales fijas, lo cual es insuficiente bajo ambigüedad perceptual, donde reconsiderar cómo percibir es tan importante como decidir qué hacer. Para abordar estas limitaciones, proponemos SCALE, una estrategia de inferencia simple que modula conjuntamente la percepción visual y la acción basándose en la "auto-incertidumbre", inspirada en la exploración impulsada por la incertidumbre en la teoría de Inferencia Activa. SCALE no requiere entrenamiento adicional, ni verificador, y solo una única pasada hacia adelante. SCALE amplía la exploración tanto en percepción como en acción bajo alta incertidumbre, mientras se centra en la explotación cuando hay confianza, permitiendo una ejecución adaptable en diversas condiciones. Los experimentos en benchmarks de simulación y del mundo real demuestran que SCALE mejora los VLAs de vanguardia y supera a los métodos TTS existentes, manteniendo la eficiencia de pasada única.
Transformar un modelo de lenguaje grande (LLM) en un modelo de visión y lenguaje (VLM) puede lograrse mapeando los tokens visuales de un codificador de visión al espacio de embeddings de un LLM. Curiosamente, este mapeo puede ser tan simple como una transformación MLP superficial. Para comprender por qué los LLM pueden procesar tan fácilmente tokens visuales, necesitamos métodos de interpretabilidad que revelen lo que está codificado en las representaciones de tokens visuales en cada capa del procesamiento del LLM. En este trabajo, presentamos LatentLens, un enfoque novedoso para mapear representaciones latentes a descripciones en lenguaje natural. LatentLens funciona codificando un gran corpus de texto y almacenando las representaciones contextualizadas de tokens para cada token en dicho corpus. Las representaciones de tokens visuales se comparan luego con sus representaciones textuales contextualizadas, donde las representaciones de los k-vecinos más cercanos proporcionan descripciones del token visual. Evaluamos este método en 10 VLM diferentes, mostrando que los métodos comúnmente utilizados, como LogitLens, subestiman sustancialmente la interpretabilidad de los tokens visuales. Con LatentLens, en cambio, la mayoría de los tokens visuales son interpretables en todos los modelos estudiados y en todas las capas. Cualitativamente, demostramos que las descripciones producidas por LatentLens son semánticamente significativas y proporcionan interpretaciones más detalladas para los humanos en comparación con tokens individuales. En términos más generales, nuestros hallazgos aportan nueva evidencia sobre la alineación entre las representaciones de visión y lenguaje, abriendo nuevas direcciones para analizar representaciones latentes.
Dotar a los agentes corporizados de la capacidad de razonar sobre tareas, prever resultados físicos y generar acciones precisas es esencial para la manipulación de propósito general. Si bien los modelos recientes de Visión-Lenguaje-Acción (VLA) han aprovechado modelos base preentrenados, generalmente se centran en la planificación lingüística o en la predicción visual de forma aislada. Estos métodos rara vez integran ambas capacidades simultáneamente para guiar la generación de acciones, lo que conduce a un rendimiento subóptimo en tareas de manipulación complejas y de largo horizonte. Para cerrar esta brecha, proponemos BagelVLA, un modelo unificado que integra planificación lingüística, predicción visual y generación de acciones en un único marco. Inicializado a partir de un modelo unificado de comprensión y generación preentrenado, BagelVLA se entrena para intercalar el razonamiento textual y la predicción visual directamente en el bucle de ejecución de acciones. Para acoplar estas modalidades de manera eficiente, introducimos la Guía de Flujo Residual (RFG), que se inicializa a partir de la observación actual y aprovecha la eliminación de ruido en un solo paso para extraer características visuales predictivas, guiando la generación de acciones con una latencia mínima. Experimentos exhaustivos demuestran que BagelVLA supera significativamente a los métodos base existentes en múltiples benchmarks simulados y del mundo real, particularmente en tareas que requieren razonamiento multi-etapa.
Entrenar agentes generalistas capaces de adaptarse a diversos escenarios requiere entornos interactivos para la autoexploración. Sin embargo, los entornos interactivos siguen siendo críticamente escasos, y los métodos de síntesis existentes adolecen de limitaciones significativas en cuanto a diversidad ambiental y escalabilidad. Para abordar estos desafíos, presentamos ScaleEnv, un marco que construye entornos completamente interactivos y tareas verificables desde cero. Específicamente, ScaleEnv garantiza la fiabilidad del entorno mediante pruebas procedurales, y asegura la integridad y la capacidad de resolución de las tareas mediante la expansión del grafo de dependencias de herramientas y la verificación de acciones ejecutables. Al permitir que los agentes aprendan mediante la exploración dentro de ScaleEnv, demostramos mejoras significativas en el rendimiento en benchmarks de uso de herramientas multietapa no vistos, como τ²-Bench y VitaBench, destacando fuertes capacidades de generalización. Además, investigamos la relación entre el aumento del número de dominios y el rendimiento de generalización del modelo, proporcionando evidencia empírica de que escalar la diversidad ambiental es crucial para un aprendizaje robusto de los agentes.
El preentrenamiento de políticas Visión-Lenguaje-Acción (VLA) en vídeos a escala de internet es atractivo, pero los objetivos actuales de acción latente a menudo aprenden lo incorrecto: permanecen anclados a la variación de píxeles en lugar de a las transiciones de estado relevantes para la acción, lo que los hace vulnerables al sesgo de apariencia, al movimiento superfluo y a la fuga de información. Presentamos VLA-JEPA, un marco de preentrenamiento al estilo JEPA que evita estos problemas por diseño. La idea clave es la predicción de estado libre de fugas: un codificador objetivo produce representaciones latentes a partir de fotogramas futuros, mientras que la vía del estudiante solo ve la observación actual; la información futura se utiliza únicamente como objetivo de supervisión, nunca como entrada. Al predecir en el espacio latente en lugar del espacio de píxeles, VLA-JEPA aprende abstracciones de dinámicas que son robustas al movimiento de la cámara y a cambios irrelevantes en el fondo. Esto produce una receta simple de dos etapas —preentrenamiento JEPA seguido de ajuste fino de la cabeza de acción— sin la complejidad multi-etapa de las canalizaciones de acción latente anteriores. Los experimentos en LIBERO, LIBERO-Plus, SimplerEnv y tareas de manipulación en el mundo real muestran que VLA-JEPA logra ganancias consistentes en generalización y robustez sobre los métodos existentes.
El paradigma predominante en el aprendizaje robótico intenta generalizar a través de entornos, morfologías y tareas utilizando instrucciones de lenguaje en tiempo de ejecución. Un conflicto fundamental limita este enfoque: el lenguaje a menudo es demasiado abstracto para guiar la comprensión física concreta requerida para una manipulación robusta. En este trabajo, presentamos Políticas Ancladas en Contacto (CAP), que reemplazan el condicionamiento por lenguaje con puntos de contacto físico en el espacio. Simultáneamente, estructuramos CAP como una biblioteca de modelos de utilidad modulares en lugar de una política generalista monolítica. Esta factorización nos permite implementar un ciclo de iteración de lo real a lo simulado: construimos EgoGym, un benchmark de simulación ligero, para identificar rápidamente modos de fallo y refinar nuestros modelos y conjuntos de datos antes del despliegue en el mundo real. Demostramos que, al condicionar por contacto e iterar mediante simulación, CAP generaliza a entornos y morfologías novedosos de inmediato en tres habilidades de manipulación fundamentales, utilizando solo 23 horas de datos de demostración, y supera a los grandes modelos de lenguaje visual (VLAs) de última generación en evaluaciones zero-shot por un 56%. Todos los checkpoints de los modelos, código base, hardware, simulaciones y conjuntos de datos serán de código abierto. Página del proyecto: https://cap-policy.github.io/
Los sistemas multiagente de LLM permiten razonamiento avanzado y uso de herramientas mediante la especialización de roles, sin embargo, el aprendizaje por refuerzo (RL) posterior al entrenamiento para dichos sistemas sigue siendo difícil. En este trabajo, identificamos teóricamente una razón clave de la inestabilidad en el entrenamiento al extender el RL basado en grupos a sistemas multiagente de LLM. Demostramos que bajo una optimización estilo GRPO, una línea base de normalización global puede desviarse de las distribuciones de recompensa de agentes diversos, lo que finalmente conduce a inestabilidad en la norma del gradiente. Basándonos en este hallazgo, proponemos Dr. MAS, una receta de entrenamiento de RL simple y estable para sistemas multiagente de LLM. Dr. MAS utiliza un remedio por agente: normalizar las ventajas por agente usando las estadísticas de recompensa de cada agente, lo que calibra las escalas de gradiente y estabiliza dramáticamente el entrenamiento, tanto teórica como empíricamente. Más allá del algoritmo, Dr. MAS proporciona un marco de entrenamiento de RL integral para sistemas multiagente de LLM, soportando orquestación escalable, configuración flexible de servicio y optimización de LLM por agente, y planificación de recursos compartidos para los backends de actores de LLM. Evaluamos Dr. MAS en benchmarks de razonamiento matemático multiagente y búsqueda multi-turno usando los modelos de las series Qwen2.5 y Qwen3. Dr. MAS logra ganancias claras sobre GRPO básico (por ejemplo, +5.6% avg@16 y +4.6% pass@16 en matemáticas, y +15.2% avg@16 y +13.1% pass@16 en búsqueda) mientras elimina en gran medida los picos de gradiente. Además, mantiene una alta efectividad bajo asignaciones heterogéneas de modelos de agente mientras mejora la eficiencia.
Aprender conocimientos transferibles a partir de datos de vídeo no etiquetados y aplicarlos en nuevos entornos es una capacidad fundamental de los agentes inteligentes. Este trabajo presenta VideoWorld 2, que extiende VideoWorld y ofrece la primera investigación sobre el aprendizaje de conocimientos transferibles directamente a partir de vídeos reales en bruto. En esencia, VideoWorld 2 introduce un Modelo de Dinámicas Latentes de dinámica mejorada (dLDM) que desacopla la dinámica de las acciones de la apariencia visual: un modelo de difusión de vídeo preentrenado se encarga del modelado de la apariencia visual, permitiendo que el dLDM aprenda códigos latentes que se centran en dinámicas compactas y significativas relacionadas con la tarea. Estos códigos latentes se modelan luego de forma autorregresiva para aprender políticas de tareas y apoyar el razonamiento de largo horizonte. Evaluamos VideoWorld 2 en desafiantes tareas reales de creación manual, donde los modelos previos de generación de vídeo y de dinámicas latentes tienen dificultades para operar de forma fiable. Notablemente, VideoWorld 2 logra una mejora de hasta el 70% en la tasa de éxito de las tareas y produce vídeos de ejecución larga coherentes. En robótica, mostramos que VideoWorld 2 puede adquirir conocimientos de manipulación efectivos a partir del conjunto de datos Open-X, lo que mejora sustancialmente el rendimiento de las tareas en CALVIN. Este estudio revela el potencial de aprender conocimiento del mundo transferible directamente a partir de vídeos en bruto, y todo el código, datos y modelos se publicarán como código abierto para futuras investigaciones.
Los conjuntos de datos de alta calidad y abiertos siguen siendo un cuello de botella importante para el ajuste fino (fine-tuning) de texto a imagen (T2I). A pesar del rápido progreso en las arquitecturas de modelos y los flujos de entrenamiento, la mayoría de los conjuntos de datos de ajuste fino disponibles públicamente adolecen de baja resolución, escasa alineación texto-imagen o diversidad limitada, lo que resulta en una brecha de rendimiento clara entre los modelos de investigación abiertos y los modelos de nivel empresarial. En este trabajo, presentamos Fine-T2I, un conjunto de datos a gran escala, de alta calidad y completamente abierto para el ajuste fino T2I. Fine-T2I abarca 10 combinaciones de tareas, 32 categorías de instrucciones, 11 estilos visuales y 5 plantillas de instrucciones, y combina imágenes sintéticas generadas por modelos modernos potentes con imágenes reales cuidadosamente seleccionadas de fotógrafos profesionales. Todas las muestras se filtran rigurosamente en cuanto a alineación texto-imagen, fidelidad visual y calidad de la instrucción, eliminándose más del 95% de los candidatos iniciales. El conjunto de datos final contiene más de 6 millones de pares texto-imagen, aproximadamente 2 TB en disco, acercándose a la escala de los conjuntos de datos de preentrenamiento mientras mantiene una calidad de nivel de ajuste fino. En un conjunto diverso de modelos de difusión y autoregresivos preentrenados, el ajuste fino con Fine-T2I mejora consistentemente tanto la calidad de la generación como la adherencia a la instrucción, según lo validado por evaluación humana, comparación visual y métricas automáticas. Publicamos Fine-T2I bajo una licencia abierta para ayudar a cerrar la brecha de datos en el ajuste fino T2I en la comunidad abierta.
El entrenamiento de modelos agentivos para tareas basadas en terminal depende críticamente de trayectorias de terminal de alta calidad que capturen interacciones realistas de largo horizonte en diversos dominios. Sin embargo, la construcción de dichos datos a escala sigue siendo un desafío debido a dos requisitos clave: la \emph{Ejecutabilidad}, ya que cada instancia requiere un entorno Docker adecuado y a menudo distinto; y la \emph{Verificabilidad}, porque los resultados heterogéneos de las tareas impiden una verificación unificada y estandarizada. Para abordar estos desafíos, proponemos TerminalTraj, una canalización escalable que (i) filtra repositorios de alta calidad para construir entornos de ejecución Dockerizados, (ii) genera instancias de tareas alineadas con Docker, y (iii) sintetiza trayectorias de agentes con código de validación ejecutable. Utilizando TerminalTraj, hemos recopilado 32K imágenes de Docker y generado 50,733 trayectorias de terminal verificadas en ocho dominios. Los modelos entrenados con estos datos utilizando la arquitectura Qwen2.5-Coder logran mejoras de rendimiento consistentes en TerminalBench (TB), con ganancias de hasta el 20\% en TB~1.0 y el 10\% en TB~2.0 respecto a sus respectivas arquitecturas base. Cabe destacar que TerminalTraj-32B alcanza un rendimiento sólido entre los modelos con menos de 100B de parámetros, llegando al 35.30\% en TB~1.0 y al 22.00\% en TB~2.0, y demuestra un mejor comportamiento de escalado en tiempo de prueba. Todo el código y los datos están disponibles en https://github.com/Wusiwei0410/TerminalTraj.
Los Modelos de Lenguaje Grandes (LLM) enfrentan desafíos significativos en el procesamiento de contextos largos, incluyendo costos computacionales cuadráticos, olvido de información y la fragmentación contextual inherente a la generación aumentada por recuperación (RAG). Proponemos un marco de trabajo inspirado en la cognición para la inferencia eficiente en contextos largos, basado en la compresión por fragmentos y la recuperación selectiva de memoria, en lugar de procesar todos los tokens en bruto. El marco segmenta las entradas largas en fragmentos y codifica cada uno en representaciones de memoria comprimidas utilizando un compresor aprendido. Un módulo de compuerta selecciona dinámicamente bloques de memoria relevantes, que luego son procesados iterativamente por un módulo de razonamiento con una memoria de trabajo en evolución para resolver tareas posteriores. El compresor y el razonador se optimizan conjuntamente mediante aprendizaje por refuerzo de extremo a extremo, mientras que el módulo de compuerta se entrena por separado como un clasificador. Los resultados experimentales muestran que el método propuesto logra una precisión competitiva en benchmarks de razonamiento multi-etapa como RULER-HQA, extrapola la longitud del contexto de 7K a 1.75M tokens, y ofrece un equilibrio favorable entre precisión y eficiencia en comparación con líneas base sólidas para contextos largos. En particular, logra una reducción de hasta 2 veces en el uso máximo de memoria GPU y una aceleración de la inferencia 6 veces mayor que MemAgent.
La dirección de activación ha surgido como un enfoque prometedor para adaptar eficientemente los grandes modelos de lenguaje (LLM) a comportamientos posteriores. Sin embargo, la mayoría de los métodos de dirección existentes se basan en una única dirección estática por tarea o concepto, lo que los hace inflexibles ante variaciones de la tarea e inadecuados para tareas complejas que requieren múltiples capacidades coordinadas. Para abordar esta limitación, proponemos STEER2ADAPT, un marco liviano que adapta los LLM componiendo vectores de dirección en lugar de aprender nuevos desde cero. En muchos dominios (por ejemplo, razonamiento o seguridad), las tareas comparten un pequeño conjunto de dimensiones conceptuales subyacentes. STEER2ADAPT captura estas dimensiones como un subespacio semántico previo reutilizable y de baja dimensión, y se adapta a nuevas tareas descubriendo dinámicamente una combinación lineal de vectores base a partir de solo un puñado de ejemplos. Los experimentos en 9 tareas y 3 modelos, tanto en dominios de razonamiento como de seguridad, demuestran la efectividad de STEER2ADAPT, logrando una mejora promedio del 8.2%. Análisis exhaustivos muestran además que STEER2ADAPT es un método de adaptación en tiempo de inferencia eficiente en datos, estable y transparente para LLM.
Los transformadores de difusión suelen incorporar información textual mediante capas de atención y un mecanismo de modulación que utiliza una incrustación de texto agrupada. Sin embargo, enfoques recientes descartan el condicionamiento textual basado en modulación y dependen exclusivamente de la atención. En este artículo, abordamos si el condicionamiento textual basado en modulación es necesario y si puede ofrecer alguna ventaja de rendimiento. Nuestro análisis muestra que, en su uso convencional, la incrustación agrupada contribuye poco al rendimiento general, lo que sugiere que la atención por sí sola es generalmente suficiente para propagar fielmente la información del prompt. No obstante, revelamos que la incrustación agrupada puede proporcionar ganancias significativas cuando se utiliza desde una perspectiva diferente: sirviendo como guía y permitiendo desplazamientos controlables hacia propiedades más deseables. Este enfoque no requiere entrenamiento, es simple de implementar, incurre en una sobrecarga computacional insignificante y puede aplicarse a varios modelos de difusión, aportando mejoras en diversas tareas, incluyendo la generación de texto a imagen/video y la edición de imágenes.
En este trabajo presentamos Covo-Audio, un LALM integral de 7B parámetros que procesa directamente entradas de audio continuo y genera salidas de audio dentro de una única arquitectura unificada. Mediante un preentrenamiento a gran escala cuidadosamente seleccionado y un post-entrenamiento dirigido, Covo-Audio logra un rendimiento de vanguardia o competitivo entre modelos de escala comparable en un amplio espectro de tareas, incluyendo modelado texto-habla, diálogo hablado, comprensión del habla, comprensión de audio e interacción vocal full-duplex. Evaluaciones exhaustivas demuestran que el modelo base preentrenado exhibe sólidas capacidades de comprensión texto-habla y razonamiento semántico en múltiples benchmarks, superando a modelos representativos de código abierto de escala comparable. Además, Covo-Audio-Chat, la variante orientada al diálogo, demuestra sólidas habilidades conversacionales orales, incluyendo comprensión, razonamiento contextual, seguimiento de instrucciones y generación de respuestas contextualmente apropiadas y empáticas, validando su aplicabilidad en escenarios de asistentes conversacionales del mundo real. Covo-Audio-Chat-FD, el modelo evolucionado full-duplex, logra un rendimiento sustancialmente superior tanto en capacidades de diálogo hablado como en comportamientos de interacción full-duplex, demostrando su competencia en robustez práctica. Para mitigar el alto costo de implementar LALMs integrales en sistemas conversacionales naturales, proponemos una estrategia de desacoplamiento inteligencia-altavoz que separa la inteligencia de diálogo de la representación vocal, permitiendo una personalización flexible de la voz con datos mínimos de texto a voz (TTS) mientras se preserva el rendimiento conversacional. En general, nuestros resultados destacan el fuerte potencial de los modelos de escala 7B para integrar inteligencia de audio sofisticada con razonamiento semántico de alto nivel, y sugieren una ruta escalable hacia LALMs más capaces y versátiles.
El razonamiento de cadena de pensamiento (CoT) y sus variantes han mejorado sustancialmente el rendimiento de los modelos de lenguaje en tareas de razonamiento complejo, sin embargo, los mecanismos precisos mediante los cuales las diferentes estrategias facilitan la generalización siguen siendo poco comprendidos. Si bien las explicaciones actuales a menudo señalan un aumento en el cómputo en el momento de la prueba o una guía estructural, establecer un vínculo consistente y cuantificable entre estos factores y la generalización sigue siendo un desafío. En este trabajo, identificamos la dimensionalidad intrínseca como una medida cuantitativa para caracterizar la efectividad de las cadenas de razonamiento. La dimensionalidad intrínseca cuantifica el número mínimo de dimensiones del modelo necesarias para alcanzar un umbral de precisión determinado en una tarea dada. Al mantener la arquitectura del modelo fija y variar la formulación de la tarea mediante diferentes estrategias de razonamiento, demostramos que las estrategias de razonamiento efectivas reducen consistentemente la dimensionalidad intrínseca de la tarea. Validando esto en GSM8K con Gemma-3 1B y 4B, observamos una fuerte correlación inversa entre la dimensionalidad intrínseca de una estrategia de razonamiento y su rendimiento de generalización tanto en datos de distribución interna como externa. Nuestros hallazgos sugieren que las cadenas de razonamiento efectivas facilitan el aprendizaje al comprimir mejor la tarea utilizando menos parámetros, ofreciendo una nueva métrica cuantitativa para analizar los procesos de razonamiento.
Los Modelos de Lenguaje Grandes (LLMs) han mostrado potencial para resolver problemas matemáticos complejos, pero aún no logran producir soluciones precisas y consistentes. El Aprendizaje por Refuerzo (RL) es un marco para alinear estos modelos con recompensas específicas de la tarea, mejorando la calidad general y la fiabilidad. La Optimización de Políticas Relativa al Grupo (GRPO) es una alternativa eficiente y libre de función de valor a la Optimización de Políticas Proximales (PPO) que aprovecha la normalización de recompensas relativa al grupo. Introducimos la Optimización de Políticas Relativa al Grupo Iterativa (iGRPO), una extensión de GRPO en dos etapas que añade auto-condicionamiento dinámico mediante borradores generados por el modelo. En la Etapa 1, iGRPO muestrea múltiples borradores exploratorios y selecciona el borrador con mayor recompensa utilizando la misma señal de recompensa escalar empleada para la optimización. En la Etapa 2, añade este mejor borrador al *prompt* original y aplica una actualización al estilo GRPO sobre refinamientos condicionados por el borrador, entrenando la política para mejorar más allá de su intento previo más sólido. Con presupuestos de *rollout* equivalentes, iGRPO supera consistentemente a GRPO en varios modelos base (por ejemplo, Nemotron-H-8B-Base-8K y DeepSeek-R1 Distilled), validando su eficacia en diversos puntos de referencia de razonamiento. Además, aplicar iGRPO a OpenReasoning-Nemotron-7B entrenado en AceReason-Math logra nuevos resultados de vanguardia del 85.62 % y 79.64 % en AIME24 y AIME25, respectivamente. Las ablaciones muestran además que el *wrapper* de refinamiento generaliza más allá de las variantes de GRPO, se beneficia de un juez generativo y altera la dinámica de aprendizaje al retrasar el colapso de la entropía. Estos resultados subrayan el potencial del RL iterativo basado en auto-retroalimentación para avanzar en el razonamiento matemático verificable.
La escalabilidad efectiva de la automatización de interfaces gráficas de usuario (GUI) es esencial para los agentes de uso informático (CUA); sin embargo, los trabajos existentes se centran principalmente en escalar el anclaje de la GUI en lugar de la planificación de la GUI, que es más crucial y requiere una recolección de datos más sofisticada. En la realidad, el proceso de exploración de un CUA a través de aplicaciones, escritorios o páginas web suele seguir una estructura de árbol, donde los puntos de entrada funcionales más tempranos suelen explorarse con mayor frecuencia. Por lo tanto, organizar las trayectorias a gran escala en estructuras arbóreas puede reducir el costo de datos y agilizar la escalabilidad de datos para la planificación de GUI. En este trabajo, proponemos TreeCUA para escalar eficientemente la automatización de GUI mediante una evolución verificable de estructura arbórea. Proponemos un marco de colaboración multiagente para explorar el entorno, verificar acciones, resumir trayectorias y evaluar la calidad, con el fin de generar trayectorias de GUI escalables y de alta calidad. Para mejorar la eficiencia, diseñamos una topología novedosa basada en árboles para almacenar y reproducir nodos de exploración duplicados, y diseñamos un algoritmo de exploración adaptativa para equilibrar la profundidad (es decir, la dificultad de la trayectoria) y la amplitud (es decir, la diversidad de la trayectoria). Además, desarrollamos una guía de conocimiento del mundo y una retroalimentación de memoria global para evitar generaciones de baja calidad. Finalmente, extendemos de forma natural y proponemos el método TreeCUA-DPO a partir de la abundante información de los nodos del árbol, mejorando la capacidad de planificación de GUI al referirse a la información de ramas de trayectorias adyacentes. Los resultados experimentales muestran que TreeCUA y TreeCUA-DPO ofrecen mejoras significativas, y los estudios fuera de dominio (OOD) demuestran además una fuerte generalización. Toda la información de los nodos de trayectoria y el código estarán disponibles en https://github.com/UITron-hub/TreeCUA.
Los agentes GUI de extremo a extremo para entornos de escritorio reales requieren grandes cantidades de datos de interacción de alta calidad; sin embargo, la recolección de demostraciones humanas es costosa y las canalizaciones sintéticas existentes a menudo adolecen de una diversidad de tareas limitada o trayectorias ruidosas con desviación del objetivo. Presentamos Anchor, un marco de expansión de trayectorias que genera supervisión de escritorio escalable a partir de un pequeño conjunto de demostraciones semilla verificadas. Partiendo de cada semilla, identificamos puntos de bifurcación que corresponden a cambios de estado significativos y proponemos nuevas variantes de tareas ancladas en el estado, condicionadas por el contexto GUI actual. Un agente ejecutor sigue luego las instrucciones propuestas para generar nuevas trayectorias, mientras que un verificador hace cumplir la finalización de la tarea mediante comprobaciones conscientes del estado y coherencia a nivel de trayectoria. Para mejorar la calidad de la supervisión, aplicamos además un filtrado a nivel de paso condicionado por la tarea para eliminar acciones no fundamentadas y eliminamos el ruido de los segmentos posteriores a la bifurcación para mantener una intención coherente. Los experimentos en benchmarks estándar de escritorio, OSWorld y WindowsAgentArena, muestran que los modelos ajustados con nuestro corpus expandido logran mejoras consistentes respecto a los agentes *zero-shot* y líneas base de síntesis representativas, y generalizan a través de aplicaciones y sistemas operativos.
La recolección de datos del mundo real para agentes corporizados sigue siendo costosa y peligrosa, lo que exige entornos 3D escalables, realistas y listos para simulación. Sin embargo, los sistemas de generación de escenas existentes a menudo dependen de pipelines basados en reglas o específicos de tareas, produciendo artefactos y escenas físicamente inválidas. Presentamos SAGE, un marco agéntico que, dada una tarea corporizada especificada por el usuario (por ejemplo, "recoger un bol y colocarlo en la mesa"), comprende la intención y genera automáticamente entornos listos para simulación a escala. El agente combina múltiples generadores para el diseño y la composición de objetos con críticos que evalúan la plausibilidad semántica, el realismo visual y la estabilidad física. Mediante un razonamiento iterativo y una selección adaptativa de herramientas, el sistema autorrefina las escenas hasta cumplir con la intención del usuario y la validez física. Los entornos resultantes son realistas, diversos y directamente implementables en simuladores modernos para el entrenamiento de políticas. Las políticas entrenadas únicamente con estos datos exhiben claras tendencias de escalado y se generalizan a objetos y diseños no vistos, demostrando la promesa del escalado impulsado por simulación para la IA corporizada. El código, las demos y el conjunto de datos SAGE-10k pueden encontrarse en la página del proyecto aquí: https://nvlabs.github.io/sage.
Este artículo cuestiona el predominio de los modelos de pipeline continuos en la generación visual. Investigamos sistemáticamente la brecha de rendimiento entre los métodos discretos y continuos. Contrario a la creencia de que los tokenizadores discretos son intrínsecamente inferiores, demostramos que la disparidad surge principalmente del número total de bits asignados en el espacio latente (es decir, la tasa de compresión). Mostramos que escalar el tamaño del codebook permite cerrar esta brecha eficazmente, permitiendo que los tokenizadores discretos igualen o superen a sus contrapartes continuas. Sin embargo, los métodos de generación discreta existentes tienen dificultades para capitalizar este hallazgo, sufriendo de degradación en el rendimiento o costos de entrenamiento prohibitivos con un codebook escalado. Para abordar esto, proponemos el modelado autoregresivo de bits enmascarados (BAR, por sus siglas en inglés), un marco escalable que admite tamaños de codebook arbitrarios. Al equipar un transformador autoregresivo con una cabeza de modelado de bits enmascarados, BAR predice tokens discretos mediante la generación progresiva de sus bits constituyentes. BAR logra un nuevo estado del arte con un gFID de 0.99 en ImageNet-256, superando a los métodos líderes en los paradigmas continuo y discreto, a la vez que reduce significativamente los costos de muestreo y converge más rápido que los enfoques continuos anteriores. La página del proyecto está disponible en https://bar-gen.github.io/
El pensamiento paralelo ha surgido como un nuevo paradigma para los grandes modelos de razonamiento (LRM) en la resolución de problemas complejos. Métodos recientes utilizan el Aprendizaje por Refuerzo (RL) para mejorar el pensamiento paralelo, con el objetivo de abordar las limitaciones en recursos computacionales y efectividad encontradas con el ajuste fino supervisado. Sin embargo, la mayoría de los estudios existentes se centran principalmente en optimizar la fase de agregación, prestando una atención limitada a la etapa de exploración de caminos. En este artículo, analizamos teóricamente la optimización del pensamiento paralelo bajo el marco de Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), e identificamos que el cuello de botella de información mutua entre los caminos de exploración restringe fundamentalmente el rendimiento general. Para abordar esto, proponemos la Exploración de Caminos Guiada por Esquemas (OPE), que divide explícitamente el espacio de soluciones generando diversos esquemas de razonamiento antes del razonamiento paralelo de caminos, reduciendo así la redundancia de información y mejorando la diversidad de la información capturada en los distintos caminos de exploración. Implementamos OPE con una estrategia de RL iterativa que optimiza de forma independiente la planificación de esquemas y el razonamiento guiado por esquemas. Experimentos exhaustivos en múltiples benchmarks matemáticos desafiantes demuestran que OPE mejora efectivamente el rendimiento del razonamiento en diferentes estrategias de agregación, permitiendo a los LRM descubrir soluciones correctas de manera más fiable.
La planificación se ha convertido una capacidad central para los sistemas de agentes contemporáneos en la navegación de tareas complejas de horizonte largo; sin embargo, los enfoques existentes dependen predominantemente de estructuras de planificación fijas y diseñadas a mano que carecen de la flexibilidad para adaptarse a la diversidad estructural de problemas abiertos. Para abordar esta limitación, presentamos TodoEvolve, un paradigma de meta-planificación que sintetiza de forma autónoma y revisa dinámicamente arquitecturas de planificación específicas para cada tarea. Específicamente, primero construimos PlanFactory, un espacio de diseño modular que estandariza diversos paradigmas de planificación dentro de una base de código unificada que abarca topología, inicialización, adaptación y navegación, proporcionando así una interfaz común para patrones de planificación heterogéneos. Aprovechando PlanFactory, recopilamos trayectorias de planificación de alta calidad y entrenamos Todo-14B mediante Optimización de Preferencias Guiada por Impedancia (IGPO), un objetivo de aprendizaje por refuerzo multi-objetivo que fomenta la generación de sistemas de planificación que son eficaces, estables y eficientes en tokens para tareas arbitrarias y *backbones* de agentes. Las evaluaciones empíricas en cinco benchmarks de agentes demuestran que TodoEvolve supera consistentemente a módulos de planificación cuidadosamente diseñados, manteniendo al mismo tiempo costes de API y sobrecarga de tiempo de ejecución económicos.
Los métodos de descomposición de activaciones en modelos de lenguaje están estrechamente vinculados a supuestos geométricos sobre cómo se materializan los conceptos en el espacio de activaciones. Los enfoques existentes buscan direcciones globales individuales, asumiendo implícitamente una separabilidad lineal, lo que pasa por alto conceptos con una estructura no lineal o multidimensional. En este trabajo, utilizamos Mezclas de Analizadores Factoriales (MFA) como una alternativa escalable y no supervisada que modela el espacio de activaciones como una colección de regiones gaussianas con su estructura de covarianza local. El MFA descompone las activaciones en dos objetos geométricos compositivos: el centroide de la región en el espacio de activaciones y la variación local desde el centroide. Entrenamos MFAs a gran escala para Llama-3.1-8B y Gemma-2-2B, y demostramos que capturan estructuras complejas y no lineales en el espacio de activaciones. Además, las evaluaciones en benchmarks de localización y control muestran que el MFA supera a los métodos de base no supervisados, es competitivo con los métodos de localización supervisados y, a menudo, logra un rendimiento de control más sólido que los autocodificadores dispersos. En conjunto, nuestros hallazgos posicionan la geometría local, expresada a través de subespacios, como una unidad de análisis prometedora para el descubrimiento escalable de conceptos y el control de modelos, teniendo en cuenta estructuras complejas que las direcciones aisladas no logran capturar.
La decodificación por difusión paralela puede acelerar la inferencia de los modelos de lenguaje de difusión desenmascarando múltiples tokens por paso, pero el paralelismo agresivo a menudo perjudica la calidad. La decodificación revocable mitiga esto mediante la revisión de tokens anteriores; sin embargo, observamos que los esquemas de verificación existentes frecuentemente desencadenan oscilaciones de tipo "flip-flop", donde los tokens se vuelven a enmascarar y luego se restauran sin cambios. Este comportamiento ralentiza la inferencia de dos maneras: el reenmascaramiento de posiciones verificadas debilita el contexto de condicionamiento para el borrador paralelo, y los ciclos repetidos de reenmascaramiento consumen el presupuesto de revisión con un progreso neto mínimo. Proponemos COVER (Verificación por Anulación de Caché para una Revisión Eficiente), que realiza una verificación "leave-one-out" y un borrado estable en una sola pasada hacia adelante. COVER construye dos vistas de atención mediante la anulación de la caché KV: las semillas seleccionadas se enmascaran para su verificación, mientras que sus estados clave-valor en caché se inyectan para todas las demás consultas para preservar la información contextual, utilizando una corrección diagonal de forma cerrada que evita la filtración propia en las posiciones de semilla. COVER prioriza además las semillas utilizando una puntuación consciente de la estabilidad que equilibra la incertidumbre, la influencia descendente y la deriva de la caché, y adapta el número de semillas verificadas por paso. En diversos benchmarks, COVER reduce notablemente las revisiones innecesarias y produce una decodificación más rápida preservando la calidad de la salida.
Los modelos de lenguaje grandes (LLM) se utilizan cada vez más en el desarrollo de software, pero su tendencia a generar código inseguro sigue siendo una barrera importante para su implementación en el mundo real. Los métodos existentes de alineación de código seguro a menudo sufren de una paradoja funcionalidad-seguridad, mejorando la seguridad a costa de una degradación sustancial de la utilidad. Proponemos SecCoderX, un marco de aprendizaje por refuerzo en línea para la generación de código seguro que preserva la funcionalidad. SecCoderX primero conecta la detección de vulnerabilidades y la generación de código seguro reutilizando recursos de detección maduros de dos maneras: (i) sintetizando diversas tareas de codificación que inducen vulnerabilidades, basadas en la realidad, para los despliegues de RL en línea, y (ii) entrenando un modelo de recompensa de vulnerabilidad basado en razonamiento que proporciona una supervisión de seguridad escalable y confiable. Juntos, estos componentes se unifican en un bucle de RL en línea para alinear los LLM de código y que generen código seguro y funcional. Experimentos extensos demuestran que SecCoderX logra un rendimiento de vanguardia, mejorando la Tasa de Seguridad Efectiva (ESR) en aproximadamente un 10% sobre los modelos no alineados, mientras que los métodos anteriores a menudo degradan la ESR entre un 14% y un 54%. Publicamos nuestro código, conjunto de datos y puntos de control del modelo en https://github.com/AndrewWTY/SecCoderX.
Si bien el emparejamiento de flujos es elegante, su dependencia de velocidades condicionales de muestra única conduce a objetivos de entrenamiento de alta varianza que desestabilizan la optimización y ralentizan la convergencia. Al caracterizar explícitamente esta varianza, identificamos 1) un régimen de alta varianza cerca de la distribución previa, donde la optimización es desafiante, y 2) un régimen de baja varianza cerca de la distribución de datos, donde las velocidades condicionales y marginales casi coinciden. Aprovechando esta observación, proponemos Velocidad Estable (Stable Velocity), un marco unificado que mejora tanto el entrenamiento como el muestreo. Para el entrenamiento, presentamos Emparejamiento de Velocidad Estable (StableVM), un objetivo de reducción de varianza insesgado, junto con Alineación de Representación Consciente de la Varianza (VA-REPA), que refuerza adaptativamente la supervisión auxiliar en el régimen de baja varianza. Para la inferencia, mostramos que la dinámica en el régimen de baja varianza admite simplificaciones de forma cerrada, permitiendo el Muestreo de Velocidad Estable (StableVS), una aceleración que no requiere ajuste fino. Experimentos exhaustivos en ImageNet 256x256 y grandes modelos preentrenados de texto a imagen y texto a video, incluyendo SD3.5, Flux, Qwen-Image y Wan2.2, demuestran mejoras consistentes en la eficiencia del entrenamiento y un muestreo más de 2 veces más rápido dentro del régimen de baja varianza sin degradar la calidad de la muestra. Nuestro código está disponible en https://github.com/linYDTHU/StableVelocity.
La autocorrección es esencial para resolver problemas de razonamiento complejo en modelos de visión y lenguaje (VLM). Sin embargo, los métodos existentes de aprendizaje por refuerzo (RL) tienen dificultades para aprenderla, ya que los comportamientos efectivos de autocorrección emergen solo raramente, lo que genera señales de aprendizaje extremadamente dispersas. Para abordar este desafío, proponemos *correction-specific rollouts* (Octopus), un marco de aumento de rollouts de RL que sintetiza ejemplos densos de autocorrección recombinando rollouts existentes. Esta aumentación mejora simultáneamente la eficiencia muestral debido a la reutilización de rollouts y estabiliza la optimización de RL mediante una supervisión equilibrada. Además, introducimos una estrategia de enmascaramiento de respuestas que desacopla la autocorrección del razonamiento directo, evitando conflictos de señales y permitiendo que ambos comportamientos se aprendan efectivamente. Sobre esta base, presentamos Octopus-8B, un VLM de razonamiento con capacidad de autocorrección controlable. En 7 benchmarks, logra un rendimiento SoTA entre los VLM de código abierto, superando al mejor baseline RLVR por 1.0 puntos mientras requiere solo 0.72 veces el tiempo de entrenamiento por paso.
En este artículo, pretendemos conectar el entrenamiento en tiempo de prueba con un nuevo tipo de memoria paramétrica que puede descargarse o fusionarse de forma flexible con los parámetros del modelo. Presentamos Locas, una memoria paramétrica de Soporte Local que comparte el diseño de los bloques FFN en los transformadores modernos, lo que le permite ser permanentemente integrada en los parámetros del modelo mientras soporta un aprendizaje continuo eficiente. Discutimos dos variantes principales de Locas: una con un diseño convencional de MLP de dos capas que tiene una garantía teórica más clara; la otra comparte la misma estructura GLU-FFN con los LLMs de última generación y puede adjuntarse fácilmente a modelos existentes para un aprendizaje continuo eficiente en parámetros y en computación. Crucialmente, demostramos que una inicialización adecuada de estas memorias de tipo FFN lateral de bajo rango —realizada de manera fundamentada reutilizando parámetros del modelo, activaciones y/o gradientes— es esencial para una convergencia rápida, una mejora en la generalización y la prevención del olvido catastrófico. Validamos el mecanismo de memoria propuesto en las tareas de modelado de lenguaje de libros completos PG-19 y de respuesta a preguntas en diálogos de contexto largo LoCoMo. Con solo un 0.02% de parámetros adicionales en el caso más bajo, Locas-GLU es capaz de almacenar la información del contexto pasado manteniendo una ventana de contexto mucho más pequeña. Además, también probamos la pérdida de capacidad general del modelo después de memorizar el libro completo con Locas, mediante una evaluación comparativa MMLU. Los resultados muestran la prometedora capacidad de Locas para convertir el contexto pasado en conocimiento paramétrico permanente, minimizando el olvido catastrófico del conocimiento interno existente del modelo.
Los agentes de programación basados en LLM han demostrado un alto rendimiento en benchmarks de resolución automática de incidencias, aunque las evaluaciones existentes se centran principalmente en el éxito final de la tarea, proporcionando una visión limitada sobre cómo estos agentes recuperan y utilizan el contexto del código durante la resolución de problemas. Presentamos ContextBench, una evaluación orientada al proceso de la recuperación de contexto en agentes de programación. ContextBench consta de 1.136 tareas de resolución de incidencias procedentes de 66 repositorios en ocho lenguajes de programación, cada una aumentada con contextos de referencia anotados manualmente. Además, implementamos un marco de evaluación automatizado que rastrea las trayectorias de los agentes y mide la exhaustividad, precisión y eficiencia del contexto durante todo el proceso de resolución. Utilizando ContextBench, evaluamos cuatro LLMs de vanguardia y cinco agentes de programación. Nuestros resultados muestran que los sofisticados andamiajes de agentes producen solo mejoras marginales en la recuperación de contexto (la "Lección Amarga" de los agentes de programación), que los LLMs priorizan consistentemente la exhaustividad sobre la precisión, y que existen brechas sustanciales entre el contexto explorado y el utilizado. ContextBench complementa los benchmarks existentes de extremo a extremo con métricas intermedias de contexto de referencia que permiten analizar el proceso de resolución de incidencias. Estos contextos proporcionan señales intermedias valiosas para guiar el razonamiento de los LLMs en tareas de software.
El aprendizaje por refuerzo mejora sustancialmente el razonamiento en modelos de lenguaje grandes, pero también tiende a alargar las cadenas de pensamiento y aumentar el costo computacional durante el entrenamiento e inferencia. Aunque se han propuesto métodos de control de longitud, aún no está claro cuál es la longitud óptima de salida para equilibrar eficiencia y rendimiento. En este trabajo, comparamos varios métodos de control de longitud en dos modelos, Qwen3-1.7B Base y DeepSeek-R1-Distill-Qwen-1.5B. Nuestros resultados indican que las penalizaciones por longitud pueden dificultar la adquisición de razonamiento, mientras que un control de longitud adecuadamente ajustado puede mejorar la eficiencia en modelos con razonamiento previo sólido. Al extender trabajos anteriores a políticas entrenadas con RL, identificamos dos modos de fallo: 1) las salidas largas aumentan la dispersión, y 2) las salidas cortas conducen a un razonamiento insuficiente.
La falta de estado de los modelos base limita la capacidad de los sistemas agentivos para aprender continuamente, una capacidad fundamental para el razonamiento y la adaptación a largo plazo. Para abordar esta limitación, los sistemas agentivos suelen incorporar módulos de memoria para retener y reutilizar experiencias pasadas, con el objetivo de lograr un aprendizaje continuo durante el tiempo de prueba. Sin embargo, la mayoría de los diseños de memoria existentes son creados manualmente y son fijos, lo que limita su capacidad para adaptarse a la diversidad y no estacionariedad de las tareas del mundo real. En este artículo, presentamos ALMA (Diseños de Memoria de Meta-Aprendizaje Automatizado para Sistemas Agentivos), un marco que meta-aprende diseños de memoria para reemplazar los diseños de memoria diseñados a mano, minimizando así el esfuerzo humano y permitiendo que los sistemas agentivos sean aprendices continuos en diversos dominios. Nuestro enfoque emplea un Meta-Agente que busca diseños de memoria expresados como código ejecutable de manera abierta, permitiendo teóricamente el descubrimiento de diseños de memoria arbitrarios, incluyendo esquemas de bases de datos así como sus mecanismos de recuperación y actualización. Experimentos exhaustivos en cuatro dominios de toma de decisiones secuenciales demuestran que los diseños de memoria aprendidos permiten un aprendizaje más efectivo y eficiente a partir de la experiencia que los diseños de memoria creados manualmente más avanzados en todos los puntos de referencia. Cuando se desarrolla e implementa de forma segura, ALMA representa un paso hacia sistemas de IA que se auto-mejoran y aprenden a ser adaptativos y aprendices continuos.
Los agentes de IA equipados con capacidades de llamada a herramientas son susceptibles a ataques de Inyección Indirecta de Prompt (IPI). En este escenario de ataque, comandos maliciosos ocultos en contenido no confiable engañan al agente para que realice acciones no autorizadas. Las defensas existentes pueden reducir el éxito del ataque, pero a menudo sufren el dilema de la sobreprotección: implementan una sanitización costosa y permanente independientemente de la amenaza real, degradando así la utilidad y la latencia incluso en escenarios benignos. Revisamos el IPI desde una perspectiva de ablación causal: una inyección exitosa se manifiesta como un cambio de dominancia donde la solicitud del usuario ya no proporciona un apoyo decisivo para la acción privilegiada del agente, mientras que un segmento no confiable particular, como un documento recuperado o una salida de herramienta, proporciona una influencia atribuible desproporcionada. Basándonos en esta firma, proponemos CausalArmor, un marco de defensa selectivo que (i) calcula atribuciones ligeras basadas en ablación "leave-one-out" en puntos de decisión privilegiados, y (ii) activa una sanitización dirigida solo cuando un segmento no confiable domina la intención del usuario. Adicionalmente, CausalArmor emplea un enmascaramiento retroactivo de Cadena de Pensamiento para evitar que el agente actúe sobre trazas de razonamiento "envenenadas". Presentamos un análisis teórico que muestra que la sanitización basada en márgenes de atribución produce condicionalmente un límite superior exponencialmente pequeño en la probabilidad de seleccionar acciones maliciosas. Experimentos en AgentDojo y DoomArena demuestran que CausalArmor iguala la seguridad de las defensas agresivas mientras mejora la explicabilidad y preserva la utilidad y latencia de los agentes de IA.
La inyección indirecta de instrucciones amenaza a los agentes de LLM al incrustar instrucciones maliciosas en contenido externo, permitiendo acciones no autorizadas y robo de datos. Los agentes de LLM mantienen memoria de trabajo mediante su ventana de contexto, que almacena el historial de interacciones para la toma de decisiones. Los agentes convencionales acumulan indiscriminadamente todas las salidas de herramientas y trazas de razonamiento en esta memoria, creando dos vulnerabilidades críticas: (1) las instrucciones inyectadas persisten durante todo el flujo de trabajo, otorgando a los atacantes múltiples oportunidades para manipular el comportamiento, y (2) el contenido verboso y no esencial degrada las capacidades de toma de decisiones. Las defensas existentes tratan la memoria inflada como un hecho dado y se centran en mantener la resiliencia, en lugar de reducir la acumulación innecesaria para prevenir el ataque. Presentamos AgentSys, un marco que se defiende contra la inyección indirecta de instrucciones mediante gestión explícita de memoria. Inspirado por el aislamiento de memoria de procesos en sistemas operativos, AgentSys organiza a los agentes jerárquicamente: un agente principal genera agentes de trabajo para llamadas a herramientas, cada uno ejecutándose en un contexto aislado y pudiendo generar trabajadores anidados para subtareas. Los datos externos y las trazas de subtareas nunca entran en la memoria del agente principal; solo los valores de retorno validados por esquema pueden cruzar los límites mediante análisis determinista de JSON. Las ablaciones muestran que el aislamiento por sí solo reduce el éxito del ataque al 2.19%, y añadir un validador/sanitizador mejora aún más la defensa con verificaciones activadas por eventos, cuya sobrecarga escala con las operaciones y no con la longitud del contexto. En AgentDojo y ASB, AgentSys logra un 0.78% y 4.25% de éxito de ataque mientras mejora ligeramente la utilidad benigna respecto a líneas base indefensas. Permanece robusto frente a atacantes adaptativos y en múltiples modelos fundacionales, demostrando que la gestión explícita de memoria permite arquitecturas de agentes de LLM dinámicas y seguras. Nuestro código está disponible en: https://github.com/ruoyaow/agentsys-memory.
Los Modelos de Visión y Lenguaje (VLMs) han logrado un rendimiento impresionante en la comprensión multimodal de entradas textuales y visuales, sin embargo, los puntos de referencia existentes se centran predominantemente en consultas de texto puro. En escenarios del mundo real, el lenguaje también aparece frecuentemente como texto visualizado incrustado en imágenes, lo que plantea la pregunta de si los VLMs actuales manejan tales solicitudes de entrada de manera comparable. Presentamos VISTA-Bench, un punto de referencia sistemático que abarca desde la percepción multimodal y el razonamiento, hasta dominios de comprensión unimodal. Evalúa la comprensión del texto visualizado contrastando preguntas de texto puro y de texto visualizado bajo condiciones de renderizado controladas. La evaluación exhaustiva de más de 20 VLMs representativos revela una brecha de modalidad pronunciada: los modelos que funcionan bien en consultas de texto puro a menudo se degradan sustancialmente cuando el contenido semántico equivalente se presenta como texto visualizado. Esta brecha se amplifica aún más por una mayor dificultad perceptual, lo que destaca la sensibilidad a las variaciones de renderizado a pesar de una semántica inalterada. En general, VISTA-Bench proporciona un marco de evaluación fundamentado para diagnosticar esta limitación y guiar el progreso hacia representaciones lingüísticas más unificadas a través de texto tokenizado y píxeles. El conjunto de datos fuente está disponible en https://github.com/QingAnLiu/VISTA-Bench.
El entrenamiento durante la prueba (TTT) adapta los modelos de lenguaje mediante actualizaciones basadas en gradientes durante la inferencia. Pero, ¿es la adaptación la estrategia correcta? Estudiamos estrategias óptimas en cuanto a cómputo para tareas de ejecución verificable (VEG), dominios como la optimización de kernels de GPU donde un evaluador determinista proporciona señales de recompensa densas y continuas. Utilizando KernelBench como banco de pruebas y un modelo de 120B parámetros (GPT-OSS-120B con adaptación LoRA), encontramos que la búsqueda supera a la adaptación mínima (1-5 pasos de gradiente): el muestreo del mejor de N logra un 90% de éxito en la tarea (18/20 tareas) en K=64 en todo el conjunto de evaluación L1 de KernelBench, mientras que el mejor checkpoint de TTT alcanza solo un 30.6% (media de 3 semillas), con el "K equivalente" de TTT cayendo por debajo de 1, peor que la inferencia de una sola muestra. El modo de fallo es el sobre-afinamiento: las actualizaciones de gradiente colapsan la diversidad hacia soluciones mediocres en lugar de descubrir las óptimas. Nuestra principal contribución es la selección guiada por sorpresa: seleccionar la muestra correcta con mayor sorpresa (menor confianza) produce un 80% de éxito frente al 50% de la selección más confiada, una mejora del 30%. Extendiéndolo a la selección guiada por sorpresa-top3 iguala el rendimiento del oráculo al 100%. Esta estrategia de costo cero, validada mediante análisis controlado por longitud, recupera el rendimiento del oráculo. Para tareas VEG con recompensa densa, el cómputo debe asignarse a la diversidad de muestras y a la selección inteligente en lugar de a la adaptación por gradiente. El principio de selección guiada por sorpresa puede generalizarse a otros dominios de ejecución donde las soluciones óptimas ocupan la cola de la distribución.
Los modelos generativos en tiempo continuo, como los modelos de difusión, el *flow matching* y el *rectified flow*, aprenden campos vectoriales dependientes del tiempo, pero normalmente se entrenan con objetivos que tratan los intervalos de tiempo de forma independiente, lo que genera una alta varianza del estimador y un muestreo ineficiente. Enfoques previos mitigan esto mediante penalizaciones explícitas de suavidad, regularización de trayectorias o modificaciones de las trayectorias de probabilidad y los solucionadores. Introducimos la Consistencia Temporal por Pares (TPC, por sus siglas en inglés), un principio ligero de reducción de varianza que acopla las predicciones de velocidad en intervalos de tiempo emparejados a lo largo de la misma trayectoria de probabilidad, operando completamente a nivel del estimador sin modificar la arquitectura del modelo, la trayectoria de probabilidad o el solucionador. Proporcionamos un análisis teórico que muestra que TPC induce una regularización cuadrática y acoplada a la trayectoria que, de forma demostrable, reduce la varianza del gradiente mientras preserva el objetivo subyacente de *flow matching*. Instanciado dentro del *flow matching*, TPC mejora la calidad y eficiencia del muestreo en CIFAR-10 e ImageNet a múltiples resoluciones, logrando un FID más bajo con un coste computacional idéntico o inferior al de métodos anteriores, y se extiende sin problemas a pipelines modernos de estilo *state-of-the-art* (SOTA) con entrenamiento aumentado por ruido, eliminación de ruido basada en *scores* y *rectified flow*.
Los modelos de lenguaje a gran escala (LLMs) se despliegan cada vez más en dominios de alto riesgo, donde fallos raros pero graves pueden resultar en daños irreversibles. Sin embargo, los puntos de referencia de evaluación predominantes a menudo reducen el riesgo social complejo a puntuaciones escalares centradas en la media, oscureciendo así la estructura distribucional, las interacciones cruzadas entre dimensiones y el comportamiento en el peor de los casos. Este artículo presenta el Análisis de Daño Social mediante Perfiles de Riesgo (SHARP), un marco para la evaluación multidimensional y consciente de la distribución del daño social. SHARP modela el daño como una variable aleatoria multivariante e integra una descomposición explícita en sesgo, equidad, ética y confiabilidad epistémica con una agregación de unión de fallos reparametrizada como riesgo logarítmico acumulativo aditivo. El marco emplea además estadísticas distribucionales sensibles al riesgo, con el Valor en Riesgo Condicional (CVaR95) como métrica principal, para caracterizar el comportamiento del modelo en el peor caso. La aplicación de SHARP a once LLMs de vanguardia, evaluados en un corpus fijo de n=901 indicaciones socialmente sensibles, revela que modelos con un riesgo promedio similar pueden exhibir diferencias de más del doble en la exposición y volatilidad de las colas. En todos los modelos, el comportamiento marginal de la cola varía sistemáticamente entre las dimensiones de daño, mostrando el sesgo las severidades de cola más fuertes, los riesgos epistémicos y de equidad ocupando regímenes intermedios, y la desalineación ética consistentemente más baja; en conjunto, estos patrones revelan estructuras de fallo heterogéneas y dependientes del modelo que los puntos de referencia escalares fusionan. Estos hallazgos indican que la evaluación y gobernanza responsable de los LLMs requieren ir más allá de los promedios escalares hacia una caracterización del riesgo multidimensional y sensible a las colas de la distribución.
Los despliegues modernos requieren que los LLM apliquen políticas de seguridad a escala; sin embargo, muchos controles se basan en intervenciones en tiempo de inferencia que añaden costes recurrentes de computación y complejidad en el servicio. La dirección de activaciones se usa ampliamente, pero requiere *hooks* en tiempo de ejecución y su coste escala con el número de generaciones; las variantes condicionales mejoran la selectividad mediante compuertas que deciden cuándo aplicar la dirección, pero aún mantienen una ruta de control en tiempo de inferencia. Nos preguntamos si la negativa selectiva puede trasladarse completamente fuera de línea: ¿puede una comprensión mecanicista de la negativa específica por categoría destilarse en una actualización de pesos restringida a un circuito que se despliegue como un *checkpoint* estándar? Proponemos C-Δθ: Aritmética de Pesos con Restricción de Circuito, que (i) localiza el cómputo causal de la negativa como un circuito disperso usando EAP-IG e (ii) calcula una actualización de pesos restringida ΔθC soportada únicamente en ese circuito (típicamente <5% de los parámetros). Aplicar ΔθC produce un *checkpoint* editado de sustitución directa, sin *hooks* en tiempo de inferencia, trasladando el coste de una intervención por petición a una actualización única fuera de línea. Evaluamos la selectividad dirigida por categoría y la retención de capacidades en benchmarks de negativa y utilidad.
Con el despliegue generalizado de Agentes de Uso Informático (CUAs) en entornos complejos del mundo real, los riesgos prevalentes a largo plazo suelen conducir a consecuencias graves e irreversibles. La mayoría de las protecciones existentes para CUAs adoptan un enfoque reactivo, restringiendo el comportamiento del agente únicamente dentro del espacio de observación actual. Si bien estas protecciones pueden prevenir riesgos inmediatos a corto plazo (por ejemplo, hacer clic en un enlace de phishing), no pueden evitar proactivamente los riesgos a largo plazo: acciones aparentemente razonables pueden conducir a consecuencias de alto riesgo que surgen con retraso (por ejemplo, la limpieza de registros provoca que futuras auditorías sean imposibles de rastrear), lo que las protecciones reactivas no pueden identificar dentro del espacio de observación actual. Para abordar estas limitaciones, proponemos un enfoque de protección predictiva, cuya idea central es alinear los riesgos futuros previstos con las decisiones actuales. Basándonos en este enfoque, presentamos SafePred, un marco de protección predictiva para CUAs que establece un bucle riesgo-decisión para garantizar un comportamiento seguro del agente. SafePred soporta dos capacidades clave: (1) Predicción de riesgos a corto y largo plazo: al utilizar políticas de seguridad como base para la predicción de riesgos, SafePred aprovecha la capacidad de predicción del modelo mundial para generar representaciones semánticas de riesgos tanto a corto como a largo plazo, identificando y podando así las acciones que conducen a estados de alto riesgo; (2) Optimización de decisiones: traduciendo los riesgos previstos en guías de decisión seguras y accionables mediante intervenciones a nivel de paso y replanificación a nivel de tarea. Experimentos exhaustivos demuestran que SafePred reduce significativamente los comportamientos de alto riesgo, logrando un rendimiento de seguridad superior al 97.6% y mejorando la utilidad de la tarea hasta en un 21.4% en comparación con los métodos de referencia reactivos.
El aprovechamiento de codificadores de representación para el modelado generativo ofrece un camino para una síntesis eficiente y de alta fidelidad. Sin embargo, los transformadores de difusión estándar no logran converger directamente sobre estas representaciones. Mientras que trabajos recientes atribuyen esto a un cuello de botella de capacidad, proponiendo un escalado de ancho computacionalmente costoso para los transformadores de difusión, nosotros demostramos que el fallo es fundamentalmente geométrico. Identificamos la Interferencia Geométrica como la causa principal: el modelo de flujo euclidiano estándar fuerza a las trayectorias de probabilidad a atravesar el interior de baja densidad del espacio de características hipersférico de los codificadores de representación, en lugar de seguir la superficie de la variedad. Para resolver esto, proponemos el Modelo de Flujo Riemanniano con Regularización de Jacobi (RJF, por sus siglas en inglés). Al restringir el proceso generativo a las geodésicas de la variedad y corregir la propagación de errores inducida por la curvatura, RJF permite que las arquitecturas estándar de Transformadores de Difusión converjan sin escalado de ancho. Nuestro método RJF permite que la arquitectura estándar DiT-B (131M parámetros) converja efectivamente, logrando un FID de 3.37 donde los métodos anteriores fallan en converger. Código: https://github.com/amandpkr/RJF
Ejecutar LLMs con razonamiento extendido en cada problema es costoso, pero determinar qué entradas realmente requieren capacidad de cálculo adicional sigue siendo un desafío. Investigamos si la propia probabilidad de éxito del modelo es recuperable a partir de sus representaciones internas antes de la generación, y si esta señal puede guiar una inferencia más eficiente. Entrenamos sondas lineales sobre las activaciones pre-generación para predecir el éxito específico de la política en tareas de matemáticas y codificación, superando sustancialmente a características superficiales como la longitud de la pregunta y TF-IDF. Utilizando E2H-AMC, que proporciona rendimiento tanto humano como del modelo en problemas idénticos, mostramos que los modelos codifican una noción de dificultad específica del modelo que es distinta de la dificultad humana, y que esta distinción aumenta con el razonamiento extendido. Aprovechando estas sondas, demostramos que enrutar consultas a través de un grupo de modelos puede superar al modelo de mejor rendimiento mientras se reduce el costo de inferencia hasta en un 70% en MATH, mostrando que las representaciones internas permiten ganancias prácticas de eficiencia incluso cuando divergen de las intuiciones humanas sobre la dificultad. Nuestro código está disponible en: https://github.com/KabakaWilliam/llms_know_difficulty
La Agrupación de Grafos con Atributos (AGC) es una tarea fundamental no supervisada que integra la topología estructural y los atributos de nodos para descubrir patrones latentes en datos con estructura de grafo. A pesar de su importancia en aplicaciones industriales como la detección de fraude y la segmentación de usuarios, persiste una brecha significativa entre la investigación académica y el despliegue en entornos reales. Los protocolos de evaluación actuales adolecen del uso de conjuntos de datos de citas a pequeña escala y con alta homofilia, paradigmas de entrenamiento por lotes completos no escalables, y una dependencia de métricas supervisadas que no reflejan el rendimiento en entornos con escasez de etiquetas. Para salvar estas brechas, presentamos PyAGC, un benchmark y biblioteca integral listo para producción, diseñado para someter a prueba métodos de AGC en diversas escalas y propiedades estructurales. Unificamos las metodologías existentes en un marco modular de Codificar-Agrup
La simulación se ha convertido en una herramienta clave para entrenar y evaluar robots domésticos a gran escala; sin embargo, los entornos existentes no logran capturar la diversidad y complejidad física de los espacios interiores reales. Los métodos actuales de síntesis de escenas producen habitaciones escasamente amuebladas que carecen del desorden denso, los muebles articulados y las propiedades físicas esenciales para la manipulación robótica. Presentamos SceneSmith, un marco agéntico jerárquico que genera entornos interiores listos para simulación a partir de instrucciones en lenguaje natural. SceneSmith construye escenas a través de etapas sucesivas—desde el diseño arquitectónico hasta la colocación de muebles y la población de objetos pequeños—cada una implementada como una interacción entre agentes VLM: diseñador, crítico y orquestador. El marco integra estrechamente la generación de recursos mediante síntesis de texto a 3D para objetos estáticos, la recuperación de conjuntos de datos para objetos articulados y la estimación de propiedades físicas. SceneSmith genera entre 3 y 6 veces más objetos que los métodos anteriores, con <2% de colisiones entre objetos y un 96% de los objetos permaneciendo estables bajo simulación física. En un estudio de usuarios con 205 participantes, logra tasas de preferencia del 92% en realismo promedio y del 91% en fidelidad promedio a la instrucción frente a los métodos de referencia. Además, demostramos que estos entornos pueden utilizarse en un proceso integral para la evaluación automática de políticas robóticas.