Artículos de investigación en IA seleccionados diariamente con traducciones
Los benchmarks de codificación a nivel de repositorio, como SWE-bench, han impulsado un rápido avance en las capacidades de los agentes de codificación. Sin embargo, suelen tratar las tareas de codificación como un problema holístico de predicción binaria (por ejemplo, resuelto o no resuelto), ignorando capacidades finas de los agentes como la comprensión del repositorio, la recuperación de contexto, la localización de código y el diagnóstico de errores. En este artículo presentamos SWE-Explore, un benchmark que aísla la evaluación de la exploración de repositorios, una capacidad crítica de los agentes de codificación. Dado un repositorio y una incidencia, SWE-Explore solicita a un explorador que devuelva una lista clasificada de regiones de código relevantes bajo un presupuesto fijo de líneas. SWE-Explore cubre 848 incidencias en 10 lenguajes de programación y 203 repositorios de código abierto. Para cada instancia, derivamos la verdad fundamental a nivel de línea a partir de trayectorias independientes de agentes que resolvieron exitosamente la misma incidencia, destilando las regiones de código específicas que sus rutas de solución realmente consultaron. Evaluamos la exploración en las dimensiones de cobertura, clasificación y eficiencia de contexto, mostrando que estas métricas se correlacionan fuertemente con el comportamiento de reparación posterior. En un amplio conjunto de métodos de recuperación, agentes de codificación generales y localizadores especializados, encontramos que los exploradores agentivos forman un nivel claramente superior a la recuperación clásica. Si bien la localización a nivel de archivo ya es sólida para los métodos modernos, la cobertura a nivel de línea y la clasificación eficiente siguen siendo los ejes clave que diferencian a los exploradores de vanguardia.
Los sistemas recientes de IA han alcanzado resultados sólidos en una amplia variedad de benchmarks, pero estos logros no se han traducido en un despliegue económicamente significativo en muchos ámbitos profesionales. Sostenemos que esta brecha es, en gran medida, un problema de evaluación: los benchmarks ampliamente utilizados carecen de una medición sostenida del rendimiento en flujos de trabajo reales y económicamente valiosos. Este artículo presenta Agents' Last Exam (ALE), un benchmark diseñado para evaluar agentes de IA en tareas del mundo real, de largo horizonte, económicamente valiosas y con resultados verificables. Desarrollado en colaboración con más de 250 expertos del sector, ALE abarca industrias no físicas definidas con referencia a O*NET / SOC 2018 (la taxonomía ocupacional federal de EE. UU.). Se organiza en torno a una taxonomía de tareas con 55 subcampos agrupados en 13 clústeres industriales que cubren más de 1,000 tareas. Los resultados actuales muestran que el nivel más difícil está lejos de saturarse: en configuraciones típicas de harness y backbone, la tasa promedio de aprobación completa es del 2.6%. ALE está diseñado como un benchmark vivo: su conjunto de tareas crece continuamente a medida que se incorporan nuevos flujos de trabajo e industrias. En un sentido más amplio, ALE no pretende ser simplemente otro ranking, sino un instrumento para cerrar la brecha entre el éxito en los benchmarks y el impacto relevante para el PIB.
La destilación on-policy (OPD) se utiliza cada vez más para mejorar el razonamiento de modelos de lenguaje grandes, pero su dinámica de entrenamiento sigue siendo poco comprendida. Caracterizamos la trayectoria de las actualizaciones de OPD en el espacio de parámetros y la comparamos con el ajuste fino supervisado (SFT) y el aprendizaje por refuerzo con recompensas verificables (RLVR). Un conjunto de diagnósticos en el espacio de parámetros sitúa consistentemente a OPD en un régimen relajado fuera de lo principal: en comparación con SFT, sus actualizaciones afectan a menos pesos y evitan las direcciones principales con mayor fuerza, mientras que, en comparación con RLVR, permanecen menos estrictamente restringidas. Más allá de esta localización estática, OPD exhibe un bloqueo de subespacio: sus actualizaciones acumulativas ingresan rápidamente en un canal estrecho y de baja dimensión. Restringir el entrenamiento al subespacio de actualización formado al inicio del entrenamiento preserva el rendimiento de OPD, pero degrada sustancialmente el SFT, lo que indica que el subespacio bloqueado es funcionalmente suficiente para OPD. Experimentos de control muestran además que la dispersión de los tokens de actualización y el cambio de la generación de rollout a off-policy preservan la dinámica de rango, mientras que mezclar el objetivo de OPD con RLVR la modifica. En conjunto, estos resultados sugieren que OPD no es simplemente un punto intermedio entre SFT y RLVR, sino que induce su propia geometría de actualización en el espacio de parámetros.
Los sistemas de agentes utilizan cada vez más habilidades textuales para codificar procedimientos de tareas reutilizables, pero la inyección de estas habilidades en el prompt en cada paso genera una sobrecarga sustancial de contexto y expone el contenido de las habilidades como texto plano. Presentamos LatentSkill, un marco que convierte habilidades textuales en adaptadores LoRA plug-and-play a través de una hiperred preentrenada. LatentSkill almacena el conocimiento de las habilidades en el espacio de pesos en lugar del espacio de contexto, eliminando los tokens de habilidad por paso mientras preserva la carga, escalado y composición modulares. En ALFWorld y Search-QA, LatentSkill supera la línea base de habilidad en contexto correspondiente mientras utiliza sustancialmente menos tokens de prellenado: mejora el éxito en ALFWorld en 21.4 y 13.4 puntos en las divisiones vistas y no vistas con un 64.1% menos de tokens de prellenado, y mejora el emparejamiento exacto en Search-QA en 3.0 puntos con un 72.2% menos de sobrecarga de tokens de habilidad. Análisis adicionales muestran que los LoRA de habilidad generados forman una geometría semántica estructurada, pueden controlarse con precisión mediante el coeficiente de escalado de LoRA, y pueden componerse mediante aritmética en el espacio de parámetros cuando los componentes de la habilidad están alineados. Estos hallazgos sugieren que las habilidades en el espacio de pesos proporcionan un sustrato eficiente, modular y menos expuesto para extender agentes LLM.
Los modelos de mundo de video que mantienen consistencia espacial 3D entre fotogramas generados típicamente dependen de una memoria explícita de nubes de puntos construida en el espacio RGB. Este diseño es computacionalmente costoso, ya que requiere renderizado repetido y codificación VAE, e inherentemente con pérdidas, ya que el viaje de ida y vuelta a través del espacio de píxeles descarta características ricas de la representación latente aprendida. En este artículo, introducimos la memoria espacial latente para modelos de mundo de video, una caché 3D persistente que almacena información de la escena directamente en el espacio latente de difusión, evitando la reconstrucción en el espacio de píxeles. Basándonos en esto, proponemos Mirage, un marco de memoria espacial en espacio latente que construye la memoria elevando tokens latentes a 3D mediante retroproyección guiada por profundidad y la consulta sintetizando nuevas vistas a través de deformación directa en el espacio latente. Esta formulación unificada elimina tanto la pérdida de información de la reconstrucción en espacio de píxeles como la carga computacional de la codificación y renderizado repetidos. Los experimentos muestran que la memoria espacial latente logra una generación de video de extremo a extremo hasta 10.57 veces más rápida y una reducción del 55 veces en el uso de memoria en comparación con las líneas base explícitas en 3D. Aprovechando la prioridad geométrica del modelo de difusión, Mirage alcanza un rendimiento de última generación en WorldScore y una fuerte calidad de reconstrucción en RealEstate10K.
Si bien los modelos recientes de edición de video guiada por texto se destacan en tareas elementales (p. ej., transferencia de estilo, inserción de objetos), las solicitudes de los usuarios en entornos reales son altamente compositivas. Una sola instrucción a menudo exige múltiples ediciones acopladas, como modificar sujetos, acciones y vistas de cámara, mientras se preserva estrictamente el contenido espacio-temporal no relacionado. Los puntos de referencia existentes, muy limitados por ediciones aisladas y métricas globales gruesas, no logran diagnosticar cómo los modelos manejan flujos de trabajo tan complejos. Para abordar esta brecha, presentamos CoVEBench, un punto de referencia de edición de video compositiva que comprende 416 videos fuente seleccionados, 626 instrucciones de edición multipunto y 9,990 elementos de lista de verificación detallados. Abarcando diversas dimensiones de edición, CoVEBench evalúa modelos mediante el cumplimiento de instrucciones juzgado por MLLM y la fidelidad del video, junto con métricas automatizadas de calidad de video. Experimentos exhaustivos revelan que la edición compositiva sigue siendo un desafío profundo: los modelos actuales omiten ediciones con frecuencia, violan restricciones de preservación o introducen artefactos al manejar múltiples operaciones simultáneamente. CoVEBench proporciona un banco de pruebas desafiante y diagnóstico para avanzar en la edición de video hacia flujos de trabajo de usuario realistas.
Los LLM convencionales mantienen toda la caché KV cargada durante la decodificación, lo que provoca un grave cuello de botella en la memoria de GPU para el servicio de contextos ultralargos. En este informe, proponemos la Atención Dispersa Predictiva (LSA, por sus siglas en inglés), un nuevo paradigma de inferencia impulsado por un Indexador de Memoria Neural construido sobre la arquitectura DeepSeek-V4. En lugar de atender pasivamente a todos los tokens históricos, LSA predice proactivamente las demandas futuras de contexto y conserva únicamente los fragmentos KV críticos para la consulta en la memoria de GPU. De manera crucial, materializamos esta arquitectura mediante una estrategia de entrenamiento desacoplado sin modelo base. Al formular el indexador como una arquitectura estándar de codificador dual, lo entrenamos de forma independiente utilizando marcos de entrenamiento de recuperación estándar, sin cargar nunca el modelo base masivo en la memoria de GPU. Demostramos que este paradigma de "menos es más" maximiza significativamente la eficiencia del servicio, a la vez que actúa como un eficaz denoizador de atención en tareas que dependen de la memoria global a largo plazo. En los principales conjuntos de evaluación de contexto largo (por ejemplo, LongBench-v2, LongMemEval y RULER), FM-DS-V4 comprime el tamaño medio de la caché KV física hasta apenas un 13.5 % de la línea base de contexto completo, mientras que mantiene o incluso mejora ligeramente la precisión en tareas posteriores (+0.6 % de margen absoluto en promedio). De manera crucial, en escalas extremas de 500K, FlashMemory reduce la sobrecarga de la caché KV física en más del 90 % sin desestabilizar las capacidades centrales de razonamiento del modelo base.
El razonamiento espacial es una capacidad fundamental para que los modelos de lenguaje grandes multimodales (MLLM) perciban y operen en el mundo físico. Sin embargo, los puntos de referencia existentes se basan predominantemente en la evaluación pasiva (por ejemplo, VQA estática) o en pipelines específicos del simulador, sin evaluar la comprensión espacial interactiva general. Presentamos SpatialWorld, un punto de referencia unificado diseñado específicamente para evaluar la comprensión espacial interactiva de agentes multimodales en tareas complejas del mundo real. Al integrar ocho backends de simulación heterogéneos bajo un protocolo compartido e independiente del simulador, SpatialWorld cuenta con 760 tareas anotadas por humanos en diversos dominios (por ejemplo, rutinas domésticas, viajes, colaboración social). Los agentes deben resolver tareas bajo observabilidad parcial únicamente visual, recopilando activamente evidencia visual egocéntrica y expresando decisiones a través de una interfaz de acción unificada basada en texto, nativa de los MLLM. Para una evaluación confiable, cada tarea incluye un estado inicial validado por humanos, una trayectoria de referencia y un verificador de estado terminal. La evaluación de 15 agentes avanzados revela que la resolución robusta de tareas espaciales sigue siendo un desafío: el modelo más fuerte, GPT-5, alcanza una tasa de éxito de tareas (TSR) promedio de solo el 17,4%, mientras que el modelo líder de código abierto, Qwen-3.5, alcanza el 14,1%. Un análisis adicional expone un claro desajuste entre el éxito de la tarea y la eficiencia de ejecución, junto con variaciones sustanciales de rendimiento específicas del dominio. Estos cuellos de botella en la exploración activa y la planificación a largo plazo posicionan a SpatialWorld como un banco de pruebas riguroso para futuros agentes espaciales.
Examinamos si los cuestionarios psicométricos humanos pueden servir como herramientas fiables para caracterizar y predecir el comportamiento de los modelos de lenguaje de gran escala (LLM) en interacciones cotidianas con usuarios. Analizamos ocho LLM de código abierto comparando sus perfiles de valores y personalidad derivados de dos métodos diferentes: autoinformes tipo Likert basados en cuestionarios establecidos (PVQ-40/21 y BFI-44/10) y probabilidades de generación sobre respuestas cargadas de valor a consultas cotidianas de usuarios. Ambos perfiles divergen sustancialmente. La consistencia de ítems dentro de un mismo constructo, frecuentemente citada como evidencia de disposiciones estables en los LLM, desaparece en las probabilidades de generación. Atribuimos esta brecha al hecho de que las pistas léxicas explícitas en los ítems de cuestionarios establecidos permiten a los modelos reconocer el constructo objetivo y responder de maneras socialmente deseables y coherentes con la alineación, mientras que las consultas realistas de los usuarios no proporcionan dichas pistas. Además, los avisos de personajes demográficos modifican las respuestas de los modelos a los cuestionarios humanos de manera consistente con los patrones humanos reales, pero no se observan tales cambios en las probabilidades de generación de respuestas a consultas realistas de usuarios, lo que demuestra su limitada capacidad para simular los comportamientos de grupos demográficos objetivo en interacciones reales con usuarios. En conjunto, nuestro estudio muestra que los cuestionarios psicométricos humanos son herramientas insuficientes para predecir el comportamiento de los LLM y sugiere la elaboración de perfiles basados en generación como una medida más precisa.
Presentamos Echo-Memory, un estudio controlado de mecanismos de memoria en modelos de mundo condicionados por acciones. Estos modelos generan videos de múltiples segmentos a partir de un primer fotograma, un texto de indicación y una secuencia de acciones de cámara, pero su fallo central suele ser la memoria más que la síntesis local de imágenes: tras alejarse la cámara y regresar, la escena u objeto destacado puede cambiar silenciosamente. Los diseños de memoria existentes son difíciles de comparar porque las mejoras se entrelazan con diferencias en la arquitectura base, el entrenamiento, la recuperación y la evaluación. Echo-Memory fija la interfaz entre acción y video, y varía únicamente cómo se almacena y lee el historial por parte del generador. Bajo una arquitectura base compartida de difusión de video, optimizador, representación de acciones de cámara, muestreador y canal de evaluación, comparamos contexto en bruto, memoria basada en compresión, resúmenes espaciales con diferentes rutas de lectura y recurrencia de espacio de estados. Esta matriz emparejada separa cuatro ejes que de otro modo estarían confundidos: capacidad, compresión, lectura y recurrencia. También evaluamos la memoria mediante un protocolo de tres ramas: calidad de reproducción, revisita de bucle dentro del dominio y sondas de retorno de dominio abierto. Las ramas suelen discrepar, lo que demuestra que la fidelidad de reproducción no es un indicador suficiente para recordar un mundo. Tres hallazgos se derivan de esto. El contexto en bruto es una línea base de capacidad sólida y mejora el retorno de dominio abierto mucho más de lo que mejora las métricas de reproducción. La compacidad no es un sustituto gratuito de la capacidad: las memorias agresivas de compresión espacial e híbrida pierden la evidencia relevante necesaria para el retorno. Finalmente, la recurrencia de espacio de estados por bloques es el mecanismo de retorno de dominio abierto más sólido en nuestra matriz, lo que muestra que la estructura de la memoria implícita importa tanto como la decisión de usarla. Estos resultados proporcionan un protocolo compacto para estudiar la memoria en modelos de mundo con acciones más allá de métricas de reproducción aisladas.
La inferencia de modelos de lenguaje de contexto largo está limitada por la memoria, ya que la caché KV crece con la longitud del contexto. Las técnicas recientes para comprimir la caché KV se quedan cortas: o bien degradan sustancialmente la calidad del modelo, o requieren un tiempo y cómputo considerables para comprimir una sola indicación larga. Además, muchos métodos exigen que la entrada quepa dentro de la ventana de contexto del modelo objetivo y, en general, son incompatibles con los motores de inferencia de producción modernos. Los compresores codificador-decodificador, que asignan una larga secuencia de tokens a una secuencia más corta de incrustaciones latentes consumidas por un decodificador, son una alternativa atractiva en principio. Sin embargo, los enfoques existentes no son competitivos con la compresión de la caché KV en la frontera precisión-eficiencia. En este trabajo, retomamos la compresión codificador-decodificador y cerramos esta brecha. Primero realizamos una búsqueda de arquitectura, preentrenando muchas variantes desde cero para determinar la mejor manera de diseñar y entrenar compresores codificador-decodificador. Guiados por nuestros hallazgos, preentrenamos continuamente una familia de modelos de codificador de 0.6B y decodificador de 4B en más de 350 mil millones de tokens cada uno, con tasas de compresión de 1:4, 1:8 y 1:16. Introducimos los Modelos de Lenguaje de Contexto Latente (LCLMs), una familia de compresores que mejoran la frontera de Pareto en rendimiento de tareas generales, velocidad de compresión y uso máximo de memoria. Demostramos que los LCLMs sirven como backbones eficientes para agentes de horizonte largo, permitiendo que el agente ojee un contexto largo comprimido y expanda adaptativamente segmentos relevantes bajo demanda.
Los agentes de modelos de visión-lenguaje (VLM) se implementan cada vez más en entornos de juego interactivos. Sin embargo, los benchmarks de juegos para agentes VLM normalmente reportan una única puntuación de primer intento por par (agente, juego), se centran en el juego individual (Solo) de un solo agente y carecen de protocolos unificados para evaluar clases heterogéneas de agentes (VLM comerciales, VLM de peso abierto y políticas de juego especializadas) en igualdad de condiciones. Abordamos estas brechas con OmniGameArena, un benchmark en tiempo real de doce nuevos juegos construidos en Unreal Engine 5 que abarcan Solo (7), PvP (3) y Cooperativo (2) con interfaces de acción unificadas, y la Curva de Dinámica de Mejora (IDC), un arnés de reflexión agentiva en el que un LLM reflector que utiliza herramientas refina de forma autónoma un prompt de habilidad acotado a lo largo de múltiples rondas. Más allá de las puntuaciones iniciales (cold-start) en la tabla de clasificación, el IDC expone dos observables adicionales para cada par (agente, juego): cómo evoluciona la puntuación a lo largo de las rondas de reflexión y cómo se comporta la habilidad aprendida en variantes de tarea no vistas. Reportamos estos observables para doce agentes VLM en la tabla de clasificación cold-start y para cuatro agentes principales bajo IDC.
La dirección lineal de activaciones ha ganado popularidad como un método simple y empíricamente efectivo para controlar el comportamiento de los modelos de lenguaje. Más recientemente, se han propuesto paradigmas de dirección esférica para abordar las limitaciones de las intervenciones aditivas, a menudo motivados por el supuesto de que la norma del estado oculto no transporta información relevante para el concepto. En este trabajo, revisitamos este supuesto mediante un estudio empírico controlado diseñado para desentrañar los roles de los componentes angulares y radiales. Mostramos que los métodos de dirección difieren principalmente en cómo acoplan dos efectos geométricos: cambiar la alineación angular de un token con una dirección conceptual y modificar su norma del estado oculto. En siete modelos de lenguaje, encontramos que los conceptos se representan principalmente en la estructura angular, lo que respalda la motivación de los métodos esféricos, pero que la norma sigue siendo importante para la estabilidad y los efectos posteriores de la dirección. Nuestros resultados explican por qué intervenciones con efectos similares a nivel conceptual pueden comportarse de manera diferente, y sugieren que la dirección de activaciones debería parametrizarse mediante componentes angulares y radiales interpretables de la intervención, en lugar de un único coeficiente aditivo que entrelace estos dos efectos.
Los agentes basados en modelos de lenguaje grandes (LLM) dependen cada vez más de condiciones externas de inferencia: indicaciones (prompts), herramientas, memoria, SOP (procedimientos operativos estándar), habilidades y retroalimentación del entorno de evaluación (harness). Estos activos pueden mejorar la ejecución de tareas sin modificar los pesos del modelo, pero a menudo se revisan mediante reflexión heurística o reutilizando éxitos y fracasos observados como si el simple recuento constituyera una creencia fiable. Presentamos Bayesian-Agent, un marco nativo y transversal que trata las habilidades reutilizables y los SOP como hipótesis sobre si un modelo congelado tendrá éxito bajo un indicación, contexto y entorno de evaluación determinados. Bayesian-Agent registra evidencia de trayectorias verificadas, mantiene un posteriori categórico condicionado por características sobre cada habilidad, y traduce el estado del posteriori en acciones inspeccionables como parchear, dividir, comprimir, retirar y explorar. Las indicaciones dirigidas al modelo reciben barreras de seguridad ejecutables y parches para modos de fallo, mientras que los resúmenes del posteriori permanecen disponibles para auditoría. Con deepseek-v4-flash, la reparación incremental mejora SOP-Bench del 80% al 95%, Lifelong AgentBench del 90% al 100% y RealFin-Bench del 45% al 65%. Además, evaluamos el backend nativo de Bayesian-Agent y los backends opcionales GenericAgent, mini-swe-agent y Claude Code. Los resultados incluyen configuraciones positivas, negativas, saturadas y de estudio de caso, lo que sugiere que la evolución de habilidades del agente se concibe mejor como una optimización del entorno de evaluación guiada por el posteriori, en lugar de una acumulación no calibrada de indicaciones. El código fuente está disponible en https://github.com/DataArcTech/Bayesian-Agent.
La restauración de video (VR) en tiempo real para transmisiones en vivo requiere salidas de alta resolución bajo estrictas restricciones de latencia por fotograma. Los modelos existentes de VR basados en difusión de un solo paso siguen siendo difíciles de implementar en GPU de consumo debido a dos cuellos de botella principales: la atención espacial cuadrática en altas resoluciones y la sobrecarga de latencia y memoria de los grandes autoencoders de video. Presentamos SwiftVR, un marco generativo de VR en un solo paso para transmisión en vivo que reduce ambos cuellos de botella bajo un protocolo causal por fragmentos. Para la atención, la autoatención de ventana desplazada sin máscara agrupa cada ventana espacial en un tensor denso mediante indexación determinista, manteniendo todas las llamadas de atención en la ruta densa de atención de producto escalar escalado sin máscaras, desplazamientos cíclicos, relleno ni núcleos dispersos específicos del hardware. Dado que SwiftVR utiliza únicamente llamadas estándar de SDPA denso, el modelo entrenado se transfiere a GPU de consumo sin necesidad de reentrenamiento ni núcleos personalizados. Para la auto codificación, un Autoencoder consciente de la restauración ligero permite una decodificación rápida por fragmentos mientras preserva la calidad de reconstrucción. En una sola H100, SwiftVR mantiene aproximadamente 31 FPS a 2560x1440 y 14 FPS a 3840x2160, mientras que todos los modelos de VR basados en difusión comparados superan el límite de memoria en 4K. En una RTX 5090 de consumo, SwiftVR alcanza 26 FPS a 1920x1080. Hasta donde sabemos, SwiftVR es el primer modelo generativo de VR que logra transmisión en tiempo real a 1080p en una GPU de consumo, al tiempo que alcanza una sólida calidad perceptual sin referencia con un menor costo de inferencia. El proyecto está disponible en https://h-oliday.github.io/SwiftVR.
Los modelos mundo-acción han surgido como un paradigma prometedor para la manipulación robótica, modelando conjuntamente la dinámica visual de la escena y las acciones para inyectar prioridades físicas en el aprendizaje de políticas. Sin embargo, los modelos mundo-acción existentes acoplan la predicción del mundo y la ejecución de acciones en la misma resolución temporal, lo que obliga a la rama del mundo a modelar variaciones de cuadros a corto plazo que son redundantes y débilmente informativas. Sostenemos que vincular estrictamente la predicción del mundo y la ejecución de acciones al mismo ritmo temporal puede subutilizar el potencial de la rama de video para el control encarnado. Por lo tanto, proponemos AHA-WAM, un Modelo Mundo-Acción Adaptativo al Horizonte Asíncrono construido sobre una arquitectura dual de Transformador de Difusión (DiT) que reorganiza el modelado mundo-acción en torno a esta asimetría temporal. AHA-WAM implementa el DiT de video como un planificador mundial de baja frecuencia que mantiene una memoria clave-valor continua sobre observaciones pasadas y expone un contexto latente reutilizable por capas que codifica la evolución de la escena a largo plazo, mientras que un DiT de acción de alta frecuencia ejecuta fragmentos de acción cortos en lazo cerrado mediante la consulta de este contexto a través de atención conjunta por capas. Para respaldar la ejecución asíncrona, introducimos el entrenamiento con desplazamiento adaptativo al horizonte y el Enrutamiento de Contexto de Video Guiado por Observaciones (OVCR), que en conjunto permiten al experto en acciones explotar el contexto mundial a largo plazo, permaneciendo al mismo tiempo sensible al estado de ejecución en tiempo real sin necesidad de re-ejecutar el DiT de video. Los experimentos en RoboTwin y tareas de manipulación en el mundo real muestran que AHA-WAM alcanza un rendimiento de vanguardia sin ningún preentrenamiento con datos robóticos, logrando una tasa de éxito promedio del 92.80% en RoboTwin y un 78.3% de éxito en 4 tareas del mundo real, mientras alcanza un control en lazo cerrado de 24.17 Hz con una aceleración de 4.59x con respecto a Fast-WAM.
Whisper, un modelo de ASR ampliamente adoptado, es conocido por sufrir alucinaciones: transcripciones coherentes generadas para audio sin habla que están completamente desconectadas de la entrada. Investigamos si las alucinaciones pueden detectarse y mitigarse a través de las representaciones internas de Whisper. Extraemos las activaciones del codificador de audio y evaluamos dos espacios de representación: las activaciones brutas de Whisper y los latentes del Autoencoder Disperso (SAE). Mostramos que ambos espacios codifican información relacionada con alucinaciones linealmente separable, con poder discriminativo concentrado en un subconjunto disperso de características y aumentando hacia las capas más profundas del codificador. Proponemos dos estrategias de dirección: dirección en el espacio de activaciones y dirección en el espacio latente de SAE. La dirección basada en SAE reduce la tasa de alucinación del 72.63% al 14.11% para Whisper small y del 86.88% al 27.33% para Whisper large-v3 en el conjunto de prueba completo sin habla, con una pequeña degradación de WER en datos de habla, acercándose al rendimiento de los métodos basados en ajuste fino.
Presentamos DEI: Diversity in Evolutionary Inference, un marco distribuido de búsqueda de Calidad-Diversidad (QD) que asigna modelos de lenguaje grandes (LLM) heterogéneos como operadores de mutación en nodos pares que se comunican mediante operaciones colectivas no bloqueantes. A diferencia de la búsqueda paralela homogénea, que replica los sesgos inductivos de un único modelo en todos los trabajadores, DEI trata la prioridad creativa distinta de cada LLM como una fuente complementaria de novedad conductual. Extendiendo el marco Digital Red Queen con DEI, los nodos comparten las soluciones óptimas locales al final de cada ronda para sembrar la población de la siguiente ronda. Esto crea una presión adversarial entre modelos que impulsa la robustez más allá del auto-juego intra-modelo. Evaluado en el dominio de Core War, un punto de referencia de programación competitiva en el que programas guerreros Redcode compiten dentro de una máquina simulada, un conjunto heterogéneo de cuatro nodos (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 y Claude Haiku 4.5) logra un QD-Score de archivo fusionado un 124% más alto (45.90 frente a 20.46) y una cobertura un 28% mayor (80.6% frente al 63.0% de las celdas) que una línea base de un solo nodo con el mismo presupuesto total de llamadas a LLM. El conjunto heterogéneo también supera a un conjunto homogéneo con el mismo presupuesto en QD-Score, cobertura y generalidad de soluciones no vistas en las cuatro familias de modelos. Estos resultados proporcionan la primera evidencia empírica de que la diversidad de modelos, no solo el paralelismo, es el factor clave de la ganancia en la búsqueda QD distribuida basada en LLM.
Los modelos de recompensa (RM) proporcionan señales críticas de retroalimentación para el post-entrenamiento de LLM, especialmente en los pipelines de ajuste fino reforzado (RFT) y aprendizaje por refuerzo (RL). Sin embargo, la evaluación actual de recompensas se basa en criterios heterogéneos como verificadores basados en reglas, referencias de verdad fundamental, listas de verificación procedimentales y rúbricas complejas, donde un mecanismo unificado para integrar todos los tipos de evidencia permanece inexplorado. Con este fin, proponemos el Modelo de Recompensa basado en Habilidades (Skill-RM), un marco unificado que reformula el modelado de recompensas como la ejecución de una Habilidad de Evaluación de Recompensas reutilizable. Al tratar el cálculo de recompensas como una tarea agéntica estructurada, Skill-RM proporciona una interfaz consistente para orquestar recursos heterogéneos, seleccionando y agregando dinámicamente la evidencia adaptada a los requisitos específicos de cada entrada. Este enfoque permite que el modelo de recompensa supere la evaluación estática, asegurando consistencia y transparencia a través de diversas tareas. Experimentos exhaustivos en puntos de referencia de recompensas y aplicaciones posteriores, incluyendo selección best-of-N y aprendizaje por refuerzo, demuestran que Skill-RM supera consistentemente a las líneas base tradicionales de jueces. Nuestros hallazgos sugieren que Skill-RM no solo proporciona una solución unificada para el modelado de recompensas, sino que también logra un rendimiento superior mediante la orquestación estratégica y dinámica de la evidencia. El código está disponible en https://github.com/Qwen-Applications/Skill-RM.
Mientras que los Modelos de Lenguaje Grande Omni-modales (OLLMs) han demostrado capacidades impresionantes para procesar conjuntamente flujos de audio y vídeo, su capacidad para adherirse estrictamente a instrucciones de usuario complejas y multifacéticas sigue estando en gran medida inexplorada. Los puntos de referencia existentes se centran principalmente en la comprensión holística de vídeo o en el seguimiento de instrucciones basadas únicamente en texto, sin capturar la intrincada interacción entre las modalidades y las restricciones del usuario. Para cerrar esta brecha, presentamos OmniCap-IF, el primer punto de referencia integral diseñado específicamente para evaluar las capacidades de seguimiento de instrucciones en la descripción de contenido omni-modal. OmniCap-IF incorpora un marco sistemático que evalúa las descripciones en dos dimensiones: corrección del formato y corrección del contenido. Nuestro punto de referencia abarca 50 tipos de restricciones distintas en modalidades puramente visuales, puramente auditivas y audiovisuales, integrando al mismo tiempo el Anclaje Temporal para evaluar la precisión espacio-temporal. Evaluaciones exhaustivas de modelos destacados en 1920 muestras de alta calidad revelan disparidades significativas en el rendimiento. Además, nuestro análisis descubre un "compromiso formato-contenido" crítico, demostrando que aumentar la complejidad del formato degrada directamente las capacidades de razonamiento omni-modal de los modelos. Finalmente, para avanzar en el campo, curamos un conjunto de datos de ajuste por instrucciones de 54K, OmniCap-IF-54K, y presentamos OmniCaptioner-IF, que logra mejoras notables tanto en la adherencia a instrucciones complejas como en el rendimiento general de descripción de contenido omni-modal.
Muon mejora la eficiencia de entrenamiento en aproximadamente el doble en comparación con Adam en el entrenamiento de modelos de lenguaje grandes, pero la fuente geométrica local de esta ventaja sigue sin estar clara. Nuestro trabajo da un primer paso hacia desmitificar la superioridad de Muon sobre Adam desde una perspectiva de curvatura. Primero, aplicamos una aproximación de Taylor de segundo orden al paisaje de entrenamiento y mostramos que Muon logra una mayor disminución de pérdida en un paso que Adam con una pérdida de validación equivalente. Ambos optimizadores tienen ganancias de primer orden comparables, pero Muon incurre consistentemente en una penalización de curvatura de segundo orden menor. Segundo, descomponemos esta penalización de curvatura en la norma cuadrada de actualización y la Nitidez Direccional Normalizada (NDS). Encontramos que Muon y Adam tienen normas de actualización comparables, por lo que la menor penalización de curvatura de Muon se debe a una NDS más baja, no a la escala de actualización. Tercero, estudiamos cómo los datos de entrenamiento y la estructura del modelo moldean la ventaja de NDS de Muon. Utilizando datos de Gramática Libre de Contexto Probabilística de Zipf (PCFG) con desequilibrio controlado, mostramos que el desequilibrio de datos amplifica la ventaja de NDS de Muon sobre Adam. Una descomposición intra/inter capas revela además que, en las etapas media y tardía del entrenamiento, la menor NDS de Muon se mantiene principalmente mediante una curvatura intra-capa más pequeña. Más allá de la evidencia empírica, analizamos problemas cuadráticos estilizados con curvatura heterogénea y alineación del gradiente hacia modos de alta curvatura. Demostramos que Muon alcanza una NDS promedio menor que el Descenso por Gradiente (GD) al equilibrar la energía de actualización entre grupos de curvatura; cuando la heterogeneidad de curvatura es suficientemente fuerte, esto también produce una pérdida cuadrática local menor después del mismo número de pasos.
Los agentes de investigación profunda han demostrado capacidades notables en tareas complejas de búsqueda de información, pero este poder conlleva un elevado coste computacional. Impulsados por paradigmas de entrenamiento centrados en la precisión, los modelos actuales adoptan estrategias de fuerza bruta caracterizadas por una dependencia ciega de las herramientas y un razonamiento performativo, generando trayectorias largas y redundantes que distan de ser necesarias para resolver estas tareas, lo que provoca llamadas a herramientas ineficientes y un consumo excesivo de tokens. Para superar esta trampa de eficiencia, proponemos SlimSearcher, un marco de trabajo basado en principios que desplaza la frontera de Pareto entre precisión y coste computacional tanto en el Ajuste Fino Supervisado (SFT) como en el Aprendizaje por Refuerzo (RL). En la etapa de SFT, SlimSearcher emplea un filtrado eficiente de Pareto para destilar trayectorias que sean tanto exitosas como económicas, guiando al modelo hacia comportamientos de búsqueda inherentemente conscientes de la eficiencia. Durante el RL, introducimos la Compuerta Adaptativa de Recompensa, un mecanismo dinámico de modelado de recompensas que evalúa la eficiencia relativa de herramientas y tokens dentro de una cohorte muestreada. Al encadenar estas métricas adaptativas de eficiencia con una compuerta estricta de corrección, nuestro enfoque evita eficazmente el sesgo de brevedad asociado con las penalizaciones absolutas y mitiga la manipulación de recompensas. Experimentos exhaustivos en puntos de referencia de horizonte largo, incluidos GAIA, BrowseComp y XBenchDeepSearch, demuestran que SlimSearcher reduce las rondas promedio de llamadas a herramientas entre un 17 % y un 58 %, manteniendo o mejorando la precisión.
Los modelos de lenguaje grandes basados en voz suelen limitarse a respuestas habladas, lo que restringe sus salidas orientadas al usuario a lo que puede verbalizarse y suprime capacidades nativas de texto, como la generación de código, el análisis estructurado y el razonamiento multi-paso en interacciones en tiempo real, para tareas que requieren salidas intermedias persistentes, estructuradas e inspeccionables. Los trabajos existentes mejoran el razonamiento hablado o la alternancia de turnos full-dúplex, pero aún tratan el texto como un estado intermedio oculto o una modalidad subordinada, en lugar de un canal de salida de primera clase. Proponemos Listen-Write-Speak (LWS), un paradigma de tres canales con prioridad de texto en el que un único LLM autorregresivo escucha continuamente el audio del usuario, escribe texto libre visible como su salida principal y habla una respuesta oral en tiempo real en paralelo, bajo un contexto de atención causal compartido. Este comportamiento se implementa enteramente a través de un Token Schema, sin requerir modificaciones arquitectónicas, y se aprende mediante un pipeline de datos en dos etapas que sintetiza anotaciones cognitivas por segundo, consistentes con la línea de tiempo de entrada revelada. Empíricamente, LWS demuestra una interacción full-dúplex robusta en Full-Duplex-Bench, alcanza 4.72 en VoiceBench AlpacaEval, logra un 92.6% de consistencia entre escritura y habla, y supera consistentemente a sus ablaciones internas en URO-Bench. Estos resultados sugieren que la escritura visible puede servir como un canal de salida de primera clase para la interacción por voz sin sacrificar la capacidad de respuesta en tiempo real. El código y el conjunto de datos están disponibles en la página del proyecto: https://royalzhang.com/project/lws-page/.
El aprendizaje por refuerzo con recompensas verificables (RLVR) se ha convertido en un paradigma líder para mejorar la capacidad de razonamiento de los modelos de lenguaje de gran tamaño mediante la supervisión basada en resultados. Sin embargo, las recompensas verificables suelen volverse poco informativas a nivel de grupo: cuando todas las trazas muestreadas de un mismo prompt reciben recompensas idénticas, la estimación de ventaja relativa al grupo no proporciona ninguna señal de gradiente, a pesar de que las trazas pueden diferir sustancialmente en calidad de razonamiento. Proponemos Reasoning Arena, un marco de entrenamiento adaptativo que redirige estos grupos de recompensas no diversas hacia un sistema de evaluación en lugar de descartarlos. Más allá de examinar la respuesta final, Reasoning Arena construye torneos de trazas, donde las trazas de razonamiento se comparan cara a cara para exponer preferencias más detalladas dentro del grupo, convirtiendo la calidad del razonamiento en señales de recompensa relativas ricas. Para hacer eficiente la estimación de recompensas, en lugar de comparar exhaustivamente cada par, cada nueva traza se evalúa frente a un pequeño conjunto dinámico de trazas generadas previamente que actúan como anclas, estableciendo así un rango relativo de manera eficiente. Luego ajustamos un modelo de Bradley-Terry sobre el grafo de comparaciones incompletas, lo que permite una integración escalable con RL sin necesidad de comparaciones por pares cuadráticas. Los resultados empíricos demuestran que Reasoning Arena supera consistentemente al baseline de RLVR en un 7,6% en promedio en los benchmarks de matemáticas competitivas y programación. Al convertir muestras que de otro modo se desperdiciarían con ventaja nula en actualizaciones de gradiente útiles, nuestro método acelera el entrenamiento entre un 27% y un 41%, ahorra casi un 50% de cómputo de generación y mejora sustancialmente el rendimiento general del razonamiento.
Los World Action Models (WAMs) extienden el aprendizaje de políticas robóticas al incorporar la predicción futura como un objetivo de entrenamiento adicional, incentivando a la política a codificar la estructura temporal relevante para la tarea en sus representaciones. Los WAMs actuales suelen basarse en arquitecturas generativas a gran escala que incurren en altos costos de entrenamiento y latencia de inferencia, lo que dificulta su despliegue como políticas eficientes de bucle cerrado. Proponemos Light-WAM, un World Action Model ligero para manipulación robótica eficiente. Específicamente, se construye con un backbone de video compacto y realiza supervisión de video futuro en un espacio latente submuestreado, reduciendo el costo del coentrenamiento de video mientras conserva sus beneficios para el aprendizaje de representaciones. Para la predicción de acciones, Light-WAM introduce StateFusionActionExpert, que lee estados adaptados de múltiples capas del backbone, los fusiona mediante agrupación por consultas aprendidas y predice fragmentos de acción directamente en una sola pasada forward. Este diseño proporciona una interfaz eficiente entre las representaciones del backbone de video y las acciones del robot, evitando la necesidad de expertos de acción generativos pesados. Los experimentos demuestran que Light-WAM mantiene un rendimiento sólido en LIBERO y logra un rendimiento multitarea utilizable en RoboTwin 2.0, utilizando solo 0,44 mil millones de parámetros entrenables. También alcanza una latencia de inferencia de 72,03 ms con 4,1 GiB de memoria máxima de GPU y un rendimiento de entrenamiento mejorado.
Los sistemas de preguntas y respuestas aumentados con recuperación suelen enrutar los pasajes recuperados a través de un reescritor basado en LLM antes de enviarlos a un lector más pequeño, lo que incrementa la puntuación F1 en decenas de puntos en tareas de múltiples saltos; esta mejora suele atribuirse a una mejor calidad de la evidencia. Investigamos si dicho incremento es causalmente impulsado por la aparición de la cadena de respuesta dorada en el contexto reescrito, más que por la curación per se, mediante una auditoría de intervención controlada. Para cada contexto reescrito, volvemos a ejecutar el lector tras aplicar una de cuatro ediciones controladas al resultado compilado: eliminar el segmento de la respuesta dorada, reemplazar un segmento aleatorio sin respuesta de longitud equivalente (placebo), o inyectar la respuesta dorada en reescrituras donde estaba ausente (al inicio o en un límite de oración intermedio). A lo largo de doce ejecuciones de intervención (celda, línea base) completadas que abarcan tres familias de lectores (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), dos conjuntos de datos (HotpotQA, 2WikiMultihopQA) y tres configuraciones de compilación (solo-MA, solo-MB, MA+verificar), la eliminación de la respuesta dorada reduce la puntuación F1 del lector en 28 a 64 puntos más allá del placebo de longitud equivalente en estratos pareados de respuesta presente en la compilación, y anteponer la respuesta dorada en reescrituras que carecían de ella aumenta la puntuación F1 en +0,7 a +9,7 puntos en 10 de las 12 combinaciones (celda, línea base). Una auditoría complementaria de cinco centinelas muestra que la sonda convencional de un solo [MASK] es en sí misma frágil a los centinelas: en 2Wiki reporta un "residual sin fuga" de F1 +4,12 que se invierte a -3,33 a -7,81 F1 bajo cuatro centinelas alternativos y falla una prueba de equivalencia para tres de esos cuatro (1/4 pasa). No proponemos un nuevo reescritor ni mitigación; publicamos el ejecutor de intervención y el panel de centinelas para que otras afirmaciones sobre mejoras del reescritor puedan ser evaluadas con el mismo estándar.
La Investigación Profunda (DR) ha emergido como un nuevo paradigma agéntico para abordar tareas de investigación complejas y de alcance abierto, que exigen sistemas capaces de formular problemas de manera iterativa, adquirir evidencia, verificar fuentes y sintetizar informes extensos. En la práctica, sin embargo, los sistemas actuales de DR están limitados por cuatro restricciones interrelacionadas: la planificación a largo plazo sobre un alcance subespecificado, el cuello de botella de descomponer y programar dichas tareas dentro de un único agente, el riesgo de alucinación en la síntesis de informes extensos y la auditabilidad limitada del proceso. Este informe técnico presenta DuMate-DeepResearch, un marco de trabajo multiagente para DR construido sobre la plataforma Qianfan Agent Foundry. El marco desacopla el Núcleo del Agente, que maneja la comprensión, planificación y programación de tareas, de un Ecosistema de Herramientas extensible para la recuperación, adquisición de evidencia y generación de informes, haciendo que cada decisión intermedia e invocación de herramienta sean explícitamente trazables. Sobre esta infraestructura, DuMate-DeepResearch introduce además tres mecanismos: (i) una estrategia de planificación dinámica basada en grafos que expande la ruta de investigación de manera gruesa a fina y la revisa continuamente mediante reflexión, replanificación, retroceso y ramificación paralela; (ii) un diseño de ejecución recursivo de dos niveles que delega cada subtarea de búsqueda compleja a un Agente de Búsqueda interno que ejecuta su propio bucle de planificación, aislando la recuperación ruidosa y estabilizando la ejecución a largo plazo; (iii) un mecanismo de optimización dinámica basado en rúbricas que genera criterios de calidad específicos de la tarea y los utiliza como andamiajes de razonamiento en tiempo real para la síntesis fundamentada en evidencia y la detención adaptativa. En dos referencias de investigación profunda, DuMate-DeepResearch establece nuevos resultados de estado del arte: la mejor puntuación global (58,03 %) en DeepResearch Bench y la mejor puntuación global (61,95 %) en DeepResearch Bench II, ocupando el primer lugar en recuperación de información y análisis.
Los modelos de texto a imagen dependen de las indicaciones textuales como su interfaz principal para capturar la intención humana. Estas indicaciones son codificadas por un codificador de texto en embeddings que condicionan el proceso de generación de imágenes. Más allá del significado de tokens individuales, los embeddings de texto codifican información contextual en toda la indicación, como la composicionalidad y la vinculación de atributos. Sin embargo, aún no se ha explorado suficientemente si los modelos de imagen realmente aprovechan esta información más rica. Aquí abordamos la pregunta: ¿Qué aspectos de la representación del texto son esenciales para la generación de imágenes? Demostramos que los modelos de texto a imagen basados en transformadores de difusión suelen depender solo de dos aspectos relativamente simples de las representaciones textuales: (i) la fusión de tokens adyacentes en una representación de palabra, para palabras que abarcan múltiples tokens, y (ii) el orden de las palabras, que queda impreso mediante la incrustación posicional del codificador de texto. Para demostrarlo, construimos un nuevo embedding de texto que codifica únicamente los significados individuales de las palabras y su orden, pero carece de cualquier información contextual sobre la indicación completa. Encontramos que esta representación de bolsa de palabras etiquetadas por posición es suficiente para guiar con éxito la generación de imágenes, logrando una calidad visual y una fidelidad textual equiparables a las generaciones guiadas por embeddings de texto completos. Esto demuestra que, contrariamente a lo que se cree comúnmente, los modelos de texto a imagen a menudo no utilizan la información rica codificada en el embedding de texto más allá de los significados individuales de las palabras y su orden. En cambio, la decodificación de estructuras lingüísticas complejas la realiza el propio modelo de imagen. Página web del proyecto: https://nsping13.github.io/contextless-TTI/
Los modelos Visión-Lenguaje-Acción (VLA) emergen como un paradigma prometedor para la manipulación robótica, permitiendo políticas de propósito general entrenadas a partir de grandes corpus de demostraciones y etiquetas de acción. Sin embargo, adaptar estos modelos a nuevas tareas aún suele requerir demostraciones específicas, anotaciones de acción y ajuste fino adicional, lo que encarece y dificulta la escalabilidad del despliegue. Proponemos WIZARD, un marco de meta-aprendizaje en el espacio de pesos que evita el ajuste fino específico de cada tarea generando parámetros LoRA específicos para una política VLA congelada. Dada solo una instrucción lingüística y un video de demostración breve, WIZARD predice los pesos de adaptación correspondientes en un solo paso directo, sin etiquetas de acción de la tarea objetivo ni optimización en tiempo de prueba. Durante el meta-entrenamiento, WIZARD aprende a mapear la evidencia de la tarea directamente a actualizaciones LoRA expertas, capturando relaciones entre tareas en el espacio de pesos. Los experimentos en LIBERO muestran que WIZARD mejora el rendimiento hasta ~2× en colecciones de conjuntos de datos no vistos y hasta ~14× en tareas no vistas. En un Franka Emika Panda, WIZARD mejora consistentemente sobre una línea base adaptada al dominio real, demostrando que los adaptadores generados proporcionan especialización a nivel de tarea más allá de la simulación.
La destilación en política (OPD, por sus siglas en inglés) se ha convertido en una herramienta central para el entrenamiento posterior de modelos de lenguaje de gran escala (LLMs), proporcionando una supervisión densa por token por parte del profesor a lo largo de las propias trayectorias generadas por el estudiante. En este trabajo, identificamos una causa estructural común subyacente a la OPD, a la que denominamos fallo de prefijo. Bajo el fallo de prefijo, la supervisión densa por token induce una mezcla bimodal del profesor y gradientes fragmentados que la truncación o reponderación de pérdidas a nivel de token no logran abordar. Esta observación nos motiva a ir más allá de las intervenciones sobre la pérdida a nivel de token, hacia correcciones de salida a nivel de trayectoria. Por lo tanto, proponemos la Destilación Refinada por Trayectoria (TRD, por sus siglas en inglés), un método de corrección a nivel de trayectoria que revisa la trayectoria generada por el estudiante bajo la guía del profesor, manteniéndose dentro del soporte en política. Al corregir los prefijos problemáticos antes de la destilación, TRD mitiga el fallo de prefijo en su origen. Además, TRD mejora la exploración al exponer al estudiante a derivaciones válidas alternativas bajo la guía del profesor, incluso cuando las trayectorias originales ya son correctas. TRD también se puede aplicar a la autodestilación en política (OPSD), una variante de parámetros compartidos que utiliza el modelo estudiante condicionado a información privilegiada como profesor. En una amplia gama de puntos de referencia y modelos base a múltiples escalas, TRD supera consistentemente a las líneas de base anteriores, mejorando la precisión en intentos únicos y ampliando la cobertura de razonamiento. El código está disponible en https://github.com/louieworth/trd.
El aprendizaje por refuerzo con recompensas verificables ha avanzado rápidamente el razonamiento en modelos de visión-lenguaje. Sin embargo, para la generación de informes de radiografías de tórax, las recompensas estándar (es decir, precisión de coincidencia exacta y procesos a nivel de paso) son incompatibles porque los informes consisten en hallazgos desordenados y ortogonales, en lugar de una cadena de razonamiento causal. Abordamos esta brecha con una vista basada en conjuntos: cada informe se divide en oraciones y se incrusta mediante un transformador de oraciones congelado, obteniendo conjuntos de incrustaciones desordenados. Proponemos el uso de distancias entre conjuntos como recompensas continuas e invariantes a permutaciones, entre las incrustaciones generadas y las de referencia. En dos conjuntos de datos y tres modelos de visión-lenguaje (Qwen3-VL-2B/4B, Gemma3-4B), el post-entrenamiento con recompensas basadas en distancia entre conjuntos mediante GRPO supera consistentemente al ajuste fino supervisado y a GRPO con coincidencia exacta en todas las métricas principales (BERTScore, F1 de RadGraph y F1 de CheXbert con mejoras relativas promedio del 6.80%, 7.82% y 4.45%, respectivamente). Las mismas distancias entre conjuntos también permiten la selección del mejor de N en tiempo de prueba: puntuar candidatos según su distancia a las incrustaciones de informes de entrenamiento supera a la selección aleatoria tanto en nuestros modelos entrenados como en tres LLMs de código cerrado (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini), con una mejora relativa promedio del 16.4% en BERTScore. Utilizadas como señal de transmisión continua, respaldan una forma más eficiente de escalado en tiempo de prueba: podar candidatos de baja puntuación durante la generación reduce los tokens generados en más del 50% mientras preserva la calidad de los Hallazgos de la selección completa del mejor de N. En conjunto, estos resultados establecen las recompensas de distancia entre conjuntos como una señal unificada tanto para el post-entrenamiento como para el escalado en tiempo de prueba en la generación de informes de radiografías de tórax. Nuestro código está disponible públicamente en https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.
Los Vision Transformers operan sobre cuadrículas de parches fijas, lo que puede introducir inestabilidad dependiente de la fase para la predicción densa: cambiar la partición de parches puede modificar la evidencia de tokens disponible para un píxel, especialmente cerca de los bordes. Formalizamos la fase de la cuadrícula de parches como una variable nuisance y proponemos la Marginalización de Fase, un método de marginalización post-hoc que evalúa fases estructuradas de la cuadrícula de parches, realinea inversamente las salidas densas y las agrega en el sistema de coordenadas de la imagen original. La variante central, Marginalización de Fase Uniforme con K = 4, no requiere entrenamiento y mejora respecto a la línea base canónica de K = 1 en configuraciones medidas de segmentación, profundidad y correspondencia local. En un experimento controlado con Cityscapes, la Marginalización de Fase Uniforme proporciona una ventaja modesta, equivalente en coste computacional, frente a la aumentación de datos en tiempo de prueba (TTA) genérica basada en desplazamientos con cuatro pasadas (+0.31 de media de Intersección sobre Unión respecto a la fila genérica más robusta evaluada). Un estudio de escalado muestra además que K = 4 representa un equilibrio práctico entre coste y precisión: K = 8 es esencialmente igual y K = 16 añade poca precisión a una latencia mucho mayor. Estos resultados posicionan a la fase de la cuadrícula de parches como una variable nuisance medible y a la Marginalización de Fase como una línea base simple de diagnóstico y marginalización post-hoc para la predicción densa con ViT.
Entrenar agentes web de visión-lenguaje con RL de múltiples pasos es intensivo en cómputo, con dos formas dominantes de ineficiencia: GPUs inactivas en RL síncrona, y trayectorias que utilizan más pasos y tokens de los necesarios. Presentamos AsyncWebRL, que aborda ambas. En el lado del sistema, un diseño asíncrono superpone el despliegue, la actualización de gradiente y la actualización de política a través de iteraciones, acompañado de dos adaptaciones específicas para agentes web, a saber, un pool de despliegue perpetuo y un manejo ligero de capturas de pantalla, que en conjunto proporcionan una aceleración del rendimiento de entrenamiento de extremo a extremo de hasta 2,9 veces en comparación con el pipeline síncrono abierto más rápido anterior (WebGym). En el lado algorítmico, identificamos el normalizador por trayectoria 1/|τ_i| en GRPO de múltiples pasos como la causa raíz de la ineficiencia a nivel de trayectoria y de token: debido a que los fallos son sistemáticamente más largos que los éxitos, reduce el peso del gradiente negativo sobre los tokens fallidos, por lo que la política sigue produciendo esquemas de memoria verbosos. Reemplazar 1/|τ_i| por una constante 1/k rompe este acoplamiento, contrayendo las trayectorias mientras se preserva el éxito agregado. En conjunto, estas contribuciones establecen un nuevo estado del arte de código abierto en la división de prueba fuera de distribución de WebGym (+5,8% relativo sobre el 42,9% del mejor anterior), con las mayores ganancias en los subconjuntos más difíciles (+42% relativo en Medium, +48% relativo en Hard).
La generalización débil-a-fuerte estudia cómo mejorar un estudiante fuerte utilizando supervisión de un profesor más débil cuando las etiquetas confiables son escasas. Consideramos esto principalmente como un problema de selección de datos, donde el desafío clave es identificar qué etiquetas débiles son lo suficientemente confiables para servir como señal de entrenamiento. Para abordarlo, introducimos funciones de confianza que asignan a cada etiqueta débil una puntuación escalar de confianza y utilizamos estas puntuaciones para filtrar la supervisión débil. En varios dominios, incluyendo conocimiento del mundo, razonamiento cuantitativo y juegos de estrategia, el filtrado por confianza produce estudiantes que igualan y en ocasiones superan la supervisión de verdad fundamental, logrando una generalización débil-a-fuerte casi sin pérdida. Además, las funciones de confianza permiten una cadena iterativa débil-a-fuerte que acumula ganancias al entrenar un estudiante y reutilizarlo como el siguiente profesor, amplificando así dichas ganancias. Existen varios mecanismos a los que se puede atribuir la ventaja de las funciones de confianza.
La Cadena de Pensamiento (CoT) mejora el rendimiento de los Modelos de Lenguaje Grandes (LLMs) y se ha extendido a los Modelos de Lenguaje Grandes Multimodales (MLLMs). Trabajos más recientes avanzan desde el razonamiento multimodal basado en texto hacia el razonamiento intercalado entre modalidades, donde los pasos intermedios pueden incorporar tanto fundamentos textuales como evidencia visual. En este trabajo, proponemos una idea más audaz y ambiciosa: ¿podrían las imágenes por sí solas servir como medio de razonamiento tanto para tareas lingüísticas como multimodales? Para explorar esto, proponemos el razonamiento óptico, que trata las imágenes como un medio de razonamiento independiente. Concretamos este concepto con dos variantes: el razonamiento óptico basado en tipografía, que optimiza los diseños visuales para representaciones compactas de fundamentos, y el razonamiento óptico basado en gráficos, que compone texto y elementos gráficos en fundamentos visuales estructurados. En benchmarks de razonamiento matemático, científico e intercalado entre modalidades, el razonamiento óptico puede igualar o incluso superar al razonamiento textual tradicional, reduciendo los tokens de razonamiento en promedio un 28,57 % en tareas lingüísticas y un 16 % en tareas multimodales, logrando una eficiencia de tokens 1,96 veces mayor que el razonamiento textual. Estos resultados muestran que las imágenes pueden codificar fundamentos de manera efectiva y eficiente, al mismo tiempo que proporcionan un lienzo visual unificado para el razonamiento.
Los modelos de mundo basados en video recientes han hecho que los entornos de espacio de píxeles sean interactivos a nivel de cámara: los usuarios pueden navegar por los puntos de vista mientras el modelo genera continuaciones visuales coherentes. Sin embargo, sus espacios de acción siguen siendo incompletos: los usuarios pueden mover la cámara, pero no pueden actuar sobre objetos individuales. Dado que la interacción en el mundo real es inherentemente centrada en objetos, estos modelos se asemejan más a observadores pasivos de la escena que a entornos verdaderamente manipulables. Presentamos WorldCraft, un marco que expande los modelos de mundo de video interactivos desde la navegación de cámara hasta acciones de trayectoria a nivel de objeto. Dado un clic del usuario y una ruta dibujada, WorldCraft genera fotogramas futuros en los que el objeto seleccionado sigue la trayectoria prescrita mientras la cámara continúa navegando la escena. WorldCraft logra esto mediante una tubería de control centrada en trayectorias: primero, la Trayectoria Mundial Normalizada (NWT, por sus siglas en inglés) representa el movimiento dibujado por el usuario en un sistema de coordenadas mundial invariante a la cámara y lo reproyecta dinámicamente bajo la pose actual de la cámara, separando el movimiento del objeto del desplazamiento en el espacio de pantalla inducido por la cámara; luego, el LoRA de Vía Espacial (SP-LoRA) inyecta esta señal del espacio mundial a través de la vía de control espacial del modelo, añadiendo capacidad de manipulación de objetos mientras preserva el controlador de cámara preentrenado; finalmente, la Persistencia de Estado Anclado a Trayectoria (TASP, por sus siglas en inglés) trata la trayectoria mundial como un estado espacial persistente y refresca la memoria autorregresiva tras la generación condicionada por trayectoria, permitiendo que los objetos movidos reaparezcan en sus posiciones actualizadas después de salir del campo de visión de la cámara. Los experimentos muestran que WorldCraft permite un control preciso de objetos, preserva la fidelidad de cámara del modelo de mundo basado en video bajo evaluación solo de cámara, y mantiene el estado del objeto a lo largo de despliegues autorregresivos largos con excursiones fuera de cámara.
Los resultados de las evaluaciones de IA se generan a gran escala, pero se reportan de manera inconsistente en tablas de clasificación, fichas de modelos, artículos de referencia y blogs de empresas. El costo es interpretativo: los lectores no pueden comparar de manera confiable los resultados entre fuentes, identificar lo que omite un informe o rastrear una afirmación agregada hasta su evidencia subyacente. Esfuerzos recientes abordan componentes aislados, pero dejan tres vacíos: cubren solo fragmentos reducidos del ciclo de evaluación y no se integran en un único registro interpretable; especifican representaciones estáticas que no diferencian las preguntas que distintos actores plantean ante la misma evidencia; y siguen siendo propuestas teóricas, carentes de la infraestructura de extracción necesaria para su adopción a escala. Presentamos , una capa operativa de informes que compone metadatos de referencias, datos de ejecución de evaluaciones y metadatos de modelos en un registro unificado. (1) Derivamos un esquema de informes a partir de una revisión estructurada de 52 artículos y 10 entrevistas con actores clave; (2) implementamos cuatro señales interpretativas (reproducibilidad, integridad de la documentación, procedencia y riesgo, y comparabilidad de puntuaciones), representadas mediante modos de lectura calibrados para audiencias de investigación y no investigación; y (3) desplegamos una herramienta de monitoreo que aplica sobre 5,816 modelos, 635 referencias y 101,843 resultados, revelando brechas sistemáticas en las prácticas actuales de reporte.
Los detectores de inyección de *prompts* son heterogéneos: cada uno es eficaz en un subconjunto diferente de ataques, y ninguno es siempre fiable. Sin embargo, los sistemas actuales siguen tratando la detección como un *pipeline* fijo con un único detector, comprometiendo cada solicitud a los puntos ciegos de ese detector. Replanteamos la defensa como una asignación de detectores: dado un conjunto heterogéneo, decidir por solicitud qué detectores ejecutar y si escalar a un juez LLM. Nuestro marco SCOUT (*Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage*) hace dinámica esta decisión prediciendo la fiabilidad y latencia por muestra de cada detector a partir de su comportamiento en entradas similares previas, y expone al operador un único umbral de seguridad-utilidad (donde la utilidad agrupa la tasa de paso benigno y el tiempo de reloj). Para evaluar este escenario, construimos SCOUT-450, un *benchmark* que captura las inyecciones estructuralmente complejas y orientadas a agentes que los conjuntos de inyección de *prompts* más antiguos subrepresentan. En SCOUT-450, un punto de operación orientado a la seguridad reduce la tasa de éxito de ataque en un 46% y el tiempo de reloj total en un 40% en comparación con un juez GPT-4o siempre activo, con una caída de 5,1 puntos en utilidad benigna. SCOUT también se traslada a tres referencias externas (BIPIA, IPI e IHEval), mejorando la frontera seguridad-utilidad.
Los puntos de referencia para agentes evalúan las soluciones mediante verificadores de resultados que suelen ser escritos manualmente y frágiles, lo que los deja abiertos a la manipulación de recompensas. Auditamos 1,968 tareas en cinco puntos de referencia para agentes terminales y encontramos 323 (16%) hackeables por modelos de frontera con solo la descripción de la tarea. Esto corrompe tanto los rankings en las tablas de clasificación como la señal de entrenamiento por refuerzo; sin embargo, la respuesta estándar es manual y reactiva. Introducimos el bucle hacker-fijador, un método para construir verificadores resistentes a explotaciones sin parches manuales por tarea. El bucle alterna tres agentes LLM: un hacker intenta pasar el verificador sin resolver la tarea, un fijador parchea el verificador para rechazar cada explotación descubierta, y un solucionador confirma que el verificador parcheado aún admite soluciones legítimas. El bucle itera: cada parche remodela lo que el verificador recompensa, sacando a la luz la siguiente explotación. Además, añadimos acceso al verificador y permitimos que los parches se transfieran entre tareas, para ampliar las explotaciones que el bucle descubre. En KernelBench, el bucle reduce la tasa de éxito de ataque del 62% al 0% en un corpus separado de explotaciones reportadas públicamente. También encontramos que agentes más débiles en el bucle pueden defender contra hackers mucho más fuertes: el bucle de Gemini 3 Flash reduce la tasa de éxito de ataque de los más fuertes Gemini 3.1 Pro y Claude Opus 4.7 del 76% y 61% al 0% en KernelBench, y la de Gemini 3.1 Pro del 39% al 17% en Terminal Bench en 77 tareas. Publicamos Terminal Wrench (323 entornos hackeables, 3,632 trayectorias de hackeo) como una instantánea de la superficie de ataque actual, nuestros verificadores parcheados, las explotaciones que el bucle descubrió y nuestra implementación como base para trabajos futuros.
Los benchmarks existentes de extracción de relaciones científicas se centran principalmente en dominios como las ciencias computacionales, donde las entidades son tareas, métodos, conjuntos de datos, materiales o métricas. Esto deja un vacío en campos empíricos orientados a variables, como la psicología, donde los hallazgos se expresan como relaciones entre constructos, mediciones, intervenciones y resultados. Introducimos la extracción de grafos empíricos centrados en variables, una tarea que consiste en mapear resúmenes científicos a grafos tipados cuyos nodos son variables normalizadas y cuyas aristas representan relaciones empíricas y jerárquicas. Para respaldar esta tarea, construimos EmpiriGraph-Psy, un benchmark de 210 resúmenes de psicología anotados por anotadores entrenados en el dominio con variables normalizadas, jerarquías de conceptos, tipos de relaciones empíricas y estados de validación. Evaluamos modelos LLM de frontera y de peso abierto utilizando tanto la extracción directa como un pipeline de construcción de grafos por etapas que separa la extracción de variables, la normalización, la construcción de jerarquías, la selección de evidencia, la extracción de relaciones y la validación de aristas. El pipeline por etapas supera sustancialmente a la extracción directa, con la mejor configuración alcanzando un F1 macro de 0.74. El análisis de errores muestra que las relaciones de moderación y las jerarquías de conceptos siguen siendo los casos más desafiantes, lo que resalta la dificultad de extraer afirmaciones empíricas de orden superior y estructura de abstracción implícita a partir de resúmenes científicos.
Comprender qué retienen los modelos generativos de los datos de entrenamiento sigue siendo un desafío, con implicaciones para los derechos de autor y la privacidad. Más allá de la reproducción textual, los modelos pueden codificar rastros más sutiles de sus datos de entrenamiento que nunca afloran en sus salidas, pero que siguen siendo explotables. Estudiamos este régimen para los Flujos Rectificados, que se utilizan cada vez más en sistemas generativos desplegados. Analizamos la trayectoria de interpolación X_λ = (1-λ)X_0 + λX_1 que define el entrenamiento de los Flujos Rectificados. Mostramos que existe una brecha entre la reconstrucción de los datos de entrenamiento y prueba que sigue una curva en forma de campana sobre λ, la cual se acumula durante el entrenamiento, mientras que las métricas de validación se mantienen estables. La señal tiene un máximo cuya ubicación derivamos en forma cerrada bajo supuestos gaussianos. Validamos estas predicciones tanto en audio como en imágenes y mostramos que la estructura en forma de campana es universal, mientras que la predicción del pico se cumple cuando nuestros supuestos se satisfacen. Como prueba de concepto, explotamos esta estructura específica resuelta en λ para realizar un Ataque de Inferencia de Pertenencia, distinguiendo miembros del conjunto de entrenamiento de los no miembros.
Se espera que los sistemas de agentes médicos apoyen cada vez más la toma de decisiones clínicas interactiva, en lugar de limitarse a la respuesta estática a preguntas. En estos escenarios, los agentes efectivos deben reutilizar la experiencia previa a lo largo de casos en evolución; sin embargo, los mecanismos de memoria existentes a menudo retienen trazas históricas en bruto que son redundantes, ruidosas y difíciles de gobernar. Más importante aún, rara vez distinguen qué memorias son realmente útiles para el razonamiento futuro. Esto limita su capacidad para acumular experiencia compacta y fiable para el razonamiento clínico a largo plazo. Para cerrar esta brecha, proponemos SkeMex, un marco de autoevolución posterior al despliegue que mejora a los agentes médicos mediante una memoria basada en habilidades sin actualizar los pesos del modelo. SkeMex destila trayectorias de interacción informativas en habilidades estructuradas que codifican conocimiento procedimental reutilizable, y las organiza en un repositorio de múltiples ramas que abarca experiencia general, específica de tareas y a nivel de acciones. Para determinar qué memorias deben reutilizarse y retenerse, SkeMex estima la utilidad dependiente del contexto a partir de la retroalimentación del entorno y la utiliza para guiar la recuperación consciente del valor y la gobernanza del repositorio. Un ciclo de vida de bucle cerrado "Leer--Escribir--Evaluar--Gobernar" respalda aún más la evolución continua mediante la escritura de nuevas habilidades, la actualización de utilidades, la promoción de memorias útiles y la eliminación de entradas dañinas. Los experimentos en diversas tareas clínicas muestran que SkeMex supera sistemáticamente a los agentes representativos basados en memoria, tanto en entornos offline como online. También generaliza entre distintos modelos base y admite memoria de habilidades transferible. Todos los datos y el código se publicarán públicamente.
Presentamos SigmaScale, un método para aprender matrices de escalado auxiliares S que facilitan la compresión de Modelos de Lenguaje Grande (LLM) basada en la Descomposición en Valores Singulares (SVD) truncada. En lugar de derivar las matrices de escalado de forma analítica, SigmaScale optimiza dos conjuntos de vectores que definen transformaciones de escalado diagonales por filas y columnas bajo una pérdida de compresión consciente de las activaciones. Demostramos que el escalado aprendido reduce el rango intrínseco efectivo de las matrices de pesos, como lo reflejan las reducciones en la entropía de rango efectivo, y que esta reducción está fuertemente correlacionada con la pérdida de compresión. Los experimentos en Llama 3.1 8B Instruct y Qwen3-8B muestran que SigmaScale compite favorablemente con métodos de compresión basados en SVD estrechamente relacionados en métricas de perplejidad y evaluación zero-shot. Al emplear transformaciones aprendidas conscientes de activaciones, SigmaScale explora una ruta más flexible hacia la compresión de LLM de bajo rango, adaptándose a la estructura de los pesos individuales del modelo. La ventaja observada en tareas específicas convierte a nuestro enfoque en una opción válida para aplicaciones que requieren un costo computacional reducido en la inferencia de LLM.
Los modelos de lenguaje grandes son cada vez más evaluados por otros modelos, lo que plantea una pregunta natural: ¿puede un modelo predecir cómo un juez puntuará su propia salida? Encontramos que esta capacidad está presente en gran medida antes de cualquier entrenamiento dirigido: mediante pocos ejemplos, un modelo base ya predice las puntuaciones de calidad multi-atributo de un juez externo para respuestas abiertas muy por encima del azar en tres puntos de referencia. Introducimos la Elicitación de Autoevaluación (SEE, por sus siglas en inglés), un método que saca a la superficie esta capacidad latente mediante un ciclo breve que comprende una fase de aprendizaje por refuerzo acoplado a calibración, que mejora la respuesta y predice al juez, seguida de una fase de destilación enmascarada que agudiza la predicción mientras deja la respuesta intacta. A partir de 160 ejemplos únicos, aproximadamente 31 veces menos que una línea base de aprendizaje por refuerzo, SEE mejora la calibración en datos no vistos en tres puntos de referencia, preservando la calidad de la respuesta. La autoevaluación elicitada se localiza de manera nítida dentro de la distribución de tokens del propio modelo y es estable frente a jueces con los que nunca fue entrenado, lo que indica una noción transferible de calidad en lugar de la preferencia de un juez único. Estos resultados replantean la autoevaluación alineada con el juez como un problema de elicitación más que de adquisición.
El razonamiento visual latente (LVR, por sus siglas en inglés) inserta tokens latentes supervisados entre la percepción y la generación de respuestas en modelos de visión y lenguaje (VLMs). El campo utiliza la alineación entre estos latentes y sus objetivos visuales, es decir, la similitud coseno o el error cuadrático medio (ECM), tanto como la función de pérdida de entrenamiento como la métrica de calidad, asumiendo que una mejor alineación produce una mejor respuesta. Ponemos esto a prueba con una matriz diseñada de cinco variantes de LVR y encontramos que la suposición se invierte: la alineación coseno se correlaciona negativamente con la precisión en las cinco variantes (r = -0.94). Para explicar esto, introducimos PRISM, un par de diagnósticos en tiempo de inferencia: una sonda lineal que pregunta dónde es decodificable la respuesta, y una prueba de corrupción que pregunta si el latente es portante. Los latentes supervisados son ampliamente eludidos. Corromperlos desplaza la precisión en, como máximo, cuatro puntos. La respuesta es decodificable en etapas posteriores al latente, pero no en el latente mismo, y el tamaño de esta brecha de decodificabilidad predice cuánto depende cada variante de su latente bajo perturbación. En consonancia con una interpretación de Cuello de Botella de Información de la pérdida, el objetivo auxiliar remodela el modelo de lenguaje a través de parámetros compartidos, en lugar de a través de la variable latente que nominalmente optimiza.
Los transformadores estándar aplican autoatención de manera uniforme en cada capa y token, sin considerar si la entrada requiere interacción dinámica entre tokens. Proponemos CHIAR-Former (Chiaroscuro Attention), un transformador híbrido de 4 capas que enruta cada token a uno de tres operadores —mezcla espectral DCT, mezcla kernel RBF o autoatención completa— basándose en la entropía espectral por token, una señal de complejidad fundamentada teóricamente. Mediante ablación sistemática en WikiText-103, descubrimos colapso de enrutamiento: el enrutador rechaza consistentemente RBF en favor de DCT y atención, revelando que la mezcla espectral y la atención dinámica son complementarias y suficientes. Una variante diseñada exclusivamente con DCT+Atención logra una PPL de validación de 36.54 en WikiText-103 —una mejora del 45% frente a una línea base de atención completa (PPL 66.62) con un 62.5% menos de FLOPs de atención. Extendemos la evaluación a WikiText-2, clasificación de sentimientos en IMDB y operaciones sintéticas ListOps, estableciendo un régimen de operación claro: CHIAR-Former sobresale en texto naturalista a gran escala donde la diversidad de tokens favorece la especialización espectral, mientras que la atención completa mantiene una ventaja en conjuntos de datos pequeños y tareas sintéticas de coincidencia de patrones. Estos hallazgos —tanto los aciertos como las limitaciones— definen en conjunto cuándo y por qué el enrutamiento espectral justifica su uso.
Las tareas agentivas de largo horizonte presentan un desafío fundamental de asignación de crédito para el aprendizaje por refuerzo basado en resultados: las recompensas a nivel de trayectoria verifican la corrección final, pero ofrecen una orientación limitada sobre qué pasos intermedios de razonamiento o interacciones con herramientas contribuyen al resultado. La dificultad es especialmente pronunciada en agentes de búsqueda de múltiples turnos, donde las trayectorias exitosas pueden contener acciones engañosas y las trayectorias fallidas pueden incluir pasos valiosos de recopilación de evidencia. Proponemos PBSD (Destilación Bayesiana Privilegiada Automática), un método de autodestilación calibrado bayesianamente para la asignación de crédito a nivel fino bajo recompensas finales dispersas. PBSD mide la calidad de la trayectoria mediante la razón de probabilidades posterior a priori de la respuesta verificada y aplica la regla de Bayes para convertir esta razón del lado de la respuesta, difícil de estimar, en una razón de verosimilitud manejable entre un modelo estudiante estándar y un modelo profesor privilegiado condicionado a la respuesta. La descomposición autorregresiva de esta puntuación de evidencia bayesiana produce señales a nivel de turno que identifican si cada turno intermedio apoya o socava el resultado verificado. En consecuencia, PBSD proporciona un esquema de reponderación elegante y fundamentado que transforma la supervisión de resultados dispersa en señales de crédito a nivel de turno calibradas bayesianamente, manteniéndose completamente compatible con la optimización de políticas estándar. Los experimentos demuestran que PBSD mejora consistentemente el rendimiento tanto en entornos dentro del dominio como fuera de él, y transfiere eficazmente el conocimiento del entrenamiento en contexto corto a la inferencia en contexto largo, lo que sugiere que su mecanismo de asignación de crédito a nivel fino facilita un aprendizaje de políticas más efectivo y genera una mejor generalización.
El progreso reciente en la manipulación robótica ha sido impulsado en gran medida por el aprendizaje a partir de demostraciones a gran escala. Sin embargo, para las tareas de locomoción-manipulación en robots humanoides, las fuentes de datos existentes imponen un compromiso insatisfactorio entre la calidad de las trayectorias y la escalabilidad. La teleoperación en el mundo real proporciona trayectorias de la más alta calidad, pero requiere un espacio físico dedicado y costosos reinicios de escenas en términos de tiempo. La simulación ofrece una alternativa para sortear este dilema: puede producir datos limpios y alineados con la morfología del robot a gran escala sin necesidad de hardware físico. En este artículo, proponemos OASIS, un marco basado en datos de simulación para la locomoción-manipulación humana. OASIS reconstruye automáticamente activos de objetos realistas a partir de imágenes del mundo real utilizando un modelo generativo 3D. Basándose en estos activos, primero se recopilan trayectorias mediante teleoperación en simulación, y luego se aumentan bajo diversas aleatorizaciones de dominio en una etapa de posprocesamiento. Con los datos de simulación resultantes, diseñamos además una política visuomotora jerárquica para la locomoción-manipulación humana. Experimentos exhaustivos con el robot humanoide real muestran que, bajo un despliegue sin entrenamiento previo (zero-shot), la política entrenada con nuestros datos de simulación logra tasas de éxito más altas en la mayoría de las tareas que la entrenada con datos de teleoperación en robots reales, debido en gran medida a las amplias variaciones de iluminación y entorno cubiertas por nuestra renderización de simulación, que los datos de robots reales no logran capturar. La página del proyecto está disponible en https://oasis-humanoid.github.io/.
Este artículo explora la comprensión espacial 3D agente, es decir, agentes MLLM que realizan razonamiento 3D mediante el uso de herramientas. Los métodos existentes a menudo utilizan mal las herramientas y muestran preferencias sesgadas hacia ellas en escenarios 3D, lo que genera que el paradigma agente obtenga solo ganancias marginales sobre las estrategias no agente. Revelamos que las tareas de razonamiento espacial 3D son heterogéneas entre escenas, mientras que estos agentes aplican una estrategia uniforme de uso de herramientas a todas las escenas, en lugar de seleccionar herramientas según la escena y tarea específicas. Para abordar esto, proponemos Skill-3D, un marco que aprende habilidades conscientes del escenario que evolucionan por sí mismas. Específicamente, Skill-3D identifica la escena de la tarea y registra la trayectoria de uso de herramientas del agente en una Memoria de Escenario, donde las trayectorias exitosas de escenas similares se agregan y destilan en una habilidad consciente del escenario reutilizable, y las fallidas se adjuntan a la habilidad como lecciones. Durante el entrenamiento, una vez que una escena similar se repite, la habilidad correspondiente se inyecta para guiar al agente, produciendo nuevas trayectorias cuyos éxitos y fracasos refinan aún más la habilidad, formando un bucle en el que la memoria y la biblioteca de habilidades co-evolucionan. Los experimentos muestran que Skill-3D mejora sustancialmente la utilización de herramientas en el razonamiento espacial 3D (del 39% al 78% en VSI-Bench), impulsando al agente hacia un uso correcto y suficiente de herramientas. Por ejemplo, mejora Gemini-3-Flash en un 67% en MMSI-Bench. Además, realizamos post-entrenamiento agente sobre trayectorias guiadas por habilidades, lo que impulsa a Qwen3-VL-8B en un 43% en VSI-Bench.
Dotar a los Grandes Modelos de Lenguaje (LLMs) de la capacidad de ejecutar flujos de trabajo multi-paso confiables se ha convertido en un desafío central en inteligencia artificial. A pesar de los avances recientes en las capacidades agentivas de los LLMs, la mayoría de los sistemas agentes aún carecen de métodos formales para especificar, verificar y depurar sus flujos de trabajo y trayectorias de ejecución. Este desafío refleja un problema de larga data en matemáticas, donde la ambigüedad de los lenguajes naturales (LNs) motiva el desarrollo de lenguajes formales (LFs). Inspirados por este paradigma, proponemos **Lean4Agent**, hasta donde sabemos, el primer marco que utiliza Lean4, un LF de tipo dependiente para modelar y verificar el comportamiento de agentes. **Lean4Agent** lanza **FormalAgentLib**, una biblioteca extensible de Lean4 para modelar y verificar formalmente la consistencia semántica de los flujos de trabajo de agentes bajo supuestos explícitos, y permitir la localización de fallos en tiempo de ejecución revelados por las trayectorias. Basándonos en **FormalAgentLib**, desarrollamos además **LeanEvolve**, que aplica los resultados de **FormalAgentLib** para revisar flujos de trabajo y mejorar su capacidad. Experimentos exhaustivos en un subconjunto difícil de SWE-Bench-Verified y un subconjunto de ELAIP-Bench en 5 LLMs líderes indican que los flujos de trabajo que pasan la verificación superan a los que fallan en un promedio del **11.94%**, y **LeanEvolve** mejora aún más el rendimiento en SWE en un **7.47%** en promedio. Además, **Lean4Agent** establece una base para un nuevo campo de uso de LF de tipo dependiente expresivo para modelar y verificar formalmente el comportamiento de agentes.
La Mezcla de Expertos (MoE) es actualmente la arquitectura dominante para los modelos de lenguaje de frontera, pero requiere que todos los parámetros de los expertos se carguen en memoria, lo que la hace menos adecuada para despliegues con restricciones de memoria. Los métodos de compresión existentes reducen el número de expertos, pero el resultado sigue siendo un modelo MoE con la misma limitación fundamental. Presentamos el primer marco sistemático para convertir un MoE entrenado en una arquitectura completamente densa estándar: los expertos se puntúan, seleccionan y agrupan, luego se concatenan en una FFN densa y se refinan mediante destilación de conocimiento del profesor MoE. Evaluamos 7 métodos de puntuación, 5 de agrupación y 2 de escalado de magnitud en un rango de conteos de expertos seleccionados en Qwen3-30B-A3B, obteniendo 350 configuraciones. Encontramos que la elección del método de puntuación es la más impactante, superando nuestro novedoso método de puntuación consciente de la diversidad consistentemente a los métodos previos en Qwen3-30B-A3B, DeepSeek-V2-Lite y GPT-OSS-20B. Bajo una comparación controlada con igual número de parámetros, la conversión de MoE a denso supera a la poda de denso a denso en +6.3 pp de precisión promedio descendente después de ~4B tokens de destilación, con una velocidad de entrenamiento en tiempo real 1.6 veces más rápida.
Los agentes estilo Reflexion dependen de reflexiones autogeneradas como memoria, asumiendo implícitamente que los agentes pueden diagnosticar con precisión sus propios fallos. Demostramos que esta suposición puede fallar sistemáticamente: en ALFWorld y HumanEval, los agentes almacenan interpretaciones seguras pero incorrectas de la tarea y continúan actuando según ellas a lo largo de los ensayos, aunque el entorno se restablezca a la tarea correcta cada vez. Llamamos a este modo de fallo confabulación de memoria e introducimos la Tasa de Repetición de Reflexión (RRR, por sus siglas en inglés), una métrica basada en registros que detecta la dependencia repetida de contenido reflexivo incorrecto. Usando RRR, identificamos 16 entornos congelados en ALFWorld, donde 0 de 121 reflexiones mencionan el objeto objetivo correcto, y 4 casos análogos en HumanEval. Nuestra mitigación reemplaza el autodiagnóstico abierto con extracción programática de señales de fallo a nivel de trayectoria, aumentando la mención del objeto correcto del 0% al 86%, reduciendo el RRR de 0.64 a 0.10, y resolviendo 3 de los 16 entornos congelados de ALFWorld, lo que sugiere que la memoria reflexiva puede reforzar creencias falsas en lugar de corregirlas.
La obtención de imágenes hiperespectrales pasivas en el infrarrojo de onda larga (LWIR) bajo una geometría de telemetría depende de la absorción y emisión atmosférica, así como de la radiancia reflejada, lo que hace que la compensación atmosférica sea esencial para obtener conocimiento sobre un objetivo de interés. A pesar de su importancia, esta compensación ha sido en gran medida ignorada debido a su dificultad práctica y de modelado. En este artículo, presentamos un marco de aprendizaje profundo ligero basado en conjuntos que toma múltiples mediciones de radiancia, recolectadas a diferentes distancias de telemetría, como entrada y estima conjuntamente la transmitancia, la radiancia de la trayectoria atmosférica y un espectro de downwelling compartido. Analizamos la representación aprendida con un autoencoder disperso y observamos que varias características latentes se activan en subconjuntos geográficamente coherentes de los datos de prueba, a pesar de la ausencia de supervisión de ubicación. Los experimentos en un conjunto de datos LWIR de telemetría generado con MODTRAN demuestran una baja distorsión espectral en todos los productos estimados. El conjunto de datos y el código están disponibles públicamente en: https://factral.co/SAE-LWIR/
La geolocalización entre vistas estima la ubicación geográfica de una imagen terrestre emparejándola con una base de datos de imágenes aéreas. Los métodos existentes abordan esto mediante recuperación a gran escala o estimación precisa de pose, pero no ambas: los métodos basados en recuperación permiten la búsqueda en áreas extensas a costa de precisión en la localización, mientras que los métodos de estimación de pose logran alta precisión solo dentro de un espacio de búsqueda reducido. La combinación ingenua de estos procesos introduce propagación de errores y representaciones de características inconsistentes. Formulamos la geolocalización entre vistas como un problema unificado que requiere simultáneamente recuperación a escala de ciudad y estimación precisa de pose con 3 grados de libertad. Proponemos CIPER (Cross-view Image-retrieval and Pose-estimation transformER), una arquitectura única que realiza ambas tareas conjuntamente mediante aprendizaje de características mutuamente beneficioso. CIPER utiliza un codificador transformer compartido con tokens específicos de tarea para separar las características globales de recuperación de las señales espaciales de localización. Para salvar la gran brecha de dominio entre las vistas terrestres y aéreas, introducimos un decodificador de pose transformer bidireccional que utiliza características terrestres como consultas espaciales para la atención cruzada bidireccional. Una estrategia de predicción de conjuntos permite además una regresión estable de 3-GdL bajo un objetivo multitarea unificado. Experimentos en VIGOR, KITTI y Ford Multi-AV demuestran un rendimiento competitivo, especialmente en condiciones de campo de visión limitado y orientación arbitraria. El código está disponible en https://github.com/yurimjeon1892/CIPER.
Las métricas de fidelidad sin referencia verifican cada afirmación atómica que un modelo realiza frente a la verdad fundamental y se utilizan cada vez más para evaluar la generación fundamentada. Demostramos que comparten un punto ciego: solo miden la precisión —¿están respaldadas las afirmaciones planteadas?— y, por lo tanto, recompensan la abstención, ya que un modelo puede obtener una puntuación casi perfecta en fidelidad al decir casi nada. Hacemos esto medible mediante la telemetría de Fórmula 1, un dominio donde la verdad fundamental estratégica se deriva de manera determinista y, crucialmente, completa: para cada decisión conocemos el conjunto completo de hechos que importaron. Esta completitud —ausente en los puntos de referencia de fidelidad de dominio abierto— nos permite medir exactamente la exhaustividad (cobertura de los hechos relevantes) junto con la precisión. En un punto de referencia multilingüe (EN/ES/PT) de 7253 instancias de decisión que abarcan 150 carreras, el modelo de frontera más preciso cubre menos de la mitad de los hechos relevantes y ocupa el último lugar según F1, por lo que exigir cobertura reordena los sistemas; el mismo efecto reaparece en un segundo dominio con oráculo completo (pronósticos meteorológicos de la NOAA). Una ablación de indicaciones muestra que la baja cobertura no es un artefacto de subestimulación: pedir explícitamente a los modelos que sean exhaustivos no cierra la brecha. Combinamos fidelidad y cobertura en una sola puntuación, validamos la métrica (perturbación controlada; concordancia entre un extractor de expresiones regulares sin modelo y un extractor LLM de diferentes familias, Spearman a nivel de sistema de 1.0), y proporcionamos un método de generación guiada por verificador que mejora la precisión y la exhaustividad sin referencias. Publicamos el punto de referencia, las anotaciones estructuradas, la métrica, las líneas base y una demostración interactiva.
Los modelos de lenguaje grandes (LLMs) ofrecen un enfoque prometedor para la traducción automática (MT) de lenguas con recursos extremadamente limitados, al incorporar recursos lingüísticos mediante aprendizaje en contexto. Sin embargo, los LLMs a menudo tienen dificultades para aplicar información gramatical de manera efectiva durante la traducción. Inspirados por los avances recientes en el razonamiento en cadena de pensamiento, investigamos si la MT para lenguas con recursos limitados puede beneficiarse de pasos intermedios estructurados de análisis lingüístico y razonamiento gramatical. Proponemos un pipeline para generar automáticamente trazas de razonamiento lingüístico paso a paso a partir de bancos de árboles de Dependencias Universales, diccionarios y bancos de reglas gramaticales. Evaluamos estas trazas en tres escenarios: aprendizaje en contexto (ICL), ajuste fino supervisado (SFT) y ajuste fino por refuerzo (RFT), utilizando Xibe y Chintang como casos de prueba. Nuestros resultados muestran que las trazas de razonamiento lingüístico son más efectivas como guía en tiempo de inferencia: en ICL, las trazas confiables y específicas de cada oración mejoran sustancialmente el rendimiento de la traducción en la mayoría de los modelos, lenguas y métricas. En contraste, el uso de las trazas de razonamiento lingüístico como datos de entrenamiento produce mejoras menores y menos consistentes, ya que los modelos aprenden el formato de la traza pero a menudo generan contenido erróneo. Estos hallazgos sugieren que los LLMs pueden aprovechar la información gramatical para la MT de lenguas con recursos limitados cuando se les proporcionan análisis lingüísticos confiables, mientras que aprender a generar dichos análisis sigue siendo un cuello de botella importante.
Los grafos de propiedades empresariales varían ampliamente en estructura de esquema, terminología interna, supuestos de dominio, restricciones de gobernanza y patrones de interacción de usuario. Por lo tanto, un benchmark Text2Cypher relevante para el despliegue refleja las preguntas que los usuarios y agentes realmente formulan a ese grafo. Crear dicho benchmark es difícil porque los esquemas y valores son únicos, y la estructura del grafo cambia con el tiempo. Cada par NL-consulta también debe ser ejecutable, utilizar entidades reales del grafo, preservar la diversidad y mantenerse equilibrado entre tipos de consulta y niveles de dificultad. Presentamos PIPE-Cypher, una tubería local de generación de benchmarks que convierte un grafo de propiedades activo y consultas semilla opcionales (procedentes de preguntas de clientes, registros de analistas o llamadas a herramientas de agentes) en benchmarks equilibrados de NL a Cypher. PIPE-Cypher combina perfilado de esquemas, fundamentación de consultas inversas, generación restringida, gobernanza determinista de Cypher, validación de ejecución, redacción, controles de diversidad y un juez local calibrado basado en LLM. Utilizando generación y evaluación local con Qwen3.5-9B, PIPE-Cypher exporta 3.000 ejemplos aceptados de FinBench/SNB, completa tres suites de ablación auditadas, calibra el comportamiento del juez con etiquetas humanas y evalúa 11 modelos locales posteriores. El benchmark resultante es deliberadamente discriminativo: la transferencia en modo cero disparo es débil, mientras que un control con pocos ejemplos muestra que los bancos de ejemplos específicos del esquema pueden ayudar a familias de modelos compatibles. En conjunto, PIPE-Cypher convierte el benchmarking Text2Cypher en un proceso repetible que evoluciona con el grafo, sus usuarios y sus cargas de trabajo objetivo.
Presentamos EMMA, un marco multimodal informado por la física que recupera todos los parámetros dinámicos identificables de un sistema directamente a partir de observaciones en bruto de series temporales basadas en video, audio e imágenes. A diferencia de enfoques previos basados únicamente en video, que presentan dificultades con estados ocluidos, entradas de actuación ocultas o suposiciones sobre condiciones iniciales y marcos de coordenadas conocidos, EMMA realiza una inferencia conjunta de parámetros explícitos, componentes dinámicos implícitos e invariantes de calibración dentro de un modelo unificado de tiempo continuo. EMMA aprovecha una red de Constante de Tiempo Líquida (LTC) para aprender dinámicas latentes a partir de modalidades heterogéneas, mientras que una pérdida con restricciones físicas impone consistencia con las ecuaciones diferenciales rectoras. Un canal de características unificado permite una alineación consistente entre trayectorias de video, firmas acústicas y mediciones derivadas de gráficos, lo que permite a EMMA estimar parámetros bajo dinámicas forzadas, implícitas y multivariantes, sin requerir máscaras de segmentación, renderizado diferenciable ni sensores especializados. En más de 100 escenarios, que incluyen cinco puntos de referencia dinámicos estándar (75 videos de Delfys), sistemas reales de rover y cuadricóptero con entradas ocultas, y estudios de caso de simulación con gráficos que abarcan sistemas biológicos y caóticos, EMMA ofrece una recuperación robusta de múltiples parámetros y supera significativamente a las líneas base existentes de modalidad única y descubrimiento de ecuaciones. Nuestros resultados establecen a EMMA como una solución general y escalable para la extracción de modelos consistentes con la física a partir de datos multimodales oportunistas. El código y los datos están disponibles en: https://github.com/ImpactLabASU/EMMA-CVPR2026