Artículos de investigación en IA seleccionados diariamente con traducciones
El desarrollo de agentes nativos de uso informático (CUA) representa un avance significativo en la inteligencia artificial multimodal. Sin embargo, su potencial se ve actualmente limitado por las restricciones del escalado de datos estáticos. Los paradigmas existentes, que dependen principalmente de la imitación pasiva de conjuntos de datos estáticos, tienen dificultades para capturar las intrincadas dinámicas causales inherentes a las tareas informáticas de largo horizonte. En este trabajo, presentamos EvoCUA, un modelo de agente nativo para el uso de computadoras. A diferencia de la imitación estática, EvoCUA integra la generación de datos y la optimización de políticas en un ciclo evolutivo autosostenible. Para mitigar la escasez de datos, desarrollamos un motor de síntesis verificable que genera de forma autónoma tareas diversas junto con validadores ejecutables. Para permitir la adquisición de experiencia a gran escala, diseñamos una infraestructura escalable que orquesta decenas de miles de ejecuciones asíncronas en entornos sandbox. Sobre la base de estas trayectorias masivas, proponemos una estrategia de aprendizaje evolutivo iterativo para internalizar esta experiencia de manera eficiente. Este mecanismo regula dinámicamente las actualizaciones de políticas identificando los límites de capacidad, reforzando las rutinas exitosas mientras transforma las trayectorias de fallo en una supervisión enriquecida mediante el análisis de errores y la autocorrección. Las evaluaciones empíricas en el benchmark OSWorld demuestran que EvoCUA alcanza una tasa de éxito del 56,7%, estableciendo un nuevo estado del arte de código abierto. Notablemente, EvoCUA supera significativamente al mejor modelo de código abierto anterior, OpenCUA-72B (45,0%), y sobrepasa a modelos de pesos cerrados líderes como UI-TARS-2 (53,1%). Crucialmente, nuestros resultados subrayan la generalizabilidad de este enfoque: el paradigma evolutivo impulsado por el aprendizaje a partir de la experiencia produce ganancias de rendimiento consistentes en modelos base de diversas escalas, estableciendo un camino robusto y escalable para avanzar en las capacidades de los agentes nativos.
Los Modelos de Lenguaje Grandes de Difusión (dLLMs) rompen la rígida restricción de izquierda a derecha de los LLMs tradicionales, permitiendo la generación de tokens en órdenes arbitrarios. Intuitivamente, esta flexibilidad implica un espacio de soluciones que es un superconjunto estricto de la trayectoria autorregresiva fija, desbloqueando teóricamente un potencial de razonamiento superior para tareas generales como matemáticas y codificación. En consecuencia, numerosos trabajos han utilizado el aprendizaje por refuerzo (RL) para elicitar la capacidad de razonamiento de los dLLMs. En este artículo, revelamos una realidad contraintuitiva: la generación de orden arbitrario, en su forma actual, reduce en lugar de expandir el límite de razonamiento de los dLLMs. Descubrimos que los dLLMs tienden a explotar esta flexibilidad de orden para eludir tokens de alta incertidumbre que son cruciales para la exploración, lo que conduce a un colapso prematuro del espacio de soluciones. Esta observación desafía la premisa de los enfoques de RL existentes para dLLMs, donde se suelen dedicar considerables complejidades, como manejar trayectorias combinatorias y verosimilitudes intratables, para preservar esta flexibilidad. Demostramos que el razonamiento efectivo se elicita mejor al renunciar intencionadamente al orden arbitrario y aplicar en su lugar la Optimización de Política Relativa de Grupo (GRPO) estándar. Nuestro enfoque, JustGRPO, es minimalista pero sorprendentemente efectivo (por ejemplo, 89.1% de precisión en GSM8K) mientras retiene completamente la capacidad de decodificación paralela de los dLLMs. Página del proyecto: https://nzl-thu.github.io/the-flexibility-trap
Los recientes avances en Modelos de Lenguaje Grandes Multimodales (MLLMs) han demostrado una mejora significativa en la comprensión de vídeo offline. Sin embargo, extender estas capacidades a entradas de vídeo en streaming sigue siendo un desafío, ya que los modelos existentes luchan por mantener simultáneamente un rendimiento de comprensión estable, respuestas en tiempo real y un bajo uso de memoria de GPU. Para abordar este desafío, proponemos HERMES, una novedosa arquitectura libre de entrenamiento para la comprensión precisa y en tiempo real de flujos de vídeo. Basándonos en una investigación mecanicista de la atención, conceptualizamos la caché KV como un marco de memoria jerárquico que encapsula la información del vídeo a múltiples niveles de granularidad. Durante la inferencia, HERMES reutiliza una caché KV compacta, permitiendo una comprensión eficiente del streaming bajo restricciones de recursos. Cabe destacar que HERMES no requiere cálculos auxiliares ante la llegada de consultas del usuario, garantizando así respuestas en tiempo real para interacciones con flujos de vídeo continuos, lo que logra un TTFT 10 veces más rápido en comparación con el SOTA anterior. Incluso al reducir los tokens de vídeo hasta en un 68% en comparación con el muestreo uniforme, HERMES logra una precisión superior o comparable en todos los puntos de referencia, con ganancias de hasta el 11.4% en conjuntos de datos de streaming.
Los modelos Visión-Lenguaje-Acción (VLA) han mostrado potencial en la manipulación robótica, pero a menudo presentan dificultades para generalizar ante nuevas instrucciones o escenarios complejos de múltiples tareas. Identificamos una patología crítica en los paradigmas de entrenamiento actuales, donde la recolección de datos orientada a objetivos crea un sesgo en el conjunto de datos. En dichos conjuntos, las instrucciones lingüísticas son altamente predecibles a partir únicamente de las observaciones visuales, lo que provoca que la información mutua condicional entre las instrucciones y las acciones desaparezca, un fenómeno que denominamos Colapso de la Información. En consecuencia, los modelos degeneran en políticas basadas únicamente en la visión que ignoran las restricciones lingüísticas y fallan en entornos fuera de distribución (FDD). Para abordar este problema, proponemos BayesianVLA, un marco novedoso que impone el seguimiento de instrucciones mediante una descomposición bayesiana. Al introducir Consultas de Acción Latentes entrenables, construimos una arquitectura de doble rama para estimar tanto un previo p(a|v) basado solo en la visión como un posterior π(a|v, l) condicionado al lenguaje. Luego optimizamos la política para maximizar la Información Mutua Puntual Condicional (IMPC) entre las acciones y las instrucciones. Este objetivo penaliza efectivamente el atajo visual y premia las acciones que explican explícitamente el comando lingüístico. Sin requerir nuevos datos, BayesianVLA mejora significativamente la generalización. Experimentos exhaustivos en SimplerEnv y RoboCasa demuestran mejoras sustanciales, incluyendo una mejora del 11.3% en el desafiante benchmark FDD de SimplerEnv, validando la capacidad de nuestro enfoque para anclar el lenguaje en la acción de manera robusta.
Presentamos LLM-in-Sandbox, un método que permite a los LLM explorar dentro de un *sandbox* de código (es decir, un ordenador virtual), para desarrollar inteligencia general en dominios que no son de código. Primero demostramos que los LLMs potentes, sin entrenamiento adicional, exhiben capacidades de generalización para aprovechar el *sandbox* de código en tareas no relacionadas con programación. Por ejemplo, los LLMs acceden espontáneamente a recursos externos para adquirir nuevos conocimientos, aprovechan el sistema de archivos para manejar contextos extensos y ejecutan scripts para satisfacer requisitos de formato. Además, mostramos que estas capacidades agentivas pueden mejorarse mediante el Refuerzo del Aprendizaje en *Sandbox* (LLM-in-Sandbox-RL), que utiliza únicamente datos no agentivos para entrenar modelos en la exploración del *sandbox*. Los experimentos demuestran que LLM-in-Sandbox, tanto en configuraciones sin entrenamiento como posteriores al entrenamiento, logra una generalización robusta que abarca matemáticas, física, química, biomedicina, comprensión de contextos largos y seguimiento de instrucciones. Finalmente, analizamos la eficiencia de LLM-in-Sandbox desde perspectivas computacionales y de sistema, y lo publicamos como un paquete de código abierto en Python para facilitar su implementación en entornos reales.
Los Autoencoders de Representación (RAE) han demostrado ventajas distintivas en el modelado de difusión en ImageNet al entrenarse en espacios latentes semánticos de alta dimensión. En este trabajo, investigamos si este marco puede escalar a la generación de texto a imagen (T2I) libre y a gran escala. Primero escalamos los decodificadores RAE en el codificador de representación congelado (SigLIP-2) más allá de ImageNet entrenando con datos web, sintéticos y de renderizado de texto, encontrando que, si bien la escala mejora la fidelidad general, la composición de datos dirigida es esencial para dominios específicos como el texto. Luego, sometemos a rigurosas pruebas de estrés las decisiones de diseño de RAE propuestas originalmente para ImageNet. Nuestro análisis revela que el escalado simplifica el marco: mientras que la programación de ruido dependiente de la dimensión sigue siendo crítica, las complejidades arquitectónicas como las cabezas de difusión anchas y la decodificación con aumento de ruido ofrecen beneficios insignificantes a gran escala. Basándonos en este marco simplificado, realizamos una comparación controlada de RAE frente al VAE FLUX de última generación a través de escalas de transformadores de difusión de 0.5B a 9.8B de parámetros. Los RAE superan consistentemente a los VAE durante el preentrenamiento en todas las escalas del modelo. Además, durante el ajuste fino en conjuntos de datos de alta calidad, los modelos basados en VAE sufren un sobreajuste catastrófico después de 64 épocas, mientras que los modelos RAE se mantienen estables hasta 256 épocas y logran un rendimiento consistentemente mejor. En todos los experimentos, los modelos de difusión basados en RAE demuestran una convergencia más rápida y una mejor calidad de generación, estableciendo a los RAE como una base más simple y sólida que los VAE para la generación T2I a gran escala. Adicionalmente, dado que tanto la comprensión como la generación visual pueden operar en un espacio de representación compartido, el modelo multimodal puede razonar directamente sobre los latentes generados, abriendo nuevas posibilidades para modelos unificados.
Los modelos de lenguaje basados en difusión (DLLMs) ofrecen generación no secuencial por bloques y una reutilización de datos más rica en comparación con los modelos autorregresivos (AR), pero los DLLMs de código existentes aún se quedan por detrás de las sólidas bases de referencia AR bajo presupuestos comparables. Revisitamos este escenario en un estudio controlado e introducimos Stable-DiffCoder, un modelo de código de difusión por bloques que reutiliza la arquitectura, los datos y el pipeline de entrenamiento de Seed-Coder. Para permitir un aprendizaje eficiente del conocimiento y un entrenamiento estable, incorporamos una etapa de preentrenamiento continuo (CPT) de difusión por bloques mejorada con una fase de calentamiento personalizada y un programa de ruido recortado por bloques. Con los mismos datos y arquitectura, Stable-DiffCoder supera en general a su contraparte AR en un amplio conjunto de benchmarks de código. Además, confiando únicamente en las etapas de CPT y ajuste fino supervisado, Stable-DiffCoder logra un rendimiento superior al de una amplia gama de modelos AR y DLLMs de ~8B, demostrando que el entrenamiento basado en difusión puede mejorar la calidad del modelado de código más allá del entrenamiento AR por sí solo. Además, el modelado de cualquier orden basado en difusión mejora el modelado estructurado de código para edición y razonamiento, y, mediante la aumentación de datos, beneficia a los lenguajes de programación con bajos recursos.
Las capacidades a nivel de píxel son esenciales para construir sistemas inteligentes interactivos. Sin embargo, los LLMs multimodales (MLLMs) con capacidades pixel-wise siguen siendo difíciles de escalar debido a codificadores complejos a nivel de región, decodificadores especializados en segmentación y objetivos de entrenamiento incompatibles. Para abordar estos desafíos, presentamos SAMTok, un tokenizador discreto de máscaras que convierte cualquier máscara de región en dos tokens especiales y reconstruye la máscara utilizando estos tokens con alta fidelidad. Al tratar las máscaras como nuevos tokens de lenguaje, SAMTok permite que los MLLMs base (como la serie QwenVL) aprendan capacidades pixel-wise mediante la predicción estándar del siguiente token y un aprendizaje por refuerzo simple, sin modificaciones arquitectónicas ni diseños de pérdida especializados. SAMTok se basa en SAM2 y se entrena con 209 millones de máscaras diversas utilizando un codificador de máscaras y un cuantizador vectorial residual para producir tokens discretos, compactos y ricos en información. Con 5 millones de muestras de datos de comprensión y generación de máscaras en formato SAMTok, QwenVL-SAMTok obtiene resultados state-of-the-art o comparables en descripción de regiones, VQA de regiones, conversación fundamentada, segmentación referencial, análisis de grafos de escena y segmentación interactiva multi-ronda. Además, introducimos una recompensa de coincidencia de respuesta textual que permite un aprendizaje por refuerzo eficiente para la generación de máscaras, logrando mejoras sustanciales en los benchmarks GRES y GCG. Nuestros resultados demuestran un paradigma escalable y sencillo para dotar a los MLLMs de sólidas capacidades pixel-wise. Nuestro código y modelos están disponibles.
¿Cómo podemos utilizar la IA para descubrir un nuevo estado del arte en un problema científico? Trabajos previos en escalado en tiempo de prueba, como AlphaEvolve, realizan búsquedas mediante *prompts* a un modelo de lenguaje grande (LLM) congelado. Nosotros realizamos aprendizaje por refuerzo en tiempo de prueba, de modo que el LLM puede continuar entrenándose, pero ahora con experiencia específica del problema de prueba. Esta forma de aprendizaje continuo es bastante especial, porque su objetivo es producir una gran solución en lugar de muchas buenas en promedio, y resolver este problema concreto en lugar de generalizar a otros. Por lo tanto, nuestro objetivo de aprendizaje y nuestra subrutina de búsqueda están diseñados para priorizar las soluciones más prometedoras. Llamamos a este método Entrenamiento en Tiempo de Prueba para Descubrir (TTT-Discover). Siguiendo trabajos anteriores, nos centramos en problemas con recompensas continuas. Reportamos resultados para cada problema que intentamos, en matemáticas, ingeniería de *kernels* para GPU, diseño de algoritmos y biología. TTT-Discover establece el nuevo estado del arte en casi todos ellos: (i) el problema del mínimo solapamiento de Erdős y una desigualdad de autocorrelación; (ii) una competición de *kernels* GPUMode (hasta 2 veces más rápido que el estado del arte anterior); (iii) competiciones pasadas de algoritmos AtCoder; y (iv) un problema de eliminación de ruido en análisis de célula única. Nuestras soluciones son revisadas por expertos o los organizadores. Todos nuestros resultados se logran con un modelo abierto, OpenAI gpt-oss-120b, y pueden reproducirse con nuestro código disponible públicamente, a diferencia de los mejores resultados anteriores que requerían modelos frontera cerrados. Nuestras ejecuciones de entrenamiento en tiempo de prueba se realizan utilizando Tinker, una API de Thinking Machines, con un coste de solo unos pocos cientos de dólares por problema.
En este informe, presentamos la serie Qwen3-TTS, una familia de modelos avanzados de conversión de texto a voz multilingües, controlables, robustos y de transmisión en flujo continuo. Qwen3-TTS es compatible con la clonación de voz de última generación a partir de 3 segundos y el control basado en descripciones, lo que permite tanto la creación de voces completamente nuevas como una manipulación de grano fino del habla de salida. Entrenado con más de 5 millones de horas de datos de voz que abarcan 10 idiomas, Qwen3-TTS adopta una arquitectura de modelo de lenguaje de doble pista para la síntesis en tiempo real, junto con dos tokenizadores de voz: 1) Qwen-TTS-Tokenizer-25Hz es un códec de libro de códigos único que enfatiza el contenido semántico, ofrece una integración perfecta con Qwen-Audio y permite la reconstrucción de la forma de onda en flujo continuo mediante un DiT por bloques. 2) Qwen-TTS-Tokenizer-12Hz logra una reducción extrema de la tasa de bits y una transmisión en flujo continuo de ultra baja latencia, permitiendo la emisión inmediata del primer paquete (97 ms) gracias a su diseño de libro de códigos múltiples de 12,5 Hz y 16 capas y una red ConvNet causal ligera. Experimentos exhaustivos indican un rendimiento de vanguardia en diversos puntos de referencia objetivos y subjetivos (por ejemplo, el conjunto de pruebas multilingüe para TTS, InstructTTSEval y nuestro conjunto de pruebas de habla larga). Para facilitar la investigación y el desarrollo comunitario, publicamos tanto los tokenizadores como los modelos bajo la licencia Apache 2.0.
Los agentes de IA podrían pronto volverse capaces de completar de forma autónoma tareas valiosas y de largo horizonte en diversos dominios. Los puntos de referencia actuales o bien no miden tareas del mundo real, o no son lo suficientemente difíciles para medir de manera significativa a los modelos de vanguardia. Con este fin, presentamos Terminal-Bench 2.0: un punto de referencia riguroso y cuidadosamente seleccionado, compuesto por 89 tareas en entornos de terminal informática, inspiradas en problemas de flujos de trabajo reales. Cada tarea presenta un entorno único, una solución escrita por humanos y pruebas exhaustivas para su verificación. Demostramos que los modelos y agentes de vanguardia obtienen puntuaciones inferiores al 65% en el benchmark y realizamos un análisis de errores para identificar áreas de mejora en los modelos y agentes. Publicamos el conjunto de datos y el sistema de evaluación para ayudar a desarrolladores e investigadores en trabajos futuros en https://www.tbench.ai/.
Este artículo presenta una familia de codificadores de visión avanzados, denominada OpenVision 3, que aprende una representación visual única y unificada capaz de servir tanto para la comprensión como para la generación de imágenes. Nuestra arquitectura central es simple: alimentamos latentes de imagen comprimidos mediante VAE a un codificador ViT y entrenamos su salida para que cumpla dos roles complementarios. Primero, la salida del codificador se pasa al decodificador ViT-VAE para reconstruir la imagen original, incentivando a que la representación capture la estructura generativa. Segundo, la misma representación se optimiza mediante aprendizaje contrastivo y objetivos de descripción de imágenes, fortaleciendo las características semánticas. Al optimizar conjuntamente las señales impulsadas por la reconstrucción y la semántica en un espacio latente compartido, el codificador aprende representaciones que se sinergizan y generalizan bien en ambos regímenes. Validamos este diseño unificado mediante extensas evaluaciones *downstream* con el codificador congelado. Para la comprensión multimodal, integramos el codificador en el framework LLaVA-1.5: su rendimiento es comparable al de un codificador de visión CLIP estándar (por ejemplo, 62.4 frente a 62.2 en SeedBench, y 83.7 frente a 82.9 en POPE). Para la generación, lo evaluamos bajo el framework RAE: nuestro sistema supera sustancialmente al codificador estándar basado en CLIP (por ejemplo, gFID: 1.89 frente a 2.54 en ImageNet). Esperamos que este trabajo pueda impulsar futuras investigaciones sobre modelado unificado.
La Recuperación de Imágenes Compuestas (CIR) es una tarea fundamental y compleja en la comprensión multimodal. Los puntos de referencia actuales para CIR suelen presentar categorías de consulta limitadas y no logran capturar los diversos requisitos de los escenarios del mundo real. Para salvar esta brecha de evaluación, aprovechamos la edición de imágenes para lograr un control preciso sobre los tipos de modificación y el contenido, permitiendo un proceso para sintetizar consultas en un amplio espectro de categorías. Utilizando este proceso, construimos EDIR, un nuevo punto de referencia CIR de grano fino. EDIR abarca 5,000 consultas de alta calidad estructuradas en cinco categorías principales y quince subcategorías. Nuestra evaluación exhaustiva de 13 modelos de incrustación multimodal revela una brecha de capacidad significativa; incluso los modelos más avanzados (por ejemplo, RzenEmbed y GME) tienen dificultades para rendir de manera consistente en todas las subcategorías, lo que subraya el rigor de nuestro punto de referencia. Mediante un análisis comparativo, descubrimos además limitaciones inherentes en los puntos de referencia existentes, como sesgos de modalidad y una cobertura categorial insuficiente. Además, un experimento de entrenamiento en el dominio demuestra la viabilidad de nuestro benchmark. Este experimento aclara los desafíos de la tarea al distinguir entre categorías que son resolubles con datos específicos y aquellas que exponen limitaciones intrínsecas de las arquitecturas de modelos actuales.
El rendimiento de los sistemas de IA modernos está fundamentalmente limitado por la calidad de sus kernels subyacentes, los cuales traducen la semántica algorítmica de alto nivel en operaciones de hardware de bajo nivel. Lograr kernels casi óptimos requiere una comprensión a nivel experto de las arquitecturas de hardware y los modelos de programación, lo que convierte a la ingeniería de kernels en un proceso crítico pero notoriamente lento y difícil de escalar. Los recientes avances en los modelos de lenguaje grandes (LLMs) y en los agentes basados en LLMs han abierto nuevas posibilidades para automatizar la generación y optimización de kernels. Los LLMs son idóneos para comprimir el conocimiento experto sobre kernels que es difícil de formalizar, mientras que los sistemas agentes permiten además una optimización escalable al plantear el desarrollo de kernels como un ciclo iterativo impulsado por la retroalimentación. Se han logrado rápidos progresos en esta área. Sin embargo, el campo sigue estando fragmentado, careciendo de una perspectiva sistemática para la generación de kernels impulsada por LLMs. Esta revisión aborda esta brecha proporcionando una visión estructurada de los enfoques existentes, abarcando tanto los métodos basados en LLMs como los flujos de trabajo de optimización agentes, y compilando sistemáticamente los conjuntos de datos y benchmarks que sustentan el aprendizaje y la evaluación en este dominio. Además, se esbozan los principales desafíos abiertos y futuras direcciones de investigación, con el objetivo de establecer una referencia integral para la próxima generación de optimización automática de kernels. Para realizar un seguimiento de este campo, mantenemos un repositorio GitHub de código abierto en https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.
La estimación del progreso de una tarea requiere razonar sobre dinámicas de largo horizonte, en lugar de reconocer contenido visual estático. Si bien los Modelos de Visión y Lenguaje modernos destacan en describir lo que es visible, no está claro si pueden inferir qué tan avanzada está una tarea a partir de observaciones parciales. Para ello, presentamos Progress-Bench, un benchmark para evaluar sistemáticamente el razonamiento sobre progreso en VLMs. Más allá de la evaluación comparativa, exploramos además un paradigma de razonamiento sobre progreso en dos etapas, inspirado en el humano, mediante tanto *prompting* sin entrenamiento como un enfoque basado en entrenamiento utilizando el conjunto de datos curado ProgressLM-45K. Los experimentos con 14 VLMs muestran que la mayoría de los modelos aún no están preparados para la estimación del progreso de tareas, mostrando sensibilidad a la modalidad de demostración y a cambios de punto de vista, así como un manejo deficiente de casos no respondibles. Mientras que el *prompting* sin entrenamiento que impone un razonamiento estructurado sobre el progreso produce ganancias limitadas y dependientes del modelo, el ProgressLM-3B basado en entrenamiento logra mejoras consistentes incluso a una escala de modelo pequeña, a pesar de ser entrenado en un conjunto de tareas completamente disjunto de las tareas de evaluación. Análisis posteriores revelan patrones característicos de error y aclaran cuándo y por qué el razonamiento sobre progreso tiene éxito o falla.
La generalización de los modelos de matteado de video a videos del mundo real sigue siendo un desafío significativo debido a la escasez de datos etiquetados. Para abordar esto, presentamos el Modelo de Máscara a Matte para Video (VideoMaMa), que convierte máscaras de segmentación aproximadas en mattes alfa con precisión a nivel de píxel, aprovechando modelos de difusión de video preentrenados. VideoMaMa demuestra una fuerte generalización de cero disparos a material de archivo del mundo real, a pesar de haber sido entrenado únicamente con datos sintéticos. Basándonos en esta capacidad, desarrollamos un pipeline escalable de pseudo-etiquetado para el matteado de video a gran escala y construimos el conjunto de datos Matting Anything in Video (MA-V), que ofrece anotaciones de matteado de alta calidad para más de 50,000 videos del mundo real que abarcan escenas y movimientos diversos. Para validar la efectividad de este conjunto de datos, ajustamos el modelo SAM2 en MA-V para obtener SAM2-Matte, el cual supera al mismo modelo entrenado en conjuntos de datos de matteado existentes en términos de robustez en videos en condiciones naturales. Estos hallazgos enfatizan la importancia del matteado de video pseudo-etiquetado a gran escala y demuestran cómo los antecedentes generativos y las señales de segmentación accesibles pueden impulsar un progreso escalable en la investigación del matteado de video.
Los modelos recientes de generación de vídeo demuestran una capacidad notable para capturar interacciones físicas complejas y la evolución de escenas a lo largo del tiempo. Para aprovechar sus *priors* espacio-temporales, trabajos en robótica han adaptado modelos de vídeo para el aprendizaje de políticas, pero introducen complejidad al requerir múltiples etapas de entrenamiento posterior y nuevos componentes arquitectónicos para la generación de acciones. En este trabajo, presentamos Cosmos Policy, un enfoque simple para adaptar un gran modelo de vídeo preentrenado (Cosmos-Predict2) en una política robótica efectiva mediante una única etapa de entrenamiento posterior en los datos de demostración del robot recopilados en la plataforma objetivo, sin modificaciones arquitectónicas. Cosmos Policy aprende a generar directamente acciones del robot codificadas como *frames* latentes dentro del proceso de difusión latente del modelo de vídeo, aprovechando los *priors* preentrenados del modelo y su algoritmo de aprendizaje central para capturar distribuciones de acciones complejas. Adicionalmente, Cosmos Policy genera imágenes de estados futuros y valores (recompensas acumuladas esperadas), que están igualmente codificados como *frames* latentes, permitiendo la planificación en tiempo de prueba de trayectorias de acción con mayor probabilidad de éxito. En nuestras evaluaciones, Cosmos Policy logra un rendimiento de vanguardia en los benchmarks de simulación LIBERO y RoboCasa (tasas de éxito promedio del 98.5% y 67.1%, respectivamente) y la puntuación promedio más alta en tareas de manipulación bimanual del mundo real y desafiantes, superando a políticas de difusión fuertes entrenadas desde cero, políticas basadas en modelos de vídeo y modelos visión-lenguaje-acción de última generación ajustados en las mismas demostraciones robóticas. Además, dados los datos de ejecución de la política, Cosmos Policy puede aprender de la experiencia para refinar su modelo del mundo y su función de valor y aprovechar la planificación basada en modelos para lograr tasas de éxito aún mayores en tareas desafiantes. Publicamos el código, modelos y datos de entrenamiento en https://research.nvidia.com/labs/dir/cosmos-policy/.
La elevación de imágenes y vídeos en perspectiva a panoramas 360° permite la generación de mundos 3D inmersivos. Los enfoques existentes a menudo dependen de una alineación geométrica explícita entre el espacio de proyección de perspectiva y el equirrectangular (ERP). Sin embargo, esto requiere metadatos de cámara conocidos, lo que limita la aplicación a datos del mundo real, donde dicha calibración suele estar ausente o ser ruidosa. Proponemos 360Anything, un marco libre de geometría basado en transformadores de difusión preentrenados. Al tratar la entrada en perspectiva y el panorama objetivo simplemente como secuencias de tokens, 360Anything aprende el mapeo perspectiva-a-equirrectangular de una manera puramente basada en datos, eliminando la necesidad de información de la cámara. Nuestro enfoque logra un rendimiento de vanguardia en la generación perspectiva-a-360° tanto para imágenes como para vídeos, superando trabajos anteriores que utilizan información de cámara de verdad terreno. También rastreamos la causa principal de los artefactos de costura en los límites del ERP al relleno de ceros (zero-padding) en el codificador VAE, e introducimos la Codificación Latente Circular para facilitar una generación sin costuras. Finalmente, mostramos resultados competitivos en benchmarks de estimación de campo visual (FoV) y orientación de cámara con zero-shot, demostrando la profunda comprensión geométrica de 360Anything y su utilidad más amplia en tareas de visión por computador. Los resultados adicionales están disponibles en https://360anything.github.io/.
La generación de objetos 3D animados es fundamental para muchas aplicaciones, sin embargo, la mayoría de los trabajos más avanzados suelen ser difíciles de aplicar en la práctica debido a su configuración limitada, su largo tiempo de ejecución o su calidad restringida. Presentamos ActionMesh, un modelo generativo que predice mallas 3D listas para producción "en acción" de manera directa (feed-forward). Inspirándonos en los primeros modelos de video, nuestra idea clave es modificar los modelos de difusión 3D existentes para incluir un eje temporal, dando como resultado un marco que denominamos "difusión 3D temporal". Específicamente, primero adaptamos la etapa de difusión 3D para generar una secuencia de latentes sincronizados que representan formas 3D independientes y variables en el tiempo. En segundo lugar, diseñamos un autoencoder 3D temporal que traduce una secuencia de formas independientes en las deformaciones correspondientes de una forma de referencia predefinida, lo que nos permite construir una animación. Al combinar estos dos componentes, ActionMesh genera mallas 3D animadas a partir de diferentes entradas, como un video monocular, una descripción textual o incluso una malla 3D con un texto que describe su animación. Además, en comparación con enfoques anteriores, nuestro método es rápido y produce resultados que no requieren rigging y son topológicamente consistentes, permitiendo así una iteración rápida y aplicaciones fluidas como texturizado y retargeting. Evaluamos nuestro modelo en benchmarks estándar de video-a-4D (Consistent4D, Objaverse) y reportamos rendimientos de vanguardia tanto en precisión geométrica como en consistencia temporal, demostrando que nuestro modelo puede entregar mallas 3D animadas con una velocidad y calidad sin precedentes.
La generalización de los Modelos de Lenguaje Grandes Multimodales (MLLMs) a nuevos dominios de vídeo es esencial para su implementación en el mundo real, pero sigue siendo un desafío debido a la escasez de datos etiquetados. Si bien el Aprendizaje en Contexto (ICL) ofrece una vía de adaptación libre de entrenamiento, los métodos estándar dependen de grandes conjuntos de datos anotados, lo que a menudo resulta impracticable en entornos especializados como los industriales o quirúrgicos, ya que requieren anotaciones de expertos. Para salvar esta brecha, presentamos VIOLA (Video In-cOntext Learning with minimal Annotation), un marco eficiente en etiquetas que sinergiza la supervisión mínima de expertos con abundantes datos no etiquetados. En primer lugar, para maximizar la eficiencia de un presupuesto de anotación estricto, proponemos un muestreo ponderado por densidad e incertidumbre. A diferencia de las estrategias estándar de diversidad o incertidumbre, que arriesgan seleccionar valores atípicos visuales, nuestro método aprovecha la estimación de densidad para identificar muestras que son simultáneamente diversas, representativas e informativas. En segundo lugar, para utilizar los datos no etiquetados restantes sin propagar ruido, construimos un conjunto híbrido e introducimos la recuperación consciente de la confianza y el prompting consciente de la confianza. Estos mecanismos modelan explícitamente la fiabilidad de las etiquetas, recuperando demostraciones basadas en una puntuación compuesta de similitud y confianza, a la vez que permiten que el MLLM distinga adaptativamente entre verdades fundamentales verificadas y pseudoetiquetas ruidosas. Experimentos exhaustivos en nueve benchmarks diversos utilizando cuatro MLLMs demuestran que nuestro marco supera significativamente a varias líneas base en entornos de bajos recursos, logrando una adaptación robusta con costes de anotación mínimos.
Los modelos de lenguaje de gran tamaño (LLM) se utilizan cada vez más como simuladores humanos, tanto para evaluar sistemas conversacionales como para generar datos de ajuste fino. Sin embargo, la instrucción ingenua de "actuar como un usuario" a menudo produce enunciados verbosos y poco realistas, lo que subraya la necesidad de una evaluación rigurosa de los llamados agentes proxy de usuario. Presentamos MIRRORBENCH, un marco de evaluación reproducible y extensible que evalúa a los proxies de usuario únicamente en función de su capacidad para producir enunciados de usuario similares a los humanos en diversas tareas conversacionales, explícitamente desacoplados del éxito de la tarea posterior. MIRRORBENCH cuenta con un motor de ejecución modular con interfaces tipadas, registros basados en metadatos, soporte multiplataforma, almacenamiento en caché y una sólida capacidad de observación. El sistema admite proxies de usuario, conjuntos de datos, tareas y métricas intercambiables, lo que permite a los investigadores evaluar simuladores arbitrarios bajo un marco uniforme y consciente de la varianza. Incluimos tres métricas de diversidad léxica (MATTR, K de YULE y HD-D) y tres métricas basadas en evaluación por LLM (GTEval, Indistinguibilidad por Pares, y Rúbrica y Razonamiento). En cuatro conjuntos de datos abiertos, MIRRORBENCH produce resultados conscientes de la varianza y revela brechas sistemáticas entre los proxies de usuario y los usuarios humanos reales. El marco es de código abierto e incluye una interfaz de línea de comandos simple para ejecutar experimentos, gestionar configuraciones y caché, y generar informes. El marco se puede acceder en https://github.com/SAP/mirrorbench.
Presentamos dla-ideal-solver, un marco de alto rendimiento para simular la Agregación Limitada por Difusión (ALD) bidimensional utilizando Python acelerado con Numba. Al aprovechar la compilación justo a tiempo (JIT), logramos un rendimiento computacional comparable al de implementaciones estáticas heredadas, manteniendo al mismo tiempo una alta flexibilidad a nivel de código. Investigamos la inestabilidad del crecimiento Laplaciano en diversas geometrías de inyección y concentraciones de partículas. Nuestro análisis confirma la robustez de la dimensión fractal estándar D_f ≈ 1,71 para regímenes diluidos, lo cual es consistente con la clase de universalidad de Witten-Sander. Sin embargo, reportamos una transición distintiva hacia un crecimiento compacto similar al de Eden (D_f ≈ 1,87) en entornos de alta densidad, atribuida a la saturación de la longitud de apantallamiento. Más allá del escalado estándar de masa-radio, empleamos dimensiones de Rényi generalizadas y métricas de lagunaridad para cuantificar el carácter monofractal y la heterogeneidad espacial de los agregados. Este trabajo establece un banco de pruebas reproducible y de código abierto para explorar transiciones de fase en la mecánica estadística de no equilibrio.
A medida que los modelos de lenguaje grande (LLM) se vuelven cada vez más comunes en aplicaciones educativas, existe una creciente necesidad de métodos basados en evidencia para diseñar y evaluar prompts de LLM que produzcan resultados personalizados y pedagógicamente alineados. Este estudio presenta un enfoque sistemático y generalizable para evaluar prompts, demostrado a través de un análisis de preguntas de seguimiento generadas por LLM en una actividad de diálogo estructurado. Se diseñaron y probaron seis plantillas de prompts. Las plantillas incorporaron patrones establecidos de ingeniería de prompts, haciendo que cada una enfatizara estrategias pedagógicas distintas. Las plantillas de prompts se compararon mediante un marco de evaluación de estilo torneo que puede adaptarse para otras aplicaciones educativas. El torneo empleó el sistema de calificación Glicko2 con ocho jueces evaluando pares de preguntas en tres dimensiones: formato, apoyo al diálogo y adecuación para los estudiantes. Los datos se obtuvieron de 120 interacciones auténticas de usuarios en tres despliegues educativos distintos. Los resultados mostraron que un único prompt relacionado con la lectura estratégica superó a otras plantillas, con probabilidades de victoria que oscilaron entre el 81% y el 100% en comparaciones por pares. Este prompt combinaba patrones de persona y gestor de contexto y estaba diseñado para apoyar estrategias de aprendizaje metacognitivo, como el aprendizaje autodirigido. La metodología demuestra cómo los investigadores en tecnología educativa pueden evaluar y mejorar sistemáticamente los diseños de prompts, avanzando más allá de la ingeniería de prompts ad hoc hacia un desarrollo de prompts basado en evidencia para aplicaciones educativas.
Si bien los Modelos de Lenguaje a Gran Escala (LLMs) demuestran capacidades notables, su falta de confiabilidad sigue siendo una barrera crítica para su despliegue en dominios de alto riesgo. Este estudio traza una evolución funcional en el abordaje de este desafío: la evolución de la incertidumbre desde una métrica de diagnóstico pasiva hacia una señal de control activa que guía el comportamiento del modelo en tiempo real. Demostramos cómo se aprovecha la incertidumbre como señal de control activa en tres fronteras: en el razonamiento avanzado para optimizar el cómputo y activar la autocorrección; en agentes autónomos para gobernar decisiones metacognitivas sobre el uso de herramientas y la búsqueda de información; y en el aprendizaje por refuerzo para mitigar la manipulación de recompensas y permitir la automejora mediante recompensas intrínsecas. Al fundamentar estos avances en marcos teóricos emergentes como los métodos bayesianos y la Predicción Conformal, ofrecemos una perspectiva unificada sobre esta tendencia transformadora. Este estudio proporciona una visión general exhaustiva, un análisis crítico y patrones de diseño prácticos, argumentando que dominar la nueva tendencia de la incertidumbre es esencial para construir la próxima generación de IA escalable, confiable y segura.
Los agentes de IA están evolucionando rápidamente desde modelos lingüísticos pasivos hacia sistemas autónomos que ejecutan tareas complejas de múltiples pasos. Sin embargo, su exceso de confianza ante el fracaso sigue siendo una barrera fundamental para su implementación en entornos de alto riesgo. Los métodos de calibración existentes, diseñados para salidas estáticas de un solo turno, no pueden abordar los desafíos únicos de los sistemas agentivos, como los errores acumulativos a lo largo de las trayectorias, la incertidumbre de las herramientas externas y los modos de fallo opacos. Para abordar estos desafíos, introducimos, por primera vez, el problema de la Calibración de Confianza Agentiva y proponemos la Calibración Holística de Trayectorias (HTC), un marco de diagnóstico novedoso que extrae ricas características a nivel de proceso, que van desde la dinámica macro hasta la estabilidad micro a lo largo de toda la trayectoria de un agente. Impulsado por un modelo simple e interpretable, HTC supera constantemente líneas de base sólidas tanto en calibración como en discriminación, a través de ocho puntos de referencia, múltiples LLM y diversos marcos de agentes. Más allá del rendimiento, HTC ofrece tres avances esenciales: proporciona interpretabilidad al revelar las señales detrás del fallo, permite la transferibilidad al aplicarse en distintos dominios sin necesidad de reentrenamiento, y logra generalización a través de un Calibrador de Agente General (GAC) que alcanza la mejor calibración (ECE más bajo) en el punto de referencia fuera de dominio GAIA. En conjunto, estas contribuciones establecen un nuevo paradigma centrado en el proceso para la calibración de la confianza, proporcionando un marco para diagnosticar y mejorar la fiabilidad de los agentes de IA.
Si bien los agentes de IA han demostrado capacidades impresionantes en razonamiento de horizonte largo, su fiabilidad se ve severamente limitada por la "Espiral de la Alucinación", donde los errores epistémicos tempranos se propagan irreversiblemente. Los métodos existentes enfrentan un dilema: los métodos de cuantificación de incertidumbre (UQ) suelen actuar como sensores pasivos, solo diagnosticando riesgos sin abordarlos, mientras que los mecanismos de autorreflexión sufren correcciones continuas o sin rumbo. Para cerrar esta brecha, proponemos un marco unificado de UQ Agéntica de Proceso Dual (AUQ) que transforma la incertidumbre verbalizada en señales de control activas y bidireccionales. Nuestra arquitectura comprende dos mecanismos complementarios: el Sistema 1 (Memoria Consciente de la Incertidumbre, UAM), que propaga implícitamente la confianza verbalizada y las explicaciones semánticas para prevenir la toma de decisiones ciega; y el Sistema 2 (Reflexión Consciente de la Incertidumbre, UAR), que utiliza estas explicaciones como pistas racionales para activar una resolución dirigida en tiempo de inferencia solo cuando es necesario. Esto permite al agente equilibrar dinámicamente la ejecución eficiente y la deliberación profunda. Experimentos exhaustivos en benchmarks de bucle cerrado y tareas de investigación profunda de final abierto demuestran que nuestro enfoque libre de entrenamiento logra un rendimiento superior y una calibración a nivel de trayectoria. Creemos que este marco fundamentado, AUQ, representa un paso significativo hacia agentes confiables.
Implementamos y evaluamos en hardware cuántico de IBM la familia de circuitos propuesta por Violaris para estimar testigos operacionales de comunicación entre ramas, definidos como correlaciones en registros de medición clásicos producidos por circuitos compilados de tipo amigo-de-Wigner. Realizamos una instancia de cinco qubits del protocolo como un patrón de transferencia de mensajes entre registros dentro de un único circuito, en lugar de señalización física, y evaluamos su comportamiento bajo ruido realista del dispositivo y restricciones de compilación. El circuito codifica una evolución condicionada por ramas de un subsistema observador, cuya dinámica depende de un qubit de control, seguida de una operación de transferencia controlada que sondea las correlaciones entre contextos de medición condicionales. Al ejecutar en el *backend* ibm_fez con 20000 disparos, observamos una visibilidad basada en población de 0.877, testigos de coherencia de 0.840 y -0.811 a lo largo de ejes ortogonales, y una magnitud sensible a la fase de aproximadamente 1.17. Si bien la métrica de visibilidad es insensible a algunas clases de desfase, los testigos de coherencia proporcionan sensibilidad complementaria al ruido fuera de la diagonal. Este trabajo no prueba ni discrimina entre interpretaciones de la mecánica cuántica. En su lugar, proporciona una canalización operacional de restricciones reproducible para evaluar la detectabilidad de canales no ideales en relación con el ruido calibrado del dispositivo.