Artículos de investigación en IA seleccionados diariamente con traducciones
Muchos momentos del mundo real no esperan a que un usuario pregunte. Un incendio comienza en un monitor de seguridad, una expresión se cruza en una videollamada, o un producto que un espectador desea pasa rápidamente en una transmisión en vivo. Sin embargo, los modelos grandes actuales siguen siendo mayoritariamente por turnos por diseño: solo responden cuando se les dirige la palabra, e incluso las aplicaciones de videollamada que parecen interactivas aún operan como sistemas de pregunta-respuesta, reaccionando solo cuando se les consulta o se les da una instrucción. Proponemos un paradigma diferente: un modelo que está presente en el mundo como una persona. Observa continuamente lo que está sucediendo ahora, decide por sí mismo si hablar o permanecer en silencio, interactúa en tiempo real y delega a un modelo de fondo cuando el problema es difícil. Para avanzar en los modelos de interacción y su adopción en diversos dominios, realizamos dos contribuciones completamente de código abierto. Primero, lanzamos JoyAI-VL-Interaction, un modelo de interacción VL de 8 mil millones de parámetros centrado en la visión. El modelo toma la decisión de respuesta internamente, eligiendo cada segundo permanecer en silencio, responder o delegar a un modelo de fondo, y destaca en capacidad de respuesta activada por visión y conciencia temporal. Lo acompañamos de una receta de entrenamiento transferible, de la cual surgen capacidades para las que nunca entrenamos, como guiar a un comprador a través de cambios de pantalla en una aplicación o improvisar una conferencia a partir de una presentación de diapositivas. Segundo, lanzamos un sistema completo y desplegable construido alrededor de ese modelo. El sistema transmite cualquier video en curso al modelo, haciéndolo genuinamente presente en el mundo. Todos los demás componentes son conectables, incluidos módulos ASR/TTS, memoria, interfaz de visualización y un cerebro de fondo que puede conectarse a cualquier API o agente. En seis escenarios del mundo real, los evaluadores humanos prefieren JoyAI-VL-Interaction sobre los asistentes de videollamada integrados en aplicaciones de Doubao y Gemini por un amplio margen. Hasta donde sabemos, este es el primer modelo de interacción abierto e impulsado por visión que se publica junto con su receta de entrenamiento, datos y sistema completo desplegable.
Los datos cuentan historias que moldean la sociedad; el trabajo del periodista de datos es convertir información cruda en historias que los no expertos puedan confiar. Una noticia de alta calidad requiere semanas de trabajo en equipo en una redacción: buscar contexto, ejecutar análisis estadísticos, elegir un ángulo y diseñar visualizaciones. Los agentes recientes manejan bien pasos individuales: los agentes de ciencia de datos cierran el ciclo de análisis, mientras que los agentes de diseño sintetizan sitios web atractivos. Pero, ¿puede un agente actuar como periodista de datos de principio a fin? Presentamos Data Journalist Agent (Data2Story), un marco multiagente que orquesta roles especializados en una única redacción virtual. Data2Story aporta dos innovaciones. (i) Las afirmaciones están fundamentadas en evidencia: un Inspector vincula cada número, ángulo y recurso con datos, código o una referencia externa. (ii) Los artículos son generativos multimodales: en lugar de recurrir a texto plano y gráficos estáticos, Data2Story razona sobre lo que los lectores querrán ver y luego despliega herramientas multimodales, como mapas interactivos para geografía y audio para música. Evaluamos Data2Story en 18 artículos, cada uno emparejado con el artículo experto publicado originalmente, en cuatro ejes: (a) cobertura de ángulos humano-agente; (b) evaluación mediante rúbrica con 53 participantes en cinco dimensiones; (c) agentes de uso computacional como jueces, un proxy de ahorro de costos para cómo los lectores navegan por artículos interactivos; y (d) verificabilidad, donde un verificador de código reejecuta afirmaciones contra los datos y comprueba las afirmaciones con referencias. Data2Story produce historias multimedia competitivas, trazables y fundamentadas en evidencia, con especial fortaleza en transparencia y auditabilidad. Los artículos humanos conservan una ventaja en ángulo editorial, diseño creativo y presentación. Posicionamos a Data2Story como un colaborador para periodistas, que permite una cobertura más basada en evidencia, transparente y verificable. El código y las demostraciones están disponibles en https://data2story.github.io.
Las políticas robóticas generalistas deben seguir las instrucciones del usuario mientras razonan sobre cómo los objetos, las cámaras y las acciones del robot interactúan en el mundo físico tridimensional. Los modelos recientes de visión-lenguaje-acción (VLA) y los modelos de video mundo-acción (WAM) heredan fuertes prioridades semánticas o temporales de modelos fundacionales a gran escala, pero aún operan principalmente en fotogramas de imagen 2D o espacios latentes derivados de 2D, dejando implícita la geometría 3D necesaria para la manipulación rica en contacto. Proponemos el Modelo de Acción Geométrica (GAM), una política de manipulación condicionada por lenguaje que reutiliza directamente un modelo fundacional geométrico preentrenado (GFM) como sustrato compartido para percepción, predicción temporal y decodificación de acciones. GAM divide el GFM en una capa intermedia: las capas superficiales actúan como codificador de observaciones, y un predictor causal futuro insertado en la capa de división pronostica tokens latentes futuros condicionados por lenguaje, propiocepción e historial de acciones. Luego, los tokens futuros predichos se enrutan a través de los bloques restantes del GFM para la propagación y decodificación de características, lo que permite que un solo tronco base produzca tanto geometría futura como acciones. Este diseño dota al GFM de modelado temporal del mundo condicionado por lenguaje mediante modificaciones arquitectónicas mínimas, preservando al mismo tiempo sus ricas prioridades geométricas. En un amplio conjunto de puntos de referencia de simulación y manipulación con robots reales, GAM es más preciso, más robusto, más rápido y más ligero que las líneas base actuales a escala de modelo fundacional.
DreamX-World 1.0 es un modelo de mundo interactivo generalista de texto/imagen a video para generación controlable de horizonte largo. Admite navegación de cámara, re-visitación de regiones previamente observadas y eventos invocables mediante indicaciones en dominios fotorrealistas, de estilo de juego y estilizados. Nuestro motor de datos combina renderizado con Unreal Engine de precisión cinematográfica, grabaciones de jugabilidad ricas en acciones y videos del mundo real con geometría de cámara recuperada. Para el control de cámara, introducimos E-PRoPE, una variante ligera de codificación posicional proyectiva que conserva la geometría de cámara proyectiva de PRoPE mientras aplica atención sensible a la cámara sobre tokens reducidos espacialmente. Convertimos un generador de video bidireccional en un modelo de mundo autorregresivo de pocos pasos mediante forzamiento causal, destilación al estilo DMD y entrenamiento de despliegue largo. El entrenamiento en contextos de horizonte largo autogenerados expone al modelo a su propio historial generado y reduce la deriva de estilo y color que se acumula a lo largo de los fragmentos autorregresivos. La Persistencia de Escena Condicionada por Memoria recupera vistas anteriores mediante recuperación basada en geometría de cámara, mientras que el reciclaje residual hace que la ruta de condicionamiento sea menos sensible a latentes de memoria imperfectos. El Ajuste por Instrucciones de Eventos añade control de eventos componibles, y la alineación por aprendizaje por refuerzo recupera el control de cámara y la calidad visual tras la destilación. Con ejecución DiT de precisión mixta, reutilización residual, decodificación VAE podada al 75% y paralelismo de tubería asíncrono, DreamX-World 1.0 alcanza hasta 16 FPS en ocho GPU RTX 5090. En nuestra evaluación básica de 5 segundos, DreamX-World 1.0 logra una puntuación de control de cámara de 73.75 y una puntuación global de 84.76, superando a HY-WorldPlay 1.5 y LingBot-World en puntuación global, que obtienen 80.79 y 80.45 respectivamente.
Este informe técnico presenta VibeThinker-3B, un modelo denso compacto con 3 mil millones de parámetros desarrollado para investigar hasta dónde se puede impulsar el razonamiento verificable dentro de un régimen estrictamente de modelo pequeño. Basándonos en el paradigma de post-entrenamiento de Espectro a Señal, mejoramos sistemáticamente el modelo a través de un pipeline optimizado que incluye ajuste fino supervisado basado en currículo, aprendizaje por refuerzo multi-dominio y autodestilación fuera de línea. Las evaluaciones experimentales demuestran que VibeThinker-3B alcanza un rendimiento de primer nivel en tareas verificables altamente exigentes. Específicamente, obtiene una puntuación de 94.3 en AIME26 (mejorando a 97.1 con escalado en tiempo de prueba a nivel de afirmación), un 80.2 Pass@1 en LiveCodeBench v6, y muestra una fuerte generalización fuera de distribución con una tasa de aceptación del 96.1% en concursos recientes no vistos de LeetCode. Esto lo sitúa efectivamente en la banda de rendimiento de los sistemas de razonamiento de primer nivel, igualando o superando a modelos emblemáticos que son órdenes de magnitud más grandes, como DeepSeek V3.2, GLM-5 y Gemini 3 Pro. Además, una puntuación de 93.4 en IFEval confirma que esta mejora extrema del razonamiento no compromete el estricto control de instrucciones. Extendiendo nuestro trabajo anterior de 1.5B, estos hallazgos motivan la Hipótesis de Compresión-Cobertura Paramétrica, que considera el razonamiento verificable como compresible en núcleos de razonamiento compactos, mientras que el conocimiento de dominio abierto y la competencia de propósito general requieren una amplia cobertura de parámetros sobre hechos, conceptos y escenarios de cola larga. Esta perspectiva sugiere que los modelos compactos no son meros sustitutos eficientes en despliegue, sino un camino complementario hacia un rendimiento de primer nivel en regímenes de capacidad densa en parámetros.
Los agentes de codificación basados en modelos de lenguaje de gran escala (LLM) han logrado resultados sólidos en tareas de ingeniería de software; sin embargo, la exploración del repositorio sigue siendo un cuello de botella importante: localizar el código relevante consume un presupuesto considerable de tokens y contamina el contexto del agente con fragmentos irrelevantes. En la mayoría de los agentes, el mismo modelo que explora el repositorio también resuelve la tarea, dejando lecturas exploratorias y búsquedas en el historial del solucionador. Presentamos FastContext, un subagente de exploración dedicado que separa la exploración del repositorio de la resolución. Invocado bajo demanda, FastContext emite llamadas paralelas a herramientas y devuelve rutas de archivo y rangos de líneas concisos como contexto focalizado. FastContext se basa en modelos de exploración especializados de entre 4B y 30B de parámetros. Los inicializamos a partir de trayectorias de modelos de referencia sólidos y los refinamos con recompensas basadas en la tarea para una búsqueda amplia en el primer turno, recopilación de evidencia en múltiples turnos y generación precisa de citas. En SWE-bench Multilingual, SWE-bench Pro y SWE-QA, la integración de FastContext en Mini-SWE-Agent mejora las tasas de resolución integral hasta en un 5.5%, reduce el consumo de tokens del agente de codificación hasta en un 60% y presenta un costo marginal mínimo. Estos resultados demuestran que la exploración del repositorio puede separarse de la resolución y ser manejada eficazmente por modelos especializados. Código y datos: https://github.com/microsoft/fastcontext
La inteligencia agente eficiente y escalable requiere modelos que puedan ofrecer tanto respuestas de baja latencia como capacidades sólidas de razonamiento, manteniéndose prácticos para entrenar, servir e implementar. En este informe, presentamos Ling-2.6 y Ring-2.6, una familia de modelos diseñados para abordar este desafío a escala. Ling-2.6 está optimizado para la generación instantánea de respuestas y una alta capacidad por token de salida, mientras que Ring-2.6 está diseñado para un razonamiento más profundo y flujos de trabajo agente más avanzados. En lugar de entrenar desde cero, mejoramos el modelo base Ling-2.0 mediante preentrenamiento con migración arquitectónica y postentrenamiento a gran escala. Esta mejora se guía por un diseño conjunto unificado de la arquitectura del modelo, los objetivos de optimización, los sistemas de servicio y los entornos de entrenamiento agente, lo que permite mejoras tanto en la capacidad del modelo como en la eficiencia de implementación. A nivel arquitectónico, introducimos un diseño de atención lineal híbrida que integra Lightning Attention con MLA, mejorando la eficiencia del entrenamiento y la decodificación con contextos largos. Para mejorar aún más la eficiencia de los tokens, optimizamos la capacidad por token de salida mediante Cadena de Pensamiento Evolutiva, Optimización de Políticas de Unidades Lingüísticas, alineación de preferencias bidireccional y destilación de la respuesta correcta más corta. Para las capacidades agente, proponemos KPop, un marco de aprendizaje por refuerzo diseñado para apoyar el entrenamiento estable de Ring-2.6-1T en datos basados en entornos a gran escala. KPop mejora la eficiencia del entrenamiento mediante la programación asíncrona en codificación, búsqueda, uso de herramientas y ejecución de flujos de trabajo, permitiendo un aprendizaje escalable a partir de interacciones complejas agente-entorno. En conjunto, Ling-2.6 y Ring-2.6 proporcionan un camino práctico hacia sistemas agente eficientes, escalables y abiertos. Liberamos todos los puntos de control de la familia 2.6 como código abierto para apoyar la investigación y el desarrollo adicionales en inteligencia agente práctica.
Los Modelos de Lenguaje con Difusión Enmascarada (MDLM, por sus siglas en inglés) han surgido como un paradigma distintivo para la generación de secuencias. A medida que los MDLM se vuelven diversos en capacidades y cobertura de conocimiento, surge una pregunta importante: cómo combinar su conocimiento. Con este fin, primero investigamos las dinámicas de decodificación únicas de los MDLM. Descubrimos que las generaciones exitosas exhiben dinámicas de confianza estables sobre posiciones relevantes para la respuesta, mientras que las trayectorias poco fiables a menudo pueden corregirse inyectando estados intermedios prometedores de otros modelos. Guiados por esta observación, proponemos TIE (Ensamblaje Iterativo Basado en Trayectorias), un marco de fusión de conocimiento en el cual los MDLM identifican iterativamente trayectorias de decodificación fiables y las retransmiten entre modelos. TIE rastrea las dinámicas de confianza sobre posiciones relevantes para la respuesta para determinar qué modelo sigue actualmente una trayectoria más fiable y transfiere selectivamente secuencias parcialmente denoizadas entre modelos. Dado que el modelo en la trayectoria más prometedora a menudo cambia entre pasos de denoizado, TIE permite que diferentes modelos contribuyan con fortalezas complementarias en distintas etapas de la generación. El sólido rendimiento en diversas tareas de razonamiento, junto con nuestros análisis, sugiere que TIE ofrece un enfoque práctico para el problema poco explorado del ensamblaje de MDLM.
El renderizado inverso de escenas urbanas a partir de videos capturados permite numerosas aplicaciones, incluyendo la creación de contenido y la simulación de conducción autónoma. Los métodos de renderizado basados en física siguen y controlan la física de la iluminación, pero presentan artefactos en la reconstrucción y el renderizado. Mientras que los modelos generativos producen videos realistas, ofrecen consistencia y controlabilidad limitadas. Presentamos BRDFusion, un marco unificado que combina dos modelos complementarios para renderizado inverso y directo. Específicamente, BRDFusion recupera propiedades de escena explícitas y consistentes mediante modelado físico y alivia la ambigüedad de optimización con priors generativos. Durante el renderizado directo, el modelo físico proporciona renderizado controlable a partir de la configuración de la escena, y el modelo generativo elimina ruido y corrige artefactos. Por lo tanto, nuestro método produce videos de alta calidad permitiendo un control preciso, superando a los métodos base en escenas reales y sintéticas. Además, BRDFusion soporta reiluminación con vistas novedosas, simulación nocturna e inserción/edición dinámica de objetos. Página del proyecto: https://shigon255.github.io/brdfusion-page/
Los modelos de lenguaje visual están sirviendo como interfaces de propósito general para tareas multimodales complejas. Sin embargo, el despliegue aún enfrenta tres brechas: los VLM típicamente incurren en alta latencia y costo al procesar fotogramas densos de video y prompts largos, el andamiaje del agente permanece estático después del despliegue, y los benchmarks estándar de video-QA no evalúan si los agentes pueden utilizar evidencia visual dentro de espacios de trabajo con herramientas. Presentamos VisualClaw, un agente multimodal autoevolutivo construido en torno a dos principios. Primero, la codificación híbrida reduce el costo de despliegue filtrando fotogramas de streaming menos informativos con una compuerta en cascada y comprimiendo el banco de habilidades textuales mediante inyección top-k caliente/fría. Segundo, la evolución de habilidades permite que el agente aprenda de los fallos: los recuerdos recuperados condicionan un evolucionador, ya sea como contexto concatenado directo o como evidencia guiada, generando actualizaciones del banco de habilidades que ayudan a preguntas futuras. En 4 benchmarks de video-QA con 2 VLM, VisualClaw reduce el costo de API por pregunta en un promedio de -98% frente a la carga de fotogramas completos y en un -25.9% sobre la línea base uniforme de 8 fotogramas fuera de línea, mientras mejora la precisión en la mayoría de los casos, por ejemplo, un +3.85% promedio y un +15.80% máximo en EgoSchema con Gemini 3 Flash. Para abordar esta brecha, seleccionamos VisualClawArena, un benchmark agentivo multimodal de 200 escenarios construido mediante un estricto proceso de cinco etapas; los modelos deben usar evidencia de video, documentos, actualizaciones dinámicas y verificaciones ejecutables dentro de un espacio de trabajo. En VisualClawArena, el mismo marco con backends de agente de uso de computadora mejora la precisión macro en un +2.9% para Codex (GPT-5.5) y un +3.2% para Claude Code (Sonnet 4.6) en comparación con las líneas base sin evolución, con una reducción de costo del -9.5% en comparación con la línea base de muestreo uniforme. Estas propiedades hacen de VisualClaw un ajuste natural para aplicaciones de borde, donde la cascada reduce una sesión de streaming de 1 hora de ~3,600 cargas de API a solo 5-20 llamadas y la autoevolución lo convierte en un asistente personalizado perfecto.
Presentamos Qwen-RobotWorld, un modelo de mundo visual condicionado por lenguaje para inteligencia corpórea. Utilizando el lenguaje natural como interfaz de acción unificada, predice trayectorias visuales futuras físicamente fundamentadas a partir de observaciones actuales en manipulación robótica, conducción autónoma, navegación en interiores y transferencia humano-robot. Esta formulación unificada ofrece tres direcciones de aplicación prometedoras: generación de datos sintéticos para el aumento del entrenamiento de políticas, entornos virtuales escalables para la evaluación de políticas y señales de planificación guiadas por lenguaje para el control robótico descendente. Esto se logra mediante un diseño en tres partes: a) MMDiT de Doble Flujo con Codificación de Acciones mediante MLLM, donde un transformador de difusión de doble flujo de 60 capas acopla la semántica congelada de Qwen2.5-VL con los latentes de video-VAE a través de atención conjunta por capas; b) Conocimiento del Mundo Corpóreo (EWK), un corpus de video-texto de 8.6M (más de 200M fotogramas) con mapeo acción-lenguaje que abarca más de 20 corporeizaciones y más de 500 categorías de acción; y c) Currículum Progresivo General+Experto, una estrategia de entrenamiento en dos etapas que primero aprende priors visuales generales y luego inyecta especialización corpórea bajo una interfaz de lenguaje compartida. Los resultados extensos muestran una fuerte competitividad: ocupa el primer lugar en general en EWMBench y DreamGen Bench, supera a todos los modelos de código abierto en WorldModelBench y PBench. Análisis adicionales de cero disparos en el benchmark RoboTwin-IF respaldan una generalización robusta y consistencia multivista.
El aprendizaje multitarea (MTL) es esencial en los sistemas de recomendación para habilitar un aprendizaje complementario entre diversas retroalimentaciones de los usuarios. Si bien las prácticas industriales modernas han pasado de las DNN a arquitecturas centradas en Transformers para fortalecer el modelado de secuencias y la capacidad de escalado, aún disocian la codificación de características de la predicción multitarea, tratando al Transformer como un codificador independiente de la tarea. Este diseño limita fundamentalmente el rendimiento y la escalabilidad al (1) crear un cuello de botella de información bajo objetivos de tarea heterogéneos, (2) inducir interferencia de gradientes que conduce al fenómeno de balancín, y (3) forzar una transición del flujo de datos en la que el aprendizaje de representaciones adaptativas al contexto basado en atención se convierte en una predicción de tarea estática de avance directo con dinámicas incompatibles de lectura-escritura de información. Proponemos OneRank, un marco de ranking multitarea nativo de Transformers que elimina la separación entre codificador y predictor e introduce canales privados por tarea para el aprendizaje de representaciones hacia adelante y la optimización hacia atrás, posibilitando un aprendizaje especializado por tarea y reduciendo la interferencia entre tareas. En el pase hacia adelante, OneRank aprende representaciones específicas de cada tarea de forma ascendente mediante selección de información condicionada por tarea, contextualización consciente del candidato e interacción controlada entre tareas. En el pase hacia atrás, el desacople de gradientes entre tareas aísla las actualizaciones de parámetros privados de cada tarea de los módulos de extracción de conocimiento compartido, evitando la transferencia negativa. Reemplazamos además los puntuadores MLP estáticos y específicos de cada tarea por una puntuación basada en emparejamiento dinámico para un ranking personalizado sensible al contexto. Al internalizar el razonamiento multitarea dentro de la pila del Transformer, OneRank establece un paradigma arquitectónico unificado y escalable. Experimentos offline y online en conjuntos de datos industriales a gran escala muestran que OneRank supera significativamente a los puntos de referencia de última generación, manteniendo al mismo tiempo la eficiencia computacional.
A medida que los agentes LLM se despliegan en sesiones de largo horizonte, la acumulación de contexto incrementa los costos de inferencia. Los enfoques existentes utilizan poda de texto o eliminación dinámica de memoria para minimizar la huella de tokens; sin embargo, sus mutaciones no restringidas de secuencia alteran los diseños, introduciendo desajustes de prefijo e invalidación de caché. Esto revela un equilibrio crítico entre la escasez de texto y la continuidad de la caché de indicaciones. Para abordar esto, presentamos TokenPilot, un marco de gestión de contexto de doble granularidad. A nivel global, la Compactación Consciente de Ingesta actúa como un arnés del marco para estabilizar los prefijos de indicación y eliminar el ruido ambiental del mundo abierto en la puerta de ingesta. A nivel local, la Eliminación Consciente del Ciclo de Vida monitorea la utilidad residual actual de los segmentos de contexto, imponiendo un programa conservador de turnos por lotes para descargar segmentos de contenido solo cuando la relevancia de la tarea expira. Los experimentos en PinchBench y Claw-Eval en modos aislado y continuo demuestran que TokenPilot reduce los costos en un 61% y 56% en modo aislado, y en un 61% y 87% en modo continuo, manteniendo un rendimiento competitivo en comparación con sistemas anteriores. TokenPilot ha sido integrado en LightMem2 en https://github.com/zjunlp/LightMem2.
Los modelos de mundo visual (VWMs) sintetizan despliegues interactivos condicionados por acciones a partir de una única imagen de contexto. Sin embargo, sigue siendo una cuestión abierta la robustez de estos modelos frente a perturbaciones adversarias. Los ataques adversarios estándar no logran evaluar esta vulnerabilidad, ya que los atacantes carecen de videos futuros de referencia y no pueden predecir los controles posteriores del usuario. Presentamos BadWorld, un marco adversario sin etiquetas diseñado para VWMs autorregresivos que supera sistemáticamente ambas limitaciones. Primero, para eludir la necesidad de supervisión futura, proponemos un ataque de velocidad autosupervisado que interrumpe directamente la dinámica temprana de eliminación de ruido del modelo. Segundo, para garantizar que el ataque se generalice a través de acciones de usuario impredecibles, formulamos una optimización de dos niveles adaptativa a trayectorias que extrae activamente secuencias de control difíciles para forjar perturbaciones independientes del control. Evaluado en VWMs representativos con controles continuos y discretos, BadWorld expone una grave fragilidad estructural. Imágenes adversarias visualmente indistinguibles desencadenan de manera fiable una degradación catastrófica en los despliegues futuros, lo que conduce a una eliminación de ruido incompleta, colapso estructural e inconsistencia de control. Estos hallazgos revelan riesgos críticos para el despliegue de VWMs en sistemas de seguridad crítica, al tiempo que destacan un mecanismo práctico para la protección de la privacidad.
Extender una política visión-lenguaje-acción (VLA) a una nueva tarea normalmente requiere demostraciones teleoperadas específicas de la tarea y un ajuste fino por tarea, lo que hace que la adaptación sea costosa tanto en recopilación de datos como en cómputo. En este artículo, mostramos que este costo de adaptación por tarea en el lado objetivo puede ser reemplazado por recuperación. Nuestra política aumentada por recuperación se entrena una vez con demostraciones emparejadas de la encarnación objetivo (consulta) y una encarnación más económica (conjunto, por ejemplo, video de mano humana) y luego se congela. Las nuevas tareas se añaden en el momento del despliegue agregando demostraciones del lado del conjunto a un conjunto de recuperación. La política congelada se condiciona a las trayectorias recuperadas en cada paso de control, de modo que las nuevas tareas se absorben mediante la indexación de datos en lugar de actualizar parámetros. El ajuste fino solo es necesario para adoptar una nueva encarnación no vista, no para cada tarea nueva. Mostramos que la recuperación mejora las políticas más allá de un modelo base específico, incluyendo políticas VLA estándar, pero su efecto es especialmente pronunciado en Cosmos Policy, un modelo mundo-acción (WAM) basado en generación de video. En este contexto, la recuperación proporciona una progresión de tarea gruesa, mientras que el objetivo de imagen futura del WAM ofrece una señal adicional de consistencia visual que fortalece las acciones condicionadas por la recuperación. En PushT, estudiamos cómo la recuperación proporciona un prior de movimiento reusable de alto nivel para la generalización entre encarnaciones hacia ángulos objetivo no vistos, mientras que en RoboTwin 2.0 nuestro método supera a las líneas base entre encarnaciones en tareas no vistas, y adicionalmente demostramos el método en un robot real.
En este artículo, presentamos SP^3, un novedoso algoritmo Plug-and-Play que acelera la restauración de imágenes mediante máxima verosimilitud a posteriori al reemplazar los eliminadores de ruido por Codificadores Esféricos (SE) como prioris generativos. SP^3 aproxima el paso intratable de proximal prior utilizando el espacio latente de los SE, estructurado de manera ajustada, como una proyección robusta sobre la variedad de imágenes naturales. La alternancia de esta proyección con un paso de consistencia de datos en forma cerrada, mediante la división de medio cuadrático (Half-Quadratic Splitting), logra una convergencia estable sin necesidad de calcular gradientes durante la inferencia. Esta formulación única habilita capacidades de restauración "en cualquier momento", produciendo imágenes nítidas y verosímiles desde la primera iteración. Las evaluaciones en diversas tareas de restauración de imágenes demuestran que SP^3 alcanza una calidad perceptual comparable a los métodos de última generación de difusión y flujo sin entrenamiento previo (zero-shot), siendo de 3 a 630 veces más rápido.
La generación de videos de larga duración requiere que los sujetos recurrentes se mantengan consistentes a través de diversos planos, puntos de vista, movimientos y transiciones de escena. Los métodos existentes de descomposición temporal mejoran la escalabilidad generando videos plano por plano. Sin embargo, se centran principalmente en optimizar continuaciones plausibles del siguiente plano sin verificar si la memoria histórica preserva la evidencia crítica de identidad del sujeto. En consecuencia, a medida que avanza la generación, los sujetos recurrentes pueden diluirse, sobrescribirse u olvidarse. En este artículo, proponemos Memento, un marco guiado por la reconstrucción del sujeto que trata la preservación del sujeto como un problema explícito de anclaje de identidad, basado en la premisa de que un banco de memoria que preserva fielmente un sujeto debería permitir reconstruir dicho sujeto únicamente a partir de la memoria. Específicamente, Memento entrena conjuntamente la generación autorregresiva del siguiente plano con la reconstrucción del sujeto basada en memoria, recuperando las apariencias objetivo mediante la memoria histórica y descripciones globales de la historia. Para desentrañar la evidencia del sujeto a largo plazo de las señales a corto plazo, Memento introduce un mecanismo de memoria de consulta dual, donde una consulta recupera memoria relevante para la identidad y la otra selecciona fotogramas clave de contexto corto para una continuación coherente. Además, un pipeline de datos cinematográfico consciente del sujeto proporciona una supervisión precisa de la reconstrucción mediante descripciones del sujeto consistentes y libres de pronombres. Los experimentos demuestran que Memento alcanza un rendimiento de vanguardia en consistencia del sujeto a largo plazo, coherencia entre planos y calidad visual.
Presentamos el Massive Video Embedding Benchmark (MVEB), un conjunto de 23 tareas para embeddings de video que abarca clasificación, clasificación zero-shot, agrupamiento (clustering), clasificación por pares, recuperación (retrieval) y respuesta a preguntas centrada en video. Evaluamos 33 modelos y descubrimos que ningún modelo domina por completo: los embeddings basados en MLLM lideran en clasificación, agrupamiento, clasificación por pares y QA; el enlace multimodal (multimodal binding) destaca en recuperación y clasificación zero-shot; los MLLM generativos sin adaptación contrastiva colapsan en tareas intermodales (cross-modal). Las evaluaciones pareadas solo-video frente a audio+video muestran que la contribución del audio depende de la procedencia de la anotación del conjunto de datos: el audio ayuda cuando las etiquetas se produjeron a partir de ambas modalidades y perjudica cuando se generaron únicamente a partir de información visual, una brecha de seis puntos consistente en todas las familias de modelos. MVEB se deriva de MVEB+, un conjunto de 184 tareas, y está diseñado para mantener la diversidad de tareas reduciendo el costo de evaluación. Se integra en el ecosistema MTEB para una evaluación unificada en texto, imagen, audio y video. Publicamos MVEB y las 184 tareas junto con el código y un líder de clasificación (leaderboard) en https://github.com/embeddings-benchmark/mteb.
Presentamos Nemotron 3 Ultra, un modelo de lenguaje basado en una arquitectura híbrida Mixtura de Expertos Mamba-Atención, con 550 mil millones de parámetros totales y 55 mil millones de parámetros activos. Preentrenamos Nemotron 3 Ultra con 20 billones de tokens de texto, luego extendimos la longitud del contexto a 1 millón de tokens y realizamos un posentrenamiento mediante Ajuste Fino Supervisado (SFT), Aprendizaje por Refuerzo (RL) y Destilación Multimaestro en Política (MOPD). Nemotron 3 Ultra es nuestro modelo más capaz hasta la fecha, incorporando múltiples tecnologías clave: LatentMoE, Predicción Múltiple de Tokens (MTP), preentrenamiento con NVFP4, RLVR en entornos múltiples, MOPD y control del presupuesto de razonamiento. Nemotron 3 Ultra logra un rendimiento de inferencia hasta ~6 veces superior al de los LLM públicos de última generación, manteniendo una precisión equivalente. Su precisión de vanguardia, alto rendimiento de inferencia y longitud de contexto de 1 millón de tokens lo convierten en la opción ideal para tareas autónomas de larga duración basadas en agentes. Publicamos como código abierto los puntos de control base, posentrenados y cuantizados, junto con los datos de entrenamiento y la receta, en HuggingFace.
Los agentes avanzados están demostrando cada vez más su potencial para operar como ingenieros autónomos, lo que genera una creciente demanda de puntos de referencia de evaluación que capturen la complejidad del desarrollo en el mundo real. Dichos entornos suelen implicar tanto código complejo como datos a gran escala (es decir, sistemas de archivos). Sin embargo, los benchmarks existentes generalmente evalúan capacidades centradas en el código o en los datos de forma aislada, lo que deja un claro vacío respecto a los escenarios reales de desarrollo. En este artículo, cerramos esta brecha introduciendo CODA-BENCH, el primer benchmark que evalúa conjuntamente la inteligencia de código y datos en un entorno intensivo en datos. Construimos un sandbox Linux intensivo en datos basado en el ecosistema Kaggle (que contiene cientos de conjuntos de datos), donde los agentes deben explorar activamente jerarquías de archivos complejas para identificar recursos relevantes y generar código para tareas analíticas basadas en datos. CODA-BENCH comprende 1,009 tareas distribuidas en 31 comunidades, con un entorno de tarea que contiene un promedio de 980 archivos, simulando la escala y el ruido de datos reales. Las evaluaciones de agentes avanzados revelan que incluso los sistemas de mejor rendimiento tienen dificultades para integrar eficazmente el descubrimiento de datos con la ejecución de código, logrando una tasa de éxito de solo el 61.1%. Estos resultados destacan una brecha sustancial en las capacidades actuales de los agentes para tareas intensivas en datos y señalan direcciones prometedoras para futuras investigaciones.
Los agentes web actúan a través de secuencias largas de interacción, sin embargo, los benchmarks existentes evalúan solo el éxito terminal, descartando toda la información del proceso y ofreciendo poca guía para la mejora. En este trabajo, realizamos un análisis a nivel de proceso de los agentes web. Presentamos WebStep, un benchmark de 1,800 instancias de tareas con dificultad controlada y seguimiento automático del estado semántico. Cada sitio web expone un MDP semántico determinista junto con la GUI: el agente opera en la interfaz, mientras que el entorno registra estados y transiciones de alto nivel en segundo plano, lo que permite un análisis detallado sin anotaciones manuales. Basándonos en la trayectoria semántica, primero mostramos que las métricas de proceso revelan diferencias invisibles para la evaluación de resultados: tres agentes cuyas tasas de éxito se agrupan entre el 31-33% divergen en alcance de exploración frente a precisión de ejecución. Luego, descomponiendo por habilidad se caracteriza la naturaleza de estas diferencias, exponiendo clasificaciones por habilidad opuestas ocultas dentro del mismo sitio web: por ejemplo, en Housing, OpenAI CUA supera a Qwen3.5 en un 23.7% en acciones de commit, pero rinde un 15.6% menos en filtrado, señalando una habilidad concreta para mejorar incluso dentro de un dominio. El análisis de bifurcación localiza además el error decisivo que hace perder la tarea y muestra que este error es específico del agente, no compartido. Finalmente, estas diferencias se amplían a medida que las tareas se vuelven más difíciles: la tasa de éxito es similar en tareas fáciles, pero se separa marcadamente a medida que la exploración se vuelve más exigente. Nuestro análisis a nivel de proceso abre una nueva vía en la evaluación de agentes web, proporcionando información detallada y procesable sobre dónde y cómo se debe mejorar cada agente.
A medida que los modelos de lenguaje de gran escala (LLMs) avanzan, el aprendizaje por refuerzo (RL) posterior al entrenamiento depende cada vez más de recompensas multidimensionales para desarrollar capacidades integrales. Este cambio exige nuevos algoritmos capaces de optimizar simultáneamente objetivos diversos y potencialmente contrapuestos. Para abordar esto, métodos existentes como la Optimización de Políticas Desacoplada por Recompensa de Grupo (GDPO) descomponen la puntuación global en grupos de recompensa independientes, calculando luego la pérdida de RL por separado en cada grupo. Sin embargo, esta estrategia aún enfrenta conflictos de múltiples recompensas: una sola ejecución puede generar ventajas positivas en ciertas dimensiones de recompensa pero negativas en otras, provocando que señales opuestas se cancelen mutuamente durante la agregación, lo que dificulta aún más la eficiencia del entrenamiento de RL. Inspirándonos en la Optimización de Políticas de Muestreo Dinámico (DAPO), que mejora la eficiencia del entrenamiento de RL al filtrar ejecuciones ineficaces con ventajas cercanas a cero, proponemos la Optimización de Políticas Desacoplada por Recompensa de Grupo Dinámico (GD²PO). Específicamente, GD²PO emplea un mecanismo de filtrado consciente de conflictos para enmascarar las ejecuciones que sufren un fuerte desacuerdo entre recompensas. Al evitar que señales conflictivas se cancelen mutuamente, esta estrategia de enmascaramiento preserva y amplifica la magnitud de las ventajas efectivas de RL, acelerando así significativamente la eficiencia del aprendizaje. Además, introducimos un reponderación a nivel de consulta para ajustar dinámicamente la intensidad de actualización de cada consulta según su consenso global de recompensa. Experimentos en diversos escenarios de múltiples recompensas, incluyendo la invocación de herramientas y la alineación de preferencias humanas, demuestran que GD²PO supera de manera consistente y significativa a las líneas base existentes. El código está disponible en https://github.com/Qwen-Applications/GD2PO.
Se espera cada vez más que los agentes telefónicos completen flujos de trabajo móviles reales, en lugar de limitarse a predecir la siguiente acción en pantalla. Sin embargo, gran parte de la literatura actual sobre agentes móviles todavía evalúa a estos principalmente como controladores de GUI que observan una pantalla, emiten toques y deslizamientos, y son puntuados según el estado objetivo de la aplicación. Las tareas reales de uso del teléfono son más amplias: requieren decidir cuándo usar las GUI de las aplicaciones, comandos del lado del dispositivo o herramientas estructuradas, dejando evidencia de que el efecto secundario previsto realmente ocurrió. Presentamos PhoneHarness, un benchmark y entorno de ejecución de acciones mixtas para estudiar agentes de uso telefónico en flujos de trabajo móviles verificables. PhoneHarness ejecuta un bucle de agente del lado del dispositivo sobre acciones de GUI, CLI y herramientas del lado anfitrión, combinando enrutamiento determinista de acciones con delegación limitada de GUI y trazas de ejecución auditables. Su benchmark, PhoneHarness Bench, evalúa si los agentes completan tareas con efectos secundarios observables, no solo si producen respuestas finales plausibles. En la división de evaluación anotada, PhoneHarness alcanza una tasa de aprobación del 75,0 %, superando en 12,9 puntos porcentuales a las configuraciones no PhoneHarness más sólidas. Por lo tanto, PhoneHarness y PhoneHarness Bench desempeñan funciones distintas pero mutuamente dependientes: el entorno de ejecución hace ejecutables los flujos de trabajo telefónicos mixtos, mientras que el benchmark mide si los agentes pueden usar ese entorno de manera confiable y segura. Nuestros hallazgos sugieren que la automatización telefónica confiable depende del enrutamiento de superficies de acción y de la ejecución verificable, no solo del control visual de la GUI.
Los Modelos Multimodales Unificados (MMUs) han surgido como una dirección crítica para la inteligencia multimodal de propósito general, integrando comprensión y generación en un único marco. Sin embargo, los MMUs existentes enfrentan desafíos prominentes: (1) los conflictos de aprendizaje inherentes entre las tareas de comprensión visual y generación, lo que conduce a un modelado subóptimo en ambas tareas; (2) diferentes espacios visuales de comprensión y generación que impiden la escalabilidad; (3) una dependencia excesiva de datos específicos de tarea que descuida la dualidad de la comprensión y generación de texto e imagen. Para abordar estos desafíos, proponemos UniDDT, que aprovecha un codificador ViT ruidoso junto con un LLM para unificar la codificación semántica para tareas de generación y comprensión visual, mientras emplea un decodificador de difusión separado para desacoplar la decodificación de difusión de la decodificación de texto. Con este codificador ViT ruidoso, UniDDT puede aprovechar el espacio latente como una representación visual unificada, permitiendo una compatibilidad sin problemas entre las tareas de comprensión y generación. Así, se puede equilibrar la escalabilidad dentro de las tareas de generación y la expresividad semántica dentro de las tareas de comprensión. Además, construimos estructuras de datos duales a partir de los mismos pares imagen-texto, fomentando la interdependencia entre los datos de generación y comprensión para explotar su dualidad inherente. Extensos experimentos demuestran que UniDDT logra una unificación efectiva de la comprensión y generación multimodal con consistencia semántica y escalabilidad mejoradas. Para tareas de generación visual, nuestro UniDDT alcanza una puntuación GenEval de 0,87 y una puntuación general DPG de 86,9. Para tareas de comprensión multimodal, nuestro UniDDT alcanza una puntuación de 1699,5 en el benchmark MME y una puntuación general de 76,5 en SEEDbench.
El servicio de LLM de múltiples turnos acumula un historial de diálogo cuya caché Clave-Valor (KV) crece con cada turno y cada usuario, superando rápidamente a los propios pesos del modelo y convirtiendo la memoria —no el cómputo— en la restricción vinculante para el rendimiento. La compresión KV no uniforme, que asigna presupuestos heterogéneos entre los cabezales de atención, preserva la precisión mucho mejor que los esquemas uniformes, pero sigue siendo poco práctica: las pilas de servicio modernas asumen longitudes de KV idénticas entre cabezales, por lo que la heterogeneidad atrapa la memoria liberada como fragmentación de páginas, consume hasta el 25 % del tiempo de prellenado recuperando páginas dispersas y desequilibra las cargas de trabajo de la GPU, lo que infla la latencia de decodificación hasta 1,7 veces o quema entre el 15 % y el 20 % de cada paso de decodificación en replanificación. Observamos que esta heterogeneidad no necesita ser descubierta en tiempo de ejecución: la retención por cabezal sigue una regularidad estructural de dos niveles —una clasificación de cabezales invariante a la entrada con ratios por cabezal acotados— que se puede calibrar fuera de línea a partir de tan solo 50 muestras. Basándonos en esta idea, presentamos Tangram, un marco de servicio que resuelve estáticamente lo que los sistemas anteriores manejan dinámicamente: la Reserva de Presupuesto fija la huella posterior a la compresión de cada cabezal en el momento de la planificación, eliminando la recuperación de páginas; la Paginación Irregular agrupa los cabezales con presupuestos similares en tablas de páginas independientes, convirtiendo la fragmentación en memoria recuperable; y el Balanceo de Carga Anticipado precomputa particiones balanceadas de GPU con planificación en tiempo de ejecución cero. Implementado sobre vLLM, Tangram sirve como un sustrato de integración directa para métodos de compresión no uniforme existentes, igualando su precisión mientras mejora el rendimiento de extremo a extremo hasta 2,6 veces sobre la línea base de KV completa. Nuestra implementación está disponible públicamente en https://github.com/aiha-lab/TANGRAM.
Renderizar nuevamente un video existente desde un ángulo de cámara novedoso requiere que la salida siga la trayectoria prescrita de la cámara, preservando la apariencia y dinámica de la escena original en cada fotograma. Los métodos existentes dependen de incrustaciones de pose por fotograma, representaciones de nubes de puntos ruidosas o correspondencias implícitas aprendidas, ninguno de los cuales proporciona un vínculo explícito y temporalmente continuo entre los píxeles de origen y destino. Proponemos Track2View, que condiciona un transformador de difusión de video en pares de trayectorias de puntos 3D: trayectorias dispersas de puntos de la escena proyectadas tanto en las vistas de cámara de origen como de destino. Estas trayectorias proporcionan correspondencias espaciotemporales explícitas que son temporalmente continuas por construcción, codificando qué contenido debe aparecer dónde y cuándo. En el núcleo de Track2View se encuentra un acondicionador de trayectorias de doble vista que transfiere el contexto visual de la vista de origen a la de destino mediante operaciones geométricas sin parámetros y agregación temporal aprendida, asegurando la generalización a trayectorias de cámara arbitrarias sin memorizar movimientos específicos. Además, introducimos un flujo de curado de datos que extrae correspondencias de trayectorias uno a uno ejecutando un rastreador de puntos 3D en pares de vistas de múltiples cámaras concatenadas temporalmente. En un banco de pruebas de 400 videos que abarca escenas estáticas y dinámicas, Track2View logra resultados de última generación en calidad visual, sincronización de vistas y precisión de cámara, reduciendo el error de rotación entre un 30-65 % y el error de traslación entre un 61-72 % en relación con las líneas base líderes. La página del proyecto está disponible en este enlace URL: https://qjizhi.github.io/track2view
Cuando las políticas VLA preentrenadas se ajustan mediante RL en línea, cada episodio de despliegue produce un único resultado binario (éxito o fracaso), mientras que la actualización del actor requiere supervisión por transición. Los enfoques existentes suelen reducir este resultado disperso a una única señal escalar de recompensa o ventaja, lo que fusiona formas distintas de retroalimentación a nivel de transición y proporciona una guía limitada una vez que se logra alcanzar el éxito básico en la tarea. En primer lugar, una única señal escalar fusiona los dos objetivos de viabilidad y eficiencia; una vez logrado el éxito básico, la etiqueta binaria no proporciona gradiente para distinguir entre ejecuciones eficientes y lentas. En segundo lugar, los despliegues en el mundo real combinan segmentos autónomos y de intervención; asignar ingenuamente los resultados del episodio a través de estos límites introduce una asignación incorrecta de crédito. Para abordar estos problemas, proponemos el Clonado de Comportamiento Ponderado por Ventaja Jerárquica (HABC), que entrena cabezas críticas separadas para estos dos objetivos en diferentes subconjuntos de datos y combina sus salidas con un equilibrio adaptativo al estado. Una puerta adaptativa al estado g_t fusiona sus ventajas de un paso, priorizando la viabilidad cuando el éxito es incierto y cambiando a eficiencia solo cuando la viabilidad es alta, y convierte el resultado en pesos por transición para la pérdida del actor. La asignación de crédito consciente de la intervención restringe aún más las etiquetas de resultado a los segmentos ejecutados por la política actual, evitando que la supervisión se filtre a través de los límites de intervención. En experimentos con robots reales en tres tareas bimanuales con contacto, HABC eleva el éxito desde las líneas base de ajuste fino supervisado (SFT) del 36%, 44% y 12% al 92%, 88% y 38%.
El progreso en inteligencia artificial ha sido impulsado en gran medida por métodos que asumen menos. A medida que aumentan la computación y los datos, los enfoques con sesgos inductivos más débiles suelen superar a aquellos con suposiciones más fuertes. Esto es particularmente característico del campo del aprendizaje de representaciones visuales, donde los enfoques han pasado de estar dominados por el aprendizaje supervisado, al aprendizaje débilmente supervisado, y ahora al éxito generalizado del aprendizaje autosupervisado sin etiquetas humanas. Sin embargo, incluso los enfoques modernos de aprendizaje autosupervisado siguen dependiendo de fuertes sesgos inductivos, como aumentos, enmascaramiento o recortes. Si esta tendencia se mantiene, incluso estos sesgos residuales deberían convertirse en cuellos de botella a escala —y nuestros experimentos lo confirman: la fuerza óptima de los sesgos inductivos disminuye a medida que crecen los datos. Esto motiva la búsqueda de enfoques que dependan de menos suposiciones. Con este fin, presentamos Diferencia Temporal en Visión (TDV), un nuevo paradigma para el aprendizaje autosupervisado a partir de video que evita los sesgos inductivos existentes, basándose en su lugar en una suposición causal de que el pasado causa el futuro. TDV funciona entrenando conjuntamente un codificador de imágenes y un codificador de movimiento, de modo que la representación del fotograma actual más el movimiento codificado sea igual a la representación del siguiente fotograma. A pesar de no aprovechar ningún sesgo inductivo fuerte, TDV iguala los métodos de última generación en tareas espaciales densas, sentando las bases para el aprendizaje de representaciones sin suposiciones fuertes.
Los autoencoders dispersos (SAEs, por sus siglas en inglés) se utilizan ampliamente para interpretar representaciones de redes neuronales, pero su utilidad depende de si las características aprendidas son reproducibles entre distintos entrenamientos. Estudiamos esta cuestión mediante la estabilidad de las características: para cada característica de un SAE, estimamos la probabilidad de que una característica similar reaparezca en un SAE entrenado de forma independiente. Esto proporciona una señal escalable por característica que separa las características estables de las inestables. En un estudio a gran escala que abarca distintas semillas, modelos, capas, tamaños de diccionario y variantes de SAE, encontramos una marcada asimetría funcional: las características estables transportan la mayor parte de la señal relevante para la reconstrucción y la predicción, mientras que las características inestables tienen un impacto marginal débil y están dominadas por desencadenantes superficiales de baja frecuencia tanto en las estadísticas de activación como en las explicaciones automáticas. Geométricamente, las características inestables no son reproducibles individualmente, pero se concentran en subespacios reproducibles de rango inferior, lo que sugiere que la dependencia de la semilla a menudo refleja una ambigüedad de base dentro de una región compartida del espacio de activación, más que ruido puro. Un modelo sintético controlado hace explícito este mecanismo, mostrando que las características reales de rango bajo pueden recuperarse a nivel de subespacio, mientras siguen siendo no identificables como variables latentes individuales del SAE entre distintas semillas. Finalmente, al agrupar características únicas entre semillas, construimos SAEs más estables mientras preservamos la varianza explicada en este contexto. En conjunto, estos resultados muestran que las características inestables no son simplemente variables latentes fallidas o ruidosas: tienen un impacto funcional individual débil, pero reflejan una estructura reproducible de baja dimensión que los SAEs estándar resuelven de manera diferente entre semillas.
Los transformadores de difusión han demostrado notables capacidades generativas, sin embargo, las ricas representaciones perceptuales calculadas a lo largo de su trayectoria de eliminación de ruido se descartan una vez que se genera el contenido. Presentamos MMDiff, un marco que transforma un transformador de difusión congelado en un sistema generativo multimodal que produce conjuntamente imágenes junto con cualquier combinación de modalidades perceptuales densas utilizando cabezas decodificadoras ligeras. Nuestro hallazgo central es que la información perceptual se distribuye temporalmente a lo largo de la trayectoria de eliminación de ruido, y que la fusión de características en múltiples pasos temporales con pesos de agregación que varían espacialmente es esencial, mejorando los resultados de segmentación semántica hasta en un 28,7% de mIoU en comparación con la extracción en un único paso temporal. Además, adoptamos la extracción de atención basada en conceptos para una guía espacial interpretable, y mostramos que las características del modelo de difusión congelado son competitivas con codificadores de última generación como DINOv3 y complementarias a ellos. Al entrenar únicamente cabezas decodificadoras ligeras sobre una columna vertebral congelada, logramos un rendimiento sólido en segmentación semántica, detección de objetos salientes y estimación de profundidad, y demostramos que este marco permite una generación efectiva de datos sintéticos a gran escala.
El razonamiento avanzado suele requerir el uso de prompting de cadena de pensamiento (Chain-of-Thought), que es preciso pero conlleva una latencia prohibitiva y costos de inferencia en tiempo de prueba considerables. La alternativa estándar, el ajuste fino de modelos más pequeños, a menudo sacrifica la interpretabilidad al introducir una sobrecarga significativa de recursos y operativa. Para superar estas limitaciones, presentamos la Destilación a Nivel de Prompt (PLD). Extraemos patrones de razonamiento explícitos de un modelo Profesor y los organizamos en una lista estructurada de instrucciones expresivas para el Prompt del Sistema del modelo Estudiante. Evaluado con Gemma-3 4B, PLD mejoró las puntuaciones F1 macro en StereoSet (del 57% al 90.0%) y Contract-NLI (del 67% al 83%), al mismo tiempo que incrementó la precisión en LogiQA al 70%. Resultados similares en Mistral Small 3.1 demuestran su generalización entre arquitecturas, permitiendo que estos modelos compactos igualen el rendimiento de frontera con una sobrecarga de latencia insignificante. Estas instrucciones expresivas hacen que el proceso de toma de decisiones sea transparente, permitiendo una verificación humana completa de la lógica, lo que convierte a este enfoque en una opción ideal para industrias reguladas como el derecho, las finanzas y la moderación de contenido, así como para casos de uso de alto volumen y dispositivos de borde.
El aprendizaje por refuerzo con recompensas dispersas (RL) se ha convertido en una herramienta estándar para mejorar el razonamiento de los LLM, pero su éxito depende críticamente de la cobertura presente en el modelo base. En la práctica, los modelos a menudo se preparan para RL mediante entrenamiento intermedio en trazas de razonamiento seleccionadas que enseñan habilidades primitivas útiles como la descomposición, verificación o autocorrección. Aunque efectiva, esta estrategia requiere especificar manualmente qué debe aprender el modelo, y no está claro si dicha cobertura primitiva es suficiente para problemas mucho más difíciles, que requieren combinar estas habilidades en estrategias de solución más amplias. Estudiamos un enfoque más automatizado: entrenamiento intermedio basado en RL utilizando grandes corpus de datos de preguntas y respuestas escritas por humanos. En lugar de tratar las soluciones de referencia como objetivos a imitar, nuestro método, ExpRL, las utiliza como andamios de recompensa: las referencias se ocultan de la política y se utilizan solo para construir rúbricas de calificación específicas del problema para juzgar trazas de razonamiento dentro de la política. La política muestrea a partir del aviso del problema original, mientras que un juez LLM compara la traza de razonamiento muestreada con la solución de referencia y asigna recompensas densas a nivel de resultado o a nivel de proceso. Esto permite que ExpRL refuerce el progreso parcial, reducciones intermedias útiles y comportamientos de razonamiento productivos que las recompensas dispersas de respuesta final a menudo no logran ponderar. En tareas desafiantes de razonamiento matemático, ExpRL produce un priming de RL más fuerte que SFT, GRPO de recompensa dispersa y auto-destilación, y proporciona una mejor inicialización para el RL de recompensa dispersa posterior. Experimentos adicionales en dominios mixtos sugieren además que ExpRL puede extenderse más allá del entorno original exclusivamente matemático.
La generación coherente de video bajo operaciones de edición requiere persistencia: cuando las ediciones modifican la apariencia de la escena o su diseño, las generaciones posteriores deben mantenerse coherentes a lo largo del tiempo y los puntos de vista. Sin embargo, los diseños de memoria existentes tienen dificultades para mantener la consistencia a largo plazo después de dichas modificaciones, ya que los contextos almacenados pueden volverse obsoletos o inválidos. Para abordar esto, proponemos PermaVid, un marco novedoso basado en una memoria de contexto multimodal que separa el contexto espacial en apariencia semántica y estructura geométrica, junto con una estrategia de actualización y recuperación de memoria consciente de la edición que mantiene la evolución de la memoria alineada con las observaciones posteriores. Específicamente, desarrollamos dos bancos de memoria complementarios: una memoria de contexto RGB que captura observaciones relacionadas con la apariencia mientras codifica implícitamente la geometría, y una memoria de contexto de profundidad que preserva una estructura exclusivamente geométrica, desvinculada de la semántica. Sobre la base de este diseño, introducimos un modelo de generación de video guiado por memoria que realiza fusión de características multimodales bajo condiciones de referencia extraídas de contextos de memoria de modalidad mixta. Los experimentos demuestran que nuestro método mantiene una fuerte consistencia semántica y estructural a largo plazo después de las ediciones, superando significativamente a los métodos de última generación.
Bienvenidos a la novena edición del informe del Índice de IA. A medida que la inteligencia artificial continúa avanzando rápidamente, surge la pregunta de si los sistemas construidos a su alrededor pueden mantenerse al día. Los marcos de gobernanza, los métodos de evaluación, los sistemas educativos y la infraestructura de datos necesaria para rastrear el impacto de la IA tienen dificultades para seguir el ritmo de la propia tecnología. Esa brecha entre lo que la IA puede hacer y lo preparados que estamos para gestionarla atraviesa cada capítulo de este informe anual. Como novedad en esta edición, el informe rastrea cómo la IA está siendo puesta a prueba de manera más ambiciosa en razonamiento, seguridad y ejecución de tareas del mundo real, y por qué esas mediciones son cada vez más difíciles de utilizar como referencia. También incluye nuevas estimaciones del valor económico de la IA generativa junto con evidencia emergente de sus efectos en el mercado laboral, un marco analítico sobre la soberanía de la IA, y un capítulo sobre ciencia desarrollado en colaboración con Schmidt Sciences. Por primera vez, el informe presenta capítulos independientes sobre IA en la ciencia y IA en la medicina, reflejando el creciente impacto de la IA en estos dos ámbitos.
Los Modelos de Lenguaje de Gran Escala (LLMs) se adoptan cada vez más como bases para la Recomendación Generativa (GR), prometiendo acceso a conocimiento del mundo preentrenado. Sin embargo, la invocación fiable de este conocimiento para la GR sigue siendo poco comprendida. Un obstáculo clave es que la GR basada en LLMs típicamente representa los elementos con Identificadores Semánticos (SIDs), lo que interrumpe la interfaz de razonamiento en lenguaje natural de los LLMs, ya que estos tokens no fueron vistos por el LLM durante el preentrenamiento. Los enfoques existentes abordan esto con costosas tuberías de múltiples etapas que fundamentan los SIDs y generan razonamientos explícitos, pero ofrecen una visión limitada de cuándo y por qué cada etapa es necesaria. En este trabajo, descomponemos sistemáticamente las tuberías de entrenamiento de razonamiento explícito para la GR basada en LLMs, revelando tres limitaciones clave: verbalización debilitada del conocimiento del mundo, desalineación entre los espacios de incrustación de tokens de SID y de lenguaje natural, y sensibilidad a la calidad del razonamiento, todo lo cual perjudica el rendimiento del razonamiento explícito. Para eludir estos problemas, proponemos PauseRec, un paradigma de razonamiento implícito ligero adaptado para GR. PauseRec es excepcionalmente práctico, evitando la costosa adquisición de trazas de razonamiento y el entrenamiento de alineación de razonamiento, lo que conlleva múltiples beneficios: (1) supera a los métodos estándar de Cadena de Pensamiento (CoT) explícito hasta en un 6.22%, (2) reduce el coste de entrenamiento hasta en un 65% en horas de GPU, y (3) acelera la inferencia hasta en un 71.3%. Estos resultados posicionan a PauseRec como una alternativa ligera a la generación de razonamientos explícitos, permitiendo una GR basada en LLMs más efectiva y eficiente.
Los humanos comprenden de forma natural la física de los objetos a través de interacciones cotidianas, pero predecir fielmente dinámicas deformables complejas, como materiales elásticos y telas, sigue siendo un desafío importante para la visión por computadora y la robótica. Presentamos EgoPhys, un marco que construye gemelos digitales físicos deformables a partir de video egocéntrico exclusivamente RGB utilizando priors generalizables. EgoPhys supera las limitaciones de los métodos existentes para permitir la generación controlable de gemelos digitales deformables a partir de videos egocéntricos, destilando soluciones de física inversa por objeto en un codebook compacto, lo que permite la predicción de campos densos de rigidez de resortes para objetos no vistos sin optimización por resorte en tiempo de prueba. Entrenado con priors generalizables de diversas interacciones egocéntricas, EgoPhys supera a las líneas base en reconstrucción, predicción futura y generalización de cero disparos. Para apoyar el entrenamiento y la evaluación, curamos un conjunto de datos de interacción egocéntrica que cubre diversos objetos deformables, escenas y estilos de manipulación. Desplegamos EgoPhys en un robot xArm6 real, demostrando que un gemelo digital inicializado a partir de un único video de juego humano egocéntrico puede servir como representación interna del mundo para ayudar en la planificación con objetos deformables, destacando las observaciones RGB egocéntricas como un camino escalable hacia tuberías de realidad a simulación.
Los puntos de referencia estándar de precisión están diseñados para evaluar qué tan cerca se acercan los modelos de lenguaje de gran tamaño (LLMs) a las respuestas correctas, pero no son adecuados para probar si los LLMs se mantienen firmes en una respuesta correcta cuando esta es desafiada por un contraargumento plausible. Introducimos un protocolo controlado para evaluar la estabilidad de la respuesta: después de que un modelo responde correctamente una pregunta de opción múltiple, desafiamos la respuesta del modelo con un argumento coherente a favor de una opción incorrecta y medimos si el modelo cambia su respuesta. El diseño a) aísla el contenido argumentativo de la presión social manifiesta y b) varía la longitud del argumento, la autoatribución y la fuente entre modelos. En siete modelos de frontera y 57 materias de MMLU, las tasas de cambio de respuesta oscilan entre el 17,5% y el 97,3%, lo que revela grandes diferencias en estabilidad que no son capturadas únicamente por las métricas de precisión. Encontramos que la autoatribución incrementa consistentemente las tasas de cambio (media +7,1 pp, hasta +18,7 pp). Además, agrupar argumentos de respuesta incorrecta de distintos modelos y seleccionar el más efectivo por pregunta produce desafíos adversariales más fuertes que depender de un único modelo fuente. Asimismo, construimos MaxFlip, un conjunto de desafíos curado que amplifica los cambios de respuesta hasta en +23,6 pp respecto a los desafíos generados internamente estándar. Publicamos el protocolo, los registros de desafíos y MaxFlip para apoyar la evaluación de la estabilidad junto con los puntos de referencia estándar de precisión. Los materiales están disponibles en https://github.com/nafisenik/WhoFlips y https://hf.co/datasets/nafisehNik/WhoFlips.
Los modelos Visión-Lenguaje-Acción (VLAs) aprovechan el preentrenamiento visión-lenguaje a gran escala para el control robótico semántico, pero a menudo carecen de una previsión explícita sobre cómo las acciones del robot modifican la escena. Los Modelos Mundo-Acción (WAMs) abordan esta limitación condicionando las políticas a futuros predichos, aunque los enfoques existentes suelen depender de una costosa generación de video con una redundancia considerable a nivel de píxeles. Presentamos LaWAM, un Modelo Mundo-Acción Latente que expone la dinámica predictiva a las políticas del robot mediante subobjetivos visuales latentes compactos, en lugar de reconstruir video futuro. En el núcleo de LaWAM se encuentra un Modelo Mundo Latente (LaWM) condicionado a la acción latente. Obtenemos LaWM entrenando un modelo de acción latente en el espacio latente de un modelo fundacional de visión preentrenado y reutilizando su decodificador de avance para predecir características de observaciones futuras que representan la evolución de la escena. LaWAM condiciona entonces la generación de acciones en estos subobjetivos visuales latentes predichos para lograr un control robótico consciente de la dinámica. LaWAM alcanza tasas de éxito (SR) de última generación o competitivas en LIBERO (98.6% SR), RoboTwin (91.22% SR) y tareas de manipulación del mundo real, manteniendo una inferencia de baja latencia. LaWAM se ejecuta en 187 ms por predicción de bloque de acciones y logra una latencia de tiempo real hasta 24 veces menor que los WAMs en espacio de píxeles.
Un sistema de moderación de contenido puede obtener una puntuación alta en todas las métricas de precisión estándar y, no obstante, causar daños reales si sus errores recaen sobre los pocos usuarios que conectan comunidades por lo demás separadas. Esto se demuestra en un modelo basado en agentes donde N=240 agentes de aprendizaje, organizados en una red con estructura comunitaria, publican contenido inofensivo, productivo o peligroso, y un regulador elimina o penaliza todo lo que un clasificador ruidoso señala. La utilidad general apenas varía al cambiar el ruido (ANOVA de un factor, p=0.96): según las medidas agregadas, nada parece estar mal. El daño, en cambio, se concentra en estos usuarios puente, cuyas publicaciones útiles son suprimidas erróneamente y cuyas publicaciones peligrosas son indebidamente perdonadas. Una pérdida de gobernanza (L_gov) que valora estos dos errores por separado del costo de la aplicación se duplica bajo un ruido con predominio de falsos positivos. La precisión agregada oculta quiénes resultan perjudicados, y la variable económica de auditar es cuántas conexiones tiene un usuario (grado), un proxy casi perfecto para la intermediación que define a un puente (r=0.96).
A pesar de los avances significativos en el desarrollo de detectores de texto generado por máquinas, la facilidad con la que dicho texto puede ser manipulado para evadir la detección ha llevado a sugerir que el problema es inherentemente intratable. En este trabajo investigamos los límites de dichas estrategias de evasión. Demostramos que, si bien los ataques actuales, que van desde la ingeniería de indicaciones hasta la optimización guiada por detectores, pueden degradar eficazmente el rendimiento de los detectores estándar, no logran eliminar las "huellas dactilares" estilísticas subyacentes del texto generado por máquinas. Mostramos que los detectores con pocos ejemplos que utilizan el espacio de características estilísticas son robustos frente a estos intentos de evasión, detectando de manera fiable incluso muestras provenientes de modelos explícitamente ajustados para evitar la detección. Esto plantea la pregunta: ¿representa el estilo una defensa universal contra los ataques de detección de máquinas? Demostramos que la respuesta es "no" al introducir un novedoso enfoque de paráfrasis que optimiza simultáneamente la indetectabilidad y la adherencia a estilos humanos específicos. Mostramos que, a diferencia de métodos anteriores, este ataque evade eficazmente todos los detectores considerados, incluidos aquellos que utilizan el estilo de escritura. Sin embargo, encontramos que esta evasión no es absoluta: a medida que aumenta el número de documentos disponibles para el análisis, las distribuciones humanas y de máquinas vuelven a ser distinguibles. En conjunto, nuestros hallazgos sugieren que la detección fiable de texto generado por máquinas requiere pasar del análisis de un solo documento al análisis de múltiples documentos.
Los humanos pueden agarrar objetos sin esfuerzo, mientras que los robots multifuncionales están lejos de alcanzar este nivel de generalidad. Argumentamos que la fuente más natural de datos de agarre para robots proviene de los humanos, quienes recogen miles de objetos cada día. Presentamos HUG, un modelo de coincidencia de flujo que genera agarres humanos diversos para cualquier objeto especificado por el usuario en una sola imagen RGB-D capturada con una cámara estéreo. Usando gafas inteligentes, primero recopilamos 1M-HUGs, un conjunto de datos egocéntrico de agarres humanos que abarca 1 millón de fotogramas (27,8 horas) y 6.707 instancias de objetos en 41 edificios. A continuación, para modelar la distribución de agarres humanos naturales, nuestro novedoso modelo de coincidencia de flujo fusiona observaciones RGB y de profundidad para generar un agarre parametrizado por la traslación de la muñeca, la rotación de la muñeca y la pose de la mano MANO. Los agarres predichos pueden reorientarse a diversas manos robóticas, lo que permite el agarre sin entrenamiento previo en escenas cotidianas. Para estandarizar la evaluación, construimos un nuevo benchmark simulado, HUG-Bench, con 90 objetos no vistos de cinco categorías geométricas y diversos tamaños, con mallas 3D a escala métrica. Evaluamos HUG en el mundo real sobre el conjunto de prueba de 30 objetos de HUG-Bench en múltiples cámaras estéreo, configuraciones robóticas y entornos domésticos. HUG supera a las líneas base de agarre del estado del arte en un +23% y +34% en nuestro desafiante conjunto de objetos. El código, los datos, el benchmark, los puntos de control y una demostración interactiva se publican en nuestro sitio web: https://grasping.io/
Polymarket ha surgido como una plataforma destacada de mercado de predicción y una de las aplicaciones de más rápido crecimiento en DeFi. Para lograr un comercio de baja latencia, adopta una arquitectura híbrida que empareja órdenes fuera de la cadena, pero las liquida en la cadena para su ejecución final. Este diseño crea una brecha de consistencia que denominamos *Ghost Fills*: una orden que se empareja exitosamente fuera de la cadena puede fallar posteriormente durante la liquidación en la cadena. Para comprender las implicaciones de seguridad de esta brecha, investigamos dichos fallos de liquidación construyendo GHOSTHUNTER, que los reconstruye a partir de trazas en la cadena y los atribuye a patrones de ataque concretos. En 1.952.440 transacciones de emparejamiento de órdenes revertidas, encontramos que los atacantes explotan la brecha temporal entre el emparejamiento y la liquidación para invalidar órdenes ya emparejadas antes de que se finalicen en la cadena. Luego identificamos cuatro vectores de ataque a partir de estos incidentes: *bump* de nonce, drenaje de saldo, revocación de permiso y trampa de *proxy*, materializados a través de 35 variantes en evolución. Estos vectores permiten a los atacantes revertir selectivamente 980.133 órdenes llenadas, posibilitando predicciones sin riesgo, caza de *bots* de arbitraje y manipulación de recompensas de liquidez, generando al menos 1,49 millones de dólares en ganancias, lo que pone en riesgo 1.780 millones de dólares y 2,17 millones de POL (aproximadamente 212 mil dólares) pagados por el operador. Durante las horas punta, más del 24,3% de todas las órdenes llenadas se revirtieron, causando ataques DoS de facto. También encontramos que el código derivado del contrato defectuoso aún aparece en 167 contratos independientes en 10 cadenas que contienen al menos 23 millones de dólares en fondos de usuarios, extendiendo el impacto más allá de Polymarket. Hemos divulgado nuestras pruebas a las partes afectadas, y el problema ha sido mitigado parcialmente.
Presentamos TuneJury, un modelo de recompensa abierto, por pares a nivel de instancia para texto a música, que predice una puntuación de preferencia musical a partir de un prompt textual y un clip de audio. El checkpoint publicado se entrena con etiquetas de preferencia humana disponibles públicamente que abarcan votos estilo arena (A vs. B), pares de preferencia de alineación métrica, comparaciones por pares crowdsourced y calificaciones estéticas de expertos. El margen de puntuación predicho entre dos clips está bien calibrado en nuestra división de prueba reservada, lo que permite el filtrado de datos mediante un umbral de puntuación simple. TuneJury generaliza tanto a pares de prueba reservados como a benchmarks fuera de distribución, manteniéndose competitivo con líneas de base previas en estos últimos. Para generadores publicados después del entrenamiento, introducimos la calibración ancla, una calibración Bradley-Terry post-hoc por sistema que recupera la concordancia con una eficiencia de datos sustancialmente mejor que el reentrenamiento desde cero. La misma recompensa congelada impulsa ganancias consistentes en el eje de recompensa en tres aplicaciones posteriores: selección best-of-N en tiempo de inferencia, optimización latente estilo DITTO y entrenamiento posterior por iteración de expertos. TuneJury está disponible en https://github.com/yonghyunk1m/TuneJury.