Artículos de investigación en IA seleccionados diariamente con traducciones
Desplegar modelos fundacionales multimodales como políticas de lazo cerrado requiere cada vez más condicionar las acciones en observaciones que ya no son visibles. Sin embargo, los puntos de referencia existentes exponen el estado completo, combinan la reconstrucción del estado oculto con otras habilidades del agente, o evalúan el recuerdo solo después de que un episodio ha finalizado. Presentamos RNG-Bench (Reconstructive Non-Markov Games), una suite de pruebas diseñada para aislar la capacidad de un modelo base de reconstruir observaciones pasadas y actuar sobre ellas durante una interacción de múltiples pasos. RNG-Bench incluye dos juegos complementarios: Matching Pairs, donde se deben recordar identidades de cartas brevemente reveladas en ubicaciones específicas, y 3D Maze, donde las vistas egocéntricas deben integrarse en un mapa espacial. Ambos juegos se evalúan bajo un sistema unificado con tres ejes de dificultad controlados: tamaño de la cuadrícula, patrón visual y modalidad de observación. El punto de referencia introduce además un protocolo de duelo cara a cara para controlar la varianza a nivel de instancia y una métrica de Brecha de Memoria que separa el olvido de una mala selección de acciones. Las configuraciones más difíciles requieren contextos de aproximadamente 128K tokens y 350 entradas de imagen por episodio, y permanecen lejos de estar saturadas por los MLLMs de frontera. El análisis de la Brecha de Memoria muestra que la mayoría de los errores residuales provienen del olvido de observaciones anteriores, más que de una toma de decisiones subóptima. Finalmente, el ajuste fino de Qwen3.5-9B en despliegues de política óptima y demostraciones de modelo filtradas mejora el rendimiento en RNG-Bench y se transfiere a benchmarks existentes sin degradar la capacidad multimodal general.
La predicción de movimiento es central para la inteligencia visual: los agentes deben anticipar cómo se moverán los objetos para planificar acciones, razonar sobre interacciones físicas y sintetizar futuros realistas. Sostenemos que los puntos 3D en coordenadas del mundo proporcionan una representación general que es independiente de la clase, estable ante cambios de vista, compacta y directamente útil para tareas posteriores. Formalizamos la tarea de predicción de movimiento de puntos 3D condicionada por objetivos: dada una breve historia visual, un conjunto de puntos de consulta 3D sobre un objeto de interés y una descripción en lenguaje del objetivo previsto, el modelo predice la trayectoria 3D futura de cada punto. Presentamos un conjunto completo para estudiar esta tarea a escala: (1) MolmoMotion-1M es un corpus amplio de trayectorias de puntos 3D ancladas en objetos y descritas mediante acciones, anotado a partir de 1,16 millones de videos sin restricciones; (2) PointMotionBench es un punto de referencia verificado por humanos que abarca 111 categorías de objetos y 61 tipos de movimiento; y (3) MolmoMotion es un modelo general de predicción de movimiento que admite tanto la predicción autorregresiva de coordenadas como la generación de trayectorias basada en coincidencia de flujo. MolmoMotion predice con precisión diversos patrones de movimiento con diferentes instrucciones en lenguaje, y supera significativamente a los modelos de predicción de movimiento existentes en PointMotionBench. Finalmente, mostramos que el prior de movimiento 3D aprendido se transfiere bien a aplicaciones posteriores: mejora la eficiencia de entrenamiento y la generalización en manipulación robótica, y sus trayectorias predichas proporcionan una guía de movimiento efectiva para que los modelos generativos sinteticen videos con movimientos de objetos más realistas.
Los modelos del mundo están evolucionando de generadores visuales pasivos a infraestructuras operativas fundamentales para la IA Física: deben adquirir conocimiento del mundo de forma nativa a partir de experiencia heterogénea, mantener estados persistentes en horizontes prolongados y ejecutarse eficientemente dentro de las restricciones del despliegue real. Presentamos Kairos, una pila nativa de modelos del mundo diseñada en torno a estos requisitos. (1) Kairos aprende el mundo mediante un paradigma pionero de preentrenamiento nativo gobernado por un currículo de datos entre cuerpos, que organiza vídeos del mundo abierto, datos de comportamiento humano e interacciones robóticas en una trayectoria de desarrollo progresiva. (2) Kairos mantiene el mundo mediante una comprensión, generación y predicción unificadas del mundo dentro de una arquitectura nativa unificada equipada con Atención Temporal Lineal Híbrida, donde la atención de ventana deslizante captura la dinámica local, las ventanas deslizantes dilatadas capturan dependencias de rango medio y la atención lineal con puerta mantiene una memoria global persistente. Establecemos cotas teóricas formales que demuestran que esta factorización temporal limita estrictamente la acumulación de errores, garantizando matemáticamente la propagación del estado a través de horizontes extendidos. (3) Kairos ejecuta el mundo incorporando un codiseño de sistema consciente del despliegue para soportar la generación de despliegues de baja latencia en hardware de servidor y de consumo para bucles reales de observación-acción-retroalimentación. Los experimentos en modelos del mundo encarnados, horizontes prolongados y puntos de referencia de políticas de acción muestran que Kairos alcanza un rendimiento de primer nivel al tiempo que ofrece un sólido equilibrio entre eficiencia y capacidad. En conjunto, estos resultados posicionan a Kairos como una base operativa cohesiva para la futura inteligencia física auto evolutiva.
Los modelos de lenguaje entrenados con datos visuales y lingüísticos a gran escala han demostrado un gran potencial para los agentes encarnados. Aprovechar estos modelos mediante el uso de herramientas encarnadas ofrece una alternativa prometedora a los sistemas integrados de visión-lenguaje-acción, combinando razonamiento de alto nivel con módulos externos para percepción, planificación y control. Sin embargo, aún no está claro qué constituye un marco de aprovechamiento eficaz para la manipulación encarnada, ni hasta qué punto dicho marco puede desbloquear capacidades encarnadas en una amplia gama de modelos de razonamiento. En este trabajo presentamos Guava, un marco de aprovechamiento para el uso de herramientas encarnadas desarrollado mediante la exploración sistemática del espacio de diseño de flujos de trabajo de agentes, espacios de acción y espacios de observación. Nuestro estudio identifica tres ingredientes clave para agentes encarnados eficaces: bucles iterativos de percepción-razonamiento-acción, abstracciones semánticas de acciones y observaciones multimodales. Para comprender si estos principios de diseño son universales incluso para modelos pequeños, desarrollamos un canal de entrenamiento integral que destila capacidades de manipulación encarnada en un modelo de código abierto de 4B utilizando menos de 2.000 trayectorias recolectadas enteramente en simulación. Los resultados experimentales tanto en entornos simulados como reales muestran un rendimiento comparable al de modelos propietarios de vanguardia, al tiempo que exhiben una sólida generalización a objetos no vistos, instrucciones novedosas y tareas de largo horizonte. Los resultados sugieren que un marco de aprovechamiento bien diseñado puede servir como interfaz escalable e independiente del modelo para la manipulación encarnada, permitiendo capacidades encarnadas emergentes sólidas en modelos compactos de código abierto con datos de entrenamiento mínimos.
Los modelos de coincidencia de scores y flujos a menudo recurren al aprendizaje por refuerzo basado en preferencias con dos propósitos: alinearse con preferencias subjetivas y, sorprendentemente, recuperar propiedades como el realismo visual y la estructura coherente de objetos que el entrenamiento basado en coincidencias pretende aprender de los propios datos. Sostenemos que esto refleja un desajuste estructural. Las funciones de pérdida por coincidencia miden el error de regresión \( \ell_2 \) sobre el campo de velocidad o score bajo las marginales de tiempo de entrenamiento, un proxy poco alineado con las propiedades visuales y semánticas que determinan la calidad de las muestras en inferencia. Dada una recompensa alineada con estas propiedades, el RL evita el desajuste al evaluar el modelo en sus propias muestras y seguir directamente el panorama de recompensas. El desafío radica en obtener tal recompensa sin depender de preferencias humanas, que son costosas y confunden el realismo de los datos con las inclinaciones del anotador. Proponemos el RL Guiado por Discriminador (DRL). DRL entrena un discriminador para separar los datos de las muestras del modelo base en un espacio de representación preentrenado y utiliza su logit como recompensa en el RL regularizado con KL. El espacio preentrenado restringe el discriminador a direcciones perceptuales significativas, y el logit estima el cociente de log-verosimilitud entre los datos y el modelo, que es la recompensa óptima para apuntar a la distribución de datos. En SiT, JiT, REPA y RAE, DRL reduce el FID sin guía (p. ej., de 9.38 a 2.62 en SiT) y el FD en espacio semántico (p. ej., de 88.2 a 19.3 en DINOv3 para SiT), con mejoras consistentes en todos los backbones, y mejora las recompensas de preferencia humana sin entrenarse en ellas. También produce una mejor frontera de Pareto entre la recompensa de preferencia y la fidelidad de la imagen bajo un posterior post-entrenamiento basado en preferencias, aumentando la alineación y reduciendo artefactos de bajo nivel como la sobresaturación y el brillo excesivo.
El aprendizaje por refuerzo (RL) se ha convertido en un paradigma representativo de posentrenamiento para los modelos de lenguaje grandes (LLMs), permitiendo capacidades sólidas de razonamiento y agencia. Sin embargo, la generación de *rollouts* sigue siendo un cuello de botella de latencia dominante, ya que el muestreo autorregresivo decodifica respuestas de manera secuencial y un pequeño número de generaciones de cola larga a menudo determina el tiempo de finalización. La decodificación especulativa (SD) ofrece una forma natural de abordar este cuello de botella, al ser una técnica consolidada para servir LLMs fijos que reduce la latencia mediante la generación rápida de *tokens* y su aceptación a través de verificación paralela, preservando la distribución del modelo objetivo. Sin embargo, sus aceleraciones prácticas no se trasladan directamente a los *rollouts* de RL: (i) la política objetivo en evolución hace que cualquier generador de borradores fijo presente una falta de correspondencia creciente con la distribución de salida de la política; y (ii) los tamaños de lote activo se reducen durante la decodificación de *rollouts*, desplazando la decodificación de regímenes con limitación computacional a regímenes con limitación de memoria, donde la verificación paralela puede explotar la computación infrautilizada. Por lo tanto, acelerar los *rollouts* de RL requiere tanto un generador de borradores que siga siendo eficaz bajo generaciones largas y de alta temperatura a partir de una política en evolución, como un uso consciente del sistema de SD que evite los regímenes con limitación computacional. Presentamos EfficientRollout, un marco de autodecodificación especulativa (self-SD) consciente del sistema diseñado para abordar esta brecha en los *rollouts* de RL. EfficientRollout induce un generador de borradores cuantizado a partir del modelo objetivo (es decir, autodecodificación especulativa), manteniéndolo acoplado a la política en evolución sin necesidad de entrenamiento previo separado del generador de borradores ni de adaptación en línea. Además, coordina una política de conmutación de SD consciente del sistema con una adaptación de la longitud del borrador consciente de la aceptación, permitiendo la especulación solo en regímenes beneficiosos mientras ajusta el presupuesto de generación de borradores a la calidad cambiante del generador. EfficientRollout reduce la latencia de *rollout* y de extremo a extremo hasta en un 19,6 % y un 12,7 %, respectivamente, en comparación con una línea base de *rollout* autorregresivo acelerada, preservando al mismo tiempo la calidad final del modelo.
Los Autoencoders Dispersos (SAEs) descomponen las activaciones del flujo residual en características interpretables. Las defensas recientes en el espacio latente dependen cada vez más de estas descomposiciones, asumiendo que las características SAE identificadas como "inseguras" sirven como manejadores viables para la monitorización e intervención. En este paradigma, se espera que la supresión de una característica dañina específica impida de manera fiable el mal comportamiento del modelo. Sin embargo, demostramos que este éxito puede ocultar un modo de fallo recuperable: la supresión puede bloquear una ruta visible hacia un comportamiento sin eliminar el comportamiento en sí. Formulamos esta vulnerabilidad como recuperación post-intervención, un problema de optimización en el espacio residual restringido. Partiendo del estado residual post-intervención, optimizamos las perturbaciones residuales para recuperar el comportamiento previo a la intervención mientras preservamos los valores post-intervención de las características SAE objetivo. Incluso bajo un modelo de amenaza severo donde la intervención permanece activa durante toda la optimización y generación, la recuperación sigue siendo posible. Para descartar que la recuperación simplemente deshaga la intervención, utilizamos actualizaciones ortogonales al codificador para intervenciones en una sola capa y el jacobiano del mapa de características correspondiente en el contexto multicapa. A través de experimentos de TPP, desaprendizaje, IOI y control de rechazo, esta prueba de estrés revela un comportamiento recuperable a pesar de una intervención exitosa a nivel de características. Particularmente en el entorno crítico de seguridad del control de rechazo, logramos una tasa de recuperación del 95.8% en muestras válidas, manteniendo una deriva relativa de la característica defendida en 0.131, sustancialmente por debajo de las líneas base basadas en sufijos. Un análisis de atribución de la ruta de recuperación localiza aún más esta recuperación en el residual de reconstrucción del SAE, el componente que el SAE deja sin explicar. Estos resultados exponen una brecha entre el control a nivel de características y la completitud conductual: las características del SAE pueden respaldar la intervención causal, pero controlarlas no garantiza el control sobre el comportamiento subyacente.
Los pipelines de aprendizaje por refuerzo para el entrenamiento de modelos de lenguaje grande (LLM) a menudo dependen de entornos rediseñados manualmente entre etapas, lo que obliga a los profesionales a inferir heurísticamente qué configuración mejorará la política actual. Para automatizar este proceso, proponemos el marco LLM-as-Environment-Engineer, en el cual el modelo de política actual analiza trayectorias de fallo junto con información contextual y propone modificaciones a la configuración del entorno de entrenamiento de la siguiente etapa. También introducimos MAPF-FrozenLake, un banco de pruebas controlable cuyo generador expone configuraciones del entorno multidimensionales, lo que lo hace adecuado para estudiar y evaluar el rediseño de entornos. En este banco de pruebas, condicionamos al ingeniero de entorno a resúmenes estructurados del comportamiento de la política, casos de fallo y estadísticas del entorno, a partir de los cuales produce la configuración para la siguiente etapa de entrenamiento. Con Qwen3-4B como modelo base, nuestro marco logra el rendimiento agregado más sólido en nuestros benchmarks, superando a modelos LLM propietarios más grandes (p. ej., GPT, Gemini) y a las líneas base de entrenamiento con entorno fijo. Además, analizamos qué formas de contexto son más efectivas, descubriendo que las actualizaciones exitosas del entorno dependen de evidencia de fallos y preservan configuraciones que ya funcionan. Curiosamente, el punto de control actual de RL funciona mejor como ingeniero de entorno que el modelo base original, lo que sugiere que el aprendizaje de la política mejora la capacidad del modelo para diagnosticar sus debilidades restantes.
Los VLM espaciales han logrado avances sustanciales en la percepción geométrica, pero el razonamiento espacial complejo que requiere inferencia de múltiples pasos sobre profundidad, distancia y relaciones de escena sigue siendo un desafío. Además, diferentes consultas espaciales requieren estrategias fundamentalmente distintas: algunas se abordan mejor mediante deducción puramente lingüística paso a paso, mientras que otras necesitan un anclaje 3D explícito antes de la inferencia cuantitativa. Presentamos el Razonamiento Espacial de Doble Vía mediante Aprendizaje por Refuerzo para VLM Espaciales (SR-REAL), un marco unificado que dota a un VLM espacial con dos vías de razonamiento complementarias: Razonamiento Solo Lingüístico (LOR), que realiza deducciones lingüísticas paso a paso, y Detectar-Luego-Razonar (DTR), que detecta señales geométricas 3D (por ejemplo, centros o cuadros delimitadores) mediante tokens de región antes de la inferencia geométrica explícita. SR-REAL comienza con una etapa de ajuste fino supervisado de arranque en frío que construye supervisión de cadena de pensamiento para LOR y DTR y expone una interfaz región-a-3D, seguida de RL que optimiza el modelo de política con recompensas de precisión y formato; para DTR, una recompensa discreta de detección basada en centros refina aún más la alineación geométrica. En diversos puntos de referencia espaciales, SR-REAL supera significativamente a las líneas base de VLM espaciales: (i) un solo modelo entrenado con RL admite ambas vías de razonamiento, destacando DTR en tareas conscientes de región mediante localización 3D precisa y LOR mejorando el razonamiento espacial general; (ii) el entrenamiento conjunto de ambas vías fomenta el refuerzo mutuo; (iii) los datos de arranque en frío mezclados y de alta calidad son cruciales para una optimización estable de RL; y (iv) el modelo se generaliza a través de conjuntos de datos y dominios sin ajuste por tarea, demostrando transferencia positiva entre LOR y DTR.
El anclaje de interfaces gráficas de usuario (GUI) requiere que los modelos de visión y lenguaje (VLM) identifiquen pequeños elementos objetivo en capturas de pantalla de alta resolución y predigan coordenadas precisas de la pantalla. La autodestilación en política (OPSD) es un enfoque prometedor de post-entrenamiento para esta tarea sensible a coordenadas, ya que proporciona señales densas del profesor a nivel de token más allá de las etiquetas de coordenadas duras. Sin embargo, la OPSD ingenua no es adecuada para el anclaje de GUI: la OPSD evalúa al profesor en prefijos generados por el estudiante; la calidad de las señales del profesor para los tokens de coordenadas puede degradarse cuando el prefijo ya se ha desviado de la coordenada objetivo, lo que lleva a una señal del profesor poco fiable. Para mitigar esto, proponemos la autodestilación consciente de la calidad para el anclaje de GUI basado en VLM, que mejora la calidad de la señal del profesor para los tokens de coordenadas mediante un control suave consciente de la corrección y un escalado de la probabilidad del profesor. El control suave consciente de la corrección verifica si la predicción actual del profesor para el token de coordenadas aún puede completarse para formar la caja de verdad fundamental bajo el prefijo generado por el estudiante. Si no es así, la señal correspondiente del profesor se reduce. El escalado de la probabilidad del profesor utiliza entonces la confianza del profesor como un factor ligero para calibrar aún más la fuerza de la supervisión controlada. Un hallazgo empírico clave es que ninguno de los componentes por sí solo mejora el rendimiento general, mientras que combinarlos lo mejora consistentemente. Esto sugiere que los dos mecanismos desempeñan roles complementarios: el control consciente de la corrección suprime la supervisión no fiable de los tokens de coordenadas, mientras que el escalado de la probabilidad del profesor calibra la fuerza de las señales restantes. Los experimentos en seis puntos de referencia de anclaje de GUI muestran que nuestro método mejora consistentemente el modelo base y supera a las líneas base sólidas.
Los modelos pasivos para la comprensión de videos largos típicamente se basan en un paradigma de "ver todo", procesando fotogramas de manera uniforme independientemente de la dificultad de la consulta, lo que provoca que el costo computacional crezca con la duración del video. Aunque han surgido marcos interactivos, a menudo dependen de un pre-escaneo global, y su costo de contexto sigue escalando con la longitud del video. Proponemos OmniAgent, el primer agente omni-modal nativo que formula la comprensión de videos como un ciclo iterativo de Observación-Pensamiento-Acción basado en POMDP. OmniAgent ejecuta acciones bajo demanda para destilar selectivamente señales audiovisuales en una memoria textual persistente, desacoplando efectivamente la complejidad del razonamiento de la duración bruta del video. Para operacionalizar esto, introducimos (1) el Ajuste Fino Supervisado Agéntico para arrancar la percepción activa nativa mediante síntesis de trayectorias best-of-N con control de calidad de doble etapa, y (2) el Aprendizaje por Refuerzo Agéntico con TAURA (Ventaja Re-escalada por Incertidumbre Adaptativa con Conciencia de Turno), que aprovecha la entropía a nivel de turno para dirigir la asignación de crédito hacia turnos de descubrimiento cruciales. De manera crucial, OmniAgent exhibe un escalado positivo en tiempo de prueba, donde el rendimiento mejora a medida que aumenta el número de turnos de razonamiento, validando la eficacia de la percepción activa. Los resultados empíricos en diez puntos de referencia (p. ej., VideoMME, LVBench) demuestran que OmniAgent alcanza un rendimiento de última generación entre los modelos de código abierto. Notablemente, en LVBench, nuestro agente de 7B supera al Qwen2.5-VL-72B, que es 10 veces más grande (50.5% frente a 47.3%).
Los algoritmos de Aprendizaje por Refuerzo con Recompensas Verificables, como GRPO, han emergido como el paradigma dominante de post-entrenamiento para el razonamiento complejo en LLMs, pero comúnmente sufren de colapso de entropía de política durante el entrenamiento. Realizamos un análisis de gradiente de primer orden de la dinámica de entropía a nivel de token bajo GRPO e identificamos un desajuste en la asignación de crédito a nivel de token: la variación de entropía por token se descompone en el producto de la ventaja a nivel de trayectoria y una función de sensibilidad de entropía sobre la distribución del siguiente token, lo que produce una estructura de cuatro cuadrantes de ventaja-sorpresa y una propiedad de cuasi-criticalidad. Motivados por ello, proponemos STARE (reponderación de ventajas a nivel de token guiada por sorpresa para la estabilidad de la entropía de la política), que identifica subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresa internos al lote, repondera selectivamente sus ventajas efectivas e incorpora una compuerta de bucle cerrado de entropía objetivo para una regulación estable de la entropía. A través de escalas de modelo desde 1.5B hasta 32B y tres familias de tareas (CoT Corto, CoT Largo y Uso de Herramientas en Múltiples Turnos), STARE mantiene un entrenamiento de RL estable durante miles de pasos mientras mantiene la entropía de la política dentro de la banda objetivo. En AIME24 y AIME25, STARE supera a DAPO y otras líneas base competitivas en un 4%-8% en precisión promedio, con tokens de reflexión y longitud de respuesta creciendo en conjunto, lo que indica un equilibrio sostenido de exploración-explotación que desbloquea aún más el potencial del entrenamiento de RL. El código está disponible en https://github.com/hp-luo/STARE.
Los modelos de difusión se han convertido en una alternativa prometedora a los modelos autoregresivos. Entre ellos, los modelos de lenguaje de difusión uniforme (UDLMs) permiten actualizar cualquier token en cualquier paso, lo que en principio posibilita una generación más flexible. Sin embargo, ningún UDLM ha sido preentrenado desde cero a gran escala tanto en parámetros como en presupuesto de tokens. Tanto el modelado autoregresivo como el modelado de difusión enmascarada ya cuentan con modelos capaces a gran escala que la comunidad puede estudiar y sobre los cuales construir; la difusión uniforme carece de ello. Un UDLM preentrenado desde cero a escala proporcionaría un punto de referencia limpio para estudiar el comportamiento de escalado, las dinámicas de generación, la controlabilidad y las compensaciones frente a modelos autoregresivos y de difusión enmascarada ya establecidos. Con este fin, presentamos Sumi ("tinta" en japonés), un modelo de lenguaje de difusión uniforme de 7B completamente abierto, preentrenado desde cero con 1.5T tokens. Sumi se desempeña de manera competitiva con modelos autoregresivos entrenados con presupuestos de tokens comparables en pruebas de referencia de conocimiento, razonamiento y codificación, aunque muestra un rendimiento inferior en pruebas de referencia de sentido común, donde es probable que nuestra mezcla de datos con énfasis en contenido educativo sea un factor contribuyente. Publicamos los pesos de nuestro modelo, los puntos de control y la receta de entrenamiento completa, incluyendo una especificación detallada de la mezcla de datos sobre corpus disponibles públicamente. Esperamos que esta publicación permita a la comunidad estudiar la difusión uniforme nativa a gran escala y catalice el trabajo en sus aspectos aún poco comprendidos.
A medida que la mayoría creciente del contenido de video global se consume en plataformas sociales con fines interactivos, los modelos de generación de video diseñados para entornos sociales son importantes, pero han sido ampliamente ignorados por estudios previos. En este trabajo, definimos la posición de los modelos de mundo social y construimos un modelo prototipo como primer paso hacia este objetivo. Mientras que los modelos de mundo previos simulan con éxito entornos físicos o la exploración de juegos, siguen estando fundamentalmente desvinculados de las dinámicas sociales centradas en el ser humano. Para cerrar esta brecha como primer paso hacia los modelos de mundo social, presentamos MaineCoon, el primer modelo autorregresivo audiovisual en tiempo real con 22 mil millones de parámetros, capaz de generar transmisiones en tiempo real e interactuar en menos de un segundo, con una tasa de fotogramas récord de hasta 47.5 FPS en una sola GPU. Hasta donde sabemos, MaineCoon es también el primer modelo de generación audiovisual en tiempo real optimizado específicamente para aplicaciones sociales interactivas. Para permitir un entrenamiento eficiente y estable, introducimos varias técnicas novedosas en MaineCoon, incluyendo el auto-muestreo (self-resampling), la alineación de representaciones entre modalidades, la optimización de preferencias consciente del dominio y la destilación de políticas en línea reforzada (ROPD, por sus siglas en inglés). También diseñamos el primer marco de inferencia de transmisión agéntica, que admite generación a escala de miles de segundos o incluso más larga, mitigando la deriva mediante la gestión agéntica de caché y la planificación de indicaciones (prompt planning). Estas innovaciones aceleran significativamente el entrenamiento mientras optimizan el rendimiento de inferencia en tiempo real. Creemos que este trabajo no solo establece un nuevo punto de referencia de rendimiento de última generación (SOTA) para modelos autorregresivos audiovisuales de alta calidad, baja latencia y horizonte largo, sino que también señala el cambio de paradigma deseado para las plataformas sociales nativas de IA de próxima generación.
Los sistemas multiagente multiculturales se implementan cada vez más en entornos globalmente diversos, donde diferentes agentes están fundamentados en distintos trasfondos culturales. La evaluación cultural existente se centra en la alineación de valores: qué tan cerca se encuentra un agente individual de una cultura objetivo. Sin embargo, la alineación es una propiedad por agente y no puede revelar si un sistema, considerado en su conjunto, preserva la pluralidad cultural que pretende representar. Proponemos la diversidad de valores como un eje de evaluación a nivel de sistema para sistemas multiagente multiculturales, definida mediante la disimilitud entre las respuestas de agentes culturalmente condicionados en una encuesta de valores compartida. Utilizando la Encuesta Mundial de Valores, evaluamos 19 culturas y 18 modelos base en una amplia gama de configuraciones del sistema. Encontramos que la diversidad está en gran medida no correlacionada con la alineación, lo que indica que ambas capturan propiedades complementarias del sistema, y que los sistemas multiagente multiculturales actuales presentan una diversidad de valores sustancialmente inferior a la de las sociedades humanas. Los sistemas de base mixta reducen esta brecha, pero no la cierran, y la brecha persiste en distintas composiciones culturales y escalas de agentes. La interacción social erosiona aún más la diversidad al impulsar a los agentes hacia el consenso, y un estudio de caso de presupuesto participativo muestra que esta homogeneización reduce la amplitud de la toma de decisiones colectivas. En conjunto, nuestros resultados establecen la diversidad de valores como un eje de evaluación distinto para los sistemas multiagente multiculturales y revelan una tendencia persistente a la homogeneización en las sociedades actuales basadas en modelos de lenguaje de gran escala. Nuestro código y datos están disponibles públicamente en https://github.com/iNLP-Lab/MultiAgent-Diversity.
Los agentes de modelos de lenguaje se están convirtiendo en ejecutores competentes en tareas aisladas de horizonte corto, como la ingeniería de software y la atención al cliente. Sin embargo, los desafíos del mundo real requieren una combinación de habilidades sofisticadas que aún no han sido suficientemente evaluadas en los agentes: (1) navegar horizontes prolongados en medio de la incertidumbre; (2) adquirir información en entornos ruidosos; (3) adaptarse a un mundo cambiante; (4) orquestar múltiples componentes móviles hacia un objetivo coherente. Presentamos CEO-Bench, que evalúa estas capacidades de forma conjunta simulando una tarea representativa del mundo real: dirigir una startup durante 500 días. Un agente gestiona precios, marketing, presupuestos y muchos otros aspectos de una empresa ficticia a través de una interfaz programable en Python, operando en el mismo entorno y enfrentando los mismos desafíos que un CEO humano. El éxito exige analizar bases de datos empresariales ruidosas e interconectadas, traducir las señales en una estrategia sólida y coordinar numerosas decisiones mediante programación. Los agentes más potentes escriben código sofisticado que simula cohortes de clientes para pronosticar el flujo de caja futuro y explora el historial de negociaciones para descubrir preferencias ocultas de los clientes. Aun así, la mayoría de los modelos de última generación tienen dificultades en este entorno. Solo Claude Opus 4.8 y GPT-5.5 terminan por encima del saldo inicial de $1M, y ninguno de ellos genera ganancias de forma consistente. CEO-Bench da un primer paso hacia la medición de la inteligencia necesaria para impulsar un progreso adaptativo y sostenido a lo largo del tiempo.
Los Vision Transformers (ViTs) se han convertido en una arquitectura dominante para el aprendizaje de representaciones visuales, proporcionando características de backbone excepcionalmente sólidas y ampliamente reutilizables. Sin embargo, los ViTs suelen operar sobre cuadrículas de parches relativamente pequeñas debido al costo cuadrático de la autoatención global, lo que crea un cuello de botella persistente para tareas de predicción densa, como la segmentación semántica y la estimación de profundidad. Esto ha motivado el desarrollo de upsamplers de características agnósticos a la tarea. Si bien los métodos de última generación actuales producen representaciones densas visualmente nítidas, su dependencia de codificadores de imagen superficiales para el upsampling guiado puede introducir fuga de características, fragmentación y desenfoque. Presentamos ViT-Up, un marco de upsampling implícito de características que reemplaza la guía externa de imagen con una construcción de consultas por capas a partir de estados ocultos intermedios de ViT. Esto permite la predicción de características en coordenadas continuas arbitrarias de la imagen, manteniendo la alineación con el espacio de características del backbone. Los experimentos demuestran que ViT-Up supera consistentemente a los upsamplers guiados por imagen de última generación en predicción densa y correspondencia semántica. En DINOv3-S+, ViT-Up mejora con respecto a métodos anteriores hasta en +2.07 mIoU en Cityscapes y +4.17 PCK@0.10 en SPair-71k. Con el backbone más grande DINOv3-B, estas ganancias aumentan a +3.36 mIoU y +8.09 PCK@0.10, lo que demuestra que ViT-Up escala favorablemente con la capacidad del backbone.
Los modelos fundacionales del mundo (WFMs, por sus siglas en inglés) son potentes simuladores, pero operan predominantemente en una configuración de vista única y carecen de la consistencia 3D multivista necesaria para la manipulación robótica. Si bien los sistemas robóticos dependen de múltiples cámaras (egocéntricas, ojo-mano y montadas en la muñeca) para el aprendizaje de políticas, los modelos del mundo multivista actuales simplemente concatenan los tokens de cada vista sin un razonamiento geométrico explícito. Esto provoca deriva de objetos entre vistas, inconsistencia de profundidad y desalineación de texturas. Atribuimos estos fallos a dos deficiencias: la ausencia de un mecanismo explícito de comunicación entre vistas y la falta de un prior geométrico 3D. Sostenemos que resolver ambas simultáneamente es necesario y suficiente. Para abordar esto, presentamos PAIWorld, un marco que aumenta los modelos del mundo de difusión-transformer mediante tres componentes centrales: (1) Bloques de Atención Cruzada entre Vistas con Conciencia Geométrica, que establecen una vía explícita entre vistas; (2) Incrustación de Posición Rotatoria Geométrica, que codifica las direcciones de los rayos de cámara y las poses extrínsecas en el mecanismo de atención; y (3) Latent 3D-REPA, que destila características conscientes de 3D a partir de modelos fundacionales 3D congelados para garantizar la consistencia 3D. Construido sobre un modelo fundacional del mundo basado en DiT, PAIWorld logra una consistencia 3D multivista de vanguardia en benchmarks de manipulación robótica, ocupando el primer lugar en el ranking WorldArena y el segundo en el ranking AgiBot-Challenge2026, al tiempo que habilita aplicaciones downstream como la planificación basada en modelos, los modelos de acción del mundo y el post-entrenamiento de políticas multivista.
El razonamiento científico de frontera sigue siendo un desafío importante para los modelos de lenguaje de gran escala (LLMs), donde incluso los sistemas comerciales más potentes quedan por debajo del rendimiento a nivel experto. Un examen más detallado del comportamiento de los modelos revela una complementariedad sustancial que la evaluación con un solo modelo oculta: distintos modelos de frontera destacan en diferentes tipos de preguntas, y ningún modelo por sí solo capta la imagen completa. Presentamos SciOrch, un marco que entrena un modelo ligero de 8B para orquestar LLMs de frontera en el razonamiento científico. El orquestador descompone cada pregunta, delega subproblemas a modelos comerciales seleccionados a través de llamadas a la API y sintetiza una respuesta final. Entrenar un orquestador de este tipo es fundamentalmente más difícil que el RL agéntico convencional: cada acción desencadena una llamada a la API que es costosa tanto en términos de dinero como de latencia, lo que hace inviables los despliegues en línea estándar. Abordamos esto con un enfoque basado en MCTS, que genera trayectorias de orquestación diversas, extrae muestras de un solo nodo por nodo y optimiza el orquestador con entrenamiento de tipo GRPO. En un conjunto de prueba de 240 preguntas que abarca SGI-Reasoning y el Primer Examen de Científicos (Scientists' First Exam), SciOrch alcanza una precisión promedio del 56,66%, superando al mejor modelo comercial individual en un 3,74% y a la mejor línea base multiagente en un 3,33%. También obtiene la mejor precisión tanto en SGI como en SFE con menos de la mitad del costo de API de los métodos multiagente típicos.
El RL de uso de herramientas en múltiples turnos se ve obstaculizado por el rápido agotamiento de las muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en las tareas con la mayor varianza de recompensa de las trayectorias, como consecuencia de la cota superior de Popoviciu. En consecuencia, las muestras cercanas a la frontera de capacidad del agente —donde los éxitos y fracasos están aproximadamente equilibrados— contribuyen con gradientes de política desproporcionadamente grandes. A medida que avanza el entrenamiento, esta frontera se desplaza continuamente, lo que agota gradualmente el conjunto de muestras informativas en un conjunto de datos estático. Proponemos RODS (Síntesis de Datos en Línea Impulsada por Recompensa) para resolver este agotamiento. RODS cierra el ciclo entre el entrenamiento de RL y la generación de datos al reutilizar la varianza de la recompensa de progreso como un detector de frontera práctico y sin coste adicional, que no requiere inferencia extra más allá de las trayectorias ya calculadas para el entrenamiento. Este detector identifica continuamente dichas muestras en la frontera, sintetiza nuevas variantes en múltiples turnos que igualan su complejidad estructural (por ejemplo, topología de API y profundidad de dependencias) mediante un canal de remuestreo alineado con las habilidades, y gestiona un búfer de repetición dinámico que co-evoluciona con la política. Partiendo de 400 semillas humanas y manteniendo un conjunto activo de entrenamiento de aproximadamente 800 muestras, RODS alcanza un rendimiento comparable al de un canal fuera de línea con 17 000 muestras, requiriendo aproximadamente 20 veces menos trayectorias, y mejora sobre el RL con datos fijos y la aumentación del entorno en nuestro entorno controlado.
El aprendizaje por refuerzo fuera de línea se analiza típicamente bajo supervisión de recompensas a nivel de proceso, pero muchos conjuntos de datos de decisiones secuenciales registran solo resultados a nivel de trayectoria. Desarrollamos una teoría estadística para la optimización de políticas fuera de línea a partir de dicha supervisión a nivel de resultados. Primero estudiamos el entorno canónico donde el objetivo sigue siendo la recompensa acumulada esperada, pero cada trayectoria fuera de línea proporciona solo una etiqueta escalar cuya media condicional es el retorno acumulado. Proponemos OPAC, un algoritmo actor-crítico pesimista que aprende un modelo de recompensa latente y optimiza una política a partir de etiquetas a nivel de trayectoria. Demostramos una garantía de alta probabilidad de orden \(\widetilde{O}(H^2 C_{\text{sa}(\pi^\star)}/n)\) y una cota inferior correspondiente, que caracterizan el coste estadístico ajustado de sustituir recompensas a nivel de proceso por una etiqueta a nivel de trayectoria. Luego extendemos el principio a la retroalimentación basada en preferencias, preservando la dependencia principal del horizonte y la concentrabilidad hasta constantes del modelo de preferencias. Finalmente, estudiamos el RL fuera de línea basado en resultados generalizados, donde tanto la supervisión como el objetivo son cantidades a nivel de trayectoria inducidas por una agregación no lineal de recompensas latentes por paso. Este problema no es aprendible en general: para objetivos de éxito total, cualquier algoritmo fuera de línea puede requerir \(\Omega(2^H)\) trayectorias incluso con transiciones deterministas y concentrabilidad constante. Identificamos entonces un régimen tratable mediante dos coeficientes estructurales, \(\kappa_{\mu}(\sigma)\) y \(\chi_{\mu}(\sigma)\), que capturan la pérdida de información en la agregación de resultados y las actualizaciones generalizadas de Bellman, bajo los cuales OPAC generalizado alcanza una complejidad muestral polinómica. En conjunto, nuestros resultados delinean cuándo la supervisión a nivel de resultados permite un control fuera de línea eficiente en muestras y cuándo la falta de recompensas a nivel de proceso crea barreras estadísticas fundamentales.
Aprender a simular usuarios humanos en entornos interactivos podría avanzar en el entrenamiento de asistentes agentes, la evaluación de sistemas de personalización, la investigación en ciencias sociales y más. Los enfoques existentes generalmente lo hacen entrenando un modelo de lenguaje grande (LLM) para que coincida con una única respuesta de referencia, ya sea maximizando la probabilidad logarítmica o utilizando una recompensa de similitud. Nosotros, en cambio, proponemos {Turing-RL}: un enfoque de aprendizaje por refuerzo basado en la prueba de Turing para entrenar modelos simuladores de usuarios. {Turing-RL} utiliza una recompensa discriminativa de Turing con un juez LLM para puntuar cuán indistinguible es una respuesta generada de la del usuario real, dado el historial del usuario, y el LLM simulador de usuario aprende a producir respuestas indistinguibles de lo que el usuario podría haber dicho con tales recompensas. En dos dominios diferentes —chat conversacional y discusión en foros de Reddit— encontramos que {Turing-RL} supera consistentemente a los métodos de referencia tanto en métricas de evaluación de LLM como humanas. Nuestro estudio sugiere que optimizar para la indistinguibilidad, en lugar de la coincidencia de respuestas, es efectivo para aprender simuladores de usuarios.
Los modelos generativos de video (VGM, por sus siglas en inglés) se han convertido en una nueva frontera que puede utilizarse no solo para la generación de video, sino para una multitud de tareas posteriores, incluido el modelado del mundo. Para avanzar en estas tareas, un buen modelo de video debe comprender la realidad física del mundo. Evaluar esta comprensión es un campo emergente y ha dado lugar al punto de referencia Physics-IQ, que la cuantifica explícitamente al comparar videos generados por modelos con videos reales de experimentos físicos. En este trabajo, presentamos una auditoría sistemática del punto de referencia Physics-IQ, exponemos sus limitaciones y proponemos tres soluciones que agudizan la forma en que podemos medir la comprensión física de los VGM. Específicamente, mejoramos la calidad de las instrucciones (prompts) y de las verdades fundamentales (ground-truth) para reducir la influencia de factores de confusión, e introducimos un sistema de puntuación a nivel de muestra que pondera cada muestra y métrica por igual. Nuestro punto de referencia resultante, Physics-IQ Verified, refina el 57.6 % de todas las muestras y mejora más del 34.8 % de las instrucciones. En un estudio comparativo utilizando seis modelos generativos de imagen a video, observamos cambios de clasificación moderados pero significativos (τ de Kendall = 0.46). Esperamos que Physics-IQ Verified impulse a la comunidad al proporcionar una señal más fiable hacia VGM físicamente precisos. El código del punto de referencia se puede acceder en https://github.com/google-deepmind/physics-iq-benchmark.
Los sistemas de IA pueden automatizar cada vez más los flujos de trabajo científicos, pero el razonamiento que vincula la evidencia previa, las ideas generadas, los experimentos y las afirmaciones finales a menudo permanece implícito dentro de la inferencia del modelo. Aquí presentamos Xcientist, un arnés de investigación que externaliza la síntesis de investigaciones y la validación experimental en procesos inspeccionables y gobernados por contratos. Xcientist organiza la evidencia bibliográfica, los estados de las ideas, los planes de implementación, los registros de ablación y las trazas de reparación como artefactos de investigación persistentes, de modo que los mecanismos generados puedan fundamentarse, ejecutarse, probarse y revisarse sin perder su base probatoria. Identificamos la deriva de las afirmaciones como un modo de fallo en la investigación automatizada, donde los artefactos ejecutables ya no respaldan el mecanismo originalmente afirmado. En sistemas de memoria sin entrenamiento, predicción de tráfico estructurado en grafos y redes neuronales informadas por la física a múltiples escalas, Xcientist preserva trayectorias trazables desde la formulación del problema hasta el diseño, validación y revisión acotada del mecanismo. Estos resultados sugieren que los científicos de IA deberían evaluarse no solo por sus artefactos finales, sino por si sus procesos de síntesis y validación permanecen atribuibles, inspeccionables y científicamente responsables.
El escalado en tiempo de prueba mediante revisión secuencial ha surgido como un paradigma poderoso para mejorar el razonamiento de los Modelos de Lenguaje Grande (LLM). Sin embargo, los métodos estándar de post-entrenamiento optimizan principalmente objetivos de un solo paso, creando un desajuste fundamental con las dinámicas de inferencia de múltiples pasos. Si bien trabajos recientes tratan esto como aprendizaje por refuerzo (RL) de múltiples turnos, los enfoques convencionales optimizan directamente las trayectorias de múltiples pasos sin explotar los errores de alta calidad en los pasos intermedios que el modelo puede aprender al corregirlos. Proponemos un marco iterativo de dos etapas que alterna entre el aumento de datos/instrucciones en línea y la optimización de políticas. Al convertir los pasos intermedios (respuestas de "casi acierto") en las trayectorias de recuperación exitosas en instrucciones de revisión y verificación desacopladas, nuestro enfoque concentra el entrenamiento tanto en la transformación efectiva de respuestas como en la identificación de errores. Este método permite una generación eficiente de datos fuera de política y reduce la sobrecarga computacional del muestreo de horizonte largo en comparación con el RL estándar de múltiples turnos. En LiveCodeBench, utilizando casos de prueba disponibles públicamente como retroalimentación, observamos mejoras de +6.5 puntos sobre la línea base de RL y +4.0 puntos sobre el entrenamiento estándar de múltiples turnos. Más allá de la programación, nuestro enfoque iguala el resultado SOTA previamente reportado en empaquetamiento de círculos, utilizando el modelo base más pequeño (4B) y muchas menos ejecuciones que los sistemas de búsqueda evolutiva mucho más grandes. Los resultados en matemáticas bajo verificación con datos de referencia confirman una mejor capacidad de corrección. También se generaliza a puzzles de satisfacción de restricciones fuera de distribución, como n_reinas y mini_sudoku, donde la corrección se define enteramente por las restricciones del problema. El código está disponible en https://github.com/yxliu02/REVES.git.
Los benchmarks actuales para agentes de uso computacional evalúan modelos en entornos impersonales. Esto deja una brecha entre la evaluación y el despliegue, donde se espera que los asistentes personales trabajen en la totalidad de la vida digital del usuario, incluyendo su contexto, datos históricos y cuentas iniciadas. Esta brecha es más amplia en tareas web, donde las evaluaciones en vivo no pueden ejercitar sitios que requieren inicio de sesión o información personal, el tipo de sitio que un asistente personal real debe manejar. Presentamos MyPCBench, que prueba agentes de uso computacional como asistentes personales en un escritorio Linux poblado con 17 aplicaciones web simuladas del mundo real y una pila de escritorio completa, todas sembradas para una persona canónica, Michael Scott de The Office. Definimos 184 tareas en este entorno, cada una inspirada en una solicitud real extraída de la comunidad OpenClaw, y evaluamos seis modelos cerrados y de peso abierto con una superficie de herramientas uniforme de computadora+bash. Encontramos que el mejor modelo, Claude Opus 4.6, resuelve completamente el 55.4% de las tareas, el único modelo por encima del 50%. Los fallos de los modelos se agrupan en tareas que abarcan muchas aplicaciones y en trayectorias largas, donde la personalización exige más al asistente. Publicamos el entorno, el conjunto de tareas y el arnés de agente en https://mypcbench.com.
Un agente telefónico útil debe ser inteligente a nivel personal. Debe razonar sobre la identidad, el historial y las preferencias del usuario tal como existen en el dispositivo, no solo seguir instrucciones aisladas en un entorno aislado e impersonal. Los benchmarks existentes para agentes móviles carecen de este tipo de personalización. Presentamos iOSWorld, el primer benchmark interactivo de simulador nativo de iOS construido en torno a una identidad de usuario persistente que abarca 26 aplicaciones iOS recién creadas. Estas aplicaciones contienen datos conectados, como transacciones, mensajes, registros de viajes, relaciones sociales y actividad financiera. iOSWorld incluye 133 tareas en tres categorías de dificultad creciente. Las tareas de una sola aplicación (27) prueban una aplicación, las tareas de múltiples aplicaciones (60) abarcan de 2 a 8 aplicaciones, y las tareas de memoria y personalización (46) requieren que los agentes infieran patrones a partir de datos personales. Evaluamos modelos de uso de computadora de frontera y de código abierto en configuraciones de solo visión y visión+XML privilegiada. La mejor configuración alcanza un 52% en general, pero solo un 37% en tareas de múltiples aplicaciones. El acceso privilegiado a visión+XML mejora los modelos de frontera hasta en 26 puntos porcentuales, mientras que los modelos más pequeños no se benefician de la entrada adicional del árbol de accesibilidad. Publicamos iOSWorld como un benchmark de código abierto con todas las aplicaciones, datos semilla, tareas, rúbricas y código de evaluación.
Productos industriales como válvulas y disyuntores se definen mediante especificaciones técnicas densas que rigen la adquisición, compatibilidad y seguridad a lo largo de las cadenas de suministro. Estas especificaciones están dispersas en múltiples imágenes de producto heterogéneas, incluyendo tablas de especificaciones, placas de identificación y planos técnicos; sin embargo, aún no se ha explorado si los Modelos de Lenguaje Grandes Multimodales (MLLMs) pueden recuperarlas de manera fiable. Para llenar este vacío, presentamos IndustryBench-MIPU, el primer punto de referencia a gran escala para la comprensión multiimagen de productos industriales, construido en torno a la extracción estructurada de atributos — recuperación de pares propiedad-valor a partir de imágenes de producto. Esta tarea evalúa conjuntamente el reconocimiento de texto en tablas de especificaciones y placas de identificación, el razonamiento visual sobre planos técnicos, el conocimiento del dominio para decodificar terminología industrial y la integración de evidencia entre imágenes para ensamblar especificaciones dispersas. Concretamente, el punto de referencia comprende 4,559 productos a lo largo de 27,652 imágenes con 103,703 anotaciones que abarcan 18 categorías industriales, construido mediante consenso multimodelo y garantía de calidad de tres niveles. La evaluación de nueve MLLMs bajo configuraciones tanto de imagen única como multiimagen a nivel de producto revela una marcada brecha de completitud: los modelos alcanzan una alta precisión (86–94%), pero el mejor recupera solo el 49.9% de los atributos a nivel de producto; pasar de la extracción con una sola imagen a la extracción multiimagen cuesta entre 15 y 34 puntos porcentuales de exhaustividad. La completitud multiimagen, no la precisión con una sola imagen, es el cuello de botella principal. El conjunto de datos y el código están disponibles públicamente.
Demostramos que la base estándar de los estados ocultos de los transformadores ya proporciona una base de características sin entrenamiento y de arquitectura general. Las dimensiones individuales codifican contenido semántico mediante sus signos (+/-1) y confianza mediante sus magnitudes, actuando como registros binarios independientes; una característica es un subconjunto de dimensiones con un patrón de signos consistente, que se lee contando acuerdos de signo sin una rotación aprendida. Validamos este marco de *Bag of Dims* en siete modelos que abarcan lenguaje (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), visión (DINOv2, ViT-Base) y audio (AST). Los signos por sí solos contienen contenido predictivo: los patrones de signos con magnitud unitaria preservan entre el 60-93% de la precisión del siguiente token en top-5 a través de la cabeza del modelo de lenguaje, y la puntuación de Hamming sin decodificador alcanza el 80-90% en top-4096. Desde una caché de un solo token (un pase directo por token, sin contexto, sin etiquetas), detectamos 175 categorías con un AUC de 0.97-0.99 mediante acuerdo de signos; una sonda entrenada añade solo +0.018 de AUC y converge a pesos alineados con los ejes. Estas características son operativas causalmente: sobreviven a las proyecciones de atención K/V, se remontan a las coaliciones de neuronas FFN que las escriben (los controles de pesos aleatorios nunca las reproducen), y al invertir los signos de una característica durante el pase directo en vivo se suprime su concepto en cuatro modelos de lenguaje, con magnitud emparejada y especificidad de concepto. Las dimensiones permanecen independientes en todo momento (información mutua por pares por debajo de 0.006 bits). La estructura no es específica del lenguaje: los mismos signos por dimensión aparecen en visión autosupervisada (DINOv2, 9/12 superclases de ImageNet), visión supervisada (ViT-Base, 11/12) y audio (AST, 50/50 categorías de ESC-50), por lo que refleja el entrenamiento de transformadores en general, no el objetivo de modelado del lenguaje. La base estándar ya es suficiente para la lectura de características en un solo pase directo, sin optimización, sin días de GPU. El problema abierto pasa de encontrar la rotación correcta a catalogar qué codifica cada dimensión.
Herramientas creativas de edición de imágenes, como los botones Eliminar o Relleno Generativo de Photoshop, son fundamentales para el uso cotidiano de los clientes y representan una gran parte del tráfico en Photoshop y Lightroom. Sin embargo, los modelos actuales de IA generativa enfrentan desafíos significativos de latencia, que se vuelven aún más pronunciados al pasar de U-Nets basadas en convolución a Transformadores de Difusión (DiTs). En nuestra evaluación de cientos de muestras representativas de edición de imágenes que abarcan una amplia gama de proporciones de máscara, el módulo DiT por sí solo representa en promedio el 73% de la latencia total del modelo, incluso después de ser destilado de 50 pasos de tiempo a 8 pasos de tiempo. Para abordar este desafío, proponemos HiLo-Token, un marco de compresión de tokens adaptativo a la entrada que asigna más presupuesto de tokens a regiones de alta frecuencia y contexto rico, mientras asigna menos tokens a áreas de baja frecuencia. Específicamente, para la región de edición especificada por la máscara del usuario, retenemos todos los tokens dentro de una máscara dilatada para preservar una fuerte localidad y relevancia contextual. Fuera de la región de edición, introducimos una estrategia simple pero efectiva de selección de tokens de alta frecuencia basada en la frecuencia espacial para capturar detalles locales importantes, mientras que usamos tokens de una imagen submuestreada 16x para representar componentes de baja frecuencia y preservar la estructura global pero borrosa. Extensos experimentos en datos de evaluación a nivel de producción validan la efectividad del método propuesto, logrando aceleraciones de DiT de 3.13x, 2.59x y 1.67x en A100-80GB para tareas de edición de imágenes en categorías de proporción de máscara pequeña, mediana y grande con proporciones promedio de 6.38%, 15.92% y 35.36%, respectivamente, sin ninguna regresión en la calidad de generación.
El auto-destilación on-policy (OPSD) entrena un modelo en sus propios rollouts y emplea una copia congelada para proporcionar objetivos densos a nivel de token condicionados a un objetivo de referencia. Este método funciona bien para el razonamiento de modelos de lenguaje grandes (LLMs), pero una extensión directa a modelos de lenguaje grandes multimodales (MLLMs) puede crear un atajo: el objetivo privilegiado podría guiar los tokens principalmente a partir del objetivo de referencia textual y no de la imagen. Proponemos ViGOS, un marco OPSD con anclaje visual para el post-entrenamiento de MLLMs. El estudiante primero escribe una descripción visual y luego razona hacia la respuesta final. Para rollouts válidos, un maestro de percepción solo de imagen supervisa la descripción, mientras que un maestro de razonamiento privilegiado supervisa el razonamiento y la respuesta final sobre el mismo prefijo del estudiante. Un maestro de referencia se utiliza únicamente para rollouts inválidos con el fin de recuperar el formato de salida. En puntos de referencia de visión y lenguaje general, razonamiento experto, matemáticas visuales, anclaje espacial y prioridades de lenguaje visual, ViGOS conserva los principales beneficios de OPSD y mejora el comportamiento anclado en imágenes en entornos propensos a atajos.
El turco es una lengua aglutinante: el significado se transmite mediante morfemas, pero los tokenizadores de subpalabras que impulsan los modelos lingüísticos modernos dividen las palabras según estadísticas del corpus, fragmentando sufijos con carga semántica y —en el caso de WordPiece y los analizadores basados en reglas— sin poder decodificar su salida de vuelta al texto original. Este artículo presenta Morpheus, un modelo neuronal de límites de morfemas para turco que es, a la vez, un tokenizador sin pérdida y consciente de la morfología, y un productor de incrustaciones de palabras. Un programa dinámico diferenciable de Poisson-binomial convierte las probabilidades de límite por carácter en pertenencias suaves a morfemas durante el entrenamiento y en segmentos exactos en la inferencia, sin necesidad de normalización de cadenas, de modo que decode(encode(w)) = w se cumple por construcción. Al ser un modelo neuronal, el mismo pase hacia adelante que tokeniza también emite una incrustación de palabras estructurada. Entre los tokenizadores reversibles —los únicos válidos para generación—, Morpheus consigue el menor número de bits por carácter (1,425), aproximadamente duplica la alineación morfológica de referencia de la familia de subpalabras (MorphScore macro-F1 0,61 frente a ~0,32) y utiliza ~19% menos de memoria de GPU que los tokenizadores de subpalabras con vocabulario de 64K. Como incrustador, los vectores congelados de Morpheus lideran en recuperación léxica (MAP de familia de raíces 0,85) y verificación de misma raíz (ROC-AUC 1,00), superando al recuperador multilingüe BGE-M3 y a BERTurk; en tareas dependientes del contexto y la flexión (NER, sondas de caso/número), los codificadores contextuales más pesados siguen siendo superiores —una compensación que atribuimos a la geometría centrada en la raíz de Morpheus. Código: https://github.com/lonewolf-rd/TurkishMorpheus; modelo: https://huggingface.co/lonewolflab/Morpheus-TR-50K; demo interactiva: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.
A pesar del creciente interés, la mayoría de las evaluaciones de las capacidades de personalización de los modelos de lenguaje de gran escala (LLMs) se han basado en datos sintéticos. No está claro cómo funcionan los sistemas de personalización actuales para usuarios reales. En este artículo, estudiamos la brecha en el rendimiento de personalización de los LLMs al usar datos sintéticos frente a datos humanos. Recopilamos conversaciones humanas (550 conversaciones) y juicios en tres etapas de la personalización: extraer atributos del usuario a partir de conversaciones (5.949 juicios), emparejar atributos relevantes con nuevas indicaciones (11.919) e incorporar atributos relevantes en una respuesta personalizada (1.101). La incorporación de datos humanos revela limitaciones del sistema en cada etapa. Los modelos tienen dificultades para extraer atributos de conversaciones humanas, discrepan de los juicios humanos sobre atributos relevantes y generan respuestas personalizadas que los humanos consideran no mejores que las respuestas genéricas (aunque los LLMs las valoran ampliamente como superiores). Introducimos dos intervenciones ligeras basadas en entrenamiento que acercan la evaluación automatizada de personalización a los datos humanos en nuestras dos primeras etapas. Sin embargo, en nuestra tercera etapa encontramos que los modelos de recompensa aprendidos logran solo una correlación modesta con las valoraciones humanas, lo que sugiere que los juicios de calidad de personalización alineados con humanos son difíciles de modelar directamente. Nuestros datos recopilados proporcionan una base para estudiar cómo los modelos deberían extraer, seleccionar e incorporar información del usuario de maneras que los humanos consideren útiles.
La finalización predictiva de código acelera enormemente la rapidez con la que trabajan los desarrolladores. En las hojas de cálculo, a pesar de ser mucho más comunes, estas funciones de autocompletado son prácticamente inexistentes. Para abordar esta brecha, presentamos un punto de referencia para sistemas que observan una secuencia de acciones del usuario en una hoja de cálculo y predicen acciones futuras. Dos desafíos son (1) la ausencia de historiales de edición en corpus públicos de hojas de cálculo y (2) el espacio complejo de las acciones en hojas de cálculo (espacial, temporal, compuesto). Para abordar (1), curamos manualmente 52 secuencias de 12.000 acciones que recrean hojas de cálculo a partir de corpus públicos, iniciadas mediante heurísticas parametrizadas y refinamiento con LLM. Para abordar (2), proponemos una evaluación en línea que espera una predicción tras cada acción del usuario, acepta o rechaza dicha predicción, actualiza las acciones futuras si se acepta y repite este proceso hasta obtener la hoja de cálculo objetivo. Utilizamos múltiples predictores de referencia (incluyendo LLMs de cero disparos, SLMs ajustados finamente y modelos clásicos) y analizamos diferentes propiedades que nuestro punto de referencia nos enseña, entre las que se incluyen, pero no se limitan a: propiedades de las acciones guardadas y los falsos positivos, eficiencia, efecto de los perfiles de usuario, efecto de los desencadenantes y efecto del contexto.
Los sistemas robóticos perciben el mundo a través de múltiples modalidades de entrada, incluyendo flujos de cámara visual e instrucciones en lenguaje natural, y deben seleccionar acciones apropiadas basándose en estas señales. Sin embargo, asumir la disponibilidad permanente de todos los dispositivos de entrada es poco realista, ya que los sensores pueden fallar, ocluirse o desconectarse por completo durante el despliegue. Por lo tanto, el manejo robusto de estos escenarios de modalidad faltante es esencial para la operación robótica en el mundo real. Este artículo presenta RL4IL, un método guiado por aprendizaje por refuerzo para el aprendizaje por imitación que selecciona la acción más adecuada para una observación dada identificando las demostraciones de expertos más relevantes de una biblioteca de entrenamiento. Una política de aprendizaje por refuerzo, entrenada mediante Optimización de Política Proximal sobre conjuntos candidatos de Búsqueda en Anchura, clasifica las demostraciones candidatas y una cabeza de fusión de atención cruzada suave agrega sus señales de acción para producir la predicción final. Cuando una modalidad falta en el momento de la inferencia, una política de recuperación RL dedicada por modalidad identifica demostraciones donantes de la biblioteca de entrenamiento, y una cabeza de imputación suave reconstruye la incrustación faltante mediante atención cruzada sobre los donantes mejor clasificados, sin requerir ningún reentrenamiento del sistema. Los experimentos en tres conjuntos de referencia LIBERO demuestran que RL4IL supera sustancialmente a los métodos de aprendizaje por imitación de última generación en condiciones de desconexión de sensores, sin requerir entrenamiento de la red de políticas. El código se puede encontrar en https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.
La Función de Análisis de Datos de Red (NWDAF) es fundamental para habilitar la gestión de red sin intervención manual en redes de quinta generación (5G) al brindar soporte a análisis en tiempo real y automatización de bucle cerrado. A pesar de su papel crítico, las implementaciones de NWDAF de código abierto siguen siendo limitadas en alcance y accesibilidad. En este artículo, desarrollamos un NWDAF de código abierto, compatible con la red central de código abierto Free5GC, que recopila datos de red mediante suscripciones a Funciones de Red (NF) e incluye además una interfaz integrada de Modelo de Lenguaje Grande (LLM) que permite la interacción en lenguaje natural con operadores humanos. La interfaz procesa las intenciones del usuario, las codifica utilizando un modelo de incrustación semántica y las asigna a una de siete categorías de intenciones predefinidas para desencadenar consultas de análisis o comandos de suscripción a eventos. Esta arquitectura abstrae la complejidad de las interfaces tradicionales, permitiendo que usuarios no expertos gestionen con facilidad los análisis y las suscripciones de red. El sistema admite suscripciones a eventos de la Función de Acceso y Gestión (AMF) y la Función de Gestión de Sesiones (SMF), monitorización en tiempo real y recuperación de análisis a través de Prometheus, todo accesible mediante una interfaz conversacional. Al unir el reconocimiento de intenciones impulsado por IA con el análisis de red estandarizado, nuestra implementación mejora la usabilidad del operador y proporciona una base hacia las redes 6G nativas de IA. El código fuente y los conjuntos de datos generados durante el presente estudio están disponibles en el repositorio de GitHub: https://github.com/HenokDanielbfg/testbed.