HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

36 papers found

Más Allá de la Observación Actual: Evaluación de Modelos de Lenguaje Grandes Multimodales en Juegos No-Markovianos Controlables
Beyond the Current Observation: Evaluating Multimodal Large Language Models in Controllable Non-Markov Games

Jun 17

ByShengyuan Ding, Xilin Wei, Xinyu Fang, Haodong Duan, Dahua Lin, Jiaqi Wang, Yuhang Zang

Desplegar modelos fundacionales multimodales como políticas de lazo cerrado requiere cada vez más condicionar las acciones en observaciones que ya no son visibles. Sin embargo, los puntos de referencia existentes exponen el estado completo, combinan la reconstrucción del estado oculto con otras habilidades del agente, o evalúan el recuerdo solo después de que un episodio ha finalizado. Presentamos RNG-Bench (Reconstructive Non-Markov Games), una suite de pruebas diseñada para aislar la capacidad de un modelo base de reconstruir observaciones pasadas y actuar sobre ellas durante una interacción de múltiples pasos. RNG-Bench incluye dos juegos complementarios: Matching Pairs, donde se deben recordar identidades de cartas brevemente reveladas en ubicaciones específicas, y 3D Maze, donde las vistas egocéntricas deben integrarse en un mapa espacial. Ambos juegos se evalúan bajo un sistema unificado con tres ejes de dificultad controlados: tamaño de la cuadrícula, patrón visual y modalidad de observación. El punto de referencia introduce además un protocolo de duelo cara a cara para controlar la varianza a nivel de instancia y una métrica de Brecha de Memoria que separa el olvido de una mala selección de acciones. Las configuraciones más difíciles requieren contextos de aproximadamente 128K tokens y 350 entradas de imagen por episodio, y permanecen lejos de estar saturadas por los MLLMs de frontera. El análisis de la Brecha de Memoria muestra que la mayoría de los errores residuales provienen del olvido de observaciones anteriores, más que de una toma de decisiones subóptima. Finalmente, el ajuste fino de Qwen3.5-9B en despliegues de política óptima y demostraciones de modelo filtradas mejora el rendimiento en RNG-Bench y se transfiere a benchmarks existentes sin degradar la capacidad multimodal general.

MolmoMotion: Predicción de trayectorias de puntos en 3D mediante instrucciones de lenguaje
MolmoMotion: Forecasting Point Trajectories in 3D with Language Instruction

Jun 17

ByJianing Zhang, Chenhao Zheng, Yajun Yang, Max Argus, Rustin Soraki, Winson Han, Taira Anderson, Chun-Liang Li, Shuo Liu, Jiafei Duan, Zhongzheng Ren, Jieyu Zhang, Ranjay Krishna

La predicción de movimiento es central para la inteligencia visual: los agentes deben anticipar cómo se moverán los objetos para planificar acciones, razonar sobre interacciones físicas y sintetizar futuros realistas. Sostenemos que los puntos 3D en coordenadas del mundo proporcionan una representación general que es independiente de la clase, estable ante cambios de vista, compacta y directamente útil para tareas posteriores. Formalizamos la tarea de predicción de movimiento de puntos 3D condicionada por objetivos: dada una breve historia visual, un conjunto de puntos de consulta 3D sobre un objeto de interés y una descripción en lenguaje del objetivo previsto, el modelo predice la trayectoria 3D futura de cada punto. Presentamos un conjunto completo para estudiar esta tarea a escala: (1) MolmoMotion-1M es un corpus amplio de trayectorias de puntos 3D ancladas en objetos y descritas mediante acciones, anotado a partir de 1,16 millones de videos sin restricciones; (2) PointMotionBench es un punto de referencia verificado por humanos que abarca 111 categorías de objetos y 61 tipos de movimiento; y (3) MolmoMotion es un modelo general de predicción de movimiento que admite tanto la predicción autorregresiva de coordenadas como la generación de trayectorias basada en coincidencia de flujo. MolmoMotion predice con precisión diversos patrones de movimiento con diferentes instrucciones en lenguaje, y supera significativamente a los modelos de predicción de movimiento existentes en PointMotionBench. Finalmente, mostramos que el prior de movimiento 3D aprendido se transfiere bien a aplicaciones posteriores: mejora la eficiencia de entrenamiento y la generalización en manipulación robótica, y sus trayectorias predichas proporcionan una guía de movimiento efectiva para que los modelos generativos sinteticen videos con movimientos de objetos más realistas.

Kairos: Un Stack de Modelo del Mundo Nativo para IA Física
Kairos: A Native World Model Stack for Physical AI

Jun 16

ByKairos Team, Fei Wang, Shan You, Qiming Zhang, Tao Huang, Zuoyi Fu, Zhisheng Zheng, Yunlong Xi, Feng Lv, Xiaoming Wu, Zeyu Liu, Cong Wan, Pu Li, Ruiqing Yang, Xiaoou Li, Wei Wang, Kangkang Zhu, Yuwei Zhang, Shi Fu, Zheng Zhang, Xiaoning Wu, Xuzeng Fan, Dacheng Tao, Xiaogang Wang

Los modelos del mundo están evolucionando de generadores visuales pasivos a infraestructuras operativas fundamentales para la IA Física: deben adquirir conocimiento del mundo de forma nativa a partir de experiencia heterogénea, mantener estados persistentes en horizontes prolongados y ejecutarse eficientemente dentro de las restricciones del despliegue real. Presentamos Kairos, una pila nativa de modelos del mundo diseñada en torno a estos requisitos. (1) Kairos aprende el mundo mediante un paradigma pionero de preentrenamiento nativo gobernado por un currículo de datos entre cuerpos, que organiza vídeos del mundo abierto, datos de comportamiento humano e interacciones robóticas en una trayectoria de desarrollo progresiva. (2) Kairos mantiene el mundo mediante una comprensión, generación y predicción unificadas del mundo dentro de una arquitectura nativa unificada equipada con Atención Temporal Lineal Híbrida, donde la atención de ventana deslizante captura la dinámica local, las ventanas deslizantes dilatadas capturan dependencias de rango medio y la atención lineal con puerta mantiene una memoria global persistente. Establecemos cotas teóricas formales que demuestran que esta factorización temporal limita estrictamente la acumulación de errores, garantizando matemáticamente la propagación del estado a través de horizontes extendidos. (3) Kairos ejecuta el mundo incorporando un codiseño de sistema consciente del despliegue para soportar la generación de despliegues de baja latencia en hardware de servidor y de consumo para bucles reales de observación-acción-retroalimentación. Los experimentos en modelos del mundo encarnados, horizontes prolongados y puntos de referencia de políticas de acción muestran que Kairos alcanza un rendimiento de primer nivel al tiempo que ofrece un sólido equilibrio entre eficiencia y capacidad. En conjunto, estos resultados posicionan a Kairos como una base operativa cohesiva para la futura inteligencia física auto evolutiva.

Guava: Un Arnés Efectivo y Universal para la Manipulación Corporeizada
Guava: An Effective and Universal Harness for Embodied Manipulation

Jun 16

ByHaowen Liu, Xirui Li, Shaoxiong Yao, Peng Shi, Tianyi Zhou, Jia-Bin Huang, Furong Huang, Jiayuan Mao

Los modelos de lenguaje entrenados con datos visuales y lingüísticos a gran escala han demostrado un gran potencial para los agentes encarnados. Aprovechar estos modelos mediante el uso de herramientas encarnadas ofrece una alternativa prometedora a los sistemas integrados de visión-lenguaje-acción, combinando razonamiento de alto nivel con módulos externos para percepción, planificación y control. Sin embargo, aún no está claro qué constituye un marco de aprovechamiento eficaz para la manipulación encarnada, ni hasta qué punto dicho marco puede desbloquear capacidades encarnadas en una amplia gama de modelos de razonamiento. En este trabajo presentamos Guava, un marco de aprovechamiento para el uso de herramientas encarnadas desarrollado mediante la exploración sistemática del espacio de diseño de flujos de trabajo de agentes, espacios de acción y espacios de observación. Nuestro estudio identifica tres ingredientes clave para agentes encarnados eficaces: bucles iterativos de percepción-razonamiento-acción, abstracciones semánticas de acciones y observaciones multimodales. Para comprender si estos principios de diseño son universales incluso para modelos pequeños, desarrollamos un canal de entrenamiento integral que destila capacidades de manipulación encarnada en un modelo de código abierto de 4B utilizando menos de 2.000 trayectorias recolectadas enteramente en simulación. Los resultados experimentales tanto en entornos simulados como reales muestran un rendimiento comparable al de modelos propietarios de vanguardia, al tiempo que exhiben una sólida generalización a objetos no vistos, instrucciones novedosas y tareas de largo horizonte. Los resultados sugieren que un marco de aprovechamiento bien diseñado puede servir como interfaz escalable e independiente del modelo para la manipulación encarnada, permitiendo capacidades encarnadas emergentes sólidas en modelos compactos de código abierto con datos de entrenamiento mínimos.

La recompensa siempre estuvo en tus datos: Corrección del emparejamiento de flujo con RL guiado por discriminador
The Reward Was in Your Data All Along: Correcting Flow Matching with Discriminator-Guided RL

Jun 17

ByNicolas Beltran-Velez, Felix Friedrich, Zhang Xiaofeng, Reyhane Askari-Hemmat, Xiaochuang Han, Adriana Romero-Soriano, Michal Drozdzal

Los modelos de coincidencia de scores y flujos a menudo recurren al aprendizaje por refuerzo basado en preferencias con dos propósitos: alinearse con preferencias subjetivas y, sorprendentemente, recuperar propiedades como el realismo visual y la estructura coherente de objetos que el entrenamiento basado en coincidencias pretende aprender de los propios datos. Sostenemos que esto refleja un desajuste estructural. Las funciones de pérdida por coincidencia miden el error de regresión $ \ell_2 $ sobre el campo de velocidad o score bajo las marginales de tiempo de entrenamiento, un proxy poco alineado con las propiedades visuales y semánticas que determinan la calidad de las muestras en inferencia. Dada una recompensa alineada con estas propiedades, el RL evita el desajuste al evaluar el modelo en sus propias muestras y seguir directamente el panorama de recompensas. El desafío radica en obtener tal recompensa sin depender de preferencias humanas, que son costosas y confunden el realismo de los datos con las inclinaciones del anotador. Proponemos el RL Guiado por Discriminador (DRL). DRL entrena un discriminador para separar los datos de las muestras del modelo base en un espacio de representación preentrenado y utiliza su logit como recompensa en el RL regularizado con KL. El espacio preentrenado restringe el discriminador a direcciones perceptuales significativas, y el logit estima el cociente de log-verosimilitud entre los datos y el modelo, que es la recompensa óptima para apuntar a la distribución de datos. En SiT, JiT, REPA y RAE, DRL reduce el FID sin guía (p. ej., de 9.38 a 2.62 en SiT) y el FD en espacio semántico (p. ej., de 88.2 a 19.3 en DINOv3 para SiT), con mejoras consistentes en todos los backbones, y mejora las recompensas de preferencia humana sin entrenarse en ellas. También produce una mejor frontera de Pareto entre la recompensa de preferencia y la fidelidad de la imagen bajo un posterior post-entrenamiento basado en preferencias, aumentando la alineación y reduciendo artefactos de bajo nivel como la sobresaturación y el brillo excesivo.

EfficientRollout: Decodificación Auto-Especulativa Consciente del Sistema para Rollouts de RL
EfficientRollout: System-Aware Self-Speculative Decoding for RL Rollouts

Jun 17

ByMinseo Kim, Minjae Lee, Seunghyuk Oh, Kevin Galim, Donghoon Kim, Coleman Hooper, Harman Singh, Amir Gholami, Hyung Il Koo, Wonjun Kang

El aprendizaje por refuerzo (RL) se ha convertido en un paradigma representativo de posentrenamiento para los modelos de lenguaje grandes (LLMs), permitiendo capacidades sólidas de razonamiento y agencia. Sin embargo, la generación de *rollouts* sigue siendo un cuello de botella de latencia dominante, ya que el muestreo autorregresivo decodifica respuestas de manera secuencial y un pequeño número de generaciones de cola larga a menudo determina el tiempo de finalización. La decodificación especulativa (SD) ofrece una forma natural de abordar este cuello de botella, al ser una técnica consolidada para servir LLMs fijos que reduce la latencia mediante la generación rápida de *tokens* y su aceptación a través de verificación paralela, preservando la distribución del modelo objetivo. Sin embargo, sus aceleraciones prácticas no se trasladan directamente a los *rollouts* de RL: (i) la política objetivo en evolución hace que cualquier generador de borradores fijo presente una falta de correspondencia creciente con la distribución de salida de la política; y (ii) los tamaños de lote activo se reducen durante la decodificación de *rollouts*, desplazando la decodificación de regímenes con limitación computacional a regímenes con limitación de memoria, donde la verificación paralela puede explotar la computación infrautilizada. Por lo tanto, acelerar los *rollouts* de RL requiere tanto un generador de borradores que siga siendo eficaz bajo generaciones largas y de alta temperatura a partir de una política en evolución, como un uso consciente del sistema de SD que evite los regímenes con limitación computacional. Presentamos EfficientRollout, un marco de autodecodificación especulativa (self-SD) consciente del sistema diseñado para abordar esta brecha en los *rollouts* de RL. EfficientRollout induce un generador de borradores cuantizado a partir del modelo objetivo (es decir, autodecodificación especulativa), manteniéndolo acoplado a la política en evolución sin necesidad de entrenamiento previo separado del generador de borradores ni de adaptación en línea. Además, coordina una política de conmutación de SD consciente del sistema con una adaptación de la longitud del borrador consciente de la aceptación, permitiendo la especulación solo en regímenes beneficiosos mientras ajusta el presupuesto de generación de borradores a la calidad cambiante del generador. EfficientRollout reduce la latencia de *rollout* y de extremo a extremo hasta en un 19,6 % y un 12,7 %, respectivamente, en comparación con una línea base de *rollout* autorregresivo acelerada, preservando al mismo tiempo la calidad final del modelo.

Las intervenciones SAE no son fiables: recuperación posterior a la intervención del comportamiento suprimido
SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

Jun 16

ByMingyue Cui, Linghui Shen, Xingyi Yang

Los Autoencoders Dispersos (SAEs) descomponen las activaciones del flujo residual en características interpretables. Las defensas recientes en el espacio latente dependen cada vez más de estas descomposiciones, asumiendo que las características SAE identificadas como "inseguras" sirven como manejadores viables para la monitorización e intervención. En este paradigma, se espera que la supresión de una característica dañina específica impida de manera fiable el mal comportamiento del modelo. Sin embargo, demostramos que este éxito puede ocultar un modo de fallo recuperable: la supresión puede bloquear una ruta visible hacia un comportamiento sin eliminar el comportamiento en sí. Formulamos esta vulnerabilidad como recuperación post-intervención, un problema de optimización en el espacio residual restringido. Partiendo del estado residual post-intervención, optimizamos las perturbaciones residuales para recuperar el comportamiento previo a la intervención mientras preservamos los valores post-intervención de las características SAE objetivo. Incluso bajo un modelo de amenaza severo donde la intervención permanece activa durante toda la optimización y generación, la recuperación sigue siendo posible. Para descartar que la recuperación simplemente deshaga la intervención, utilizamos actualizaciones ortogonales al codificador para intervenciones en una sola capa y el jacobiano del mapa de características correspondiente en el contexto multicapa. A través de experimentos de TPP, desaprendizaje, IOI y control de rechazo, esta prueba de estrés revela un comportamiento recuperable a pesar de una intervención exitosa a nivel de características. Particularmente en el entorno crítico de seguridad del control de rechazo, logramos una tasa de recuperación del 95.8% en muestras válidas, manteniendo una deriva relativa de la característica defendida en 0.131, sustancialmente por debajo de las líneas base basadas en sufijos. Un análisis de atribución de la ruta de recuperación localiza aún más esta recuperación en el residual de reconstrucción del SAE, el componente que el SAE deja sin explicar. Estos resultados exponen una brecha entre el control a nivel de características y la completitud conductual: las características del SAE pueden respaldar la intervención causal, pero controlarlas no garantiza el control sobre el comportamiento subyacente.

De aprendiz a entrenador: entorno de entrenamiento diseñado por LLM para RL con razonamiento multiagente
From Trainee to Trainer: LLM-Designed Training Environment for RL with Multi-Agent Reasoning

Jun 16

ByChao Chen, Chengzu Li, Zhiwei Li, Yinhong Liu, Zhijiang Guo

Los pipelines de aprendizaje por refuerzo para el entrenamiento de modelos de lenguaje grande (LLM) a menudo dependen de entornos rediseñados manualmente entre etapas, lo que obliga a los profesionales a inferir heurísticamente qué configuración mejorará la política actual. Para automatizar este proceso, proponemos el marco LLM-as-Environment-Engineer, en el cual el modelo de política actual analiza trayectorias de fallo junto con información contextual y propone modificaciones a la configuración del entorno de entrenamiento de la siguiente etapa. También introducimos MAPF-FrozenLake, un banco de pruebas controlable cuyo generador expone configuraciones del entorno multidimensionales, lo que lo hace adecuado para estudiar y evaluar el rediseño de entornos. En este banco de pruebas, condicionamos al ingeniero de entorno a resúmenes estructurados del comportamiento de la política, casos de fallo y estadísticas del entorno, a partir de los cuales produce la configuración para la siguiente etapa de entrenamiento. Con Qwen3-4B como modelo base, nuestro marco logra el rendimiento agregado más sólido en nuestros benchmarks, superando a modelos LLM propietarios más grandes (p. ej., GPT, Gemini) y a las líneas base de entrenamiento con entorno fijo. Además, analizamos qué formas de contexto son más efectivas, descubriendo que las actualizaciones exitosas del entorno dependen de evidencia de fallos y preservan configuraciones que ya funcionan. Curiosamente, el punto de control actual de RL funciona mejor como ingeniero de entorno que el modelo base original, lo que sugiere que el aprendizaje de la política mejora la capacidad del modelo para diagnosticar sus debilidades restantes.

Reforzamiento del razonamiento de doble vía en modelos de lenguaje de visión espacial
Reinforcing Dual-Path Reasoning in Spatial Vision Language Models

Jun 16

ByYatai Ji, An-Chieh Cheng, Yang Fu, Yukang Chen, Han Zhang, Zhaojing Yang, Wei Huang, Ka Chun Cheung, Song Han, Vidya Nariyambut Murali, Pavlo Molchanov, Jan Kautz, Simon See, Hongxu Yin, Ping Luo, Sifei Liu

Los VLM espaciales han logrado avances sustanciales en la percepción geométrica, pero el razonamiento espacial complejo que requiere inferencia de múltiples pasos sobre profundidad, distancia y relaciones de escena sigue siendo un desafío. Además, diferentes consultas espaciales requieren estrategias fundamentalmente distintas: algunas se abordan mejor mediante deducción puramente lingüística paso a paso, mientras que otras necesitan un anclaje 3D explícito antes de la inferencia cuantitativa. Presentamos el Razonamiento Espacial de Doble Vía mediante Aprendizaje por Refuerzo para VLM Espaciales (SR-REAL), un marco unificado que dota a un VLM espacial con dos vías de razonamiento complementarias: Razonamiento Solo Lingüístico (LOR), que realiza deducciones lingüísticas paso a paso, y Detectar-Luego-Razonar (DTR), que detecta señales geométricas 3D (por ejemplo, centros o cuadros delimitadores) mediante tokens de región antes de la inferencia geométrica explícita. SR-REAL comienza con una etapa de ajuste fino supervisado de arranque en frío que construye supervisión de cadena de pensamiento para LOR y DTR y expone una interfaz región-a-3D, seguida de RL que optimiza el modelo de política con recompensas de precisión y formato; para DTR, una recompensa discreta de detección basada en centros refina aún más la alineación geométrica. En diversos puntos de referencia espaciales, SR-REAL supera significativamente a las líneas base de VLM espaciales: (i) un solo modelo entrenado con RL admite ambas vías de razonamiento, destacando DTR en tareas conscientes de región mediante localización 3D precisa y LOR mejorando el razonamiento espacial general; (ii) el entrenamiento conjunto de ambas vías fomenta el refuerzo mutuo; (iii) los datos de arranque en frío mezclados y de alta calidad son cruciales para una optimización estable de RL; y (iv) el modelo se generaliza a través de conjuntos de datos y dominios sin ajuste por tarea, demostrando transferencia positiva entre LOR y DTR.

Confía en el maestro correcto: autodestilación consciente de la calidad para el anclaje en GUI
Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding

Jun 16

ByJingyuan Huang, Zuming Huang, Yucheng Shi, Tianze Yang, Xiaoming Zhai, Wei Chu, Ninghao Liu

El anclaje de interfaces gráficas de usuario (GUI) requiere que los modelos de visión y lenguaje (VLM) identifiquen pequeños elementos objetivo en capturas de pantalla de alta resolución y predigan coordenadas precisas de la pantalla. La autodestilación en política (OPSD) es un enfoque prometedor de post-entrenamiento para esta tarea sensible a coordenadas, ya que proporciona señales densas del profesor a nivel de token más allá de las etiquetas de coordenadas duras. Sin embargo, la OPSD ingenua no es adecuada para el anclaje de GUI: la OPSD evalúa al profesor en prefijos generados por el estudiante; la calidad de las señales del profesor para los tokens de coordenadas puede degradarse cuando el prefijo ya se ha desviado de la coordenada objetivo, lo que lleva a una señal del profesor poco fiable. Para mitigar esto, proponemos la autodestilación consciente de la calidad para el anclaje de GUI basado en VLM, que mejora la calidad de la señal del profesor para los tokens de coordenadas mediante un control suave consciente de la corrección y un escalado de la probabilidad del profesor. El control suave consciente de la corrección verifica si la predicción actual del profesor para el token de coordenadas aún puede completarse para formar la caja de verdad fundamental bajo el prefijo generado por el estudiante. Si no es así, la señal correspondiente del profesor se reduce. El escalado de la probabilidad del profesor utiliza entonces la confianza del profesor como un factor ligero para calibrar aún más la fuerza de la supervisión controlada. Un hallazgo empírico clave es que ninguno de los componentes por sí solo mejora el rendimiento general, mientras que combinarlos lo mejora consistentemente. Esto sugiere que los dos mecanismos desempeñan roles complementarios: el control consciente de la corrección suprime la supervisión no fiable de los tokens de coordenadas, mientras que el escalado de la probabilidad del profesor calibra la fuerza de las señales restantes. Los experimentos en seis puntos de referencia de anclaje de GUI muestran que nuestro método mejora consistentemente el modelo base y supera a las líneas base sólidas.

Percepción activa nativa como razonamiento para la comprensión omni-modal
Native Active Perception as Reasoning for Omni-Modal Understanding

Jun 17

ByZhenghao Xing, Ruiyang Xu, Yuxuan Wang, Jinzheng He, Ziyang Ma, Qize Yang, Yunfei Chu, Jin Xu, Junyang Lin, Chi-Wing Fu, Pheng-Ann Heng

Los modelos pasivos para la comprensión de videos largos típicamente se basan en un paradigma de "ver todo", procesando fotogramas de manera uniforme independientemente de la dificultad de la consulta, lo que provoca que el costo computacional crezca con la duración del video. Aunque han surgido marcos interactivos, a menudo dependen de un pre-escaneo global, y su costo de contexto sigue escalando con la longitud del video. Proponemos OmniAgent, el primer agente omni-modal nativo que formula la comprensión de videos como un ciclo iterativo de Observación-Pensamiento-Acción basado en POMDP. OmniAgent ejecuta acciones bajo demanda para destilar selectivamente señales audiovisuales en una memoria textual persistente, desacoplando efectivamente la complejidad del razonamiento de la duración bruta del video. Para operacionalizar esto, introducimos (1) el Ajuste Fino Supervisado Agéntico para arrancar la percepción activa nativa mediante síntesis de trayectorias best-of-N con control de calidad de doble etapa, y (2) el Aprendizaje por Refuerzo Agéntico con TAURA (Ventaja Re-escalada por Incertidumbre Adaptativa con Conciencia de Turno), que aprovecha la entropía a nivel de turno para dirigir la asignación de crédito hacia turnos de descubrimiento cruciales. De manera crucial, OmniAgent exhibe un escalado positivo en tiempo de prueba, donde el rendimiento mejora a medida que aumenta el número de turnos de razonamiento, validando la eficacia de la percepción activa. Los resultados empíricos en diez puntos de referencia (p. ej., VideoMME, LVBench) demuestran que OmniAgent alcanza un rendimiento de última generación entre los modelos de código abierto. Notablemente, en LVBench, nuestro agente de 7B supera al Qwen2.5-VL-72B, que es 10 veces más grande (50.5% frente a 47.3%).

STARE: Reponderación de ventajas a nivel de tokens guiada por sorpresa para la estabilidad de la entropía de la política
STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Jun 17

ByHaipeng Luo, Qingfeng Sun, Songli Wu, Can Xu, Wenfeng Deng, Han Hu, Yansong Tang

Los algoritmos de Aprendizaje por Refuerzo con Recompensas Verificables, como GRPO, han emergido como el paradigma dominante de post-entrenamiento para el razonamiento complejo en LLMs, pero comúnmente sufren de colapso de entropía de política durante el entrenamiento. Realizamos un análisis de gradiente de primer orden de la dinámica de entropía a nivel de token bajo GRPO e identificamos un desajuste en la asignación de crédito a nivel de token: la variación de entropía por token se descompone en el producto de la ventaja a nivel de trayectoria y una función de sensibilidad de entropía sobre la distribución del siguiente token, lo que produce una estructura de cuatro cuadrantes de ventaja-sorpresa y una propiedad de cuasi-criticalidad. Motivados por ello, proponemos STARE (reponderación de ventajas a nivel de token guiada por sorpresa para la estabilidad de la entropía de la política), que identifica subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresa internos al lote, repondera selectivamente sus ventajas efectivas e incorpora una compuerta de bucle cerrado de entropía objetivo para una regulación estable de la entropía. A través de escalas de modelo desde 1.5B hasta 32B y tres familias de tareas (CoT Corto, CoT Largo y Uso de Herramientas en Múltiples Turnos), STARE mantiene un entrenamiento de RL estable durante miles de pasos mientras mantiene la entropía de la política dentro de la banda objetivo. En AIME24 y AIME25, STARE supera a DAPO y otras líneas base competitivas en un 4%-8% en precisión promedio, con tokens de reflexión y longitud de respuesta creciendo en conjunto, lo que indica un equilibrio sostenido de exploración-explotación que desbloquea aún más el potencial del entrenamiento de RL. El código está disponible en https://github.com/hp-luo/STARE.

Sumi: Modelo de Lenguaje de Difusión Uniforme Abierto desde Cero
Sumi: Open Uniform Diffusion Language Model from Scratch

Jun 17

ByMengyu Ye, Keito Kudo, Wataru Ikeda, Ryosuke Matsuda, Keisuke Sakaguchi, Jun Suzuki

Los modelos de difusión se han convertido en una alternativa prometedora a los modelos autoregresivos. Entre ellos, los modelos de lenguaje de difusión uniforme (UDLMs) permiten actualizar cualquier token en cualquier paso, lo que en principio posibilita una generación más flexible. Sin embargo, ningún UDLM ha sido preentrenado desde cero a gran escala tanto en parámetros como en presupuesto de tokens. Tanto el modelado autoregresivo como el modelado de difusión enmascarada ya cuentan con modelos capaces a gran escala que la comunidad puede estudiar y sobre los cuales construir; la difusión uniforme carece de ello. Un UDLM preentrenado desde cero a escala proporcionaría un punto de referencia limpio para estudiar el comportamiento de escalado, las dinámicas de generación, la controlabilidad y las compensaciones frente a modelos autoregresivos y de difusión enmascarada ya establecidos. Con este fin, presentamos Sumi ("tinta" en japonés), un modelo de lenguaje de difusión uniforme de 7B completamente abierto, preentrenado desde cero con 1.5T tokens. Sumi se desempeña de manera competitiva con modelos autoregresivos entrenados con presupuestos de tokens comparables en pruebas de referencia de conocimiento, razonamiento y codificación, aunque muestra un rendimiento inferior en pruebas de referencia de sentido común, donde es probable que nuestra mezcla de datos con énfasis en contenido educativo sea un factor contribuyente. Publicamos los pesos de nuestro modelo, los puntos de control y la receta de entrenamiento completa, incluyendo una especificación detallada de la mezcla de datos sobre corpus disponibles públicamente. Esperamos que esta publicación permita a la comunidad estudiar la difusión uniforme nativa a gran escala y catalice el trabajo en sus aspectos aún poco comprendidos.

MaineCoon: En busca de un modelo de mundo social audiovisual en tiempo real
MaineCoon: Pursuing A Real-Time Audio-Visual Social World Model

Jun 16

ByLichen Bai, Tianhao Zhang, Shitong Shao, Dingwei Tan, Qiyu Zhong, Zhengpeng Xie, Haopeng Li, Qinghao Huang, Dandan Shen, Tengjiao Ji, Wei Wang, Peicheng Wu, Yuxuan Zhao, Xiangyu Zhu, Welly Luo, Shurui Yang, Zeke Xie

A medida que la mayoría creciente del contenido de video global se consume en plataformas sociales con fines interactivos, los modelos de generación de video diseñados para entornos sociales son importantes, pero han sido ampliamente ignorados por estudios previos. En este trabajo, definimos la posición de los modelos de mundo social y construimos un modelo prototipo como primer paso hacia este objetivo. Mientras que los modelos de mundo previos simulan con éxito entornos físicos o la exploración de juegos, siguen estando fundamentalmente desvinculados de las dinámicas sociales centradas en el ser humano. Para cerrar esta brecha como primer paso hacia los modelos de mundo social, presentamos MaineCoon, el primer modelo autorregresivo audiovisual en tiempo real con 22 mil millones de parámetros, capaz de generar transmisiones en tiempo real e interactuar en menos de un segundo, con una tasa de fotogramas récord de hasta 47.5 FPS en una sola GPU. Hasta donde sabemos, MaineCoon es también el primer modelo de generación audiovisual en tiempo real optimizado específicamente para aplicaciones sociales interactivas. Para permitir un entrenamiento eficiente y estable, introducimos varias técnicas novedosas en MaineCoon, incluyendo el auto-muestreo (self-resampling), la alineación de representaciones entre modalidades, la optimización de preferencias consciente del dominio y la destilación de políticas en línea reforzada (ROPD, por sus siglas en inglés). También diseñamos el primer marco de inferencia de transmisión agéntica, que admite generación a escala de miles de segundos o incluso más larga, mitigando la deriva mediante la gestión agéntica de caché y la planificación de indicaciones (prompt planning). Estas innovaciones aceleran significativamente el entrenamiento mientras optimizan el rendimiento de inferencia en tiempo real. Creemos que este trabajo no solo establece un nuevo punto de referencia de rendimiento de última generación (SOTA) para modelos autorregresivos audiovisuales de alta calidad, baja latencia y horizonte largo, sino que también señala el cambio de paradigma deseado para las plataformas sociales nativas de IA de próxima generación.

Más allá de la alineación: la diversidad de valores como propiedad colectiva en sistemas de agentes multiculturales
Beyond Alignment: Value Diversity as a Collective Property in Multicultural Agent Systems

Jun 4

ByShaoyang Xu, Jingshen Zhang, Long P. Hoang, Jinyuan Li, Wenxuan Zhang

Los sistemas multiagente multiculturales se implementan cada vez más en entornos globalmente diversos, donde diferentes agentes están fundamentados en distintos trasfondos culturales. La evaluación cultural existente se centra en la alineación de valores: qué tan cerca se encuentra un agente individual de una cultura objetivo. Sin embargo, la alineación es una propiedad por agente y no puede revelar si un sistema, considerado en su conjunto, preserva la pluralidad cultural que pretende representar. Proponemos la diversidad de valores como un eje de evaluación a nivel de sistema para sistemas multiagente multiculturales, definida mediante la disimilitud entre las respuestas de agentes culturalmente condicionados en una encuesta de valores compartida. Utilizando la Encuesta Mundial de Valores, evaluamos 19 culturas y 18 modelos base en una amplia gama de configuraciones del sistema. Encontramos que la diversidad está en gran medida no correlacionada con la alineación, lo que indica que ambas capturan propiedades complementarias del sistema, y que los sistemas multiagente multiculturales actuales presentan una diversidad de valores sustancialmente inferior a la de las sociedades humanas. Los sistemas de base mixta reducen esta brecha, pero no la cierran, y la brecha persiste en distintas composiciones culturales y escalas de agentes. La interacción social erosiona aún más la diversidad al impulsar a los agentes hacia el consenso, y un estudio de caso de presupuesto participativo muestra que esta homogeneización reduce la amplitud de la toma de decisiones colectivas. En conjunto, nuestros resultados establecen la diversidad de valores como un eje de evaluación distinto para los sistemas multiagente multiculturales y revelan una tendencia persistente a la homogeneización en las sociedades actuales basadas en modelos de lenguaje de gran escala. Nuestro código y datos están disponibles públicamente en https://github.com/iNLP-Lab/MultiAgent-Diversity.

CEO-Bench: ¿Pueden los agentes jugar a largo plazo?
CEO-Bench: Can Agents Play the Long Game?

Jun 16

ByHaozhe Chen, Karthik Narasimhan, Zhuang Liu

Los agentes de modelos de lenguaje se están convirtiendo en ejecutores competentes en tareas aisladas de horizonte corto, como la ingeniería de software y la atención al cliente. Sin embargo, los desafíos del mundo real requieren una combinación de habilidades sofisticadas que aún no han sido suficientemente evaluadas en los agentes: (1) navegar horizontes prolongados en medio de la incertidumbre; (2) adquirir información en entornos ruidosos; (3) adaptarse a un mundo cambiante; (4) orquestar múltiples componentes móviles hacia un objetivo coherente. Presentamos CEO-Bench, que evalúa estas capacidades de forma conjunta simulando una tarea representativa del mundo real: dirigir una startup durante 500 días. Un agente gestiona precios, marketing, presupuestos y muchos otros aspectos de una empresa ficticia a través de una interfaz programable en Python, operando en el mismo entorno y enfrentando los mismos desafíos que un CEO humano. El éxito exige analizar bases de datos empresariales ruidosas e interconectadas, traducir las señales en una estrategia sólida y coordinar numerosas decisiones mediante programación. Los agentes más potentes escriben código sofisticado que simula cohortes de clientes para pronosticar el flujo de caja futuro y explora el historial de negociaciones para descubrir preferencias ocultas de los clientes. Aun así, la mayoría de los modelos de última generación tienen dificultades en este entorno. Solo Claude Opus 4.8 y GPT-5.5 terminan por encima del saldo inicial de $1M, y ninguno de ellos genera ganancias de forma consistente. CEO-Bench da un primer paso hacia la medición de la inteligencia necesaria para impulsar un progreso adaptativo y sostenido a lo largo del tiempo.

ViT-Up: Remuestreo Fiel de Características para Transformers de Visión
ViT-Up: Faithful Feature Upsampling for Vision Transformers

Jun 12

ByKrispin Wandel, Jingchuan Wang, Hesheng Wang

Los Vision Transformers (ViTs) se han convertido en una arquitectura dominante para el aprendizaje de representaciones visuales, proporcionando características de backbone excepcionalmente sólidas y ampliamente reutilizables. Sin embargo, los ViTs suelen operar sobre cuadrículas de parches relativamente pequeñas debido al costo cuadrático de la autoatención global, lo que crea un cuello de botella persistente para tareas de predicción densa, como la segmentación semántica y la estimación de profundidad. Esto ha motivado el desarrollo de upsamplers de características agnósticos a la tarea. Si bien los métodos de última generación actuales producen representaciones densas visualmente nítidas, su dependencia de codificadores de imagen superficiales para el upsampling guiado puede introducir fuga de características, fragmentación y desenfoque. Presentamos ViT-Up, un marco de upsampling implícito de características que reemplaza la guía externa de imagen con una construcción de consultas por capas a partir de estados ocultos intermedios de ViT. Esto permite la predicción de características en coordenadas continuas arbitrarias de la imagen, manteniendo la alineación con el espacio de características del backbone. Los experimentos demuestran que ViT-Up supera consistentemente a los upsamplers guiados por imagen de última generación en predicción densa y correspondencia semántica. En DINOv3-S+, ViT-Up mejora con respecto a métodos anteriores hasta en +2.07 mIoU en Cityscapes y +4.17 PCK@0.10 en SPair-71k. Con el backbone más grande DINOv3-B, estas ganancias aumentan a +3.36 mIoU y +8.09 PCK@0.10, lo que demuestra que ViT-Up escala favorablemente con la capacidad del backbone.

PAIWorld: Un Modelo Fundacional de Mundo 3D-Consistente para Manipulación Robótica
PAIWorld: A 3D-Consistent World Foundation Model for Robotic Manipulation

Jun 16

ByYuhang Huang, Xuan Lv, Junyan Xu, Zhiyuan Yu, Jiazhao Zhang, Ruizhen Hu, Wancheng Feng, Shilong Zou, Hewen Xiao, Ziqiao Zhou, Kaiyun Huang, Zhiyu Peng, Juzhan Xu, Hang Zhao, Chenyang Zhu, Renjiao Yi, Yifei Huang, Douhui Wu, Yan Zhang, Kexu Cheng, Chunhe Song, Yunzhi Xue, Xiuhong Zhang, Leitao Guo, Yunji Chen, Bin Wu, Haibin Yu, Kai Xu

Los modelos fundacionales del mundo (WFMs, por sus siglas en inglés) son potentes simuladores, pero operan predominantemente en una configuración de vista única y carecen de la consistencia 3D multivista necesaria para la manipulación robótica. Si bien los sistemas robóticos dependen de múltiples cámaras (egocéntricas, ojo-mano y montadas en la muñeca) para el aprendizaje de políticas, los modelos del mundo multivista actuales simplemente concatenan los tokens de cada vista sin un razonamiento geométrico explícito. Esto provoca deriva de objetos entre vistas, inconsistencia de profundidad y desalineación de texturas. Atribuimos estos fallos a dos deficiencias: la ausencia de un mecanismo explícito de comunicación entre vistas y la falta de un prior geométrico 3D. Sostenemos que resolver ambas simultáneamente es necesario y suficiente. Para abordar esto, presentamos PAIWorld, un marco que aumenta los modelos del mundo de difusión-transformer mediante tres componentes centrales: (1) Bloques de Atención Cruzada entre Vistas con Conciencia Geométrica, que establecen una vía explícita entre vistas; (2) Incrustación de Posición Rotatoria Geométrica, que codifica las direcciones de los rayos de cámara y las poses extrínsecas en el mecanismo de atención; y (3) Latent 3D-REPA, que destila características conscientes de 3D a partir de modelos fundacionales 3D congelados para garantizar la consistencia 3D. Construido sobre un modelo fundacional del mundo basado en DiT, PAIWorld logra una consistencia 3D multivista de vanguardia en benchmarks de manipulación robótica, ocupando el primer lugar en el ranking WorldArena y el segundo en el ranking AgiBot-Challenge2026, al tiempo que habilita aplicaciones downstream como la planificación basada en modelos, los modelos de acción del mundo y el post-entrenamiento de políticas multivista.

SciOrch: Aprendiendo a Orquestar LLMs Expertos para Resolver Tareas de Razonamiento Científico Multimodal de Frontera
SciOrch: Learning to Orchestrate Expert LLMs for Solving Frontier Multimodal Scientific Reasoning Tasks

Jun 14

ByJingru Guo, Xiangyuan Xue, Lian Zhang, Wanghan Xu, Siki Chen, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin

El razonamiento científico de frontera sigue siendo un desafío importante para los modelos de lenguaje de gran escala (LLMs), donde incluso los sistemas comerciales más potentes quedan por debajo del rendimiento a nivel experto. Un examen más detallado del comportamiento de los modelos revela una complementariedad sustancial que la evaluación con un solo modelo oculta: distintos modelos de frontera destacan en diferentes tipos de preguntas, y ningún modelo por sí solo capta la imagen completa. Presentamos SciOrch, un marco que entrena un modelo ligero de 8B para orquestar LLMs de frontera en el razonamiento científico. El orquestador descompone cada pregunta, delega subproblemas a modelos comerciales seleccionados a través de llamadas a la API y sintetiza una respuesta final. Entrenar un orquestador de este tipo es fundamentalmente más difícil que el RL agéntico convencional: cada acción desencadena una llamada a la API que es costosa tanto en términos de dinero como de latencia, lo que hace inviables los despliegues en línea estándar. Abordamos esto con un enfoque basado en MCTS, que genera trayectorias de orquestación diversas, extrae muestras de un solo nodo por nodo y optimiza el orquestador con entrenamiento de tipo GRPO. En un conjunto de prueba de 240 preguntas que abarca SGI-Reasoning y el Primer Examen de Científicos (Scientists' First Exam), SciOrch alcanza una precisión promedio del 56,66%, superando al mejor modelo comercial individual en un 3,74% y a la mejor línea base multiagente en un 3,33%. También obtiene la mejor precisión tanto en SGI como en SFE con menos de la mitad del costo de API de los métodos multiagente típicos.

RODS: Síntesis de datos en línea impulsada por recompensas para agentes de uso de herramientas en múltiples turnos
RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

Jun 17

ByRuishan Fang, Siyuan Lu, Chenyi Zhuang, Tao Lin

El RL de uso de herramientas en múltiples turnos se ve obstaculizado por el rápido agotamiento de las muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en las tareas con la mayor varianza de recompensa de las trayectorias, como consecuencia de la cota superior de Popoviciu. En consecuencia, las muestras cercanas a la frontera de capacidad del agente —donde los éxitos y fracasos están aproximadamente equilibrados— contribuyen con gradientes de política desproporcionadamente grandes. A medida que avanza el entrenamiento, esta frontera se desplaza continuamente, lo que agota gradualmente el conjunto de muestras informativas en un conjunto de datos estático. Proponemos RODS (Síntesis de Datos en Línea Impulsada por Recompensa) para resolver este agotamiento. RODS cierra el ciclo entre el entrenamiento de RL y la generación de datos al reutilizar la varianza de la recompensa de progreso como un detector de frontera práctico y sin coste adicional, que no requiere inferencia extra más allá de las trayectorias ya calculadas para el entrenamiento. Este detector identifica continuamente dichas muestras en la frontera, sintetiza nuevas variantes en múltiples turnos que igualan su complejidad estructural (por ejemplo, topología de API y profundidad de dependencias) mediante un canal de remuestreo alineado con las habilidades, y gestiona un búfer de repetición dinámico que co-evoluciona con la política. Partiendo de 400 semillas humanas y manteniendo un conjunto activo de entrenamiento de aproximadamente 800 muestras, RODS alcanza un rendimiento comparable al de un canal fuera de línea con 17 000 muestras, requiriendo aproximadamente 20 veces menos trayectorias, y mejora sobre el RL con datos fijos y la aumentación del entorno en nuestro entorno controlado.

¿Cuándo permite la supervisión a nivel de trayectoria un aprendizaje por refuerzo fuera de línea eficiente?
When Does Trajectory-Level Supervision Permit Efficient Offline Reinforcement Learning?

Jun 16

ByXuanfei Ren, Tengyang Xie

El aprendizaje por refuerzo fuera de línea se analiza típicamente bajo supervisión de recompensas a nivel de proceso, pero muchos conjuntos de datos de decisiones secuenciales registran solo resultados a nivel de trayectoria. Desarrollamos una teoría estadística para la optimización de políticas fuera de línea a partir de dicha supervisión a nivel de resultados. Primero estudiamos el entorno canónico donde el objetivo sigue siendo la recompensa acumulada esperada, pero cada trayectoria fuera de línea proporciona solo una etiqueta escalar cuya media condicional es el retorno acumulado. Proponemos OPAC, un algoritmo actor-crítico pesimista que aprende un modelo de recompensa latente y optimiza una política a partir de etiquetas a nivel de trayectoria. Demostramos una garantía de alta probabilidad de orden $\widetilde{O}(H^2 C_{\text{sa}(\pi^\star)}/n)$ y una cota inferior correspondiente, que caracterizan el coste estadístico ajustado de sustituir recompensas a nivel de proceso por una etiqueta a nivel de trayectoria. Luego extendemos el principio a la retroalimentación basada en preferencias, preservando la dependencia principal del horizonte y la concentrabilidad hasta constantes del modelo de preferencias. Finalmente, estudiamos el RL fuera de línea basado en resultados generalizados, donde tanto la supervisión como el objetivo son cantidades a nivel de trayectoria inducidas por una agregación no lineal de recompensas latentes por paso. Este problema no es aprendible en general: para objetivos de éxito total, cualquier algoritmo fuera de línea puede requerir $\Omega(2^H)$ trayectorias incluso con transiciones deterministas y concentrabilidad constante. Identificamos entonces un régimen tratable mediante dos coeficientes estructurales, $\kappa_{\mu}(\sigma)$ y $\chi_{\mu}(\sigma)$, que capturan la pérdida de información en la agregación de resultados y las actualizaciones generalizadas de Bellman, bajo los cuales OPAC generalizado alcanza una complejidad muestral polinómica. En conjunto, nuestros resultados delinean cuándo la supervisión a nivel de resultados permite un control fuera de línea eficiente en muestras y cuándo la falta de recompensas a nivel de proceso crea barreras estadísticas fundamentales.

Aprendizaje de simuladores de usuario con recompensas Turing
Learning User Simulators with Turing Rewards

Jun 17

ByYingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He, Pengyuan Li, Alex Pentland, Roger P. Levy, Yoon Kim

Aprender a simular usuarios humanos en entornos interactivos podría avanzar en el entrenamiento de asistentes agentes, la evaluación de sistemas de personalización, la investigación en ciencias sociales y más. Los enfoques existentes generalmente lo hacen entrenando un modelo de lenguaje grande (LLM) para que coincida con una única respuesta de referencia, ya sea maximizando la probabilidad logarítmica o utilizando una recompensa de similitud. Nosotros, en cambio, proponemos {Turing-RL}: un enfoque de aprendizaje por refuerzo basado en la prueba de Turing para entrenar modelos simuladores de usuarios. {Turing-RL} utiliza una recompensa discriminativa de Turing con un juez LLM para puntuar cuán indistinguible es una respuesta generada de la del usuario real, dado el historial del usuario, y el LLM simulador de usuario aprende a producir respuestas indistinguibles de lo que el usuario podría haber dicho con tales recompensas. En dos dominios diferentes —chat conversacional y discusión en foros de Reddit— encontramos que {Turing-RL} supera consistentemente a los métodos de referencia tanto en métricas de evaluación de LLM como humanas. Nuestro estudio sugiere que optimizar para la indistinguibilidad, en lugar de la coincidencia de respuestas, es efectivo para aprender simuladores de usuarios.

Physics-IQ Verificado
Physics-IQ Verified

Jun 17

ByTim Rädsch, Yuki M Asano, Hilde Kuehne, Stefan Bauer, Priyank Jaini, Robert Geirhos, Carsten T. Lüth

Los modelos generativos de video (VGM, por sus siglas en inglés) se han convertido en una nueva frontera que puede utilizarse no solo para la generación de video, sino para una multitud de tareas posteriores, incluido el modelado del mundo. Para avanzar en estas tareas, un buen modelo de video debe comprender la realidad física del mundo. Evaluar esta comprensión es un campo emergente y ha dado lugar al punto de referencia Physics-IQ, que la cuantifica explícitamente al comparar videos generados por modelos con videos reales de experimentos físicos. En este trabajo, presentamos una auditoría sistemática del punto de referencia Physics-IQ, exponemos sus limitaciones y proponemos tres soluciones que agudizan la forma en que podemos medir la comprensión física de los VGM. Específicamente, mejoramos la calidad de las instrucciones (prompts) y de las verdades fundamentales (ground-truth) para reducir la influencia de factores de confusión, e introducimos un sistema de puntuación a nivel de muestra que pondera cada muestra y métrica por igual. Nuestro punto de referencia resultante, Physics-IQ Verified, refina el 57.6 % de todas las muestras y mejora más del 34.8 % de las instrucciones. En un estudio comparativo utilizando seis modelos generativos de imagen a video, observamos cambios de clasificación moderados pero significativos (τ de Kendall = 0.46). Esperamos que Physics-IQ Verified impulse a la comunidad al proporcionar una señal más fiable hacia VGM físicamente precisos. El código del punto de referencia se puede acceder en https://github.com/google-deepmind/physics-iq-benchmark.

Externalización de la Síntesis y Validación de Investigación en Científicos de IA mediante un Arnés de Investigación
Externalizing Research Synthesis and Validation in AI Scientists through a Research Harness

Jun 17

ByZijian Wang, Hanqi Li, Ziyue Yang, Zijian Hu, Shenghan Zuo, Yunzhe Zhang, Da Ma, Danyu Luo, Chenrun Wang, Jing Peng, Tiancheng Huang, Sijia Guo, Huayang Wang, Zichen Zhu, Senyu Han, Yilu Cao, Kai Yu, Lu Chen

Los sistemas de IA pueden automatizar cada vez más los flujos de trabajo científicos, pero el razonamiento que vincula la evidencia previa, las ideas generadas, los experimentos y las afirmaciones finales a menudo permanece implícito dentro de la inferencia del modelo. Aquí presentamos Xcientist, un arnés de investigación que externaliza la síntesis de investigaciones y la validación experimental en procesos inspeccionables y gobernados por contratos. Xcientist organiza la evidencia bibliográfica, los estados de las ideas, los planes de implementación, los registros de ablación y las trazas de reparación como artefactos de investigación persistentes, de modo que los mecanismos generados puedan fundamentarse, ejecutarse, probarse y revisarse sin perder su base probatoria. Identificamos la deriva de las afirmaciones como un modo de fallo en la investigación automatizada, donde los artefactos ejecutables ya no respaldan el mecanismo originalmente afirmado. En sistemas de memoria sin entrenamiento, predicción de tráfico estructurado en grafos y redes neuronales informadas por la física a múltiples escalas, Xcientist preserva trayectorias trazables desde la formulación del problema hasta el diseño, validación y revisión acotada del mecanismo. Estos resultados sugieren que los científicos de IA deberían evaluarse no solo por sus artefactos finales, sino por si sus procesos de síntesis y validación permanecen atribuibles, inspeccionables y científicamente responsables.

REVES: Revisión y Verificación – Entrenamiento Aumentado para Escalado en Tiempo de Prueba
REVES: REvision and VErification--Augmented Training for Test-Time Scaling

Jun 17

ByYuanxin Liu, Ruida Zhou, Xinyan Zhao, Amr Sharaf, Hongzhou Lin, Arijit Biswas, Mohammad Ghavamzadeh, Zhaoran Wang, Mingyi Hong

El escalado en tiempo de prueba mediante revisión secuencial ha surgido como un paradigma poderoso para mejorar el razonamiento de los Modelos de Lenguaje Grande (LLM). Sin embargo, los métodos estándar de post-entrenamiento optimizan principalmente objetivos de un solo paso, creando un desajuste fundamental con las dinámicas de inferencia de múltiples pasos. Si bien trabajos recientes tratan esto como aprendizaje por refuerzo (RL) de múltiples turnos, los enfoques convencionales optimizan directamente las trayectorias de múltiples pasos sin explotar los errores de alta calidad en los pasos intermedios que el modelo puede aprender al corregirlos. Proponemos un marco iterativo de dos etapas que alterna entre el aumento de datos/instrucciones en línea y la optimización de políticas. Al convertir los pasos intermedios (respuestas de "casi acierto") en las trayectorias de recuperación exitosas en instrucciones de revisión y verificación desacopladas, nuestro enfoque concentra el entrenamiento tanto en la transformación efectiva de respuestas como en la identificación de errores. Este método permite una generación eficiente de datos fuera de política y reduce la sobrecarga computacional del muestreo de horizonte largo en comparación con el RL estándar de múltiples turnos. En LiveCodeBench, utilizando casos de prueba disponibles públicamente como retroalimentación, observamos mejoras de +6.5 puntos sobre la línea base de RL y +4.0 puntos sobre el entrenamiento estándar de múltiples turnos. Más allá de la programación, nuestro enfoque iguala el resultado SOTA previamente reportado en empaquetamiento de círculos, utilizando el modelo base más pequeño (4B) y muchas menos ejecuciones que los sistemas de búsqueda evolutiva mucho más grandes. Los resultados en matemáticas bajo verificación con datos de referencia confirman una mejor capacidad de corrección. También se generaliza a puzzles de satisfacción de restricciones fuera de distribución, como n_reinas y mini_sudoku, donde la corrección se define enteramente por las restricciones del problema. El código está disponible en https://github.com/yxliu02/REVES.git.

MyPCBench: Un Benchmark para Agentes de Uso de Computadora Inteligentes y Personales
MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

Jun 15

ByLawrence Keunho Jang, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

Los benchmarks actuales para agentes de uso computacional evalúan modelos en entornos impersonales. Esto deja una brecha entre la evaluación y el despliegue, donde se espera que los asistentes personales trabajen en la totalidad de la vida digital del usuario, incluyendo su contexto, datos históricos y cuentas iniciadas. Esta brecha es más amplia en tareas web, donde las evaluaciones en vivo no pueden ejercitar sitios que requieren inicio de sesión o información personal, el tipo de sitio que un asistente personal real debe manejar. Presentamos MyPCBench, que prueba agentes de uso computacional como asistentes personales en un escritorio Linux poblado con 17 aplicaciones web simuladas del mundo real y una pila de escritorio completa, todas sembradas para una persona canónica, Michael Scott de The Office. Definimos 184 tareas en este entorno, cada una inspirada en una solicitud real extraída de la comunidad OpenClaw, y evaluamos seis modelos cerrados y de peso abierto con una superficie de herramientas uniforme de computadora+bash. Encontramos que el mejor modelo, Claude Opus 4.6, resuelve completamente el 55.4% de las tareas, el único modelo por encima del 50%. Los fallos de los modelos se agrupan en tareas que abarcan muchas aplicaciones y en trayectorias largas, donde la personalización exige más al asistente. Publicamos el entorno, el conjunto de tareas y el arnés de agente en https://mypcbench.com.

iOSWorld: Un benchmark para agentes telefónicos personalmente inteligentes
iOSWorld: A Benchmark for Personally Intelligent Phone Agents

Jun 8

ByLawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov

Un agente telefónico útil debe ser inteligente a nivel personal. Debe razonar sobre la identidad, el historial y las preferencias del usuario tal como existen en el dispositivo, no solo seguir instrucciones aisladas en un entorno aislado e impersonal. Los benchmarks existentes para agentes móviles carecen de este tipo de personalización. Presentamos iOSWorld, el primer benchmark interactivo de simulador nativo de iOS construido en torno a una identidad de usuario persistente que abarca 26 aplicaciones iOS recién creadas. Estas aplicaciones contienen datos conectados, como transacciones, mensajes, registros de viajes, relaciones sociales y actividad financiera. iOSWorld incluye 133 tareas en tres categorías de dificultad creciente. Las tareas de una sola aplicación (27) prueban una aplicación, las tareas de múltiples aplicaciones (60) abarcan de 2 a 8 aplicaciones, y las tareas de memoria y personalización (46) requieren que los agentes infieran patrones a partir de datos personales. Evaluamos modelos de uso de computadora de frontera y de código abierto en configuraciones de solo visión y visión+XML privilegiada. La mejor configuración alcanza un 52% en general, pero solo un 37% en tareas de múltiples aplicaciones. El acceso privilegiado a visión+XML mejora los modelos de frontera hasta en 26 puntos porcentuales, mientras que los modelos más pequeños no se benefician de la entrada adicional del árbol de accesibilidad. Publicamos iOSWorld como un benchmark de código abierto con todas las aplicaciones, datos semilla, tareas, rúbricas y código de evaluación.

IndustryBench-MIPU: Evaluación comparativa de la extracción de valores de atributos de múltiples imágenes para productos industriales
IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Jun 12

ByHaonan Qi, Jin Cao, Yongqi Zhang, Xintong Wang, Weidong Tang, Bin Chen, Chengfu Huo, Haojun Pan, Hengyu You, Jing Li, Yingde Wang, Liang Ding

Productos industriales como válvulas y disyuntores se definen mediante especificaciones técnicas densas que rigen la adquisición, compatibilidad y seguridad a lo largo de las cadenas de suministro. Estas especificaciones están dispersas en múltiples imágenes de producto heterogéneas, incluyendo tablas de especificaciones, placas de identificación y planos técnicos; sin embargo, aún no se ha explorado si los Modelos de Lenguaje Grandes Multimodales (MLLMs) pueden recuperarlas de manera fiable. Para llenar este vacío, presentamos IndustryBench-MIPU, el primer punto de referencia a gran escala para la comprensión multiimagen de productos industriales, construido en torno a la extracción estructurada de atributos — recuperación de pares propiedad-valor a partir de imágenes de producto. Esta tarea evalúa conjuntamente el reconocimiento de texto en tablas de especificaciones y placas de identificación, el razonamiento visual sobre planos técnicos, el conocimiento del dominio para decodificar terminología industrial y la integración de evidencia entre imágenes para ensamblar especificaciones dispersas. Concretamente, el punto de referencia comprende 4,559 productos a lo largo de 27,652 imágenes con 103,703 anotaciones que abarcan 18 categorías industriales, construido mediante consenso multimodelo y garantía de calidad de tres niveles. La evaluación de nueve MLLMs bajo configuraciones tanto de imagen única como multiimagen a nivel de producto revela una marcada brecha de completitud: los modelos alcanzan una alta precisión (86–94%), pero el mejor recupera solo el 49.9% de los atributos a nivel de producto; pasar de la extracción con una sola imagen a la extracción multiimagen cuesta entre 15 y 34 puntos porcentuales de exhaustividad. La completitud multiimagen, no la precisión con una sola imagen, es el cuello de botella principal. El conjunto de datos y el código están disponibles públicamente.

Bolsa de Dims: Interpretabilidad Mecanicista Sin Entrenamiento Mediante Patrones de Signo a Nivel de Dimensión
Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

Jun 17

ByVarun Reddy Nalagatla

Demostramos que la base estándar de los estados ocultos de los transformadores ya proporciona una base de características sin entrenamiento y de arquitectura general. Las dimensiones individuales codifican contenido semántico mediante sus signos (+/-1) y confianza mediante sus magnitudes, actuando como registros binarios independientes; una característica es un subconjunto de dimensiones con un patrón de signos consistente, que se lee contando acuerdos de signo sin una rotación aprendida. Validamos este marco de *Bag of Dims* en siete modelos que abarcan lenguaje (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), visión (DINOv2, ViT-Base) y audio (AST). Los signos por sí solos contienen contenido predictivo: los patrones de signos con magnitud unitaria preservan entre el 60-93% de la precisión del siguiente token en top-5 a través de la cabeza del modelo de lenguaje, y la puntuación de Hamming sin decodificador alcanza el 80-90% en top-4096. Desde una caché de un solo token (un pase directo por token, sin contexto, sin etiquetas), detectamos 175 categorías con un AUC de 0.97-0.99 mediante acuerdo de signos; una sonda entrenada añade solo +0.018 de AUC y converge a pesos alineados con los ejes. Estas características son operativas causalmente: sobreviven a las proyecciones de atención K/V, se remontan a las coaliciones de neuronas FFN que las escriben (los controles de pesos aleatorios nunca las reproducen), y al invertir los signos de una característica durante el pase directo en vivo se suprime su concepto en cuatro modelos de lenguaje, con magnitud emparejada y especificidad de concepto. Las dimensiones permanecen independientes en todo momento (información mutua por pares por debajo de 0.006 bits). La estructura no es específica del lenguaje: los mismos signos por dimensión aparecen en visión autosupervisada (DINOv2, 9/12 superclases de ImageNet), visión supervisada (ViT-Base, 11/12) y audio (AST, 50/50 categorías de ESC-50), por lo que refleja el entrenamiento de transformadores en general, no el objetivo de modelado del lenguaje. La base estándar ya es suficiente para la lectura de características en un solo pase directo, sin optimización, sin días de GPU. El problema abierto pasa de encontrar la rotación correcta a catalogar qué codifica cada dimensión.

HiLo-Token: Compresión de tokens de alta y baja frecuencia adaptativa a la entrada para edición eficiente de imágenes
HiLo-Token: Input-Adaptive High-Low Frequency Token Compression for Efficient Image Editing

Jun 11

ByHaoran You, Yotam Nitzan, Lingzhi Zhang, Yifan Gong, Mang-Tik Chiu, Connelly Barnes, Yan Kang, Yuqian Zhou, Eli Shechtman, Sohrab Amirghodsi

Herramientas creativas de edición de imágenes, como los botones Eliminar o Relleno Generativo de Photoshop, son fundamentales para el uso cotidiano de los clientes y representan una gran parte del tráfico en Photoshop y Lightroom. Sin embargo, los modelos actuales de IA generativa enfrentan desafíos significativos de latencia, que se vuelven aún más pronunciados al pasar de U-Nets basadas en convolución a Transformadores de Difusión (DiTs). En nuestra evaluación de cientos de muestras representativas de edición de imágenes que abarcan una amplia gama de proporciones de máscara, el módulo DiT por sí solo representa en promedio el 73% de la latencia total del modelo, incluso después de ser destilado de 50 pasos de tiempo a 8 pasos de tiempo. Para abordar este desafío, proponemos HiLo-Token, un marco de compresión de tokens adaptativo a la entrada que asigna más presupuesto de tokens a regiones de alta frecuencia y contexto rico, mientras asigna menos tokens a áreas de baja frecuencia. Específicamente, para la región de edición especificada por la máscara del usuario, retenemos todos los tokens dentro de una máscara dilatada para preservar una fuerte localidad y relevancia contextual. Fuera de la región de edición, introducimos una estrategia simple pero efectiva de selección de tokens de alta frecuencia basada en la frecuencia espacial para capturar detalles locales importantes, mientras que usamos tokens de una imagen submuestreada 16x para representar componentes de baja frecuencia y preservar la estructura global pero borrosa. Extensos experimentos en datos de evaluación a nivel de producción validan la efectividad del método propuesto, logrando aceleraciones de DiT de 3.13x, 2.59x y 1.67x en A100-80GB para tareas de edición de imágenes en categorías de proporción de máscara pequeña, mediana y grande con proporciones promedio de 6.38%, 15.92% y 35.36%, respectivamente, sin ninguna regresión en la calidad de generación.

Ver antes de razonar: Desacoplamiento de percepción y razonamiento para autodestilación multimodal on-policy resistente a atajos
Seeing Before Reasoning: Decoupling Perception and Reasoning for Shortcut-Resilient Multimodal On-Policy Self-Distillation

Jun 17

BySihan Wang, Xiyao Liu, Lianqing Liu, Zhi Han

El auto-destilación on-policy (OPSD) entrena un modelo en sus propios rollouts y emplea una copia congelada para proporcionar objetivos densos a nivel de token condicionados a un objetivo de referencia. Este método funciona bien para el razonamiento de modelos de lenguaje grandes (LLMs), pero una extensión directa a modelos de lenguaje grandes multimodales (MLLMs) puede crear un atajo: el objetivo privilegiado podría guiar los tokens principalmente a partir del objetivo de referencia textual y no de la imagen. Proponemos ViGOS, un marco OPSD con anclaje visual para el post-entrenamiento de MLLMs. El estudiante primero escribe una descripción visual y luego razona hacia la respuesta final. Para rollouts válidos, un maestro de percepción solo de imagen supervisa la descripción, mientras que un maestro de razonamiento privilegiado supervisa el razonamiento y la respuesta final sobre el mismo prefijo del estudiante. Un maestro de referencia se utiliza únicamente para rollouts inválidos con el fin de recuperar el formato de salida. En puntos de referencia de visión y lenguaje general, razonamiento experto, matemáticas visuales, anclaje espacial y prioridades de lenguaje visual, ViGOS conserva los principales beneficios de OPSD y mejora el comportamiento anclado en imágenes en entornos propensos a atajos.

Morpheus: Un tokenizador neuronal y generador de embeddings de palabras con conciencia morfológica para el turco
Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish

Jun 17

ByTolga Şakar

El turco es una lengua aglutinante: el significado se transmite mediante morfemas, pero los tokenizadores de subpalabras que impulsan los modelos lingüísticos modernos dividen las palabras según estadísticas del corpus, fragmentando sufijos con carga semántica y —en el caso de WordPiece y los analizadores basados en reglas— sin poder decodificar su salida de vuelta al texto original. Este artículo presenta Morpheus, un modelo neuronal de límites de morfemas para turco que es, a la vez, un tokenizador sin pérdida y consciente de la morfología, y un productor de incrustaciones de palabras. Un programa dinámico diferenciable de Poisson-binomial convierte las probabilidades de límite por carácter en pertenencias suaves a morfemas durante el entrenamiento y en segmentos exactos en la inferencia, sin necesidad de normalización de cadenas, de modo que decode(encode(w)) = w se cumple por construcción. Al ser un modelo neuronal, el mismo pase hacia adelante que tokeniza también emite una incrustación de palabras estructurada. Entre los tokenizadores reversibles —los únicos válidos para generación—, Morpheus consigue el menor número de bits por carácter (1,425), aproximadamente duplica la alineación morfológica de referencia de la familia de subpalabras (MorphScore macro-F1 0,61 frente a ~0,32) y utiliza ~19% menos de memoria de GPU que los tokenizadores de subpalabras con vocabulario de 64K. Como incrustador, los vectores congelados de Morpheus lideran en recuperación léxica (MAP de familia de raíces 0,85) y verificación de misma raíz (ROC-AUC 1,00), superando al recuperador multilingüe BGE-M3 y a BERTurk; en tareas dependientes del contexto y la flexión (NER, sondas de caso/número), los codificadores contextuales más pesados siguen siendo superiores —una compensación que atribuimos a la geometría centrada en la raíz de Morpheus. Código: https://github.com/lonewolf-rd/TurkishMorpheus; modelo: https://huggingface.co/lonewolflab/Morpheus-TR-50K; demo interactiva: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.

Re-centrando a los humanos en la personalización de LLM
Re-Centering Humans in LLM Personalization

Jun 4

ByLechen Zhang, Jiarui Liu, Tal August

A pesar del creciente interés, la mayoría de las evaluaciones de las capacidades de personalización de los modelos de lenguaje de gran escala (LLMs) se han basado en datos sintéticos. No está claro cómo funcionan los sistemas de personalización actuales para usuarios reales. En este artículo, estudiamos la brecha en el rendimiento de personalización de los LLMs al usar datos sintéticos frente a datos humanos. Recopilamos conversaciones humanas (550 conversaciones) y juicios en tres etapas de la personalización: extraer atributos del usuario a partir de conversaciones (5.949 juicios), emparejar atributos relevantes con nuevas indicaciones (11.919) e incorporar atributos relevantes en una respuesta personalizada (1.101). La incorporación de datos humanos revela limitaciones del sistema en cada etapa. Los modelos tienen dificultades para extraer atributos de conversaciones humanas, discrepan de los juicios humanos sobre atributos relevantes y generan respuestas personalizadas que los humanos consideran no mejores que las respuestas genéricas (aunque los LLMs las valoran ampliamente como superiores). Introducimos dos intervenciones ligeras basadas en entrenamiento que acercan la evaluación automatizada de personalización a los datos humanos en nuestras dos primeras etapas. Sin embargo, en nuestra tercera etapa encontramos que los modelos de recompensa aprendidos logran solo una correlación modesta con las valoraciones humanas, lo que sugiere que los juicios de calidad de personalización alineados con humanos son difíciles de modelar directamente. Nuestros datos recopilados proporcionan una base para estudiar cómo los modelos deberían extraer, seleccionar e incorporar información del usuario de maneras que los humanos consideren útiles.

Un benchmark y marco de trabajo para evaluar predicciones de la próxima acción en hojas de cálculo
A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

Jun 11

ByTejas Agrawal, Vu Le, Sumit Gulwani, Gust Verbruggen

La finalización predictiva de código acelera enormemente la rapidez con la que trabajan los desarrolladores. En las hojas de cálculo, a pesar de ser mucho más comunes, estas funciones de autocompletado son prácticamente inexistentes. Para abordar esta brecha, presentamos un punto de referencia para sistemas que observan una secuencia de acciones del usuario en una hoja de cálculo y predicen acciones futuras. Dos desafíos son (1) la ausencia de historiales de edición en corpus públicos de hojas de cálculo y (2) el espacio complejo de las acciones en hojas de cálculo (espacial, temporal, compuesto). Para abordar (1), curamos manualmente 52 secuencias de 12.000 acciones que recrean hojas de cálculo a partir de corpus públicos, iniciadas mediante heurísticas parametrizadas y refinamiento con LLM. Para abordar (2), proponemos una evaluación en línea que espera una predicción tras cada acción del usuario, acepta o rechaza dicha predicción, actualiza las acciones futuras si se acepta y repite este proceso hasta obtener la hoja de cálculo objetivo. Utilizamos múltiples predictores de referencia (incluyendo LLMs de cero disparos, SLMs ajustados finamente y modelos clásicos) y analizamos diferentes propiedades que nuestro punto de referencia nos enseña, entre las que se incluyen, pero no se limitan a: propiedades de las acciones guardadas y los falsos positivos, eficiencia, efecto de los perfiles de usuario, efecto de los desencadenantes y efecto del contexto.

Recuperación guiada por aprendizaje por refuerzo con fusión suave para un aprendizaje por imitación multimodal robusto bajo modalidades faltantes
Reinforcement Learning-Guided Retrieval with Soft Fusion for Robust Multimodal Imitation Learning under Missing Modalities

Jun 13

ByHassan Ismkhan, Hamid Bouchahcia

Los sistemas robóticos perciben el mundo a través de múltiples modalidades de entrada, incluyendo flujos de cámara visual e instrucciones en lenguaje natural, y deben seleccionar acciones apropiadas basándose en estas señales. Sin embargo, asumir la disponibilidad permanente de todos los dispositivos de entrada es poco realista, ya que los sensores pueden fallar, ocluirse o desconectarse por completo durante el despliegue. Por lo tanto, el manejo robusto de estos escenarios de modalidad faltante es esencial para la operación robótica en el mundo real. Este artículo presenta RL4IL, un método guiado por aprendizaje por refuerzo para el aprendizaje por imitación que selecciona la acción más adecuada para una observación dada identificando las demostraciones de expertos más relevantes de una biblioteca de entrenamiento. Una política de aprendizaje por refuerzo, entrenada mediante Optimización de Política Proximal sobre conjuntos candidatos de Búsqueda en Anchura, clasifica las demostraciones candidatas y una cabeza de fusión de atención cruzada suave agrega sus señales de acción para producir la predicción final. Cuando una modalidad falta en el momento de la inferencia, una política de recuperación RL dedicada por modalidad identifica demostraciones donantes de la biblioteca de entrenamiento, y una cabeza de imputación suave reconstruye la incrustación faltante mediante atención cruzada sobre los donantes mejor clasificados, sin requerir ningún reentrenamiento del sistema. Los experimentos en tres conjuntos de referencia LIBERO demuestran que RL4IL supera sustancialmente a los métodos de aprendizaje por imitación de última generación en condiciones de desconexión de sensores, sin requerir entrenamiento de la red de políticas. El código se puede encontrar en https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.

NWDAF habilitado por LLM: Un paso hacia la inteligencia de red 6G nativa de IA
LLM-Enabled NWDAF: A Step Toward AI-Native 6G Network Intelligence

Jun 10

ByHenok Daniel, Omar Alhussein, Cheng Li, Jie Liang, Ernesto Damiani

La Función de Análisis de Datos de Red (NWDAF) es fundamental para habilitar la gestión de red sin intervención manual en redes de quinta generación (5G) al brindar soporte a análisis en tiempo real y automatización de bucle cerrado. A pesar de su papel crítico, las implementaciones de NWDAF de código abierto siguen siendo limitadas en alcance y accesibilidad. En este artículo, desarrollamos un NWDAF de código abierto, compatible con la red central de código abierto Free5GC, que recopila datos de red mediante suscripciones a Funciones de Red (NF) e incluye además una interfaz integrada de Modelo de Lenguaje Grande (LLM) que permite la interacción en lenguaje natural con operadores humanos. La interfaz procesa las intenciones del usuario, las codifica utilizando un modelo de incrustación semántica y las asigna a una de siete categorías de intenciones predefinidas para desencadenar consultas de análisis o comandos de suscripción a eventos. Esta arquitectura abstrae la complejidad de las interfaces tradicionales, permitiendo que usuarios no expertos gestionen con facilidad los análisis y las suscripciones de red. El sistema admite suscripciones a eventos de la Función de Acceso y Gestión (AMF) y la Función de Gestión de Sesiones (SMF), monitorización en tiempo real y recuperación de análisis a través de Prometheus, todo accesible mediante una interfaz conversacional. Al unir el reconocimiento de intenciones impulsado por IA con el análisis de red estandarizado, nuestra implementación mejora la usabilidad del operador y proporciona una base hacia las redes 6G nativas de IA. El código fuente y los conjuntos de datos generados durante el presente estudio están disponibles en el repositorio de GitHub: https://github.com/HenokDanielbfg/testbed.