Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han avanzado significativamente la comprensión de documentos, sin embargo, las evaluaciones actuales de Doc-VQA solo puntúan la respuesta final y dejan sin verificar la evidencia de respaldo. Este enfoque centrado únicamente en la respuesta oculta un modo de fallo crítico: un modelo puede obtener la respuesta correcta mientras la fundamenta en el pasaje equivocado, un riesgo crucial en ámbitos de alto riesgo como el derecho, las finanzas y la medicina, donde toda conclusión debe ser trazable hasta una región fuente específica. Para abordar esto, presentamos CiteVQA, un punto de referencia que exige que los modelos devuelvan citas mediante cuadros delimitadores a nivel de elemento junto con cada respuesta, evaluando ambos de forma conjunta. CiteVQA comprende 1,897 preguntas en 711 PDFs de siete dominios y dos idiomas, con un promedio de 40.6 páginas por documento. Para garantizar fidelidad y escalabilidad, las citas de referencia se generan mediante un pipeline automatizado —que identifica evidencia crucial a través de ablación de enmascaramiento— y posteriormente se validan mediante revisión de expertos. En el núcleo de nuestra evaluación se encuentra la Precisión Estricta Atribuida (SAA, por sus siglas en inglés), que acredita una predicción solo cuando tanto la respuesta como la región citada son correctas. La auditoría de 20 MLLMs revela una Alucinación de Atribución generalizada: los modelos producen con frecuencia la respuesta correcta mientras citan la región equivocada. El sistema más potente (Gemini-3.1-Pro-Preview) alcanza una SAA de solo 76.0, y el MLLM de código abierto más potente apenas llega a 22.5. En última instancia, en pos de una inteligencia documental confiable, CiteVQA expone una brecha de fiabilidad que las evaluaciones solo de respuesta pasan por alto, proporcionando la instrumentación necesaria para cerrarla. Nuestro repositorio está disponible en https://github.com/opendatalab/CiteVQA.
Los modelos visión-lenguaje-acción han avanzado rápidamente, pero las trayectorias de robots por sí solas brindan una cobertura limitada para aprender una comprensión física amplia. PhysBrain 1.0 estudia una ruta complementaria: convertir video egocéntrico humano a gran escala en supervisión de sentido común físico estructurado antes de la adaptación del robot. Nuestro motor de datos extrae elementos de la escena, dinámicas espaciales, ejecución de acciones y relaciones conscientes de la profundidad, y los transforma en supervisión de preguntas y respuestas para entrenar los VLM de PhysBrain. Los priors físicos resultantes se transfieren además a políticas VLA a través de un diseño de adaptación que preserva la capacidad y es sensible al lenguaje. En diversos puntos de referencia de preguntas y respuestas multimodales y de control encarnado, incluidos ERQA, PhysBench, SimplerEnv-WidowX, LIBERO y RoboCasa, PhysBrain 1.0 logra resultados de vanguardia y muestra un rendimiento especialmente sólido fuera del dominio en SimplerEnv. Estos resultados sugieren que escalar el sentido común físico a partir de video de interacción humana puede proporcionar un puente efectivo desde la comprensión multimodal hasta la acción robótica.
Las habilidades reutilizables se han convertido en un sustrato fundamental para mejorar las capacidades de los agentes, sin embargo, la mayoría de los paquetes de habilidades existentes codifican el comportamiento reutilizable principalmente como indicaciones textuales, código ejecutable o rutinas aprendidas. Para los agentes visuales, no obstante, el conocimiento procedimental es intrínsecamente multimodal: la reutilización depende no solo de qué operación realizar, sino también de reconocer el estado relevante, interpretar la evidencia visual del progreso o fracaso, y decidir qué hacer a continuación. Formalizamos este requisito como conocimiento procedimental multimodal y abordamos tres desafíos prácticos: (I) qué debe contener un paquete de habilidades multimodal; (II) de dónde se pueden derivar dichos paquetes a partir de la experiencia de interacción pública; y (III) cómo pueden los agentes consultar evidencia multimodal en tiempo de inferencia sin un exceso de contexto de imagen o un anclaje excesivo a capturas de pantalla de referencia. Presentamos MMSkills, un marco para representar, generar y utilizar procedimientos multimodales reutilizables para la toma de decisiones visuales en tiempo de ejecución. Cada MMSkill es un paquete compacto y condicionado por el estado que combina un procedimiento textual con tarjetas de estado en tiempo de ejecución y fotogramas clave multivista. Para construir estos paquetes, desarrollamos un Generador de trayectoria a habilidad basado en agente que transforma trayectorias públicas no evaluativas en habilidades multimodales reutilizables mediante agrupación de flujos de trabajo, inducción de procedimientos, fundamentación visual y auditoría guiada por meta-habilidades. Para utilizarlos, introducimos un agente de habilidades multimodales con carga ramificada: las tarjetas de estado y fotogramas clave seleccionados se inspeccionan en una rama temporal, se alinean con el entorno en vivo y se destilan en orientación estructurada para el agente principal. Experimentos en puntos de referencia de agentes visuales basados en GUI y juegos muestran que MMSkills mejora consistentemente tanto a los agentes multimodales fronterizos como a los más pequeños, lo que sugiere que el conocimiento procedimental multimodal externo complementa las prioridades internas del modelo.
La personalización de video centrada en humanos, particularmente a nivel de prendas de vestir, ha demostrado un significativo valor comercial. Sin embargo, los enfoques existentes no permiten un control interactivo y de baja latencia sobre las prendas, lo cual es crucial para aplicaciones como el comercio electrónico y la creación de contenido. Este estudio investiga cómo lograr una personalización interactiva de múltiples prendas en video, manteniendo la coherencia del movimiento, utilizando únicamente datos de video de una sola prenda. Presentamos FashionChameleon, un marco interactivo y en tiempo real para la personalización de prendas humanas en la generación autorregresiva de video, donde los usuarios pueden cambiar interactivamente la prenda durante la generación. FashionChameleon consta de tres técnicas clave: (i) En lugar de entrenar con datos de video de múltiples prendas, entrenamos un modelo maestro con aprendizaje en contexto a partir de un único par de referencia-prenda. Al mantener el paradigma de entrenamiento de imagen a video e imponer un desajuste entre la imagen de referencia y la prenda, se alienta al modelo a preservar implícitamente la coherencia durante el cambio de una sola prenda. (ii) Para lograr consistencia y eficiencia durante la generación, introducimos destilación en flujo continuo con aprendizaje en contexto, que ajusta el modelo mediante forzamiento de contexto maestro y mejora la consistencia de extrapolación mediante destilación de distribución con reponderación de gradientes. (iii) Para extender el modelo a la personalización interactiva de múltiples prendas en video, proponemos reprogramación de caché KV sin entrenamiento, que incluye actualización de KV de prendas, retiro de KV históricos y desentrelazado de KV de referencia para lograr el cambio de prendas mientras se preserva la coherencia del movimiento. Nuestro FashionChameleon admite de manera única la personalización interactiva y la extrapolación consistente de video largo, logrando una generación en tiempo real a 23.8 FPS en una sola GPU, entre 30 y 180 veces más rápido que los métodos de referencia existentes.
La destilación on-policy (OPD) ha surgido como un paradigma eficiente de post-entrenamiento para modelos de lenguaje grandes. Sin embargo, los estudios existentes atribuyen en gran medida esta ventaja a una supervisión más densa y estable, mientras que los mecanismos a nivel de parámetros subyacentes a la eficiencia de OPD siguen siendo poco comprendidos. En este trabajo, argumentamos que la eficiencia de OPD proviene de una forma de "previsión": establece una trayectoria de actualización estable hacia el modelo final al inicio del entrenamiento. Esta previsión se manifiesta en dos aspectos. Primero, a nivel de Asignación de Módulos, OPD identifica regiones con baja utilidad marginal y concentra las actualizaciones en módulos que son más críticos para el razonamiento. Segundo, a nivel de Dirección de Actualización, OPD exhibe una concentración de bajo rango más fuerte, con sus subespacios dominantes alineándose estrechamente con el subespacio de actualización final al inicio del entrenamiento. Basándonos en estos hallazgos, proponemos EffOPD, un método de aceleración plug-and-play que acelera OPD seleccionando adaptativamente un tamaño de paso de extrapolación y moviéndose a lo largo de la dirección de actualización actual. EffOPD no requiere módulos entrenables adicionales ni ajuste complejo de hiperparámetros, y logra una aceleración promedio del entrenamiento de 3 veces mientras mantiene un rendimiento final comparable. En general, nuestros hallazgos proporcionan una perspectiva de dinámica de parámetros para comprender la eficiencia de OPD y ofrecen ideas prácticas para diseñar métodos de post-entrenamiento más eficientes para modelos de lenguaje grandes.
Lograr una manipulación a nivel humano requiere manos robóticas diestras capaces de realizar interacciones complejas con objetos. Avanzar aún más en dichas capacidades exige puntos de referencia estandarizados para una evaluación sistemática. Sin embargo, los puntos de referencia diestros existentes carecen de tareas que reflejen las capacidades de manipulación únicas de las manos diestras frente a las pinzas paralelas, así como de tuberías de evaluación integrales. En este artículo, presentamos DexJoCo, un benchmark y conjunto de herramientas para la manipulación diestra orientada a tareas, que comprende 11 tareas funcionalmente fundamentadas que evalúan el uso de herramientas, la coordinación bimanual, la ejecución de largo horizonte y el razonamiento. Desarrollamos un sistema de recolección de datos de bajo costo y recolectamos 1.1K trayectorias en estas tareas, con soporte para aleatorización de dominio para evaluar la robustez. Evaluamos modelos modernos bajo diversas configuraciones, incluyendo aleatorización visual y dinámica, entrenamiento multitarea y adaptación de cabezales de acción. Mediante un análisis empírico exhaustivo, identificamos varias ideas importantes y limitaciones comunes de las políticas actuales en manipulación diestra, destacando desafíos clave para futuras investigaciones en aprendizaje de robots con manos diestras. Página del proyecto disponible en: https://dexjoco.github.io
Destilar modelos de razonamiento a gran escala es esencial para que el razonamiento de cadena de pensamiento larga (Long-CoT) resulte práctico, ya que la inferencia a escala completa sigue siendo computacionalmente prohibitiva. Los enfoques existentes basados en curación seleccionan trayectorias de razonamiento completas de forma retrospectiva, pasando por alto la colaboración entre maestros heterogéneos y careciendo de exploración dinámica, lo que conduce a un muestreo redundante y a oportunidades de razonamiento complementarias desaprovechadas. Presentamos CoRD, un marco de decodificación colaborativa con múltiples maestros que realiza una síntesis de razonamiento paso a paso guiada por una puntuación predictiva basada en perplejidad y búsqueda en haz. Esto permite que modelos de razonamiento a gran escala (LRMs) heterogéneos construyan conjuntamente trayectorias de razonamiento coherentes, preservando de manera eficiente hipótesis diversas y de alto potencial. Los experimentos muestran que CoRD produce datos de razonamiento de mayor calidad y logra un rendimiento estudiantil cercano al del maestro con menos señales de supervisión estructuradas, sin una sobrecarga de eficiencia sustancial. Además, CoRD se generaliza bien a entornos fuera del dominio y abiertos. El conjunto de datos y el modelo están disponibles en https://github.com/DISL-Lab/CoRD.
El texto y los rostros se encuentran entre los patrones más perceptualmente destacados y prácticamente importantes en la generación visual, pero siguen siendo un desafío para los generadores autorregresivos basados en tokenización discreta. Un cuello de botella central es el tokenizador: el submuestreo agresivo y la cuantización a menudo descartan las estructuras de grano fino necesarias para preservar glifos legibles y rasgos faciales distintivos. Atribuimos esta brecha a que los objetivos estándar de los tokenizadores discretos están débilmente alineados con la legibilidad del texto y la fidelidad facial, ya que estos objetivos suelen optimizar la reconstrucción genérica mientras comprimen contenido diverso de manera uniforme. Para abordar esto, proponemos InsightTok, un marco de tokenización visual discreta simple pero efectivo que mejora la fidelidad del texto y los rostros mediante pérdidas perceptuales localizadas y conscientes del contenido. Con un libro de códigos compacto de 16k y una tasa de submuestreo de 16x, InsightTok supera significativamente a los tokenizadores anteriores en la reconstrucción de texto y rostros sin comprometer la calidad general de la reconstrucción. Estas mejoras se transfieren de manera consistente a la generación de imágenes autorregresiva en InsightAR, produciendo imágenes con texto más claro y detalles faciales más fieles. En general, nuestros resultados resaltan el potencial de la supervisión especializada en el entrenamiento de tokenizadores para avanzar en la generación discreta de imágenes.
La Optimización Relativa de Políticas de Grupo (Group Relative Policy Optimization, GRPO) se ha vuelto esencial para alinear modelos de difusión de video con preferencias humanas, pero enfrenta un cuello de botella computacional crítico: entrenar un modelo de 14B parámetros normalmente requiere cientos de días de GPU por experimento. Los métodos de eficiencia existentes reducen los costos mediante el submuestreo de ventana deslizante de los pasos de entrenamiento temporales, pero comprometen fundamentalmente la optimización, presentando una inestabilidad severa y sin alcanzar el rendimiento completo de la trayectoria. Presentamos Flash-GRPO, un marco de entrenamiento de un solo paso que supera al entrenamiento de trayectoria completa en calidad de alineación bajo presupuestos computacionales reducidos, mientras mejora sustancialmente la eficiencia del entrenamiento. Flash-GRPO aborda dos desafíos críticos: la agrupación iso-temporal elimina la varianza confundida por los pasos temporales al imponer consistencia temporal por indicación (prompt), desacoplando el rendimiento de la política de la dificultad del paso temporal; la rectificación de gradiente temporal neutraliza el factor de escala dependiente del tiempo que causa magnitudes de gradiente muy inconsistentes entre pasos temporales. Los experimentos en modelos de 1.3B a 14B parámetros validan la efectividad de Flash-GRPO, demostrando una aceleración sustancial del entrenamiento con estabilidad consistente y calidad de alineación de vanguardia.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha surgido como un paradigma escalable para mejorar las capacidades de razonamiento de los grandes modelos lingüísticos. Sin embargo, su efectividad está fundamentalmente limitada por la exploración: la política solo puede mejorar en trayectorias que ya ha muestreado. Si bien aumentar el número de ejecuciones alivia este problema, dicha expansión por fuerza bruta es computacionalmente costosa, y los enfoques existentes que modifican el objetivo de optimización proporcionan un control limitado sobre lo que se explora. En este trabajo, proponemos NudgeRL, un marco para la exploración estructurada e impulsada por la diversidad en RLVR. Nuestro enfoque introduce la Incitación Estratégica (Strategy Nudging), que condiciona cada ejecución a contextos ligeros a nivel de estrategia para inducir trayectorias de razonamiento diversas sin depender de una supervisión costosa mediante oráculos. Para aprender eficazmente de dicha exploración estructurada, proponemos además un objetivo unificado que descompone la señal de recompensa en componentes inter- e intra-contexto, e incorpora un objetivo de destilación para transferir los comportamientos descubiertos de vuelta a la política base. Empíricamente, NudgeRL supera al GRPO estándar con presupuestos de ejecución hasta 8 veces mayores, y supera en promedio a la línea base de RL guiada por oráculo en cinco exigentes puntos de referencia matemáticos. Estos resultados demuestran que la exploración estructurada e impulsada por contexto puede servir como una alternativa eficiente y escalable tanto a la expansión por fuerza bruta de ejecuciones como a los métodos orientados a la viabilidad basados en información privilegiada. Nuestro código está disponible en https://github.com/tally0818/NudgeRL.
Los modelos de mundos de juego actuales simulan entornos desde una perspectiva subjetiva y centrada en el jugador. Sin embargo, al tratar al Personaje No Jugador (PNJ) simplemente como píxeles de fondo, estos modelos no pueden capturar las interacciones entre el jugador y el PNJ. En ese sentido, actúan como renderizadores de video pasivos en lugar de motores de simulación reales, careciendo de la comprensión física necesaria para modelar las reacciones del PNJ inducidas por acciones. Presentamos ReactiveGWM, un modelo de mundo de juego reactivo que sintetiza interacciones dinámicas entre el jugador y el PNJ. En lugar de enredar toda la dinámica de interacción, ReactiveGWM desacopla explícitamente los controles del jugador de los comportamientos del PNJ. Las acciones del jugador se inyectan en la columna vertebral de difusión mediante un sesgo aditivo ligero, mientras que las respuestas de alto nivel del PNJ (p. ej., Ofensiva, Control, Defensiva) se fundamentan a través de módulos de atención cruzada. De manera crucial, estos módulos aprenden una representación de la lógica interactiva independiente del juego. Esto permite la transferencia de estrategia zero-shot: nuestros módulos aprendidos pueden conectarse directamente a modelos de mundos listos para usar y sin anotaciones de diferentes juegos. Esto desbloquea instantáneamente interacciones dirigibles con el PNJ sin ningún reentrenamiento específico del dominio. Evaluado en dos juegos de Street Fighter, ReactiveGWM mantiene un control detallado del jugador a la vez que logra una adherencia robusta y alineada con las indicaciones a la estrategia del PNJ, allanando el camino para una interacción escalable y rica en estrategia con el PNJ.
La Optimización de Políticas Relativas por Grupos (GRPO) mejora los modelos de lenguaje grandes al estimar ventajas a través de un grupo de trayectorias muestreadas. Sin embargo, el mapeo de estas ventajas a nivel de trayectoria a las actualizaciones de política requiere agregar las probabilidades a nivel de token dentro de cada secuencia. Depender de un mecanismo de agregación fijo para este paso limita fundamentalmente la adaptabilidad del algoritmo. Empíricamente, observamos un compromiso crítico: ciertas agregaciones fijas sufren con frecuencia colapso en el entrenamiento, mientras que otras no logran un rendimiento satisfactorio. Para resolver esto, proponemos HölderPO, un marco de optimización de políticas generalizado que unifica la agregación de probabilidades a nivel de token mediante la media de Hölder. Al modular explícitamente el parámetro \( p \), nuestro marco proporciona un control continuo sobre el compromiso entre la concentración del gradiente y los límites de varianza. Teóricamente, demostramos que un \( p \) mayor concentra el gradiente para amplificar señales de aprendizaje dispersas, mientras que un \( p \) menor acota estrictamente la varianza del gradiente. Debido a que ninguna configuración estática puede resolver universalmente este compromiso entre concentración y estabilidad, materializamos el marco con un algoritmo de recocido dinámico que programa progresivamente \( p \) a lo largo del ciclo de vida del entrenamiento. Evaluaciones exhaustivas demuestran una estabilidad y convergencia superiores en comparación con las líneas base existentes. Específicamente, nuestro enfoque alcanza una precisión media del estado del arte de 54,9% en múltiples puntos de referencia matemáticos, lo que supone una ganancia relativa sustancial del 7,2% sobre GRPO estándar, y asegura una excepcional tasa de éxito del 93,8% en ALFWorld.
Los modelos de lenguaje grandes (LLMs) aún enfrentan dificultades con las exigencias de razonamiento riguroso que impone la programación competitiva compleja. Si bien los marcos multiagente recientes intentan cerrar esta brecha de fiabilidad, siguen siendo fundamentalmente sin estado: dependen de la recuperación estática y descartan la valiosa experiencia de resolución de problemas y depuración adquirida en tareas anteriores. Para abordar esto, presentamos Solvita, un marco de evolución agentivo que permite el aprendizaje continuo sin requerir actualizaciones de pesos en el LLM subyacente. Solvita reorganiza la resolución de problemas en un sistema de bucle cerrado que integra selección de estrategias, síntesis de programas, supervisión certificada y corrección dirigida, ejecutado por cuatro agentes especializados: Planificador, Solucionador, Oráculo y Hacker. De manera crucial, cada agente está emparejado con una red de conocimiento entrenable y estructurada en grafos. A medida que el sistema opera, las señales de resultado —como veredictos de aprobado/fallo, calidad de la certificación de pruebas y vulnerabilidades adversariales descubiertas por el Hacker— se reformulan como actualizaciones de aprendizaje por refuerzo sobre estos pesos de la red. Esto permite a los agentes enrutar dinámicamente consultas futuras basándose en éxitos y fracasos pasados, acumulando efectivamente experiencia de razonamiento transferible a lo largo del tiempo. Evaluado en CodeContests, APPS, AetherCode y rondas en vivo de Codeforces, Solvita establece un nuevo estado del arte entre los agentes generadores de código, superando a los pipelines multiagente existentes y casi duplicando la precisión de las líneas base de un solo paso.
Los modelos modernos de edición de imágenes producen resultados realistas, pero tienen dificultades con instrucciones abstractas y de múltiples pasos (por ejemplo, ``haz este anuncio más amigable para vegetarianos''). Los métodos previos basados en agentes descomponen dichas tareas, pero dependen de pipelines artesanales o de la imitación del profesor, lo que limita la flexibilidad y desvincula el aprendizaje de los resultados reales de edición. Proponemos un marco experiencial para la edición de imágenes a largo plazo, donde un planificador genera descomposiciones atómicas estructuradas y un orquestador selecciona herramientas y regiones para ejecutar cada paso. Un juez de visión y lenguaje proporciona recompensas basadas en los resultados por la adherencia a las instrucciones y la calidad visual. El orquestador se entrena para maximizar estas recompensas, y las trayectorias exitosas se utilizan para refinar el planificador. Al acoplar estrechamente la planificación con la ejecución impulsada por recompensas, nuestro enfoque produce ediciones más coherentes y fiables que las líneas base de un solo paso o de múltiples pasos basadas en reglas.
Los grandes modelos de lenguaje y visión han avanzado significativamente en los agentes de interfaz gráfica de usuario (GUI), permitiendo una interacción ejecutable en interfaces web, móviles y de escritorio. Sin embargo, estos avances dependen en gran medida de un paradigma tolerante a regiones, donde muchos píxeles cercanos dentro del mismo componente siguen siendo válidos. La construcción geométrica precisa rompe esta suposición: las acciones deben situarse en puntos del espacio continuo del lienzo, en lugar de regiones tolerantes. Debido a que los primitivos geométricos conllevan dependencias ontológicas, un error de coordenadas local puede inducir fallos topológicos en cascada que distorsionan los objetos posteriores e invalidan la construcción final. Identificamos este régimen como tareas de GUI sensibles a la precisión, que requieren exactitud a nivel de punto, verificación basada en geometría y robustez frente a la propagación de errores impulsada por dependencias. Para evaluarlo, presentamos PAGE Bench, con 4,906 problemas y más de 224 mil acciones de GUI a nivel de píxel supervisadas por proceso. Además, proponemos PAGER, un agente consciente de la topología que descompone la construcción en planificación estructurada por dependencias y ejecución a nivel de píxel. El ajuste supervisado basado en píxeles establece una gramática de acciones ejecutables, mientras que el aprendizaje por refuerzo alineado con precisión mitiga el sesgo de exposición inducido por el despliegue mediante retroalimentación geométrica condicionada al estado. Los experimentos revelan una marcada brecha semántico-ejecutiva: los modelos multimodales generales pueden superar el 88% de precisión en el tipo de acción, pero permanecen por debajo del 6% de éxito en la tarea. PAGER cierra esta brecha, logrando un éxito en la tarea 4.1 veces mayor que la mejor línea base general evaluada y elevando la tasa de éxito de paso de menos del 9% para agentes especializados en GUI a más del 62%, estableciendo un nuevo estado del arte para el control de GUI con precisión puntual.
El aprendizaje visual 3D moderno se basa en observaciones muestreadas a partir de activos 3D métricos, pero los escaneos, mallas, nubes de puntos, simulaciones y reconstrucciones existentes no proporcionan directamente una interfaz de entrenamiento panorámica escasa, comparable y geométricamente coherente. Las trayectorias densas duplican vistas cercanas, las políticas de renderizado específicas de cada fuente generan anotaciones heterogéneas, y las heurísticas dispersas pueden pasar por alto regiones importantes o introducir observaciones inconsistentes en profundidad. Estudiamos cómo convertir activos 3D en datos RGB-D-pose panorámicos y dispersos que preserven una cobertura completa de la escena con baja redundancia y trazabilidad auditada. Proponemos COVER (Selección de Puntos de Vista Orientada a Cobertura mediante Distorsión de Rango de Profundidad ERP), un curador de puntos de vista ERP sin entrenamiento que proyecta la geometría observada desde vistas seleccionadas en sondas ERP candidatas, puntúa la cobertura incremental y penaliza los conflictos de profundidad. Bajo un error de aproximación acotado, su proxy de cobertura codicioso preserva el comportamiento estándar de aproximación tipo cobertura hasta un término de error aditivo. Utilizando COVER, construimos CM-EVS (Conjunto de Vistas ERP Métricas Curadas por Cobertura), un conjunto de datos RGB-D-pose panorámico con 36,373 fotogramas ERP curados de 1,275 escenas interiores de Blender indoor, HM3D y ScanNet++, complementado con panorámicas exteriores de TartanGround y OB3D recodificadas en el mismo esquema. Cada fotograma proporciona RGB de esfera completa, profundidad de rango métrica y pose calibrada; los fotogramas interiores generados por COVER incluyen registros de proveniencia por paso. Con una mediana de solo 25 fotogramas por escena interior, CM-EVS cubre los 13 tipos de habitaciones unificados, manteniendo una cobertura compacta a nivel de escena. Los experimentos muestran que COVER mejora el equilibrio entre cobertura y conflicto, convirtiendo a CM-EVS en un recurso RGB-D-pose escaso, compacto y trazable para el aprendizaje panorámico 3D con coherencia geométrica.
Los Modelos de Visión-Lenguaje (VLMs) destacan en tareas 2D como el anclaje y el subtitulado, pero siguen siendo limitados en la comprensión 3D. Una limitación clave es su paradigma de supervisión exclusivamente textual, que restringe insuficientemente la percepción visual detallada e impide recuperar geometría densa. Los métodos previos o bien destilan geometría de modelos de visión externos, introduciendo acumulación de errores, o permiten la predicción directa mediante consultas ineficientes por píxel o salidas a nivel de token poco detalladas. En este artículo, proponemos DepthVLM, un marco simple pero efectivo que transforma un único VLM en un predictor nativo de geometría densa, preservando al mismo tiempo su capacidad multimodal. Al añadir un cabezal de profundidad ligero a la columna vertebral del LLM y entrenarlo bajo un paradigma de supervisión unificada visión-texto con un programa de dos etapas, DepthVLM genera mapas de profundidad de resolución completa junto con salidas de lenguaje en una única pasada hacia adelante. Además, introducimos un punto de referencia unificado de profundidad métrica para interiores y exteriores en un formato compatible con VLMs. Los experimentos muestran que DepthVLM supera significativamente a los VLMs existentes con mayor eficiencia de inferencia, sobrepasa a los modelos puramente visuales líderes y mejora el razonamiento espacial 3D complejo, avanzando hacia un modelo fundacional verdaderamente unificado. Todo el código y los puntos de control se publicarán públicamente.
Los sistemas multiagente automáticos buscan instanciar flujos de trabajo de agentes sin depender de una orquestación diseñada manualmente o fija. Sin embargo, los enfoques automáticos existentes para sistemas multiagente siguen siendo solo parcialmente adaptativos: o bien realizan búsqueda en tiempo de prueba sin entrenamiento, o bien optimizan el diseñador a nivel meta mientras mantienen congelados los agentes ejecutores descendentes, lo que crea un techo de ejecutor congelado y deja inexplorado el entrenamiento de extremo a extremo de modelos agentivos que se autodiseñan y auto-ejecutan. Para abordar esto, presentamos MetaAgent-X, un marco de aprendizaje por refuerzo de extremo a extremo que optimiza conjuntamente el diseño y la ejecución automática de sistemas multiagente. MetaAgent-X permite la generación de sistemas multiagente basados en scripts, la recopilación de rollouts de ejecución y la asignación de créditos tanto para las trayectorias del diseñador como del ejecutor. Para respaldar una optimización estable y escalable, proponemos el Despliegue Jerárquico Ejecutor-Diseñador y la Coevolución por Etapas para mejorar la estabilidad del entrenamiento y exponer la dinámica de la coevolución diseñador-ejecutor. MetaAgent-X supera consistentemente a las líneas base automáticas existentes de sistemas multiagente, logrando mejoras de hasta un 21.7%. Las ablaciones exhaustivas muestran que tanto el diseñador como el ejecutor mejoran a lo largo del entrenamiento, y que el aprendizaje efectivo de sistemas multiagente automáticos sigue un proceso de coevolución por etapas. Estos resultados establecen los sistemas multiagente automáticos entrenables de extremo a extremo como un paradigma práctico para construir modelos agentivos que se autodiseñan y auto-ejecutan.
La dirección de activaciones es una técnica popular de control de caja blanca que modifica las activaciones del modelo para provocar un cambio abstracto en su comportamiento. También se ha convertido en una herramienta estándar en la investigación en interpretabilidad (por ejemplo, sondear la veracidad, o traducir activaciones en explicaciones legibles para humanos) y en seguridad (por ejemplo, la capacidad de jailbreak). Sin embargo, no está claro si el comportamiento dirigido es realizable mediante algún prompt textual. En este trabajo, planteamos esta cuestión como un problema de sobreyectividad: para un modelo fijo, ¿toda activación dirigida admite una preimagen bajo el paso hacia adelante natural del modelo? Bajo supuestos prácticos, demostramos que la dirección de activaciones empuja el flujo residual fuera de la variedad de estados alcanzables desde prompts discretos. Casi con certeza, ningún prompt puede reproducir el mismo comportamiento interno inducido por la dirección. También ilustramos este hallazgo empíricamente en tres LLMs ampliamente utilizados. Nuestros resultados establecen una separación formal entre la controlabilidad de caja blanca y el prompting de caja negra. Por lo tanto, advertimos contra la interpretación de la facilidad y el éxito de la dirección de activaciones como evidencia de interpretabilidad o vulnerabilidad basada en prompts, y abogamos por protocolos de evaluación que desacoplen explícitamente las intervenciones de caja blanca y caja negra.
La monitorización de activos industriales complejos se basa en reglas simbólicas creadas por ingenieros que se activan según condiciones de sensores y solicitan a los técnicos que realicen acciones correctivas. El cuello de botella no es la detección sino la respuesta: traducir reglas en pasos de mantenimiento requiere conocimiento específico del activo adquirido mediante años de práctica. Investigamos si los LLM pueden servir como apoyo a la decisión para este paso de regla a acción e introducimos , un punto de referencia de 6.690 preguntas de opción múltiple validadas por expertos a partir de 118 pares regla-acción en 16 tipos de activos. Contribuimos (i) un pipeline de simbólico a MCQA que normaliza reglas a Forma Normal Disyuntiva con muestreo de distractores basado en embeddings, (ii) cinco variantes que exploran distintos modos de fallo (Pro, Pert, Verbose, Aug, Rationale), y (iii) un punto de referencia de 29 LLM y 4 líneas base de embeddings. Una evaluación humana (9 profesionales, media 45.0%) confirma que requiere conocimiento especializado más allá de la experiencia operativa. Tres hallazgos destacan. La frontera se ha cerrado: los tres mejores LLM se sitúan dentro de un punto Macro, con el Elo de Bradley-Terry colocando a claude-opus-4-6 30 puntos por encima del siguiente modelo. Sin embargo, \ ,Pro expone fragilidad, ya que todos los modelos pierden entre un 13 y un 60% de precisión relativa bajo expansión de distractores. \ ,Aug expone coincidencia de patrones: bajo inversión de condiciones, los modelos frontera aún seleccionan la respuesta original el 49–63% de las veces. El cuello de botella en la implementación no es la capacidad sino la calibración: los modelos frontera manejan la detección de fallos de estilo plantilla, pero fallan bajo perturbación estructural.
El reciente avance de los modelos de Visión Lenguaje Acción (VLA) ha generado una demanda crítica de conjuntos de datos egocéntricos a gran escala. Sin embargo, los conjuntos de datos existentes suelen estar limitados por episodios de corta duración, que abarcan típicamente solo unos pocos minutos, lo que no logra capturar las dependencias temporales de largo horizonte necesarias para la ejecución de tareas robóticas complejas. Para superar esta brecha, presentamos MobileEgo Anywhere, un marco diseñado para facilitar la recolección de trayectorias egocéntricas robustas de más de una hora utilizando hardware móvil comercial. Aprovechamos las ubicuas suites de sensores de los teléfonos inteligentes modernos para proporcionar un seguimiento de pose de cámara de alta fidelidad y largo plazo, eliminando efectivamente las altas barreras de hardware asociadas con la recolección de datos robóticos tradicional. Nuestras contribuciones son tres: (1) publicamos un novedoso conjunto de datos que comprende 200 horas de datos egocéntricos diversos y de formato largo con seguimiento persistente de estado; (2) lanzamos como código abierto una aplicación móvil que permite a cualquier usuario grabar datos egocéntricos; y (3) proporcionamos un flujo de procesamiento integral para convertir las capturas móviles en bruto en formatos estandarizados listos para entrenamiento de modelos Visión Lenguaje Acción e investigación de modelos fundacionales. Al democratizar el proceso de recolección de datos, este trabajo permite la adquisición masiva a gran escala de datos de largo horizonte en diversos entornos globales, acelerando el desarrollo de políticas robóticas generalizables.
La generación de imágenes en pocos pasos ha experimentado un rápido progreso, con métodos basados en consistencia y flujo medio que reducen significativamente el número de pasos de muestreo. A pesar de su bajo costo de inferencia, estos enfoques suelen presentar inestabilidad en el entrenamiento y una escalabilidad limitada. Sphere Encoder es una alternativa reciente que produce imágenes de alta calidad en solo unos pocos pasos; sin embargo, requiere transiciones repetidas entre el espacio de píxeles y el espacio latente durante la inferencia, optimizando conjuntamente reconstrucción y generación dentro de una única arquitectura. Este diseño conduce a una ineficiencia computacional y a un conflicto objetivo entre reconstrucción y generación. Para abordar estas limitaciones, desacoplamos el marco en un codificador de imágenes preentrenado fijo y un modelo de eliminación de ruido latente entrenado completamente en un espacio latente esférico. Nuestro enfoque elimina las operaciones repetidas en el espacio de píxeles durante el entrenamiento y la inferencia, mejorando la eficiencia y permitiendo que la reconstrucción y la generación se especialicen de forma independiente. En los conjuntos de datos Animal-Faces, Oxford-Flowers e ImageNet-1K, nuestro método supera significativamente a Sphere Encoder tanto en calidad de generación como en velocidad de inferencia, a la vez que logra resultados competitivos frente a líneas base sólidas de pocos pasos y múltiples pasos.
Los modelos de visión-lenguaje preentrenados a gran escala, como CLIP, demuestran un rendimiento zero-shot notable en diversas tareas. Sin embargo, el ajuste fino de estos modelos para mejorar el rendimiento en tareas posteriores a menudo degrada la robustez frente a cambios de distribución. Enfoques recientes han intentado mitigar esta disyuntiva, pero con frecuencia dependen de una guía textual costosa computacionalmente. Proponemos un método novedoso para el ajuste fino robusto, SAE-FT, que opera únicamente sobre las representaciones visuales del modelo. SAE-FT regulariza los cambios en estas representaciones penalizando la adición y eliminación de características semánticamente significativas identificadas por un Autoencoder Disperso entrenado en el modelo preentrenado. Esta restricción previene el olvido catastrófico y hace que el proceso de ajuste fino sea interpretable, permitiendo un análisis directo de los cambios semánticos. SAE-FT es tanto mecánicamente transparente como computacionalmente eficiente, igualando o superando el rendimiento de vanguardia en ImageNet y sus conjuntos de datos de referencia asociados para cambios de distribución. El código está disponible públicamente en: https://github.com/Fabian-Mor/sae-ft.
La reconstrucción de avatares tradicionalmente se ha basado en una optimización por sujeto que requiere horas de cómputo o en un costoso preprocesamiento que limita la escalabilidad. Presentamos FFAvatar, un marco generalizable de tipo feed-forward que reconstruye avatares de cabezas 3D gaussianas de alta calidad y animables a partir de imágenes de retrato no posadas con pocas muestras en cuestión de segundos. FFAvatar fusiona información de múltiples imágenes fuente en una representación gaussiana canónica unificada mediante el Multi-View Query-Former, que se anima a través de parámetros FLAME predichos de extremo a extremo directamente a partir de píxeles, eliminando la sobrecarga de la extracción offline de FLAME. Además, proponemos un plan de entrenamiento en tres etapas que logra tanto una amplia generalización como una reconstrucción de alta fidelidad: (i) preentrenamiento escalable en datos extensos de video monocular con más de 1 millón de identidades para aprender fuertes prioridades generalizables; (ii) ajuste fino multivista en un conjunto de datos pequeño pero de alta calidad de capturas de 360 grados para mejorar la fidelidad geométrica y la conciencia de vistas extremas; y (iii) personalización opcional que se adapta a identidades específicas para máxima fidelidad en tan solo 500 pasos de optimización. Experimentos exhaustivos demuestran que FFAvatar establece un nuevo estándar en preservación de identidad, consistencia geométrica y fidelidad de animación. En el punto de referencia NeRSemble, supera al estado del arte LAM con una ganancia sustancial de 5,5 PSNR. Además, FFAvatar permite el despliegue en tiempo real, reconstruyendo avatares en 2 segundos sin personalización y en 10 segundos con personalización, mientras soporta una animación de 49 FPS en una sola GPU NVIDIA A100.
Los agentes basados en grandes modelos lingüísticos suelen fallar en entornos desconocidos debido a una explotación prematura: la tendencia a actuar basándose en conocimientos previos antes de adquirir suficiente información específica del entorno. Identificamos la exploración autónoma como una capacidad crítica pero poco explorada para construir agentes adaptativos. Para formalizar y cuantificar esta capacidad, introducimos la Cobertura de Puntos de Control de Exploración, una métrica verificable que mide cuán ampliamente un agente descubre estados, objetos y affordances clave. Nuestra evaluación sistemática revela que los agentes entrenados con aprendizaje por refuerzo estándar orientado a tareas muestran consistentemente comportamientos estrechos y repetitivos que perjudican el rendimiento posterior. Para abordar esta limitación, desarrollamos una estrategia de entrenamiento que intercala ejecuciones de tareas y ejecuciones de exploración, optimizando cada tipo de ejecución con su recompensa verificable correspondiente. Basándonos en esta estrategia de entrenamiento, proponemos el paradigma Explorar-luego-Actuar, que desacopla la recopilación de información de la ejecución de la tarea: los agentes primero utilizan un presupuesto de interacción para adquirir conocimiento fundamentado del entorno, y luego lo aprovechan para la resolución de la tarea. Nuestros resultados demuestran que aprender a explorar sistemáticamente es imprescindible para construir agentes generalizables y listos para el mundo real.
Los recientes sistemas de modelado de mundos 3D basados en síntesis generativa de escenas, como Marble, pueden crear entornos 3D coherentes y explorables, pero sus resultados suelen ser activos monolíticos estáticos con editabilidad e interacción física limitadas. Esto restringe su uso en la creación de contenido inmersivo y la simulación corpórea, donde los mundos generados deben ser modificados y manipulados activamente. Para abordar este desafío, presentamos WorldAct, un marco que convierte mundos 3D generados estáticamente en escenas editables y listas para la interacción. WorldAct utiliza un agente multimodal para guiar la descomposición de la escena, identificar objetos accionables, reconstruir mallas a nivel de objetos geométricamente alineadas para la interacción y restaurar el fondo residual mediante inpainting 3D. Las escenas resultantes admiten edición a nivel de objetos, manipulación consciente de colisiones y ejecución de tareas corpóreas, preservando al mismo tiempo la coherencia global de la escena. Los experimentos muestran que WorldAct permite escenarios de interacción más ricos que las escenas generadas originalmente, lo que sugiere un camino práctico hacia modelos de mundos 3D editables e interactivos.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha emergido como un paradigma eficaz para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Sin embargo, el entrenamiento con RLVR a menudo se ve obstaculizado por recompensas binarias dispersas y una débil asignación de crédito, lo que genera señales de optimización ambiguas y una infrautilización de la información útil contenida en las trayectorias fallidas. Para abordar este desafío, proponemos la Optimización de Políticas Orientada a la Corrección (CIPO), una extensión simple y efectiva de RLVR que convierte las trayectorias fallidas on-policy en supervisión orientada a la corrección, sin depender de señales externas. Al optimizar conjuntamente las muestras de corrección derivadas de los propios intentos fallidos del modelo junto con el objetivo estándar de RLVR, CIPO mejora la efectividad del aprendizaje mientras potencia explícitamente la capacidad del modelo para corregir sus propios errores. Experimentos exhaustivos en 11 benchmarks que abarcan razonamiento matemático y generación de código demuestran que CIPO supera de manera consistente y significativa a los sólidos baselines tanto en rendimiento de razonamiento como de corrección. Además, CIPO produce mayores ganancias en pass@K, lo que indica que mejora la capacidad intrínseca de razonamiento del modelo en lugar de simplemente redistribuir la masa de probabilidad sobre las respuestas correctas existentes.
Hacia la auto-mejora recursiva, investigamos agentes de LLM que diseñan de forma autónoma modelos fundacionales más allá de los Transformers estándar. Introducimos un enfoque de doble marco: AIRA-Compose para la búsqueda de arquitecturas de alto nivel, y AIRA-Design para la implementación mecanicista de bajo nivel. AIRA-Compose utiliza 11 agentes para explorar primitivas computacionales fundamentales bajo un presupuesto de 24 horas. Los agentes evalúan candidatos de millones de parámetros, extrapolando los mejores diseños a escalas de 350M, 1B y 3B. Esto produce 14 arquitecturas en dos familias: AIRAformers (basadas en Transformer) y AIRAhybrids (Transformer-Mamba). Preentrenadas a escala de 1B, estas superan consistentemente a Llama 3.2 y a las líneas base encontradas por Composer. En tareas posteriores, AIRAformer-D y AIRAhybrid-D mejoran la precisión en un 2.4% y un 3.8% respecto a Llama 3.2. Además, AIRA-Compose encuentra modelos con fronteras de escalado altamente eficientes: AIRAformer-C escala un 54% y un 71% más rápido que Llama 3.2 y el mejor Transformer de Composer, mientras que AIRAhybrid-C supera a Nemotron-2 en un 23% y al mejor híbrido de Composer en un 37%. AIRA-Design encomienda a 20 agentes la tarea de escribir mecanismos de atención novedosos para dependencias de largo alcance y scripts de entrenamiento de alto rendimiento. En el benchmark Long Range Arena, las arquitecturas diseñadas por agentes alcanzan una diferencia de hasta el 2.3% y el 2.6% respecto al estado del arte humano en coincidencia de documentos y clasificación de texto. En el benchmark Autoresearch, Greedy Opus 4.5 logra 0.968 bits por byte de validación bajo un presupuesto de tiempo fijo, superando el mínimo publicado. En conjunto, estos marcos muestran que los agentes de IA pueden descubrir de forma autónoma arquitecturas y optimizaciones algorítmicas que igualan o superan las líneas base diseñadas por humanos. Esto establece un paradigma poderoso para descubrir modelos fundacionales de próxima generación, marcando un paso claro hacia la auto-mejora recursiva.
Ya sea navegando por un edificio, operando un robot o jugando un juego, un agente que actúa eficazmente en un entorno debe primero aprender un modelo interno de cómo funciona ese entorno. Los procesos de decisión de Markov parcialmente observables (POMDPs) proporcionan una clase de modelado flexible para dichos modelos internos del mundo, pero aprenderlos únicamente a partir de trayectorias de observación-acción es un desafío y normalmente requiere una interacción extensa con el entorno. Nos preguntamos si las prioridades de los modelos de lenguaje pueden reducir la interacción costosa al aprovechar el conocimiento previo, e introducimos Pinductor (POMDP-inductor): un LLM propone modelos POMDP candidatos a partir de unas pocas trayectorias de observación-acción y los refina iterativamente para optimizar una puntuación de verosimilitud basada en creencias. A pesar de utilizar estrictamente menos información, Pinductor iguala el rendimiento y la eficiencia de muestreo de los métodos de aprendizaje POMDP basados en LLM que asumen acceso privilegiado al estado oculto, mientras supera significativamente la eficiencia de muestreo de las líneas base tabulares de POMDP. Resultados adicionales muestran que el rendimiento escala con la capacidad del LLM y se degrada de forma gradual a medida que se retiene información semántica sobre el entorno. En conjunto, estos resultados posicionan las prioridades de los modelos de lenguaje como una herramienta práctica para el aprendizaje eficiente en muestreo de modelos del mundo bajo observabilidad parcial, y un paso hacia agentes generalistas en entornos del mundo real. El código está disponible en https://github.com/atomresearch/pinductor.
Las capas de Mezcla Dispersa de Expertos (MoE) enrutan tokens a través de un puñado de expertos, y la compresión sin aprendizaje de estas capas reduce el costo de inferencia sin reentrenamiento. Una obstrucción sutil bloquea a todos los compresores existentes en esta familia: tres expertos pueden ser compatibles por pares pero formar un ciclo irreducible al fusionarse, por lo que cualquier puntuación que clasifique expertos según señales por pares es estructuralmente ciega a qué tripletes son fusionables conjuntamente. Mostramos que la obstrucción es un objeto matemático preciso, el núcleo armónico del Laplaciano simplicial en un 2-complejo cuyos vértices son expertos, cuyas aristas llevan barreras de fusión KL y cuyas caras llevan barreras de tripletes; la descomposición de Hodge de la señal de barrera de aristas aísla exactamente el núcleo. Convertimos el diagnóstico en un objetivo de selección: HodgeCover cubre de manera voraz las aristas crítico-armónicas y los triángulos crítico-triplete, y una variante híbrida de HodgeCover lo empareja con poda de pesos estándar en los supervivientes. En tres modelos base MoE Dispersos de pesos abiertos bajo reducción agresiva de expertos, HodgeCover iguala las referencias de última generación sin aprendizaje en el eje de reducción de expertos, lidera en la frontera de compresión agresiva del eje híbrido, y equilibra de manera única la masa retenida en los cuatro componentes de Hodge. Estos resultados muestran que exponer el núcleo armónico de una estructura MoE aprendida cambia qué compresor gana en el régimen que más importa.
La generación de video cross-embodiment tiene como objetivo transferir movimientos entre diferentes encarnaciones humanoides, como de humano a robot y de robot a robot, permitiendo la generación escalable de datos para la inteligencia corpórea. Un desafío importante en este contexto es que la dinámica del movimiento es parcialmente transferible entre encarnaciones, mientras que la apariencia y la morfología siguen siendo específicas de cada encarnación. Los enfoques existentes a menudo entremezclan estos factores, y muchos requieren datos emparejados para cada encarnación objetivo, lo que limita la escalabilidad a nuevos robots. Presentamos OmniHumanoid, un marco que factoriza el aprendizaje de movimiento transferible y la adaptación específica de la encarnación. Nuestro método aprende un modelo compartido de transferencia de movimiento a partir de videos emparejados y alineados en movimiento que abarcan múltiples encarnaciones, mientras se adapta a una nueva encarnación utilizando solo videos no emparejados a través de adaptadores ligeros específicos de la encarnación. Para reducir la interferencia entre la transferencia de movimiento y la adaptación de la encarnación, introducimos además un diseño de atención de rama aislada que separa el condicionamiento del movimiento de la modulación específica de la encarnación. Además, construimos un conjunto de datos sintético cross-embodiment con videos emparejados y alineados en movimiento renderizados a través de diversos activos humanoides, escenas y puntos de vista. Los experimentos tanto en puntos de referencia sintéticos como del mundo real muestran que OmniHumanoid logra una alta fidelidad de movimiento y consistencia de encarnación, mientras permite una adaptación escalable a encarnaciones humanoides no vistas sin reentrenar el modelo de movimiento compartido.
La detección de cambios mediante teledetección (RSCD) tiene como objetivo localizar cambios entre dos imágenes de la misma región geográfica. En la práctica, las máscaras de cambio suelen seguir convenciones de anotación a nivel de región en lugar de diferencias puramente locales de apariencia, lo que las hace dependientes del contexto y, ocasionalmente, ambiguas. La mayoría de los métodos de última generación utilizan clasificación discriminativa por píxel, que produce una única predicción por entrada y no logra modelar explícitamente la región cambiada como un todo coherente. Una alternativa natural es la formulación generativa, que puede modelar una distribución de máscaras plausibles, permitiendo el muestreo para capturar ambigüedad y fomentar la consistencia global. Sin embargo, los enfoques generativos existentes para RSCD suelen quedar rezagados respecto a las líneas base discriminativas sólidas debido al alto costo computacional de la generación en el espacio de píxeles y a la complejidad de sus mecanismos de condicionamiento. Para abordar las limitaciones de los métodos discriminativos y generativos previos, proponemos ChangeFlow, un marco generativo que reformula la detección de cambios como la síntesis de una máscara de cambio en el espacio latente mediante flujo rectificado. ChangeFlow se guía por una señal de condicionamiento estructurada pero liviana, y su diseño estocástico respalda naturalmente el ensamblado de predicciones basado en muestreo. En concreto, la agregación de múltiples máscaras de cambio predichas mejora la robustez, mientras que el acuerdo entre muestras proporciona una estimación de confianza práctica que resalta regiones ambiguas. En cuatro puntos de referencia, ChangeFlow alcanza un F1 promedio del 80.4 %, mejorando en 1.3 puntos en promedio respecto al mejor método anterior, manteniendo una velocidad de inferencia comparable a líneas base sólidas recientes. Página del proyecto: https://blaz-r.github.io/changeflow_cd
Los agentes de modelos de lenguaje a gran escala (LLM) se ejecutan cada vez más dentro de marcos de ejecución que gestionan herramientas, asignan recursos y enrutan mensajes entre componentes especializados. Sin embargo, un marco de ejecución puede devolver una respuesta correcta e inofensiva a lo largo de una trayectoria que accede a recursos no autorizados o filtra contexto al agente equivocado. La evaluación a nivel de salida no puede detectar estos fallos, y sin embargo la mayoría de los puntos de referencia de seguridad solo evalúan los resultados finales o estados terminales, aunque muchas violaciones ocurren a mitad de la trayectoria y no en su terminación. La cuestión central es si el marco de ejecución respeta la intención del usuario, los límites de permisos y las restricciones de flujo de información durante toda la ejecución. Para abordar esta brecha, proponemos HarnessAudit, un marco que audita trayectorias completas de ejecución en cuanto al cumplimiento de límites, fidelidad de ejecución y estabilidad del sistema, con un enfoque en marcos multiagente donde estos riesgos son más pronunciados. Además, introducimos HarnessAudit-Bench, un punto de referencia de 210 tareas en ocho dominios del mundo real, implementado tanto en configuraciones de un solo agente como multiagente con restricciones de seguridad integradas. Evaluando diez configuraciones de marcos de ejecución en modelos de frontera y tres marcos multiagente, encontramos que: (i) la finalización de tareas no está alineada con una ejecución segura, y las violaciones se acumulan con la longitud de la trayectoria; (ii) los riesgos de seguridad varían según los dominios, tipos de tarea y roles de los agentes; (iii) la mayoría de las violaciones se concentran en el acceso a recursos y la transferencia de información entre agentes; y (iv) la colaboración multiagente expande la superficie de riesgo de seguridad, mientras que el diseño del marco de ejecución establece el límite superior para un despliegue seguro.
Auditamos el canal de evaluación multimodal de física de extremo a extremo y documentamos tres prácticas de construcción no detectadas que distorsionan la medición del razonamiento visión-lenguaje en este campo: contaminación entre entrenamiento y evaluación, deriva en la traducción y saturación de MCQ. (1) Los pools de entrenamiento públicos (UGPhysics-Train, SciInstruct, MMK12) pasan auditorías Jaccard de 5-gramas de una sola etapa con cero coincidencias en las seis evaluaciones de física públicas; una auditoría de tres etapas (Jaccard → coseno de mxbai-embed-large → juez LLM Haiku-4.5) revela 134 casi duplicados y 4846 candidatos a paráfrasis solo en SciInstruct. (2) Un delta de 17 pp de Sonnet 4.5 en 59 problemas de olimpiada emparejados en estonio e inglés (30.5% vs. 13.6%; prueba de signos p=0.011, McNemar p=0.021, IC bootstrap pareado del 95% [+5.1, +28.9] pp). (3) Un gradiente de formato y novedad de 46 pp en pesos idénticos de Sonnet entre MCQ (79.7% en PhyX) y evaluación abierta de olimpiada (33.4% en PhysOlym-A). Publicamos cuatro artefactos que abordan estas brechas: PhysCorp-A (corpus multimodal auditado en tres etapas con 6432 registros), PhysR1Corp (pool de RL de forma cerrada con 2268 registros), PhysOlym-A (evaluación de olimpiada retenida con 500 problemas, 99.8% de fuente novedosa, etiquetas de dificultad nativas y un subconjunto bilingüe EN/ET), y Physics-R1, una receta de referencia GSPO+DAPO iniciada en frío desde Qwen3-VL-8B-Thinking. En 3 semillas, Physics-R1 eleva el corpus auditado sobre la base de 8B en +18.3 pp en PhysOlym-A liberal (8.0 → 26.3 ± 1.7; 7.1 pp por detrás de Sonnet 4.5), +15.7 pp en PhysReason (23.9 → 39.6 ± 6.4; por delante de Qwen3-VL-32B y Gemini 2.5 Pro), +6.9 pp en OlympiadBench-Physics (46.2 ± 1.5) y +4.1 pp en MCQ de PhyX (77.8 ± 0.3).
La Atención Latente de Múltiples Cabezas (MLA), utilizada en DeepSeek-V2/V3, comprime conjuntamente claves y valores en una representación latente de bajo rango y se ajusta casi perfectamente a la curva roofline de la H100. Sin embargo, sus pesos entrenados exponen únicamente una ruta de decodificación —una forma MQA absorbida— que vincula la inferencia eficiente a ratios cómputo-ancho de banda propios de la clase H100, elimina el paralelismo de tensores a lo largo del eje de las cabezas y no genera ninguna ganancia en la Predicción de Múltiples Tokens (MTP) en GPU de inferencia comerciales, como la H20 con restricciones de exportación. Proponemos la Atención Latente de Consulta por Grupo (GQLA), una modificación mínima de MLA cuyos pesos entrenados exponen dos rutas de decodificación algebraicamente equivalentes sobre los mismos parámetros: una ruta absorbida MQA idéntica a la de MLA, y una ruta GQA con una caché expandida por grupo. En tiempo de ejecución se selecciona la ruta que mejor se adapta al hardware objetivo —sin reentrenamiento ni kernels personalizados—, de modo que un único conjunto de pesos GQLA fija las curvas roofline tanto de la H100 (ruta MQA absorbida, s_q=1) como de la H20 (ruta GQA + MTP, s_q=2), al tiempo que admite hasta 8 vías de paralelismo de tensores sin redundancia en la ruta GQA. Para evitar el preentrenamiento desde cero, extendemos TransMLA a TransGQLA, que convierte un punto de control GQA preentrenado en un modelo GQLA; en LLaMA-3-8B comprime la caché KV por token al 28.125% del valor base GQA en la ruta MQA absorbida, preservando estructuralmente el tráfico propio de GQA en la ruta por grupo.
Las evaluaciones estándar de desaprendizaje miden la supresión conductual en precisión completa, inmediatamente después del entrenamiento, a pesar de que cada modelo de lenguaje desplegado se cuantiza primero. Trabajos recientes han demostrado que la cuantización posterior al entrenamiento de 4 bits puede revertir el desaprendizaje automático; mostramos que esto no es un artefacto de ajuste sino un fallo sistemático dual: los métodos basados en gradientes que logran un olvido significativo lo pierden bajo compresión, mientras que los métodos que sobreviven a la cuantización apenas modifican el modelo. Ambos fallos se remontan a la misma causa raíz: en todas las líneas base, las actualizaciones por parámetro se encuentran entre 47 y 828 veces por debajo del ancho del contenedor de cuantización NF4; las actualizaciones difundidas a través de miles de millones de parámetros no pueden superar los límites de los contenedores de cuantización, una consecuencia que formalizamos como una compensación entre esparcidad y permanencia. Presentamos MANSU (Mechanistic-Aligned Null-Space Unlearning), que resuelve ambos modos combinando atribución causal de circuitos para aislar el subgrafo mínimo del conjunto de olvido, proyección de espacio nulo restringida al circuito con un límite de retención Fisher diagonal, y un umbral de magnitud por parámetro que garantiza la supervivencia a la cuantización por construcción. Además, introducimos la Divergencia de Atribución de Circuitos (CAD), una métrica de verificación mecanicista que distingue el borrado estructural de la supresión conductual, una distinción que las métricas existentes no pueden realizar. En múltiples familias de modelos y puntos de referencia de peligro, MANSU es el primer método que satisface conjuntamente las cuatro propiedades con margen en cada una (olvido significativo, preservación de retención, brecha PTQ no positiva y borrado estructural), mientras que las líneas base basadas en gradientes recuperan hasta +0.05 de precisión bajo compresión.
Los enfoques existentes para la generación controlable suelen depender del ajuste fino, redes auxiliares o búsqueda en tiempo de prueba. Mostramos que el emparejamiento de flujos admite una interfaz de control diferente: la adaptación mediante ejemplos. Para interpolantes deterministas, el campo de velocidades se rige únicamente por una media condicional del punto final; desplazar esta media desplaza el flujo mismo. Esto da lugar a un principio simple para la generación controlable: dirigir un modelo preentrenado cambiando el conjunto de referencia que sigue. Materializamos esta idea en dos formas. La Guía por Media de Referencia no requiere entrenamiento: calcula una corrección en forma cerrada de la media del punto final a partir de un banco de referencia y la aplica a un modelo congelado FLUX.2-klein (4B), permitiendo controlar color, identidad, estilo y estructura mientras se mantienen fijos el prompt, la semilla y los pesos. La Guía Semiparamétrica amortigua la misma idea mediante un ancla de media explícita y un refinador residual aprendido, igualando la calidad de DiT-B/4 incondicional en AFHQv2 a la vez que permite intercambiar el conjunto de referencia en tiempo de inferencia. Estos resultados apuntan a una dirección más amplia: modelos generativos que se adaptan a través de datos, no de actualizaciones de parámetros.
Reconstruir una representación estructurada de gráficos vectoriales a partir de una imagen de plano de planta rasterizada suele ser un requisito previo importante para tareas computacionales que involucran planos de planta, como la comprensión automatizada o los flujos de trabajo CAD. Sin embargo, las técnicas existentes presentan dificultades para generar fielmente la estructura y semántica transmitida por planos de planta complejos que representan grandes espacios interiores con numerosas habitaciones y una cantidad variable de vértices poligonales. Con este fin, proponemos Raster2Seq, que enmarca la reconstrucción de planos de planta como una tarea secuencia a secuencia en la que los elementos del plano—como habitaciones, ventanas y puertas—se representan como secuencias de polígonos etiquetados que codifican conjuntamente geometría y semántica. Nuestro enfoque introduce un decodificador autorregresivo que aprende a predecir el siguiente vértice condicionado por las características de la imagen y los vértices previamente generados, utilizando la guía de anclajes aprendibles. Estos anclajes representan coordenadas espaciales en el espacio de la imagen, lo que permite dirigir eficazmente el mecanismo de atención hacia regiones informativas de la imagen. Al adoptar el mecanismo autorregresivo, nuestro método ofrece flexibilidad en el formato de salida, permitiendo manejar eficientemente planos de planta complejos con numerosas habitaciones y diversas estructuras poligonales. Nuestro método logra un rendimiento de vanguardia en puntos de referencia estándar como Structure3D, CubiCasa5K y Raster2Graph, al mismo tiempo que demuestra una fuerte capacidad de generalización a conjuntos de datos más desafiantes como WAFFLE, que contienen diversas estructuras de habitaciones y variaciones geométricas complejas.
El Modelo de Segmentación Universal 2 (SAM2) presenta una fuerte capacidad de generalización para la segmentación mediante indicaciones en clips de video; sin embargo, su integración con la modalidad de audio sigue poco explorada. Los enfoques existentes convierten el audio en indicaciones visuales (por ejemplo, cuadros delimitadores) a través de modelos fundacionales, o insertan adaptadores en el codificador de imagen para la fusión audiovisual. No obstante, ambas direcciones resultan insuficientes en escenarios de intervención humana debido a la precisión limitada de las indicaciones y al aumento de la sobrecarga de inferencia. En particular, estos métodos basados en adaptadores suelen sufrir de dilución de la indicación de audio, donde la señal se debilita gradualmente a medida que se propaga por la red. En este trabajo, proponemos AuralSAM2, que integra audio en SAM2 preservando en gran medida su capacidad de segmentación basada en indicaciones. Su módulo central, AuralFuser, fusiona características de audio y visuales para generar indicaciones dispersas y densas. Guiadas por el audio y basadas en la pirámide de características de SAM2, estas indicaciones propagan señales auditivas a través de las capas visuales, reforzando la influencia entre modalidades. Para alinear aún más las modalidades, introducimos una pérdida contrastiva guiada por audio que enfatiza la relevancia auditiva en las características visuales dominantes. Nuestro método logra mejoras notables en precisión en puntos de referencia públicos con un impacto mínimo en la eficiencia interactiva de la segmentación basada en indicaciones. Nuestro código está disponible en https://github.com/yyliu01/AuralSAM2.
Presentamos ProofGrid, un conjunto de pruebas de referencia para evaluar el razonamiento de modelos de lenguaje mediante pruebas verificables por máquina, y no únicamente a partir de respuestas finales. ProofGrid incluye 15 tareas que abarcan escritura de pruebas, verificación de pruebas, enmascaramiento de pruebas y relleno de huecos en pruebas. Las tareas se expresan en notación formal mínima, especialmente NDL, un lenguaje compacto de deducción natural que cabe en instrucciones breves y permite una verificación precisa y auditable. Esto proporciona una evaluación mecánica, reproducible y de grano fino, en lugar de juicios realizados por humanos o modelos de lenguaje. ProofGrid cubre un espectro de dificultad calibrado, desde pruebas de razonamiento fundamentales hasta tareas de desafío estructuralmente ricas que ningún modelo actual resuelve, minimizando al mismo tiempo la dependencia de conocimientos de dominio, delegación de solucionadores y artefactos de contexto largo. También desarrollamos un marco comparativo para puntos de referencia de razonamiento y lo utilizamos para situar ProofGrid en relación con trabajos existentes en términos de representación, garantías de verificación y profundidad de razonamiento. Metodológicamente, introducimos un flujo de verificación de pruebas instrumentado que tolera desviaciones superficiales menores mientras localiza el primer fallo sustancial de razonamiento, mejorando la resolución de la medición y separando la planificación de pruebas del ruido de ejecución de bajo nivel. Utilizando este flujo, evaluamos un amplio rango de modelos abiertos y propietarios. Los resultados muestran un progreso rápido pero limitaciones sustanciales remanentes: los modelos de frontera se desempeñan bien en varias tareas fundamentales, pero las tareas difíciles, especialmente aquellas que requieren razonamiento combinatorio global o síntesis de pruebas de bajo nivel, están lejos de estar resueltas. También identificamos inestabilidad epistémica, donde los modelos generan pruebas defectuosas pero rechazan correctamente esas inferencias locales de forma aislada, y formalizamos esto con un Índice de Estabilidad Epistémica. Finalmente, complementamos la precisión con análisis IRT 2PL, mapas de Wright y una medida de discriminación de tareas normalizada basada en la información de Fisher.
A medida que los agentes basados en LLM navegan cada vez más por la web en nombre de los usuarios, surge una pregunta natural: ¿pueden los sitios web identificar pasivamente qué modelo subyacente impulsa a un agente? Hacerlo representaría un riesgo de seguridad significativo, al permitir ataques dirigidos adaptados a vulnerabilidades conocidas del modelo. En 14 LLM de frontera y cuatro entornos web que abarcan tareas de recuperación de información y compras, demostramos que las acciones de un agente y los tiempos de interacción, capturados mediante un rastreador JavaScript pasivo, son suficientes para identificar el modelo subyacente con un F1 de hasta el 96 %. Formalizamos esta superficie de ataque al demostrar que los clasificadores entrenados con las acciones de los agentes generalizan a través de tamaños y familias de modelos. Además, mostramos que se pueden entrenar clasificadores robustos a partir de pocas trazas de interacción y que la identidad del agente puede inferirse tempranamente dentro de un episodio. La inyección de retardos temporales aleatorios entre acciones degrada sustancialmente el rendimiento del clasificador, pero no proporciona una protección sólida: un clasificador reentrenado con trazas retardadas recupera en gran medida el rendimiento. Publicamos nuestro entorno de pruebas y un corpus etiquetado de trazas de agentes en https://github.com/KabakaWilliam/known_actions{here}.
Los modelos fundacionales geoespaciales (GFMs, por sus siglas en inglés) han sido propuestos como arquitecturas base generalizables para la respuesta ante desastres, el mapeo de cobertura terrestre, el monitoreo de la seguridad alimentaria y otras tareas críticas de observación de la Tierra. Sin embargo, el trabajo publicado sobre estos modelos no proporciona a los revisores o usuarios suficiente información para determinar qué modelo se ajusta a una tarea determinada. Sostenemos que nadie sabe cuál es el estado del arte actual en modelos fundacionales geoespaciales. Los métodos pueden ser útiles, pero la literatura sobre GFMs no estandariza suficientemente las evaluaciones, los protocolos de entrenamiento y prueba, los pesos publicados ni los controles de preentrenamiento como para que alguien pueda compararlos o clasificarlos. En una auditoría de 152 artículos, encontramos 46 discrepancias entre trabajos de al menos 10 puntos para el mismo modelo, punto de referencia y protocolo; 94 de 126 artículos con datos de preentrenamiento extraíbles utilizan una configuración que ningún otro artículo emplea; y el 39% de los artículos sobre GFMs no publica ningún peso del modelo. Esta falta de estándares comunitarios tiene solución. Proponemos seis expectativas concretas: publicación de pesos con licencia específica, evaluaciones centrales compartidas, anotaciones de referencia copiadas versus reejecutadas, reporte de varianza, un marco de evaluación unificado, y controles de datos versus arquitectura versus algoritmo. Estas brechas representan un fallo de coordinación, no una falla de ningún laboratorio en particular; los autores de este artículo, como muchos otros en la comunidad de GFMs, han contribuido a ellas. En lugar de solo criticar a la comunidad, nuestro objetivo es proporcionar pasos concretos hacia una comprensión compartida de cómo innovar en GFMs.
La Recuperación de Información Multilingüe es cada vez más importante en entornos de búsqueda reales, donde los usuarios formulan consultas sobre corpus de idiomas mixtos. Las evaluaciones existentes principalmente recompensan la relevancia semántica independiente del idioma, tratando los pasajes relevantes por igual independientemente del idioma. Sin embargo, la utilidad de la recuperación también depende del idioma de los pasajes recuperados: los usuarios pueden preferir resultados que puedan leer y verificar en el idioma de la consulta, y la falta de correspondencia de idioma entre consulta y pasaje puede complicar la fundamentación descendente y la verificación de respuestas en sistemas de Generación Aumentada por Recuperación. Para evaluar esta dimensión consciente del idioma, presentamos MLAIRE, un protocolo de Evaluación de Recuperación de Información Multilingüe Consciente del Idioma que desglosa la recuperación semántica translingüística de la preferencia por el idioma de la consulta. MLAIRE construye grupos controlados con pasajes paralelos en varios idiomas, lo que permite medir la precisión de la recuperación semántica y la preferencia por el idioma de la consulta cuando hay traducciones equivalentes disponibles. Proponemos métricas conscientes del idioma, incluyendo la Tasa de Preferencia de Idioma (LPR) y Lang-nDCG, junto con una descomposición en cuatro vías que separa los fallos de preferencia semántica y de idioma de la consulta. Al evaluar 31 recuperadores densos, dispersos y de interacción tardía, mostramos que las métricas estándar ocultan comportamientos distintos: los recuperadores semánticamente fuertes pueden devolver contenido correcto en un idioma diferente al de la consulta, mientras que los recuperadores con una preferencia más fuerte por el idioma de la consulta pueden recuperar pasajes semánticamente menos relevantes.