Artículos de investigación en IA seleccionados diariamente con traducciones
Clonar el movimiento de cámara a partir de vídeos de referencia es una tarea importante en la generación de vídeos, ya que estos proporcionan un control intuitivo y preciso. Los métodos existentes o bien utilizan representaciones paramétricas que no logran manejar la generación de múltiples tomas, o sintetizan datos cruzados, que sufren de escasez de datos, resultando en un rendimiento deficiente en la clonación de movimientos de cámara complejos. Para abordar estos problemas, introducimos una representación general del movimiento de cámara que codifica las cámaras como vídeos de movimiento en cuadrícula. Esta cuadrícula de cámara representa visualmente los parámetros de la cámara y permite la integración de diversas trayectorias para la generación de vídeos en múltiples tomas. Basándonos en esto, proponemos OmniDirector, un marco unificado entrenado con un millón de pares de cuadrícula de cámara y vídeo que coordina personajes, acciones y cámaras para proporcionar un control a nivel de director para transformadores multimodales de difusión. Además, diseñamos un novedoso agente de expansión jerárquica de indicaciones que integra armoniosamente diferentes señales de control mediante la descripción sistemática del movimiento de la cámara y el contenido visual a través de la comprensión de las relaciones entre señales. Experimentos exhaustivos demuestran el rendimiento superior y la notable controlabilidad de nuestro marco. Página del proyecto: https://ymlinfeng.github.io/OmniDirector.github.io/
Los avances recientes en Aprendizaje por Refuerzo (RL) agentivo han mejorado sustancialmente las capacidades de uso de herramientas en múltiples turnos de los agentes basados en modelos de lenguaje grandes. Sin embargo, la mayoría de los métodos existentes asignan crédito sobre unidades heurísticas gruesas, como los límites de llamadas a herramientas o flujos de trabajo fijos, lo que dificulta identificar qué decisiones intermedias influyen en los resultados finales. En este trabajo, estudiamos el RL agentivo desde dos perspectivas: dónde bifurcar y cómo asignar crédito después de la bifurcación. Nuestro análisis piloto muestra que los puntos de decisión influyentes están distribuidos ampliamente a lo largo de la secuencia generada, en lugar de concentrarse en las llamadas a herramientas, mientras que la entropía de tokens por sí sola no refleja de manera confiable su impacto en los resultados finales. Motivados por estas observaciones, proponemos la Optimización de Política Procedimental Agentiva (APPO), que desplaza la bifurcación y la asignación de crédito desde unidades de interacción gruesas hacia puntos de decisión detallados en la secuencia. APPO selecciona ubicaciones de bifurcación mediante una Puntuación de Bifurcación que combina la incertidumbre de tokens con las ganancias de verosimilitud inducidas por la política de continuaciones posteriores, permitiendo una exploración más dirigida mientras filtra posiciones espurias de alta entropía. Además, introduce un escalamiento de ventaja a nivel de procedimiento para distribuir mejor el crédito entre los recorridos bifurcados. Experimentos en 13 puntos de referencia muestran que APPO mejora consistentemente las líneas base fuertes de RL agentivo en casi 4 puntos, mientras mantiene llamadas eficientes a herramientas y preserva la interpretabilidad del comportamiento.
A pesar de los avances recientes, los agentes basados en modelos de lenguaje de gran escala (LLM) aún presentan dificultades para razonar sobre historiales extensos de interacción. Mientras que los agentes actuales con aumento de memoria se apoyan en un paradigma estático de recuperar y luego razonar, este diseño rígido de tuberías impide que adapten dinámicamente el acceso a la memoria en función de la evidencia intermedia descubierta durante la inferencia. Para superar esta limitación, proponemos MRAgent, un marco que combina un grafo de memoria asociativa con un mecanismo de reconstrucción activa. Representamos la memoria como un grafo Clave-Etiqueta-Contenido, donde las etiquetas asociativas actúan como puentes semánticos que conectan señales detalladas con los contenidos de la memoria. Operando sobre esta estructura, nuestro mecanismo de reconstrucción activa integra directamente el razonamiento del LLM en el acceso a la memoria, permitiendo que el agente explore y pode iterativamente las rutas de recuperación en función de la evidencia acumulada. Esto asegura que la recuperación de la memoria se adapte dinámicamente al contexto de razonamiento, evitando al mismo tiempo la explosión combinatoria provocada por una expansión no restringida. Los experimentos en el punto de referencia LoCoMo y en el punto de referencia LongMemEval demuestran mejoras significativas sobre líneas base sólidas (de hasta el 23 %), al tiempo que reducen sustancialmente el costo en términos de tokens y tiempo de ejecución, lo que resalta la efectividad de la reconstrucción activa y asociativa para el razonamiento de memoria a largo plazo.
Los Modelos de Lenguaje de Gran Escala (LLMs) están experimentando una transformación fundamental, pasando de ser generadores conversacionales a sistemas de IA integrados capaces de razonar, actuar, memorizar y auto-mejorarse. Conceptualizamos esta transición como un cambio de Chatbot a Colega Digital: de respuestas conversacionales a trabajo persistente. Organizamos esta transición a lo largo de dos dimensiones estrechamente vinculadas. Primero, a nivel del núcleo cognitivo, los LLMs avanzan desde sistemas de "pensamiento rápido" propios de la era del Chatbot, impulsados por la predicción del siguiente token, hacia LLMs Pensantes que aprovechan el cómputo en tiempo de inferencia, el razonamiento en Cadena de Pensamiento, la reflexión, la supervisión de procesos y el aprendizaje por refuerzo para apoyar una cognición más deliberada y fiable. Segundo, a nivel de ejecución de tareas aumentada por herramientas, los LLMs progresan desde Agentes que invocan recursos externos de manera ad hoc hacia sistemas de estación de trabajo al estilo OpenClaw (OpenClaw), equipados con Espacios de Trabajo persistentes, Habilidades, bucles de verificación y gobernanza. El paradigma "Espacio de Trabajo + Habilidad" convierte el uso episódico de herramientas en algo propio de un colega, mediante la persistencia de estados, procedimientos reutilizables, cierre de tareas y reutilización de experiencias. Examinamos los cambios en la construcción de datos, que pasan de pares instrucción-respuesta a trayectorias Estado-Acción-Observación, y la evaluación, que evoluciona de puntos de referencia estáticos a ecosistemas de IA en entornos aislados, auditables y autoevolutivos.
El reciente éxito de los enjambres de agentes ha desplazado el paradigma de los agentes basados en modelos de lenguaje de gran escala (LLM) de flujos de trabajo con un solo agente a sistemas multiagente, destacando la importancia de la orquestación de agentes para la descomposición y colaboración de tareas. Sin embargo, los marcos de orquestación existentes se limitan a un conjunto reducido de modalidades y presentan dificultades para generalizar a entornos más complejos donde coexisten e interactúan modalidades heterogéneas. Esta limitación se vuelve particularmente pronunciada en escenarios omnimodales, donde las tareas requieren la comprensión y coordinación unificada de entradas diversas como texto, imagen, audio y video. En este trabajo proponemos Orchestra-o1, un marco de orquestación omnimodal de agentes diseñado para apoyar una colaboración eficiente entre agentes a través de múltiples modalidades. Orchestra-o1 introduce un mecanismo de orquestación unificado que permite la descomposición de tareas con conciencia de la modalidad, la especialización en línea de subagentes y la ejecución paralela de subtareas. Este diseño escalable permite que los sistemas de agentes aborden eficazmente tareas complejas del mundo real que involucran fuentes de información heterogéneas, superando al segundo mejor enfoque en un 10.3% de precisión en el benchmark OmniGAIA. Además, presentamos la optimización de políticas relativas basada en grupos alineada con decisiones (DA-GRPO), un enfoque eficiente de aprendizaje por refuerzo agéntico para entrenar Orchestra-o1-8B, que también logra un rendimiento de vanguardia frente a todos los agentes omnimodales de código abierto existentes.
El rendimiento de los agentes de IA depende críticamente del entorno de ejecución (harness), que comprende las indicaciones, herramientas, memoria y flujo de control que median la forma en que un modelo observa, razona y actúa. Sin embargo, los entornos actuales siguen siendo en gran medida artesanales y estáticos: cada nuevo modelo o tarea aún exige un andamiaje personalizado, y las ricas trazas producidas durante la ejecución rara vez se destilan para lograr una mejora sistemática. Presentamos HarnessX, una fundición para entornos de agente componibles, adaptables y evolucionables. HarnessX ensambla primitivas de entorno tipificadas mediante un álgebra de sustitución, las adapta a través de AEGIS, un motor de evolución multiagente guiado por trazas fundamentado en un espejo operacional entre la adaptación simbólica y el aprendizaje por refuerzo, y cierra el bucle entorno-modelo al convertir las trayectorias tanto en actualizaciones del entorno como en señales de entrenamiento del modelo. En cinco puntos de referencia (ALFWorld, GAIA, WebShop, tau^3-Bench y SWE-bench Verified), HarnessX logra una ganancia promedio de +14.5% (hasta +44.0%), con las mayores ganancias donde las líneas de base son más bajas. Estos resultados sugieren que el progreso de los agentes no necesita provenir únicamente del escalamiento de modelos: componer y evolucionar interfaces de ejecución a partir de la retroalimentación de la ejecución es una palanca viable y complementaria. El código base completo será publicado como código abierto en una versión futura.
La generación aumentada por recuperación está avanzando más allá del texto hacia videos largos y egocéntricos, donde los sistemas deben seleccionar fragmentos relevantes para la consulta a través de múltiples modalidades y granularidades temporales. Sin embargo, el progreso en VideoRAG está limitado por dos brechas: los benchmarks existentes permiten que las consultas sean respondidas sin el video, ocultando errores de recuperación, y los métodos previos aplican una única configuración de modalidad-granularidad por consulta, ignorando la variabilidad a nivel de fragmento. Abordamos ambas limitaciones mediante la introducción de V-RAGBench, un benchmark de tripletes ⟨consulta, fragmento de evidencia, respuesta⟩ que permite una evaluación fiel y desacoplada de la recuperación y la generación, y CARVE, un método simple que ejecuta recuperadores en paralelo a través de configuraciones y emplea un reranking adaptativo por fragmento para identificar la configuración ganadora para cada fragmento. Cada fragmento ingresa entonces al generador bajo su configuración ganadora seleccionada durante la recuperación, produciendo una forma de evidencia entrelazada donde la decisión a nivel de fragmento se propaga a través de ambas etapas. CARVE supera a ocho líneas base recientes de VideoRAG, con los fragmentos suministrados al generador entrelazando múltiples configuraciones en lugar de compartir una única, un comportamiento inalcanzable por métodos a nivel de consulta.
Los pipelines automatizados actuales para la respuesta a preguntas (QA) audiovisual suelen adoptar un paradigma de ``video-descripción-QA''. Sin embargo, estos métodos generalmente segmentan los videos en clips cortos y generan descripciones separadas para las modalidades auditiva y visual. Este procesamiento desacoplado rompe las asociaciones inherentes entre los sonidos y sus fuentes visuales, mientras que el procesamiento independiente de clips a menudo provoca descripciones inconsistentes de la misma entidad en distintos segmentos. Además, acoplar la comprensión de textos largos y la síntesis de preguntas y respuestas en un único paso suele restringir los modelos a eventos localizados, generando preguntas que carecen de conexiones temporales a largo plazo y de un razonamiento cross-modal profundo. Para abordar estos problemas, proponemos un motor de datos automatizado con dos mecanismos: (1) Entity-Anchored Video Scripting (guionización de video anclada en entidades), que transforma los videos en guiones estructurados que comprenden resúmenes, listas de entidades principales y descripciones audiovisuales por segmento. La lista de entidades sirve como prioridad global para garantizar la consistencia referencial entre segmentos y reconstruir las asociaciones audiovisuales. (2) Clue-Guided QA Generation (generación de preguntas y respuestas guiada por pistas), que indica a los modelos que primero extraigan pistas multimodales entre segmentos del guion y, posteriormente, generen pares de preguntas y respuestas basados en estas pistas de alto valor. Aprovechando este pipeline, construimos el conjunto de datos de ajuste por instrucciones OmniVideo-100K y un conjunto de prueba verificado por humanos, OmniVideo-Test. El ajuste fino de VITA-1.5, Qwen2.5-Omni-7B y Qwen3-Omni-30B en OmniVideo-100K produce ganancias de rendimiento de hasta el 20,59 % en OmniVideo-Test, demostrando una fuerte generalización (mejoras de hasta el 12,64 %) en benchmarks establecidos como Daily-Omni y JointAVBench.
En la última década, el desarrollo de una inteligencia artificial general a nivel humano ha pasado de ser una especulación descabellada a convertirse en un objetivo concreto para la próxima década para muchas de las mayores organizaciones dedicadas a la IA. Alcanzar este objetivo tendría impactos profundos y de gran alcance en la sociedad humana, lo que plantea numerosas cuestiones complejas para los próximos diez años. Este informe investiga cómo la propia IA podría continuar desarrollándose en un mundo post-IAG a lo largo del continuo de la inteligencia maquinal. El punto final de este continuo, la IA Universal, es teóricamente bien comprendido, lo que proporciona una base formal para el enfoque principal de este informe: la transición de una IAG a nivel humano a una superinteligencia artificial general, que, intuitivamente, puede entenderse como un sistema más inteligente y cognitivamente capaz que grandes organizaciones de humanos. Tras caracterizar la SAG, el informe analiza cuatro vías potenciales desde la IAG hasta la SAG: escalado de la IAG, cambios de paradigma en la IA, mejora recursiva, y la SAG emergente de colectivos multiagente a gran escala. A continuación, el informe discute posibles fricciones y cuellos de botella a lo largo de estas vías. Determinar si el impacto de estas fricciones será insignificante o sustancial plantea una serie de preguntas de investigación abiertas concretas. Debido a las grandes incertidumbres para predecir el progreso hacia la SAG, no se puede descartar que el progreso de la IA continúe acelerándose en los próximos años. Esto podría implicar que la imagen de un único cambio transformador, causado por la introducción de una IAG a nivel humano en nuestra sociedad, podría ser inexacta. Quizás sea más adecuada la perspectiva de una serie de cambios sociales transformadores causados por el progreso y los avances habilitados por la IA en muchas áreas de la ciencia y la tecnología. Prepararse para esta perspectiva requiere un esfuerzo masivamente interdisciplinario de alcance e interés global.
Identificamos una nueva dimensión para mejorar la diversidad de los rollouts en la Optimización de Políticas Relativas a Grupo (GRPO, por sus siglas en inglés) para LLMs. Si bien GRPO depende de la diversidad de los rollouts, las estrategias predominantes aumentan dicha diversidad principalmente inyectando más aleatoriedad a nivel de tokens, lo que puede introducir ruido paso a paso y generar trayectorias incoherentes. Descubrimos que los modelos más pequeños dentro de una misma familia de modelos exhiben inherentemente una mayor diversidad a nivel de política, evidenciada por su mejor rendimiento pass@k en comparación con modelos más grandes a medida que aumenta el número de muestras. A diferencia del ruido a nivel de tokens, esta diversidad está correlacionada temporalmente, preserva la consistencia lógica y proporciona señales de exploración estructuradas para la estimación del gradiente. Por lo tanto, proponemos S2L-PO (Small-to-Large Policy Optimization), un marco que utiliza modelos pequeños fijos como exploradores naturales para entrenar modelos más grandes. Para equilibrar exploración y explotación, diseñamos una estrategia de recocido progresivo que transita desde rollouts offline del modelo pequeño hasta el muestreo propio del modelo grande. Este cambio evita elegantemente las caídas de rendimiento durante el entrenamiento provocadas por los límites de capacidad del modelo pequeño, logrando una convergencia más rápida y desbloqueando un techo de rendimiento más alto. S2L-PO mejora la precisión en diversos puntos de referencia de razonamiento matemático (por ejemplo, +8.8% en AIME 24 usando un explorador de 1.7B para guiar el modelo de 8B) a la vez que reduce el cómputo de los rollouts.
Los modelos de lenguaje de gran escala (LLMs) realizan inferencia siguiendo una profundidad y orden fijos, con una ejecución no recurrente de todas las capas. Revelamos la amplia existencia de programas de capas (PoLar) dinámicos, flexibles y sin entrenamiento, donde las capas preentrenadas pueden empaquetarse como módulos y luego omitirse o repetirse en bucle para formar un programa personalizado para cada entrada. Para la mayoría de las entradas, ejecuciones de programas sustancialmente más cortas pueden lograr la misma o mejor precisión, mientras que las predicciones incorrectas del LLM original pueden corregirse mediante programas alternativos con menos capas. Estas observaciones indican que la inferencia admite múltiples cómputos latentes válidos más allá del paso directo estándar. Para lograr PoLar de manera eficiente en la práctica, proponemos una red de predicción PoLar ligera, que aprende a generar programas de ejecución que omiten o repiten dinámicamente capas preentrenadas para cada entrada. Experimentos en puntos de referencia de razonamiento matemático demuestran que PoLar mejora consistentemente la precisión en comparación con la inferencia estándar y los métodos previos de profundidad dinámica, a menudo ejecutando menos capas, y que estas ganancias persisten bajo evaluación fuera de la distribución. Nuestros resultados sugieren que la ejecución de profundidad fija captura solo un subconjunto estrecho de la capacidad de razonamiento latente de un LLM.
Los modelos de lenguaje de gran escala (LLMs) ahora alcanzan puntuaciones de nivel experto en exámenes de licencias médicas, lo que fomenta la suposición de que puntuaciones altas implican un juicio médico seguro, mientras los pacientes recurren cada vez más a ellos para obtener consejos de salud. Demostramos que esta suposición es frágil: cuando se inyecta contexto engañoso en preguntas que los LLMs inicialmente responden correctamente, abandonan la respuesta correcta. Denominamos a esta capacidad de mantener un juicio correcto bajo contexto adversarial como resiliencia epistémica, e introducimos MedMisBench para medirla. MedMisBench contiene 10,932 ítems de preguntas médicas y 48,889 pares de contexto-opciones engañosos que abarcan razonamiento médico, capacidad agentiva y evaluación del recorrido del paciente. En 11 configuraciones de modelos, la precisión media cae del 71.1 % en preguntas originales al 38.0 % bajo contexto engañoso focalizado, con un 51.5 % de éxito de ataque. Las inserciones más dañinas son fabricaciones formales, similares a reglas: las falsedades enmarcadas con autoridad alcanzan un 69.5 % de éxito de ataque y las afirmaciones de envenenamiento por excepción llegan al 64.1 %. Un panel clínico de 14 miembros de 7 países identificó daño potencial grave en el 38.2 % de los casos revisados. MedMisBench expone un punto ciego estructural en la evaluación de LLMs en entornos médicos: los puntos de referencia existentes miden lo que los modelos saben, pero no si preservan un juicio médico correcto bajo contexto engañoso.
Los usuarios dependen de las trazas de ejecución para observar el comportamiento del agente, diagnosticar fallos y garantizar la rendición de cuentas. Estas trazas contienen detalles procedimentales ricos, incluyendo invocaciones de herramientas, decisiones intermedias y lógica de recuperación de errores. Sin embargo, este detalle puede exponer habilidades procedimentales privadas, permitiendo que métodos posteriores recuperen fórmulas clave, umbrales y estrategias sin acceso a los pesos del modelo o archivos de habilidades. Para cuantificar este riesgo y evaluar la protección, construimos CapTraceBench, un punto de referencia de 75 tareas especializadas de horizonte largo y 154 habilidades seleccionadas en siete dominios. También presentamos RedAct https://github.com/XuShuwenn/RedAct, un marco de publicación de trazas protegidas que localiza información clave protegida, reescribe trazas preservando evidencia crítica para el verificador e incorpora marcas de agua de comportamiento para análisis de procedencia posteriores. En métodos representativos de reutilización de trazas, RedAct reduce la transferencia normalizada de habilidades (NST) del 44,7–67,1% en trazas sin procesar a un valor por debajo de la línea base sin habilidades, mientras preserva la evidencia de auditoría. Sus marcas de agua de comportamiento independientes alcanzan una detección verdadera del 93,6–100,0% con una tasa de falsas alarmas de como máximo el 1,9%. Estos resultados enmarcan las trazas públicas de agentes como interfaces de seguridad y muestran que la redacción selectiva puede reducir la fuga de capacidad procedimental sin eliminar la evidencia de auditoría.
Los agentes de codificación impulsados por modelos de lenguaje grandes han demostrado un sólido rendimiento en tareas de ingeniería de software. Sin embargo, la mayoría de los agentes consumen repositorios casi exclusivamente como texto, lo que difiere de cómo los desarrolladores humanos utilizan la estructura visual, como jerarquías de carpetas y relaciones de dependencia, para orientarse en grandes bases de código. Con los modelos de lenguaje grandes multimodales (MLLM), queda abierta la cuestión de si los agentes pueden beneficiarse efectivamente de las representaciones visuales de los repositorios. Este artículo presenta el primer estudio empírico sistemático sobre representaciones visuales de repositorios para agentes basados en LLM en la resolución de problemas a nivel de repositorio. Evaluamos cuatro modelos multimodales recientes. Nuestros resultados muestran que una configuración estrictamente solo-visión degrada la precisión y aumenta el costo de tokens, porque los agentes carecen de suficiente detalle simbólico y compensan con consultas visuales repetidas. En contraste, integrar gráficos visuales de la estructura del repositorio como una modalidad complementaria junto con interfaces de texto estándar ayuda a los agentes a comprender la estructura de manera más eficiente: el consumo de tokens de entrada se reduce hasta en un 26% mientras que la precisión en la resolución de problemas se mantiene o mejora. La visualización es más útil durante la localización de fallos y cuando el agente controla autónomamente la profundidad de exploración. Estos hallazgos apuntan a un diseño híbrido práctico de texto y visión para la próxima generación de agentes de codificación.
Los grandes modelos de lenguaje (LLMs) son ampliamente utilizados en sistemas de texto a imagen (T2I), pero normalmente se limitan a la codificación de texto, mientras que la eliminación de ruido es manejada por backbones generativos recién entrenados. La aparición de los autoencoders de representación (RAEs) desplaza el objetivo de generación hacia representaciones visuales semánticamente estructuradas, creando un espacio latente más compatible con las priorizaciones de LLMs preentrenados. Inspirándonos en los LLMs multimodales (MLLMs), donde un proyector MLP es suficiente para alinear representaciones visuales limpias con un LLM preentrenado, reutilizamos el propio MLLM como codificador de representaciones ruidosas, extendiendo este mecanismo de entradas limpias a ruidosas. Presentamos RepFusion, que utiliza las salidas resultantes del MLLM como señal de condicionamiento para un transformador de difusión. En comparaciones controladas con presupuestos de inferencia similares, RepFusion supera a las líneas base que dedican una capacidad comparable a eliminadores de ruido recién inicializados. Estos resultados demuestran que los MLLMs proporcionan fuertes priorizaciones para la eliminación de ruido de representaciones visuales y que, al condicionar sobre representaciones ruidosas en evolución, el cómputo en tiempo de prueba puede invertirse de manera productiva en el condicionamiento repetido de MLLM en sistemas T2I modernos.
Los modelos de mundo corpóreos han emergido como un paradigma fundamental para la toma de decisiones robóticas visuales y la simulación interactiva de entornos. Sin embargo, los marcos corpóreos convencionales dependen de vectores de acción estructurados de baja dimensionalidad (por ejemplo, ángulos articulares y poses del efector final), los cuales presentan una capacidad expresiva limitada, una escasa generalización entre diversas corporalidades y un modelado dinámico poco natural para interacciones físicas complejas. Para superar estas limitaciones, este artículo propone iMac (Image as Action Control), un novedoso paradigma de control unificado que trata las imágenes visuales en bruto como representaciones de acción nativas para modelos de mundo corpóreos. Alejándose de la codificación cinemática explícita tradicional, iMac formula la manipulación visual continua como tokens de acción basados en imágenes, los cuales encapsulan de forma inherente intenciones de movimiento espacial, restricciones geométricas interactivas y dinámicas físicas sutiles. Construimos una arquitectura corpórea de doble rama compuesta por un codificador de acción-imagen y un predictor de mundo dinámico: el codificador comprime las imágenes visuales guiadas por objetivos en representaciones de acción compactas, mientras que el predictor aprende las reglas de transición del entorno condicionadas a las acciones de imagen para lograr una predicción de estados futuros de alta fidelidad y un control corpóreo en lazo cerrado. Se realizan experimentos exhaustivos en bancos de pruebas públicos de manipulación corpórea y en escenarios robóticos del mundo real. Los resultados demuestran que iMac supera a las líneas base de control de acción basadas en vectores en precisión de predicción, tasa de éxito de tareas y capacidad de generalización entre escenas. Además, nuestro diseño de acción-imagen elimina la dependencia de espacios de acción definidos manualmente, logrando un control flexible y universal para agentes corpóreos heterogéneos. Este trabajo proporciona una perspectiva visual-acción innovadora para los modelos de mundo corpóreos, ofreciendo un paradigma simple pero efectivo para la percepción y manipulación robótica escalable.
En este informe presentamos Hy-Embodied-0.5-VLA, abreviado como HyVLA-0.5, un sistema de extremo a extremo que abarca toda la pila de aprendizaje robótico: recopilación de datos, diseño del modelo, preentrenamiento continuo y ajuste fino supervisado, post-entrenamiento mediante aprendizaje por refuerzo y despliegue en el mundo real. Cada componente desempeña un rol distinto en esta pila.
Los modernos demostradores de teoremas en Lean logran un alto rendimiento solo con un cómputo considerable en entrenamiento e inferencia, impulsado en parte por la escasez de datos de demostraciones verificadas y las largas trazas de razonamiento de la búsqueda formal de demostraciones, lo que encarece tanto el ajuste fino supervisado (SFT) como el muestreo. Presentamos Pythagoras-Prover, una familia de demostradores de teoremas en Lean de código abierto y eficientes en cómputo, diseñados para presupuestos computacionales prácticos. La familia abarca dos paradigmas de generación: modelos autorregresivos de 4B y 32B parámetros, y un primer demostrador basado en difusión como prueba de concepto (4B) que refina iterativamente demostraciones en Lean durante la inferencia. Para la eficiencia del entrenamiento, construimos un corpus verificado en Lean estratificado en problemas fáciles, medios y difíciles para un SFT curricular, de modo que los modelos adquieran habilidades de demostración progresivamente a partir de demostraciones más cortas y simples hacia otras más largas y complejas. Durante el SFT, un esquema de filtrado dinámico de razonamiento de demostraciones conserva trazas de demostración informativas, manteniendo cada instancia dentro de un presupuesto de contexto de 8k tokens. También introducimos la Formalización Aumentada de Lean (ALF), que expande los corpus verificados escasos en variantes de enunciados formales, pobladas mediante autodestilación para proporcionar una señal de entrenamiento adicional sin verificar formalmente cada instancia mutada. Al perturbar problemas conocidos preservando su carácter formal, ALF reduce la dependencia de la forma superficial de cualquier enunciado. Empíricamente, Pythagoras-Prover-4B supera a DeepSeek-Prover-V2-671B en pass@32 en MiniF2F-Test (86.1 % frente a 82.4 %) con ~167 veces menos parámetros, mientras que Pythagoras-Prover-32B establece el estado del arte de código abierto en un 93.0 % en MiniF2F-Test y resuelve 93 de los 672 problemas de PutnamBench. Publicamos MiniF2F-ALF, un punto de referencia sensible a la contaminación mutado con ALF en el cual todos los modelos evaluados pierden precisión; aquí nuestro modelo de 32B sigue siendo el más robusto y nuestro modelo de 4B iguala el estado del arte anterior, Goedel-Prover-V2-32B.
A medida que las revisiones generadas por IA pasan de ser herramientas experimentales a formar parte de la infraestructura de revisión por pares, la mayoría de las preocupaciones sobre su robustez se han centrado en ataques explícitos, como instrucciones ocultas e inyección de indicaciones. Estudiamos un modo de fallo más complejo y relevante desde el punto de vista político: sin texto oculto, sin inyección de indicaciones y sin cambios en métodos, experimentos, figuras, ecuaciones, demostraciones ni resultados numéricos. El atacante modifica únicamente el contenido a nivel de presentación, como el resumen, el encuadre de la contribución, el trabajo relacionado, la discusión y la estructura narrativa. Introducimos el reempaquetado adversarial: un ataque de bucle cerrado que utiliza la retroalimentación del revisor IA para buscar revisiones a nivel de presentación mientras mantiene fija la evidencia científica. En tres revisores IA convencionales, el reempaquetado adversarial logra una tasa de éxito del ataque del 75,1 % y una ganancia media de puntuación de +1,21/10. El efecto no se explica por un simple pulido de la prosa. También revelamos que las estrategias que cambian la forma en que el revisor interpreta el artículo, como el reposicionamiento del trabajo relacionado y la ampliación de la discusión analítica, superan sustancialmente a las ediciones superficiales, como el pulido local, el formateo de tablas y los recuadros de algoritmos. Nuestro análisis revela dos modos de fallo estructurales más profundos. En primer lugar, los revisores IA son más fáciles de impresionar que de convencer: resaltar las fortalezas aumenta de manera fiable el mérito percibido, mientras que los intentos de disolver debilidades a menudo resultan contraproducentes. En segundo lugar, los revisores IA pueden confundir la apariencia de abordar una limitación con su resolución real, lo que permite que una evidencia sin cambios sea reinterpretada como una contribución científica más sólida. Estos resultados muestran que el riesgo de implementación no son solo las instrucciones ocultas maliciosas, sino la emergencia de la propia presentación del artículo como una superficie de optimización. Publicamos un punto de referencia continuo libre de contaminación y un marco de ataque para evaluar si los revisores IA permanecen anclados al contenido científico bajo ediciones exclusivas de presentación.
Al aplicar la Optimización de Política Relativa por Grupos (GRPO) para el Grounding de GUI, los rollouts se muestrean desde una única vista de la captura de pantalla; los grupos a menudo resultan ser todos fallos en instancias difíciles o todos éxitos en las fáciles, sin proporcionar una ventaja relativa útil. Proponemos VISTA (Entrenamiento Autoverificado Consistente con la Vista), un marco de entrenamiento basado en GRPO que construye cada grupo de comparación a partir de múltiples vistas que preservan el objetivo de la misma instancia de GUI. Cada vista se genera mediante un recorte que mantiene visible el elemento objetivo y reasigna su cuadro exactamente, por lo que los rollouts del modelo se comparan entre entradas semánticamente equivalentes pero geométricamente diferentes. Para estabilizar la generación de coordenadas cortas sin convertir el aprendizaje por refuerzo en imitación incondicional, VISTA añade además un anclaje autoverificado entre vistas: una respuesta oracular optimizada con una pérdida ponderada por ventaja, excluida de la línea base del grupo y activada solo cuando el modelo ha producido un rollout de recompensa máxima. En cinco puntos de referencia de grounding de GUI y múltiples backbones de Qwen, VISTA mejora consistentemente la precisión del grounding. En ScreenSpot-Pro, eleva Qwen3-VL 4B/8B/30B-A3B de 55.5/52.7/53.7 a 63.4/65.8/67.0. Los análisis de robustez muestran además una mayor precisión en la peor vista y tasas de cambio de predicción más bajas.
Los recientes avances en modelos mundiales basados en video han demostrado una capacidad sin precedentes para sintetizar secuencias visuales de alta fidelidad. Sin embargo, persiste una brecha fundamental entre la generación de video visualmente plausible y los requisitos funcionales de un modelo mundial, particularmente en el mantenimiento de un estado interno estable y razonable durante horizontes temporales extendidos. Si bien los puntos de referencia existentes se centran principalmente en la calidad visual, la coherencia del movimiento y la alineación texto-video, en gran medida pasan por alto la memoria, la capacidad central de un modelo mundial para preservar la consistencia a lo largo de horizontes a largo plazo e interacciones complejas. Para abordar esta brecha, presentamos MBench, un punto de referencia integral dedicado a cuantificar y evaluar la capacidad de memoria de los modelos mundiales de video. Descomponemos sistemáticamente la capacidad de memoria de los modelos mundiales de video en tres dimensiones centrales jerárquicas y complementarias: consistencia de entidades, consistencia del entorno y consistencia causal, que se refinan en 12 subdimensiones cuantificables para una caracterización completa de la memoria a largo plazo. Nuestro punto de referencia se basa en videos reales largos rigurosamente seleccionados, y se evalúa mediante matrices cuantitativas basadas en reglas y un VLM para permitir una evaluación de consistencia objetiva y completa. Evaluaciones exhaustivas de los principales modelos mundiales de video de última generación revelan limitaciones sistémicas críticas de los métodos existentes en la retención de estados a largo plazo, proporcionando un punto de referencia estandarizado y una dirección de investigación clara para avanzar en el campo.
Los modelos del mundo que capturan cómo las acciones inducen cambios físicos permiten el aprendizaje escalable de robots sin depender de etiquetas de acción específicas del cuerpo. Los modelos de video en espacio de píxeles proporcionan amplios priors visuales, pero dedican capacidad del modelo a la reconstrucción densa de la apariencia, mientras que los modelos de acción directa requieren etiquetas específicas del cuerpo que dificultan la escalabilidad. Presentamos μ_0, un modelo del mundo escalable basado en trazos 3D. En lugar de predecir píxeles densos o modelar acciones directamente, μ_0 pronostica trayectorias 3D suaves para puntos de interacción salientes como objetos, herramientas, manos y regiones de contacto, generando una interfaz de movimiento compacta e independiente del cuerpo. Para permitir el entrenamiento a partir de diversas fuentes de video, nuestro sistema TraceExtract extrae automáticamente supervisión 3D seleccionando puntos clave, construyendo trazos alineados globalmente y asociando segmentos de movimiento con descripciones lingüísticas jerárquicas. Esta supervisión de TraceExtract preentrena a μ_0 combinando un backbone de visión-lenguaje preentrenado con un experto en trazos modular, que representa cada consulta mediante puntos de control B-spline y predice trazos futuros. Los experimentos muestran que μ_0 supera a las líneas base tanto en la predicción de trazos 2D como 3D, incluyendo modelos de predicción de trazos y métodos VLM tokenizados. Dado que μ_0 está congelado y es reutilizable, puede combinarse con expertos en acción para cuerpos robóticos posteriores. A pesar del preentrenamiento sin acciones, las políticas condicionadas por trazos resultantes alcanzan un rendimiento competitivo con modelos VLA preentrenados con supervisión de acción, como π_0. Estos resultados establecen los trazos 3D como una representación escalable y transferible para la manipulación entre cuerpos.
A medida que los sistemas de IA construidos a partir de múltiples agentes basados en modelos de lenguaje se vuelven más comunes, se utilizan cada vez más para tomar decisiones en conjunto: discutiendo, negociando y actuando en tareas compartidas. Si bien los agentes individuales pueden parecer bien alineados cuando se evalúan por separado, pueden surgir problemas a partir de cómo interactúan entre sí. Presentamos el Árbitro, un agente diseñado para monitorear conversaciones multiagente en tiempo real e identificar qué participantes podrían estar comportándose de manera desalineada. El Árbitro opera bajo un "presupuesto de inspección" limitado, lo que significa que debe decidir cuidadosamente cómo usar sus recursos. Mientras observa una conversación paso a paso, puede optar por esperar, preguntar a un participante, examinar información interna como indicaciones del sistema o trazas de razonamiento, o registrar comportamientos sospechosos. Al final, produce un informe que identifica la fuente probable de desalineación. Evaluamos el Árbitro en cinco condiciones de conversación que abarcan desde organismos modelo de asesoramiento financiero riesgoso hasta agentes conscientes de la evaluación y en colusión, probamos cinco configuraciones de herramientas de capacidad creciente y dos modelos base. Encontramos que el Árbitro detecta de manera fiable a los agentes desalineados mucho antes del final de la conversación, y que las herramientas de inspección activa mejoran tanto la precisión como la velocidad de detección. La desalineación inducida por pesos resulta ser la más difícil de detectar, mientras que la desalineación inducida por instrucciones se identifica de forma fiable incluso bajo observación pasiva. La herramienta de registro presenta un efecto dual, mejorando el recall a costa de la precisión. Estos resultados sugieren que un monitoreo continuo y consciente del presupuesto puede detectar eficazmente la desalineación, y que supervisar sistemas multiagente puede requerir tratar al auditor como un participante activo en el proceso. El código está disponible en https://github.com/aisilab/arbiter.
Generar videos de avatares que no solo sean visualmente similares a un individuo objetivo, sino reconocibles conductualmente, reproduciendo fielmente su ritmo del habla, tendencias gestuales y dinámicas de expresión, sigue siendo un desafío abierto. Los métodos existentes se condicionan predominantemente a imágenes estáticas individuales, que proporcionan información de identidad insuficiente y no logran capturar rasgos dinámicos de movimiento, mientras que los objetivos estándar a nivel de píxel no abordan adecuadamente las regiones faciales perceptualmente críticas que determinan la fidelidad del avatar. Presentamos Avatar V, un marco a escala de producción que aborda estas limitaciones mediante el modelado de identidad condicionado por referencias de video. En lugar de comprimir la identidad en embeddings de tamaño fijo, el modelo se condiciona directamente a la secuencia completa de tokens de un video de referencia, aprendiendo a reproducir tanto atributos de identidad estáticos (geometría facial, textura de la piel) como patrones de comportamiento dinámico (ritmo del habla, microexpresiones) a través de la atención sobre el contexto de referencia. Introducimos la Atención de Referencia Dispersa (Sparse Reference Attention), un mecanismo asimétrico que logra un condicionamiento de complejidad lineal sobre referencias arbitrariamente largas; un flujo de representación de movimiento que permite la transferencia de estilo de habla en bucle cerrado; y un refinador de superresolución con conciencia de identidad que hereda el condicionamiento completo de la referencia. Estos elementos se apoyan en un motor de datos que selecciona más de 100 millones de clips de entrenamiento a partir de 50 millones de videos en bruto, y un pipeline de entrenamiento de cinco etapas que incluye preentrenamiento con emparejamiento de flujo (flow matching), ajuste fino de personalidad, destilación en dos fases (aceleración de más de 10 veces) y alineación con RLHF, implementado en miles de GPUs. Avatar V genera videos en 1080p de duración ilimitada, logrando un estado del arte en preservación de identidad, sincronización labial y calidad de generación en nuestro benchmark de escenas cruzadas, superando consistentemente a sistemas líderes como Seedance 2.0, Kling O3 Pro, Veo 3.1 y OmniHuman 1.5, tanto en métricas automatizadas como en evaluación humana.
Los modelos de generación de video basados en Transformers de Difusión (DiTs) han logrado un rendimiento notable en la síntesis de video; sin embargo, sufren de alta latencia de inferencia y costos computacionales debido a la complejidad cuadrática de la atención 3D. Los métodos de aceleración existentes reducen principalmente la complejidad computacional dentro de cada paso individual de eliminación de ruido mediante técnicas como la atención dispersa y el almacenamiento en caché KV. No obstante, se adhieren rígidamente a la restricción inherente del flujo de difusión estándar: cada fotograma en la secuencia de video objetivo debe someterse a un proceso completo y denso de eliminación de ruido a lo largo de todos los pasos temporales de difusión. Observamos que, debido a los contenidos y movimientos correspondientes entre fotogramas adyacentes, cuando se anclan fotogramas clave con transiciones semánticas críticas, los estados intermedios de los demás suelen seguir trayectorias más predecibles, lo que indica que dicho proceso uniforme y denso de eliminación de ruido es inherentemente redundante para los datos de video natural. Con este fin, presentamos RhymeFlow, un marco sin entrenamiento que desacopla las trayectorias de eliminación de ruido de diferentes fotogramas. Específicamente, primero identificamos un conjunto disperso de fotogramas clave fundamentales que dominan la evolución semántica latente. Luego, solo estos fotogramas clave se someten a una eliminación de ruido densa y paso a paso para garantizar la integridad estructural, mientras que los fotogramas no clave omiten progresivamente pasos de eliminación de ruido para minimizar el costo computacional. Dado que los estados intermedios omitidos de los fotogramas no clave rompen la coherencia temporal en los pasos de eliminación de ruido de los fotogramas clave, lo que conduce a una degradación visual, introducimos además un módulo de proyección de trayectoria latente, que permite que los fotogramas clave interactúen con una representación de secuencia completa y temporalmente consistente. Extensos experimentos en modelos actuales de generación de video basados en DiT demuestran que nuestro método supera a las líneas base existentes con mayor velocidad de inferencia y mejor calidad visual.
En la Adaptación de Bajo Rango (LoRA), el factor de escala α se trata a menudo como un mero complemento de la tasa de aprendizaje, sin embargo, su papel en la optimización sigue siendo poco comprendido. En este artículo, revelamos que el factor de escala α y la tasa de aprendizaje funcionan de manera diferente, emergiendo α como el motor dominante de la optimización efectiva, proporcionando ganancias que no pueden replicarse solo con el escalado de la tasa de aprendizaje. Mediante la sinergia de un amplio análisis empírico y un marco teórico de Señal-Deriva, descubrimos tres hallazgos sobre el mecanismo de escalado de LoRA: Primero, la supresión espectral de LoRA suaviza el paisaje de optimización, haciendo que los hiperparámetros estándar sean demasiado conservadores y creando una brecha de optimización. Segundo, al aprovechar esta suavidad para acelerar la convergencia, α supera a la tasa de aprendizaje al amplificar la señal de la tarea sin aumentar la relación de deriva. Tercero, el factor de escala óptimo sigue una relación sublineal con el rango, bien caracterizada por una ley de raíz cuadrada con un coeficiente inesperadamente grande, revelando el escalado insuficiente de las heurísticas vinculadas al rango existentes. Basándonos en estos conocimientos, proponemos LoRA-α, un marco minimalista que restaura α a su régimen fundamentado, haciendo que LoRA sea compatible con tasas de aprendizaje pequeñas estándar. Evaluaciones exhaustivas en diversas tareas demuestran que LoRA-α mejora consistentemente el rendimiento mientras simplifica la búsqueda de hiperparámetros, liberando el potencial de aprendizaje de LoRA.
El direccionamiento de activación ofrece un enfoque ligero para controlar el comportamiento de los modelos de lenguaje en tiempo de inferencia, pero su éxito o fracaso depende en gran medida del prompt, el concepto, el modelo y la configuración de direccionamiento. Encontrar el régimen y los límites del direccionamiento exitoso normalmente requiere costosas búsquedas en cuadrícula y evaluación post-hoc de despliegues autoregresivos completos. En este trabajo, investigamos si la direccionabilidad puede predecirse a partir de los estados internos del modelo al inicio del proceso de generación, por ejemplo, después de generar los primeros tokens, y cómo aprovechar dicho predictor para mejorar la tasa de éxito del direccionamiento. Con este fin, primero presentamos ASTEER, un banco de pruebas que incluye 1.4 millones de generaciones dirigidas, abarcando 150 conceptos, cada una etiquetada como éxito o fracaso del direccionamiento. Aprovechando este banco de pruebas, analizamos la dinámica temprana de decodificación del modelo extrayendo características que comparan estados ocultos antes y después del direccionamiento a través de capas y pasos iniciales de decodificación. Estas características nos ayudan a entender cómo los efectos del direccionamiento se propagan a lo largo de las capas y posiciones de los tokens, lo que proporciona información clave para la predicción de direccionabilidad. Luego entrenamos un clasificador de Árboles de Decisión con Gradiente Potenciado (GBDT) sobre estas características para predecir si una intervención resultará en subdireccionamiento, éxito o sobredireccionamiento, sin necesidad de un despliegue completo. Nuestro predictor alcanza una puntuación F1 macro de alrededor de 0.7 en conceptos no vistos, demostrando que los estados ocultos tempranos codifican información sustancial y estructurada sobre la eficacia eventual del direccionamiento. Además, aprovechamos este predictor de direccionabilidad como guía para la búsqueda de la intensidad de direccionamiento, logrando un rendimiento casi óptimo con una pequeña fracción del costo de decodificación.
La construcción de modelos de lenguaje grandes multimodales médicos (MLLM) fiables es fundamental para un soporte de decisiones clínicas confiable. Los puntos de referencia existentes sobre alucinaciones en el ámbito médico se centran principalmente en la recopilación de datos, pero a menudo ignoran el origen de dichas alucinaciones dentro del proceso de razonamiento. Observamos que las fuentes de alucinación varían entre muestras: los errores pueden surgir de un reconocimiento visual incorrecto, un recuerdo inadecuado de conocimientos médicos o una integración defectuosa del razonamiento. Para permitir un diagnóstico de alucinaciones a nivel de fuente, presentamos ClinHallu, un punto de referencia para el diagnóstico de alucinaciones por etapas en el razonamiento de MLLM médicos. ClinHallu contiene 7,031 instancias validadas, donde cada instancia se complementa con una traza estructurada de razonamiento desglosada en Reconocimiento Visual, Recuerdo de Conocimientos e Integración del Razonamiento. También empleamos intervenciones de reemplazo por etapas para medir cómo la corrección de etapas específicas afecta la respuesta final. Más allá de la evaluación, demostramos que el ajuste fino supervisado por trazas reduce las alucinaciones por etapas. ClinHallu proporciona un banco de pruebas detallado de alucinaciones para diagnosticar y mitigar fallos de razonamiento en MLLM médicos. El punto de referencia está disponible públicamente en https://github.com/alibaba-damo-academy/ClinHallu.
Los chats grupales en línea son espacios sociales con normas conversacionales locales que rara vez se explicitan. La capacidad y disposición de los agentes basados en modelos de lenguaje grande (LLM) para reconocer y adaptarse a estas normas sigue siendo un área escasamente explorada. Presentamos LoSoNA, un punto de referencia para la adaptación a normas sociales locales en chats multipartitos. Cada escenario proporciona al modelo evaluado una transcripción curada de un chat grupal en la que los participantes no evaluados demuestran una norma local oculta, seguida de un turno elicitor final que fuerza una respuesta que revela si el modelo evaluado ha inferido dicha norma. Evaluamos ocho modelos frontera y de peso abierto bajo cuatro condiciones de indicación que varían en cuán explícitamente se le indica al modelo que trate la conversación previa como evidencia sobre cómo debe responder. La indicación ingenua sigue siendo limitada para la mayoría de los modelos; la indicación explícita con conciencia de normas ayuda de manera desigual: Gemini 3.1 Pro alcanza un 84.2% y Claude Fable 5 un 81.6%, mientras que varios otros modelos muestran pequeñas ganancias o retrocesos. LoSoNA contribuye a los recientes llamados a evaluar las capacidades sociales de los LLM al probar si los modelos pueden inferir normas conversacionales locales a partir de precedentes y utilizarlas en una respuesta de un solo turno en un chat grupal.
Los agentes de inteligencia artificial se están desarrollando cada vez más para acelerar el descubrimiento científico, aunque sus capacidades prácticas en entornos reales de investigación siguen siendo poco comprendidas. Los puntos de referencia existentes para agentes de IA rara vez capturan la complejidad, heterogeneidad y el razonamiento extendido que requiere el trabajo científico, mientras que los puntos de referencia para tareas científicas a menudo reducen la investigación a problemas estáticos y directos, proporcionando un soporte limitado para la evaluación interactiva. Aquí presentamos SciAgentArena, un punto de referencia sistemático para evaluar agentes de IA en escenarios reales de investigación científica, extraídos de necesidades emergentes en múltiples dominios. SciAgentArena comprende aproximadamente 200 tareas con verificación paso a paso y un entorno interactivo e independiente del agente para evaluar diversos agentes de IA. Utilizando este punto de referencia, encontramos que los agentes actuales pueden contribuir eficazmente a flujos de trabajo de análisis de datos bien especificados, particularmente cuando la estructura de la tarea y los criterios de evaluación son claros. Sin embargo, su rendimiento sigue siendo desigual en distintos contextos científicos: los agentes tienen dificultades para generar ideas genuinamente novedosas, mantener una exploración autodirigida y formular soluciones robustas para preguntas de investigación abiertas. Además, caracterizamos modos comunes de fallo entre los agentes e identificamos oportunidades para mejorar su fiabilidad, autonomía y razonamiento científico. En conjunto, SciAgentArena proporciona un marco práctico para medir el progreso en agentes de IA para la ciencia y para guiar el diseño de futuros agentes capaces de abordar desafíos científicos complejos. El código completo, las tareas y los conjuntos de datos se pueden acceder a través de este enlace: https://sciagentarena.github.io/.
La destilación en política (OPD, por sus siglas en inglés) se ha convertido recientemente en una receta destacada de post-entrenamiento, ya que combina dos ingredientes deseables: trayectorias del estudiante en política y supervisión densa del profesor. Sin embargo, cómo esta hibridación modifica los parámetros de un modelo sigue sin estar claro. A través de varios pares de modelos de lenguaje y visión-lenguaje, así como casos de uso, nuestro análisis arroja dos hallazgos principales. En cuanto a la dispersión, las actualizaciones de tipo OPD son pequeñas y dispersas en coordenadas. Se distribuyen entre las capas y suelen tener un predominio de las FFN (redes feed-forward). Esta estructura dispersa es operativamente útil: entrenar únicamente la subred descubierta recupera un rendimiento casi idéntico al de la OPD completa. No obstante, el optimizador SGD que induce dispersión rinde por debajo de AdamW en nuestra ablación de optimizadores, probablemente porque la supervisión densa del profesor preserva escalas de gradiente heterogéneas por coordenadas, donde la adaptación de escala de AdamW sigue siendo útil. En cuanto a la geometría, las actualizaciones son numéricamente de rango completo, pero espectralmente concentradas; se sitúan mayoritariamente lejos de los subespacios singulares principales de los pesos fuente y recaen de forma desproporcionada en coordenadas donde los pesos fuente están cerca de cero. Estos hallazgos sugieren que la supervisión densa del profesor no convierte la OPD en una reescritura densa ordinaria de parámetros; en cambio, la OPD retiene firmas geométricas importantes del post-entrenamiento en política.
El razonamiento de affordances, es decir, la inferencia de las posibilidades de acción de un objeto a partir de sus propiedades físicas (como forma y material), es fundamental para la comprensión física humana y cada vez más crítico para los modelos de lenguaje de gran escala (LLMs). Sin embargo, los benchmarks existentes de affordances exponen en gran medida identidades explícitas de objetos en la configuración de evaluación, lo que permite que los modelos se basen en mapeos memorizados objeto-affordance en lugar de razonar sobre propiedades físicas. Para abordar esta carencia, presentamos Affordance20Q, un nuevo benchmark de razonamiento de affordances formulado como un juego de las 20 preguntas sin exponer la identidad del objeto. En cada juego, el modelo identifica la affordance de un objeto oculto a partir de un conjunto candidato formulando preguntas de sí/no sobre sus propiedades físicas. Affordance20Q comprende 1,009 juegos sobre 454 objetos y 59 affordances, todos filtrados, refinados y anotados manualmente. Realizamos experimentos exhaustivos con 15 LLMs de última generación y encontramos una brecha sustancial (~20 puntos) en comparación con el desempeño humano. Un análisis de ganancia de información (IG) basado en KL muestra además que los modelos no logran formular preguntas discriminatorias a medida que avanza el juego. Para cerrar la brecha, desarrollamos Inducción de Reglas Anclada en KB (KARI), un pipeline basado en LLMs que genera reglas de affordance fundamentadas en evidencia proveniente de bases de conocimiento (KBs). KARI mejora los LLMs de código abierto en hasta 15.2 puntos, mientras que la cobertura limitada de las KBs dificulta mayores avances. Publicamos todo nuestro código y datos en https://github.com/1171-jpg/Affordance20Q.git.
Los estudios sobre el razonamiento humano han demostrado que las personas suelen ser mejores evaluando el razonamiento que produciéndolo desde cero. Por el contrario, los modelos de razonamiento grandes (LRMs) se entrenan para sobresalir en la producción de largas cadenas de razonamiento para resolver problemas complejos. ¿Cómo se desempeñan entonces los LRMs en la evaluación de razones? Investigamos esto con el conjunto de datos de Respuesta Válida-Razonamiento Inválido (VAIR): problemas y soluciones matemáticas con fallos de razonamiento triviales pero respuestas válidas, diseñados para aislar la evaluación del razonamiento del factor de confusión de la producción del razonamiento. A diferencia de los humanos, que según encontramos son solo un 6% peores al calificar que al resolver dichos problemas, observamos una brecha sustancial entre producción y evaluación en los LRMs: los modelos de frontera obtienen puntuaciones tan bajas como el 48% al evaluar soluciones VAIR, a pesar de una producción de soluciones casi perfecta. ¿Por qué este enigma? Mediante el análisis de la cadena de pensamiento (CoT), encontramos evidencia de un sesgo de confirmación de respuesta: los LRMs a menudo producen y luego verifican la respuesta correcta en lugar de verificar cuidadosamente cada paso, fabricando racionalizaciones incluso cuando notan un razonamiento anómalo. Las sondas lineales corroboran esto, mostrando que, si bien las activaciones de los LRMs codifican cierta representación del razonamiento válido, no logran representar de manera robusta las soluciones VAIR como inválidas. El parcheo causal de las representaciones de la respuesta final provoca que los veredictos y las activaciones de los LRMs se inviertan, demostrando que la validez de la respuesta es responsable de los sesgos de confirmación de los modelos. Estos hallazgos indican una limitación destacada en los enfoques dominantes del entrenamiento en razonamiento, que incentivan a los LRMs a producir y confirmar razonamientos hacia respuestas correctas, pero no a evaluar de manera robusta las razones subyacentes.
Los modelos de lenguaje multimodal a gran escala pueden escribir código para producir programas complejos, así como utilizar programas para realizar modelado 3D, lo que abre una nueva vía para la generación 3D impulsada por sus conocimientos previos, comprensión del mundo y razonamiento. Sin embargo, los benchmarks existentes rara vez evalúan el modelado 3D a través del código. Este tipo de modelado exige más que un código ejecutable: a partir de una especificación textual o visual, un modelo debe generar un programa 3D paramétrico que sea geométricamente preciso, semánticamente alineado y consistente en el ensamblaje. Presentamos P3D-Bench, un benchmark para la generación 3D paramétrica. A diferencia de una malla 3D, un programa 3D paramétrico expone dimensiones explícitas, operaciones de construcción y relaciones entre partes, revelando si un modelo recupera la estructura de un diseño, no solo su apariencia. Bajo un protocolo unificado, P3D-Bench abarca tres familias de tareas (Texto a 3D, Imagen a 3D y Ensamblaje 3D) y puntúa cada salida en términos de ejecutabilidad, fidelidad geométrica, topología, restricciones basadas en texto, alineación semántica multivista y estructura a nivel de partes. Evaluamos modelos MLLM de frontera y LLM solo de texto en 400 casos textuales, 400 casos de imagen y 203 ensamblajes anotados, utilizando modelos específicos del dominio como puntos de referencia. Nuestra evaluación exhaustiva arroja tres hallazgos. Primero, los ensamblajes son el escenario más difícil, donde los modelos aún fallan al componer múltiples partes en una estructura coherente. Segundo, los modelos a menudo pueden recuperar la forma global y la identidad semántica del objeto objetivo, pero no logran reproducir la geometría paramétrica precisa especificada por la entrada. Tercero, el modelado a nivel de partes sigue siendo débil en los ensamblajes, donde los modelos no recuperan ni la geometría de cada parte ni el número correcto de partes. Estos resultados posicionan a P3D-Bench como un benchmark para evaluar la geometría paramétrica precisa y la estructura a nivel de partes en la generación 3D paramétrica.
Los modelos Visión-Lenguaje-Acción (VLA) que combinan Modelos de Visión-Lenguaje (VLM) preentrenados con expertos de acción continua han logrado un sólido rendimiento en manipulación, pero su generalización a instrucciones de lenguaje fuera de distribución (OOD) sigue siendo deficiente. Un desafío conocido es el desequilibrio estructural en los datos VLA, donde el lenguaje es mucho menos diverso que el contenido visual y de acción, lo que hace que las políticas tiendan a tomar atajos visuales. Si bien los métodos de acción discreta mitigan esto mediante el coentrenamiento visión-lenguaje, los expertos de acción continua carecen de dicha protección: parten de una inicialización aleatoria y aprenden completamente a partir de datos desequilibrados, generando gradientes ruidosos que corrompen el VLM y no logran explotar su capacidad lingüística. Abordamos esto desde una perspectiva bayesiana, factorizando la política en un prior Visión-Acción (VA) independiente del lenguaje y una verosimilitud VLA condicionada al lenguaje, y proponemos APT, un método de entrenamiento en dos etapas que enfatiza el Preentrenamiento del Experto de Acción. En la Etapa 1, el experto de acción se preentrena como un prior VA en pares visión-acción a partir de un VLM congelado, evitando el desequilibrio del lenguaje. En la Etapa 2, los tokens de lenguaje se inyectan a través de un mecanismo de fusión con puerta que integra características del VLM mientras preserva el prior visomotor aprendido. APT se aplica a arquitecturas VLA convencionales, incluidas las de estilo π y GR00T. Experimentos exhaustivos validan que APT logra mejoras consistentes en instrucciones no vistas y tareas composicionales. Página del proyecto: https://xukechun.github.io/papers/APT/
Los métodos de imagen a 3D a menudo enfrentan un compromiso entre fidelidad y completitud: los estimadores de profundidad se anclan a los píxeles de entrada pero se detienen en la superficie visible, mientras que los modelos de imagen a 3D generan formas completas que a menudo están desalineadas con la entrada. Presentamos World Tracing, una representación generativa de geometría alineada con píxeles que predice puntos 3D alineados con los píxeles observados a la vez que completa la geometría más allá de la superficie visible. Para cada píxel de entrada, World Tracing predice una pila ordenada de puntos 3D en el espacio de cámara, donde la primera capa representa la superficie visible y las capas subsiguientes representan intersecciones de adelante hacia atrás con superficies ocluidas. Materializamos esta representación con un transformer de difusión de World Tracing, WT-DiT, que trata múltiples capas de geometría como tokens de denoising separados, acoplados mediante atención factorizada y global. WT-DiT se entrena con emparejamiento de flujo en el espacio de píxeles y un esquema de ruido mixto que equilibra la reconstrucción de la superficie visible con la generación de geometría ocluida. World Tracing logra un rendimiento sólido en la reconstrucción de superficies visibles y la generación de geometría completa en benchmarks de objetos, escenas y dinámicos, superando tanto a los predictores de profundidad como a los generadores de imagen a 3D. También preserva la correspondencia 2D a 3D, lo que permite la edición de escenas 3D guiada por texto, la síntesis de video de vista novedosa condicionada por geometría y la integración sin entrenamiento con generadores de mallas texturizadas.
Los Modelos Fundacionales Multimodales (MFMs) han logrado avances sustanciales, pero siguen siendo frágiles en el razonamiento espacial sobre el mundo físico. Un cuello de botella clave reside en su incapacidad para transformar observaciones egocéntricas locales en una representación espacial alocéntrica global. Para abordar esto, proponemos AlloSpatial, un marco agéntico para la cognición espacial alocéntrica en modelos fundacionales. AlloSpatial introduce World2Mind, un entorno de mapeo cognitivo plug-and-play que convierte observaciones egocéntricas en prioridades alocéntricas estructuradas, incluyendo Árboles Espaciales Alocéntricos y mapas de ruta que permiten consultar topología de objetos, relaciones geométricas, transitabilidad y trayectorias. Para utilizar estas prioridades de manera confiable bajo reconstrucción ruidosa y evidencia visual ambigua, AlloSpatial introduce un Arnés de Razonamiento Espacial para el juicio de uso de herramientas, la recolección de señales desacopladas de modalidad y el arbitraje geométrico-semántico. Además, internalizamos este proceso en Qwen3-VL mediante aprendizaje por refuerzo en frío con una recompensa a nivel de trayectoria controlada por el arnés. Los experimentos en VSI-Bench y MindCube muestran que AlloSpatial mejora los modelos propietarios en un 5%-18% en un entorno sin entrenamiento, mientras que los ASTs por sí solos respaldan un razonamiento espacial sólido incluso cuando se eliminan las entradas visuales. Los agentes AlloSpatial entrenados superan además a modelos de propósito general más grandes y a líneas base espaciales competitivas, lo que sugiere que las representaciones alocéntricas estructuradas, el uso activo de herramientas y el razonamiento verificable ofrecen una ruta prometedora hacia modelos fundacionales con capacidad espacial.
Estudiamos la identificación de la mejor acción con confianza fija (BAI) en árboles minimax estocásticos. Este problema es cada vez más relevante en la planificación moderna de IA, donde la búsqueda minimax profunda y la Búsqueda de Árboles de Monte Carlo (MCTS) con simulaciones largas basadas en modelos de lenguaje enfrentan una disyuntiva fundamental: las evaluaciones heurísticas son económicas pero sesgadas, mientras que las simulaciones precisas son fiables pero prohibitivamente costosas. Proponemos 2FFS, un algoritmo de búsqueda en árbol de dos fidelidades que incorpora ideas de bandidos planos multifidelidad en árboles. El algoritmo combina una expansión rápida de tipo minimax con un muestreo estocástico de tipo MCTS, decidiendo adaptativamente cuándo explotar evaluaciones baratas y sesgadas y cuándo invocar evaluaciones precisas y costosas para certificación local. Demostramos la corrección con confianza fija, establecemos la parada finita para la identificación exacta y proporcionamos una cota superior de costo de profundidad polinomial para árboles de profundidad general. En experimentos numéricos con árboles estocásticos, 2FFS utiliza sustancialmente menos muestras y operaciones computacionales en comparación con la línea base de BAI-MCTS existente.
Los detectores de alucinaciones a nivel de token se evalúan como clasificadores mediante el AUC sobre todos los tokens, sin embargo, un monitor en streaming se juzga por su tiempo de reacción: el número de tokens que transcurren entre el inicio de una alucinación y la alarma. Formulamos la detección del inicio de alucinaciones como un problema de detección del cambio más rápido. Un modelo de Markov de primer orden del estado latente fiel/alucinado, validado en RAGTruth, sitúa la tarea dentro de la teoría clásica de puntos de cambio y proporciona la cota inferior de Lorden sobre el retraso de detección: aproximadamente 1,3 tokens con una tasa de falsas alarmas de 0,01. Luego mostramos que un etiquetador recurrente causal actúa como un CUSUM con un incremento aprendido; con una tasa de falsas alarmas igualada, detecta en 11-13 tokens, frente a 31 para una línea base lineal por token, y una descomposición controlada atribuye la mayor parte de esta ventaja a una mejor puntuación por token más que a la acumulación temporal. Un teorema de optimalidad de tasa de información de tipo Donsker-Varadhan explica la brecha restante de orden de magnitud: la puntuación aprendida solo realiza 1/4,5 de la divergencia que portan las características, un déficit que la recalibración no puede eliminar, siendo el resto un efecto de horizonte finito. Las métricas de clasificación ocultan esta estructura de retraso; el análisis secuencial la hace medible.
Presentamos un punto de referencia para evaluar modelos y agentes de IA en tareas reales de verificación formal de software. Primero, extraemos 11,039 pruebas basadas en propiedades (PBT, por sus siglas en inglés) de repositorios reales de Python, y luego traducimos automáticamente 2,772 de ellas (el 25 %) en 9,415 especificaciones de Lean 4 con marcadores de posición *sorry* (aproximadamente 3 formalizaciones por PBT; retenemos múltiples intentos cuando ninguno domina en las métricas de calidad). La traducción de PBT a especificaciones de Lean es un desafío: requiere modelar la semántica de Python en Lean, inferir la propiedad lógica codificada en una PBT imperativa y manejar las dificultades inherentes de la programación con tipos dependientes en un lenguaje poco utilizado. Describimos un canal de LLM de tres agentes para la transpilación de PBT a especificaciones de Lean, evaluamos métricas de cobertura y calidad, y proporcionamos puntos de referencia para la generación de demostraciones mediante varios enfoques automatizados y basados en modelos. Todo el código (raspador y agentes) y los datos (PBT y especificaciones de Lean) son de código abierto. Nuestro punto de referencia tiene como objetivo impulsar el progreso en el problema poco explorado de la verificación formal asistida por IA de software real, un tema de creciente interés a medida que la IA produce cada vez más código en el mundo.
El video humano egocéntrico ofrece una alternativa escalable a los datos de robots para el preentrenamiento; sin embargo, los modelos preentrenados con dicho video obtienen consistentemente un rendimiento inferior a aquellos preentrenados con datos de robots. Atribuimos esta brecha a una señal faltante: el comportamiento de percepción activa en los videos egocéntricos, donde los humanos reposicionan continuamente su punto de vista durante la manipulación, induciendo un movimiento de cámara que los pipelines estándar tratan como ruido. Para abordar esto, presentamos ActiveMimic, un marco de preentrenamiento que recupera trayectorias sincronizadas de cámara y muñeca a partir de una única cámara RGB corporal, modela el movimiento de la cámara como una acción de punto de vista y aprende conjuntamente percepción activa y manipulación a partir de video humano egocéntrico en entornos reales antes de adaptarse a un robot objetivo. Empíricamente, experimentos en el mundo real a través de tareas con diversas demandas de percepción activa muestran que ActiveMimic supera consistentemente a las líneas base preentrenadas con video humano e iguala a los modelos de última generación preentrenados con datos de robots. Análisis adicionales proporcionan evidencia de que la capacidad de percepción activa se origina en el preentrenamiento con video humano egocéntrico, y no en el ajuste fino específico del robot, confirmando que la percepción activa es la clave para aprovechar el video humano egocéntrico en el preentrenamiento de robots.
La conducción interactiva expone un modo de fallo que es fácil pasar por alto en las pilas de conducción autónoma conscientes de reglas: un margen de regla estricta puede ser negativo para un candidato ego, incluso cuando una pequeña concesión legal por parte de un agente no prioritario restauraría la factibilidad. Los libros de reglas, escudos y filtros de alcanzabilidad existentes son sólidos para vetar acciones inseguras, mientras que los planificadores basados en predicción modelan las respuestas probables. Ninguno de ellos devuelve un objeto de prueba en tiempo de ejecución que indique qué edición multiagente acotada repara la maniobra, quién es el titular de la edición, si la solicitud es asequible en términos de derecho de paso, y qué plan de contingencia del ego permanece si la solicitud no se cumple. Formulamos este objeto faltante como *certificación de reparación interactiva* e introducimos *CARVE*, una capa de certificación sin predicción sobre un retículo finito de operadores tácticos propiedad del ego y del agente. Las solicitudes propiedad del agente son admisibles solo dentro de \(B_j(s) = β(π_j)α_j^{\max}(s)\), una envolvente de cooperación que separa la alcanzabilidad cinemática de la prioridad normativa. El certificado resultante registra la regla vinculante, la categoría de reparación, el conjunto de reparación, la división de costos ponderada por responsabilidad y el plan de contingencia. En 589 episodios de reproducción INTERACTION basados en geometría Lanelet2, CARVE-Greedy acepta el 98.64% de las maniobras inicialmente vetadas y recupera 370 de 378 vetos falsos resueltos por humanos, mientras preserva 589 de 589 casos de respeto del derecho de paso, cero falsos positivos de agente prioritario y 400 de 400 vetos de estrés negativo. Demostramos la solidez del certificado, el respeto estructural del derecho de paso, la minimalidad exacta del retículo finito, la contingencia del plan de contingencia y las condiciones de consistencia de atribución de culpa. CARVE no predice ni requiere el cumplimiento de otro conductor; certifica si una interacción propuesta es acotada, atribuible y normativamente admisible bajo supuestos declarados.
Los modelos de razonamiento a gran escala suelen seguir un paradigma de "leer y luego pensar": observan la entrada completa, razonan sobre un contexto estático y luego producen la respuesta. Sin embargo, muchos escenarios del mundo real son inherentemente dinámicos, como las transmisiones de audio y video, donde la información llega como un flujo continuo y los modelos deben razonar, actualizarse y responder bajo observaciones parciales. Los métodos recientes de razonamiento en flujo permiten que los modelos piensen mientras leen, pero dependen en gran medida de la imitación supervisada de trayectorias preconstruidas, lo que limita su flexibilidad. En este artículo, proponemos AdaSR, un marco de razonamiento adaptativo en flujo que permite a los modelos razonar durante la entrada de flujo y realizar una deliberación final una vez completado el flujo, aprendiendo cuándo pensar y cuánto cómputo asignar en las diferentes etapas. Para optimizar este proceso de razonamiento jerárquico, introducimos la Optimización de Políticas Relativas Jerárquicas (HRPO), que descompone la optimización de políticas en fases de razonamiento en flujo y razonamiento profundo, proporcionando una asignación de ventajas más granular en lugar de distribuir uniformemente una única ventaja a nivel de secuencia sobre todos los tokens. HRPO integra recompensas de formato, precisión y pensamiento adaptativo para imponer protocolos de razonamiento válidos, preservar el rendimiento final de la tarea y fomentar una asignación de cómputo consciente de la latencia. Los experimentos muestran que AdaSR logra un mejor equilibrio entre la precisión del razonamiento, la eficiencia computacional y la latencia del flujo en comparación con la línea base de ajuste fino supervisado. Publicamos nuestro código en https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.
El pruning no estructurado produce tensores de pesos dispersos, pero la implementación estándar mantiene las formas de los tensores sin cambios, por lo que el modelo desplegado no es más pequeño que antes del pruning. Presentamos una reescritura estructural exacta, a la que llamamos minimización, que convierte una red enmascarada en una red densa más pequeña con la misma función forward, salvo por el redondeo de punto flotante. El ciclo Squeeze-Release itera el pruning y la minimización con un paso intermedio de liberación que reactiva las posiciones exactamente cero dentro de los tensores compactados como pequeño ruido calibrado, convirtiendo la capacidad que de otro modo se desperdiciaría nuevamente en parámetros entrenables. Los ciclos sucesivos utilizan esa capacidad para encontrar redundancia estructural que un solo paso no puede alcanzar. Además, introducimos CompensatedLayerNorm, un reemplazo que preserva la función para LayerNorm, que extiende la minimización a la reducción de canales a través de flujos residuales equipados con LayerNorm. Squeeze-Release comprime la red desplegable a 39 veces más pequeña que el modelo sin podar en una red de modelo completamente conectado y 14,8 veces más pequeña en una CNN moderna (ConvNeXt-Tiny), con una precisión comparable. Además, demostramos que la reescritura puede extenderse a arquitecturas Transformer.
Los conjuntos de datos grandes y demográficamente equilibrados son esenciales para obtener biomarcadores fiables de neuroimagen. La síntesis 3D de resonancia magnética cerebral de resolución completa puede respaldar el aumento de datos en este contexto, pero los enfoques existentes incurren en costos computacionales prohibitivos a escala volumétrica o dependen de una compresión latente con pérdida que puede comprometer el detalle anatómico. Como resultado, el aumento generativo 3D práctico a menudo requiere infraestructura de cómputo especializada. Proponemos WaveDiT, un marco de coincidencia de flujo condicional que opera en el espacio de coeficientes de una Transformada Wavelet Discreta 3D de Haar. El modelo combina atención factorizada espacio-profundidad con modelado de incertidumbre heterocedástica por bandas derivado de estadísticas wavelet de orden superior. La log-varianza predicha se integra directamente tanto en el objetivo de flujo como en la vía de acondicionamiento, lo que permite una precisión adaptativa coherente con la estructura de varianza de cola pesada y dependiente de la entrada del detalle anatómico. Esta formulación admite la síntesis 3D de resolución completa bajo restricciones prácticas de memoria y tiempo en una sola GPU moderna. La evaluación en una cohorte multisitio demuestra una mejor alineación entre las distribuciones de MRI generadas y reales, junto con una mejora en la predicción descendente de la edad cerebral y en la concordancia anatómica a nivel regional en comparación con las líneas base basadas en difusión, latente y wavelet. El código está disponible en https://github.com/sisinflab/WaveDiT
Con PRECISE, extendimos la Inferencia Potenciada por Predicciones para producir estimaciones corregidas por sesgo de métricas de evaluación de ranking, combinando un pequeño conjunto etiquetado por humanos con un gran conjunto evaluado por LLM. PPI es demostrablemente insesgado independientemente del perfil de error del evaluador LLM. Lo hacemos aplicable a métricas jerárquicas como Precisión@K, donde las anotaciones son por documento pero la métrica es por consulta, reduciendo el cálculo del espacio de salida de O(2^|C|) a O(2^K). En el benchmark ESCI, aumentar 30 anotaciones humanas con juicios de Claude 3 Sonnet reduce el error estándar de las estimaciones de Precisión@4 de 4.45 a 3.50 (una reducción relativa del 21%). En un sistema de producción, nuestro marco identificó correctamente la mejor de tres variantes del sistema a partir de 100 etiquetas humanas y 2 horas de anotación de expertos en el dominio; las pruebas A/B confirmaron esta clasificación con +407 puntos base en ventas diarias.