Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos DeepSeek-V3.2, un modelo que armoniza una alta eficiencia computacional con un rendimiento superior en razonamiento y capacidades de agente. Los avances técnicos clave de DeepSeek-V3.2 son los siguientes: (1) Atención Dispersa DeepSeek (DSA): Introducimos DSA, un mecanismo de atención eficiente que reduce sustancialmente la complejidad computacional preservando el rendimiento del modelo en escenarios de contexto largo. (2) Marco Escalable de Aprendizaje por Refuerzo: Mediante la implementación de un protocolo robusto de aprendizaje por refuerzo y el escalado del cómputo post-entrenamiento, DeepSeek-V3.2 rinde de manera comparable a GPT-5. Notablemente, nuestra variante de alto cómputo, DeepSeek-V3.2-Speciale, supera a GPT-5 y exhibe una competencia en razonamiento a la par de Gemini-3.0-Pro, logrando un rendimiento de medalla de oro tanto en la Olimpiada Internacional de Matemáticas (IMO) 2025 como en la Olimpiada Internacional de Informática (IOI). (3) Canalización de Síntesis de Tareas Agénticas a Gran Escala: Para integrar el razonamiento en escenarios de uso de herramientas, desarrollamos una novedosa canalización de síntesis que genera datos de entrenamiento de manera sistemática y a escala. Esta metodología facilita un post-entrenamiento agéntico escalable, produciendo mejoras sustanciales en la generalización y la robustez en el seguimiento de instrucciones dentro de entornos interactivos complejos.
Los modelos de lenguaje a gran escala son generalistas potentes, pero resolver problemas profundos y complejos como los del Examen Final de la Humanidad (HLE) sigue siendo conceptualmente desafiante y computacionalmente costoso. Demostramos que pequeños orquestadores que gestionan otros modelos y una variedad de herramientas pueden elevar el límite superior de la inteligencia y mejorar la eficiencia en la resolución de tareas agenticas difíciles. Presentamos ToolOrchestra, un método para entrenar pequeños orquestadores que coordinan herramientas inteligentes. ToolOrchestra utiliza explícitamente aprendizaje por refuerzo con recompensas conscientes de los resultados, la eficiencia y las preferencias del usuario. Usando ToolOrchestra, producimos Orchestrator, un modelo de 8B que logra mayor precisión a menor costo que los agentes previos de uso de herramientas, alineándose con las preferencias del usuario sobre qué herramientas utilizar para una consulta dada. En HLE, Orchestrator alcanza un puntaje del 37.1%, superando a GPT-5 (35.1%) mientras es 2.5 veces más eficiente. En tau2-Bench y FRAMES, Orchestrator supera a GPT-5 por un amplio margen utilizando solo alrededor del 30% del costo. Un análisis exhaustivo muestra que Orchestrator logra el mejor equilibrio entre rendimiento y costo bajo múltiples métricas, y generaliza robustamente a herramientas no vistas. Estos resultados demuestran que componer diversas herramientas con un modelo de orquestación ligero es más eficiente y efectivo que los métodos existentes, allanando el camino para sistemas de razonamiento aumentados con herramientas prácticos y escalables.
Las técnicas actuales de generación de vídeo sobresalen en la producción de clips de plano único, pero presentan dificultades para generar vídeos narrativos con múltiples planos, los cuales requieren una disposición flexible de tomas, coherencia narrativa y un control que va más allá de los prompts de texto. Para abordar estos desafíos, proponemos MultiShotMaster, un marco para la generación de vídeos multi-plano altamente controlable. Extendemos un modelo preentrenado de plano único mediante la integración de dos nuevas variantes de RoPE (Rotary Position Embedding). En primer lugar, introducimos "RoPE Narrativo Multi-Plano", que aplica un cambio de fase explícito en las transiciones entre planos, permitiendo una disposición flexible de las tomas mientras se preserva el orden narrativo temporal. En segundo lugar, diseñamos "RoPE con Conciencia de Posición Espaciotemporal" para incorporar tokens de referencia y señales de grounding, permitiendo la inyección de referencias con anclaje espaciotemporal. Adicionalmente, para superar la escasez de datos, establecemos un pipeline automatizado de anotación que extrae vídeos multi-plano, descripciones, señales de grounding entre planos e imágenes de referencia. Nuestro marco aprovecha las propiedades intrínsecas de la arquitectura para soportar la generación de vídeos multi-plano, caracterizándose por una consistencia inter-planos guiada por texto, sujetos personalizados con control de movimiento y escenas personalizadas basadas en el fondo. Tanto el número de planos como su duración son configurables de forma flexible. Experimentos exhaustivos demuestran el rendimiento superior y la excepcional capacidad de control de nuestro marco.
Presentamos MG-Nav (Navegación Guiada por Memoria), un marco de trabajo de doble escala para navegación visual *zero-shot* que unifica la planificación global guiada por memoria con el control local mejorado por geometría. Su núcleo es el Grafo de Memoria Espacial Dispersa (SMG), una memoria compacta y céntrica en regiones donde cada nodo agrega semántica de *keyframes* multi-vista y de objetos, capturando tanto la apariencia como la estructura espacial mientras preserva la diversidad de puntos de vista. A nivel global, el agente se localiza en el SMG y se planifica una ruta de nodos condicionada por el objetivo mediante una recuperación híbrida de imagen a instancia, produciendo una secuencia de puntos de referencia alcanzables para una guía de largo horizonte. A nivel local, una política de navegación base ejecuta estos puntos de referencia en modo de objetivo puntual con control consciente de obstáculos, y cambia al modo de objetivo visual al navegar desde el nodo final hacia el objetivo visual. Para mejorar aún más la alineación de puntos de vista y el reconocimiento de objetivos, introducimos VGGT-adapter, un módulo geométrico ligero construido sobre el modelo VGGT preentrenado, que alinea las características de la observación y del objetivo en un espacio compartido consciente de la 3D. MG-Nav opera la planificación global y el control local a diferentes frecuencias, utilizando una relocalización periódica para corregir errores. Los experimentos en los puntos de referencia HM3D Instance-Image-Goal y MP3D Image-Goal demuestran que MG-Nav logra un rendimiento *zero-shot* de vanguardia y se mantiene robusto bajo reordenamientos dinámicos y condiciones de escena no vistas.
Este artículo presenta DualCamCtrl, un novedoso modelo de difusión de extremo a extremo para la generación de vídeos controlados por cámara. Trabajos recientes han avanzado en este campo representando las poses de la cámara como condiciones basadas en rayos, aunque a menudo carecen de una comprensión suficiente de la escena y de conciencia geométrica. DualCamCtrl aborda específicamente esta limitación mediante la introducción de un marco de doble rama que genera mutuamente secuencias RGB y de profundidad consistentes con la cámara. Para armonizar estas dos modalidades, proponemos además el mecanismo de Alineación Mutua Guiada por Semántica (SIGMA), que realiza la fusión RGB-profundidad de manera guiada por semántica y mutuamente reforzada. Estos diseños permiten colectivamente a DualCamCtrl desentrañar mejor el modelado de apariencia y geometría, generando vídeos que se adhieren más fielmente a las trayectorias de cámara especificadas. Adicionalmente, analizamos y revelamos la influencia distintiva de la profundidad y las poses de la cámara a lo largo de las etapas de eliminación de ruido, y demostramos además que las etapas tempranas y tardías desempeñan roles complementarios en la formación de la estructura global y el refinamiento de los detalles locales. Experimentos exhaustivos demuestran que DualCamCtrl logra una generación de vídeo controlado por cámara más consistente, con una reducción de más del 40% en los errores de movimiento de cámara en comparación con métodos anteriores. Nuestra página del proyecto: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
La autoevolución de la IA ha sido durante mucho tiempo visualizada como un camino hacia la superinteligencia, donde los modelos adquieren, refinan e internalizan conocimientos de manera autónoma a partir de sus propias experiencias de aprendizaje. Sin embargo, en la práctica, los sistemas de autoevolución no guiada a menudo se estancan rápidamente o incluso se degradan a medida que avanza el entrenamiento. Estos fracasos surgen de problemas como la deriva de concepto, el colapso de la diversidad y la mala evolución, a medida que los modelos refuerzan sus propios sesgos y convergen hacia comportamientos de baja entropía. Para permitir que los modelos evolucionen de manera estable y controlable minimizando la dependencia de la supervisión humana, presentamos R-Few, un marco guiado de Desafiador-Solucionador de Autojuego que incorpora una supervisión humana ligera mediante fundamentación en contexto y entrenamiento mixto. En cada iteración, el Desafiador muestrea un pequeño conjunto de ejemplos etiquetados por humanos para guiar la generación sintética de preguntas, mientras que el Solucionador se entrena conjuntamente con ejemplos humanos y sintéticos bajo un currículo en línea basado en la dificultad. En benchmarks de matemáticas y razonamiento general, R-Few logra mejoras consistentes e iterativas. Por ejemplo, Qwen3-8B-Base mejora +3.0 puntos sobre R-Zero en tareas matemáticas y alcanza un rendimiento similar a General-Reasoner, a pesar de que este último fue entrenado con 20 veces más datos humanos. Los estudios de ablación confirman las contribuciones complementarias del entrenamiento del desafiador fundamentado y del entrenamiento del solucionador basado en currículo, y un análisis adicional muestra que R-Few mitiga la deriva, produciendo dinámicas coevolutivas más estables y controlables.
A pesar de los recientes avances en los sistemas agentes multimodales, los enfoques existentes a menudo tratan la manipulación de imágenes y la búsqueda web como capacidades separadas, dependen en gran medida del costoso aprendizaje por refuerzo y carecen de una planificación basada en trazas de ejecución de herramientas reales. Para abordar estas limitaciones, presentamos Skywork-R1V4, un modelo agente multimodal de 30B (A3B) parámetros que unifica la planificación multimodal, la manipulación activa de imágenes ("pensar con imágenes"), la búsqueda multimodal profunda y, lo más crítico, el razonamiento intercalado que alterna dinámicamente entre operaciones visuales y la recuperación de conocimiento externo. Entrenado únicamente mediante ajuste fino supervisado en menos de 30,000 trayectorias de alta calidad, consistentes en planificación-ejecución, y validado mediante filtrado de consistencia paso a paso, Skywork-R1V4 logra resultados de vanguardia en benchmarks de percepción y búsqueda multimodal: obtiene 66.1 en MMSearch y 67.2 en FVQA, superando a Gemini 2.5 Flash en las 11 métricas. Skywork-R1V4 exhibe un razonamiento de horizonte largo emergente en el momento de la inferencia, orquestando exitosamente más de 10 llamadas a herramientas para resolver tareas complejas de múltiples pasos. Nuestros resultados demuestran que se puede lograr una inteligencia multimodal agente sofisticada únicamente a través de un aprendizaje supervisado cuidadosamente seleccionado, sin depender en absoluto del aprendizaje por refuerzo.
Lograr sistemas de conducción completamente autónomos requiere aprender decisiones racionales en un amplio espectro de escenarios, incluidos aquellos críticos para la seguridad y fuera de distribución. Sin embargo, estos casos están subrepresentados en el corpus del mundo real recopilado por expertos humanos. Para compensar la falta de diversidad de datos, presentamos un marco de simulación novedoso y escalable capaz de sintetizar estados masivos no vistos a partir de registros de conducción existentes. Nuestra canalización utiliza renderizado neuronal avanzado con un entorno reactivo para generar observaciones de alta fidelidad y múltiples vistas controladas por la trayectoria perturbada del ego. Además, desarrollamos un mecanismo de generación de trayectorias pseudo-expertas para estos estados recién simulados, con el fin de proporcionar supervisión de acciones. Sobre los datos sintetizados, encontramos que una simple estrategia de co-entrenamiento con muestras tanto reales como simuladas puede conducir a mejoras significativas en la robustez y generalización de varios métodos de planificación en benchmarks reales desafiantes, hasta +6.8 EPDMS en navhard y +2.9 en navtest. Más importante aún, dicha mejora de la política escala suavemente al incrementar únicamente los datos de simulación, incluso sin flujo adicional de datos del mundo real. Además, revelamos varios hallazgos cruciales de este sistema de aprendizaje sim-real, que denominamos SimScale, incluido el diseño de pseudo-expertos y las propiedades de escalado para diferentes arquitecturas de políticas. Nuestros datos de simulación y código serán liberados.
Los LLM y los agentes han logrado avances impresionantes en generación de código, razonamiento matemático y descubrimiento científico. Sin embargo, los benchmarks existentes miden principalmente la corrección, pasando por alto la diversidad de métodos detrás de las soluciones. La verdadera innovación no solo depende de producir respuestas correctas, sino también de la originalidad del enfoque. Presentamos InnoGym, el primer benchmark y marco de trabajo diseñado para evaluar sistemáticamente el potencial de innovación de los agentes de IA. InnoGym introduce dos métricas complementarias: la ganancia de rendimiento, que mide la mejora respecto a las mejores soluciones conocidas, y la novedad, que captura las diferencias metodológicas con respecto a enfoques anteriores. El benchmark incluye 18 tareas cuidadosamente seleccionadas de dominios científicos y de ingeniería del mundo real, cada una estandarizada mediante filtrado de recursos, validación del evaluador y recopilación de soluciones. Además, proporcionamos iGym, un entorno de ejecución unificado para evaluaciones reproducibles y de largo horizonte. Experimentos exhaustivos muestran que, aunque algunos agentes producen enfoques novedosos, su falta de robustez limita las ganancias de rendimiento. Estos resultados destacan una brecha clave entre la creatividad y la efectividad, subrayando la necesidad de benchmarks que evalúen ambos aspectos.
Los modelos de difusión han logrado un éxito notable en la generación de imágenes, aunque su implementación sigue limitada por el alto coste computacional y la necesidad de numerosos pasos de inferencia. Los esfuerzos previos en destilación con menos pasos intentan omitir pasos redundantes entrenando modelos estudiantiles compactos, pero a menudo sufren de altos costes de reentrenamiento y una generalización degradada. En este trabajo, adoptamos una perspectiva diferente: aceleramos de manera inteligente, no uniforme, aplicando aceleraciones menores a las etapas semánticas iniciales y mayores a las fases redundantes posteriores. Instanciamos esta estrategia consciente de las fases con dos especialistas que se dedican a las fases de desruido lentas y rápidas. Sorprendentemente, en lugar de invertir un esfuerzo masivo en reentrenar modelos estudiantiles, descubrimos que simplemente equipar el modelo base con adaptadores LoRA ligeros logra tanto una aceleración eficiente como una fuerte generalización. Nos referimos a estos dos adaptadores como Slow-LoRA y Fast-LoRA. Mediante experimentos exhaustivos, nuestro método logra hasta 5 veces más aceleración que el modelo base mientras mantiene una calidad visual comparable en diversos benchmarks. Notablemente, los especialistas LoRA se entrenan con solo 1 muestra en una única V100 en menos de una hora, y aun así los modelos resultantes generalizan sólidamente con prompts no vistos.
A pesar de los avances en la generación de audio a partir de video, el campo se centra predominantemente en la salida mono, careciendo de inmersión espacial. Los enfoques binaurales existentes siguen limitados por un proceso en dos etapas que primero genera audio mono y luego realiza la espacialización, lo que a menudo resulta en una acumulación de errores e inconsistencias espacio-temporales. Para abordar esta limitación, presentamos la tarea de generar audio espacial binaural de extremo a extremo directamente a partir de video silencioso. Para respaldar esta tarea, presentamos el conjunto de datos BiAudio, que comprende aproximadamente 97.000 pares de video-audio binaural que abarcan diversas escenas del mundo real y trayectorias de rotación de cámara, construido mediante un proceso semiautomatizado. Además, proponemos ViSAudio, un marco de trabajo de extremo a extremo que emplea *conditional flow matching* con una arquitectura de generación de audio de doble rama, donde dos ramas especializadas modelan los flujos latentes de audio. Integrado con un módulo espacio-temporal condicional, equilibra la coherencia entre canales preservando al mismo tiempo las características espaciales distintivas, garantizando una alineación espacio-temporal precisa entre el audio y el video de entrada. Experimentos exhaustivos demuestran que ViSAudio supera a los métodos estado del arte existentes tanto en métricas objetivas como en evaluaciones subjetivas, generando audio binaural de alta calidad con inmersión espacial que se adapta eficazmente a los cambios de punto de vista, al movimiento de la fuente sonora y a diversos entornos acústicos. Sitio web del proyecto: https://kszpxxzmc.github.io/ViSAudio-project.
Los recientes avances en los modelos de lenguaje de gran tamaño para vídeo han demostrado una gran capacidad para comprender clips cortos. Sin embargo, escalarlos a vídeos de horas o días de duración sigue siendo un gran desafío debido a la capacidad de contexto limitada y a la pérdida de detalles visuales críticos durante la abstracción. Los métodos existentes aumentados con memoria mitigan esto aprovechando resúmenes textuales de segmentos de vídeo, aunque dependen en gran medida del texto y no logran utilizar evidencia visual al razonar sobre escenas complejas. Además, la recuperación desde escalas temporales fijas limita aún más su flexibilidad para capturar eventos que abarcan duraciones variables. Para abordar esto, presentamos WorldMM, un novedoso agente de memoria multimodal que construye y recupera información de múltiples memorias complementarias, que abarcan representaciones tanto textuales como visuales. WorldMM comprende tres tipos de memoria: la memoria episódica indexa eventos factuales a través de múltiples escalas temporales, la memoria semántica actualiza continuamente conocimiento conceptual de alto nivel, y la memoria visual preserva información detallada sobre las escenas. Durante la inferencia, un agente de recuperación adaptativo selecciona iterativamente la fuente de memoria más relevante y aprovecha múltiples granularidades temporales basándose en la consulta, continuando hasta determinar que se ha reunido suficiente información. WorldMM supera significativamente a los métodos de referencia existentes en cinco benchmarks de respuesta a preguntas sobre vídeos largos, logrando una mejora media del rendimiento del 8.4% sobre los mejores métodos anteriores, lo que demuestra su eficacia en el razonamiento sobre vídeos largos.
Los modelos visión-lenguaje-acción (VLA) han demostrado capacidades notables en manipulación robótica, pero su rendimiento es sensible a la longitud del fragmento de acción utilizado durante el entrenamiento, denominada horizonte. Nuestro estudio empírico revela una compensación inherente: los horizontes más largos proporcionan una mejor previsión global pero degradan la precisión de granularidad fina, mientras que los más cortos agudizan el control local pero tienen dificultades en tareas a largo plazo, lo que implica que la elección fija de un solo horizonte es subóptima. Para mitigar esta compensación, proponemos una estrategia de mezcla de horizontes (MoH). MoH reorganiza el fragmento de acción en varios segmentos con diferentes horizontes, los procesa en paralelo con un transformador de acción compartido y fusiona las salidas con una compuerta lineal ligera. Tiene tres ventajas atractivas. 1) MoH explota conjuntamente la previsión a largo plazo y la precisión a corto plazo dentro de un solo modelo, mejorando tanto el rendimiento como la generalización a tareas complejas. 2) MoH es plug-and-play para módulos de acción con atención completa, con una sobrecarga mínima en entrenamiento o inferencia. 3) MoH permite inferencia dinámica con horizontes adaptativos, que selecciona acciones estables mediante consenso entre horizontes, logrando un rendimiento 2.5 veces mayor que los métodos base mientras preserva un rendimiento superior. Experimentos extensos sobre políticas basadas en flujo π_0, π_{0.5} y la política de regresión de un paso π_{reg} demuestran que MoH produce ganancias consistentes y significativas tanto en simulaciones como en tareas del mundo real. Notablemente, bajo un entorno de tareas mixtas, π_{0.5} con MoH alcanza un nuevo estado del arte con una tasa de éxito promedio del 99% en LIBERO después de solo 30k iteraciones de entrenamiento. Página del proyecto: https://github.com/Timsty1/MixtureOfHorizons
La cuantización a baja anchura de bits es un enfoque estándar para implementar modelos de lenguaje grandes; sin embargo, algunos pesos y activaciones extremos amplían el rango dinámico y reducen la resolución efectiva del cuantizador. Un método de mitigación común consiste en aplicar algunas transformadas ortogonales fijas, como matrices de Hadamard, antes de la cuantización, lo que generalmente reduce el rango dinámico. No obstante, estas transformadas ignoran la estadística de los datos y actualmente no se comprende su optimalidad. En este trabajo, derivamos por primera vez transformadas lineales óptimas en forma cerrada, por bloques, para la cuantización conjunta de pesos y activaciones, utilizando cuantizadores estándar libres de datos para formatos numéricos comunes. Específicamente, proporcionamos derivaciones de las transformadas adaptativas (conscientes de los datos) óptimas para cuantizadores por bloques con escala AbsMax y redondeo al más cercano (RTN), tanto para formatos enteros como de coma flotante. La construcción resultante, que denominamos WUSH, combina una estructura base de Hadamard con un componente dependiente de los datos basado en momentos de segundo orden, produciendo una transformada no ortogonal que es demostrablemente óptima bajo supuestos moderados y mantiene una estructura que permite una implementación eficiente. Resultados experimentales preliminares muestran que nuestro método mejora consistentemente la transformada de Hadamard para formatos comunes.
La modelización en espacio latente ha sido el estándar para los Transformadores de Difusión (DiTs). Sin embargo, este enfoque depende de un proceso de dos etapas en el que el autocodificador preentrenado introduce una reconstrucción con pérdidas, lo que genera una acumulación de errores y dificulta la optimización conjunta. Para abordar estos problemas, proponemos PixelDiT, un modelo monolítico de extremo a extremo que elimina la necesidad del autocodificador y aprende el proceso de difusión directamente en el espacio de píxeles. PixelDiT adopta una arquitectura completamente basada en transformadores conformada por un diseño de doble nivel: un DiT a nivel de parche que captura la semántica global y un DiT a nivel de píxel que refina los detalles texturales, permitiendo el entrenamiento eficiente de un modelo de difusión en espacio de píxeles mientras preserva los detalles finos. Nuestro análisis revela que una modelización efectiva de los tokens a nivel de píxel es esencial para el éxito de la difusión en píxeles. PixelDiT alcanza un FID de 1.61 en ImageNet 256x256, superando por un amplio margen a los modelos generativos de píxeles existentes. Además, extendemos PixelDiT a la generación de texto a imagen y lo preentrenamos a una resolución de 1024x1024 en el espacio de píxeles. El modelo logra 0.74 en GenEval y 83.5 en DPG-bench, aproximándose a los mejores modelos de difusión latente.
Los sistemas generativos recientes de audio y vídeo sugieren que el acoplamiento de modalidades beneficia no solo la sincronía audiovisual, sino también la propia modalidad de vídeo. Planteamos una pregunta fundamental: ¿Mejora el entrenamiento conjunto de eliminación de ruido audio-vídeo la generación de vídeo, incluso cuando solo nos importa la calidad del vídeo? Para estudiarlo, presentamos una arquitectura eficiente en parámetros, Audio-Video Full DiT (AVFullDiT), que aprovecha módulos preentrenados de texto a vídeo (T2V) y texto a audio (T2A) para la eliminación de ruido conjunta. Entrenamos (i) un modelo T2AV con AVFullDiT y (ii) una contraparte exclusiva de T2V bajo configuraciones idénticas. Nuestros resultados proporcionan la primera evidencia sistemática de que la eliminación de ruido conjunta audio-vídeo puede ofrecer más que sincronía. Observamos mejoras consistentes en subconjuntos desafiantes que presentan movimientos de contacto de objetos y grandes movimientos. Nuestra hipótesis es que predecir el audio actúa como una señal privilegiada, incentivando al modelo a internalizar relaciones causales entre eventos visuales y sus consecuencias acústicas (por ejemplo, los tiempos de colisión impactan en el sonido), lo que a su vez regulariza la dinámica del vídeo. Nuestros hallazgos sugieren que el entrenamiento conjunto multimodal es un enfoque prometedor para desarrollar modelos del mundo más sólidos y fundamentados físicamente. El código y el conjunto de datos se pondrán a disposición pública.
El razonamiento analógico es fundamental en la cognición humana, constituyendo una base importante para diversas actividades intelectuales. Si bien trabajos previos han demostrado que los LLM pueden representar patrones de tareas y conceptos superficiales, aún no está claro si estos modelos pueden codificar conceptos relacionales de alto nivel y aplicarlos a situaciones novedosas mediante comparaciones estructuradas. En este trabajo, exploramos este aspecto fundamental utilizando analogías proporcionales y narrativas, e identificamos tres hallazgos clave. Primero, los LLM codifican efectivamente las relaciones subyacentes entre entidades análogas; tanto la información atributiva como la relacional se propagan a través de las capas medias-altas en los casos correctos, mientras que los fallos de razonamiento reflejan la ausencia de información relacional en estas capas. Segundo, a diferencia de los humanos, los LLM a menudo tienen dificultades no solo cuando falta información relacional, sino también al intentar aplicarla a nuevas entidades. En tales casos, la aplicación estratégica de parches en las representaciones ocultas en posiciones críticas de tokens puede facilitar la transferencia de información hasta cierto punto. Por último, el razonamiento analógico exitoso en los LLM se caracteriza por una fuerte alineación estructural entre situaciones análogas, mientras que los fallos suelen reflejar una alineación degradada o desplazada. En general, nuestros hallazgos revelan que los LLM exhiben capacidades emergentes pero limitadas para codificar y aplicar conceptos relacionales de alto nivel, destacando tanto paralelismos como brechas con la cognición humana.
Los modelos de lenguaje grandes (LLM) han evolucionado rápidamente de generadores de texto a potentes solucionadores de problemas. Sin embargo, muchas tareas abiertas exigen pensamiento crítico, integración de múltiples fuentes y resultados verificables, lo cual va más allá del prompting de una sola vez o de la generación aumentada por recuperación estándar. Recientemente, numerosos estudios han explorado la Investigación Profunda (Deep Research, DR), que pretende combinar las capacidades de razonamiento de los LLM con herramientas externas, como motores de búsqueda, capacitando así a los LLM para actuar como agentes de investigación capaces de completar tareas complejas y de final abierto. Esta encuesta presenta una visión general exhaustiva y sistemática de los sistemas de investigación profunda, incluyendo una hoja de ruta clara, componentes fundamentales, técnicas de implementación práctica, desafíos importantes y direcciones futuras. Específicamente, nuestras principales contribuciones son las siguientes: (i) formalizamos una hoja de ruta de tres etapas y distinguimos la investigación profunda de paradigmas relacionados; (ii) presentamos cuatro componentes clave: planificación de consultas, adquisición de información, gestión de la memoria y generación de respuestas, cada uno acompañado de sub-taxonomías de grano fino; (iii) resumimos técnicas de optimización, incluyendo prompting, ajuste fino supervisado y aprendizaje por refuerzo agentico; y (iv) consolidamos criterios de evaluación y desafíos abiertos, con el objetivo de guiar y facilitar el desarrollo futuro. Dado que el campo de la investigación profunda continúa evolucionando rápidamente, nos comprometemos a actualizar continuamente esta encuesta para reflejar los últimos progresos en esta área.
En este artículo, presentamos CUDA-L2, un sistema que combina modelos de lenguaje extensos (LLM) y aprendizaje por refuerzo (RL) para optimizar automáticamente kernels CUDA de Multiplicación General de Matrices en Precisión Media (HGEMM). Utilizando la velocidad de ejecución de CUDA como recompensa del RL, CUDA-L2 optimiza automáticamente kernels HGEMM en 1.000 configuraciones. CUDA-L2 supera sistemáticamente los principales baselines de multiplicación de matrices hasta la fecha, desde el ampliamente utilizado {\it torch.matmul} hasta las bibliotecas cerradas de última generación de Nvidia, es decir, {\it cuBLAS} y {\it cuBLASLt}. En modo offline, donde los kernels se ejecutan consecutivamente sin intervalos de tiempo, CUDA-L2 produce una mejora promedio del +22,0\% sobre {\it torch.matmul}; +19,2\% sobre {\it cuBLAS} utilizando la configuración de disposición óptima (normal-normal NN y transpuesta-normal TN); +16,8\% sobre {\it cuBLASLt-heurístico}, que consulta la biblioteca {\it cuBLASLt} y selecciona el algoritmo basándose en la sugerencia heurística; y +11,4\% sobre el modelo más competitivo, {\it cuBLASLt-AutoTuning}, que selecciona el algoritmo más rápido entre hasta 100 candidatos de las sugerencias de {\it cuBLASLt}. En modo servidor, donde los kernels se ejecutan a intervalos aleatorios simulando inferencia en tiempo real, las aceleraciones aumentan aún más a +28,7\%, +26,0\%, +22,4\% y +15,9\% para {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heurístico} y {\it cuBLASLt-AutoTuning}, respectivamente. CUDA-L2 demuestra que incluso los kernels más críticos en rendimiento y altamente optimizados, como HGEMM, pueden mejorarse mediante la automatización de RL guiada por LLM, explorando sistemáticamente espacios de configuración a escalas impracticables para humanos. El proyecto y el código se pueden encontrar en github.com/deepreinforce-ai/CUDA-L2.
Los modelos Visión-Lenguaje-Acción (VLA) entrenados con ajuste de flujo han demostrado capacidades impresionantes en tareas de manipulación robótica. Sin embargo, su rendimiento a menudo se degrada bajo cambios en la distribución y en tareas complejas de múltiples pasos, lo que sugiere que las representaciones aprendidas pueden no capturar de forma robusta la semántica relevante para la tarea. Introducimos DiG-Flow, un marco de trabajo fundamentado que mejora la robustez de los modelos VLA mediante regularización geométrica. Nuestra idea clave es que la discrepancia distribucional entre los *embeddings* de observación y de acción proporciona una señal geométrica significativa: un coste de transporte más bajo indica representaciones compatibles, mientras que un coste más elevado sugiere un posible desalineamiento. DiG-Flow calcula una medida de discrepancia entre las distribuciones empíricas de los *embeddings* de observación y de acción, la asigna a un peso de modulación mediante una función monótona y aplica actualizaciones residuales a los *embeddings* de observación antes del ajuste de flujo. Crucialmente, esta intervención opera a nivel de representación sin modificar la trayectoria de ajuste de flujo ni el campo vectorial objetivo. Proporcionamos garantías teóricas que demuestran que el entrenamiento guiado por discrepancia reduce de forma comprobable el objetivo de entrenamiento, y que el refinamiento de inferencia guiada converge con contracción. Empíricamente, DiG-Flow se integra en arquitecturas VLA existentes con un overhead insignificante y mejora consistentemente el rendimiento, con ganancias particularmente pronunciadas en tareas complejas de múltiples pasos y bajo condiciones de datos de entrenamiento limitados.
Los recientes avances en generación de vídeo han permitido sintetizar vídeos con una fuerte coherencia temporal y una calidad visual impresionante, marcando un paso crucial hacia los modelos de base de visión. Para evaluar estos modelos de generación de vídeo, los puntos de referencia existentes se centran principalmente en factores relacionados con la percepción y comprensión visual, como la estética visual, la adherencia a instrucciones y la coherencia temporal. Sin embargo, las capacidades de razonamiento basado en reglas de los modelos de generación de vídeo permanecen en gran medida inexploradas. Aunque estudios recientes han realizado exploraciones preliminares sobre si los modelos de vídeo pueden servir como aprendices de cero disparos, aún carecen de una descomposición detallada de las capacidades de razonamiento y un protocolo de evaluación integral. Para abordar esta brecha, presentamos RULER-Bench, un punto de referencia diseñado para evaluar la capacidad de razonamiento de los modelos de generación de vídeo desde la perspectiva de las reglas cognitivas. Construido sobre dos paradigmas fundamentales (texto a vídeo e imagen a vídeo), RULER-Bench cubre 40 tareas representativas que abarcan seis categorías de reglas con 622 instancias anotadas de alta calidad. Para la evaluación de cada vídeo generado, construimos una lista de verificación que cubre cuatro métricas y aprovechamos GPT-4o para asignar puntuaciones a cada pregunta, logrando un 85% de alineación con los juicios humanos. Experimentos exhaustivos muestran que el modelo de vanguardia alcanza solo un 48.87% en la métrica de coherencia de reglas, destacando un margen significativo de mejora en la capacidad de razonamiento de los modelos de vídeo de próxima generación. Esperamos que la perspectiva obtenida de RULER-Bench facilite el desarrollo futuro de la generación de vídeo consciente del razonamiento, avanzando los modelos de generación de vídeo hacia la inteligencia de base visual.
El reconocimiento de tablas (TR) tiene como objetivo transformar imágenes de tablas en representaciones semiestructuradas como HTML o Markdown. Como componente central del análisis de documentos, el TR ha dependido durante mucho tiempo del aprendizaje supervisado, con esfuerzos recientes dominados por el ajuste fino de modelos de visión y lenguaje (VLM) utilizando datos etiquetados. Si bien los VLM han llevado el TR al siguiente nivel, impulsar aún más el rendimiento requiere datos etiquetados a gran escala que son costosos de obtener. En consecuencia, aunque los modelos propietarios han ampliado continuamente los límites de rendimiento, los modelos de código abierto, a menudo entrenados con recursos limitados y, en la práctica, la única opción viable para muchos debido a las regulaciones de privacidad, aún están muy por detrás. Para cerrar esta brecha, presentamos TRivia, un método de ajuste fino auto-supervisado que permite a los VLM preentrenados aprender TR directamente a partir de imágenes de tablas no etiquetadas en entornos reales. Basado en Group Relative Policy Optimization, TRivia identifica automáticamente las muestras no etiquetadas que facilitan más efectivamente el aprendizaje y elimina la necesidad de anotaciones humanas mediante un mecanismo de recompensa basado en preguntas y respuestas. Un módulo guiado por atención genera preguntas diversas para cada imagen de tabla, y la capacidad de interpretar los resultados del reconocimiento y responderlas correctamente proporciona retroalimentación para optimizar el modelo TR. Este proceso de bucle cerrado permite que el modelo TR aprenda autónomamente a reconocer, estructurar y razonar sobre tablas sin datos etiquetados. Aprovechando esta pipeline, presentamos TRivia-3B, un modelo TR de código abierto, compacto y de vanguardia que supera a los sistemas existentes (por ejemplo, Gemini 2.5 Pro, MinerU2.5) en tres benchmarks populares. El modelo y el código se publican en: https://github.com/opendatalab/TRivia
Proponemos MagicQuill V2, un sistema novedoso que introduce un paradigma de composición por capas en la edición generativa de imágenes, cerrando la brecha entre el poder semántico de los modelos de difusión y el control granular del software gráfico tradicional. Si bien los transformadores de difusión sobresalen en la generación holística, su uso de prompts únicos y monolíticos no logra desentrañar las distintas intenciones del usuario sobre contenido, posición y apariencia. Para superar esto, nuestro método deconstruye la intención creativa en una pila de señales visuales controlables: una capa de contenido para *qué* crear, una capa espacial para *dónde* ubicarlo, una capa estructural para *cómo* se conforma y una capa de color para su paleta. Nuestras contribuciones técnicas incluyen una canalización especializada de generación de datos para la integración de contenido consciente del contexto, un módulo de control unificado para procesar todas las señales visuales y una rama espacial ajustada para una edición local precisa, incluida la eliminación de objetos. Experimentos exhaustivos validan que este enfoque por capas resuelve eficazmente la brecha de intención del usuario, otorgando a los creadores un control directo e intuitivo sobre el proceso generativo.
Estudiamos cómo diferentes diseños de Cadena de Pensamiento (CoT) afectan la adquisición de la capacidad de razonamiento visual generalizable en modelos de visión y lenguaje (VLMs). Si bien los datos de CoT, especialmente los CoT largos o visuales como "pensar con imágenes", se han utilizado ampliamente para supervisar el razonamiento intermedio, aún no está claro por qué diseños específicos de CoT ayudan y cuáles realmente respaldan un razonamiento generalizable. Para evaluar esto sistemáticamente, nos centramos en un benchmark controlado de resolución de laberintos donde las reglas de razonamiento son completamente visuales, la dificultad puede ajustarse mediante el tamaño de la cuadrícula y todos los pasos intermedios pueden generarse automáticamente. Utilizando Qwen2.5-VL-7B bajo un pipeline estándar de SFT seguido de RL, comparamos tres formatos de CoT representativos: CoT Lingüístico, CoT de Grounding (con trayectorias de coordenadas espaciales) y CoT Visual (con manipulaciones de imágenes). Nuestros experimentos revelan que los CoT visuales y más largos aceleran principalmente la convergencia pero no elevan el techo de rendimiento final; los CoT concisos que contienen solo los pasos esenciales de grounding superan a las trazas más largas; y, sorprendentemente, el CoT que retiene solo los resultados mínimos de grounding se generaliza mejor a través de diferentes tamaños de laberinto. Validamos además estas observaciones en otras tareas centradas en la visión. Estos hallazgos destacan un efecto de "menos es más" y proporcionan una guía práctica para construir conjuntos de datos de SFT más generalizables para el razonamiento visual.
La Inteligencia Artificial Física (Physical AI) tiene como objetivo desarrollar modelos que puedan percibir y predecir dinámicas del mundo real; sin embargo, se comprende insuficientemente hasta qué punto los actuales modelos de lenguaje grandes multimodales y los modelos generativos de video respaldan estas capacidades. Presentamos Physical AI Bench (PAI-Bench), un benchmark unificado e integral que evalúa las capacidades de percepción y predicción en generación de video, generación condicional de video y comprensión de video, comprendiendo 2.808 casos del mundo real con métricas alineadas a tareas diseñadas para capturar la plausibilidad física y el razonamiento específico del dominio. Nuestro estudio proporciona una evaluación sistemática de modelos recientes y muestra que los modelos generativos de video, a pesar de su alta fidelidad visual, a menudo tienen dificultades para mantener dinámicas físicamente coherentes, mientras que los modelos de lenguaje grandes multimodales exhiben un rendimiento limitado en pronóstico e interpretación causal. Estas observaciones sugieren que los sistemas actuales aún se encuentran en una etapa temprana para manejar las demandas perceptivas y predictivas de la Inteligencia Artificial Física. En resumen, PAI-Bench establece una base realista para evaluar la Inteligencia Artificial Física y resalta brechas clave que los sistemas futuros deben abordar.
Investigamos si los modelos generativos de video pueden exhibir inteligencia visuoespacial, una capacidad central de la cognición humana, utilizando únicamente datos visuales. Para ello, presentamos Video4Spatial, un marco que demuestra que los modelos de difusión de video condicionados exclusivamente con el contexto escénico basado en video pueden realizar tareas espaciales complejas. Validamos en dos tareas: navegación escénica - seguir instrucciones de pose de cámara manteniendo la coherencia con la geometría 3D de la escena, y grounding de objetos - que requiere localización semántica, seguimiento de instrucciones y planificación. Ambas tareas utilizan entradas únicamente de video, sin modalidades auxiliares como profundidad o poses. Con decisiones de diseño simples pero efectivas en el marco y la curación de datos, Video4Spatial demuestra una sólida comprensión espacial a partir del contexto de video: planifica la navegación y localiza objetos objetivo de extremo a extremo, sigue instrucciones de pose de cámara manteniendo la coherencia espacial, y generaliza a contextos largos y entornos fuera de dominio. En conjunto, estos resultados acercan los modelos generativos de video hacia el razonamiento visuoespacial general.
Si bien los agentes de IA impulsados por LLM/VLM han avanzado rápidamente en matemáticas, codificación y uso de computadoras, sus aplicaciones en entornos físicos y sociales complejos siguen siendo un desafío. Construir agentes que puedan sobrevivir y prosperar en el mundo real (por ejemplo, generando ingresos de forma autónoma o gestionando un negocio) requiere una interacción, razonamiento, entrenamiento y evaluación a gran escala en diversos escenarios corporizados. Sin embargo, los simuladores del mundo existentes para dicho desarrollo son insuficientes: a menudo dependen de entornos limitados creados manualmente, simulan reglas físicas y sociales simplificadas similares a juegos, y carecen de soporte nativo para agentes LLM/VLM. Presentamos SimWorld, un nuevo simulador construido sobre Unreal Engine 5, diseñado para desarrollar y evaluar agentes LLM/VLM en entornos ricos y similares al mundo real. SimWorld ofrece tres capacidades principales: (1) simulación realista y de mundo abierto, incluyendo dinámicas físicas y sociales precisas y generación procedural de entornos impulsada por lenguaje; (2) una interfaz rica para agentes LLM/VLM, con entradas multimodales del mundo y acciones de vocabulario abierto en distintos niveles de abstracción; y (3) escenarios diversos y extensibles de razonamiento físico y social que son fácilmente personalizables por los usuarios. Demostramos SimWorld desplegando agentes LLM de vanguardia (por ejemplo, GPT-4o, Gemini-2.5-Flash, Claude-3.5 y DeepSeek-Prover-V2) en tareas de entrega multiagente de largo horizonte que implican cooperación y competencia estratégicas. Los resultados revelan distintos patrones y limitaciones de razonamiento entre los modelos. Liberamos SimWorld como código abierto y esperamos que se convierta en una plataforma fundamental para avanzar en la inteligencia de agentes del mundo real en diversas disciplinas: https://simworld.org.
Los modelos Visión-Lenguaje-Acción (VLA) basados en modelos de visión y lenguaje (VLM) preentrenados muestran un gran potencial, pero su utilidad práctica se ve limitada por su gran número de parámetros. Para mitigar este problema, se ha explorado el uso de VLM ligeros, pero esto compromete el razonamiento espacio-temporal. Aunque algunos métodos sugieren que la incorporación de entradas 3D adicionales puede ayudar, estos suelen depender de VLM grandes para fusionar entradas 3D y 2D y aún carecen de comprensión temporal. Por lo tanto, proponemos SwiftVLA, una arquitectura que mejora un modelo compacto con comprensión 4D manteniendo la eficiencia de diseño. Específicamente, nuestro enfoque incorpora un transformador de geometría visual 4D preentrenado con una caché temporal que extrae características 4D a partir de imágenes 2D. Luego, para mejorar la capacidad del VLM de aprovechar tanto las imágenes 2D como las características 4D, introducimos *Fusion Tokens*, un conjunto de tokens entrenables que se instruyen con un objetivo de predicción futura para generar representaciones unificadas para la generación de acciones. Finalmente, introducimos una estrategia de enmascarar-y-reconstruir que oculta las entradas 4D al VLM y entrena al modelo VLA para reconstruirlas, permitiendo que el VLM aprenda representaciones 4D efectivas y que la rama 4D pueda eliminarse durante la inferencia con una pérdida mínima de rendimiento. Los experimentos en entornos reales y simulados muestran que SwiftVLA supera a los modelos ligeros de referencia y rivaliza con modelos VLA hasta 7 veces más grandes, logrando un rendimiento comparable en dispositivos de borde mientras es 18 veces más rápido y reduce la huella de memoria en un factor de 12.
Si bien los modelos de difusión para la generación de vídeos de avatares impulsados por audio han logrado avances notables en la síntesis de secuencias largas con sincronización audiovisual natural y consistencia de identidad, la generación de vídeos de interpretaciones musicales con movimientos de cámara sigue siendo un terreno prácticamente inexplorado. Presentamos YingVideo-MV, el primer marco de trabajo en cascada para la generación de vídeos largos impulsados por música. Nuestro enfoque integra el análisis semántico del audio, un módulo interpretable de planificación de tomas (MV-Director), arquitecturas de Transformers de difusión con conciencia temporal y un modelo de consistencia para secuencias largas, lo que permite la síntesis automática de vídeos de interpretación musical de alta calidad a partir de señales de audio. Construimos un conjunto de datos a gran escala, Music-in-the-Wild Dataset, recopilando datos web para respaldar la obtención de resultados diversos y de alta calidad. Al observar que los métodos existentes de generación de vídeos largos carecen de un control explícito del movimiento de cámara, introducimos un módulo adaptador de cámara que incrusta las poses de la cámara en el ruido latente. Para mejorar la continuidad entre clips durante la inferencia de secuencias largas, proponemos además una estrategia de rango dinámico de ventana consciente del tiempo que ajusta adaptativamente los rangos de eliminación de ruido basándose en la incrustación de audio. Pruebas exhaustivas de evaluación demuestran que YingVideo-MV logra un rendimiento sobresaliente en la generación de vídeos musicales coherentes y expresivos, y permite una sincronización precisa entre música, movimiento y cámara. Se pueden encontrar más vídeos en nuestra página del proyecto: https://giantailab.github.io/YingVideo-MV/.
Presentamos Ovis-Image, un modelo de texto a imagen de 7B específicamente optimizado para la representación de texto de alta calidad, diseñado para operar eficientemente bajo estrictas limitaciones computacionales. Construido sobre nuestro marco anterior Ovis-U1, Ovis-Image integra un decodificador visual basado en difusión con la más potente columna vertebral multimodal Ovis 2.5, aprovechando un pipeline de entrenamiento centrado en el texto que combina pre-entrenamiento a gran escala con refinamientos post-entrenamiento cuidadosamente adaptados. A pesar de su arquitectura compacta, Ovis-Image logra un rendimiento en representación de texto comparable con modelos abiertos significativamente más grandes, como Qwen-Image, y se acerca a sistemas de código cerrado como Seedream y GPT4o. Crucialmente, el modelo sigue siendo implementable en una única GPU de gama alta con memoria moderada, reduciendo la brecha entre la representación de texto de nivel fronterizo y la implementación práctica. Nuestros resultados indican que combinar una columna vertebral multimodal fuerte con una receta de entrenamiento cuidadosamente diseñada y centrada en el texto es suficiente para lograr una representación de texto bilingüe confiable sin recurrir a modelos de tamaño excesivo o propietarios.
La generación de vídeos de un minuto de duración es un paso crucial hacia el desarrollo de modelos del mundo, proporcionando una base para escenas extendidas realistas y simuladores avanzados de IA. El emergente paradigma semiautoregresivo (difusión por bloques) integra las fortalezas de los modelos de difusión y autoregresivos, permitiendo la generación de vídeos de longitud arbitraria y mejorando la eficiencia en inferencia mediante el almacenamiento en caché de KV y el muestreo paralelo. Sin embargo, aún enfrenta dos desafíos persistentes: (i) la acumulación de errores a largo plazo inducida por la caché KV, y (ii) la carencia de benchmarks granulares para vídeos largos y métricas conscientes de la coherencia. Para superar estas limitaciones, proponemos BlockVid, un novedoso marco de difusión por bloques equipado con una caché KV dispersa consciente de la semántica, una estrategia de entrenamiento efectiva llamada Block Forcing, y una programación y reorganización específica del ruido por fragmentos para reducir la propagación de errores y mejorar la coherencia temporal. Además, presentamos LV-Bench, un benchmark granular para vídeos de un minuto de duración, completo con nuevas métricas que evalúan la coherencia a larga distancia. Experimentos exhaustivos en VBench y LV-Bench demuestran que BlockVid supera consistentemente a los métodos existentes en la generación de vídeos de un minuto de alta calidad y coherentes. En particular, logra una mejora del 22.2% en VDE Subject y del 19.4% en VDE Clarity en LV-Bench sobre los enfoques state-of-the-art. Sitio web del proyecto: https://ziplab.co/BlockVid. Inferix (Código): https://github.com/alibaba-damo-academy/Inferix.
Hoy en día, las personas pueden grabar fácilmente momentos memorables —como conciertos, eventos deportivos, conferencias, reuniones familiares y fiestas de cumpleaños— utilizando múltiples cámaras de consumo. Sin embargo, sincronizar estos flujos de vídeo multicámara sigue siendo un desafío. Los métodos existentes asumen entornos controlados, objetivos específicos, corrección manual o hardware costoso. Presentamos VisualSync, un marco de optimización basado en dinámicas multivista que alinea vídeos no preparados y no sincronizados con precisión de milisegundos. Nuestra idea clave es que cualquier punto 3D en movimiento, cuando es covisible en dos cámaras, obedece a restricciones epipolares una vez correctamente sincronizado. Para aprovechar esto, VisualSync utiliza técnicas estándar de reconstrucción 3D, correspondencia de características y seguimiento denso para extraer tracklets, poses relativas y correspondencias entre vistas. Luego minimiza conjuntamente el error epipolar para estimar el desfase temporal de cada cámara. Los experimentos en cuatro conjuntos de datos diversos y desafiantes muestran que VisualSync supera a los métodos base, logrando un error de sincronización mediano inferior a 50 ms.
La reconstrucción 3D a partir de imágenes multi-vista es un desafío central en la visión por computador. Recientemente, los métodos de avance (feed-forward) han surgido como alternativas eficientes y robustas a las técnicas tradicionales de optimización por escena. Entre ellos, modelos de vanguardia como el Visual Geometry Grounding Transformer (VGGT) aprovechan la autoatención completa sobre todos los tokens de imagen para capturar relaciones globales. Sin embargo, este enfoque adolece de una escalabilidad deficiente debido a la complejidad cuadrática de la autoatención y al gran número de tokens generados en secuencias largas de imágenes. En este trabajo, presentamos FlashVGGT, una alternativa eficiente que aborda este cuello de botella mediante un mecanismo de atención basado en descriptores. En lugar de aplicar una atención global densa en todos los tokens, FlashVGGT comprime la información espacial de cada fotograma en un conjunto compacto de tokens descriptores. La atención global se calcula entonces como atención cruzada entre el conjunto completo de tokens de imagen y este conjunto de descriptores más pequeño, reduciendo significativamente la sobrecarga computacional. Además, la compacidad de los descriptores permite una inferencia en línea sobre secuencias largas mediante un mecanismo recursivo por fragmentos (chunk-recursive) que reutiliza descriptores en caché de fragmentos anteriores. Los resultados experimentales muestran que FlashVGGT logra una precisión de reconstrucción competitiva con VGGT, mientras reduce el tiempo de inferencia a solo el 9.3% del de VGGT para 1.000 imágenes, y escala eficientemente a secuencias que superan las 3.000 imágenes. Nuestra página del proyecto está disponible en https://wzpscott.github.io/flashvggt_page/.
Los modelos de lenguaje autorregresivos (AR) y los modelos de lenguaje de difusión (DLM) constituyen los dos paradigmas principales de los modelos de lenguaje grandes. Sin embargo, ambos paradigmas adolecen de capacidades de razonamiento insuficientes. El razonamiento humano se basa inherentemente en el conocimiento y el pensamiento causal, lo cual se refleja en el lenguaje natural. Pero en el paradigma AR, el lenguaje se modela como predicción del siguiente token (un orden estrictamente de izquierda a derecha, token por token), mientras que el lenguaje natural en sí exhibe estructuras causales más flexibles. En el paradigma DLM, el mecanismo de atención está completamente conectado, lo que ignora por completo el orden causal. Para llenar este vacío, proponemos un **M**odelo de **L**enguaje de **D**ifusión Guiado por **C**onceptos **C**ausales (C²DLM). Partiendo de la atención completamente conectada del DLM, C²DLM obtiene primero un gráfico causal a nivel de conceptos del modelo profesor, y luego guía explícitamente la atención para aprender las relaciones causales entre conceptos. Al centrarse en las relaciones causales y evitar la interferencia de subobjetivos difíciles que implican inversión causal, C²DLM mejora un 12% con una aceleración del entrenamiento de aproximadamente 3.2 veces en la tarea COT-OrderPerturb, y logra una ganancia promedio del 1.31% en seis tareas de razonamiento posteriores. Más detalles en el repositorio ~https://github.com/Kairong-Han/C-2-DLM{aquí}.
Los Modelos de Lenguaje de Difusión Enmascarada (MDLM, por sus siglas en inglés) han surgido recientemente como una alternativa prometedora a los Modelos de Lenguaje Autoregresivos (ARLM), aprovechando un objetivo de eliminación de ruido que, en principio, debería permitir una utilización del contexto más uniforme. En este trabajo, examinamos las capacidades de comprensión contextual de los MDLM y descubrimos dos limitaciones clave. En primer lugar, a pesar de su objetivo de entrenamiento más global y su mecanismo de atención bidireccional, de manera similar a los ARLM, los MDLM exhiben un fuerte sesgo de localidad: el rendimiento es muy sensible a la posición de la información relevante dentro de la entrada, favoreciendo el contexto local sobre el distante. En segundo lugar, demostramos que añadir una gran cantidad de tokens de enmascaramiento—necesarios para la generación—puede degradar significativamente la comprensión del contexto. Mediante ablaciones sistemáticas, encontramos que estas máscaras actúan como distractores, reduciendo la capacidad del modelo para procesar información relevante. Para abordar esto, introducimos una función de pérdida insensible a las máscaras que fomenta que las predicciones permanezcan invariantes al número de máscaras añadidas. El ajuste fino con este objetivo mitiga sustancialmente el efecto distractor de las máscaras, mejorando la robustez de los MDLM. En general, nuestros hallazgos revelan limitaciones críticas del paradigma de entrenamiento actual de los MDLM y proporcionan ideas prácticas para construir modelos de lenguaje basados en difusión con una comprensión contextual más sólida.
Los modelos de agentes visual-lingüísticos se entrenan cada vez más para "pensar con imágenes" mediante la invocación de operaciones visuales. Sin embargo, demostramos que una alta precisión en la respuesta final a menudo oculta un razonamiento visual poco fiel: los modelos pueden invocar herramientas en regiones irrelevantes o ignorar por completo sus salidas, y aun así adivinar la respuesta correcta. En este trabajo, primero proponemos un protocolo de evaluación de fidelidad que mide si las salidas intermedias de las herramientas visuales (por ejemplo, recortes) contienen realmente la evidencia solicitada. Esto revela que los agentes visuales recientes logran una alta precisión en la respuesta final, pero exhiben bajas tasas de uso fiel de herramientas en benchmarks de búsqueda visual. Luego presentamos CodeV, un agente visual basado en código entrenado con Optimización de Políticas Consciente de Herramientas (TAPO). TAPO es un marco de aprendizaje por refuerzo a nivel de proceso que aumenta GRPO con recompensas densas definidas directamente sobre las entradas y salidas de las herramientas visuales, en lugar de en tokens de cadena de pensamiento, lo que hace que la supervisión sea más fácil de verificar y menos susceptible a la manipulación de recompensas. CodeV representa las herramientas visuales como código Python ejecutable, y TAPO asigna recompensas paso a paso basadas únicamente en la pregunta y la salida de la herramienta, fomentando un uso de herramientas tanto necesario como consistente con la evidencia. En un pipeline de dos etapas SFT+RL, CodeV logra una precisión competitiva o superior mientras aumenta sustancialmente las tasas de uso fiel de herramientas en benchmarks de búsqueda visual relacionados. Más allá de la búsqueda visual, CodeV alcanza un rendimiento sólido en una variedad de benchmarks de razonamiento multimodal y matemático, lo que sugiere que supervisar explícitamente el comportamiento intermedio de las herramientas es crucial para construir sistemas de razonamiento visual agenticos y confiables.
La demostración automática de teoremas en geometría euclidiana, particularmente para problemas de nivel de la Olimpiada Internacional de Matemáticas (IMO), sigue siendo un gran desafío y un importante foco de investigación en Inteligencia Artificial. En este artículo, presentamos un método altamente eficiente para la demostración de teoremas geométricos que se ejecuta completamente en CPU sin depender de inferencia basada en redes neuronales. Nuestro estudio inicial muestra que una simple estrategia aleatoria para añadir puntos auxiliares puede alcanzar un rendimiento humano a nivel de medalla de plata en la IMO. Sobre esta base, proponemos HAGeo, un método heurístico para añadir construcciones auxiliares en la deducción geométrica que resuelve 28 de 30 problemas en el benchmark IMO-30, logrando un rendimiento a nivel de medalla de oro y superando por un margen notable a AlphaGeometry, un enfoque competitivo basado en redes neuronales. Para evaluar nuestro método y los enfoques existentes de manera más integral, construimos además HAGeo-409, un benchmark que consta de 409 problemas de geometría con niveles de dificultad evaluados por humanos. En comparación con el ampliamente utilizado IMO-30, nuestro benchmark plantea mayores desafíos y proporciona una evaluación más precisa, estableciendo un listón más alto para la demostración automática de teoremas geométricos.
La próxima frontera para la generación de vídeo reside en desarrollar modelos capaces de razonamiento zero-shot, donde la comprensión de las leyes científicas del mundo real es crucial para modelar con precisión los resultados físicos bajo diversas condiciones. Sin embargo, los puntos de referencia existentes para vídeo se basan en el sentido común físico, ofreciendo una visión limitada de la capacidad de razonamiento científico de los modelos de vídeo. Presentamos VideoScience-Bench, un benchmark diseñado para evaluar la comprensión científica a nivel universitario en modelos de vídeo. Cada prompt codifica un escenario científico compuesto que requiere comprender y razonar múltiples conceptos científicos para generar el fenómeno correcto. El benchmark comprende 200 prompts cuidadosamente seleccionados que abarcan 14 temas y 103 conceptos de física y química. Realizamos evaluaciones anotadas por expertos en siete modelos de vídeo de última generación en configuraciones T2V e I2V a lo largo de cinco dimensiones: Coherencia con el Prompt, Congruencia del Fenómeno, Dinamismo Correcto, Inmutabilidad y Continuidad Espacio-Temporal. Utilizando un Modelo de Lenguaje Visual como Juez para evaluar las generaciones de vídeo, observamos una fuerte correlación con las evaluaciones humanas. Hasta donde sabemos, VideoScience-Bench es el primer benchmark que evalúa los modelos de vídeo no solo como generadores, sino también como sistemas de razonamiento, requiriendo que sus generaciones demuestren una comprensión científica consistente con los fenómenos físicos y químicos esperados. Nuestros datos y código de evaluación están disponibles en: https://github.com/hao-ai-lab/VideoScience.
La edición de vídeos de retrato es una tarea compleja que requiere un control flexible pero preciso sobre una amplia gama de modificaciones, como cambios de apariencia, ediciones de expresión o adición de objetos. La principal dificultad reside en preservar el comportamiento temporal original del sujeto, lo que exige que cada fotograma editado permanezca perfectamente sincronizado con el fotograma fuente correspondiente. Presentamos Sync-LoRA, un método para editar vídeos de retrato que logra modificaciones visuales de alta calidad manteniendo una sincronización precisa fotograma a fotograma y la consistencia de la identidad. Nuestro enfoque utiliza un modelo de difusión de imagen a vídeo, donde la edición se define modificando el primer fotograma y luego se propaga a toda la secuencia. Para permitir una sincronización precisa, entrenamos un LoRA en contexto utilizando vídeos emparejados que representan trayectorias de movimiento idénticas pero difieren en apariencia. Estos pares se generan y curan automáticamente mediante un proceso de filtrado basado en sincronización que selecciona solo los ejemplos más alineados temporalmente para el entrenamiento. Esta configuración de entrenamiento enseña al modelo a combinar las señales de movimiento del vídeo fuente con los cambios visuales introducidos en el primer fotograma editado. Entrenado en un conjunto compacto y altamente seleccionado de retratos humanos sincronizados, Sync-LoRA generaliza a identidades no vistas y diversas ediciones (por ejemplo, modificar la apariencia, añadir objetos o cambiar fondos), manejando robustamente variaciones en la pose y la expresión. Nuestros resultados demuestran una alta fidelidad visual y una fuerte coherencia temporal, logrando un equilibrio robusto entre la fidelidad de la edición y la preservación precisa del movimiento.
Con los rápidos avances de modelos multimodales potentes como GPT-4o, Nano Banana y Seedream 4.0 en Edición de Imágenes, la brecha de rendimiento entre los modelos de código cerrado y los de código abierto se está ampliando, principalmente debido a la escasez de datos de entrenamiento a gran escala y de alta calidad, y a la falta de benchmarks integrales capaces de diagnosticar las debilidades de los modelos en diversos comportamientos de edición. Los métodos existentes de construcción de datos enfrentan una disyuntiva entre escala y calidad: las anotaciones humanas son de alta calidad pero no escalables, mientras que los flujos automatizados sufren de propagación de errores y ruido. Para abordar esto, presentamos un pipeline de datos ligero que reemplaza las cadenas de múltiples herramientas con un modelo de extremo a extremo y una etapa unificada de verificación posterior. Para un control de calidad escalable, entrenamos un modelo experto de doble tarea de 7B, Qwen-Verify, para la detección eficiente de fallos y el recaptioning de instrucciones. Este pipeline produce UnicEdit-10M, un conjunto de datos de escala 10M que abarca diversas tareas de edición básicas y complejas. También proponemos UnicBench, un benchmark general que se extiende más allá de las ediciones básicas para evaluar explícitamente el razonamiento espacial y basado en conocimiento. Para permitir un diagnóstico granular, introducimos nuevas métricas, incluyendo la Consistencia de No-edición y la Precisión de Razonamiento. Nuestro análisis de modelos principales en UnicBench revela sus limitaciones y proporciona direcciones claras para la investigación futura.
Con el rápido desarrollo de los Grandes Modelos de Lenguaje y Visión, el enfoque de las tareas de agentes para Interfaces Gráficas de Usuario (GUI) se desplaza desde tareas en pantallas únicas hacia desafíos complejos de navegación entre pantallas. Sin embargo, los entornos GUI del mundo real, como el software de PC y las aplicaciones móviles, suelen ser complejos y propietarios, lo que dificulta obtener la información ambiental integral necesaria para el entrenamiento y evaluación de agentes. Esta limitación obstaculiza la investigación sistemática y la evaluación comparativa de las capacidades de navegación de los agentes. Para abordar esta limitación, presentamos GUI Exploration Lab, un motor de entorno de simulación para la investigación de navegación de agentes GUI que permite la definición y composición flexible de pantallas, iconos y grafos de navegación, al tiempo que proporciona acceso completo a la información del entorno para un entrenamiento y evaluación integral de los agentes. A través de extensos experimentos, encontramos que el ajuste fino supervisado permite una memorización efectiva del conocimiento fundamental, sirviendo como base crucial para el entrenamiento posterior. Sobre esta base, el aprendizaje por refuerzo de un solo turno mejora aún más la generalización a escenarios no vistos. Finalmente, el aprendizaje por refuerzo de múltiples turnos fomenta el desarrollo de estrategias de exploración mediante prueba y error interactiva, lo que conduce a nuevas mejoras en el rendimiento de la navegación por pantallas. Validamos nuestros métodos en benchmarks tanto estáticos como interactivos, demostrando que nuestros hallazgos se generalizan efectivamente a escenarios del mundo real. Estos hallazgos demuestran las ventajas de los enfoques de aprendizaje por refuerzo en la navegación GUI y ofrecen una guía práctica para construir agentes GUI más capaces y generalizables.
Los modelos multimodales grandes han logrado avances notables tanto en comprensión como en generación. Esfuerzos recientes persiguen modelos multimodales unificados que integren componentes heterogéneos para soportar ambas capacidades dentro de un único marco. Sin embargo, dicha unificación introduce ineficiencias en la inferencia; por ejemplo, tareas o muestras específicas pueden no requerir todo el conocimiento o capacidad del modelo unificado. No obstante, aún es limitada la comprensión sistemática de cómo se manifiestan estas ineficiencias en los diferentes componentes. En este trabajo, primero realizamos un análisis sistemático de los componentes de modelos multimodales unificados utilizando la poda *training-free* como metodología de sondeo, considerando tanto la poda en profundidad como la reducción en amplitud. Nuestro estudio revela que el componente de comprensión exhibe una notable compresibilidad tanto en tareas de comprensión como de generación, siendo más pronunciada en estas últimas. Por el contrario, los componentes de generación son altamente sensibles a la compresión, con un rendimiento que se deteriora abruptamente incluso con ratios de compresión moderados. Para abordar esta limitación, proponemos la Adaptación de Mezcla de Expertos (MoE), inspirada en los patrones de activación dinámicos observados en diferentes muestras. Este enfoque divide el módulo de generación en múltiples expertos y permite una activación dispersa para restaurar la calidad de la generación. Validamos la efectividad de la activación dispersa mediante ajuste con expertos congelados y demostramos además que una adaptación completamente entrenable aporta mejoras adicionales. Como resultado, el modelo BAGEL adaptado alcanza un rendimiento comparable al modelo completo mientras activa solo aproximadamente la mitad de sus parámetros. El código se ha publicado en https://github.com/Shwai-He/SparseUnifiedModel{este enlace}.
Los marcos recientes de aprendizaje por refuerzo para políticas de percepción visual han comenzado a incorporar cadenas de razonamiento intermedias expresadas en lenguaje natural. Observaciones empíricas indican que dicho razonamiento intermedio puramente lingüístico a menudo reduce el rendimiento en tareas de percepción. Sostenemos que el problema central no reside en el razonamiento en sí, sino en su forma: mientras estas cadenas realizan razonamiento semántico en un espacio lingüístico no estructurado, la percepción visual requiere razonar en un espacio espacial y centrado en objetos. Como respuesta, presentamos Artemis, un marco de aprendizaje de políticas de percepción que realiza un razonamiento estructurado basado en propuestas, donde cada paso intermedio se representa como un par (etiqueta, caja delimitadora) que captura un estado visual verificable. Este diseño permite el seguimiento explícito de estados intermedios, la supervisión directa de la calidad de las propuestas y evita la ambigüedad introducida por el razonamiento basado en lenguaje. Artemis está construido sobre Qwen2.5-VL-3B, logra un rendimiento sólido en tareas de grounding y detección, y exhibe una generalización sustancial a tareas de conteo y percepción geométrica. Las mejoras consistentes en estos diversos escenarios confirman que alinear el razonamiento con representaciones espaciales mejora el aprendizaje de políticas de percepción. Debido a su razonamiento visual reforzado, Artemis también logra un rendimiento competitivo en benchmarks generales de MLLM, ilustrando que el razonamiento espacialmente fundamentado proporciona una ruta principled hacia políticas de percepción escalables y generales.
La globalización de la educación y el rápido crecimiento del aprendizaje en línea han convertido la localización de contenidos educativos en un desafío crítico. Los materiales de las clases son inherentemente multimodales, ya que combinan audio hablado con diapositivas visuales, lo que requiere sistemas capaces de procesar múltiples modalidades de entrada. Para ofrecer una experiencia de aprendizaje accesible y completa, las traducciones deben preservar todas las modalidades: texto para la lectura, diapositivas para la comprensión visual y voz para el aprendizaje auditivo. Presentamos BOOM, un asistente de clases multilingüe y multimodal que traduce conjuntamente el audio y las diapositivas de las clases para producir resultados sincronizados en tres modalidades: texto traducido, diapositivas localizadas con elementos visuales preservados y voz sintetizada. Este enfoque integral permite a los estudiantes acceder a las clases en su idioma nativo con el objetivo de preservar el contenido original en su totalidad. Nuestros experimentos demuestran que las transcripciones que tienen en cuenta las diapositivas también generan beneficios en cascada para tareas posteriores, como la resumen de contenidos y la respuesta a preguntas. Publicamos nuestro código de Traducción de Diapositivas en https://github.com/saikoneru/image-translator y lo integramos en Lecture Translator en https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Todo el código y los modelos publicados tienen licencia MIT.}
Los sistemas de vanguardia de Generación de Grafos de Escena en Video (VSGG) proporcionan una comprensión visual estructurada, pero operan como pipelines cerrados de avance directo sin capacidad para incorporar orientación humana. En contraste, los modelos de segmentación promptables como SAM2 permiten una interacción precisa del usuario pero carecen de razonamiento semántico o relacional. Presentamos Click2Graph, el primer marco interactivo para la Generación Panóptica de Grafos de Escena en Video (PVSG) que unifica el prompting visual con la comprensión espacial, temporal y semántica. A partir de una única indicación del usuario, como un clic o un cuadro delimitador, Click2Graph segmenta y rastrea el sujeto a lo largo del tiempo, descubre autónomamente los objetos que interactúan y predice tripletas <sujeto, objeto, predicado> para formar un grafo de escena temporalmente consistente. Nuestro marco introduce dos componentes clave: un Módulo de Descubrimiento de Interacción Dinámica que genera prompts de objetos condicionados por el sujeto, y un Cabezal de Clasificación Semántica que realiza un razonamiento conjunto de entidades y predicados. Los experimentos en el benchmark OpenPVSG demuestran que Click2Graph establece una base sólida para PVSG guiada por el usuario, mostrando cómo el prompting humano puede combinarse con la grounding panóptica y la inferencia relacional para permitir una comprensión de escenas en video controlable e interpretable.