Artículos de investigación en IA seleccionados diariamente con traducciones
En este artículo, presentamos NeoVerse, un modelo versátil de mundo 4D capaz de realizar reconstrucción 4D, generar vídeos a partir de trayectorias novedosas y una amplia gama de aplicaciones derivadas. Primero identificamos una limitación común de escalabilidad en los métodos actuales de modelado de mundos 4D, causada ya sea por el uso de datos 4D multivista costosos y especializados, o por un preprocesamiento de entrenamiento engorroso. En contraste, nuestro NeoVerse se basa en una filosofía central que hace que toda la pipeline sea escalable a diversos vídeos monoculares capturados en entornos reales. Específicamente, NeoVerse se caracteriza por una reconstrucción 4D directa (feed-forward) que no requiere información de pose, una simulación en línea de patrones de degradación monoculares y otras técnicas bien alineadas. Estos diseños dotan a NeoVerse de versatilidad y generalización para diversos dominios. Paralelamente, NeoVerse logra un rendimiento puntero en benchmarks estándar de reconstrucción y generación. Nuestra página del proyecto está disponible en https://neoverse-4d.github.io.
Los marcos de agentes de Modelos de Lenguaje a Gran Escala (LLM) existentes enfrentan dos desafíos significativos: altos costos de configuración y capacidades estáticas. Construir un agente de alta calidad a menudo requiere un esfuerzo manual extenso en integración de herramientas e ingeniería de prompts, mientras que los agentes desplegados tienen dificultades para adaptarse a entornos dinámicos sin un ajuste fino costoso. Para abordar estos problemas, proponemos Youtu-Agent, un marco modular diseñado para la generación automatizada y la evolución continua de agentes LLM. Youtu-Agent cuenta con un sistema de configuración estructurado que desacopla entornos de ejecución, kits de herramientas y gestión de contexto, permitiendo reutilización flexible y síntesis automatizada. Introducimos dos paradigmas de generación: un modo Workflow para tareas estándar y un modo Meta-Agente para requisitos complejos y no estándar, capaz de generar automáticamente código de herramientas, prompts y configuraciones. Además, Youtu-Agent establece un sistema híbrido de optimización de políticas: (1) un módulo de Práctica de Agente que permite a los agentes acumular experiencia y mejorar el rendimiento mediante optimización en contexto sin actualizaciones de parámetros; y (2) un módulo Agente-RL que se integra con marcos de entrenamiento distribuido para permitir el aprendizaje por refuerzo escalable y estable de cualquier Youtu-Agent de manera integral y a gran escala. Los experimentos demuestran que Youtu-Agent alcanza un rendimiento de vanguardia en WebWalkerQA (71.47%) y GAIA (72.8%) utilizando modelos de pesos abiertos. Nuestra canalización de generación automatizada logra una tasa de éxito en síntesis de herramientas superior al 81%, mientras que el módulo de Práctica mejora el rendimiento en AIME 2024/2025 en +2.7% y +5.4% respectivamente. Además, nuestro entrenamiento Agente-RL logra una aceleración del 40% con mejora estable del rendimiento en LLMs de 7B, mejorando las capacidades de codificación/razonamiento y búsqueda hasta un 35% y 21% respectivamente en benchmarks de Matemáticas y QA general/de múltiples saltos.
La generación de cabezas parlantes crea avatares realistas a partir de retratos estáticos para la comunicación virtual y la creación de contenido. Sin embargo, los modelos actuales aún no logran transmitir la sensación de una comunicación verdaderamente interactiva, generando a menudo respuestas unidireccionales que carecen de compromiso emocional. Identificamos dos desafíos clave hacia la creación de avatares verdaderamente interactivos: generar movimiento en tiempo real bajo restricciones causales y aprender reacciones expresivas y vibrantes sin necesidad de datos etiquetados adicionales. Para abordar estos desafíos, proponemos Avatar Forcing, un nuevo marco para la generación interactiva de avatares que modela las interacciones usuario-avatar en tiempo real mediante difusión forzada. Este diseño permite al avatar procesar entradas multimodales en tiempo real, incluyendo el audio y el movimiento del usuario, con baja latencia para reaccionar instantáneamente tanto a señales verbales como no verbales, como el habla, asentimientos y risas. Además, introducimos un método de optimización de preferencias directas que aprovecha muestras sintéticas de pérdida construidas eliminando condiciones del usuario, permitiendo un aprendizaje expresivo de la interacción sin etiquetas. Los resultados experimentales demuestran que nuestro marco permite la interacción en tiempo real con baja latencia (aproximadamente 500 ms), logrando una aceleración 6.8 veces mayor en comparación con el baseline, y produce un movimiento del avatar reactivo y expresivo, que es preferido en más del 80% de los casos frente al baseline.
Si bien los Modelos de Visión y Lenguaje (VLMs) pueden resolver tareas complejas mediante razonamiento agentivo, sus capacidades siguen estando mayormente limitadas a cadenas de pensamiento orientadas a texto o a la invocación aislada de herramientas. No logran exhibir la proficiencia similar a la humana necesaria para entrelazar de manera fluida la manipulación dinámica de herramientas con el razonamiento continuo, particularmente en escenarios intensivos en conocimiento y visualmente complejos que demandan herramientas externas coordinadas, como la búsqueda y el recorte de imágenes. En este trabajo, presentamos SenseNova-MARS, un novedoso marco de trabajo de Razonamiento Agentivo Multimodal y Búsqueda (Multimodal Agentic Reasoning and Search) que dota a los VLMs de capacidades entrelazadas de razonamiento visual y uso de herramientas mediante aprendizaje por refuerzo (RL). Específicamente, SenseNova-MARS integra dinámicamente las herramientas de búsqueda de imágenes, búsqueda de texto y recorte de imágenes para abordar desafíos de comprensión visual de grano fino e intensivos en conocimiento. En la etapa de RL, proponemos el algoritmo de Optimización de Políticas de Secuencia Grupal con Normalización por Lotes (Batch-Normalized Group Sequence Policy Optimization, BN-GSPO) para mejorar la estabilidad del entrenamiento y potenciar la capacidad del modelo para invocar herramientas y razonar de manera efectiva. Para evaluar exhaustivamente a los VLMs agentivos en tareas visuales complejas, presentamos el benchmark HR-MMSearch, el primer benchmark orientado a la búsqueda compuesto por imágenes de alta resolución con preguntas intensivas en conocimiento y orientadas a la búsqueda. Los experimentos demuestran que SenseNova-MARS logra un rendimiento state-of-the-art en benchmarks de código abierto de búsqueda y comprensión de imágenes de grano fino. Específicamente, en benchmarks orientados a la búsqueda, SenseNova-MARS-8B obtiene una puntuación de 67.84 en MMSearch y 41.64 en HR-MMSearch, superando a modelos propietarios como Gemini-3-Flash y GPT-5. SenseNova-MARS representa un paso prometedor hacia los VLMs agentivos al proporcionar capacidades de uso de herramientas efectivas y robustas. Para facilitar futuras investigaciones en este campo, liberaremos todo el código, modelos y conjuntos de datos.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un progreso notable en la comprensión de videos. Sin embargo, adolecen de una vulnerabilidad crítica: una dependencia excesiva de los *priors* lingüísticos, lo que puede provocar alucinaciones visuales no fundamentadas, especialmente al procesar videos contrafactuales que desafían el sentido común. Esta limitación, que surge del desequilibrio intrínseco de datos entre texto y video, es difícil de abordar debido al costo sustancial de recopilar y anotar datos contrafactuales. Para solucionarlo, presentamos DualityForge, un novedoso marco de síntesis de datos contrafactuales que emplea la edición de videos basada en difusión y controlable para transformar videos del mundo real en escenarios contrafactuales. Al incrustar información contextual estructurada en los procesos de edición de video y generación de preguntas y respuestas (QA), el marco produce automáticamente pares de QA de alta calidad junto con pares de videos originales y editados para un entrenamiento contrastivo. Sobre esta base, construimos DualityVidQA, un conjunto de datos de video a gran escala diseñado para reducir las alucinaciones en los MLLMs. Además, para explotar plenamente la naturaleza contrastiva de nuestros datos emparejados, proponemos Duality-Normalized Advantage Training (DNA-Train), un régimen de entrenamiento SFT-RL en dos fases en el que la fase de RL aplica una normalización de ventaja *pair-wise* ell_1, permitiendo así una optimización de políticas más estable y eficiente. Los experimentos en DualityVidQA-Test demuestran que nuestro método reduce sustancialmente las alucinaciones del modelo en videos contrafactuales, logrando una mejora relativa del 24,0% sobre la línea base Qwen2.5-VL-7B. Además, nuestro enfoque logra ganancias significativas tanto en benchmarks de alucinación como de propósito general, lo que indica una fuerte capacidad de generalización. Liberaremos nuestro conjunto de datos y código como código abierto.
La reconstrucción de escenas 3D dinámicas a partir de vídeos monoculares requiere capturar simultáneamente detalles de apariencia de alta frecuencia y movimiento temporalmente continuo. Los métodos existentes que utilizan primitivas gaussianas únicas están limitados por su naturaleza de filtrado pasa-bajo, mientras que las funciones Gabor estándar introducen inestabilidad energética. Además, la falta de restricciones de continuidad temporal suele provocar artefactos de movimiento durante la interpolación. Proponemos AdaGaR, un marco unificado que aborda tanto la adaptabilidad en frecuencia como la continuidad temporal en el modelado explícito de escenas dinámicas. Introducimos la Representación Gabor Adaptativa, que extiende las Gaussianas mediante pesos de frecuencia aprendibles y compensación energética adaptable para equilibrar la captura de detalles y la estabilidad. Para la continuidad temporal, empleamos Splines Cúbicos de Hermite con Regularización de Curvatura Temporal para garantizar una evolución suave del movimiento. Un mecanismo de Inicialización Adaptativa que combina estimación de profundidad, seguimiento de puntos y máscaras de primer plano establece distribuciones estables de nubes de puntos en las primeras fases del entrenamiento. Los experimentos en Tap-Vid DAVIS demuestran un rendimiento de vanguardia (PSNR 35.49, SSIM 0.9433, LPIPS 0.0723) y una fuerte generalización en interpolación de fotogramas, consistencia de profundidad, edición de vídeo y síntesis de vistas estéreo. Página del proyecto: https://jiewenchan.github.io/AdaGaR/
A pesar de los recientes avances, particularmente en el desarrollo de Modelos de Lenguaje, existen desafíos fundamentales y preguntas sin respuesta sobre cómo dichos modelos pueden aprender/memorizar de forma continua, automejorarse y encontrar soluciones efectivas. En este artículo, presentamos un nuevo paradigma de aprendizaje, denominado Aprendizaje Anidado (AA), que representa de manera coherente un modelo de aprendizaje automático mediante un conjunto de problemas de optimización anidados, multinivel y/o paralelos, cada uno con su propio flujo de contexto. A través de la lente del AA, los métodos existentes de aprendizaje profundo aprenden de los datos comprimiendo su propio flujo de contexto, y el aprendizaje en contexto emerge naturalmente en modelos grandes. El AA sugiere una filosofía para diseñar algoritmos de aprendizaje más expresivos con más niveles, lo que resulta en un aprendizaje en contexto de orden superior y potencialmente desbloquea capacidades efectivas de aprendizaje continuo. Defendemos el AA presentando tres contribuciones principales: (1) Optimizadores Expresivos: Mostramos que optimizadores basados en gradientes conocidos, como Adam, SGD con Momento, etc., son de hecho módulos de memoria asociativa que buscan comprimir la información de los gradientes (mediante el descenso de gradiente). Basándonos en esta idea, presentamos otros optimizadores más expresivos con memoria profunda y/o reglas de aprendizaje más potentes; (2) Módulo de Autoaprendizaje Automodificable: Aprovechando las ideas del AA sobre los algoritmos de aprendizaje, presentamos un modelo secuencial que aprende a modificarse a sí mismo aprendiendo su propio algoritmo de actualización; y (3) Sistema de Memoria Continuo: Presentamos una nueva formulación para sistemas de memoria que generaliza el punto de vista tradicional de memoria a largo/corto plazo. Combinando nuestro modelo secuencial automodificable con el sistema de memoria continuo, presentamos un módulo de aprendizaje continuo, llamado Hope, que muestra resultados prometedores en modelado del lenguaje, incorporación de conocimiento, tareas de generalización con pocos ejemplos, aprendizaje continuo y tareas de razonamiento de contexto largo.
La eficacia de las redes residuales profundas se fundamenta esencialmente en la conexión de acceso directo de identidad. Si bien este mecanismo mitiga eficazmente el problema del gradiente vanishing, impone un sesgo inductivo estrictamente aditivo en las transformaciones de características, limitando así la capacidad de la red para modelar transiciones de estado complejas. En este artículo, presentamos Deep Delta Learning (DDL), una arquitectura novedosa que generaliza la conexión residual estándar mediante la modulación del acceso directo de identidad con una transformación geométrica, aprendible y dependiente de los datos. Esta transformación, denominada Operador Delta, constituye una perturbación de rango 1 de la matriz identidad, parametrizada por un vector de dirección de reflexión k(X) y un escalar de gateo β(X). Proporcionamos un análisis espectral de este operador, demostrando que la compuerta β(X) permite una interpolación dinámica entre el mapeo de identidad, la proyección ortogonal y la reflexión geométrica. Además, reestructuramos la actualización residual como una inyección síncrona de rango 1, donde la compuerta actúa como un tamaño de paso dinámico que gobierna tanto el borrado de información antigua como la escritura de nuevas características. Esta unificación dota a la red de la capacidad de controlar explícitamente el espectro de su operador de transición capa por capa, permitiendo el modelado de dinámicas complejas y no monótonas mientras se preservan las características estables de entrenamiento de las arquitecturas residuales con compuertas.
Los sistemas de vanguardia basados en modelos de lenguaje grande (LLM) dependen de bucles de razonamiento auto-reforzados: muestrean cadenas de pensamiento diversas y refuerzan aquellas con mayor puntuación, optimizando principalmente la corrección. Analizamos cómo esta elección de diseño es sensible al colapso de la distribución del modelo sobre las trayectorias de razonamiento, reduciendo drásticamente la entropía semántica y socavando la resolución creativa de problemas. Para analizar este fallo, presentamos Razonamiento Creativo Distribucional (DCR), un objetivo variacional unificado que plantea el entrenamiento como un flujo de gradiente a través de medidas de probabilidad sobre trazas de solución. Métodos como STaR, GRPO y DPO, así como bonificaciones de entropía y otras técnicas, constituyen casos particulares de una misma función de pérdida. El marco ofrece tres resultados fundamentales: (i) el teorema de decaimiento de la diversidad, que describe cómo los objetivos basados en corrección conducen a modos distintos de pérdida de diversidad para STaR, GRPO y DPO; (ii) diseños que garantizan la convergencia a una política estable y diversa, previniendo efectivamente el colapso; y (iii) recetas simples y prácticas para lograrlo. DCR ofrece así la primera receta fundamentada para que los LLM mantengan tanto corrección como creatividad.
Los avances recientes han demostrado que el aprendizaje por refuerzo (RL) puede mejorar sustancialmente las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). Sin embargo, la eficacia de dicho entrenamiento con RL depende críticamente del espacio de exploración definido por la distribución de salida de tokens del modelo preentrenado. En este artículo, revisitamos la función de pérdida de entropía cruzada estándar, interpretándola como un caso específico de optimización de gradiente de política aplicada dentro de un episodio de un solo paso. Para estudiar sistemáticamente cómo la distribución preentrenada moldea el potencial de exploración para el RL posterior, proponemos un objetivo de preentrenamiento generalizado que adapta los principios de RL *on-policy* al aprendizaje supervisado. Al enmarcar la predicción del siguiente token como un proceso de decisión estocástico, introducimos una estrategia de configuración de recompensas que equilibra explícitamente la diversidad y la precisión. Nuestro método emplea un factor de escala de recompensa positivo para controlar la concentración de probabilidad en los tokens de verdad fundamental y un mecanismo consciente del rango que trata de manera asimétrica los tokens negativos de rango alto y bajo. Esto nos permite remodelar la distribución de salida de tokens preentrenada e investigar cómo proporcionar un espacio de exploración más favorable para el RL, mejorando en última instancia el rendimiento de razonamiento de extremo a extremo. Contrario a la intuición de que una entropía de distribución más alta facilita una exploración efectiva, encontramos que imponer un prior orientado a la precisión produce un espacio de exploración superior para el RL.
Las capas de modelado de secuencias en los modelos de lenguaje modernos generalmente enfrentan una disyuntiva entre capacidad de almacenamiento y eficiencia computacional. Mientras que la atención Softmax ofrece almacenamiento ilimitado con costos cuadráticos prohibitivos, las variantes lineales proporcionan eficiencia pero adolecen de un almacenamiento limitado y de tamaño fijo. Proponemos Fast-weight Product Key Memory (FwPKM), una arquitectura novedosa que resuelve esta tensión transformando la memoria de claves de producto (PKM) de un módulo estático en una memoria episódica dinámica de "pesos rápidos". A diferencia de PKM, FwPKM actualiza sus parámetros dinámicamente tanto durante el entrenamiento como en la inferencia mediante descenso de gradiente a nivel de fragmentos locales, permitiendo que el modelo memorice y recupere rápidamente nuevos pares clave-valor de las secuencias de entrada. Los experimentos revelan que FwPKM funciona como una memoria episódica efectiva que complementa la memoria semántica de los módulos estándar, produciendo reducciones significativas de perplejidad en conjuntos de datos de contexto largo. Notablemente, en evaluaciones de Aguja en un Pajar, FwPKM generaliza a contextos de 128K tokens a pesar de haber sido entrenado únicamente con secuencias de 4K tokens.
Los modelos de lenguaje grandes (LLMs) han demostrado avances significativos en razonamiento y generación de código. Sin embargo, crear nuevos puntos de referencia de manera eficiente para evaluar estas capacidades sigue siendo un desafío. La creación tradicional de puntos de referencia depende del esfuerzo humano manual, un proceso que resulta costoso y requiere mucho tiempo. Además, los puntos de referencia existentes a menudo contaminan los datos de entrenamiento de los LLMs, lo que hace necesario disponer de puntos de referencia novedosos y diversos para evaluar con precisión sus capacidades genuinas. Este trabajo presenta InfoSynth, un marco novedoso para generar y evaluar automáticamente puntos de referencia de razonamiento guiado por principios de teoría de la información. Proponemos métricas basadas en la divergencia KL y la entropía para cuantificar la novedad y diversidad de los puntos de referencia sin depender de costosas evaluaciones de modelos. Sobre la base de este marco, desarrollamos un pipeline integral que sintetiza problemas robustos de programación en Python a partir de conjuntos de datos semilla utilizando algoritmos genéticos y retroalimentación iterativa de código. Nuestro método genera casos de prueba y soluciones precisos para nuevos problemas el 97% de las veces, y los puntos de referencia sintetizados exhiben consistentemente una mayor novedad y diversidad en comparación con sus conjuntos de datos semilla. Además, nuestro algoritmo proporciona un método para controlar la novedad/diversidad y la dificultad de los problemas generados. InfoSynth ofrece un pipeline escalable y auto-verificable para construir puntos de referencia de alta calidad, novedosos y diversos para LLMs. Página del proyecto: https://ishirgarg.github.io/infosynth_web/
La morfología 3D sigue siendo un desafío debido a la dificultad de generar deformaciones semánticamente consistentes y temporalmente suaves, especialmente entre categorías. Presentamos MorphAny3D, un marco de trabajo que no requiere entrenamiento y aprovecha las representaciones de Latentes Estructurados (SLAT) para una morfología 3D de alta calidad. Nuestra idea clave es que la combinación inteligente de características SLAT de origen y destino dentro de los mecanismos de atención de los generadores 3D produce naturalmente secuencias de morphing plausibles. Para ello, introducimos la Atención Cruzada de Morphing (MCA), que fusiona información de origen y destino para lograr coherencia estructural, y la Auto-Atención de Fusión Temporal (TFSA), que mejora la consistencia temporal incorporando características de fotogramas anteriores. Una estrategia de corrección de orientación mitiga además la ambigüedad de pose dentro de los pasos de morphing. Experimentos exhaustivos muestran que nuestro método genera secuencias de morphing de vanguardia, incluso para casos desafiantes entre categorías. MorphAny3D admite además aplicaciones avanzadas como morphing desacoplado y transferencia de estilo 3D, y puede generalizarse a otros modelos generativos basados en SLAT. Página del proyecto: https://xiaokunsun.github.io/MorphAny3D.github.io/.