Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos T-pro 2.0, un modelo de lenguaje grande (LLM) ruso de pesos abiertos para razonamiento híbrido e inferencia eficiente. El modelo admite respuestas directas y la generación de trazas de razonamiento, utilizando un tokenizador denso en cirílico y una canalización de decodificación especulativa EAGLE adaptada para reducir la latencia. Para facilitar una investigación reproducible y extensible, publicamos los pesos del modelo, el corpus de instrucciones T-Wix de 500k, el benchmark de razonamiento T-Math y los pesos de EAGLE en Hugging Face. Estos recursos permiten a los usuarios estudiar el razonamiento en lengua rusa y extender o adaptar tanto el modelo como la canalización de inferencia. Una demo web pública expone los modos de razonamiento y no razonamiento e ilustra las aceleraciones logradas por nuestra pila de inferencia en diversos dominios. Por lo tanto, T-pro 2.0 sirve como un sistema abierto accesible para construir y evaluar aplicaciones eficientes y prácticas de LLM en ruso.
Los grandes modelos de lenguaje (LLM) han logrado avances significativos en la resolución de tareas de razonamiento complejo mediante el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Este progreso también es inseparable de la supervisión automatizada por verificadores confiables. Sin embargo, los verificadores basados en resultados (OV) actuales son incapaces de inspeccionar los pasos intermedios no confiables en las largas cadenas de razonamiento (CoT). Mientras tanto, los verificadores basados en procesos (PV) actuales tienen dificultades para detectar errores de manera confiable en las CoT largas y complejas, limitados por la escasez de anotaciones de alta calidad debido a los costos prohibitivos de la anotación humana. Por lo tanto, proponemos el Verificador de Proceso Basado en Resultados (OPV), que verifica el proceso racional de los resultados resumidos a partir de CoT largas para lograr una verificación precisa y eficiente, y permitir una anotación a gran escala. Para potenciar el verificador propuesto, adoptamos un marco de aprendizaje activo iterativo con anotaciones de expertos para mejorar progresivamente la capacidad de verificación de OPV con menores costos de anotación. Específicamente, en cada iteración, se anotan los casos más inciertos del mejor OPV actual y luego se utilizan para entrenar un nuevo OPV mediante Ajuste Fino por Rechazo (RFT) y RLVR para la siguiente ronda. Experimentos exhaustivos demuestran el rendimiento superior y la amplia aplicabilidad de OPV. Logra nuevos resultados de vanguardia en nuestro banco de pruebas \thisbench, superando a modelos de código abierto mucho más grandes como Qwen3-Max-Preview con una puntuación F1 de 83.1 frente a 76.3. Además, OPV detecta eficazmente falsos positivos dentro del conjunto de datos sintéticos, alineándose estrechamente con la evaluación de expertos. Al colaborar con modelos de política, OPV genera consistentemente mejoras de rendimiento, por ejemplo, elevando la precisión de DeepSeek-R1-Distill-Qwen-32B del 55.2% al 73.3% en AIME2025 a medida que escala el presupuesto computacional.
El aprendizaje por refuerzo (RL), previamente demostrado como efectivo en modelos de lenguaje extenso y multimodales, ha sido extendido exitosamente recientemente para mejorar la generación de imágenes 2D. Sin embargo, la aplicación de RL a la generación 3D permanece en gran medida inexplorada debido a la mayor complejidad espacial de los objetos 3D, los cuales requieren una geometría globalmente consistente y texturas locales de grano fino. Esto hace que la generación 3D sea significativamente sensible al diseño de recompensas y a los algoritmos de RL. Para abordar estos desafíos, realizamos el primer estudio sistemático de RL para la generación autoregresiva de texto a 3D en varias dimensiones. (1) Diseños de recompensa: Evaluamos dimensiones de recompensa y opciones de modelos, demostrando que la alineación con la preferencia humana es crucial, y que los modelos multimodales generales proporcionan una señal robusta para los atributos 3D. (2) Algoritmos de RL: Estudiamos variantes de GRPO, destacando la efectividad de la optimización a nivel de token, e investigamos además la escalabilidad de los datos de entrenamiento y las iteraciones. (3) Puntos de referencia para texto a 3D: Dado que los puntos de referencia existentes no logran medir las capacidades de razonamiento implícito en los modelos de generación 3D, introducimos MME-3DR. (4) Paradigmas avanzados de RL: Motivados por la jerarquía natural de la generación 3D, proponemos Hi-GRPO, que optimiza la generación 3D jerárquica de global a local mediante conjuntos de recompensas dedicados. Basándonos en estas ideas, desarrollamos AR3D-R1, el primer modelo de texto a 3D mejorado con RL, experto desde la forma gruesa hasta el refinamiento de texturas. Esperamos que este estudio proporcione información valiosa sobre el razonamiento impulsado por RL para la generación 3D. El código se publica en https://github.com/Ivan-Tang-3D/3DGen-R1.
Los grandes modelos de lenguaje (LLM) han logrado avances significativos en la resolución de tareas de razonamiento complejo mediante el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Este progreso también es inseparable de la supervisión automatizada por verificadores confiables. Sin embargo, los verificadores basados en resultados (OVs) actuales son incapaces de inspeccionar los pasos intermedios no confiables en las largas cadenas de razonamiento (CoTs). Mientras tanto, los verificadores basados en proceso (PVs) actuales tienen dificultades para detectar errores de manera confiable en las CoTs largas y complejas, limitados por la escasez de anotaciones de alta calidad debido a los costos prohibitivos de las anotaciones humanas. Por lo tanto, proponemos el Verificador de Proceso Basado en Resultados (OPV), que verifica el proceso racional de los resultados resumidos a partir de CoTs largas para lograr una verificación tanto precisa como eficiente y permitir una anotación a gran escala. Para potenciar el verificador propuesto, adoptamos un marco de aprendizaje activo iterativo con anotaciones de expertos para mejorar progresivamente la capacidad de verificación de OPV con menores costos de anotación. Específicamente, en cada iteración, se anotan los casos más inciertos del mejor OPV actual y luego se utilizan para entrenar un nuevo OPV mediante Ajuste Fino por Rechazo (RFT) y RLVR para la siguiente ronda. Experimentos exhaustivos demuestran el rendimiento superior y la amplia aplicabilidad de OPV. Logra nuevos resultados state-of-the-art en nuestro banco de pruebas OPV-Bench, superando a modelos de código abierto mucho más grandes como Qwen3-Max-Preview con una puntuación F1 de 83.1 frente a 76.3. Además, OPV detecta efectivamente falsos positivos dentro del conjunto de datos sintéticos, alineándose estrechamente con la evaluación de expertos. Al colaborar con modelos de política, OPV genera consistentemente mejoras de rendimiento, por ejemplo, elevando la precisión de DeepSeek-R1-Distill-Qwen-32B del 55.2% al 73.3% en AIME2025 a medida que escala el presupuesto computacional.
Los agentes de modelos de lenguaje grande (LLM) exhiben una gran capacidad para resolver problemas matemáticos e incluso pueden resolver problemas de nivel de la Olimpiada Internacional de Matemáticas (IMO) con la asistencia de sistemas de prueba formal. Sin embargo, debido a heurísticas débiles para construcciones auxiliares, la IA para la resolución de problemas de geometría sigue estando dominada por modelos expertos como AlphaGeometry 2, que dependen en gran medida de la síntesis de datos a gran escala y la búsqueda tanto para el entrenamiento como para la evaluación. En este trabajo, realizamos el primer intento de construir un agente LLM de nivel medallista para geometría y presentamos InternGeometry. InternGeometry supera las limitaciones heurísticas en geometría proponiendo iterativamente proposiciones y construcciones auxiliares, verificándolas con un motor simbólico y reflexionando sobre la retroalimentación del motor para guiar las propuestas subsiguientes. Un mecanismo de memoria dinámica permite a InternGeometry realizar más de doscientas interacciones con el motor simbólico por problema. Para acelerar aún más el aprendizaje, introducimos el Aprendizaje por Refuerzo de Complejidad Creciente (CBRL), que aumenta gradualmente la complejidad de los problemas sintetizados a lo largo de las etapas de entrenamiento. Construido sobre InternThinker-32B, InternGeometry resuelve 44 de 50 problemas de geometría de la IMO (2000-2024), superando la puntuación media del medallista de oro (40.9), utilizando solo 13,000 ejemplos de entrenamiento, apenas el 0.004% de los datos utilizados por AlphaGeometry 2, lo que demuestra el potencial de los agentes LLM en tareas de geometría de nivel experto. InternGeometry también puede proponer construcciones auxiliares novedosas para problemas de la IMO que no aparecen en las soluciones humanas. Liberaremos el modelo, los datos y el motor simbólico para apoyar la investigación futura.
La captura de movimiento sustenta actualmente la creación de contenido mucho más allá de los humanos digitales, sin embargo, la mayoría de los flujos de trabajo existentes siguen siendo específicos de una especie o plantilla. Formalizamos esta brecha como Captura de Movimiento Independiente de la Categoría (CAMoCap): dado un video monocular y un activo 3D articulado arbitrario como *prompt*, el objetivo es reconstruir una animación basada en rotaciones, como BVH, que controle directamente el activo específico. Presentamos MoCapAnything, un marco factorizado y guiado por referencia que primero predice las trayectorias articulares 3D y luego recupera las rotaciones específicas del activo mediante cinemática inversa con restricciones. El sistema contiene tres módulos entrenables y una etapa ligera de CI: (1) un Codificador de Prompt de Referencia que extrae consultas por articulación del esqueleto, la malla y las imágenes renderizadas del activo; (2) un Extractor de Características de Video que calcula descriptores visuales densos y reconstruye una malla deformante 4D gruesa para tender un puente entre el espacio del video y el espacio articular; y (3) un Decodificador de Movimiento Unificado que fusiona estas señales para producir trayectorias temporalmente coherentes. También hemos creado Truebones Zoo con 1038 clips de movimiento, cada uno de los cuales proporciona una tríada estandarizada de esqueleto-malla-renderizado. Los experimentos en benchmarks de dominio interno y en videos del mundo real muestran que MoCapAnything genera animaciones esqueléticas de alta calidad y exhibe una retargetización significativa entre especies a través de rigs heterogéneos, permitiendo una captura de movimiento 3D escalable y dirigida por prompt para activos arbitrarios. Página del proyecto: https://animotionlab.github.io/MoCapAnything/
A medida que los grandes modelos de lenguaje (LLM) transitan de prototipos de investigación a sistemas de producción, los profesionales a menudo necesitan métodos confiables para verificar que las salidas del modelo satisfacen las restricciones requeridas. Si bien las estimaciones basadas en muestreo ofrecen una intuición del comportamiento del modelo, no proporcionan garantías sólidas. Presentamos BEAVER, el primer marco práctico para calcular cotas de probabilidad deterministas y sólidas sobre el cumplimiento de restricciones en LLM. Dada cualquier restricción semántica cerrada por prefijos, BEAVER explora sistemáticamente el espacio de generación utilizando nuevas estructuras de datos de trie de tokens y frontera, manteniendo cotas demostrablemente sólidas en cada iteración. Formalizamos el problema de verificación, demostramos la solidez de nuestro enfoque y evaluamos BEAVER en tareas de verificación de corrección, verificación de privacidad y generación de código seguro en múltiples LLM de última generación. BEAVER logra cotas de probabilidad de 6 a 8 veces más ajustadas e identifica de 3 a 4 veces más instancias de alto riesgo en comparación con métodos base bajo idénticos presupuestos computacionales, permitiendo una caracterización precisa y una evaluación de riesgos que las cotas laxas o la evaluación empírica no pueden proporcionar.
Este artículo introduce el concepto de Inteligencia Espacial Microscópica (MiSI), la capacidad de percibir y razonar sobre las relaciones espaciales de entidades microscópicas invisibles, fundamental para el descubrimiento científico. Para evaluar el potencial de los Modelos de Visión y Lenguaje (VLMs) en este ámbito, proponemos un marco de evaluación sistemático denominado MiSI-Bench. Este marco incluye más de 163,000 pares de preguntas-respuestas y 587,000 imágenes derivadas de aproximadamente 4,000 estructuras moleculares, abarcando nueve tareas complementarias que evalúan habilidades que van desde transformaciones espaciales elementales hasta identificaciones relacionales complejas. Los resultados experimentales revelan que los VLMs más avanzados actuales tienen un rendimiento significativamente inferior al nivel humano en esta evaluación. Sin embargo, un modelo de 7B ajustado demuestra un potencial considerable, incluso superando a humanos en tareas de transformación espacial, mientras que su bajo rendimiento en tareas con base científica, como el reconocimiento de enlaces de hidrógeno, subraya la necesidad de integrar conocimiento de dominio explícito para avanzar hacia una AGI científica. Los conjuntos de datos están disponibles en https://huggingface.co/datasets/zongzhao/MiSI-bench.
Unificar la representación multimodal de comprensión, generación y reconstrucción en un único tokenizador sigue siendo un desafío clave en la construcción de modelos unificados. Investigaciones previas han intentado abordar esto predominantemente bajo un paradigma de codificador dual, por ejemplo, utilizando codificadores separados para comprensión y generación respectivamente, o equilibrando representaciones semánticas y características de bajo nivel mediante pérdida contrastiva. En este artículo, proponemos VQRAE, una versión de Cuantización Vectorial de los AutoCodificadores de Representación, que pioneramente explora por primera vez una representación unificada para producir características semánticas continuas para comprensión de imágenes y tokens discretos para generación visual dentro de un tokenizador unificado. Específicamente, partimos de modelos de visión base preentrenados con un decodificador ViT simétrico y adoptamos una estrategia de entrenamiento en dos etapas: primero, se congela el codificador y se aprende un libro de códigos VQ semántico de alta dimensión con un objetivo de reconstrucción de píxeles; luego se optimiza conjuntamente el codificador con restricciones de auto-distilación. Este diseño permite obtener información semántica mínima para mantener la capacidad de comprensión multimodal, tokens discretos compatibles para generación y reconstrucción de grano fino. Además, identificamos una propiedad intrigante en la cuantización de codificadores semánticos que dependen de un libro de códigos de alta dimensión, en contraste con la práctica común previa de libros de códigos de baja dimensión en reconstrucción de imágenes. El libro de códigos VQ semántico puede alcanzar una tasa de utilización del 100% en una dimensión de 1536. VQRAE presenta un rendimiento competitivo en varios benchmarks de comprensión visual, generación y reconstrucción, con prometedoras propiedades de escalado en el paradigma autoregresivo gracias a sus ventajas discretas.
Los paradigmas de pensamiento-con-imágenes han demostrado una notable capacidad de razonamiento visual al integrar información visual como elementos dinámicos en la Cadena de Pensamiento (CoT). Sin embargo, optimizar la CoT multimodal entrelazada (iMCoT) mediante aprendizaje por refuerzo sigue siendo un desafío, ya que depende de datos de razonamiento de alta calidad escasos. En este estudio, proponemos la Cadena de Pensamiento con Auto-invocación (sCoT), un novedoso paradigma de razonamiento visual que reformula iMCoT como una CoT exclusivamente lingüística con auto-invocación. Específicamente, un agente principal descompone la tarea compleja de razonamiento visual en subtareas atómicas e invoca sus réplicas virtuales, es decir, subagentes que comparten parámetros, para resolverlas en contexto aislado. sCoT ofrece una eficacia y eficiencia de entrenamiento sustanciales, ya que no requiere entrelazado explícito entre modalidades. sCoT emplea optimización de políticas relativa a grupos para reforzar comportamientos de razonamiento efectivos y mejorar la optimización. Experimentos en HR-Bench 4K muestran que sCoT mejora el rendimiento general de razonamiento hasta en un 1.9% con ∼75% menos horas de GPU en comparación con enfoques baseline sólidos. El código está disponible en https://github.com/YWenxi/think-with-images-through-self-calling.
Los modelos generativos de mundos poseen un potencial significativo para simular interacciones con políticas visuomotoras en entornos variados. Los modelos de video de vanguardia pueden permitir la generación de observaciones e interacciones con el entorno de manera escalable y general. Sin embargo, el uso de modelos de video en robótica se ha limitado principalmente a evaluaciones dentro de la distribución, es decir, escenarios similares a los utilizados para entrenar la política o ajustar el modelo de video base. En este informe, demostramos que los modelos de video pueden utilizarse para todo el espectro de casos de uso de evaluación de políticas en robótica: desde la evaluación del rendimiento nominal hasta la generalización fuera de la distribución (OOD, por sus siglas en inglés), y el análisis de la seguridad física y semántica. Introducimos un sistema de evaluación generativo basado en un modelo fundacional de video de vanguardia (Veo). El sistema está optimizado para soportar el condicionamiento por acciones robóticas y la consistencia multi-vista, integrando al mismo tiempo la edición generativa de imágenes y la completación multi-vista para sintetizar variaciones realistas de escenas del mundo real a lo largo de múltiples ejes de generalización. Demostramos que el sistema preserva las capacidades base del modelo de video para permitir una simulación precisa de escenas que han sido editadas para incluir objetos de interacción novedosos, fondos visuales novedosos y objetos de distracción novedosos. Esta fidelidad permite predecir con precisión el rendimiento relativo de diferentes políticas tanto en condiciones nominales como OOD, determinar el impacto relativo de diferentes ejes de generalización en el rendimiento de la política, y realizar pruebas de penetración (red teaming) de políticas para exponer comportamientos que violan restricciones de seguridad física o semántica. Validamos estas capacidades mediante más de 1600 evaluaciones en el mundo real de ocho puntos de control de políticas de Gemini Robotics y cinco tareas para un manipulador bimanual.
Presentamos StereoSpace, un framework basado en difusión para la síntesis de monoculares a estéreo que modela la geometría únicamente mediante el condicionamiento por punto de vista, sin necesidad de profundidad explícita o operaciones de deformación. Un espacio canónico rectificado y el condicionamiento guían al generador para inferir correspondencias y rellenar oclusiones de extremo a extremo. Para garantizar una evaluación justa y libre de filtraciones, introducimos un protocolo de extremo a extremo que excluye cualquier estimación de geometría de referencia o por proxy durante la prueba. El protocolo enfatiza métricas que reflejan la relevancia para aplicaciones posteriores: iSQoE para el confort perceptual y MEt3R para la consistencia geométrica. StereoSpace supera a otros métodos de las categorías de deformación e inpaintado, deformación en el espacio latente y condicionamiento deformado, logrando un paralaje nítido y una gran robustez en escenas en capas y no lambertianas. Esto establece al condicionamiento por punto de vista en modelos de difusión como una solución escalable y libre de profundidad para la generación de contenido estéreo.
Aunque las capas de normalización han sido consideradas durante mucho tiempo componentes indispensables en las arquitecturas de aprendizaje profundo, la reciente introducción de Dynamic Tanh (DyT) ha demostrado que existen alternativas posibles. La función puntual DyT restringe los valores extremos para lograr una convergencia estable y alcanza un rendimiento comparable al de la normalización; este trabajo busca avanzar hacia diseños de funciones que puedan superarla. Primero estudiamos cómo las propiedades intrínsecas de las funciones puntuales influyen en el entrenamiento y el rendimiento. Sobre la base de estos hallazgos, realizamos una búsqueda a gran escala de un diseño de función más efectivo. A través de esta exploración, presentamos Derf(x) = erf(αx + s), donde erf(x) es la función de distribución acumulativa gaussiana reescalada, y la identificamos como el diseño de mayor rendimiento. Derf supera a LayerNorm, RMSNorm y DyT en una amplia gama de dominios, incluyendo visión (reconocimiento y generación de imágenes), representación del habla y modelado de secuencias de ADN. Nuestros hallazgos sugieren que las mejoras de rendimiento de Derf provienen en gran medida de su mejor generalización, más que de una mayor capacidad de ajuste. Su simplicidad y mayor rendimiento convierten a Derf en una opción práctica para arquitecturas Transformer libres de normalización.
La tarea de Respuesta a Preguntas sobre Video (VideoQA) constituye un campo de evaluación crítico para determinar si los modelos fundacionales pueden percibir, comprender y razonar efectivamente sobre escenarios dinámicos del mundo real. Sin embargo, los Modelos de Lenguaje Grandes Multimodales (MLLM) existentes tienen dificultades para modelar simultáneamente las relaciones espaciales dentro de los fotogramas de video y comprender la dinámica causal de la evolución temporal en la compleja tarea de VideoQA, que requiere un razonamiento intensivo. En este trabajo, equipamos a los MLLM con un Kit de Herramientas de Video integral y extensible, para mejorar sus capacidades de razonamiento espaciotemporal y garantizar la armonía entre la cantidad y la diversidad de herramientas. Para controlar mejor la secuencia de invocación de herramientas y evitar problemas de atajos en la cadena de herramientas, proponemos un Marco de Razonamiento Espaciotemporal (STAR) que planifica estratégicamente herramientas temporales y espaciales, localizando así progresivamente el área clave en el video. Nuestro marco STAR mejora a GPT-4o utilizando herramientas ligeras, logrando una ganancia del 8.2% en VideoMME y del 4.6% en LongVideoBench. Creemos que nuestro Kit de Herramientas de Video propuesto y el marco STAR representan un paso importante hacia la construcción de asistentes de análisis de video autónomos e inteligentes. El código está disponible públicamente en https://github.com/fansunqi/VideoTool.
Los robots que aprenden habilidades de manipulación a partir de videos humanos cotidianos podrían adquirir capacidades amplias sin la tediosa recopilación de datos robóticos. Proponemos un marco de traducción de video a video que convierte videos ordinarios de interacción humano-objeto en videos de manipulación robótica con coherencia motriz e interacciones realistas y físicamente fundamentadas. Nuestro enfoque no requiere videos emparejados humano-robot para el entrenamiento, solo un conjunto de videos robóticos no emparejados, lo que facilita la escalabilidad del sistema. Introducimos una representación transferible que salva la brecha de encarnación: al restaurar digitalmente el brazo robótico en los videos de entrenamiento para obtener un fondo limpio y superponer una señal visual simple (un marcador y una flecha que indica la posición y orientación de la pinza), podemos condicionar un modelo generativo para reinsertar el brazo robótico en la escena. Durante la prueba, aplicamos el mismo proceso a videos humanos (restaurando digitalmente a la persona y superponiendo señales de postura humana) y generamos videos robóticos de alta calidad que imitan las acciones humanas. Ajustamos un modelo de difusión de video de última generación (Wan 2.2) mediante aprendizaje en contexto para garantizar coherencia temporal y aprovechar su rico conocimiento previo. Los resultados empíricos demuestran que nuestro enfoque logra movimientos robóticos significativamente más realistas y fundamentados en comparación con los métodos base, señalando una dirección prometedora para escalar el aprendizaje robótico a partir de videos humanos no etiquetados. Página del proyecto: https://showlab.github.io/H2R-Grounder/
Presentamos The FACTS Leaderboard, un conjunto de tablas de clasificación en línea y un conjunto asociado de puntos de referencia que evalúa exhaustivamente la capacidad de los modelos de lenguaje para generar texto factualmente preciso en diversos escenarios. El conjunto proporciona una medida holística de la factualidad agregando el rendimiento de los modelos en cuatro subclasificaciones distintas: (1) FACTS Multimodal, que mide la factualidad de las respuestas a preguntas basadas en imágenes; (2) FACTS Parametric, que evalúa el conocimiento mundial de los modelos mediante la respuesta a preguntas factuales de libro cerrado a partir de sus parámetros internos; (3) FACTS Search, que evalúa la factualidad en escenarios de búsqueda de información, donde el modelo debe utilizar una API de búsqueda; y (4) FACTS Grounding (v2), que evalúa si las respuestas de formato largo están fundamentadas en documentos proporcionados, y que cuenta con modelos evaluadores significativamente mejorados. Cada subclasificación emplea modelos evaluadores automatizados para puntuar las respuestas de los modelos, y la puntuación final del conjunto es un promedio de los cuatro componentes, diseñado para proporcionar una evaluación sólida y equilibrada de la factualidad general de un modelo. El conjunto FACTS Leaderboard se mantendrá activamente y contendrá divisiones públicas y privadas para permitir la participación externa mientras se protege su integridad. Puede encontrarse en https://www.kaggle.com/benchmarks/google/facts.
Los recientes avances en el Proyección Gaussiana 4D (4DGS) han extendido la capacidad de renderizado de alta velocidad de la Proyección Gaussiana 3D (3DGS) al dominio temporal, permitiendo la representación en tiempo real de escenas dinámicas. Sin embargo, uno de los principales desafíos pendientes reside en el modelado de videos dinámicos de largo alcance que contienen movimiento, donde una extensión ingenua de los métodos existentes conduce a una severa explosión de memoria, parpadeo temporal y fallos al manejar oclusiones que aparecen o desaparecen con el tiempo. Para abordar estos desafíos, proponemos un novedoso marco de trabajo 4DGS caracterizado por un mecanismo de Mezcla Bidireccional basado en Relevos de Anclajes (ARBB), denominado MoRel, que permite un modelado temporalmente consistente y eficiente en memoria de escenas dinámicas de largo alcance. Nuestro método construye progresivamente espacios canónicos locales de anclaje en el índice de tiempo de los fotogramas clave y modela las deformaciones entre fotogramas a nivel de anclaje, mejorando la coherencia temporal. Al aprender deformaciones bidireccionales entre los Anclajes de Fotograma Clave (KfA) y mezclándolas de forma adaptativa mediante un control de opacidad entrenable, nuestro enfoque mitiga las discontinuidades temporales y los artefactos de parpadeo. Además, introducimos un esquema de Densificación Jerárquica Guiada por Varianza de Características (FHD) que densifica eficazmente los KfA manteniendo la calidad de renderizado, basándose en un nivel asignado de varianza de características. Para evaluar eficazmente la capacidad de nuestro modelo para manejar movimiento 4D de largo alcance del mundo real, hemos compilado un nuevo conjunto de datos que contiene movimiento 4D de largo alcance, llamado SelfCap_{LR}. Este conjunto de datos presenta una magnitud promedio de movimiento dinámico mayor y está capturado en espacios espacialmente más amplios en comparación con conjuntos de datos de video dinámicos anteriores. En general, nuestro MoRel logra una reconstrucción 4D de largo alcance temporalmente coherente y libre de parpadeos, manteniendo un uso de memoria acotado, lo que demuestra tanto escalabilidad como eficiencia en las representaciones dinámicas basadas en Gaussianas.
Los modelos unificados de video demuestran una gran capacidad de comprensión y generación, pero presentan dificultades en la edición visual basada en razonamiento, incluso cuando están equipados con potentes modelos internos de visión y lenguaje (VLM). Atribuimos esta brecha a dos factores: 1) los conjuntos de datos existentes son inadecuados para entrenar y evaluar la edición de video consciente del razonamiento, y 2) una desconexión inherente entre las capacidades de razonamiento y edición de los modelos, lo que impide que la comprensión profunda instruya efectivamente el proceso de edición. Cerrar esta brecha requiere un marco integrado que conecte el razonamiento con la transformación visual. Para abordar esta problemática, presentamos la tarea de Edición de Video Informada por Razonamiento (RVE), que exige razonar sobre la plausibilidad física y la dinámica causal durante la edición. Para permitir una evaluación sistemática, construimos RVE-Bench, un benchmark integral con dos subconjuntos complementarios: Edición de Video Informada por Razonamiento y Generación de Video en Contexto. Estos subconjuntos abarcan diversas dimensiones de razonamiento y escenarios de edición del mundo real. Sobre esta base, proponemos ReViSE, un marco de Razonamiento Auto-Reflexivo (SRF) que unifica la generación y la evaluación en una única arquitectura. El VLM interno del modelo proporciona retroalimentación intrínseca al evaluar si el video editado satisface lógicamente la instrucción dada. La retroalimentación diferencial refina el comportamiento de razonamiento del generador durante el entrenamiento. Experimentos exhaustivos en RVE-Bench demuestran que ReViSE mejora significativamente la precisión de la edición y la fidelidad visual, logrando una mejora del 32% en la puntuación General del subconjunto de edición de video informada por razonamiento frente a los métodos state-of-the-art.
La personalización de conceptos visuales busca transferir únicamente atributos específicos de la imagen, como identidad, expresión, iluminación y estilo, a contextos no vistos. Sin embargo, los métodos existentes dependen de incrustaciones holísticas de codificadores de imágenes de propósito general, que entrelazan múltiples factores visuales y dificultan el aislamiento de un único atributo. Esto a menudo conduce a fugas de información y síntesis incoherente. Para abordar esta limitación, presentamos Omni-Attribute, el primer codificador de atributos de imagen de vocabulario abierto diseñado para aprender representaciones específicas de atributos de alta fidelidad. Nuestro enfoque diseña conjuntamente los datos y el modelo: (i) seleccionamos pares de imágenes semánticamente vinculadas anotadas con atributos positivos y negativos para enseñar explícitamente al codificador qué preservar o suprimir; y (ii) adoptamos un paradigma de entrenamiento de doble objetivo que equilibra la fidelidad generativa con el desenredado contrastivo. Las incrustaciones resultantes demuestran ser efectivas para la recuperación de atributos de vocabulario abierto, personalización y generación composicional, logrando un rendimiento de vanguardia en múltiples puntos de referencia.
La ingeniería de software con IA en el mundo real exige agentes de programación capaces de razonar sobre repositorios masivos, mantener una memoria duradera entre y dentro de sesiones largas, y coordinar de manera robusta complejas cadenas de herramientas durante las pruebas. Los agentes de programación de código abierto existentes ofrecen transparencia, pero frecuentemente se quedan cortos cuando se les exige enfrentar estas cargas de trabajo a escala industrial, mientras que los agentes de programación propietarios ofrecen un rendimiento práctico sólido pero con extensibilidad, interpretabilidad y controlabilidad limitados. Presentamos el Confucius Code Agent (CCA), un ingeniero de software con IA de código abierto capaz de operar a escala industrial. CCA está construido sobre el Confucius SDK, una plataforma de desarrollo de agentes de código abierto diseñada en torno a tres perspectivas complementarias: Experiencia del Agente (AX), Experiencia de Usuario (UX) y Experiencia del Desarrollador (DX). El SDK introduce un orquestador unificado con memoria de trabajo jerárquica para el razonamiento de contexto largo, un sistema persistente de toma de notas para el aprendizaje continuo entre sesiones, y un módulo de extensión modular para un uso robusto de herramientas. Además, un meta-agente automatiza la síntesis, evaluación y refinamiento de las configuraciones del agente mediante un ciclo de construcción-prueba-mejora, permitiendo un desarrollo rápido de agentes en nuevas tareas, entornos y pilas de herramientas. Instanciado en el Confucius SDK con estos mecanismos, CCA ofrece un rendimiento sólido en tareas reales de ingeniería de software. En SWE-Bench-Pro, CCA alcanza un rendimiento Resolve@1 state-of-the-art del 54,3%, mejorando sustancialmente respecto a agentes de programación anteriores. En conjunto, el Confucius SDK y el CCA proporcionan una base transparente, extensible y reproducible para los agentes de IA, salvan las brechas entre los prototipos de investigación y los sistemas de grado productivo, y apoyan el desarrollo y despliegue de agentes a escala industrial.
Los agentes de LLM se despliegan ampliamente en tareas interactivas complejas, sin embargo, las restricciones de privacidad a menudo impiden la optimización centralizada y la co-evolución en entornos dinámicos. Si bien el Aprendizaje Federado (FL) ha demostrado ser efectivo en conjuntos de datos estáticos, su extensión a la auto-evolución abierta de agentes sigue estando poco explorada. Aplicar FL estándar directamente es un desafío: las tareas heterogéneas y las recompensas dispersas a nivel de trayectoria introducen graves conflictos de gradiente, desestabilizando el proceso de optimización global. Para cerrar esta brecha, proponemos Fed-SE, un marco de Auto-Evolución Federada para agentes LLM. Fed-SE establece un paradigma de evolución local-agregación global. Localmente, los agentes emplean ajuste fino de parámetros eficientes en trayectorias filtradas de alto rendimiento para lograr actualizaciones de gradiente estables. Globalmente, Fed-SE agrega las actualizaciones dentro de un subespacio de bajo rango que desentrelaza las dinámicas específicas del entorno, reduciendo efectivamente la transferencia negativa entre clientes. Experimentos en cinco entornos heterogéneos demuestran que Fed-SE mejora las tasas promedio de éxito en tareas en aproximadamente un 18% respecto a los baselines federados, validando su efectividad en la transferencia robusta de conocimiento cruzado entre entornos en despliegues con restricciones de privacidad.
Los agentes de rol (RPA) deben dominar simultáneamente múltiples habilidades conflictivas: seguir instrucciones multiturno, exhibir conocimiento de dominio y adoptar un estilo lingüístico coherente. Los trabajos existentes dependen de ajuste fino supervisado (SFT) que se sobreajusta a indicios superficiales y produce baja diversidad, o aplican aprendizaje por refuerzo (RL) que no logra aprender múltiples dimensiones para una optimización integral de RPA. Presentamos MOA (Alineación Multi-Objetivo), un marco de aprendizaje por refuerzo que permite la optimización multidimensional y granular de rúbricas para RPAs generales. MOA introduce una novedosa estrategia de optimización multi-objetivo que entrena simultáneamente en múltiples rúbricas granulares para impulsar el rendimiento de optimización. Adicionalmente, para abordar los problemas de diversidad y calidad de la salida del modelo, hemos empleado despliegue aumentado con razonamiento y guía fuera de política. Experimentos exhaustivos en benchmarks desafiantes como PersonaGym y RoleMRC muestran que MOA permite que un modelo de 8B iguale o incluso supere a líneas base fuertes como GPT-4o y Claude en numerosas dimensiones. Esto demuestra el gran potencial de MOA para construir RPAs que puedan satisfacer simultáneamente las demandas de conocimiento del rol, estilo de personaje, escenarios diversos y conversaciones multiturno complejas.
El avance de la IA encarnada ha desbloqueado un potencial significativo para los robots humanoides inteligentes. Sin embargo, el progreso tanto en los modelos Visión-Lenguaje-Acción (VLA) como en los modelos del mundo se ve severamente obstaculizado por la escasez de datos de entrenamiento a gran escala y diversos. Una solución prometedora es "robotizar" videos humanos a escala web, lo cual ha demostrado ser efectivo para el entrenamiento de políticas. No obstante, estas soluciones principalmente "superponen" brazos robóticos a videos egocéntricos, lo que no puede manejar movimientos corporales complejos y oclusiones de escena en videos en tercera persona, haciéndolas inadecuadas para robotizar humanos. Para cerrar esta brecha, presentamos X-Humanoid, un enfoque de edición de video generativo que adapta el potente modelo Wan 2.2 a una estructura video-a-video y lo ajusta para la tarea de traducción humano-humanoide. Este ajuste fino requiere videos emparejados de humano-humanoide, por lo que diseñamos un pipeline escalable de creación de datos, transformando recursos de la comunidad en más de 17 horas de videos sintéticos emparejados utilizando Unreal Engine. Luego aplicamos nuestro modelo entrenado a 60 horas de videos de Ego-Exo4D, generando y liberando un nuevo conjunto de datos a gran escala de más de 3.6 millones de fotogramas de video "robotizados" de humanoides. El análisis cuantitativo y los estudios de usuarios confirman la superioridad de nuestro método sobre las líneas base existentes: el 69% de los usuarios lo calificó como el mejor en consistencia de movimiento, y el 62.1% en corrección de encarnación.
Los enfoques recientes basados en modelos de visión y lenguaje (VLM) han logrado resultados impresionantes en la generación de SVG. Sin embargo, dado que solo generan texto y carecen de señales visuales durante la decodificación, a menudo tienen dificultades con semánticas complejas y no logran producir SVG visualmente atractivos o geométricamente coherentes. Presentamos DuetSVG, un modelo multimodal unificado que genera conjuntamente tokens de imagen y tokens SVG correspondientes de manera integral. DuetSVG se entrena con conjuntos de datos tanto de imágenes como de SVG. Durante la inferencia, aplicamos una novedosa estrategia de escalado en tiempo de prueba que aprovecha las predicciones visuales nativas del modelo como guía para mejorar la calidad de la decodificación SVG. Experimentos exhaustivos demuestran que nuestro método supera a los existentes, produciendo SVG visualmente fieles, semánticamente alineados y sintácticamente limpios en una amplia gama de aplicaciones.