Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los Modelos de Lenguaje Multimodales a Gran Escala demuestran capacidades semánticas impresionantes, a menudo padecen de ceguera espacial, luchando con el razonamiento geométrico de grano fino y la dinámica física. Las soluciones existentes típicamente dependen de modalidades 3D explícitas o de andamiajes geométricos complejos, los cuales están limitados por la escasez de datos y los desafíos de generalización. En este trabajo, proponemos un cambio de paradigma aprovechando la predisposición espacial implícita dentro de los modelos de generación de video a gran escala. Postulamos que, para sintetizar videos temporalmente coherentes, estos modelos aprenden inherentemente predisposiciones estructurales 3D robustas y leyes físicas. Introducimos VEGA-3D (Video Extracted Generative Awareness), un marco de trabajo plug-and-play que readapta un modelo de difusión de video preentrenado como un Simulador de Mundo Latente. Al extraer características espacio-temporales de niveles intermedios de ruido e integrarlas con representaciones semánticas mediante un mecanismo de fusión adaptativa a nivel de tokens, enriquecemos a los MLLMs con densas claves geométricas sin supervisión 3D explícita. Experimentos exhaustivos en benchmarks de comprensión de escenas 3D, razonamiento espacial y manipulación embodada demuestran que nuestro método supera a los baselines de vanguardia, validando que las predisposiciones generativas proporcionan una base escalable para la comprensión del mundo físico. El código está disponible públicamente en https://github.com/H-EmbodVis/VEGA-3D.
Los modelos actuales de edición de vídeo guiada por instrucciones luchan por equilibrar simultáneamente modificaciones semánticas precisas con una preservación fiel del movimiento. Si bien los enfoques existentes dependen de inyectar conocimientos externos explícitos (por ejemplo, características VLM o condiciones estructurales) para mitigar estos problemas, esta dependencia limita severamente la robustez y generalización del modelo. Para superar esta limitación, presentamos SAMA (Anclaje Semántico Factorizado y Alineación de Movimiento), un marco que factoriza la edición de vídeo en anclaje semántico y modelado del movimiento. Primero, introducimos el Anclaje Semántico, que establece un ancla visual confiable mediante la predicción conjunta de tokens semánticos y latentes de vídeo en fotogramas ancla dispersos, permitiendo una planificación estructural puramente consciente de la instrucción. En segundo lugar, la Alineación de Movimiento pre-entrena el mismo *backbone* en tareas de pretexto de restauración de vídeo centradas en el movimiento (inpainting cúbico, perturbación de velocidad y barajado de tubos), permitiendo que el modelo internalice la dinámica temporal directamente de los vídeos en bruto. SAMA se optimiza con un *pipeline* de dos etapas: una etapa de pre-entrenamiento factorizado que aprende representaciones semántico-movimiento inherentes sin datos de edición vídeo-instrucción emparejados, seguida de un ajuste fino supervisado con datos de edición emparejados. Notablemente, el pre-entrenamiento factorizado por sí solo ya produce una fuerte capacidad de edición de vídeo *zero-shot*, validando la factorización propuesta. SAMA logra un rendimiento state-of-the-art entre los modelos de código abierto y es competitivo con los principales sistemas comerciales (por ejemplo, Kling-Omni). El código, los modelos y los conjuntos de datos serán liberados.
La creación de videos dinámicos y coherentes desde cualquier punto de vista de sujetos personalizados es muy demandada para una amplia gama de aplicaciones emergentes, incluyendo RV/RA inmersiva, producción virtual y el comercio electrónico de próxima generación. Sin embargo, a pesar del rápido progreso en la generación de videos impulsada por sujetos, los métodos existentes tratan predominantemente a los sujetos como entidades 2D, centrándose en transferir la identidad a través de características visuales de vista única o indicaciones textuales. Dado que los sujetos del mundo real son inherentemente 3D, la aplicación de estos enfoques centrados en 2D a la personalización de objetos 3D revela una limitación fundamental: carecen de los conocimientos previos espaciales integrales necesarios para reconstruir la geometría 3D. En consecuencia, al sintetizar nuevas vistas, deben depender de la generación de detalles plausibles pero arbitrarios para las regiones no vistas, en lugar de preservar la verdadera identidad 3D. Lograr una personalización genuinamente consciente del 3D sigue siendo un desafío debido a la escasez de conjuntos de datos de video multivista. Aunque se podría intentar ajustar modelos en secuencias de video limitadas, esto a menudo conduce a un sobreajuste temporal. Para resolver estos problemas, presentamos un nuevo marco para la personalización de video consciente del 3D, que comprende 3DreamBooth y 3Dapter. 3DreamBooth desacopla la geometría espacial del movimiento temporal a través de un paradigma de optimización de 1 fotograma. Al restringir las actualizaciones a las representaciones espaciales, incorpora eficazmente un conocimiento previo 3D robusto en el modelo sin necesidad de un entrenamiento exhaustivo basado en video. Para mejorar las texturas de grano fino y acelerar la convergencia, incorporamos 3Dapter, un módulo de condicionamiento visual. Tras un pre-entrenamiento de vista única, 3Dapter se somete a una optimización conjunta multivista con la rama principal de generación mediante una estrategia de condicionamiento asimétrico. Este diseño permite que el módulo actúe como un enrutador selectivo dinámico, consultando pistas geométricas específicas de la vista a partir de un conjunto de referencia mínimo. Página del proyecto: https://ko-lani.github.io/3DreamBooth/
La ejecución en tiempo real es crucial para desplegar modelos Visión-Lenguaje-Acción (VLA) en el mundo físico. Los métodos de inferencia asíncrona existentes optimizan principalmente la suavidad de la trayectoria, pero descuidan la latencia crítica en la reacción a los cambios ambientales. Al replantear la noción de reacción en las políticas de fragmentación de acciones, este artículo presenta un análisis sistemático de los factores que gobiernan el tiempo de reacción. Demostramos que el tiempo de reacción sigue una distribución uniforme determinada conjuntamente por el Tiempo hasta la Primera Acción (TTFA) y el horizonte de ejecución. Además, revelamos que la práctica estándar de aplicar un programa constante en los VLA basados en flujo puede ser ineficiente y obliga al sistema a completar todos los pasos de muestreo antes de que pueda iniciarse cualquier movimiento, formando el cuello de botella en la latencia de reacción. Para superar este problema, proponemos Muestreo Rápido de Acciones para Reacción Inmediata (FASTER). Al introducir un Programa Consciente del Horizonte, FASTER prioriza adaptivamente las acciones a corto plazo durante el muestreo de flujo, comprimiendo la eliminación de ruido de la reacción inmediata diez veces (por ejemplo, en π_{0.5} y X-VLA) en un solo paso, mientras preserva la calidad de la trayectoria a largo plazo. Junto con una canalización cliente-servidor de transmisión continua, FASTER reduce sustancialmente la latencia de reacción efectiva en robots reales, especialmente cuando se despliega en GPU de grado comercial. Experimentos en el mundo real, incluyendo una tarea altamente dinámica de tenis de mesa, demuestran que FASTER desbloquea una capacidad de respuesta en tiempo real sin precedentes para políticas generalistas, permitiendo la generación rápida de trayectorias precisas y suaves.
Presentamos Nemotron-Cascade 2, un modelo abierto de 30B con arquitectura Mixta de Expertos (MoE) que activa 3B de parámetros, ofreciendo capacidades de razonamiento de primer nivel y sólidas capacidades agentivas. A pesar de su tamaño compacto, su rendimiento en razonamiento matemático y de codificación se aproxima al de los modelos abiertos de vanguardia. Es el segundo modelo de lenguaje grande (LLM) de pesos abiertos, después de DeepSeekV3.2-Speciale-671B-A37B, en alcanzar un rendimiento de nivel Medalla de Oro en la Olimpiada Internacional de Matemáticas (IMO) 2025, la Olimpiada Internacional de Informática (IOI) y la Final Mundial de la ICPC, demostrando una densidad de inteligencia notablemente alta con 20 veces menos parámetros. En contraste con Nemotron-Cascade 1, los avances técnicos clave son los siguientes. Tras el Ajuste Supervisado (SFT) en un conjunto de datos meticulosamente seleccionado, expandimos sustancialmente el Refuerzo de Aprendizaje en Cascada (Cascade RL) para cubrir un espectro mucho más amplio de dominios de razonamiento y agentivos. Además, introducimos una destilación *on-policy* multidominio a partir de los modelos docentes intermedios más fuertes para cada dominio a lo largo del proceso de Cascade RL, lo que nos permite recuperar eficientemente las regresiones en los puntos de referencia y mantener fuertes ganancias de rendimiento en el camino. Publicamos la colección del *checkpoint* del modelo y los datos de entrenamiento.
Presentamos Memento-Skills, un sistema de agente LLM generalista y de aprendizaje continuo que funciona como un agente diseñador de agentes: construye, adapta y mejora de forma autónoma agentes específicos para tareas mediante la experiencia. El sistema se basa en un marco de aprendizaje por refuerzo basado en memoria con prompts con estado, donde habilidades reutilizables (almacenadas como archivos markdown estructurados) sirven como memoria persistente y en evolución. Estas habilidades codifican tanto el comportamiento como el contexto, permitiendo al agente trasladar conocimiento a través de las interacciones. Partiendo de habilidades elementales simples (como la búsqueda web y las operaciones de terminal), el agente mejora continuamente mediante el mecanismo de Aprendizaje Reflexivo de Lectura-Escritura introducido en Memento~2~wang2025memento2. En la fase de lectura, un enrutador de habilidades entrenable para el comportamiento selecciona la habilidad más relevante condicionada por el prompt con estado actual; en la fase de escritura, el agente actualiza y expande su biblioteca de habilidades basándose en nuevas experiencias. Este diseño de bucle cerrado permite el aprendizaje continuo sin actualizar los parámetros del LLM, ya que toda la adaptación se realiza mediante la evolución de habilidades y prompts externalizados. A diferencia de enfoques anteriores que dependen de agentes diseñados por humanos, Memento-Skills permite que un agente generalista diseñe agentes de extremo a extremo para nuevas tareas. A través de la generación y refinamiento iterativos de habilidades, el sistema mejora progresivamente sus propias capacidades. Los experimentos en el benchmark General AI Assistants y en Humanity's Last Exam demuestran mejoras sostenidas, logrando mejoras relativas en la precisión general del 26.2 % y 116.2 %, respectivamente. El código está disponible en https://github.com/Memento-Teams/Memento-Skills.
La generación de movimiento previa sigue principalmente dos paradigmas: los modelos de difusión continua que destacan en el control cinemático y los generadores basados en tokens discretos que son efectivos para el condicionamiento semántico. Para combinar sus ventajas, proponemos un marco de tres etapas que comprende la extracción de características de condición (Percepción), la generación de tokens discretos (Planificación) y la síntesis de movimiento basada en difusión (Control). El elemento central de este marco es MoTok, un tokenizador de movimiento discreto basado en difusión que desacopla la abstracción semántica de la reconstrucción detallada al delegar la recuperación del movimiento a un decodificador de difusión, permitiendo tokens compactos de una sola capa mientras preserva la fidelidad del movimiento. Para condiciones cinemáticas, las restricciones aproximadas guían la generación de tokens durante la planificación, mientras que las restricciones detalladas se aplican durante el control mediante optimización basada en difusión. Este diseño evita que los detalles cinemáticos perturben la planificación de tokens semánticos. En HumanML3D, nuestro método mejora significativamente la controlabilidad y fidelidad sobre MaskControl mientras utiliza solo una sexta parte de los tokens, reduciendo el error de trayectoria de 0.72 cm a 0.08 cm y el FID de 0.083 a 0.029. A diferencia de métodos anteriores que se degradan bajo restricciones cinemáticas más fuertes, el nuestro mejora la fidelidad, reduciendo el FID de 0.033 a 0.014.
Reconstruir objetos 3D articulados a partir de una sola imagen requiere inferir conjuntamente la geometría del objeto, la estructura de las partes y los parámetros de movimiento a partir de evidencia visual limitada. Una dificultad clave reside en el entrelazamiento entre las claves de movimiento y la estructura del objeto, lo que hace que la regresión directa de la articulación sea inestable. Los métodos existentes abordan este desafío mediante supervisión multi-vista, ensamblaje basado en recuperación o generación de vídeos auxiliares, a menudo sacrificando escalabilidad o eficiencia. Presentamos MonoArt, un marco unificado basado en el razonamiento estructural progresivo. En lugar de predecir la articulación directamente a partir de características de la imagen, MonoArt transforma progresivamente las observaciones visuales en geometría canónica, representaciones estructuradas de partes y *embeddings* conscientes del movimiento dentro de una única arquitectura. Este proceso de razonamiento estructurado permite una inferencia de articulación estable e interpretable sin plantillas de movimiento externas o pipelines multi-etapa. Experimentos exhaustivos en PartNet-Mobility demuestran que MonoArt logra un rendimiento de vanguardia tanto en precisión de reconstrucción como en velocidad de inferencia. El marco se generaliza además a la manipulación robótica y a la reconstrucción de escenas articuladas.
La generación visual con tokens discretos ha ganado una atención significativa, ya que permite un paradigma unificado de predicción de tokens compartido con los modelos de lenguaje, prometiendo arquitecturas multimodales sin fisuras. Sin embargo, los métodos actuales de generación discreta siguen limitados a tokens latentes de baja dimensionalidad (típicamente 8-32 dimensiones), sacrificando la riqueza semántica esencial para la comprensión. Si bien las representaciones preentrenadas de alta dimensionalidad (768-1024 dimensiones) podrían cerrar esta brecha, su generación discreta plantea desafíos fundamentales. En este artículo, presentamos Cubic Discrete Diffusion (CubiD), el primer modelo de generación discreta para representaciones de alta dimensionalidad. CubiD realiza un enmascaramiento de grano fino a lo largo de la representación discreta de alta dimensionalidad: cualquier dimensión en cualquier posición puede ser enmascarada y predecida a partir de observaciones parciales. Esto permite al modelo aprender correlaciones ricas tanto dentro como entre posiciones espaciales, con el número de pasos de generación fijado en T independientemente de la dimensionalidad de las características, donde T << hwd. En ImageNet-256, CubiD logra una generación discreta de vanguardia con un fuerte comportamiento de escalado desde 900M hasta 3.7B de parámetros. Crucialmente, validamos que estos tokens discretizados preservan las capacidades de representación originales, demostrando que los mismos tokens discretos pueden servir eficazmente tanto para tareas de comprensión como de generación. Esperamos que este trabajo inspire futuras investigaciones hacia arquitecturas multimodales unificadas. El código está disponible en: https://github.com/YuqingWang1029/CubiD.
Los recientes avances en modelos lingüísticos grandes omnimodales (OmniLLM) han mejorado significativamente la comprensión de entradas de audio y vídeo. Sin embargo, las evaluaciones actuales se centran principalmente en fragmentos de audio y vídeo cortos, que oscilan entre 10 segundos y 5 minutos, sin reflejar las demandas de las aplicaciones del mundo real, donde los vídeos suelen durar decenas de minutos. Para abordar esta brecha crítica, presentamos LVOmniBench, un nuevo benchmark diseñado específicamente para la comprensión cross-modal de audio y vídeo de formato largo. Este conjunto de datos comprende vídeos de alta calidad obtenidos de plataformas abiertas que presentan una rica dinámica audiovisual. Mediante una rigurosa selección y anotación manual, LVOmniBench consta de 275 vídeos, con una duración de entre 10 y 90 minutos, y 1.014 pares de preguntas y respuestas (QA). LVOmniBench tiene como objetivo evaluar rigurosamente las capacidades de los OmniLLM en diversos dominios, incluidos la memoria a largo plazo, la localización temporal, la comprensión de grano fino y la percepción multimodal. Nuestra evaluación exhaustiva revela que los OmniLLM actuales encuentran desafíos significativos al procesar entradas audiovisuales extensas. Los modelos de código abierto generalmente alcanzan precisiones por debajo del 35%, mientras que Gemini 3 Pro alcanza una precisión máxima de aproximadamente el 65%. Anticipamos que este conjunto de datos, junto con nuestros hallazgos empíricos, estimulará futuras investigaciones y el desarrollo de modelos avanzados capaces de resolver problemas complejos de comprensión cross-modal en contextos audiovisuales de formato largo.
Presentamos F2LLM-v2, una nueva familia de modelos de embeddings multilingües de propósito general en 8 tamaños distintos que van desde 80M hasta 14B. Entrenado en una nueva composición curada de 60 millones de muestras de datos públicos de alta calidad, F2LLM-v2 admite más de 200 idiomas, con especial énfasis en lenguas de recursos medios y bajos previamente poco atendidas. Mediante la integración de un pipeline de entrenamiento de embeddings basado en LLM de dos etapas con técnicas de aprendizaje *matryoshka*, poda de modelos y destilación de conocimiento, presentamos modelos que son mucho más eficientes que los modelos de embeddings basados en LLM anteriores, manteniendo un rendimiento competitivo. Evaluaciones exhaustivas confirman que F2LLM-v2-14B ocupa el primer puesto en 11 benchmarks de MTEB, mientras que los modelos más pequeños de la familia también establecen un nuevo estado del arte para aplicaciones con recursos limitados. Para facilitar la investigación de modelos de embeddings de código abierto, publicamos todos los modelos, datos, código y puntos de control intermedios.
En este artículo, presentamos una nueva tarea: la Generación Reactiva de Movimientos del Oyente a partir de la Expresión del Hablante, que tiene como objetivo generar movimientos corporales naturalistas del oyente que respondan adecuadamente a la expresión de un hablante. Sin embargo, modelar tales comportamientos no verbales del oyente sigue siendo un área poco explorada y desafiante debido a la naturaleza inherentemente no determinista de las reacciones humanas. Para facilitar esta tarea, presentamos ReactMotionNet, un conjunto de datos a gran escala que empareja expresiones del hablante con múltiples movimientos candidatos del oyente, anotados con distintos grados de adecuación. Este diseño del conjunto de datos capta explícitamente la naturaleza uno-a-muchos del comportamiento del oyente y proporciona una supervisión que va más allá de un único movimiento de referencia. Basándonos en este diseño, desarrollamos protocolos de evaluación orientados a la preferencia, adaptados para evaluar la adecuación reactiva, aspectos que las métricas de movimiento convencionales centradas en la alineación entrada-movimiento ignoran. Además, proponemos ReactMotion, un marco generativo unificado que modela conjuntamente texto, audio, emoción y movimiento, y se entrena con objetivos basados en preferencias para fomentar respuestas del oyente tanto apropiadas como diversas. Experimentos exhaustivos demuestran que ReactMotion supera a los baselines de recuperación y a las pipelines en cascada basadas en LLM, generando movimientos del oyente más naturales, diversos y apropiados.
Los agentes GUI de largo horizonte son un paso clave hacia la implementación en el mundo real, sin embargo, la memoria de interacción efectiva bajo los paradigmas predominantes sigue siendo poco explorada. La reproducción de secuencias completas de interacción es redundante y amplifica el ruido, mientras que los resúmenes a menudo eliminan información crítica de dependencia y la trazabilidad. Presentamos AndroTMem, un marco de diagnóstico para la memoria anclada en agentes GUI de Android de largo horizonte. Su punto de referencia central, AndroTMem-Bench, comprende 1.069 tareas con 34.473 pasos de interacción (promedio 32.1 por tarea, máximo 65). Evaluamos a los agentes con TCR (Tasa de Finalización de Tareas), centrándonos en tareas cuya finalización requiere llevar adelante estados intermedios críticos; AndroTMem-Bench está diseñado para imponer fuertes dependencias causales paso a paso, haciendo que los estados intermedios, escasos pero esenciales, sean decisivos para las acciones posteriores y situando la memoria de interacción en el centro de la evaluación. En agentes GUI de código abierto y cerrado, observamos un patrón consistente: a medida que las secuencias de interacción se alargan, las caídas de rendimiento son impulsadas principalmente por fallos de memoria dentro de la tarea, no por errores de percepción aislados o errores de acción local. Guiados por este diagnóstico, proponemos Anchored State Memory (ASM), que representa las secuencias de interacción como un conjunto compacto de anclajes de estado intermedio causalmente vinculados para permitir una recuperación dirigida a subobjetivos y una toma de decisiones consciente de la atribución. En múltiples entornos y 12 agentes GUI evaluados, ASM supera consistentemente a las líneas base de reproducción de secuencias completas y basadas en resúmenes, mejorando el TCR en un 5%-30.16% y el AMS en un 4.93%-24.66%, lo que indica que la memoria estructurada y anclada mitiga efectivamente el cuello de botella de la memoria de interacción en tareas GUI de largo horizonte. El código, el punto de referencia y los recursos relacionados están disponibles públicamente en [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) han logrado un éxito notable en la interpretación de escenas naturales, su capacidad para procesar símbolos discretos —los componentes fundamentales de la cognición humana— sigue siendo una cuestión abierta y crítica. A diferencia de los datos visuales continuos, símbolos como fórmulas matemáticas, estructuras químicas y caracteres lingüísticos requieren una interpretación precisa y más profunda. Este artículo presenta un benchmark integral para evaluar cómo los MLLMs de primer nivel navegan por estos "espacios semánticos discretos" en cinco dominios: lenguaje, cultura, matemáticas, física y química. Nuestra investigación descubre un fenómeno contraintuitivo: los modelos a menudo fallan en el reconocimiento básico de símbolos, pero tienen éxito en tareas de razonamiento complejas, lo que sugiere que dependen de la probabilidad lingüística en lugar de una verdadera percepción visual. Al exponer este "desajuste cognitivo", destacamos una brecha significativa en las capacidades actuales de la IA: la dificultad para percibir y comprender verdaderamente los lenguajes simbólicos que sustentan el descubrimiento científico y el pensamiento abstracto. Este trabajo ofrece una hoja de ruta para desarrollar sistemas inteligentes más rigurosos y alineados con las capacidades humanas.
Los avances recientes extienden las capacidades de los Modelos de Lenguaje Grandes Multimodales (MLLMs) más allá de la respuesta a preguntas visuales estándar, permitiéndoles utilizar herramientas externas para tareas visuales avanzadas. A pesar de este progreso, la ejecución precisa y la composición efectiva de diversas herramientas para tareas complejas siguen siendo un cuello de botella persistente. Limitados por conjuntos de herramientas escasos y trayectorias de uso simples, los puntos de referencia existentes no logran capturar interacciones de herramientas complejas y diversas, quedando cortos en la evaluación del rendimiento de los modelos bajo condiciones prácticas del mundo real. Para cerrar esta brecha, presentamos VisualToolChain-Bench (VTC-Bench), un punto de referencia integral diseñado para evaluar la competencia en el uso de herramientas en los MLLMs. Para alinearse con las pipelines realistas de visión por computadora, nuestro marco presenta 32 operaciones visuales diversas basadas en OpenCV. Este conjunto de herramientas enriquecido permite combinaciones extensas, permitiendo que VTC-Bench evalúe rigurosamente la composición de múltiples herramientas y la ejecución de planes multi-paso de largo horizonte. Para una evaluación precisa, proporcionamos 680 problemas curados estructurados en una jerarquía cognitiva de nueve categorías, cada uno con trayectorias de ejecución de verdad terreno. Experimentos exhaustivos en 19 MLLMs líderes revelan limitaciones críticas en las capacidades agentivas visuales de los modelos actuales. Específicamente, los modelos luchan por adaptarse a conjuntos de herramientas diversos y generalizar a operaciones no vistas, con el modelo líder Gemini-3.0-Pro alcanzando solo un 51% en nuestro punto de referencia. Además, la composición de múltiples herramientas sigue siendo un desafío persistente. Al enfrentar tareas complejas, los modelos tienen dificultades para formular planes de ejecución eficientes, dependiendo en gran medida de un subconjunto reducido y subóptimo de funciones familiares en lugar de seleccionar las herramientas óptimas. Al identificar estos desafíos fundamentales, VTC-Bench establece una línea base rigurosa para guiar el desarrollo de modelos agentivos visuales más generalizados.
La eliminación de objetos en video tiene como objetivo eliminar los objetos dinámicos objetivo y sus efectos visuales, como deformaciones, sombras y reflejos, mientras se restauran fondos perfectos. Los métodos recientes de inpaintin de video y eliminación de objetos basados en difusión pueden eliminar los objetos, pero a menudo tienen dificultades para borrar estos efectos y sintetizar fondos coherentes. Más allá de las limitaciones metodológicas, el progreso se ve frenado además por la falta de un conjunto de datos integral que capture sistemáticamente los efectos comunes de los objetos en diversos entornos para entrenamiento y evaluación. Para abordar esto, presentamos VOR (Video Object Removal), un conjunto de datos a gran escala que proporciona videos emparejados diversos; cada par consiste en un video donde el objeto objetivo está presente con sus efectos y una contraparte donde el objeto y los efectos están ausentes, con máscaras de objeto correspondientes. VOR contiene 60K pares de videos de alta calidad de fuentes capturadas y sintéticas, cubre cinco tipos de efectos y abarca una amplia gama de categorías de objetos, así como escenas dinámicas y complejas con múltiples objetos. Basándonos en VOR, proponemos EffectErase, un método de eliminación de objetos en video consciente de los efectos, que trata la inserción de objetos en video como la tarea auxiliar inversa dentro de un esquema de aprendizaje recíproco. El modelo incluye una guía de región sensible a la tarea que enfoca el aprendizaje en las áreas afectadas y permite un cambio flexible de tarea. Además, incorpora un objetivo de consistencia inserción-eliminación que fomenta comportamientos complementarios y la localización compartida de regiones de efecto y claves estructurales. Entrenado en VOR, EffectErase logra un rendimiento superior en experimentos exhaustivos, ofreciendo una eliminación de efectos de objetos en video de alta calidad en diversos escenarios.
La traducción simultánea de voz a voz (SimulS2S) es fundamental para la comunicación multilingüe en tiempo real, con una integración creciente en plataformas de reuniones y transmisión. A pesar de esto, la SimulS2S sigue siendo poco explorada en la investigación, donde las soluciones actuales a menudo dependen de procedimientos de entrenamiento intensivos en recursos y operan con enunciados cortos y pre-segmentados, sin lograr generalizarse al habla continua. Para cerrar esta brecha, proponemos SimulU, la primera política libre de entrenamiento para SimulS2S de formato largo. SimulU adopta estrategias de gestión del historial y selección de salida de voz que aprovechan la atención cruzada en modelos de extremo a extremo preentrenados para regular tanto el historial de entrada como la generación de salida. Las evaluaciones en MuST-C en 8 idiomas muestran que SimulU logra un equilibrio calidad-latencia igual o mejor frente a fuertes modelos en cascada. Al eliminar la necesidad de entrenamiento específico, SimulU ofrece un camino prometedor hacia la SimulS2S de extremo a extremo en escenarios realistas y de formato largo.
Los Modelos de Lenguaje-Visión (VLMs) han demostrado ser ciegos, subutilizando a menudo sus entradas visuales incluso en tareas que requieren razonamiento visual. En este trabajo, demostramos que los VLMs son selectivamente ciegos. Modulan la cantidad de atención aplicada a las entradas visuales en función del encuadre lingüístico, incluso cuando encuadres alternativos exigen un razonamiento visual idéntico. Utilizando la atención visual como sonda, cuantificamos cómo el encuadre altera tanto la cantidad como la distribución de la atención sobre la imagen. Los encuadres restrictivos, como opción múltiple y sí/no, inducen una atención sustancialmente menor al contexto de la imagen en comparación con los encuadres abiertos, reducen el enfoque en las regiones relevantes para la tarea y desplazan la atención hacia tokens no informativos. Demostramos además que esta mala asignación de la atención es la causa principal de la degradación de la precisión y la inconsistencia entre diferentes encuadres. Basándonos en esta comprensión mecanicista, introducimos un método ligero de ajuste por prompts que utiliza tokens aprendibles para fomentar los patrones de atención robustos y visualmente fundamentados observados en entornos de respuesta abierta, mejorando la fundamentación visual y el rendimiento en todos los encuadres.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han logrado un progreso impresionante en la conexión entre visión y lenguaje, pero aún presentan dificultades en la comprensión espacial y el razonamiento consciente del punto de vista. Los esfuerzos recientes buscan aumentar las representaciones de entrada con indicios geométricos en lugar de enseñar explícitamente a los modelos a razonar en el espacio 3D. Presentamos Loc3R-VLM, un marco que dota a los Modelos de Lenguaje Visual 2D con capacidades avanzadas de comprensión 3D a partir de entradas de video monocular. Inspirado por la cognición espacial humana, Loc3R-VLM se basa en dos objetivos conjuntos: la reconstrucción de la disposición global para construir una representación holística de la estructura de la escena, y el modelado explícito de la situación para anclar la perspectiva egocéntrica. Estos objetivos proporcionan una supervisión espacial directa que fundamenta tanto la percepción como el lenguaje en un contexto 3D. Para garantizar la coherencia geométrica y la alineación a escala métrica, aprovechamos *priors* ligeros de pose de cámara extraídos de un modelo fundacional 3D preentrenado. Loc3R-VLM logra un rendimiento de vanguardia en localización basada en lenguaje y supera a los enfoques existentes basados en 2D y video en benchmarks de preguntas y respuestas 3D generales y situadas, demostrando que nuestro marco de supervisión espacial permite una sólida comprensión 3D. Página del proyecto: https://kevinqu7.github.io/loc3r-vlm
Este informe técnico presenta MOSS-TTS, un modelo fundacional de generación de voz construido sobre una receta escalable: tokens de audio discretos, modelado autoregresivo y preentrenamiento a gran escala. Basado en MOSS-Audio-Tokenizer, un tokenizador Transformer causal que comprime audio de 24 kHz a 12.5 fps con RVQ de tasa de bits variable y representaciones unificadas semántico-acústicas, publicamos dos generadores complementarios: MOSS-TTS, que enfatiza la simplicidad estructural, la escalabilidad y el despliegue orientado a contexto largo/control, y MOSS-TTS-Local-Transformer, que introduce un módulo autoregresivo local por frame para una mayor eficiencia de modelado, una mejor preservación del hablante y un menor tiempo para el primer audio. En entornos multilingües y de dominio abierto, MOSS-TTS admite la clonación de voz zero-shot, el control de duración a nivel de token, el control de pronunciación a nivel de fonema/pinyin, el cambio de código fluido y la generación estable de formato largo. Este informe resume el diseño, la receta de entrenamiento y las características empíricas de los modelos publicados.
La capacidad de representar escenas con fidelidad ajustable a partir de un único modelo, conocida como nivel de detalle (LoD), es crucial para el despliegue práctico de *3D Gaussian Splatting* (3DGS). Los métodos existentes de LoD discreto exponen solo un conjunto limitado de puntos de operación, mientras que los enfoques concurrentes de LoD continuo permiten un escalado más suave, pero a menudo sufren una degradación de calidad notable a máxima capacidad, lo que convierte al LoD en una decisión de diseño costosa. Presentamos *Matryoshka Gaussian Splatting* (MGS), un marco de entrenamiento que habilita un LoD continuo para las canalizaciones estándar de 3DGS sin sacrificar la calidad de renderizado a máxima capacidad. MGS aprende un único conjunto ordenado de gaussianas de tal forma que renderizar cualquier prefijo, es decir, las primeras k *splats*, produce una reconstrucción coherente cuya fidelidad mejora de forma suave con un presupuesto creciente. Nuestra idea clave es el entrenamiento estocástico por presupuesto: cada iteración muestrea un presupuesto aleatorio de *splats* y optimiza tanto el prefijo correspondiente como el conjunto completo. Esta estrategia requiere solo dos pasadas hacia adelante y no introduce modificaciones arquitectónicas. Los experimentos en cuatro benchmarks y seis líneas base muestran que MGS iguala el rendimiento a máxima capacidad de su modelo base, al mismo tiempo que permite una compensación continua entre velocidad y calidad a partir de un único modelo. Amplias ablaciones sobre estrategias de ordenación, objetivos de entrenamiento y capacidad del modelo validan además los diseños.
Los agentes de LLM multi-turn son cada vez más importantes para resolver tareas complejas e interactivas, y el aprendizaje por refuerzo (RL) es un componente clave para mejorar su comportamiento de horizonte largo. Sin embargo, el entrenamiento con RL requiere generar grandes cantidades de trayectorias de rollout en entornos aislados (sandbox), y las infraestructuras existentes a menudo acoplan la orquestación de rollouts con el bucle de entrenamiento, lo que dificulta la migración y el mantenimiento de los sistemas. Bajo la filosofía de rollout-como-servicio, presentamos ProRL Agent, una infraestructura escalable que sirve el ciclo de vida completo de rollout agéntico a través de un servicio API. ProRL Agent también proporciona entornos sandbox estandarizados y extensibles que admiten diversas tareas agénticas en entornos HPC sin privilegios de root. Validamos ProRL Agent mediante entrenamiento con RL en tareas de ingeniería de software, matemáticas, STEM y codificación. ProRL Agent es de código abierto y está integrado como parte de NVIDIA NeMo Gym.
La regulación del ratio de importancia es crítica para la estabilidad del entrenamiento en frameworks basados en la Optimización de Políticas de Grupo Relativo (GRPO). Sin embargo, los métodos predominantes de control del ratio, como el recorte abrupto (hard clipping), adolecen de límites no diferenciables y regiones de gradiente vanishing, lo que les impide mantener la fidelidad del gradiente. Además, estos métodos carecen de un mecanismo consciente del riesgo (hazard-aware) para suprimir adaptativamente las desviaciones extremas, dejando el proceso de optimización vulnerable a cambios abruptos en la política. Para abordar estos desafíos, proponemos la Optimización de Políticas con Modulación y Conciencia del Riesgo (MHPO), un novedoso framework diseñado para el aprendizaje por refuerzo robusto y estable. El MHPO propuesto introduce un Modulador de Log-Fidelidad (LFM) para mapear los ratios de importancia no acotados en un dominio acotado y diferenciable. Este mecanismo previene efectivamente que los tokens atípicos de alta varianza desestabilicen el panorama de pérdida (loss landscape), garantizando al mismo tiempo la estabilidad global del gradiente. De forma complementaria, una Penalización de Riesgo Desacoplada (DHP) integra funciones de riesgo acumulado del análisis de supervivencia para regular independientemente los cambios de política positivos y negativos. Al modelar el panorama de optimización con penalizaciones conscientes del riesgo, el MHPO propuesto logra una regulación de grano fino de los cambios de política asimétricos, mitigando simultáneamente el colapso modal por sobreexpansión y previniendo la erosión de la política por contracción catastrófica dentro de una región de confianza estabilizada. Evaluaciones exhaustivas en diversos benchmarks de razonamiento, tanto en tareas basadas en texto como de lenguaje visual, demuestran que MHPO supera consistentemente a los métodos existentes, logrando un rendimiento superior mientras mejora significativamente la estabilidad del entrenamiento.
Los Modelos de Visión-Lenguaje (VLM) adaptados a la teledetección dependen en gran medida de la supervisión imagen-texto específica del dominio; sin embargo, las anotaciones de alta calidad para imágenes de satélite y aéreas siguen siendo escasas y costosas de producir. Los flujos de trabajo predominantes de pseudoetiquetado abordan esta brecha destilando conocimiento de grandes modelos de frontera, pero esta dependencia de grandes modelos "maestros" es costosa, limita la escalabilidad y establece un techo de rendimiento en el nivel del modelo maestro. Proponemos OSMDA: un marco de adaptación de dominio autónomo que elimina esta dependencia. Nuestra idea clave es que un VLM base competente puede servir como su propio motor de anotación: al emparejar imágenes aéreas con teselas renderizadas de OpenStreetMap (OSM), aprovechamos las capacidades de reconocimiento óptico de caracteres y comprensión de gráficos del modelo para generar descripciones enriquecidas con los vastos metadatos auxiliares de OSM. Luego, el modelo se ajusta finamente sobre el corpus resultante utilizando únicamente imágenes de satélite, dando lugar a OSMDA-VLM, un VLM adaptado al dominio que no requiere etiquetado manual ni modelos externos más potentes. Realizamos evaluaciones exhaustivas que abarcan 10 puntos de referencia en tareas de imagen-texto-a-texto y comparamos con 9 líneas base competitivas. Cuando se mezcla equitativamente con datos reales, nuestro método logra resultados de vanguardia, siendo sustancialmente más económico de entrenar que las alternativas dependientes de un modelo maestro. Estos resultados sugieren que, dado un modelo base sólido, la alineación con datos geográficos de origen colectivo es un camino práctico y escalable hacia la adaptación de dominio en teledetección. El conjunto de datos y los pesos del modelo se pondrán a disposición pública.
La capacidad de derivar objetos matemáticos con precisión es un requisito fundamental para aplicaciones STEM posteriores, incluyendo matemáticas, física y química, donde el razonamiento debe culminar en expresiones formalmente estructuradas. Sin embargo, las evaluaciones actuales de LM sobre razonamiento matemático y científico dependen en gran medida de formatos de respuesta simplificados, como valores numéricos u opciones de selección múltiple, debido a la conveniencia de la evaluación automatizada. En este artículo presentamos tres contribuciones para mejorar el razonamiento sobre objetos matemáticos: (i) construimos y publicamos datos de entrenamiento y puntos de referencia para derivar objetos matemáticos, el conjunto *Principia*; (ii) proporcionamos recetas de entrenamiento con jueces y verificadores LLM robustos, donde demostramos que el entrenamiento de jueces *on-policy* mejora el rendimiento; (iii) mostramos cómo el entrenamiento *on-policy* también puede usarse para escalar el cómputo en tiempo de prueba mediante agregación. Encontramos que LM robustos como Qwen3-235B y o3 tienen dificultades con *Principia*, mientras que nuestras recetas de entrenamiento pueden lograr mejoras significativas sobre diferentes arquitecturas LLM base, mejorando simultáneamente los resultados en tareas numéricas y de MCQA existentes, lo que demuestra una generalización transversal de formatos en las habilidades de razonamiento.
La identificación de objetos potenciales es fundamental para el reconocimiento y análisis de objetos en diversas aplicaciones de visión por computador. Los métodos existentes suelen localizar objetos potenciales basándose en imágenes ejemplares, categorías predefinidas o descripciones textuales. Sin embargo, su dependencia de indicaciones (prompts) de imagen y texto a menudo limita la flexibilidad, restringiendo la adaptabilidad en escenarios del mundo real. En este artículo, presentamos una novedosa Red de Propuesta de Regiones Universal Libre de Prompts (PF-RPN), que identifica objetos potenciales sin depender de indicaciones externas. Primero, el módulo Adaptador Consciente de Imagen Dispersa (SIA) realiza una localización inicial de objetos potenciales utilizando una incrustación (embedding) de consulta entrenable que se actualiza dinámicamente con características visuales. A continuación, el módulo de Auto-Indicación en Cascada (CSP) identifica los objetos potenciales restantes aprovechando la incrustación entrenable auto-inducida, agregando autónomamente características visuales informativas de manera cascada. Finalmente, el módulo de Selección de Consultas Guiada por Centralidad (CG-QS) facilita la selección de incrustaciones de consulta de alta calidad utilizando una red de puntuación de centralidad. Nuestro método puede optimizarse con datos limitados (por ejemplo, el 5% de los datos de MS COCO) y aplicarse directamente a varios dominios de aplicación de detección de objetos para identificar objetos potenciales sin ajuste fino, como la detección de objetos submarinos, la detección de defectos industriales y la detección de objetos en imágenes de teledetección. Los resultados experimentales en 19 conjuntos de datos validan la efectividad de nuestro método. El código está disponible en https://github.com/tangqh03/PF-RPN.
La detección de anomalías lógicas en inspección industrial sigue siendo un reto debido a las variaciones en la apariencia visual (por ejemplo, desorden del fondo, cambios de iluminación y desenfoque), que a menudo distraen a los detectores centrados en visión de identificar violaciones a nivel de reglas. Sin embargo, los puntos de referencia existentes rara vez proporcionan entornos controlados donde los estados lógicos se mantengan fijos mientras varían dichos factores de perturbación. Para abordar esta brecha, presentamos VID-AD, un conjunto de datos para la detección de anomalías lógicas bajo distracción inducida por visión. Comprende 10 escenarios de fabricación y cinco condiciones de captura, totalizando 50 tareas de clase única y 10.395 imágenes. Cada escenario se define mediante dos restricciones lógicas seleccionadas entre cantidad, longitud, tipo, ubicación y relación, incluyendo las anomalías tanto violaciones de restricción única como combinadas. Además, proponemos un marco de detección de anomalías basado en lenguaje que depende únicamente de descripciones textuales generadas a partir de imágenes normales. Utilizando aprendizaje contrastivo con textos positivos y textos negativos basados en contradicción sintetizados a partir de estas descripciones, nuestro método aprende representaciones embebidas que capturan atributos lógicos en lugar de características de bajo nivel. Experimentos exhaustivos demuestran mejoras consistentes respecto a los baselines en todos los entornos evaluados. El conjunto de datos está disponible en: https://github.com/nkthiroto/VID-AD.
Presentamos MultiTempBench, un benchmark multilingüe de razonamiento temporal que abarca tres tareas: aritmética de fechas, conversión de zonas horarias y extracción de relaciones temporales en cinco idiomas (inglés, alemán, chino, árabe y hausa) y múltiples convenciones calendáricas (gregoriano, hijri y calendario lunar chino). MultiTempBench contiene 15.000 ejemplos construidos mediante la traducción de 750 preguntas en inglés curadas y la expansión de cada una en variantes controladas de formato de fecha. Evaluamos 20 LLM e introducimos la Ratio de Fragmentación de Fechas multilingüe (mDFR), calibrada con valoraciones de severidad humanas, junto con análisis de *geometric-probing* de las representaciones temporales internas. Encontramos que la calidad de la tokenización de artefactos temporales es un cuello de botella dependiente de los recursos: en idiomas de bajos recursos y formatos de calendario más raros, la fragmentación interrumpe la separación Año/Mes/Día y la precisión colapsa, mientras que los entornos de altos recursos suelen ser robustos ante la división a nivel de dígitos. Más allá de la tokenización, una regresión de efectos mixtos cruzada muestra que la linealidad temporal es el predictor más fuerte del razonamiento temporal en idiomas de altos recursos, mientras que la fragmentación es el predictor más fuerte en idiomas de bajos recursos. El código está disponible en: https://github.com/gagan3012/mtb
El persa plantea desafíos únicos de comprensión auditiva a través de su poesía clásica, música tradicional y la omnipresente alternancia de códigos, ninguno de los cuales está capturado por los puntos de referencia existentes. Presentamos PARSA-Bench (Punto de Referencia para la Evaluación del Razonamiento Auditivo y del Habla en Persa), el primer benchmark para evaluar modelos grandes de audio y lenguaje en la lengua y cultura persas, que comprende 16 tareas y más de 8.000 muestras en comprensión del habla, análisis paralingüístico y comprensión de audio cultural. Se introducen diez tareas nuevas, incluyendo la detección de metro y estilo poético, la comprensión de la música tradicional persa y la detección de alternancia de códigos. Los modelos de referencia basados únicamente en texto superan consistentemente a sus homólogos de audio, lo que sugiere que los modelos podrían no estar aprovechando la información específica del audio más allá de lo que proporciona únicamente la transcripción. Las tareas con base cultural exponen un modo de fallo cualitativamente distinto: todos los modelos tienen un rendimiento cercano al azar en la detección del *vazn*, independientemente de su escala, lo que sugiere que la percepción prosódica sigue estando fuera del alcance de los modelos actuales. El conjunto de datos está disponible públicamente en https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.
Presentamos COT-FM, un marco general que redefine la trayectoria de probabilidad en Flow Matching (FM) para lograr una generación más rápida y fiable. Los modelos FM a menudo producen trayectorias curvas debido a acoplamientos aleatorios o por lotes, lo que incrementa el error de discretización y reduce la calidad de las muestras. COT-FM soluciona este problema agrupando las muestras objetivo y asignando a cada grupo una distribución de origen dedicada, obtenida mediante la inversión de modelos FM preentrenados. Esta estrategia divide y venceras produce un transporte local más preciso y campos vectoriales significativamente más rectos, todo ello sin modificar la arquitectura del modelo. Como enfoque plug-and-play, COT-FM acelera consistentemente el muestreo y mejora la calidad de generación en conjuntos de datos 2D, benchmarks de generación de imágenes y tareas de manipulación robótica.
Comprender y generar objetos 3D como composiciones de partes significativas es fundamental para la percepción y el razonamiento humanos. Sin embargo, la mayoría de los métodos de texto-a-3D pasan por alto la estructura semántica y funcional de las partes. Si bien los enfoques recientes conscientes de las partes introducen la descomposición, se centran principalmente en la geometría, carecen de una base semántica y no logran modelar cómo las partes se alinean con las descripciones textuales o sus relaciones internas. Proponemos DreamPartGen, un marco para la generación de texto-a-3D con base semántica y consciente de las partes. DreamPartGen introduce Latentes de Partes Duplex (DPLs) que modelan conjuntamente la geometría y la apariencia de cada parte, y Latentes Semánticos Relacionales (RSLs) que capturan las dependencias entre partes derivadas del lenguaje. Un proceso de co-difuminado sincronizado impone una consistencia mutua geométrica y semántica, permitiendo una síntesis 3D coherente, interpretable y alineada con el texto. En múltiples benchmarks, DreamPartGen ofrece un rendimiento de vanguardia en fidelidad geométrica y alineación texto-forma.
Los Modelos de Lenguaje a Gran Escala (LLMs) han demostrado una capacidad notable en la traducción automática para pares de idiomas de altos recursos, pero su rendimiento en la traducción de bajos recursos aún se queda atrás. Los métodos existentes de post-entrenamiento dependen en gran medida de datos paralelos de alta calidad, que a menudo son escasos o no están disponibles para idiomas de bajos recursos. En este artículo, presentamos WALAR, un método de entrenamiento por refuerzo que utiliza únicamente texto monolingüe para elevar las capacidades de traducción de los LLMs en una gran cantidad de idiomas de bajos recursos, manteniendo al mismo tiempo su rendimiento en idiomas de altos recursos. Nuestra idea clave se basa en la observación de modos de fallo (o "lagunas") en los modelos existentes de estimación de calidad multilingüe basados en la fuente (QE). El aprendizaje por refuerzo (RL) que utiliza estos modelos QE tiende a amplificar dichas lagunas, dando como resultado LLMs multilingües más deficientes. Desarrollamos técnicas que incluyen alineación de palabras y alineación de idiomas para mitigar tales lagunas en la recompensa de WALAR para el entrenamiento de RL. Entrenamos de forma continua un LLM que soporta la traducción de 101 idiomas utilizando WALAR. Los experimentos muestran que nuestro nuevo modelo supera a LLaMAX, uno de los LLMs multilingües de código abierto más sólidos, por un amplio margen en 1400 direcciones de idiomas en el conjunto de datos Flores-101.