Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de video de base generan contenido visualmente realista y temporalmente coherente, pero su fiabilidad como simuladores del mundo depende de si capturan las restricciones físicas, lógicas y espaciales. Métricas existentes como la Distancia de Fréchet de Video (FVD) enfatizan la calidad perceptual y pasan por alto fallos de razonamiento, incluyendo violaciones de la causalidad, la física y la coherencia global. Presentamos MMGR (Evaluación y Punto de Referencia de Razonamiento Generativo Multimodal), un marco de evaluación fundamentado en cinco habilidades de razonamiento: Físico, Lógico, Espacial 3D, Espacial 2D y Temporal. MMGR evalúa el razonamiento generativo en tres dominios: Razonamiento Abstracto (ARC-AGI, Sudoku), Navegación Corporizada (navegación y localización en 3D del mundo real) y Sentido Común Físico (deportes e interacciones composicionales). MMGR aplica métricas de grano fino que requieren corrección holística tanto en la generación de video como de imagen. Evaluamos modelos de video líderes (Veo-3, Sora-2, Wan-2.2) y modelos de imagen (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), revelando fuertes brechas de rendimiento entre dominios. Los modelos muestran un éxito moderado en tareas de Sentido Común Físico pero rinden pobremente en Razonamiento Abstracto (por debajo del 10% de precisión en ARC-AGI) y tienen dificultades con la planificación espacial de largo horizonte en entornos corporizados. Nuestro análisis destaca limitaciones clave en los modelos actuales, incluyendo una excesiva dependencia de datos perceptuales, una débil coherencia del estado global y objetivos que premian la plausibilidad visual sobre la corrección causal. MMGR ofrece un punto de referencia unificado para diagnóstico y un camino hacia modelos generativos del mundo conscientes del razonamiento.
Los recientes avances en generación de vídeo han producido contenidos vívidos que a menudo son indistinguibles de vídeos reales, convirtiendo la detección de vídeos generados por IA en un desafío social emergente. Los benchmarks de detección AIGC anteriores evalúan principalmente vídeos sin audio, se centran en dominios narrativos amplios y se limitan a la clasificación. Sin embargo, sigue sin estar claro si los modelos de generación de vídeo más avanzados pueden producir vídeos inmersivos con audio que engañen de forma fiable a humanos y a Modelos de Lenguaje Visual (VLM). Para ello, presentamos Video Reality Test, un conjunto de benchmarks de vídeo basado en ASMR para evaluar el realismo perceptual bajo un estrecho acoplamiento audiovisual, que presenta las siguientes dimensiones: (i) Fuentes de vídeo-audio ASMR inmersivas. Construido a partir de vídeos ASMR reales cuidadosamente seleccionados, el benchmark se centra en interacciones objeto-acción de grano fino con diversidad en objetos, acciones y fondos. (ii) Evaluación por pares. Un protocolo adversario creador-revisor donde los modelos de generación de vídeo actúan como creadores que intentan engañar a los revisores, mientras que los VLMs sirven como revisores que buscan identificar la falsedad. Nuestros hallazgos experimentales muestran: El mejor creador, Veo3.1-Fast, engaña incluso a la mayoría de los VLMs: el revisor más fuerte (Gemini 2.5-Pro) alcanza solo un 56% de precisión (aleatorio 50%), muy por debajo de la de expertos humanos (81.25%). Añadir audio mejora la discriminación real-falso, pero señales superficiales como marcas de agua aún pueden engañar significativamente a los modelos. Estos hallazgos delinean el límite actual del realismo en la generación de vídeo y exponen las limitaciones de los VLMs en fidelidad perceptual y consistencia audiovisual. Nuestro código está disponible en https://github.com/video-reality-test/video-reality-test.
Este artículo presenta WorldPlay, un modelo de difusión de vídeo en streaming que permite el modelado de mundos interactivo en tiempo real con consistencia geométrica a largo plazo, resolviendo el compromiso entre velocidad y memoria que limita los métodos actuales. WorldPlay obtiene su potencia de tres innovaciones clave. 1) Utilizamos una Representación de Acción Dual para permitir un control de acciones robusto en respuesta a las entradas de teclado y ratón del usuario. 2) Para garantizar la consistencia a largo plazo, nuestra Memoria de Contexto Reconstituido reconstruye dinámicamente el contexto a partir de fotogramas pasados y utiliza el reencuadre temporal para mantener accesibles los fotogramas geométricamente importantes pero muy antiguos, aliviando eficazmente la atenuación de la memoria. 3) También proponemos Context Forcing, un novedoso método de destilación diseñado para modelos conscientes de la memoria. Alinear el contexto de la memoria entre el profesor y el estudiante preserva la capacidad del estudiante para utilizar información de largo alcance, permitiendo velocidades en tiempo real y evitando la deriva de errores. En conjunto, WorldPlay genera vídeo en streaming de larga duración a 720p y 24 FPS con una consistencia superior, comparándose favorablemente con las técnicas existentes y mostrando una fuerte generalización en diversas escenas. La página del proyecto y la demo en línea se pueden encontrar en: https://3d-models.hunyuan.tencent.com/world/ y https://3d.hunyuan.tencent.com/sceneTo3D.
La generación de imágenes guiada por sujetos ha evolucionado de la composición con un solo sujeto a múltiples sujetos, pero ha descuidado la distinción: la capacidad de identificar y generar el sujeto correcto cuando las entradas contienen múltiples candidatos. Esta limitación restringe su eficacia en entornos visuales complejos y realistas. Proponemos Scone, un método unificado de comprensión-generación que integra composición y distinción. Scone permite que el experto en comprensión actúe como puente semántico, transmitiendo información semántica y guiando al experto en generación para preservar la identidad del sujeto mientras minimiza la interferencia. Un esquema de entrenamiento en dos etapas primero aprende la composición, luego mejora la distinción mediante alineación semántica y enmascaramiento basado en atención. También presentamos SconeEval, un benchmark para evaluar tanto la composición como la distinción en diversos escenarios. Los experimentos demuestran que Scone supera a los modelos de código abierto existentes en tareas de composición y distinción en dos benchmarks. Nuestro modelo, benchmark y datos de entrenamiento están disponibles en: https://github.com/Ryann-Ran/Scone.
El rastreo espacial, como habilidad fundamental de interacción corporeizada para robots, es inherentemente complejo ya que requiere razonamiento métrico multi-etapa combinado con referencias espaciales complejas y mediciones métricas del mundo real. Sin embargo, los métodos existentes tienen dificultades con esta tarea composicional. Para ello, proponemos RoboTracer, un VLM con conciencia 3D que logra por primera vez tanto la referencia como la medición espacial 3D mediante un codificador espacial universal y un decodificador supervisado por regresión para mejorar la conciencia de escala durante el ajuste fino supervisado (SFT). Además, RoboTracer avanza en el razonamiento métrico multi-etapa mediante ajuste fino por refuerzo (RFT) con recompensas de proceso sensibles a la métrica, supervisando pistas perceptivas intermedias clave para generar trazas espaciales con precisión. Para respaldar el entrenamiento SFT y RFT, presentamos TraceSpatial, un conjunto de datos a gran escala de 30 millones de pares de preguntas y respuestas, que abarca escenarios exteriores/interiores/de mesa y soporta procesos de razonamiento complejos (hasta 9 etapas). Además, presentamos TraceSpatial-Bench, un benchmark desafiante que llena el vacío para evaluar el rastreo espacial. Los resultados experimentales muestran que RoboTracer supera a los métodos base en comprensión, medición y referencia espacial, con una tasa de éxito promedio del 79.1%, y también logra un rendimiento de vanguardia en TraceSpatial-Bench por un amplio margen, superando a Gemini-2.5-Pro en un 36% de precisión. Cabe destacar que RoboTracer puede integrarse con diversas políticas de control para ejecutar tareas dinámicas de largo horizonte en diversos robots (UR5, humanoide G1) en escenarios realistas desordenados.
La rápida evolución de los Modelos de Lenguaje a Gran Escala (LLMs) depende de la calidad y diversidad de los conjuntos de datos de post-entrenamiento. Sin embargo, persiste una dicotomía crítica: mientras que los modelos son rigurosamente evaluados comparativamente, los datos que los alimentan permanecen como una caja negra, caracterizada por una composición opaca, una procedencia incierta y una falta de evaluación sistemática. Esta opacidad dificulta la reproducibilidad y oscurece el vínculo causal entre las características de los datos y los comportamientos del modelo. Para cerrar esta brecha, presentamos OpenDataArena (ODA), una plataforma holística y abierta diseñada para evaluar el valor intrínseco de los datos de post-entrenamiento. ODA establece un ecosistema integral que comprende cuatro pilares clave: (i) una canalización unificada de entrenamiento-evaluación que garantiza comparaciones justas y abiertas entre diversos modelos (por ejemplo, Llama, Qwen) y dominios; (ii) un marco de puntuación multidimensional que perfila la calidad de los datos a lo largo de decenas de ejes distintos; (iii) un explorador interactivo de linaje de datos para visualizar la genealogía de los conjuntos de datos y diseccionar las fuentes componentes; y (iv) un kit de herramientas completamente de código abierto para entrenamiento, evaluación y puntuación, con el fin de fomentar la investigación de datos. Experimentos exhaustivos en ODA—que abarcan más de 120 conjuntos de datos de entrenamiento en múltiples dominios sobre 22 puntos de referencia, validados por más de 600 ejecuciones de entrenamiento y 40 millones de puntos de datos procesados—revelan hallazgos no triviales. Nuestro análisis descubre las compensaciones inherentes entre la complejidad de los datos y el rendimiento de la tarea, identifica redundancias en puntos de referencia populares mediante el rastreo de linaje, y traza las relaciones genealógicas entre conjuntos de datos. Liberamos todos los resultados, herramientas y configuraciones para democratizar el acceso a la evaluación de datos de alta calidad. En lugar de simplemente expandir una tabla de clasificación, ODA vislumbra un cambio desde la curación de datos por ensayo y error hacia una ciencia fundamentada de la IA Centrada en Datos, allanando el camino para estudios rigurosos sobre las leyes de mezcla de datos y la composición estratégica de los modelos fundacionales.
La Búsqueda por Similitud de Vectores (VSS) en espacios de alta dimensionalidad está emergiendo rápidamente como una funcionalidad central en los sistemas de bases de datos de próxima generación para numerosos servicios intensivos en datos, desde las búsquedas de *embeddings* en modelos de lenguaje extenso (LLM), hasta la recuperación semántica de información y los motores de recomendación. Sin embargo, los puntos de referencia actuales evalúan la VSS principalmente en la disyuntiva *recall*-latencia frente a una verdad fundamental definida únicamente por métricas de distancia, descuidando cómo la calidad de la recuperación impacta finalmente en las tareas posteriores. Esta desconexión puede inducir a error tanto a la investigación académica como a la práctica industrial. Presentamos Iceberg, un conjunto de puntos de referencia holístico para la evaluación integral de métodos VSS en contextos de aplicación realistas. Desde una perspectiva centrada en la tarea, Iceberg descubre el *Embudo de Pérdida de Información*, que identifica tres fuentes principales de degradación del rendimiento integral: (1) la **Pérdida de *Embeddings*** durante la extracción de características; (2) el **Uso Inadecuado de Métricas**, donde las distancias reflejan pobremente la relevancia para la tarea; y (3) la **Sensibilidad a la Distribución de Datos**, que resalta la robustez de los índices frente a sesgos y modalidades. Para una evaluación más completa, Iceberg abarca ocho conjuntos de datos diversos en dominios clave como clasificación de imágenes, reconocimiento facial, recuperación de texto y sistemas de recomendación. Cada conjunto de datos, que varía de 1M a 100M de vectores, incluye etiquetas y métricas de evaluación ricas y específicas de la tarea, permitiendo valorar los algoritmos de recuperación dentro de la pipeline completa de la aplicación y no de forma aislada. Iceberg evalúa 13 métodos VSS de vanguardia y los reclasifica basándose en métricas a nivel de aplicación, revelando desviaciones sustanciales con respecto a las clasificaciones tradicionales derivadas únicamente de evaluaciones de *recall*-latencia. Basándonos en estas observaciones, definimos un conjunto de meta-características centradas en la tarea y derivamos un árbol de decisión interpretable para guiar a los profesionales en la selección y ajuste de métodos VSS para sus cargas de trabajo específicas.
Los Gráficos Vectoriales Escalables (SVG) son fundamentales para el diseño web moderno, y la demanda para animarlos continúa creciendo a medida que los entornos web se vuelven cada vez más dinámicos. Sin embargo, automatizar la animación de gráficos vectoriales sigue siendo un desafío para los modelos de visión y lenguaje (VLM), a pesar de los recientes avances en generación de código y planificación de movimiento. Los VLM manejan rutinariamente los SVG de forma incorrecta, ya que las partes visualmente coherentes a menudo se fragmentan en formas de bajo nivel que ofrecen poca orientación sobre qué elementos deberían moverse juntos. En este artículo, presentamos un marco de trabajo que recupera la estructura semántica necesaria para una animación SVG confiable y revela la capa faltante que los sistemas VLM actuales pasan por alto. Esto se logra mediante una agregación estadística de múltiples predicciones débiles de partes, permitiendo que el sistema infiera semántica de manera estable a partir de predicciones ruidosas. Al reorganizar los SVG en grupos semánticos, nuestro enfoque permite a los VLM producir animaciones con una coherencia muy superior. Nuestros experimentos demuestran mejoras sustanciales respecto a los enfoques existentes, lo que sugiere que la recuperación semántica es el paso clave que desbloquea la animación SVG robusta y favorece interacciones más interpretables entre los VLM y los gráficos vectoriales.
El principal desafío para la generación de video en streaming es mantener la coherencia del contenido en contextos largos, lo que impone altos requisitos en el diseño de la memoria. La mayoría de las soluciones existentes mantienen la memoria comprimiendo los fotogramas históricos mediante estrategias predefinidas. Sin embargo, los diferentes fragmentos de video a generar deberían hacer referencia a distintas claves históricas, algo difícil de satisfacer con estrategias fijas. En este trabajo, proponemos MemFlow para abordar este problema. Específicamente, antes de generar el siguiente fragmento, actualizamos dinámicamente el banco de memoria recuperando los fotogramas históricos más relevantes utilizando la indicación textual de dicho fragmento. Este diseño permite una coherencia narrativa incluso si ocurren nuevos eventos o hay cambios de escenario en fotogramas futuros. Además, durante la generación, solo activamos los tokens más relevantes en el banco de memoria para cada consulta en las capas de atención, lo que garantiza eficazmente la eficiencia de generación. De esta manera, MemFlow logra una coherencia excepcional en contextos largos con una carga computacional insignificante (una reducción de velocidad del 7.9% en comparación con el baseline sin memoria) y mantiene la compatibilidad con cualquier modelo de generación de video en streaming que utilice KV cache.
El diseño de funciones de recompensa efectivas presenta un desafío central y a menudo arduo en el aprendizaje por refuerzo (RL), particularmente al desarrollar agentes autónomos para tareas de razonamiento complejas. Si bien existen enfoques automatizados de optimización de recompensas, estos típicamente dependen de heurísticas evolutivas libres de derivadas que tratan la función de recompensa como una caja negra, sin capturar la relación causal entre la estructura de la recompensa y el rendimiento en la tarea. Para cerrar esta brecha, proponemos el Aprendizaje por Refuerzo Evolutivo Diferenciable (DERL), un marco bi-nivel que permite el descubrimiento autónomo de señales de recompensa óptimas. En DERL, un Meta-Optimizador hace evolucionar una función de recompensa (es decir, una Meta-Recompensa) componiendo primitivas atómicas estructuradas, guiando el entrenamiento de una política de bucle interno. Crucialmente, a diferencia de evoluciones anteriores, DERL es diferenciable en su meta-optimización: trata el rendimiento de validación del bucle interno como una señal para actualizar el Meta-Optimizador mediante aprendizaje por refuerzo. Esto permite a DERL aproximar el "meta-gradiente" del éxito de la tarea, aprendiendo progresivamente a generar retroalimentación más densa y procesable. Validamos DERL en tres dominios distintos: agente robótico (ALFWorld), simulación científica (ScienceWorld) y razonamiento matemático (GSM8k, MATH). Los resultados experimentales muestran que DERL alcanza un rendimiento de vanguardia en ALFWorld y ScienceWorld, superando significativamente a los métodos que dependen de recompensas heurísticas, especialmente en escenarios fuera de distribución. El análisis de la trayectoria evolutiva demuestra que DERL captura con éxito la estructura intrínseca de las tareas, permitiendo una alineación de agentes auto-mejorable sin intervención humana.
Presentamos Olmo 3, una familia de modelos de lenguaje completamente abiertos y de vanguardia en escalas de 7B y 32B de parámetros. La construcción del modelo Olmo 3 se enfoca en el razonamiento de contexto largo, llamadas a funciones, codificación, seguimiento de instrucciones, chat general y recuperación de conocimiento. Esta versión incluye el flujo completo del modelo, es decir, todo el ciclo de vida de la familia de modelos, incluyendo cada etapa, punto de control, dato y dependencia utilizados para construirlo. Nuestro modelo principal, Olmo 3 Think 32B, es el modelo de pensamiento completamente abierto más potente lanzado hasta la fecha.
La construcción de modelos de razonamiento de propósito general con aprendizaje por refuerzo (RL, por sus siglas en inglés) conlleva una heterogeneidad sustancial entre dominios, que incluye una gran variación en las longitudes de respuesta en el momento de la inferencia y en la latencia de verificación. Dicha variabilidad complica la infraestructura de RL, ralentiza el entrenamiento y dificulta la definición del plan de entrenamiento (por ejemplo, la extensión de la longitud de respuesta) y la selección de hiperparámetros. En este trabajo, proponemos el aprendizaje por refuerzo en cascada por dominios (Cascade RL) para desarrollar modelos de razonamiento de propósito general, Nemotron-Cascade, capaces de operar tanto en modo de instrucción como en modo de pensamiento profundo. Alejándonos de los enfoques convencionales que mezclan instrucciones heterogéneas de diferentes dominios, Cascade RL orquesta un RL secuencial por dominios, reduciendo la complejidad de ingeniería y ofreciendo un rendimiento de vanguardia en una amplia gama de benchmarks. Cabe destacar que el RLHF para la alineación, cuando se utiliza como paso previo, potencia la capacidad de razonamiento del modelo mucho más allá de una mera optimización de preferencias, y las etapas posteriores de RLVR por dominios rara vez degradan el rendimiento en los benchmarks alcanzado en dominios anteriores e incluso pueden mejorarlo (véase una ilustración en la Figura 1). Nuestro modelo de 14B, tras el RL, supera a su profesor SFT, DeepSeek-R1-0528, en LiveCodeBench v5/v6/Pro y logra un rendimiento de medalla de plata en la Olimpiada Internacional de Informática (IOI) de 2025. Compartimos de forma transparente nuestras recetas de entrenamiento y datos.
Los grandes modelos de lenguaje (LLM) han demostrado un potencial notable para transformar los sistemas de recomendación, pasando de la coincidencia implícita de patrones de comportamiento al razonamiento explícito de intenciones. Si bien RecGPT-V1 fue pionero con éxito en este paradigma al integrar el razonamiento basado en LLM en la minería de intereses del usuario y la predicción de etiquetas de elementos, adolece de cuatro limitaciones fundamentales: (1) ineficiencia computacional y redundancia cognitiva en múltiples rutas de razonamiento; (2) diversidad explicativa insuficiente en la generación con plantillas fijas; (3) generalización limitada bajo paradigmas de aprendizaje supervisado; y (4) evaluación simplista centrada en resultados que no alcanza estándares humanos. Para abordar estos desafíos, presentamos RecGPT-V2 con cuatro innovaciones clave. Primero, un Sistema Multi-Agente Jerárquico reestructura el razonamiento de intenciones mediante colaboración coordinada, eliminando la duplicación cognitiva y permitiendo una cobertura diversa de intenciones. Combinado con la Inferencia de Representación Híbrida que comprime los contextos de comportamiento del usuario, nuestro marco reduce el consumo de GPU en un 60% y mejora la recuperación exclusiva del 9.39% al 10.99%. Segundo, un marco de Meta-Prompting genera dinámicamente instrucciones adaptativas contextualmente, mejorando la diversidad explicativa en un +7.3%. Tercero, el aprendizaje por refuerzo con restricciones mitiga conflictos multi-recompensa, logrando una mejora del +24.1% en la predicción de etiquetas y del +13.0% en la aceptación de explicaciones. Cuarto, un marco de Agente-como-Juez descompone la evaluación en razonamiento multi-etapa, mejorando la alineación con preferencias humanas. Las pruebas A/B en línea en Taobao demuestran mejoras significativas: +2.98% CTR, +3.71% IPV, +2.19% TV y +11.46% NER. RecGPT-V2 establece tanto la viabilidad técnica como la comercial de implementar el razonamiento de intenciones potenciado por LLM a escala, cerrando la brecha entre la exploración cognitiva y la utilidad industrial.
Si bien los modelos de generación y unificados existentes sobresalen en la generación general de imágenes, presentan dificultades en tareas que requieren razonamiento profundo, planificación y capacidades precisas de mapeo de datos a elementos visuales más allá de escenarios generales. Para superar las limitaciones actuales, presentamos una nueva y desafiante tarea: la visualización creativa de tablas, que requiere que el modelo genere una infografía que visualice de manera fiel y estética los datos de una tabla dada. Para abordar este desafío, proponemos ShowTable, un pipeline que sinergiza MLLMs con modelos de difusión mediante un proceso progresivo de autocorrección. El MLLM actúa como orquestador central para razonar el plan visual y juzgar errores visuales, proporcionando instrucciones refinadas, mientras que el modelo de difusión ejecuta los comandos del MLLM, logrando resultados de alta fidelidad. Para respaldar esta tarea y nuestro pipeline, introducimos tres pipelines automatizados de construcción de datos para entrenar diferentes módulos. Además, presentamos TableVisBench, un nuevo benchmark con 800 instancias desafiantes en 5 dimensiones de evaluación, para valorar el rendimiento en esta tarea. Los experimentos demuestran que nuestro pipeline, instanciado con diferentes modelos, supera significativamente a los baselines, destacando sus eficaces capacidades de razonamiento multimodal, generación y corrección de errores.
Los recientes avances en imagen-a-3D han abierto inmensas posibilidades para el diseño, la realidad aumentada/virtual y la robótica. Sin embargo, para utilizar activos 3D generados por IA en aplicaciones reales, un requisito crítico es la capacidad de editarlos fácilmente. Presentamos un método de propagación directa, Steer3D, para añadir capacidad de dirección mediante texto a los modelos de imagen-a-3D, lo que permite editar activos 3D generados con lenguaje. Nuestro enfoque está inspirado en ControlNet, el cual adaptamos a la generación imagen-a-3D para permitir la dirección textual directamente en un pase hacia adelante. Construimos un motor de datos escalable para la generación automática de datos y desarrollamos una receta de entrenamiento en dos etapas basada en entrenamiento por correspondencia de flujos y Optimización Directa de Preferencias (DPO). En comparación con métodos competidores, Steer3D sigue las instrucciones lingüísticas con mayor fidelidad y mantiene una mejor coherencia con el activo 3D original, siendo además de 2.4x a 28.5x más rápido. Steer3D demuestra que es posible añadir una nueva modalidad (texto) para dirigir la generación de modelos generativos de imagen-a-3D preentrenados con 100k datos. Sitio web del proyecto: https://glab-caltech.github.io/steer3d/
La rápida escalada de los Modelos de Lenguaje a Gran Escala (LLM) ha logrado un rendimiento notable, pero también conlleva costos de memoria prohibitivos. Los enfoques existentes de eficiencia de parámetros, como la poda y la cuantización, comprimen principalmente los modelos preentrenados sin mejorar la capacidad arquitectónica, alcanzando así el límite representacional del modelo base. En este trabajo, proponemos VersatileFFN, una red neuronal de avance (FFN) novedosa que permite la reutilización flexible de parámetros en las dimensiones de anchura y profundidad dentro de un presupuesto fijo de parámetros. Inspirado por la teoría del proceso dual de la cognición, VersatileFFN comprende dos rutas adaptativas: una ruta versátil en anchura que genera una mezcla de sub-expertos a partir de una única FFN compartida, imitando el enrutamiento de expertos dispersos sin aumentar los parámetros, y una ruta versátil en profundidad que aplica recursivamente la misma FFN para emular un procesamiento más profundo para tokens complejos. Un mecanismo de compuerta consciente de la dificultad equilibra dinámicamente las dos rutas, dirigiendo los tokens "fáciles" a través de la ruta eficiente en anchura y asignando un refinamiento iterativo más profundo a los tokens "difíciles". Crucialmente, ambas rutas reutilizan los mismos parámetros, por lo que toda la capacidad adicional proviene del cómputo y no de la memoria. Los experimentos en diversos benchmarks y escalas de modelos demuestran la efectividad del método. El código estará disponible en https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
La predicción de affordances, que identifica regiones de interacción en objetos basándose en instrucciones lingüísticas, es fundamental para la IA corporizada. Los modelos predominantes de extremo a extremo acoplan el razonamiento de alto nivel y la localización de bajo nivel en una única canalización monolítica y dependen del entrenamiento con conjuntos de datos anotados, lo que conduce a una pobre generalización en objetos novedosos y entornos no vistos. En este artículo, vamos más allá de este paradigma proponiendo A4-Agent, un marco agéntico libre de entrenamiento que desacopla la predicción de affordances en una canalización de tres etapas. Nuestro marco coordina modelos de base especializados en tiempo de prueba: (1) un Soñador que emplea modelos generativos para visualizar cómo se vería una interacción; (2) un Pensador que utiliza grandes modelos de visión y lenguaje para decidir qué parte del objeto interactuar; y (3) un Localizador que orquesta modelos de base de visión para ubicar con precisión dónde está el área de interacción. Al aprovechar las fortalezas complementarias de modelos preentrenados sin ninguna fine-tuning específico de la tarea, nuestro marco de cero disparos supera significativamente a los métodos supervisados más avanzados en múltiples benchmarks y demuestra una generalización robusta en entornos del mundo real.
Presentamos SS4D, un modelo generativo nativo 4D que sintetiza objetos 3D dinámicos directamente a partir de vídeo monocular. A diferencia de enfoques anteriores que construyen representaciones 4D optimizando modelos generativos 3D o de vídeo, entrenamos un generador directamente sobre datos 4D, logrando alta fidelidad, coherencia temporal y consistencia estructural. El núcleo de nuestro método es un conjunto comprimido de latentes estructurados en el espacio-tiempo. Específicamente, (1) Para abordar la escasez de datos de entrenamiento 4D, nos basamos en un modelo preentrenado de imagen única a 3D, preservando una fuerte consistencia espacial. (2) La coherencia temporal se aplica introduciendo capas temporales dedicadas que razonan entre fotogramas. (3) Para permitir un entrenamiento e inferencia eficientes en secuencias de vídeo largas, comprimimos la secuencia latente a lo largo del eje temporal utilizando convoluciones 4D factorizadas y bloques de submuestreo temporal. Además, empleamos una estrategia de entrenamiento cuidadosamente diseñada para mejorar la robustez frente a oclusiones.
Los Modelos de Difusión Discreta Enmascarada (MDM) han logrado un rendimiento sólido en una amplia gama de tareas multimodales, incluyendo comprensión, generación y edición de imágenes. Sin embargo, su velocidad de inferencia sigue siendo subóptima debido a la necesidad de procesar repetidamente tokens enmascarados redundantes en cada paso de muestreo. En este trabajo, proponemos Sparse-LaViDa, un novedoso marco de modelado que trunca dinámicamente los tokens enmascarados innecesarios en cada paso de inferencia para acelerar el muestreo de MDM. Para preservar la calidad de la generación, introducimos tokens de registro especializados que sirven como representaciones compactas de los tokens truncados. Además, para garantizar la coherencia entre el entrenamiento y la inferencia, diseñamos una máscara de atención especializada que se ajusta fielmente al procedimiento de muestreo truncado durante el entrenamiento. Basado en el MDM unificado de última generación LaViDa-O, Sparse-LaViDa logra una aceleración de hasta 2x en diversas tareas, incluyendo generación de texto a imagen, edición de imágenes y razonamiento matemático, manteniendo la calidad de la generación.
La cuantización no paramétrica ha recibido mucha atención debido a su eficiencia en parámetros y escalabilidad a libros de códigos grandes. En este artículo, presentamos una formulación unificada de diferentes métodos de cuantización no paramétricos a través de la lente de la codificación de retículos. La geometría de los códigos de retículo explica la necesidad de términos de pérdida auxiliares al entrenar auto-codificadores con ciertas variantes libres de búsqueda existentes, como BSQ. Como un paso adelante, exploramos algunos candidatos posibles, incluyendo retículos aleatorios, retículos generalizados de Fibonacci y retículos de empaquetamiento de esferas más denso. Entre todos, encontramos que el método de cuantización basado en el retículo de Leech, denominado Cuantización Esférica de Leech (Λ_{24}-SQ), conduce tanto a una receta de entrenamiento simplificada como a una mejora en la compensación reconstrucción-compresión, gracias a su alta simetría y distribución uniforme en la hiperesfera. En tareas de tokenización y compresión de imágenes, este enfoque de cuantización logra una mejor calidad de reconstrucción en todas las métricas que BSQ, el mejor arte previo, mientras consume ligeramente menos bits. La mejora también se extiende a los marcos de generación de imágenes auto-regresivos de última generación.
Los modelos de lenguaje de difusión (dLM) han surgido como un paradigma prometedor que permite una generación paralela y no autoregresiva, pero su eficiencia de aprendizaje se queda por detrás de la de los modelos de lenguaje autoregresivos (AR) cuando se entrenan desde cero. Con este fin, estudiamos la conversión de AR a dLM para transformar modelos AR preentrenados en dLM eficientes que sobresalen en velocidad mientras preservan la precisión en tareas de los modelos AR. Logramos esto identificando las limitaciones en los patrones de atención y los objetivos de los métodos existentes de conversión AR a dLM, y luego proponiendo principios y metodologías para una conversión más efectiva. Específicamente, primero comparamos sistemáticamente diferentes patrones de atención y encontramos que mantener las distribuciones de pesos AR preentrenadas es crítico para una conversión efectiva. Como tal, introducimos un esquema de preentrenamiento continuo con un patrón de atención por bloques, que se mantiene causal entre bloques mientras permite modelado bidireccional dentro de cada bloque. Encontramos que este enfoque puede preservar mejor las distribuciones de pesos de los modelos AR preentrenados que el modelado completamente bidireccional, además de su beneficio conocido de permitir la caché de claves-valores (KV), y conduce a una situación de ganancia tanto en precisión como en eficiencia. En segundo lugar, para mitigar la brecha entre entrenamiento y prueba en las distribuciones de tokens enmascarados (uniforme vs. altamente izquierda-a-derecha), proponemos una estrategia de enmascaramiento de tokens dependiente de la posición que asigna mayores probabilidades de enmascaramiento a los tokens posteriores durante el entrenamiento para imitar mejor el comportamiento durante la prueba. Aprovechando este marco, realizamos estudios extensos sobre los patrones de atención, la dinámica de entrenamiento y otras opciones de diseño de los dLM, proporcionando ideas prácticas para una conversión AR a dLM escalable. Estos estudios conducen a la familia Efficient-DLM, que supera a los modelos AR y dLM más avanzados; por ejemplo, nuestro Efficient-DLM 8B logra una precisión un +5.4%/+2.7% mayor con un rendimiento (throughput) 4.5x/2.7x mayor en comparación con Dream 7B y Qwen3 4B, respectivamente.
Este artículo no presenta un método novedoso, sino que establece una referencia básica, sencilla, incremental, pero esencial para la localización temporal en vídeos (VTG), una capacidad fundamental en la comprensión de vídeos. Si bien los modelos de lenguaje grandes multimodales (MLLMs) sobresalen en diversas tareas de comprensión de vídeos, las estrategias para optimizarlos específicamente para VTG siguen estando poco exploradas. En este artículo, presentamos TimeLens, una investigación sistemática sobre la construcción de MLLMs con una sólida capacidad de VTG, centrándonos en dos dimensiones principales: la calidad de los datos y el diseño algorítmico. Primero, exponemos problemas críticos de calidad en los puntos de referencia de VTG existentes e introducimos TimeLens-Bench, que comprende versiones meticulosamente reanotadas de tres benchmarks populares con criterios de calidad estrictos. Nuestro análisis revela cambios drásticos en la clasificación de los modelos en comparación con los benchmarks heredados, lo que confirma la falta de fiabilidad de los estándares de evaluación previos. También abordamos los datos de entrenamiento ruidosos mediante una canalización de reanotación automatizada, obteniendo TimeLens-100K, un conjunto de datos de entrenamiento a gran escala y de alta calidad. Sobre la base de nuestros datos, realizamos exploraciones en profundidad de los principios de diseño algorítmico, obteniendo una serie de hallazgos significativos y prácticas efectivas aunque eficientes. Estas incluyen la codificación textual entrelazada para la representación del tiempo, un enfoque de aprendizaje por refuerzo sin razonamiento (RLVR) con recompensas verificables como paradigma de entrenamiento, y estrategias cuidadosamente diseñadas para el entrenamiento RLVR. Estos esfuerzos culminan en los modelos TimeLens, una familia de MLLMs con un rendimiento de vanguardia en VTG entre los modelos de código abierto, que incluso supera a modelos propietarios como GPT-5 y Gemini-2.5-Flash. Todo el código, datos y modelos se publicarán para facilitar la investigación futura.
Lograr una inteligencia encarnada verdaderamente adaptativa requiere agentes que aprendan no solo imitando demostraciones estáticas, sino mejorando continuamente mediante la interacción con el entorno, de manera análoga a cómo los humanos dominan habilidades mediante la práctica. Los modelos Visión-Lenguaje-Acción (VLA) han avanzado la manipulación robótica al aprovechar los grandes modelos de lenguaje, pero siguen estando fundamentalmente limitados por el Ajuste Supervisado (SFT): requieren cientos de demostraciones por tarea, memorizan trayectorias de forma rígida y fallan al adaptarse cuando las condiciones de despliegue se desvían del entrenamiento. Presentamos EVOLVE-VLA, un marco de entrenamiento en tiempo de prueba que permite a los VLA adaptarse continuamente mediante la interacción con el entorno, con demostraciones específicas de la tarea mínimas o nulas. El principal desafío técnico es reemplazar las señales de recompensa oráculo (no disponibles en tiempo de prueba) con retroalimentación autónoma. Abordamos esto mediante un estimador de progreso aprendido que proporciona retroalimentación densa y, de manera crucial, diseñamos nuestro marco para "domar" esta señal inherentemente ruidosa mediante dos mecanismos: (1) un mecanismo de estimación de progreso acumulativo que suaviza las estimaciones puntuales ruidosas, y (2) una estrategia de extensión progresiva del horizonte que permite una evolución gradual de la política. EVOLVE-VLA logra mejoras sustanciales: +8.6% en tareas de horizonte largo, +22.0% en aprendizaje con un solo ejemplo, y permite la generalización cruzada de tareas, logrando un 20.8% de éxito en tareas no vistas sin entrenamiento con demostraciones específicas (frente al 0% del SFT puro). El análisis cualitativo revela capacidades emergentes ausentes en las demostraciones, incluida la recuperación de errores y estrategias novedosas. Este trabajo representa un paso crítico hacia VLA que realmente aprenden y se adaptan, alejándose de la imitación estática hacia la automejora continua.
Presentamos CRISP, un método que recupera movimiento humano simulable y geometría escénica a partir de vídeo monocular. Los trabajos previos sobre reconstrucción conjunta persona-escena se basan en *priors* basados en datos y optimización conjunta sin física en el bucle, o recuperan geometría ruidosa con artefactos que provocan el fallo de políticas de seguimiento de movimiento con interacciones escénicas. En cambio, nuestra idea clave es recuperar una geometría convexa, limpia y lista para simulación ajustando primitivas planares a una reconstrucción de nube de puntos de la escena, mediante un *pipeline* simple de agrupamiento sobre profundidad, normales y flujo. Para reconstruir la geometría escénica que podría estar ocluida durante las interacciones, utilizamos modelado de contacto persona-escena (por ejemplo, usamos la postura humana para reconstruir el asiento ocluido de una silla). Finalmente, aseguramos que las reconstrucciones humana y escénica sean físicamente plausibles utilizándolas para controlar un modelo humanoide mediante aprendizaje por refuerzo. Nuestro enfoque reduce las tasas de fallo en el seguimiento de movimiento del 55,2 % al 6,9 % en *benchmarks* de vídeo centrados en humanos (EMDB, PROX), al tiempo que ofrece un rendimiento de simulación por RL un 43 % más rápido. Lo validamos además en vídeos del mundo real que incluyen vídeos capturados casualmente, vídeos de Internet e incluso vídeos generados por Sora. Esto demuestra la capacidad de CRISP para generar movimiento humano y entornos de interacción físicamente válidos a gran escala, avanzando enormemente en las aplicaciones de real-a-sim para robótica y RA/RV.
La restauración de imágenes médicas (MedIR) tiene como objetivo recuperar imágenes médicas de alta calidad a partir de sus equivalentes de baja calidad. Los avances recientes en MedIR se han centrado en modelos "Todo-en-Uno" capaces de abordar simultáneamente múltiples tareas diferentes de MedIR. Sin embargo, debido a las diferencias significativas tanto en la modalidad como en los tipos de degradación, el uso de un modelo compartido para estas diversas tareas requiere una consideración cuidadosa de dos relaciones críticas entre tareas: la interferencia entre tareas, que ocurre cuando surgen direcciones de actualización de gradientes conflictivas entre tareas en el mismo parámetro, y el desequilibrio entre tareas, que se refiere a una optimización desigual causada por las diferentes dificultades de aprendizaje inherentes a cada tarea. Para abordar estos desafíos, proponemos un Transformer adaptativo a la tarea (TAT), un marco novedoso que se adapta dinámicamente a diferentes tareas mediante dos innovaciones clave. Primero, se introduce una estrategia de generación de pesos adaptativa a la tarea para mitigar la interferencia entre tareas generando parámetros de peso específicos para cada tarea, eliminando así los posibles conflictos de gradiente en los parámetros de peso compartidos. En segundo lugar, se introduce una estrategia de equilibrio de pérdidas adaptativa a la tarea para ajustar dinámicamente los pesos de la pérdida en función de las dificultades de aprendizaje específicas de cada tarea, evitando la dominación de tareas o el subentrenamiento. Experimentos exhaustivos demuestran que nuestro TAT propuesto logra un rendimiento de vanguardia en tres tareas de MedIR (síntesis de PET, reducción de ruido en TC y superresolución en IRM), tanto en configuraciones específicas por tarea como en la configuración Todo-en-Uno. El código está disponible en https://github.com/Yaziwel/TAT.
La inferencia en modelos grandes de Mezcla de Expertos (MoE) es un desafío debido a las altas demandas de recursos y las cargas de trabajo dinámicas. Las soluciones existentes suelen implementar el modelo completo como una única unidad monolítica, lo que aplica una configuración de recursos unificada tanto a los módulos de atención como a los de expertos, a pesar de sus diferentes requisitos, lo que conduce a una escalabilidad limitada e ineficiencia en el uso de recursos. En este artículo, proponemos Janus, un sistema de inferencia MoE escalable que disgrega la atención y los expertos en subclusters de GPU separados, permitiendo que cada módulo se gestione y escale de forma independiente. Janus incorpora tres diseños clave para una inferencia MoE disgregada y eficiente. En primer lugar, propone un esquema de comunicación adaptativo de dos fases que aprovecha las jerarquías de ancho de banda intra-nodo e inter-nodo para un intercambio de datos de baja latencia. En segundo lugar, motivado por la naturaleza limitada por memoria de los módulos MoE, Janus introduce un planificador ligero y lo implementa como un kernel de GPU para equilibrar el número de expertos activados entre las GPUs con una sobrecarga mínima, reduciendo así la latencia de inferencia. En tercer lugar, Janus realiza una gestión de recursos de grano fino para ajustar dinámicamente la ubicación de los expertos y escalar de forma independiente los recursos de atención y MoE, mejorando la eficiencia general. La evaluación muestra que Janus logra hasta 3.9 veces más rendimiento por GPU que los sistemas más avanzados, cumpliendo al mismo tiempo con los requisitos de latencia por token.
El video question answering fundamentado (GVQA) busca localizar segmentos temporales relevantes en videos y generar respuestas precisas a una pregunta dada; sin embargo, los grandes modelos video-lenguaje (LVLM) exhiben una conciencia temporal limitada. Aunque los enfoques existentes basados en la Optimización de Políticas de Grupo Relativo (GRPO) intentan mejorar la localización temporal, aún luchan por fundamentar fielmente sus respuestas en la evidencia videográfica relevante, lo que conduce a una mala localización temporal y alucinaciones. En este trabajo, presentamos Zoom-Zero, un marco de trabajo de granularidad gruesa a fina que primero localiza segmentos relevantes para la consulta y luego aplica un zoom temporal en los fotogramas más salientes para una verificación visual más detallada. Nuestro método aborda las limitaciones de GRPO para la tarea GVQA con dos innovaciones clave: (i) una recompensa por precisión de zoom que valida la fidelidad de la predicción de localización temporal y facilita la verificación visual de grano fino en los fotogramas fundamentados; (ii) una asignación de crédito selectiva por tokens, que atribuye las recompensas a los tokens responsables de la localización temporal o la generación de respuestas, mitigando el problema de GRPO al manejar señales de recompensa multifacéticas. Nuestro método propuesto avanza el video question answering fundamentado, mejorando la localización temporal en un 5.2% en NExT-GQA y un 4.6% en ReXTime, mientras también mejora la precisión promedio de las respuestas en un 2.4%. Adicionalmente, el zoom de granularidad gruesa a fina durante la inferencia beneficia aún más la comprensión de videos de formato largo al preservar detalles visuales críticos sin comprometer el contexto global, produciendo una mejora promedio del 6.4% en benchmarks de videos largos.
El aprendizaje en contexto es fundamental para los Modelos de Lenguaje Grandes (LLMs) modernos; sin embargo, las arquitecturas predominantes imponen una estructura contextual rígida y fija al asignar índices posicionales lineales o constantes. Basándonos en la Teoría de la Carga Cognitiva (CLT), argumentamos que esta estructura no informativa aumenta la carga cognitiva extrínseca, consumiendo una capacidad finita de memoria de trabajo que debería asignarse al razonamiento profundo y a la distribución de la atención. Para abordar esto, proponemos RePo, un mecanismo novedoso que reduce la carga extrínseca mediante el reposicionamiento del contexto. A diferencia de los enfoques estándar, RePo utiliza un módulo diferenciable, f_φ, para asignar posiciones a los tokens que capturan las dependencias contextuales, en lugar de depender de un rango predefinido de enteros. Mediante un pre-entrenamiento continuo en la arquitectura base OLMo-2 1B, demostramos que RePo mejora significativamente el rendimiento en tareas que implican contextos ruidosos, datos estructurados y longitudes de contexto más largas, manteniendo al mismo tiempo un rendimiento competitivo en tareas generales de contexto corto. Un análisis detallado revela que RePo asigna exitosamente una mayor atención a información distante pero relevante, asigna posiciones en un espacio denso y no lineal, y captura la estructura intrínseca del contexto de entrada. Nuestro código está disponible en https://github.com/SakanaAI/repo.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha demostrado ser efectivo para entrenar modelos de razonamiento a gran escala (LRM) al aprovechar señales verificables de respuestas para guiar la optimización de políticas, lo cual, sin embargo, conlleva altos costos de anotación. Para mitigar este problema, trabajos recientes han explorado métodos no supervisados de RLVR que obtienen recompensas únicamente de la consistencia interna del modelo, como mediante entropía y votación por mayoría. Aunque aparentemente prometedores, estos métodos suelen sufrir colapso del modelo en etapas avanzadas del entrenamiento, lo cual puede surgir del refuerzo de patrones de razonamiento incorrectos en ausencia de supervisión externa. En este trabajo, investigamos un nuevo paradigma de RLVR semi-supervisado que utiliza un pequeño conjunto etiquetado para guiar el entrenamiento de RLVR en muestras no etiquetadas. Nuestra idea clave es que las recompensas supervisadas son esenciales para estabilizar el entrenamiento basado en consistencia en muestras no etiquetadas, asegurando que solo los patrones de razonamiento verificados en instancias etiquetadas se incorporen al aprendizaje por refuerzo. Técnicamente, proponemos un algoritmo efectivo de optimización de políticas, TraPO, que identifica muestras no etiquetadas confiables mediante la comparación de la similitud de su trayectoria de aprendizaje con las etiquetadas. Basándonos en esto, TraPO logra una notable eficiencia de datos y una fuerte generalización en seis benchmarks de razonamiento matemático ampliamente utilizados (AIME24/25, AMC, MATH-500, Minerva y Olimpiada) y tres tareas fuera de distribución (ARC-c, GPQA-diamond y MMLU-pro). Con solo 1K muestras etiquetadas y 3K no etiquetadas, TraPO alcanza un 42.6% de precisión promedio, superando al mejor método no supervisado entrenado con 45K muestras no etiquetadas (38.3%). Notablemente, al utilizar 4K muestras etiquetadas y 12K no etiquetadas, TraPO incluso supera al modelo totalmente supervisado entrenado con las 45K muestras etiquetadas completas en todos los benchmarks, utilizando solo el 10% de los datos etiquetados. El código está disponible en https://github.com/ShenzhiYang2000/TRAPO.
Los mecanismos de alineación de seguridad en los modelos de lenguaje a gran escala previenen respuestas a consultas nocivas mediante comportamientos de rechazo aprendidos; sin embargo, estos mismos mecanismos obstaculizan aplicaciones legítimas de investigación, como la modelización cognitiva, las pruebas adversarias y el análisis de seguridad. Si bien las técnicas de ablación permiten la eliminación quirúrgica de las representaciones de rechazo mediante ortogonalización direccional, la efectividad relativa de las implementaciones disponibles aún no ha sido caracterizada. Este estudio evalúa cuatro herramientas de ablación (Heretic, DECCP, ErisForge, FailSpy) en dieciséis modelos ajustados por instrucciones (7B-14B parámetros), reportando compatibilidad de herramientas en los 16 modelos y métricas cuantitativas en subconjuntos determinados por el soporte de las herramientas. Los métodos de paso único demostraron una preservación de capacidades superior en el subconjunto evaluado (cambio promedio en GSM8K en tres modelos: ErisForge -0.28 pp; DECCP -0.13 pp), mientras que la ablación optimizada bayesiana produjo un desplazamiento variable de distribución (divergencia KL: 0.043-1.646) con impacto en las capacidades dependiente del modelo. Estos hallazgos proporcionan a los investigadores criterios de selección basados en evidencia para el despliegue de herramientas de ablación en diversas arquitecturas de modelos. El hallazgo principal indica que las capacidades de razonamiento matemático exhiben la mayor sensibilidad a las intervenciones de ablación, con cambios en GSM8K que oscilan entre +1.51 pp y -18.81 pp (-26.5% relativo) dependiendo de la selección de herramientas y la arquitectura del modelo.
Los modelos del mundo han demostrado una gran utilidad para mejorar el rendimiento de agentes corporizados en tareas específicas. Mientras que trabajos previos se centran principalmente en modelos del mundo en espacio de píxeles, estos enfoques enfrentan limitaciones prácticas en entornos de interfaz gráfica de usuario (GUI), donde predecir elementos visuales complejos en estados futuros suele ser difícil. En este trabajo, exploramos una formulación alternativa de modelado del mundo para agentes de GUI, donde las transiciones de estado se describen en lenguaje natural en lugar de predecir píxeles en bruto. Primero, presentamos MobileWorldBench, un punto de referencia que evalúa la capacidad de los modelos de visión y lenguaje (VLM) para funcionar como modelos del mundo para agentes móviles de GUI. En segundo lugar, publicamos MobileWorld, un conjunto de datos a gran escala que consta de 1,4 millones de muestras y que mejora significativamente las capacidades de modelado del mundo de los VLM. Finalmente, proponemos un marco novedoso que integra modelos del mundo basados en VLM en el marco de planificación de agentes móviles, demostrando que los modelos del mundo semánticos pueden beneficiar directamente a los agentes móviles al mejorar las tasas de éxito de las tareas. El código y el conjunto de datos están disponibles en https://github.com/jacklishufan/MobileWorld.
La extracción de edificios a partir de imágenes de teledetección es una tarea compleja debido a las variaciones estructurales de los edificios. Los métodos existentes emplean bloques de convolución o autoatención para capturar características multiescala en los modelos de segmentación; sin embargo, la brecha inherente de las pirámides de características y la integración insuficiente de características globales-locales conducen a resultados de extracción imprecisos y ambiguos. Para abordar este problema, en este artículo presentamos una Red de Fusión Global-Local con Agregación de Incertidumbre (UAGLNet), capaz de explotar semántica visual global-local de alta calidad bajo la guía de modelado de incertidumbre. Específicamente, proponemos un codificador cooperativo novedoso, que adopta capas híbridas de CNN y transformador en diferentes etapas para capturar la semántica visual local y global, respectivamente. Se diseña un bloque de interacción cooperativa intermedia (CIB) para reducir la brecha entre las características locales y globales a medida que la red se profundiza. Posteriormente, proponemos un módulo de Fusión Global-Local (GLF) para fusionar complementariamente las representaciones globales y locales. Además, para mitigar la ambigüedad de segmentación en regiones inciertas, proponemos un Decodificador con Agregación de Incertidumbre (UAD) para estimar explícitamente la incertidumbre a nivel de píxel y así mejorar la precisión de la segmentación. Experimentos exhaustivos demuestran que nuestro método logra un rendimiento superior al de otros métodos de vanguardia. Nuestro código está disponible en https://github.com/Dstate/UAGLNet.
Este artículo presenta JMMMU-Pro, un benchmark de comprensión multimodal basado en imágenes para múltiples disciplinas en japonés, y Vibe Benchmark Construction, un método de construcción escalable. Siguiendo la evolución de MMMU a MMMU-Pro, JMMMU-Pro extiende JMMMU integrando la imagen de la pregunta y el texto de la pregunta en una sola imagen, creando así un benchmark que requiere una comprensión visual-textual integrada a través de la percepción visual. Para construir JMMMU-Pro, proponemos Vibe Benchmark Construction, una metodología en la que un modelo generativo de imágenes (por ejemplo, Nano Banana Pro) produce preguntas visuales candidatas, y humanos verifican los resultados y, cuando es necesario, los regeneran con prompts ajustados para garantizar la calidad. Al aprovechar las capacidades de Nano Banana Pro para generar imágenes altamente realistas y su habilidad para incrustar texto japonés limpio, construimos un benchmark de alta calidad a bajo costo, que abarca una amplia gama de fondos y diseños de disposición. Los resultados experimentales muestran que todos los LMM de código abierto tienen dificultades significativas con JMMMU-Pro, subrayando que JMMMU-Pro es un benchmark importante para guiar los esfuerzos futuros en la comunidad de código abierto. Creemos que JMMMU-Pro proporciona una herramienta de evaluación más rigurosa para valorar las capacidades en japonés de los LMM y que nuestra Vibe Benchmark Construction también ofrece una guía eficiente para el desarrollo futuro de benchmarks de VQA basados en imágenes.
La rápida integración de la inteligencia artificial generativa en la educación ha impulsado la transformación digital en la enseñanza electrónica, aunque las percepciones de los usuarios sobre las aplicaciones educativas de IA siguen siendo poco exploradas. Este estudio realiza una evaluación basada en el análisis de sentimientos de las reseñas de usuarios de las principales aplicaciones educativas de IA en Google Play Store para evaluar su eficacia, desafíos e implicaciones pedagógicas. Nuestro proceso involucró la recopilación de datos y reseñas de aplicaciones, el uso de RoBERTa para la clasificación binaria de sentimientos, GPT-4o para la extracción de puntos clave y GPT-5 para sintetizar los temas positivos/negativos más destacados. Las aplicaciones se categorizaron en siete tipos (por ejemplo, asistentes de tareas, solucionadores matemáticos, herramientas lingüísticas), con superposiciones que reflejan diseños multifuncionales. Los resultados indican sentimientos predominantemente positivos, con aplicaciones de tareas como Edu AI (95,9% positivo) y Answer.AI (92,7%) liderando en precisión, velocidad y personalización, mientras que las aplicaciones lingüísticas y de sistemas de gestión del aprendizaje (por ejemplo, Teacher AI con un 21,8% positivo) se quedan atrás debido a la inestabilidad y funciones limitadas. Los aspectos positivos enfatizan la eficiencia en la lluvia de ideas, la resolución de problemas y la participación; los negativos se centran en muros de pago, inexactitudes, anuncios y fallos. Las tendencias muestran que los asistentes de tareas superan a las herramientas especializadas, destacando el potencial democratizador de la IA ante los riesgos de dependencia y desigualdad. La discusión propone futuros ecosistemas con modelos híbridos de IA y humanos, realidad virtual/aumentada para un aprendizaje inmersivo, y una hoja de ruta para desarrolladores (personalización adaptativa) y responsables políticos (regulación de la monetización para la inclusividad). Esto subraya el papel de la IA generativa en el avance de la enseñanza electrónica al permitir mejoras éticas que fomenten entornos equitativos e innovadores. El conjunto completo de datos está disponible aquí (https://github.com/erfan-nourbakhsh/GenAI-EdSent).
En los últimos años, los avances más punteros en segmentación de instancias en vídeo no supervisada han dependido en gran medida de datos de vídeo sintéticos, generados a partir de conjuntos de datos de imágenes centrados en objetos, como ImageNet. Sin embargo, la síntesis de vídeo mediante el desplazamiento y escalado artificial de las máscaras de instancias de imagen no logra modelar con precisión el movimiento realista en los vídeos, como los cambios de perspectiva, el movimiento de partes de una o múltiples instancias, o el movimiento de la cámara. Para abordar este problema, proponemos un modelo de segmentación de instancias en vídeo no supervisado entrenado exclusivamente con datos de vídeo reales. Partimos de máscaras de segmentación de instancias no supervisadas en fotogramas individuales del vídeo. No obstante, estas segmentaciones de fotograma único presentan ruido temporal y su calidad varía a lo largo del vídeo. Por lo tanto, establecemos coherencia temporal identificando máscaras clave de alta calidad en el vídeo aprovechando *priors* de movimiento profundos. Las pseudoanotaciones dispersas de las máscaras clave se utilizan luego para entrenar un modelo de segmentación para la propagación implícita de máscaras, para lo cual proponemos un enfoque de Distilación de Disperso a Denso asistido por una Pérdida por Omisión Temporal. Tras entrenar el modelo final con el conjunto de etiquetas densas resultante, nuestro enfoque supera al estado del arte actual en varios *benchmarks*.
El éxito del aprendizaje automático moderno depende del acceso a datos de entrenamiento de alta calidad. En muchos escenarios del mundo real, como la adquisición de datos de repositorios públicos o el intercambio entre instituciones, los datos se organizan naturalmente en conjuntos discretos que varían en relevancia, calidad y utilidad. Por lo tanto, seleccionar qué repositorios o instituciones buscar para encontrar conjuntos de datos útiles, y qué conjuntos de datos incorporar al entrenamiento del modelo, son decisiones críticas. Sin embargo, la mayoría de los métodos existentes seleccionan muestras individuales y tratan todos los datos como igualmente relevantes, ignorando las diferencias entre los conjuntos de datos y sus fuentes. En este trabajo, formalizamos la tarea de selección de conjuntos de datos: seleccionar conjuntos de datos completos de un grupo grande y heterogéneo para mejorar el rendimiento posterior bajo restricciones de recursos. Proponemos Dataset Selection via Hierarchies (DaSH), un método de selección de conjuntos de datos que modela la utilidad tanto a nivel de conjunto de datos como de grupo (por ejemplo, colecciones, instituciones), permitiendo una generalización eficiente a partir de observaciones limitadas. En dos puntos de referencia públicos (Digit-Five y DomainNet), DaSH supera a los métodos de selección de datos más avanzados hasta en un 26.2% en precisión, mientras requiere significativamente menos pasos de exploración. Los estudios de ablación muestran que DaSH es robusto en entornos de bajos recursos y ante la falta de conjuntos de datos relevantes, lo que lo hace adecuado para una selección de conjuntos de datos escalable y adaptable en flujos de trabajo prácticos de aprendizaje multi-fuente.
Este artículo propone un conjunto de datos multimodal a gran escala para la segmentación de vídeo mediante expresiones de movimiento referencial, centrándose en segmentar y rastrear objetos objetivo en vídeos basándose en descripciones lingüísticas de sus movimientos. Los conjuntos de datos existentes de segmentación de vídeo referencial suelen centrarse en objetos destacados y utilizan expresiones lingüísticas ricas en atributos estáticos, lo que potencialmente permite identificar el objeto objetivo en un solo fotograma. Dichos conjuntos de datos no enfatizan suficientemente el papel del movimiento tanto en los vídeos como en el lenguaje. Para explorar la viabilidad de utilizar expresiones de movimiento y pistas de razonamiento dinámico para la comprensión de vídeo a nivel de píxel, presentamos MeViS, un conjunto de datos que contiene 33.072 expresiones de movimiento anotadas por humanos en formato de texto y audio, abarcando 8.171 objetos en 2.006 vídeos de escenarios complejos. Evaluamos 15 métodos existentes en 4 tareas soportadas por MeViS, incluyendo 6 métodos de segmentación de objetos en vídeo referencial (RVOS), 3 métodos de segmentación de objetos en vídeo guiada por audio (AVOS), 2 métodos de seguimiento multiobjeto referencial (RMOT) y 4 métodos de descripción de vídeo para la nueva tarea de generación de expresiones de movimiento referencial (RMEG). Los resultados demuestran debilidades y limitaciones de los métodos existentes para abordar la comprensión de vídeo guiada por expresiones de movimiento. Analizamos además los desafíos y proponemos un enfoque LMPM++ para RVOS/AVOS/RMOT que logra nuevos resultados de vanguardia. Nuestro conjunto de datos proporciona una plataforma que facilita el desarrollo de algoritmos de comprensión de vídeo guiada por expresiones de movimiento en escenas de vídeo complejas. El conjunto de datos MeViS propuesto y el código fuente del método están disponibles públicamente en https://henghuiding.com/MeViS/.
Los Modelos de Visión y Lenguaje a Gran Escala (VLMs) exhiben capacidades impresionantes de razonamiento complejo, pero su aplicación en la planificación visual secuencial —es decir, la ejecución de acciones multi-paso para alcanzar un objetivo— sigue en gran medida inexplorada. Además, la planificación secuencial práctica a menudo implica pasos no óptimos (erróneos), lo que plantea un desafío para que los VLMs detecten y corrijan dichos pasos. Proponemos el Benchmark de Planificación Secuencial Correctiva (CoSPlan) para evaluar VLMs en tareas de planificación secuencial basadas en visión y propensas a errores, en cuatro dominios: navegación en laberintos, reordenamiento de bloques, reconstrucción de imágenes y reorganización de objetos. CoSPlan evalúa dos habilidades clave: Detección de Errores (identificar acciones no óptimas) y Finalización de Pasos (corregir y completar secuencias de acciones para alcanzar el objetivo). A pesar de utilizar técnicas de razonamiento de vanguardia como Cadenas de Pensamiento (Chain-of-Thought) y Grafos de Escena, los VLMs (por ejemplo, Intern-VLM y Qwen2) presentan dificultades en CoSPlan, fallando en aprovechar pistas contextuales para alcanzar las metas. Para abordar esto, proponemos un nuevo método libre de entrenamiento, Actualizaciones Incrementales del Grafo de Escena (SGI), que introduce pasos de razonamiento intermedios entre el estado inicial y el estado objetivo. SGI ayuda a los VLMs a razonar sobre secuencias, logrando una mejora promedio en el rendimiento del 5.2%. Además de mejorar la confiabilidad en la planificación secuencial correctiva, SGI se generaliza a tareas de planificación tradicionales como Plan-Bench y VQA.
La generación de texto a vídeo (T2V) ha avanzado rápidamente, pero mantener identidades de personajes consistentes entre escenas sigue siendo un desafío importante. Los métodos de personalización existentes a menudo se centran en la identidad facial, pero no logran preservar pistas contextuales más amplias, como el peinado, la vestimenta y la complexión corporal, que son críticas para la coherencia visual. Proponemos ContextAnyone, un marco de difusión consciente del contexto que logra la generación de vídeos con personajes consistentes a partir de texto y una única imagen de referencia. Nuestro método reconstruye conjuntamente la imagen de referencia y genera nuevos fotogramas de vídeo, permitiendo que el modelo perciba y utilice plenamente la información de referencia. La información de referencia se integra eficazmente en un modelo de difusión basado en DiT mediante un novedoso módulo de Énfasis-Atención que refuerza selectivamente las características sensibles a la referencia y previene la deriva de identidad entre fotogramas. Una pérdida de doble guía combina los objetivos de difusión y reconstrucción de referencia para mejorar la fidelidad de apariencia, mientras que la nueva codificación posicional Gap-RoPE separa los tokens de referencia y vídeo para estabilizar el modelado temporal. Los experimentos demuestran que ContextAnyone supera a los métodos existentes de referencia a vídeo en consistencia de identidad y calidad visual, generando vídeos de personajes coherentes y que preservan el contexto en diversos movimientos y escenas. Página del proyecto: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.