Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en modelos de lenguaje grandes multimodales desbloquean oportunidades sin precedentes para la automatización de interfaces gráficas de usuario (GUI). Sin embargo, persiste un desafío fundamental: ¿cómo adquirir eficientemente datos de entrenamiento de alta calidad manteniendo la fiabilidad de la anotación? Introducimos un pipeline de entrenamiento auto-evolutivo impulsado por el Sistema de Recompensa por Pasos Calibrado, que convierte las trayectorias generadas por el modelo en señales de entrenamiento confiables mediante calibración a nivel de trayectoria, logrando una precisión de anotación >90% con un costo 10-100 veces menor. Aprovechando este pipeline, presentamos Step-GUI, una familia de modelos (4B/8B) que logra un rendimiento de vanguardia en GUI (8B: 80.2% en AndroidWorld, 48.5% en OSWorld, 62.6% en ScreenShot-Pro) manteniendo capacidades generales robustas. A medida que mejoran las capacidades de los agentes de GUI, el despliegue práctico exige interfaces estandarizadas en dispositivos heterogéneos protegiendo la privacidad del usuario. Con este fin, proponemos GUI-MCP, el primer Protocolo de Contexto de Modelo para automatización de GUI con una arquitectura jerárquica que combina operaciones atómicas de bajo nivel y delegación de tareas de alto nivel a modelos especialistas locales, permitiendo una ejecución de alta privacidad donde los datos sensibles permanecen en el dispositivo. Finalmente, para evaluar si los agentes pueden manejar el uso cotidiano auténtico, presentamos AndroidDaily, un benchmark basado en patrones de uso móvil del mundo real con 3146 acciones estáticas y 235 tareas de extremo a extremo en escenarios diarios de alta frecuencia (8B: estático 89.91%, extremo a extremo 52.50%). Nuestro trabajo impulsa el desarrollo de agentes de GUI prácticos y demuestra un fuerte potencial para el despliegue en el mundo real en interacciones digitales cotidianas.
La eficiencia, como desafío práctico crítico para los sistemas agentivos y de razonamiento basados en LLM, se ve cada vez más limitada por la latencia inherente de la decodificación autoregresiva (AR). La decodificación especulativa mitiga este costo mediante un esquema de borrador-verificación, aunque los enfoques existentes dependen de modelos borradores AR (también llamados "drafters"), lo que introduce dos problemas fundamentales: (1) la acumulación de incertidumbre paso a paso conduce a un colapso progresivo de la confianza entre el modelo objetivo y el "drafter", y (2) la decodificación inherentemente secuencial de los "drafters" AR. En conjunto, estos factores provocan aceleraciones limitadas. En este artículo, demostramos que los "drafters" basados en modelos de lenguaje grande de difusión (dLLM) pueden superar naturalmente estos problemas gracias a su modelado probabilístico fundamentalmente diferente y su estrategia de decodificación paralela eficiente. Basándonos en esta idea, presentamos DEER, un marco de decodificación especulativa eficiente que genera borradores con difusión y los verifica con modelos AR. Para permitir la generación de borradores de alta calidad, DEER emplea un pipeline de entrenamiento de dos etapas para alinear los "drafters" basados en dLLM con el modelo AR objetivo, y además adopta una decodificación de un solo paso para generar segmentos de borrador largos. Los experimentos muestran que DEER alcanza longitudes de aceptación de borradores de hasta 32 tokens, superando con creces los 10 tokens logrados por EAGLE-3. Además, en HumanEval con Qwen3-30B-A3B, DEER consigue una aceleración de 5.54x, mientras que EAGLE-3 logra solo 2.41x. El código, el modelo, la demo, etc., estarán disponibles en https://czc726.github.io/DEER/
La generación multi-token ha surgido como un paradigma prometedor para acelerar la inferencia de modelos grandes basados en transformadores. Los esfuerzos recientes exploran principalmente Modelos de Lenguaje Grandes de difusión (dLLMs) para la decodificación paralela con el fin de reducir la latencia de inferencia. Para lograr una calidad de generación comparable a los modelos autoregresivos (AR), muchas técnicas adaptan modelos AR en dLLMs para permitir la decodificación paralela. Sin embargo, adolecen de una aceleración limitada en comparación con los modelos AR debido a una discrepancia entre el preentrenamiento y el postentrenamiento. Específicamente, la distribución de datos enmascarados en el postentrenamiento se desvía significativamente de la distribución de datos del mundo real vista durante el preentrenamiento, y los dLLMs dependen de la atención bidireccional, lo que entra en conflicto con el conocimiento causal aprendido durante el preentrenamiento y dificulta la integración de la reutilización exacta de la caché KV. Para abordar esto, presentamos Jacobi Forcing, un paradigma de destilación progresiva donde los modelos se entrenan en sus propias trayectorias de decodificación paralela generadas, transformando suavemente los modelos AR en decodificadores paralelos eficientes mientras se preserva su propiedad de inferencia causal preentrenada. Los modelos entrenados bajo este paradigma, el Modelo de Forzamiento de Jacobi, logran una aceleración en tiempo real de 3.8x en benchmarks de código y matemáticas con una pérdida mínima de rendimiento. Basándonos en las características de la trayectoria de los Modelos de Forzamiento de Jacobi, introducimos la decodificación multi-bloque con reciclaje por rechazo, que permite hasta 4.5x más tokens aceptados por iteración y una aceleración en tiempo real de casi 4.0x, intercambiando efectivamente cálculo adicional por una menor latencia de inferencia. Nuestro código está disponible en https://github.com/hao-ai-lab/JacobiForcing.
Los modelos multimodales grandes actuales poseen fuertes capacidades de percepción y razonamiento; sin embargo, sus altos requisitos computacionales y de memoria dificultan su implementación directa en entornos locales. Si bien los modelos con pocos parámetros están adquiriendo progresivamente capacidades generales sólidas, los codificadores estándar de Vision Transformer (ViT) siguen siendo un cuello de botella crítico, sufriendo una latencia excesiva y un alto consumo de memoria al procesar entradas de alta resolución. Para abordar estos desafíos, presentamos HyperVL, un modelo multimodal grande eficiente optimizado para inferencia en dispositivos locales. HyperVL adopta una estrategia de división de imágenes para limitar el uso máximo de memoria e incorpora dos técnicas novedosas: (1) un Compresor de Resolución Visual (VRC) que predice adaptivamente las resoluciones de codificación óptimas para eliminar el cómputo redundante, y (2) Aprendizaje de Consistencia Dual (DCL), que alinea codificadores ViT multiescala dentro de un marco unificado, permitiendo el cambio dinámico entre ramas visuales bajo un mismo modelo de lenguaje grande (LLM). Experimentos exhaustivos demuestran que HyperVL alcanza un rendimiento de vanguardia entre modelos de tamaño comparable en múltiples benchmarks. Además, reduce significativamente la latencia y el consumo energético en dispositivos móviles reales, demostrando su practicidad para la inferencia multimodal en dispositivos locales.
Los enfoques recientes de aprendizaje por refuerzo (RL) como GRPO supervisado por resultados han avanzado en el razonamiento de cadena de pensamiento en Modelos de Lenguaje Visual (VLMs), pero persisten problemas clave: (i) dependencia de anotaciones manuales costosas y ruidosas o de verificadores externos; (ii) esquemas de recompensa planos y dispersos en GRPO; y (iii) inconsistencia lógica entre el razonamiento de una cadena y su respuesta final. Presentamos Puzzle Curriculum GRPO (PC-GRPO), una receta sin supervisión para RL con Recompensas Verificables (RLVR) que fortalece el razonamiento visual en VLMs sin anotaciones ni verificadores externos. PC-GRPO reemplaza las etiquetas con tres entornos de rompecabezas auto-supervisados: PatchFit, Rotación (con recompensas binarias) y Rompecabezas (con crédito parcial graduado que mitiga la dispersión de recompensas). Para contrarrestar las recompensas planas y las ventajas grupales-relativas que se desvanecen, introducimos un currículo consciente de la dificultad que pondera dinámicamente las muestras y alcanza su punto máximo en dificultad media. Además, monitoreamos la Consistencia Razonamiento-Respuesta (RAC) durante el post-entrenamiento: reflejando informes de GRPO estándar en LLMs, la RAC típicamente aumenta al principio y luego se degrada; nuestro currículo retrasa esta disminución, y los esquemas de recompensa que refuerzan la consistencia aumentan aún más la RAC. La RAC se correlaciona con la precisión en tareas posteriores. En diversos benchmarks y utilizando arquitecturas Qwen-7B y Qwen-3B, PC-GRPO mejora la calidad del razonamiento, la estabilidad del entrenamiento y la precisión en la tarea final, ofreciendo un camino práctico hacia un post-entrenamiento de RL escalable, verificable e interpretable para VLMs.
Los transformadores universales (UT) han sido ampliamente utilizados para tareas de razonamiento complejo como ARC-AGI y Sudoku, aunque las fuentes específicas de sus mejoras de rendimiento permanecen poco exploradas. En este trabajo, analizamos sistemáticamente variantes de UT y demostramos que las mejoras en ARC-AGI surgen principalmente del sesgo inductivo recurrente y los fuertes componentes no lineales del Transformer, más que de diseños arquitectónicos elaborados. Motivados por este hallazgo, proponemos el Modelo de Razonamiento Universal (URM), que mejora el UT mediante convoluciones cortas y retropropagación truncada. Nuestro enfoque mejora sustancialmente el rendimiento de razonamiento, alcanzando un estado del arte del 53.8% en pass@1 en ARC-AGI 1 y 16.0% en pass@1 en ARC-AGI 2. Nuestro código está disponible en https://github.com/zitian-gao/URM.
Los modelos generativos visuales recientes suelen presentar problemas de coherencia durante la edición de imágenes debido a la naturaleza entrelazada de las imágenes rasterizadas, donde todo el contenido visual se fusiona en un único lienzo. Por el contrario, las herramientas de diseño profesional emplean representaciones por capas, permitiendo ediciones aisladas mientras se preserva la coherencia. Motivados por esto, proponemos Qwen-Image-Layered, un modelo de difusión de extremo a extremo que descompone una imagen RGB única en múltiples capas RGBA semánticamente desenredadas, permitiendo una editabilidad inherente donde cada capa RGBA puede manipularse independientemente sin afectar otro contenido. Para soportar la descomposición de longitud variable, introducimos tres componentes clave: (1) un RGBA-VAE para unificar las representaciones latentes de imágenes RGB y RGBA; (2) una arquitectura VLD-MMDiT (Variable Layers Decomposition MMDiT) capaz de descomponer un número variable de capas de imagen; y (3) una estrategia de Entrenamiento Multietapa para adaptar un modelo preentrenado de generación de imágenes en un descomponedor de imágenes multicapa. Además, para abordar la escasez de imágenes multicapa de alta calidad para entrenamiento, construimos un pipeline para extraer y anotar imágenes multicapa a partir de documentos de Photoshop (PSD). Los experimentos demuestran que nuestro método supera significativamente a los enfoques existentes en calidad de descomposición y establece un nuevo paradigma para la edición coherente de imágenes. Nuestro código y modelos están disponibles en https://github.com/QwenLM/Qwen-Image-Layered.
Proponemos IC-Effect, un marco basado en DiT y guiado por instrucciones para la edición de efectos visuales (VFX) en video con pocos ejemplos, que sintetiza efectos complejos (por ejemplo, llamas, partículas y personajes de dibujos animados) preservando estrictamente la coherencia espacial y temporal. La edición de VFX en video es altamente desafiante porque los efectos inyectados deben integrarse a la perfección con el fondo, el fondo debe permanecer completamente inalterado y los patrones de los efectos deben aprenderse eficientemente a partir de datos pareados limitados. Sin embargo, los modelos existentes de edición de video no logran satisfacer estos requisitos. IC-Effect aprovecha el video fuente como condiciones contextuales limpias, explotando la capacidad de aprendizaje contextual de los modelos DiT para lograr una preservación precisa del fondo y una inyección natural de efectos. Una estrategia de entrenamiento en dos etapas, que consiste en una adaptación general a la edición seguida de un aprendizaje específico de efectos mediante Effect-LoRA, garantiza un fuerte seguimiento de instrucciones y un modelado robusto de efectos. Para mejorar aún más la eficiencia, introducimos una tokenización espacio-temporal dispersa, que permite una alta fidelidad con un cálculo sustancialmente reducido. También publicamos un conjunto de datos pareados para edición de VFX que abarca 15 estilos visuales de alta calidad. Experimentos exhaustivos demuestran que IC-Effect ofrece una edición de VFX de alta calidad, controlable y temporalmente coherente, abriendo nuevas posibilidades para la creación de video.
La comprensión espacial sobre entradas visuales continuas es crucial para que los MLLM evolucionen hacia asistentes de propósito general en entornos físicos. Sin embargo, aún no existe un punto de referencia integral que evalúe holísticamente el progreso hacia este objetivo. En este trabajo, presentamos MMSI-Video-Bench, un benchmark completamente anotado por humanos para evaluar la inteligencia espacial basada en video en MLLM. Este operacionaliza un marco de cuatro niveles (Percepción, Planificación, Predicción y Razonamiento Transversal de Videos) mediante 1.106 preguntas basadas en 1.278 clips procedentes de 25 conjuntos de datos y videos internos. Cada ítem ha sido cuidadosamente diseñado y revisado por expertos en visión 3D, e incluye razonamientos explicativos para garantizar una base precisa y no ambigua. Aprovechando sus diversas fuentes de datos y su cobertura holística de tareas, MMSI-Video-Bench también admite tres sub-benchmarks orientados a dominios específicos (Benchmark de Percepción de Escenas Interiores, Benchmark de Robótica y Benchmark de Grounding) para una evaluación dirigida de capacidades. Evaluamos 25 MLLM de código abierto y propietarios de alto rendimiento, revelando una brecha notable entre humanos e IA: muchos modelos rinden cerca del nivel de azar, y el mejor modelo de razonamiento se sitúa casi un 60% por detrás de los humanos. Además, encontramos que los modelos ajustados específicamente para tareas espaciales aún no generalizan efectivamente en nuestro benchmark. Un análisis granular de errores expone fallos sistemáticos en el razonamiento geométrico, el grounding de movimiento, la predicción a largo plazo y la correspondencia entre videos. También demostramos que las estrategias típicas de muestreo de fotogramas se transfieren pobremente a nuestro benchmark intensivo en razonamiento, y que ni las pistas espaciales 3D ni el prompting de cadena de pensamiento producen mejoras significativas. Esperamos que nuestro benchmark establezca un banco de pruebas sólido para avanzar en la inteligencia espacial basada en video.
El uso indebido de las tecnologías de generación de vídeos impulsadas por IA ha generado serias preocupaciones sociales, destacando la necesidad urgente de detectores fiables de vídeos generados por IA. Sin embargo, la mayoría de los métodos existentes se limitan a la clasificación binaria y carecen de las explicaciones necesarias para la interpretación humana. En este artículo, presentamos Skyra, un modelo de lenguaje multimodal (MLLM) especializado que identifica artefactos visuales perceptibles para humanos en vídeos generados por IA y los utiliza como evidencia fundamentada para la detección y la explicación. Para respaldar este objetivo, construimos ViF-CoT-4K para el ajuste fino supervisado (SFT), que representa el primer conjunto de datos a gran escala de artefactos en vídeos generados por IA con anotaciones humanas detalladas. Desarrollamos luego una estrategia de entrenamiento en dos etapas que mejora sistemáticamente la percepción espacio-temporal de artefactos, la capacidad de explicación y la precisión de detección de nuestro modelo. Para evaluar Skyra de manera integral, introducimos ViF-Bench, un punto de referencia que comprende 3.000 muestras de alta calidad generadas por más de diez generadores de vídeo de última generación. Experimentos exhaustivos demuestran que Skyra supera a los métodos existentes en múltiples benchmarks, mientras que nuestra evaluación ofrece perspectivas valiosas para avanzar en la detección explicable de vídeos generados por IA.
Los modelos generativos pueden sintetizar contenido de gran realismo, los denominados deepfakes, que ya se están utilizando de forma masiva para socavar la autenticidad de los medios digitales. Los métodos actuales de detección de deepfakes no son fiables por dos razones: (i) distinguir contenido no auténtico a posteriori suele ser imposible (por ejemplo, con muestras memorizadas), lo que conduce a una tasa de falsos positivos (TFP) ilimitada; y (ii) la detección carece de robustez, ya que los adversarios pueden adaptarse a los detectores conocidos con una precisión casi perfecta utilizando recursos computacionales mínimos. Para abordar estas limitaciones, proponemos un marco de resíntesis para determinar si una muestra es auténtica o si su autenticidad puede negarse de manera plausible. Realizamos dos contribuciones clave centrándonos en el entorno de alta precisión y baja exhaustividad frente a adversarios eficientes (es decir, con restricciones computacionales). En primer lugar, demostramos que nuestro método de resíntesis calibrado es el enfoque más fiable para verificar muestras auténticas manteniendo TFPs bajas y controlables. En segundo lugar, mostramos que nuestro método logra robustez adversarial contra adversarios eficientes, mientras que los métodos anteriores son fácilmente evadidos con los mismos presupuestos computacionales. Nuestro enfoque admite múltiples modalidades y aprovecha técnicas de inversión de última generación.
Los seres humanos somos razonadores naturales de horizonte múltiple, es decir, podemos decidir si ojear iterativamente vídeos largos o ver vídeos cortos completos cuando es necesario para una tarea concreta. Con esto en mente, cabría esperar que los modelos de razonamiento sobre vídeos razonaran de forma flexible a través de diferentes duraciones. Sin embargo, los modelos de última generación (SOTA) aún se entrenan para predecir respuestas en una única iteración mientras procesan un gran número de fotogramas, similar a ver un vídeo largo completo, lo que requiere recursos significativos. Esto plantea la pregunta: ¿Es posible desarrollar sistemas de razonamiento sobre vídeos de horizonte múltiple que sean eficaces? Inspirados por el comportamiento humano, primero proponemos SAGE, un sistema de agente que realiza razonamiento multiturno sobre vídeos largos mientras maneja problemas más simples en una sola iteración. En segundo lugar, presentamos un pipeline sencillo de generación de datos sintéticos utilizando Gemini-2.5-Flash para entrenar al orquestador, SAGE-MM, que se encuentra en el núcleo de SAGE. Además, proponemos una receta efectiva de post-entrenamiento por RL (Refuerzo de Aprendizaje) esencial para inculcar la capacidad de razonamiento de horizonte múltiple en SAGE-MM. En tercer lugar, creamos SAGE-Bench con una duración media superior a 700 segundos para evaluar la capacidad de razonamiento sobre vídeos en casos de uso reales de entretenimiento. Por último, validamos empíricamente la efectividad de nuestro sistema, datos y receta de RL, observando mejoras notables de hasta el 6.1% en tareas de razonamiento sobre vídeos de respuesta abierta, así como una impresionante mejora del 8.2% en vídeos de más de 10 minutos de duración.
En la investigación multimodal reciente, el paradigma de difusión ha surgido como una alternativa prometedora al paradigma autorregresivo (AR), gracias a sus ventajas únicas en la decodificación. Sin embargo, debido a las limitaciones de capacidad del modelo de lenguaje de difusión base, el rendimiento del modelo de lenguaje visual de difusión (dVLM) aún se encuentra significativamente por detrás del de los modelos principales. Esto plantea una pregunta simple pero fundamental: ¿Es posible construir dVLMs basados en los potentes modelos AR existentes? En respuesta, proponemos DiffusionVL, una familia de dVLMs que puede traducirse desde cualquier modelo AR potente. Mediante un simple ajuste fino, adaptamos exitosamente modelos preentrenados AR al paradigma de difusión. Este enfoque produce dos observaciones clave: (1) La transición de paradigma desde los modelos multimodales basados en AR hacia la difusión es notablemente efectiva. (2) La conversión directa de un modelo de lenguaje AR a un dVLM también es viable, logrando un rendimiento competitivo con el ajuste por instrucciones visuales estilo LLaVA. Además, introducimos un diseño de decodificación por bloques en los dVLMs que permite generación de longitud arbitraria y reutilización de la caché KV, logrando una aceleración significativa en la inferencia. Realizamos un gran número de experimentos. A pesar de entrenarse con menos del 5% de los datos requeridos por métodos anteriores, DiffusionVL logra una mejora integral en el rendimiento – un incremento del 34.4% en el benchmark MMMU-Pro (visión) y del 37.5% en el benchmark MME (Cog.) – junto con una aceleración de la inferencia de 2x. El modelo y el código están disponibles en https://github.com/hustvl/DiffusionVL.
El aprendizaje por refuerzo se ha vuelto esencial para fortalecer las capacidades de razonamiento de los modelos de lenguaje grandes; sin embargo, los mecanismos actuales de exploración siguen estando fundamentalmente desalineados con la forma en que estos modelos realmente aprenden. Las bonificaciones de entropía y los comparadores semánticos externos fomentan una variación superficial, pero no ofrecen garantía alguna de que las trayectorias muestreadas difieran en las direcciones de actualización que moldean la optimización. Proponemos G2RL, un marco de aprendizaje por refuerzo guiado por gradientes en el que la exploración no se impulsa mediante heurísticas externas, sino por la geometría de actualización de primer orden del propio modelo. Para cada respuesta, G2RL construye una característica a nivel de secuencia a partir de la sensibilidad de la capa final del modelo, obtenible a un costo insignificante mediante un pase hacia adelante estándar, y mide cómo cada trayectoria remodelaría la política comparando estas características dentro de un grupo muestreado. Las trayectorias que introducen direcciones de gradiente novedosas reciben un escalador de recompensa multiplicativo acotado, mientras que las actualizaciones redundantes o fuera del manifold se atenúan, produciendo una señal de exploración autorreferencial que está naturalmente alineada con la estabilidad de estilo PPO y el control KL. En diversos benchmarks de razonamiento matemático y general (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) utilizando los modelos base Qwen3 de 1.7B y 4B, G2RL mejora consistentemente las métricas pass@1, maj@16 y pass@k en comparación con métodos GRPO basados en entropía y métodos de incrustación externa. Al analizar la geometría inducida, encontramos que G2RL expande la exploración hacia direcciones de gradiente sustancialmente más ortogonales y a menudo opuestas, manteniendo al mismo tiempo la coherencia semántica, lo que revela que el espacio de actualización de la propia política proporciona una base mucho más fiel y efectiva para guiar la exploración en el aprendizaje por refuerzo de modelos de lenguaje grandes.
Los trabajos recientes en reconocimiento de entidades nombradas (NER) multilingüe han demostrado que los modelos de lenguaje grandes (LLMs) pueden proporcionar supervisión sintética efectiva; sin embargo, estos conjuntos de datos han aparecido principalmente como subproductos de experimentos más amplios en lugar de como recursos sistemáticos y reutilizables. Presentamos FiNERweb, un pipeline de creación de conjuntos de datos que escala el paradigma maestro-estudiante a 91 idiomas y 25 escrituras. Basándonos en FineWeb-Edu, nuestro enfoque entrena modelos de regresión para identificar pasajes relevantes para NER y los anota con LLMs multilingües, resultando en aproximadamente 225.000 pasajes con 235.000 etiquetas de entidades distintas. Nuestros experimentos muestran que el modelo de regresión alcanza más de 84 F1, y que los modelos entrenados con FiNERweb obtienen un rendimiento comparable o mejorado en entornos de transferencia zero shot en inglés, tailandés y suajili, a pesar de ser entrenados con 19 veces menos datos que las líneas base sólidas. Además, evaluamos la calidad de la anotación utilizando LLM-como-juez y observamos puntuaciones consistentemente altas tanto en fidelidad (3.99 sobre 5) como en integridad (4.05 sobre 5), lo que indica anotaciones confiables e informativas. Adicionalmente, publicamos el conjunto de datos con etiquetas en inglés y conjuntos de etiquetas traducidas a los respectivos idiomas objetivo, ya que observamos que el rendimiento de los modelos actuales de última generación disminuye entre 0.02 y 0.09 F1 cuando se evalúan utilizando etiquetas en el idioma objetivo en lugar de las inglesas. Publicamos FiNERweb junto con todos los artefactos asociados para la comunidad investigadora con el fin de facilitar un entrenamiento maestro-estudiante más efectivo para el reconocimiento de entidades nombradas multilingüe.
Los modelos de lenguaje grandes (LLM) se utilizan cada vez más para generar conjuntos de datos sintéticos para la evaluación y el entrenamiento de modelos posteriores. Sin embargo, trabajos previos han señalado que dichos datos generados carecen de diversidad. En este artículo, proponemos Voyager, un nuevo enfoque basado en principios para generar conjuntos de datos diversos. Nuestro método es iterativo y optimiza directamente una magnitud matemática que maximiza la diversidad del conjunto de datos utilizando la maquinaria de los procesos puntuales determinantes. Además, nuestro enfoque no requiere entrenamiento, es aplicable a modelos de código cerrado y escalable. Además de proporcionar una justificación teórica para el funcionamiento de nuestro método, también demostramos mediante experimentos exhaustivos que Voyager supera significativamente a los enfoques base más populares, logrando una mejora de 1.5 a 3 veces en la diversidad.
Los modelos de difusión de video autorregresivos son prometedores para la simulación de mundos, pero son vulnerables al sesgo de exposición que surge del desajuste entre entrenamiento y prueba. Si bien trabajos recientes abordan esto mediante post-entrenamiento, generalmente dependen de un modelo maestro bidireccional o de un discriminador en línea. Para lograr una solución integral, introducimos *Resampling Forcing*, un marco libre de maestro que permite entrenar modelos de video autorregresivos desde cero y a gran escala. Es central en nuestro enfoque un esquema de auto-remuestreo que simula los errores del modelo en tiempo de inferencia sobre los fotogramas históricos durante el entrenamiento. Condicionada por estas historias degradadas, una máscara causal dispersa aplica la causalidad temporal mientras permite el entrenamiento paralelo con una pérdida de difusión a nivel de fotograma. Para facilitar una generación eficiente de horizontes largos, introducimos además el *history routing*, un mecanismo sin parámetros que recupera dinámicamente los k fotogramas históricos más relevantes para cada consulta. Los experimentos demuestran que nuestro enfoque logra un rendimiento comparable a las líneas base basadas en destilación, mientras exhibe una consistencia temporal superior en videos más largos gracias al entrenamiento con duración nativa.
La conducción autónoma ha dependido durante mucho tiempo de arquitecturas modulares del tipo "Percepción-Decisión-Acción", donde las interfaces diseñadas manualmente y los componentes basados en reglas suelen fallar en escenarios complejos o de cola larga. Su diseño en cascada propaga además los errores de percepción, degradando la planificación y el control subsiguientes. Los modelos Visión-Acción (VA) abordan algunas limitaciones al aprender mapeos directos de las entradas visuales a las acciones, pero siguen siendo opacos, sensibles a los cambios de distribución y carecen de capacidades de razonamiento estructurado o de seguimiento de instrucciones. Los recientes avances en los Modelos de Lenguaje Grande (LLM) y el aprendizaje multimodal han motivado la aparición de los marcos Visión-Lenguaje-Acción (VLA), que integran la percepción con la toma de decisiones basada en lenguaje. Al unificar la comprensión visual, el razonamiento lingüístico y las salidas accionables, los VLA ofrecen un camino hacia políticas de conducción más interpretables, generalizables y alineadas con los humanos. Este trabajo proporciona una caracterización estructurada del emergente panorama VLA para la conducción autónoma. Trazamos la evolución desde los primeros enfoques VA hasta los marcos VLA modernos y organizamos los métodos existentes en dos paradigmas principales: VLA de Extremo a Extremo, que integra percepción, razonamiento y planificación en un único modelo, y VLA de Sistema Dual, que separa la deliberación lenta (mediante Modelos de Lenguaje Visual - VLM) de la ejecución rápida y crítica para la seguridad (mediante planificadores). Dentro de estos paradigmas, distinguimos además subclases, como los generadores de acciones textuales frente a los numéricos y los mecanismos de guía explícitos frente a los implícitos. También resumimos los conjuntos de datos y puntos de referencia representativos para evaluar los sistemas de conducción basados en VLA y destacamos los principales desafíos y direcciones abiertas, incluyendo la robustez, la interpretabilidad y la fidelidad a las instrucciones. En general, este trabajo pretende establecer una base coherente para avanzar en el desarrollo de sistemas de conducción autónoma compatibles con los humanos.
Los recientes avances en generación de vídeo han sido notables, permitiendo a los modelos producir vídeos visualmente atractivos con audio sincronizado. Si bien los puntos de referencia existentes para la generación de vídeo ofrecen métricas exhaustivas sobre la calidad visual, carecen de evaluaciones convincentes para la generación de audio-vídeo, especialmente para modelos que buscan generar salidas de audio y vídeo sincronizadas. Para abordar esta carencia, presentamos VABench, un marco de evaluación integral y multidimensional diseñado para evaluar sistemáticamente las capacidades de la generación síncrona de audio-vídeo. VABench abarca tres tipos principales de tareas: texto-a-audio-vídeo (T2AV), imagen-a-audio-vídeo (I2AV) y generación de audio-vídeo estéreo. Además, establece dos módulos principales de evaluación que cubren 15 dimensiones. Estas dimensiones evalúan específicamente similitudes pareadas (texto-vídeo, texto-audio, vídeo-audio), sincronización audio-vídeo, coherencia labial-vocal, y pares cuidadosamente seleccionados de preguntas y respuestas (QA) sobre audio y vídeo, entre otros aspectos. Asimismo, VABench cubre siete categorías principales de contenido: animales, sonidos humanos, música, sonidos ambientales, sonidos físicos síncronos, escenas complejas y mundos virtuales. Proporcionamos un análisis sistemático y una visualización de los resultados de la evaluación, con el objetivo de establecer un nuevo estándar para valorar modelos de generación de vídeo con capacidades de audio síncrono y promover el avance integral del campo.
A nivel más básico, los píxeles son la fuente de la información visual a través de la cual percibimos el mundo. Los píxeles contienen información en todos los niveles, desde atributos de bajo nivel hasta conceptos de alto nivel. Los autocodificadores representan un paradigma clásico y consolidado para aprender representaciones a partir de píxeles u otras entradas en bruto. En este trabajo, demostramos que el aprendizaje auto-supervisado basado en autocodificadores sigue siendo competitivo en la actualidad y puede producir representaciones sólidas para tareas posteriores, manteniéndose simple, estable y eficiente. Nuestro modelo, denominado en clave "Pixio", es un autocodificador enmascarado mejorado (MAE) con tareas de pre-entrenamiento más desafiantes y arquitecturas más capaces. El modelo se entrena con 2.000 millones de imágenes obtenidas de la web mediante una estrategia de autocuración con una intervención humana mínima. Pixio tiene un rendimiento competitivo en una amplia gama de tareas posteriores en entornos reales, incluyendo la estimación de profundidad monocular (por ejemplo, Depth Anything), la reconstrucción 3D de paso directo (es decir, MapAnything), la segmentación semántica y el aprendizaje robótico, superando o igualando a DINOv3 entrenado a escalas similares. Nuestros resultados sugieren que el aprendizaje auto-supervisado en el espacio de píxeles puede servir como una alternativa prometedora y un complemento a los enfoques en el espacio latente.
La rápida evolución de los modelos de generación de texto a imagen ha revolucionado la creación de contenido visual. Si bien productos comerciales como Nano Banana Pro han captado una atención significativa, su potencial como solucionadores generalistas para desafíos tradicionales de visión de bajo nivel sigue estando en gran parte sin explorar. En este estudio, investigamos la cuestión crítica: ¿Es Nano Banana Pro un todoterreno para la visión de bajo nivel? Realizamos una evaluación integral de cero disparos en 14 tareas distintas de bajo nivel que abarcan 40 conjuntos de datos diversos. Mediante el uso de indicaciones textuales simples sin ajuste fino, comparamos a Nano Banana Pro con modelos especialistas de última generación. Nuestro extenso análisis revela una dicotomía de rendimiento distintiva: si bien Nano Banana Pro demuestra una calidad visual subjetiva superior, a menudo alucinando detalles plausibles de alta frecuencia que superan a los modelos especialistas, se queda atrás en las métricas cuantitativas tradicionales basadas en referencia. Atribuimos esta discrepancia a la estocasticidad inherente de los modelos generativos, que luchan por mantener la estricta consistencia a nivel de píxel requerida por las métricas convencionales. Este informe identifica a Nano Banana Pro como un competidor capaz de cero disparos para tareas de visión de bajo nivel, al mismo tiempo que destaca que lograr la alta fidelidad de los especialistas de dominio sigue siendo un obstáculo significativo.
Presentamos FrontierCS, un benchmark de 156 problemas abiertos en diversas áreas de la informática, diseñado y revisado por expertos, incluidos doctores en Informática y participantes y creadores de problemas de primer nivel en programación competitiva. A diferencia de los benchmarks existentes que se centran en tareas con soluciones óptimas conocidas, FrontierCS se dirige a problemas donde la solución óptima es desconocida, pero la calidad de una solución puede evaluarse objetivamente. Los modelos resuelven estas tareas implementando programas ejecutables en lugar de generar una respuesta directa. FrontierCS incluye problemas algorítmicos, que a menudo son variantes NP-difíciles de problemas de programación competitiva con puntuación parcial objetiva, y problemas de investigación con la misma propiedad. Para cada problema, proporcionamos una solución de referencia experta y un evaluador automático. Combinando un diseño abierto, un progreso medible y una curación experta, FrontierCS ofrece un benchmark en la frontera de la dificultad en informática. Empíricamente, encontramos que los modelos de razonamiento de frontera aún están muy por detrás de los expertos humanos tanto en las vías algorítmicas como de investigación, que el aumento únicamente de los recursos de razonamiento no cierra esta brecha, y que los modelos a menudo sobreoptimizan la generación de código simplemente funcional en lugar de descubrir algoritmos y diseños de sistemas de alta calidad.
Los costes computacionales y de memoria asociados a la expansión de la ventana contextual de los LLM limitan severamente su escalabilidad. Una solución notable es la compresión texto-visual (VTC), ejemplificada por marcos como DeepSeek-OCR y Glyph, que convierten textos largos en representaciones visuales 2D densas, logrando así ratios de compresión de tokens de 3x a 20x. Sin embargo, el impacto de esta alta densidad de información en las capacidades centrales de contexto largo de los modelos de lenguaje visual (VLM) sigue estando poco investigado. Para abordar esta brecha, presentamos el primer benchmark para VTC y evaluamos sistemáticamente el rendimiento de los VLM en tres escenarios de comprensión de contexto largo: VTC-Recuperación, que evalúa la capacidad del modelo para recuperar y agregar información; VTC-Razonamiento, que requiere que los modelos infieran asociaciones latentes para localizar hechos con superposición léxica mínima; y VTC-Memoria, que mide la respuesta a preguntas dentro de la memoria de diálogo a largo plazo. Además, establecemos VTCBench-Wild para simular diversos escenarios de entrada. Evaluamos exhaustivamente modelos líderes de código abierto y propietarios en nuestros benchmarks. Los resultados indican que, a pesar de poder decodificar bien la información textual (por ejemplo, OCR), la mayoría de los VLM muestran una capacidad de comprensión de contexto largo sorprendentemente pobre con información comprimida VTC, sin lograr capturar asociaciones o dependencias largas en el contexto. Este estudio proporciona una comprensión profunda de VTC y sirve como base para diseñar VLM más eficientes y escalables.
Los agentes de modelos de lenguaje grande (LLM) se despliegan cada vez más en entornos que generan contextos masivos y dinámicos. Sin embargo, persiste un cuello de botella crítico: aunque los agentes tienen acceso a este contexto, sus *prompts* estáticos carecen de los mecanismos para gestionarlo eficazmente, lo que conduce a fallos recurrentes de Corrección y Mejora. Para abordar esta brecha de capacidad, presentamos SCOPE (Optimización de Contexto Autoevolutivo mediante Evolución de *Prompts*). SCOPE plantea la gestión del contexto como un problema de optimización en línea, sintetizando directrices a partir de trazas de ejecución para evolucionar automáticamente el *prompt* del agente. Proponemos un mecanismo de Doble Flujo que equilibra la especificidad táctica (resolver errores inmediatos) con la generalidad estratégica (evolucionar principios a largo plazo). Además, introducimos la Exploración Guiada por Perspectivas para maximizar la cobertura de estrategias, aumentando la probabilidad de que el agente tenga la estrategia correcta para cualquier tarea dada. Los experimentos en el benchmark HLE muestran que SCOPE mejora las tasas de éxito de las tareas del 14.23 % al 38.64 % sin intervención humana. Ponemos nuestro código a disposición del público en https://github.com/JarvisPei/SCOPE.
El Sistema de Identificación Automática (AIS) permite la vigilancia marítima basada en datos, pero adolece de problemas de fiabilidad e intervalos irregulares. Abordamos la estimación del destino de los buques utilizando datos AIS de alcance global mediante un enfoque diferenciado que reformula las largas trayectorias de puerto a puerto como una estructura de secuencia anidada. Utilizando cuadrículas espaciales, este método mitiga el sesgo espacio-temporal preservando al mismo tiempo una resolución detallada. Presentamos una novedosa arquitectura de aprendizaje profundo, WAY, diseñada para procesar estas trayectorias reformuladas con el fin de estimar el destino a largo plazo con días o semanas de antelación. WAY comprende una capa de representación de trayectorias y bloques de Procesamiento Secuencial con Agregación de Canales (CASP). La capa de representación genera secuencias vectoriales multicanal a partir de características cinemáticas y no cinemáticas. Los bloques CASP utilizan atención multicanal y auto-atención para la agregación y el procesamiento de la información secuencial. Adicionalmente, proponemos una técnica especializada para la tarea, el Abandono de Gradiente (GD), que permite el entrenamiento de muchos-a-muchos con etiquetas únicas, evitando picos de retroalimentación sesgada mediante el bloqueo estocástico del flujo de gradiente en función de la longitud de la muestra. Los experimentos con datos AIS de 5 años demuestran la superioridad de WAY sobre los enfoques convencionales basados en cuadrículas espaciales, independientemente del progreso de la trayectoria. Los resultados confirman además que la adopción de GD conduce a mejoras en el rendimiento. Finalmente, exploramos el potencial de WAY para aplicaciones en el mundo real mediante el aprendizaje multitarea para la estimación del Tiempo Estimado de Llegada (ETA).
El rendimiento de los agentes de aprendizaje por refuerzo (RL) depende críticamente de la calidad de las representaciones de características subyacentes. Los espacios de características hiperbólicos son muy adecuados para este propósito, ya que capturan de forma natural la estructura jerárquica y relacional que suele estar presente en entornos complejos de RL. Sin embargo, el aprovechamiento de estos espacios comúnmente enfrenta desafíos de optimización debido a la no estacionariedad del RL. En este trabajo, identificamos los factores clave que determinan el éxito y el fracaso del entrenamiento de agentes profundos de RL hiperbólicos. Al analizar los gradientes de las operaciones centrales en los modelos de Bola de Poincaré e Hiperboloide de la geometría hiperbólica, demostramos que las incrustaciones de norma grande desestabilizan el entrenamiento basado en gradientes, lo que conduce a violaciones de la región de confianza en la optimización de políticas proximales (PPO). Basándonos en estas ideas, presentamos Hyper++, un nuevo agente PPO hiperbólico que consta de tres componentes: (i) entrenamiento estable del crítico mediante una pérdida de valor categórica en lugar de regresión; (ii) regularización de características que garantiza normas acotadas mientras evita la maldición de la dimensionalidad del recorte; y (iii) el uso de una formulación más amigable para la optimización de las capas de red hiperbólicas. En experimentos con ProcGen, mostramos que Hyper++ garantiza un aprendizaje estable, supera a los agentes hiperbólicos anteriores y reduce el tiempo de ejecución en aproximadamente un 30%. En Atari-5 con Double DQN, Hyper++ supera ampliamente a los baselines euclidianos e hiperbólicos. Publicamos nuestro código en https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
Los modelos lingüísticos pequeños (SLM, por sus siglas en inglés) se utilizan ampliamente en tareas que requieren baja latencia y una implementación ligera, particularmente en clasificación. A medida que la interpretabilidad y la robustez ganan importancia creciente, el aprendizaje guiado por explicaciones ha surgido como un marco efectivo al introducir supervisión basada en atribución durante el entrenamiento; sin embargo, derivar *priors* de atribución generales y confiables sigue siendo un desafío significativo. Mediante un análisis de métodos de atribución representativos en entornos de clasificación, encontramos que, aunque estos métodos pueden resaltar de manera confiable los *tokens* relevantes para la clase, a menudo se centran en palabras clave comunes compartidas por clases semánticamente similares. Dado que dichas clases ya son difíciles de distinguir bajo un entrenamiento estándar, estas atribuciones proporcionan señales discriminatorias insuficientes, limitando su capacidad para mejorar la diferenciación del modelo. Para superar esta limitación, proponemos *Class-Aware Attribution Prior* (CAP), un novedoso marco de extracción de *priors* de atribución que guía a los modelos lingüísticos hacia la captura de distinciones de clase de grano fino y la producción de *priors* de atribución más salientes y discriminatorios. Sobre esta base, introducimos además CAP Híbrido, que combina los *priors* de CAP con los de técnicas de atribución existentes para formar una señal de supervisión más completa y equilibrada. Al alinear la auto-atribución de un modelo con estos *priors* enriquecidos, nuestro enfoque fomenta el aprendizaje de características diversas y relevantes para la decisión. Experimentos exhaustivos en escenarios de datos completos, *few-shot* y adversarios demuestran que nuestro método mejora consistentemente tanto la interpretabilidad como la robustez.
Los modelos Mixture of Experts (MoE) han surgido como la arquitectura de facto para escalar modelos de lenguaje sin aumentar significativamente el coste computacional. Los modelos MoE recientes demuestran una clara tendencia hacia una alta granularidad de expertos (dimensión intermedia del experto más pequeña) y una mayor dispersión (número constante de expertos activados con un mayor número total de expertos), lo que mejora la calidad del modelo por FLOP. Sin embargo, los MoE de grano fino sufren un mayor uso de memoria de activaciones y una reducción de la eficiencia del hardware debido a mayores costes de E/S, mientras que los MoE más dispersos sufren de cálculos desperdiciados debido al relleno (padding) en los kernels Grouped GEMM. En respuesta, proponemos un algoritmo eficiente en memoria para calcular las pasadas hacia adelante y hacia atrás de los MoE con un almacenamiento en caché mínimo de activaciones para la pasada hacia atrás. También diseñamos kernels de GPU que solapan la E/S de memoria con el cálculo, beneficiando a todas las arquitecturas MoE. Finalmente, proponemos un novedoso método de "redondeo de tokens" que minimiza el cómputo desperdiciado debido al relleno en los kernels Grouped GEMM. Como resultado, nuestro método SonicMoE reduce la memoria de activaciones en un 45% y logra una mejora del rendimiento de cómputo de 1.86x en GPUs Hopper en comparación con el kernel MoE BF16 de ScatterMoE para un MoE de grano fino de 7B. Concretamente, SonicMoE en 64 H100s alcanza un rendimiento de entrenamiento de 213 mil millones de tokens por día, comparable a los 225 mil millones de tokens por día de ScatterMoE en 96 H100s para el entrenamiento de un modelo MoE de 7B con FSDP-2 utilizando el código base de lm-engine. Bajo configuraciones de alta dispersión MoE, nuestro algoritmo de redondeo de tokens consciente de los 'tiles' produce una aceleración adicional de 1.16x en el tiempo de ejecución del kernel en comparación con el enrutamiento top-K convencional, manteniendo un rendimiento posterior similar. Liberamos todo nuestro código de kernels como open-source para permitir un entrenamiento más rápido de modelos MoE.
Un LLM personalizado debe recordar datos del usuario, aplicarlos correctamente y adaptarse con el tiempo para ofrecer respuestas que el usuario prefiera. Los puntos de referencia existentes para la personalización de LLM se centran principalmente en dos ejes: recordar con precisión la información del usuario y aplicar con precisión la información recordada en tareas posteriores. Sostenemos que un tercer eje, la capacidad de agrado (likability), es tanto subjetivo como central para la experiencia del usuario, y sin embargo, está insuficientemente medido por los puntos de referencia actuales. Para medir la capacidad de agrado de manera integral, presentamos LikeBench, un marco de evaluación dinámico y multi-sesión que mide la capacidad de agrado en múltiples dimensiones según cuánto pueda un LLM adaptarse con el tiempo a las preferencias de un usuario para ofrecer respuestas más agradables. En LikeBench, los LLM participan en una conversación con un usuario simulado y aprenden preferencias únicamente del diálogo en curso. A medida que la interacción se desarrolla, los modelos intentan adaptar sus respuestas, y después de cada turno, son evaluados en su capacidad de agrado a través de siete dimensiones por el mismo usuario simulado. Hasta donde sabemos, somos los primeros en descomponer la capacidad de agrado en múltiples métricas diagnósticas: adaptación emocional, ajuste de formalidad, adaptación de conocimiento, comprensión de referencias, ajuste de longitud de conversación, ajuste de humor y uso de referencias previas (callback), lo que facilita identificar en qué aspecto falla un modelo. Para hacer que el usuario simulado sea más realista y discriminativo, LikeBench utiliza personas descriptivas con base psicológica y grano fino, en lugar de las personas basadas en calificaciones de rasgos alto/bajo y gruesas utilizadas en trabajos anteriores. Nuestro punto de referencia muestra que un buen rendimiento en memoria no garantiza una alta capacidad de agrado: DeepSeek R1, con una precisión de memoria menor (86%, 17 hechos por perfil), superó a Qwen3 en un 28% en la puntuación de agrado a pesar de la mayor precisión de memoria de Qwen3 (93%, 43 hechos por perfil). Incluso modelos de vanguardia como GPT-5 se adaptan bien en intercambios cortos, pero muestran una solidez limitada en interacciones más largas y ruidosas.
La manipulación robótica requiere tanto una percepción multimodal rica como marcos de aprendizaje efectivos para manejar tareas complejas del mundo real. Los sensores de tipo "ver a través de la piel" (STS, por sus siglas en inglés), que combinan percepción táctil y visual, ofrecen capacidades de detección prometedoras, mientras que la imitación moderna proporciona herramientas poderosas para la adquisición de políticas. Sin embargo, los diseños STS existentes carecen de percepción multimodal simultánea y adolecen de un seguimiento táctil poco fiable. Además, integrar estas señales multimodales ricas en pipelines de manipulación basados en aprendizaje sigue siendo un desafío abierto. Presentamos TacThru, un sensor STS que permite la percepción visual simultánea y la extracción robusta de señales táctiles, y TacThru-UMI, un marco de aprendizaje por imitación que aprovecha estas señales multimodales para la manipulación. Nuestro sensor presenta un elastómero completamente transparente, iluminación persistente, nuevos marcadores de líneas de referencia y un seguimiento eficiente, mientras que nuestro sistema de aprendizaje integra estas señales mediante una Política de Difusión basada en Transformer. Los experimentos en cinco tareas desafiantes del mundo real muestran que TacThru-UMI alcanza una tasa de éxito promedio del 85.5%, superando significativamente a los baselines de alternancia táctil-visual (66.3%) y solo visión (55.4%). El sistema sobresale en escenarios críticos, incluyendo la detección de contacto con objetos delgados y blandos y la manipulación de precisión que requiere coordinación multimodal. Este trabajo demuestra que combinar la percepción multimodal simultánea con marcos de aprendizaje modernos permite una manipulación robótica más precisa y adaptable.
La conversación humana implica intercambios continuos de habla y señales no verbales, como asentimientos con la cabeza, cambios de mirada y expresiones faciales, que transmiten atención y emoción. Modelar estas dinámicas bidireccionales en 3D es esencial para crear avatares expresivos y robots interactivos. Sin embargo, los marcos existentes suelen tratar el hablar y el escuchar como procesos independientes o se basan en modelos no causales de secuencia completa, lo que dificulta la coherencia temporal entre turnos. Presentamos TIMAR (AutoRegresión Enmascarada Entrelazada a Nivel de Turno), un marco causal para la generación de cabezas conversacionales en 3D que modela el diálogo como contextos audiovisuales entrelazados. Este método fusiona información multimodal dentro de cada turno y aplica atención causal a nivel de turno para acumular el historial conversacional, mientras que un cabezal de difusión ligero predice dinámicas continuas de la cabeza en 3D que capturan tanto la coordinación como la variabilidad expresiva. Los experimentos en el benchmark DualTalk muestran que TIMAR reduce la Distancia de Fréchet y el MSE en un 15-30% en el conjunto de prueba y logra mejoras similares en datos fuera de distribución. El código fuente se publicará en el repositorio de GitHub https://github.com/CoderChen01/towards-seamleass-interaction.