Artículos de investigación en IA seleccionados diariamente con traducciones
El paradigma de "Pensar con Texto" y "Pensar con Imágenes" mejora significativamente la capacidad de razonamiento de los Modelos de Lenguaje Grandes (LLM) y los Modelos de Lenguaje Visual (VLM). Sin embargo, estos paradigmas presentan limitaciones inherentes. (1) Las imágenes capturan solo momentos únicos y no logran representar procesos dinámicos o cambios continuos, y (2) La separación del texto y la visión como modalidades distintas obstaculiza la comprensión y generación multimodal unificada. Para superar estas limitaciones, presentamos "Pensar con Video", un nuevo paradigma que aprovecha los modelos de generación de video, como Sora-2, para unir el razonamiento visual y textual en un marco temporal unificado. Para respaldar esta exploración, desarrollamos el Benchmark de Pensamiento de Video (VideoThinkBench). VideoThinkBench abarca dos categorías de tareas: (1) tareas centradas en la visión (por ejemplo, Rompecabezas Visuales), y (2) tareas centradas en el texto (por ejemplo, subconjuntos de GSM8K, MMMU). Nuestra evaluación establece a Sora-2 como un razonador competente. En las tareas centradas en la visión, Sora-2 es generalmente comparable a los VLM de vanguardia (SOTA), e incluso supera a los VLM en varias tareas, como los Juegos de Agudeza Visual. En las tareas centradas en el texto, Sora-2 alcanza un 92% de precisión en MATH y un 75.53% de precisión en MMMU. Además, analizamos sistemáticamente el origen de estas capacidades. También encontramos que la auto-consistencia y el aprendizaje en contexto pueden mejorar el rendimiento de Sora-2. En resumen, nuestros hallazgos demuestran que el modelo de generación de video es el potencial modelo unificado de comprensión y generación multimodal, posicionando el "pensar con video" como un paradigma unificado de razonamiento multimodal.
Potenciar a los Grandes Modelos Multimodales (LMMs) para integrar profundamente la interacción con imágenes y capacidades de razonamiento de largo alcance sigue siendo un desafío persistente en este campo. Los avances recientes en el razonamiento centrado en la visión exploran un paradigma prometedor de "Pensar con Imágenes" para los LMMs, marcando un cambio desde el razonamiento asistido por imágenes hacia el pensamiento interactivo con imágenes. Si bien este hito permite a los modelos centrarse en regiones finas de la imagen, el progreso sigue limitado por espacios de herramientas visuales restringidos y diseños de flujo de trabajo específicos para cada tarea. Para cerrar esta brecha, presentamos V-Thinker, un asistente de razonamiento multimodal de propósito general que permite un pensamiento interactivo y centrado en la visión mediante aprendizaje por refuerzo de extremo a extremo. V-Thinker comprende dos componentes clave: (1) un Volante de Inercia de Evolución de Datos que sintetiza, evoluciona y verifica automáticamente conjuntos de datos de razonamiento interactivo en tres dimensiones: diversidad, calidad y dificultad; y (2) un Plan de Estudios de Entrenamiento Progresivo Visual que primero alinea la percepción mediante supervisión a nivel de puntos, para luego integrar el razonamiento interactivo a través de un marco de aprendizaje por refuerzo en dos etapas. Además, presentamos VTBench, un punto de referencia verificado por expertos dirigido a tareas de razonamiento interactivo centradas en la visión. Experimentos exhaustivos demuestran que V-Thinker supera consistentemente a las sólidas líneas base basadas en LMMs tanto en escenarios de razonamiento general como interactivo, proporcionando perspectivas valiosas para avanzar en aplicaciones de razonamiento interactivo con imágenes.
Si bien el aprendizaje por refuerzo (RL) puede potenciar a los agentes de modelos de lenguaje grandes (LLM) al permitir la auto-mejora mediante la interacción, su adopción práctica sigue siendo un desafío debido a los costosos despliegues (rollouts), la limitada diversidad de tareas, las señales de recompensa poco fiables y la complejidad de la infraestructura, todo lo cual obstaculiza la recopilación de datos de experiencia escalables. Para abordar estos desafíos, presentamos DreamGym, el primer marco unificado diseñado para sintetizar experiencias diversas con la escalabilidad en mente, para permitir un entrenamiento RL en línea efectivo para agentes autónomos. En lugar de depender de costosos despliegues en entornos reales, DreamGym destila la dinámica del entorno en un modelo de experiencia basado en razonamiento que deriva transiciones de estado consistentes y señales de retroalimentación a través de un razonamiento paso a paso, permitiendo la recopilación escalable de despliegues de agentes para RL. Para mejorar la estabilidad y calidad de las transiciones, DreamGym aprovecha un búfer de reproducción de experiencias (experience replay buffer) inicializado con datos del mundo real fuera de línea y enriquecido continuamente con interacciones frescas para apoyar activamente el entrenamiento del agente. Para mejorar la adquisición de conocimientos, DreamGym genera adaptativamente nuevas tareas que desafían la política actual del agente, permitiendo un aprendizaje curricular en línea más efectivo. Los experimentos en diversos entornos y arquitecturas de agentes demuestran que DreamGym mejora sustancialmente el entrenamiento RL, tanto en entornos completamente sintéticos como en escenarios de transferencia de simulación a realidad (sim-to-real). En tareas no preparadas para RL como WebArena, DreamGym supera a todos los métodos de referencia (baselines) en más de un 30%. Y en entornos preparados para RL pero costosos, iguala el rendimiento de GRPO y PPO utilizando solo interacciones sintéticas. Al transferir una política entrenada únicamente con experiencias sintéticas a un RL en entorno real, DreamGym produce ganancias de rendimiento adicionales significativas mientras requiere muchas menos interacciones del mundo real, proporcionando una estrategia de arranque en caliente (warm-start) escalable para RL de propósito general.
Sostenemos que el progreso en la inteligencia multimodal auténtica requiere un cambio de paradigma, alejándose de sistemas reactivos orientados a tareas y del uso de contexto largo por fuerza bruta, hacia un paradigma más amplio de supersensibilidad. Enmarcamos la supersensibilidad espacial como cuatro etapas que van más allá de la comprensión exclusivamente lingüística: percepción semántica (nombrar lo que se ve), cognición de eventos en flujo continuo (mantener la memoria a través de experiencias continuas), cognición espacial 3D implícita (inferir el mundo detrás de los píxeles) y modelado predictivo del mundo (crear modelos internos que filtran y organizan la información). Los puntos de referencia actuales evalúan principalmente las primeras etapas, ofreciendo una cobertura limitada de la cognición espacial y rara vez desafiando a los modelos de manera que requieran un verdadero modelado del mundo. Para impulsar el progreso en la supersensibilidad espacial, presentamos VSI-SUPER, un punto de referencia de dos partes: VSR (recuerdo visual espacial de largo horizonte) y VSC (conteo visual espacial continuo). Estas tareas requieren entradas de video de longitud arbitraria, pero son resistentes a la expansión de contexto por fuerza bruta. Luego, probamos los límites del escalado de datos mediante la curación de VSI-590K y el entrenamiento de Cambrian-S, logrando una mejora absoluta del +30% en VSI-Bench sin sacrificar las capacidades generales. Sin embargo, el rendimiento en VSI-SUPER sigue siendo limitado, lo que indica que la escala por sí sola es insuficiente para la supersensibilidad espacial. Proponemos la sensibilidad predictiva como un camino a seguir, presentando una prueba de concepto en la que un predictor auto-supervisado del siguiente fotograma latente aprovecha la sorpresa (error de predicción) para impulsar la memoria y la segmentación de eventos. En VSI-SUPER, este enfoque supera sustancialmente a los principales modelos de referencia propietarios, demostrando que la supersensibilidad espacial requiere modelos que no solo ven, sino que también anticipan, seleccionan y organizan la experiencia.
Presentamos Nemotron Nano V2 VL, el último modelo de la serie Nemotron de lenguaje visual, diseñado para ofrecer una sólida comprensión de documentos del mundo real, comprensión de vídeos largos y tareas de razonamiento. Nemotron Nano V2 VL ofrece mejoras significativas respecto a nuestro modelo anterior, Llama-3.1-Nemotron-Nano-VL-8B, en todos los dominios visuales y textuales, gracias a importantes mejoras en la arquitectura del modelo, los conjuntos de datos y las metodologías de entrenamiento. Nemotron Nano V2 VL se basa en Nemotron Nano V2, un LLM híbrido Mamba-Transformer, y en técnicas innovadoras de reducción de tokens para lograr un mayor rendimiento en inferencia en escenarios de documentos y vídeos largos. Estamos publicando puntos de control del modelo en formatos BF16, FP8 y FP4, y compartiendo gran parte de nuestros conjuntos de datos, metodologías y código de entrenamiento.
La hipótesis del boleto de lotería fuerte (SLTH) conjetura que existen subredes de alto rendimiento, llamadas boletos de lotería fuertes (SLTs), ocultas en redes neuronales inicializadas aleatoriamente. Aunque estudios teóricos recientes han establecido la SLTH en diversas arquitecturas neuronales, la SLTH para arquitecturas de transformadores aún carece de comprensión teórica. En particular, la teoría actual de la SLTH aún no explica el mecanismo de atención multi-cabeza (MHA), un componente central de los transformadores. Para abordar esta brecha, presentamos un análisis teórico de la existencia de SLTs dentro de los MHAs. Demostramos que, si un MHA inicializado aleatoriamente con H cabezas y dimensión de entrada d tiene una dimensión oculta de O(dlog(Hd^{3/2})) para la clave y el valor, contiene un SLT que aproxima un MHA arbitrario con la misma dimensión de entrada con alta probabilidad. Además, al aprovechar esta teoría para los MHAs, extendemos la SLTH a transformadores sin capas de normalización. Validamos empíricamente nuestros hallazgos teóricos, demostrando que el error de aproximación entre el SLT dentro de un modelo fuente (MHA y transformador) y una contraparte objetivo aproximada disminuye exponencialmente al aumentar la dimensión oculta del modelo fuente.
Presentamos GUI-360°, un conjunto de datos a gran escala y exhaustivo, junto con un conjunto de pruebas de referencia, diseñado para impulsar el avance de los agentes de uso informático (CUA, por sus siglas en inglés). Los CUA presentan desafíos únicos y están limitados por tres brechas persistentes: la escasez de tareas realistas para CUA, la falta de pipelines automatizados de recopilación y anotación para trayectorias multimodales, y la ausencia de una prueba de referencia unificada que evalúe conjuntamente el grounding en la GUI, el análisis de pantalla y la predicción de acciones. GUI-360° aborda estas brechas con una pipeline aumentada por LLM y en gran medida automatizada para la obtención de consultas, la construcción de plantillas de entorno, la instanciación de tareas, la ejecución por lotes y el filtrado de calidad impulsado por LLM. El corpus publicado contiene más de 1.2 millones de pasos de acción ejecutados a lo largo de miles de trayectorias en aplicaciones populares de oficina de Windows, e incluye capturas de pantalla en resolución completa, metadatos de accesibilidad cuando están disponibles, objetivos instanciados, trazas de razonamiento intermedias y trayectorias de acción tanto exitosas como fallidas. El conjunto de datos admite tres tareas canónicas: grounding en la GUI, análisis de pantalla y predicción de acciones, así como un espacio de acciones híbrido GUI+API que refleja los diseños modernos de agentes. La evaluación de modelos de última generación de visión y lenguaje en GUI-360° revela deficiencias sustanciales inmediatas en el grounding y la predicción de acciones; el ajuste fino supervisado y el aprendizaje por refuerzo producen mejoras significativas, pero no logran alcanzar la confiabilidad a nivel humano. Publicamos GUI-360° y el código asociado para facilitar la investigación reproducible y acelerar el progreso en el desarrollo de CUA robustos para entornos de escritorio. El conjunto de datos completo ha sido hecho público en https://huggingface.co/datasets/vyokky/GUI-360.
Los recientes avances en Modelos de Visión-Lenguaje (VLM) han logrado un rendimiento de vanguardia en numerosas tareas de evaluación comparativa. Sin embargo, el uso de corpus de preentrenamiento a escala de internet, a menudo propietarios, plantea una preocupación crítica tanto para profesionales como para usuarios: un rendimiento inflado debido a la filtración del conjunto de pruebas. Si bien trabajos anteriores han propuesto estrategias de mitigación, como la descontaminación de datos de preentrenamiento y el rediseño de benchmarks para LLMs, la dirección complementaria de desarrollar métodos de detección para VLMs contaminados sigue estando poco explorada. Para abordar esta brecha, contaminamos deliberadamente VLMs de código abierto en benchmarks populares y demostramos que los enfoques de detección existentes fallan por completo o exhiben un comportamiento inconsistente. Luego proponemos un novedoso método de detección simple pero efectivo basado en perturbación semántica multimodal, demostrando que los modelos contaminados no logran generalizar bajo perturbaciones controladas. Finalmente, validamos nuestro enfoque en múltiples estrategias de contaminación realistas, confirmando su robustez y efectividad. El código y el conjunto de datos perturbado se publicarán abiertamente.
Los puntos de referencia sólidos son cruciales para evaluar los Modelos de Lenguaje Grandes Multimodales (MLLM, por sus siglas en inglés). Sin embargo, encontramos que los modelos pueden superar muchas pruebas multimodales sin una comprensión visual sólida, explotando en su lugar sesgos, conocimientos previos lingüísticos y patrones superficiales. Esto es especialmente problemático para los puntos de referencia centrados en la visión que están diseñados para requerir entradas visuales. Adoptamos un principio de diagnóstico para el diseño de puntos de referencia: si un punto de referencia puede ser "hackeado", lo será. Por lo tanto, los diseñadores deberían intentar "hackear" sus propias pruebas primero, utilizando procedimientos de diagnóstico y eliminación de sesgos para identificar y mitigar sistemáticamente los sesgos no visuales. Un diagnóstico efectivo requiere "entrenar directamente en el conjunto de prueba" — sondeando el conjunto de prueba publicado para descubrir sus patrones intrínsecos y explotables. Operacionalizamos este estándar con dos componentes. Primero, diagnosticamos la susceptibilidad del punto de referencia utilizando una metodología de "Prueba de Estrés del Conjunto de Prueba" (TsT, por sus siglas en inglés). Nuestra herramienta de diagnóstico principal implica ajustar (fine-tune) un Modelo de Lenguaje Grande potente mediante validación cruzada k-fold utilizando exclusivamente las entradas textuales (no visuales) del conjunto de prueba para revelar el rendimiento por atajos y asignar a cada muestra una puntuación de sesgo s(x). Complementamos esto con un diagnóstico ligero basado en Bosques Aleatorios (Random Forest) que opera sobre características creadas manualmente para una auditoría rápida e interpretable. En segundo lugar, eliminamos los sesgos de los puntos de referencia filtrando las muestras de alto sesgo mediante un procedimiento de "Poda Iterativa de Sesgos" (IBP, por sus siglas en inglés). Aplicando este marco a cuatro puntos de referencia —VSI-Bench, CV-Bench, MMMU y VideoMME— descubrimos sesgos no visuales generalizados. Como estudio de caso, aplicamos nuestro marco completo para crear VSI-Bench-Debiased, demostrando una reducida capacidad de resolución no visual y una brecha de rendimiento mayor para modelos sin visión (vision-blind) en comparación con el original.
Los patrones emergentes en sistemas de Grandes Modelos de Lenguaje (LLM), como la inferencia desagregada, el enrutamiento Mixture-of-Experts (MoE) y el ajuste fino asíncrono por refuerzo, requieren comunicación punto a punto flexible que va más allá de los colectivos simples. Las implementaciones existentes están vinculadas a Controladores de Interfaz de Red (NIC) específicos, dificultando su integración en motores de inferencia y la portabilidad entre proveedores de hardware. Presentamos TransferEngine, que une la funcionalidad de NICs comunes para exponer una interfaz uniforme. TransferEngine expone operaciones WriteImm unilaterales con una primitiva ImmCounter para notificación de finalización, sin asumir ordenamiento del transporte de red, gestionando transparentemente múltiples NICs por GPU. Demostramos un rendimiento máximo de 400 Gbps tanto en NVIDIA ConnectX-7 como en AWS Elastic Fabric Adapter (EFA). Exhibimos TransferEngine mediante tres sistemas de producción: (1) transferencia de KvCache para inferencia desagregada con escalado dinámico, (2) actualizaciones de pesos de RL que logran 1.3 segundos para modelos de billones de parámetros, y (3) implementación de despacho/combinación MoE que supera la latencia de decodificación de DeepEP en ConnectX-7, con las primeras latencias viables en EFA. Demostramos que nuestra comunicación punto a punto portable complementa los colectivos mientras evita la dependencia tecnológica.
Proponemos EVTAR, un modelo de Prueba Virtual de Fin a Fin con Referencia Adicional, que ajusta directamente la prenda objetivo sobre la imagen de la persona mientras incorpora imágenes de referencia para mejorar la precisión de la prueba. La mayoría de los enfoques existentes de prueba virtual dependen de entradas complejas, como imágenes de personas agnósticas, postura humana, *densepose* o puntos clave corporales, lo que los hace laboriosos e impracticables para aplicaciones del mundo real. En contraste, EVTAR adopta una estrategia de entrenamiento en dos etapas, permitiendo una inferencia simple con solo la imagen fuente y la prenda objetivo como entradas. Nuestro modelo genera resultados de prueba sin necesidad de máscaras, *densepose* o mapas de segmentación. Además, EVTAR aprovecha imágenes de referencia adicionales de diferentes personas usando la misma ropa para preservar mejor la textura de la prenda y los detalles finos. Este mecanismo es análogo a cómo los humanos consideran modelos de referencia al elegir outfits, simulando así un efecto de vestimenta más realista y de mayor calidad. Enriquecimos los datos de entrenamiento con referencias suplementarias e imágenes de personas no emparejadas para respaldar estas capacidades. Evaluamos EVTAR en dos *benchmarks* ampliamente utilizados y diversas tareas, y los resultados validan consistentemente la efectividad de nuestro enfoque.
A pesar de su impresionante capacidad de comprensión de vídeo a alto nivel, los modelos lingüísticos multimodales presentan dificultades en el razonamiento espacial a través del tiempo y el espacio. Si bien los enfoques actuales de entrenamiento espacial se basan en datos de vídeo del mundo real, la obtención de material diverso con anotaciones espaciales precisas sigue siendo un cuello de botella. Para aliviar este problema, presentamos SIMS-V: un marco sistemático de generación de datos que aprovecha la información privilegiada de los simuladores 3D para crear datos de entrenamiento de vídeo espacialmente ricos para modelos lingüísticos multimodales. Utilizando este marco, investigamos qué propiedades de los datos simulados impulsan una transferencia efectiva al mundo real mediante ablaciones sistemáticas de tipos de preguntas, mezclas y escalas. Identificamos un conjunto mínimo de tres categorías de preguntas (medición métrica, razonamiento dependiente de la perspectiva y seguimiento temporal) que demuestran ser más efectivas para desarrollar inteligencia espacial transferible, superando a una cobertura exhaustiva a pesar de utilizar menos tipos de preguntas. Estas ideas permiten un entrenamiento altamente eficiente: nuestro modelo de lenguaje grande (LLM) de vídeo de 7.000 millones de parámetros, ajustado con solo 25.000 ejemplos simulados, supera a la línea base más grande de 72.000 millones y logra un rendimiento competitivo con modelos propietarios en rigurosos puntos de referencia de razonamiento espacial del mundo real. Nuestro enfoque demuestra una generalización robusta, manteniendo el rendimiento en la comprensión general de vídeo mientras muestra mejoras sustanciales en tareas espaciales embodadas y del mundo real.
La evaluación automática de los sistemas de traducción de voz a texto (ST) se realiza típicamente comparando las hipótesis de traducción con una o más traducciones de referencia. Aunque efectiva hasta cierto punto, este enfoque hereda la limitación de la evaluación basada en referencias que ignora información valiosa de la entrada fuente. En traducción automática (MT), los avances recientes han demostrado que las métricas neuronales que incorporan el texto fuente logran una correlación más fuerte con los juicios humanos. Extender esta idea a la ST, sin embargo, no es trivial porque la fuente es audio en lugar de texto, y a menudo no se dispone de transcripciones fiables o alineaciones entre la fuente y las referencias. En este trabajo, realizamos el primer estudio sistemático de métricas conscientes de la fuente para ST, con un enfoque particular en las condiciones operativas del mundo real donde las transcripciones fuente no están disponibles. Exploramos dos estrategias complementarias para generar proxies textuales del audio de entrada: las transcripciones de reconocimiento automático del habla (ASR) y las retro-traducciones de la traducción de referencia, e introducimos un novedoso algoritmo de re-segmentación cross-lingüe en dos pasos para abordar el desajuste de alineación entre las fuentes sintéticas y las traducciones de referencia. Nuestros experimentos, realizados en dos benchmarks de ST que cubren 79 pares de idiomas y seis sistemas de ST con arquitecturas y niveles de rendimiento diversos, muestran que las transcripciones ASR constituyen una fuente sintética más fiable que las retro-traducciones cuando la tasa de error de palabras es inferior al 20%, mientras que las retro-traducciones representan siempre una alternativa computacionalmente más económica pero aún efectiva. Además, nuestro algoritmo de re-segmentación cross-lingüe permite el uso robusto de métricas de MT conscientes de la fuente en la evaluación de ST, allanando el camino hacia metodologías de evaluación de la traducción del habla más precisas y fundamentadas.
El fútbol humanoide representa un desafío representativo para la inteligencia corporeizada, ya que requiere que los robots operen dentro de un bucle percepción-acción estrechamente acoplado. Sin embargo, los sistemas existentes generalmente dependen de módulos desacoplados, lo que resulta en respuestas retardadas y comportamientos incoherentes en entornos dinámicos, mientras que las limitaciones perceptivas del mundo real exacerban aún más estos problemas. En este trabajo, presentamos un controlador unificado basado en aprendizaje por refuerzo que permite a los robots humanoides adquirir habilidades reactivas de fútbol mediante la integración directa de la percepción visual y el control de movimiento. Nuestro enfoque extiende los Adversarial Motion Priors a entornos perceptivos en escenarios dinámicos del mundo real, tendiendo un puente entre la imitación de movimiento y el control dinámico visualmente fundamentado. Introducimos una arquitectura codificador-decodificador combinada con un sistema de percepción virtual que modela las características visuales del mundo real, permitiendo que la política recupere estados privilegiados a partir de observaciones imperfectas y establezca una coordinación activa entre la percepción y la acción. El controlador resultante demuestra una fuerte reactividad, ejecutando consistentemente comportamientos de fútbol coherentes y robustos en diversos escenarios, incluyendo partidos reales de RoboCup.
Presentamos SAIL-RL, un marco de post-entrenamiento por aprendizaje por refuerzo (RL) que mejora las capacidades de razonamiento de los modelos de lenguaje grandes multimodales (MLLMs) enseñándoles cuándo y cómo pensar. Los enfoques existentes están limitados por una supervisión basada únicamente en resultados, que premia respuestas correctas sin garantizar un razonamiento sólido, y por estrategias de pensamiento uniformes, que a menudo conducen a un exceso de análisis en tareas simples y a un análisis insuficiente en tareas complejas. SAIL-RL aborda estos desafíos con un sistema de recompensas dual: la Recompensa de Pensamiento, que evalúa la calidad del razonamiento mediante su fundamentación factual, coherencia lógica y consistencia con la respuesta, y la Recompensa de Juicio, que determina de manera adaptativa si es apropiado un razonamiento profundo o una respuesta directa. Los experimentos realizados con el modelo de última generación SAIL-VL2 demuestran que SAIL-RL mejora los puntos de referencia de razonamiento y comprensión multimodal tanto en escalas de 4B como de 8B, logrando un rendimiento competitivo frente a modelos comerciales de código cerrado como GPT-4o, y reduce sustancialmente las alucinaciones, estableciéndose como un marco de principios para construir MLLMs más confiables y adaptativos. El código estará disponible en https://github.com/BytedanceDouyinContent/SAIL-RL.