Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos TurboDiffusion, un marco de aceleración para la generación de vídeo que puede acelerar la generación por difusión de extremo a extremo entre 100 y 200 veces manteniendo la calidad del vídeo. TurboDiffusion se basa principalmente en varios componentes para la aceleración: (1) Aceleración de la atención: TurboDiffusion utiliza SageAttention de bajo bit y Atención Dispersa Lineal (SLA) entrenable para acelerar el cálculo de atención. (2) Destilación de pasos: TurboDiffusion adopta rCM para una destilación de pasos eficiente. (3) Cuantificación W8A8: TurboDiffusion cuantifica los parámetros y activaciones del modelo a 8 bits para acelerar las capas lineales y comprimir el modelo. Además, TurboDiffusion incorpora otras optimizaciones de ingeniería. Realizamos experimentos en los modelos Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P y Wan2.1-T2V-14B-480P. Los resultados experimentales muestran que TurboDiffusion logra una aceleración de 100 a 200 veces en la generación de vídeo incluso en una única GPU RTX 5090, manteniendo una calidad de vídeo comparable. El repositorio de GitHub, que incluye puntos de control del modelo y código fácil de usar, está disponible en https://github.com/thu-ml/TurboDiffusion.
Los modelos de visión y lenguaje (VLM) sobresalen en la comprensión general, pero siguen siendo deficientes en el razonamiento espacial dinámico (DSR), es decir, en razonar sobre la evolución de la geometría y las relaciones de los objetos en el espacio 3D a lo largo del tiempo, debido principalmente a la escasez de recursos de entrenamiento escalables y conscientes de la 4D. Para cerrar esta brecha en los aspectos de conjunto de datos, benchmark y modelo, presentamos DSR Suite. En primer lugar, proponemos un pipeline automatizado que genera pares de preguntas de opción múltiple y respuestas a partir de vídeos en entornos naturales para el DSR. Al aprovechar modelos fundacionales de visión modernos, el pipeline extrae información geométrica y de movimiento enriquecida, incluyendo poses de cámara, nubes de puntos locales, máscaras de objetos, orientaciones y trayectorias 3D. Estas pistas geométricas permiten la construcción de DSR-Train para el aprendizaje y DSR-Bench, refinado por humanos, para la evaluación. En comparación con trabajos anteriores, nuestros datos enfatizan (i) fuentes de vídeo en entornos naturales, (ii) requisitos 3D a nivel de objeto y escena, (iii) transformaciones del punto de vista, (iv) interacciones multi-objeto, y (v) respuestas procedimentales y de grano fino. Más allá de los datos, proponemos un Módulo Liviano de Selección de Geometría (GSM) para integrar de forma fluida conocimientos previos geométricos en los VLM, el cual condensa la semántica de la pregunta y extrae conocimiento relevante para la pregunta a partir de conocimientos previos preentrenados de reconstrucción 4D, convirtiéndolo en un conjunto compacto de tokens geométricos. Esta extracción dirigida evita abrumar al modelo con conocimiento irrelevante. Los experimentos muestran que integrar DSR-Train y GSM en Qwen2.5-VL-7B mejora significativamente su capacidad de razonamiento espacial dinámico, manteniendo la precisión en benchmarks de comprensión general de vídeo.
La generación Texto-a-Audio-Vídeo (T2AV) tiene como objetivo sintetizar vídeo temporalmente coherente y audio semánticamente sincronizado a partir de lenguaje natural, pero su evaluación sigue estando fragmentada, basándose a menudo en métricas unimodales o benchmarks de alcance limitado que no logran capturar la alineación cross-modal, el seguimiento de instrucciones y el realismo perceptivo bajo instrucciones complejas. Para abordar esta limitación, presentamos T2AV-Compass, un benchmark unificado para la evaluación integral de sistemas T2AV, que consta de 500 instrucciones diversas y complejas construidas mediante una pipeline basada en taxonomías para garantizar riqueza semántica y plausibilidad física. Además, T2AV-Compass introduce un marco de evaluación de doble nivel que integra métricas objetivas a nivel de señal para la calidad de vídeo, calidad de audio y alineación cross-modal, con un protocolo subjetivo MLLM-como-Juez para evaluar el seguimiento de instrucciones y el realismo. La evaluación exhaustiva de 11 sistemas T2AV representativos revela que incluso los modelos más potentes distan considerablemente del realismo y la coherencia cross-modal a nivel humano, con fallos persistentes en realismo de audio, sincronización de grano fino, seguimiento de instrucciones, etc. Estos resultados indican un margen de mejora significativo para los modelos futuros y destacan el valor de T2AV-Compass como un banco de pruebas desafiante y diagnóstico para avanzar en la generación texto-audio-vídeo.
La técnica del "plano secuencia" representa una estética distintiva y sofisticada en la realización cinematográfica. Sin embargo, su realización práctica a menudo se ve obstaculizada por costos prohibitivos y complejas limitaciones del mundo real. Aunque los modelos emergentes de generación de video ofrecen una alternativa virtual, los enfoques existentes generalmente dependen de una concatenación ingenua de clips, que frecuentemente falla en mantener la suavidad visual y la coherencia temporal. En este artículo, presentamos DreaMontage, un marco integral diseñado para la generación guiada por fotogramas arbitrarios, capaz de sintetizar videos de plano secuencia perfectos, expresivos y de larga duración a partir de diversas entradas proporcionadas por el usuario. Para lograrlo, abordamos el desafío a través de tres dimensiones principales. (i) Integramos un mecanismo de condicionamiento intermedio ligero en la arquitectura DiT. Al emplear una estrategia de Sintonización Adaptativa que aprovecha eficazmente los datos de entrenamiento base, desbloqueamos capacidades robustas de control de fotogramas arbitrarios. (ii) Para mejorar la fidelidad visual y la expresividad cinematográfica, seleccionamos un conjunto de datos de alta calidad e implementamos una etapa de Sintonización Fina Supervisada (SFT) de Expresión Visual. Al abordar problemas críticos como la racionalidad del movimiento del sujeto y la suavidad de las transiciones, aplicamos un esquema de Optimización de Preferencias Directas (DPO) Personalizado, que mejora significativamente la tasa de éxito y la usabilidad del contenido generado. (iii) Para facilitar la producción de secuencias extendidas, diseñamos una estrategia de inferencia Autorregresiva por Segmentos (SAR) que opera de manera eficiente en memoria. Experimentos exhaustivos demuestran que nuestro enfoque logra efectos de plano secuencia visualmente impactantes y perfectamente coherentes, manteniendo al mismo tiempo la eficiencia computacional, capacitando a los usuarios para transformar materiales visuales fragmentados en experiencias cinematográficas de plano secuencia vívidas y cohesivas.
Exponemos un sesgo de popularidad significativo en los modelos de visión y lenguaje (VLM) de vanguardia, que alcanzan hasta un 34% más de precisión en edificios famosos en comparación con los ordinarios, lo que indica una dependencia de la memorización sobre una comprensión generalizable. Para investigar esto sistemáticamente, presentamos el benchmark abierto más grande para esta tarea: el conjunto de datos YearGuessr, una colección de 55.546 imágenes de edificios con atributos multimodales de 157 países, anotadas con etiquetas ordinales continuas de su año de construcción (1001-2024), datos GPS y recuentos de visitas a la página como proxy de popularidad. Utilizando este conjunto de datos, enmarcamos la tarea de predicción del año de construcción como una regresión ordinal e introducimos métricas de precisión por intervalos sensibles a la popularidad para cuantificar este sesgo. Nuestro benchmark resultante de más de 30 modelos, incluido nuestro modelo YearCLIP, confirma que los VLM sobresalen en elementos populares y memorizados, pero tienen dificultades significativas con sujetos no reconocidos, exponiendo una falla crítica en sus capacidades de razonamiento. Página del proyecto: https://sytwu.github.io/BeyondMemo/
Presentamos Nemotron 3 Nano 30B-A3B, un modelo de lenguaje híbrido Mixture-of-Experts basado en arquitecturas Mamba-Transformer. Nemotron 3 Nano fue preentrenado con 25 billones de tokens de texto, incluyendo más de 3 billones de tokens únicos nuevos en comparación con Nemotron 2, seguido de un ajuste fino supervisado y aprendizaje por refuerzo a gran escala en diversos entornos. Nemotron 3 Nano logra una mayor precisión que nuestra generación anterior, Nemotron 2 Nano, mientras activa menos de la mitad de los parámetros por pasada forward. Alcanza un rendimiento de inferencia hasta 3.3 veces mayor que modelos abiertos de tamaño similar como GPT-OSS-20B y Qwen3-30B-A3B-Thinking-2507, además de ser más preciso en benchmarks populares. Nemotron 3 Nano demuestra capacidades mejoradas de agente, razonamiento y conversación, y admite longitudes de contexto de hasta 1 millón de tokens. Publicamos tanto nuestros puntos de control de Nemotron 3 Nano 30B-A3B Base (preentrenado) como de Nemotron 3 Nano 30B-A3B (post-entrenado) en Hugging Face.
La generación de vídeo de alta resolución, aunque crucial para los medios digitales y el cine, se ve limitada computacionalmente por la complejidad cuadrática de los modelos de difusión, haciendo inviable la inferencia práctica. Para abordar este problema, presentamos HiStream, un marco autoregresivo eficiente que reduce sistemáticamente la redundancia en tres ejes: i) Compresión Espacial: eliminación de ruido a baja resolución antes de refinar a alta resolución con características en caché; ii) Compresión Temporal: una estrategia fragmento a fragmento con una caché de anclaje de tamaño fijo, garantizando una velocidad de inferencia estable; y iii) Compresión de Paso Temporal: aplicación de menos pasos de eliminación de ruido a los fragmentos subsiguientes condicionados por la caché. En benchmarks de 1080p, nuestro modelo principal HiStream (i+ii) logra una calidad visual de vanguardia mientras demuestra una eliminación de ruido hasta 76.2 veces más rápida en comparación con la línea base Wan2.1, con una pérdida de calidad insignificante. Nuestra variante más rápida, HiStream+, aplica las tres optimizaciones (i+ii+iii), logrando una aceleración de 107.5x sobre la línea base, ofreciendo un equilibrio atractivo entre velocidad y calidad, haciendo así que la generación de vídeo de alta resolución sea tanto práctica como escalable.
Presentamos la familia de modelos Nemotron 3: Nano, Super y Ultra. Estos modelos ofrecen sólidas capacidades de agente, razonamiento y conversación. La familia Nemotron 3 utiliza una arquitectura híbrida Mixture-of-Experts combinando Mamba y Transformer para ofrecer un rendimiento (throughput) líder en su clase y longitudes de contexto de hasta 1 millón de tokens. Los modelos Super y Ultra están entrenados con NVFP4 e incorporan LatentMoE, un enfoque novedoso que mejora la calidad del modelo. Los dos modelos más grandes también incluyen capas MTP para una generación de texto más rápida. Todos los modelos Nemotron 3 se someten a un post-entrenamiento mediante aprendizaje por refuerzo multi-entorno, lo que permite el razonamiento, el uso de herramientas multi-paso y admite un control granular del presupuesto de razonamiento. Nano, el modelo más pequeño, supera a modelos comparables en precisión manteniéndose extremadamente eficiente en coste para la inferencia. Super está optimizado para agentes colaborativos y cargas de trabajo de alto volumen, como la automatización de tickets de TI. Ultra, el modelo más grande, ofrece una precisión y un rendimiento de razonamiento de vanguardia. Nano se publica junto con su informe técnico y este libro blanco, mientras que Super y Ultra lo harán en los próximos meses. Liberaremos abiertamente los pesos del modelo, el software de pre y post-entrenamiento, las recetas de entrenamiento y todos los datos para los que tenemos derechos de redistribución.
Los tokenizadores proporcionan la base fundamental mediante la cual los modelos de lenguaje (LM) representan y procesan texto. A pesar de la importancia de la tokenización, su papel en el rendimiento y comportamiento de los LM es poco comprendido debido al desafío de medir el impacto de la tokenización de forma aislada. Para abordar esta necesidad, presentamos TokSuite, una colección de modelos y un benchmark que respalda la investigación sobre la influencia de la tokenización en los LM. Específicamente, entrenamos catorce modelos que utilizan diferentes tokenizadores pero que son idénticos en todo lo demás, empleando la misma arquitectura, conjunto de datos, presupuesto de entrenamiento e inicialización. Adicionalmente, recopilamos y publicamos un nuevo benchmark que mide específicamente el rendimiento del modelo sujeto a perturbaciones del mundo real que probablemente influyan en la tokenización. En conjunto, TokSuite permite desacoplar de manera robusta la influencia del tokenizador de un modelo, respaldando una serie de hallazgos novedosos que dilucidan los beneficios y deficiencias respectivos de una amplia gama de tokenizadores populares.
El aprendizaje por refuerzo agéntico depende cada vez más del escalado basado en experiencia; sin embargo, los entornos del mundo real siguen siendo no adaptativos, de cobertura limitada y difíciles de escalar. Los modelos del mundo ofrecen una forma potencial de mejorar la eficiencia del aprendizaje mediante experiencia simulada, pero aún no está claro si los modelos de lenguaje grandes pueden desempeñar este rol de manera confiable y bajo qué condiciones benefician significativamente a los agentes. Estudiamos estas cuestiones en entornos basados en texto, que proporcionan un entorno controlado para reinterpretar el modelado del lenguaje como predicción del siguiente estado bajo interacción. Introducimos un marco de tres niveles para evaluar modelos del mundo basados en LLM: (i) fidelidad y consistencia, (ii) escalabilidad y robustez, y (iii) utilidad para el agente. En cinco entornos representativos, encontramos que los modelos del mundo suficientemente entrenados mantienen un estado latente coherente, escalan de manera predecible con los datos y el tamaño del modelo, y mejoran el rendimiento del agente mediante verificación de acciones, generación de trayectorias sintéticas y inicialización previa del aprendizaje por refuerzo. Mientras tanto, estas ganancias dependen críticamente de la cobertura conductual y la complejidad del entorno, delineando un límite claro sobre cuándo el modelado del mundo respalda efectivamente el aprendizaje de los agentes.
Los recientes avances en el preentrenamiento de modelos base generales han mejorado significativamente el rendimiento en diversas tareas posteriores. Si bien los modelos generativos autorregresivos (AR) como GPT han revolucionado el procesamiento del lenguaje natural, la mayoría de los métodos de preentrenamiento generativo visual aún se basan en el modelado enmascarado al estilo BERT, que a menudo ignora la información temporal esencial para el análisis de video. Los pocos métodos existentes de preentrenamiento visual autorregresivo adolecen de problemas como la localización semántica imprecisa y la mala calidad de generación, lo que conduce a una semántica deficiente. En este trabajo, proponemos NExT-Vid, un novedoso marco de preentrenamiento generativo visual autorregresivo que utiliza la predicción enmascarada del siguiente fotograma para modelar conjuntamente imágenes y videos. NExT-Vid introduce un predictor autorregresivo de contexto aislado para desacoplar la representación semántica de la decodificación objetivo, y un decodificador de correspondencia de flujo condicionado para mejorar la calidad y diversidad de la generación. Mediante el preentrenamiento de correspondencia de flujo de contexto aislado, nuestro enfoque logra representaciones sólidas. Experimentos exhaustivos con modelos preentrenados a gran escala demuestran que nuestro método propuesto supera consistentemente a los métodos anteriores de preentrenamiento generativo para el aprendizaje de representaciones visuales mediante sondeo atento en la clasificación posterior.
Presentamos Streamo, un modelo de lenguaje grande (LLM) de video en tiempo real que funciona como un asistente interactivo de propósito general. A diferencia de los modelos de video en línea existentes, que se centran de forma limitada en la respuesta a preguntas o la generación de descripciones, Streamo realiza un amplio espectro de tareas de video en streaming, incluyendo narración en tiempo real, comprensión de acciones, descripción de eventos, localización temporal de eventos y respuesta a preguntas sensibles al tiempo. Para desarrollar esta versatilidad, construimos Streamo-Instruct-465K, un conjunto de datos a gran escala de instrucciones específicamente diseñado para la comprensión de video en streaming. Este conjunto de datos abarca diversos contextos temporales y supervisión multitarea, permitiendo un entrenamiento unificado para tareas de streaming heterogéneas. Tras ser entrenado de extremo a extremo en el conjunto de datos de instrucciones mediante una pipeline optimizada, Streamo demuestra un fuerte razonamiento temporal, interacción receptiva y una amplia generalización en diversos benchmarks de streaming. Experimentos exhaustivos muestran que Streamo reduce la brecha entre los modelos de percepción de video offline y los asistentes multimodales en tiempo real, dando un paso hacia una comprensión de video unificada e inteligente en flujos de video continuos.
La Generación Aumentada por Recuperación (RAG) ha surgido como un paradigma poderoso para que los Modelos de Lenguaje a Gran Escala (LLMs) aborden consultas intensivas en conocimiento que requieren información específica de dominio o actualizada. Para manejar preguntas complejas de múltiples saltos que son difíciles de recuperar en un solo paso, se han propuesto enfoques RAG iterativos que incorporan aprendizaje por refuerzo. Sin embargo, los sistemas RAG iterativos existentes típicamente planifican la descomposición de preguntas sin aprovechar información sobre el corpus de recuperación disponible, lo que conduce a cadenas de recuperación y razonamiento ineficientes que se propagan en cascada hacia un rendimiento subóptimo. En este artículo, presentamos Early Knowledge Alignment (EKA), un módulo simple pero efectivo que alinea los LLMs con el conjunto de recuperación antes de la planificación en sistemas RAG iterativos, utilizando conocimiento recuperado contextualmente relevante. Experimentos exhaustivos en seis conjuntos de datos RAG estándar demuestran que, al establecer una base de razonamiento más sólida, EKA mejora significativamente la precisión de la recuperación, reduce los errores en cascada y mejora tanto el rendimiento como la eficiencia. Nuestro análisis desde una perspectiva de entropía demuestra que la incorporación temprana de conocimiento reduce la exploración innecesaria durante el proceso de razonamiento, permitiendo que el modelo se centre de manera más efectiva en subconjuntos de información relevantes. Además, EKA demuestra ser efectivo como una estrategia de inferencia versátil y libre de entrenamiento que escala sin problemas a modelos grandes. Las pruebas de generalización en diversos conjuntos de datos y corpus de recuperación confirman la robustez de nuestro enfoque. En general, EKA avanza el estado del arte en sistemas RAG iterativos mientras ilumina la interacción crítica entre el razonamiento estructurado y la exploración eficiente en marcos aumentados con aprendizaje por refuerzo. El código se ha publicado en https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}.
Los puntos de referencia existentes para agentes de programación de IA se centran en tareas aisladas de un solo problema, como corregir un error o implementar una funcionalidad pequeña. Sin embargo, la ingeniería de software en el mundo real es fundamentalmente una actividad de largo alcance: los desarrolladores deben interpretar requisitos de alto nivel, planificar cambios coordinados en múltiples archivos y evolucionar bases de código a lo largo de múltiples iteraciones, preservando la funcionalidad existente. Presentamos SWE-EVO, un punto de referencia que evalúa a los agentes en este desafío de evolución de software a largo plazo. Construido a partir de notas de versión e historiales de versiones de siete proyectos maduros de Python de código abierto, SWE-EVO comprende 48 tareas de evolución que requieren que los agentes implementen modificaciones de múltiples pasos que abarcan un promedio de 21 archivos, validadas mediante suites de pruebas exhaustivas con un promedio de 874 pruebas por instancia. Los experimentos con modelos de última generación revelan una brecha de capacidad sorprendente: incluso GPT-4 con OpenHands logra solo una tasa de resolución del 21 por ciento en SWE-EVO, en comparación con el 65 por ciento en el SWE-Bench Verified de un solo problema. Esto demuestra que los agentes actuales tienen dificultades con el razonamiento sostenido y multiarchivo. También proponemos la Tasa de Corrección (Fix Rate), una métrica granular que captura el progreso parcial hacia la resolución de estas tareas complejas y de largo alcance.
En este trabajo presentamos PhononBench, el primer benchmark a gran escala para la estabilidad dinámica en cristales generados por IA. Aprovechando el potencial interatómico MatterSim, recientemente desarrollado, que alcanza una precisión a nivel DFT en predicciones de fonones para más de 10,000 materiales, PhononBench permite cálculos eficientes de fonones a gran escala y análisis de estabilidad dinámica para 108,843 estructuras cristalinas generadas por seis modelos líderes de generación de cristales. PhononBench revela una limitación generalizada de los modelos generativos actuales para garantizar la estabilidad dinámica: la tasa promedio de estabilidad dinámica en todas las estructuras generadas es de solo 25.83%, siendo MatterGen, el modelo con mejor rendimiento, el que alcanza apenas un 41.0%. Estudios de caso adicionales muestran que, en la generación dirigida por propiedades—ilustrada aquí mediante el condicionamiento del gap de banda con MatterGen—la tasa de estabilidad dinámica se mantiene tan baja como 23.5%, incluso en la condición óptima de gap de banda de 0.5 eV. En la generación controlada por grupo espacial, los cristales de mayor simetría exhiben una mejor estabilidad (por ejemplo, los sistemas cúbicos alcanzan tasas de hasta 49.2%), sin embargo, la estabilidad promedio en todas las generaciones controladas es aún de solo 34.4%. Un resultado adicional importante de este estudio es la identificación de 28,119 estructuras cristalinas que son fonónicamente estables en toda la zona de Brillouin, proporcionando un conjunto sustancial de candidatos confiables para la futura exploración de materiales. Al establecer el primer benchmark a gran escala para la estabilidad dinámica, este trabajo destaca sistemáticamente las limitaciones actuales de los modelos de generación de cristales y ofrece criterios de evaluación esenciales y orientación para su desarrollo futuro hacia el diseño y descubrimiento de materiales físicamente viables. Todas las estructuras cristalinas generadas por los modelos, los resultados de los cálculos de fonones y los flujos de trabajo de evaluación de alto rendimiento desarrollados en PhononBench se liberarán abiertamente en https://github.com/xqh19970407/PhononBench.
La rápida proliferación de los Modelos de Lenguaje a Gran Escala (LLMs) y de diversos benchmarks especializados exige un cambio desde métricas fragmentadas y específicas por tarea hacia un sistema de clasificación competitivo y holístico que agregue eficazmente el rendimiento a través de múltiples dimensiones de habilidad. Utilizando principalmente puntuaciones estáticas, los métodos de evaluación actuales son fundamentalmente limitados. Estos métodos tienen dificultades para determinar la proporción de mezcla adecuada entre benchmarks diversos y, críticamente, no logran capturar la aptitud competitiva dinámica de un modelo o su vulnerabilidad cuando se enfrenta a tareas secuenciales de alto riesgo. Para abordar esto, introducimos el novedoso marco de Dinámicas Competitivas de Sistema Suizo (CSD). CSD simula un concurso secuencial de múltiples rondas donde los modelos son emparejados dinámicamente a lo largo de una secuencia curada de benchmarks basándose en su historial acumulado de victorias y derrotas. Se utiliza una Simulación de Monte Carlo (N=100,000 iteraciones) para aproximar la Puntuación Esperada de Victorias (E[S_m]) estadísticamente robusta, lo que elimina el ruido del emparejamiento aleatorio y la suerte en las primeras rondas. Además, implementamos un Análisis de Sensibilidad al Fracaso parametrizando la cantidad de eliminación por ronda (T_k), lo que nos permite trazar perfiles de los modelos basados en su apetito de riesgo, distinguiendo entre generalistas robustos y especialistas agresivos. Demostramos que CSD proporciona una clasificación más matizada y consciente del contexto que las puntuaciones agregadas tradicionales y los modelos de pares estáticos, representando un paso vital hacia la evaluación de LLMs de próxima generación informada por el riesgo.