Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

GRAPE: Generalización de Políticas de Robot mediante Alineación de Preferencias
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

A pesar de los avances recientes de los modelos visión-lenguaje-acción (VLA) en una variedad de tareas de robótica, sufren de problemas críticos como una pobre generalización a tareas no vistas, debido a su dependencia exclusiva en la clonación de comportamientos solo de ejecuciones exitosas. Además, típicamente son ajustados finamente para replicar demostraciones recopiladas por expertos bajo diferentes configuraciones, introduciendo así sesgo de distribución y limitando su adaptabilidad a diversos objetivos de manipulación, como eficiencia, seguridad y finalización de tareas. Para cerrar esta brecha, presentamos GRAPE: Generalizando Políticas de Robot a través de Alineación de Preferencias. Específicamente, GRAPE alinea VLA a nivel de trayectoria y modela implícitamente la recompensa tanto de ejecuciones exitosas como fallidas para mejorar la generalización a diversas tareas. Además, GRAPE descompone tareas de manipulación complejas en etapas independientes y guía automáticamente el modelado de preferencias a través de restricciones espacio-temporales personalizadas con puntos clave propuestos por un gran modelo visión-lenguaje. Destacadamente, estas restricciones son flexibles y pueden ser personalizadas para alinear el modelo con diversos objetivos, como seguridad, eficiencia o éxito en la tarea. Evaluamos GRAPE en una amplia gama de tareas tanto en entornos del mundo real como simulados. Los resultados experimentales demuestran que GRAPE mejora el rendimiento de los modelos VLA de última generación, aumentando las tasas de éxito en tareas de manipulación en dominio y no vistas en un 51.79% y 60.36%, respectivamente. Además, GRAPE puede ser alineado con varios objetivos, como seguridad y eficiencia, reduciendo las tasas de colisión en un 44.31% y la longitud de paso de ejecución en un 11.15%, respectivamente. Todo el código, modelos y datos están disponibles en https://grape-vla.github.io/

Profundidad de Video sin Modelos de Video
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

La estimación de profundidad en video eleva clips de video monoculares a 3D mediante la inferencia de profundidad densa en cada fotograma. Los avances recientes en la estimación de profundidad a partir de una sola imagen, impulsados por el surgimiento de grandes modelos base y el uso de datos de entrenamiento sintéticos, han avivado un renovado interés en la profundidad de video. Sin embargo, aplicar ingenuamente un estimador de profundidad de una sola imagen a cada fotograma de un video desatiende la continuidad temporal, lo que no solo provoca parpadeos, sino que también puede fallar cuando el movimiento de la cámara causa cambios bruscos en el rango de profundidad. Una solución obvia y fundamentada sería construir sobre modelos base de video, pero estos tienen sus propias limitaciones, incluyendo un costoso entrenamiento e inferencia, inconsistencia tridimensional imperfecta y rutinas de ensamblaje para las salidas de longitud fija (cortas). Damos un paso atrás y demostramos cómo convertir un modelo de difusión latente de una sola imagen (LDM) en un estimador de profundidad de video de última generación. Nuestro modelo, al que llamamos RollingDepth, tiene dos ingredientes principales: (i) un estimador de profundidad multifotograma derivado de un LDM de una sola imagen que mapea fragmentos de video muy cortos (normalmente tripletes de fotogramas) a fragmentos de profundidad. (ii) un algoritmo de registro robusto basado en optimización que ensambla de manera óptima fragmentos de profundidad muestreados a diferentes frecuencias de fotogramas en un video consistente. RollingDepth es capaz de manejar eficientemente videos largos con cientos de fotogramas y proporciona videos de profundidad más precisos que tanto estimadores de profundidad de video dedicados como modelos de un solo fotograma de alto rendimiento. Página del proyecto: rollingdepth.github.io.

Más allá de los Ejemplos: Paradigma de Razonamiento Automatizado de Alto Nivel en Aprendizaje en Contexto a través de MCTS
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

El Aprendizaje en Contexto (AC) permite a los grandes modelos de lenguaje (GML) abordar tareas posteriores a través de indicaciones sofisticadas y demostraciones de alta calidad. Sin embargo, este paradigma tradicional de AC muestra limitaciones al enfrentarse a tareas de razonamiento matemático complejas, principalmente debido a su fuerte dependencia de la calidad de los ejemplos y la necesidad de intervención humana en escenarios desafiantes. Para abordar estas limitaciones, este documento presenta HiAR-ICL, un paradigma de Razonamiento Automatizado de Alto Nivel en AC que cambia el enfoque de ejemplos específicos a patrones de pensamiento abstracto, ampliando el concepto convencional de contexto en AC. HiAR-ICL introduce cinco acciones de razonamiento atómico como componentes fundamentales para construir patrones estructurados en cadena. Utilizando la Búsqueda del Árbol de Monte Carlo, exploramos caminos de razonamiento y construimos tarjetas de pensamiento para guiar la inferencia posterior. Luego desarrollamos un marco de complejidad cognitiva que empareja dinámicamente problemas con tarjetas de pensamiento apropiadas. Los resultados experimentales demuestran la efectividad de HiAR-ICL, logrando una precisión de vanguardia (79.6%) en el banco de pruebas MATH con Qwen2.5-7B-Instruct, superando a GPT-4o (76.6%) y Claude 3.5 (71.1%).

Sobre el Post-Entrenamiento Específico de Dominio para Modelos de Lenguaje Multimodales de Gran Escala
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

Los últimos años han sido testigos del rápido desarrollo de modelos de lenguaje multimodales grandes generales (MLLMs). Sin embargo, la adaptación de MLLMs generales a dominios específicos, como campos científicos y aplicaciones industriales, sigue siendo menos explorada. Este artículo investiga sistemáticamente la adaptación de dominio de MLLMs a través de post-entrenamiento, centrándose en la síntesis de datos, los flujos de entrenamiento y la evaluación de tareas. (1) Síntesis de Datos: Utilizando modelos de código abierto, desarrollamos un sintetizador de instrucciones visuales que genera eficazmente diversas tareas de instrucciones visuales a partir de pares de imágenes y subtítulos específicos del dominio. Nuestras tareas sintéticas superan a las generadas por reglas manuales, GPT-4 y GPT-4V en el mejoramiento del rendimiento específico del dominio de los MLLMs. (2) Flujo de Entrenamiento: Mientras que el entrenamiento en dos etapas, inicialmente en pares de imágenes y subtítulos seguido de tareas de instrucciones visuales, es comúnmente adoptado para desarrollar MLLMs generales, aplicamos un flujo de entrenamiento de una sola etapa para mejorar la diversidad de tareas para el post-entrenamiento específico del dominio. (3) Evaluación de Tareas: Realizamos experimentos en dos dominios, biomedicina y alimentos, post-entrenando MLLMs de diferentes fuentes y escalas (por ejemplo, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), y luego evaluando el rendimiento de MLLM en diversas tareas específicas del dominio. Para apoyar futuras investigaciones en la adaptación de dominio de MLLM, compartiremos nuestros implementaciones de código abierto.

Informe Técnico de Yi-Lightning
Yi-Lightning Technical Report

Dec 2

By01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang

Este informe técnico presenta Yi-Lightning, nuestro último modelo de lenguaje grande (LLM) insignia. Logra un rendimiento excepcional, clasificándose en sexto lugar en Chatbot Arena, con resultados particularmente sólidos (del 2º al 4º lugar) en categorías especializadas que incluyen Chino, Matemáticas, Codificación y Desafíos Difíciles. Yi-Lightning aprovecha una arquitectura mejorada de Mezcla de Expertos (MoE), que incluye avanzados mecanismos de segmentación y enrutamiento de expertos junto con técnicas optimizadas de almacenamiento en caché de claves y valores (KV-caching). Nuestro proceso de desarrollo abarca un entrenamiento previo exhaustivo, un ajuste fino supervisado (SFT) y aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), donde diseñamos estrategias deliberadas para el entrenamiento en múltiples etapas, la construcción de datos sintéticos y la modelización de recompensas. Además, implementamos RAISE (Motor de Seguridad de IA Responsable), un marco de cuatro componentes para abordar problemas de seguridad en las fases de pre-entrenamiento, post-entrenamiento y despliegue. Potenciado por nuestra infraestructura de supercomputación escalable, todas estas innovaciones reducen sustancialmente los costos de entrenamiento, despliegue e inferencia manteniendo altos estándares de rendimiento. Con evaluaciones adicionales en referencias académicas públicas, Yi-Lightning demuestra un rendimiento competitivo frente a LLMs de primer nivel, mientras observamos una notable disparidad entre los resultados de referencias estáticas tradicionales y las preferencias humanas dinámicas del mundo real. Esta observación motiva una reevaluación crítica de la utilidad de los referencias convencionales para guiar el desarrollo de sistemas de IA más inteligentes y potentes para aplicaciones prácticas. Yi-Lightning está disponible ahora a través de nuestra plataforma para desarrolladores en https://platform.lingyiwanwu.com.

Orientación de Salto Espaciotemporal para una Muestra de Difusión de Video Mejorada
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

Los modelos de difusión han surgido como una herramienta poderosa para generar imágenes, videos y contenido 3D de alta calidad. Si bien las técnicas de orientación de muestreo como CFG mejoran la calidad, reducen la diversidad y el movimiento. La autoguía mitiga estos problemas, pero requiere un entrenamiento adicional de un modelo débil, lo que limita su practicidad para modelos a gran escala. En este trabajo, presentamos la Guía de Salto Espaciotemporal (STG), un método de orientación de muestreo simple y sin entrenamiento para mejorar los modelos de difusión de video basados en transformadores. STG emplea un modelo débil implícito a través de la auto-perturbación, evitando la necesidad de modelos externos o entrenamiento adicional. Al omitir selectivamente capas espaciotemporales, STG produce una versión alineada y degradada del modelo original para mejorar la calidad de la muestra sin comprometer la diversidad o el grado dinámico. Nuestras contribuciones incluyen: (1) la introducción de STG como una técnica de orientación eficiente y de alto rendimiento para modelos de difusión de video, (2) la eliminación de la necesidad de modelos auxiliares al simular un modelo débil a través de la omisión de capas, y (3) garantizar una orientación mejorada en calidad sin comprometer la diversidad o la dinámica de la muestra, a diferencia de CFG. Para obtener resultados adicionales, visite https://junhahyung.github.io/STGuidance.

El Pensamiento Inverso Hace que los LLMs Sean Razonadores Más Fuertes
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

El pensamiento inverso juega un papel crucial en el razonamiento humano. Los humanos pueden razonar no solo de un problema a una solución, sino también al revés, es decir, comenzar desde la solución y razonar hacia el problema. Esto a menudo mejora el rendimiento general del razonamiento al permitir comprobaciones de consistencia entre su pensamiento hacia adelante y hacia atrás. Para habilitar a los Modelos de Lenguaje Grandes (LLMs) para realizar el pensamiento inverso, presentamos el Pensamiento Mejorado por Reversión (RevThink), un marco compuesto por aumento de datos y objetivos de aprendizaje. En RevThink, aumentamos el conjunto de datos recolectando razonamientos estructurados hacia adelante y hacia atrás de un modelo docente, que consiste en: (1) la pregunta original, (2) el razonamiento hacia adelante, (3) la pregunta hacia atrás y (4) el razonamiento hacia atrás. Luego empleamos tres objetivos para entrenar un modelo estudiante más pequeño de manera de aprendizaje multitarea: (a) generar razonamientos hacia adelante a partir de una pregunta, (b) generar una pregunta hacia atrás a partir de una pregunta y (c) generar razonamientos hacia atrás a partir de la pregunta hacia atrás. Experimentos en 12 conjuntos de datos que abarcan el sentido común, matemáticas y razonamiento lógico muestran una mejora promedio del 13.53% sobre el rendimiento de cero disparos del modelo estudiante y una mejora del 6.84% sobre las líneas base más fuertes de destilación de conocimiento. Además, nuestro método demuestra eficiencia de muestra: utilizando solo el 10% del razonamiento correcto hacia adelante de los datos de entrenamiento, supera un método estándar de ajuste fino entrenado con 10 veces más razonamiento hacia adelante. RevThink también exhibe una fuerte generalización a conjuntos de datos retenidos fuera de la distribución.

Incrustación de Paso Temporal: Es Hora de Cachear para el Modelo de Difusión de Video
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

Como columna vertebral fundamental para la generación de video, los modelos de difusión se enfrentan a la baja velocidad de inferencia debido a la naturaleza secuencial del proceso de eliminación de ruido. Métodos previos aceleran los modelos mediante el almacenamiento en caché y reutilización de salidas del modelo en pasos de tiempo uniformemente seleccionados. Sin embargo, esta estrategia pasa por alto el hecho de que las diferencias entre las salidas del modelo no son uniformes en todos los pasos de tiempo, lo que dificulta seleccionar las salidas del modelo adecuadas para almacenar en caché, lo que resulta en un desequilibrio entre la eficiencia de inferencia y la calidad visual. En este estudio, presentamos TeaCache (Caché de Conciencia de Incrustación de Pasos de Tiempo), un enfoque de almacenamiento en caché sin entrenamiento que estima y aprovecha las diferencias fluctuantes entre las salidas del modelo a lo largo de los pasos de tiempo. En lugar de utilizar directamente las salidas del modelo que consumen mucho tiempo, TeaCache se centra en las entradas del modelo, que tienen una fuerte correlación con las salidas del modelo y con un costo computacional insignificante. TeaCache primero modula las entradas ruidosas utilizando las incrustaciones de pasos de tiempo para garantizar que sus diferencias se aproximen mejor a las de las salidas del modelo. Luego, TeaCache introduce una estrategia de reescalado para refinar las diferencias estimadas y las utiliza para indicar el almacenamiento en caché de las salidas. Los experimentos muestran que TeaCache logra una aceleración de hasta 4.41 veces sobre Open-Sora-Plan con una degradación de calidad visual insignificante (-0.07% en la puntuación Vbench).

Rompecabezas: NAS basado en destilación para LLMs optimizados para inferencia
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

ByAkhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv

Los modelos de lenguaje de gran tamaño (LLMs) han demostrado capacidades notables, pero su adopción se ve limitada por los altos costos computacionales durante la inferencia. Aunque aumentar el número de parámetros mejora la precisión, también amplía la brecha entre las capacidades de vanguardia y la desplegabilidad práctica. Presentamos Puzzle, un marco para acelerar la inferencia de LLM en hardware específico mientras se preservan sus capacidades. A través de una aplicación innovadora de búsqueda de arquitectura neuronal (NAS) a una escala sin precedentes, Puzzle optimiza sistemáticamente modelos con decenas de miles de millones de parámetros bajo restricciones de hardware. Nuestro enfoque utiliza destilación de conocimiento local por bloques (BLD) para exploración de arquitectura paralela y emplea programación entera mixta para una optimización precisa de las restricciones. Demostramos el impacto real de nuestro marco a través de Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), un modelo disponible públicamente derivado de Llama-3.1-70B-Instruct. Nemotron-51B logra una aceleración de 2.17 veces en el rendimiento de la inferencia, ajustándose en una sola GPU NVIDIA H100 mientras preserva el 98.4% de las capacidades del modelo original. Actualmente, Nemotron-51B es el modelo de lenguaje más preciso capaz de inferencia en una sola GPU con tamaños de lote grandes. De manera notable, esta transformación solo requirió 45B de tokens de entrenamiento, en comparación con más de 15T de tokens utilizados para el modelo de 70B del que se derivó. Esto establece un nuevo paradigma donde los modelos potentes pueden optimizarse para un despliegue eficiente con solo compromisos insignificantes en sus capacidades, demostrando que el rendimiento de la inferencia, no solo el número de parámetros, debería guiar la selección del modelo. Con el lanzamiento de Nemotron-51B y la presentación del marco Puzzle, brindamos a los profesionales acceso inmediato a capacidades de modelado de lenguaje de vanguardia a costos computacionales significativamente reducidos.

Difusión FAM: Modulación de Frecuencia y Atención para la Generación de Imágenes de Alta Resolución con Difusión Estable
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

Los modelos de difusión son eficientes en la generación de imágenes de alta calidad. Sin embargo, son efectivos únicamente al operar en la resolución utilizada durante el entrenamiento. La inferencia a una resolución escalada conduce a patrones repetitivos y distorsiones estructurales. Volver a entrenar a resoluciones más altas rápidamente se vuelve prohibitivo. Por lo tanto, los métodos que permiten que los modelos de difusión preexistentes operen a resoluciones flexibles en tiempo de prueba son altamente deseables. Trabajos previos sufren de artefactos frecuentes y a menudo introducen grandes sobrecargas de latencia. Proponemos dos módulos simples que se combinan para resolver estos problemas. Introducimos un módulo de Modulación de Frecuencia (FM) que aprovecha el dominio de Fourier para mejorar la consistencia de la estructura global, y un módulo de Modulación de Atención (AM) que mejora la consistencia de los patrones de textura locales, un problema ampliamente ignorado en trabajos anteriores. Nuestro método, denominado difusión Fam, puede integrarse perfectamente en cualquier modelo de difusión latente y no requiere entrenamiento adicional. Resultados cualitativos extensos resaltan la efectividad de nuestro método en abordar artefactos estructurales y locales, mientras que los resultados cuantitativos muestran un rendimiento de vanguardia. Además, nuestro método evita trucos de inferencia redundantes para una mayor consistencia, como la generación basada en parches o progresiva, lo que conduce a sobrecargas de latencia despreciables.

Escalando Transformadores para Codificación de Voz de Alta Calidad a Bajas Tasas de Bits
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

La tokenización del habla con modelos neurales de códec de audio es una parte vital de los modernos flujos de trabajo de IA para la generación o comprensión del habla, ya sea de forma individual o en un contexto multimodal. Tradicionalmente, dichos modelos de tokenización se han centrado en arquitecturas de bajo recuento de parámetros que utilizan solo componentes con fuertes sesgos inductivos. En este trabajo mostramos que al escalar una arquitectura transformer con un gran recuento de parámetros para este problema, y aplicar un cuello de botella basado en Cuantificación Escalar Finita (FSQ) flexible, es posible alcanzar una calidad de habla de vanguardia a tasas de bits extremadamente bajas de 400 o 700 bits por segundo. Los modelos entrenados superan significativamente a los puntos de referencia existentes tanto en pruebas objetivas como subjetivas.

Atención de Trayectoria para el Control de Movimiento de Video Detallado
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

Los avances recientes en generación de video han sido impulsados en gran medida por modelos de difusión de video, con el control de movimiento de cámara emergiendo como un desafío crucial en la creación de contenido visual personalizado. Este artículo introduce la atención a trayectorias, un enfoque novedoso que realiza atención a lo largo de trayectorias de píxeles disponibles para un control detallado del movimiento de la cámara. A diferencia de los métodos existentes que a menudo producen salidas imprecisas o descuidan las correlaciones temporales, nuestro enfoque posee un sesgo inductivo más fuerte que inyecta sin problemas información de trayectoria en el proceso de generación de video. Importante, nuestro enfoque modela la atención a trayectorias como una rama auxiliar junto con la atención temporal tradicional. Este diseño permite que la atención temporal original y la atención a trayectorias trabajen en sinergia, asegurando tanto un control preciso del movimiento como una nueva capacidad de generación de contenido, lo cual es crítico cuando la trayectoria está solo parcialmente disponible. Experimentos sobre control de movimiento de cámara para imágenes y videos demuestran mejoras significativas en precisión y consistencia a largo plazo manteniendo una generación de alta calidad. Además, mostramos que nuestro enfoque puede extenderse a otras tareas de control de movimiento de video, como la edición de video guiada por el primer fotograma, donde destaca en mantener la consistencia del contenido en amplios rangos espaciales y temporales.

Observa Cada Fotograma de una Vez: Video-Ma^2mba para una Comprensión Eficiente de Videos de Larga Duración con Puntos de Control de Gradiente Multi-eje
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

Con el creciente tamaño y complejidad de los datos de video, procesar eficientemente secuencias de video largas plantea desafíos significativos debido al aumento cuadrático en las demandas de memoria y computación asociadas con los Modelos Multimodales Grandes (LMMs) basados en transformadores existentes. Para abordar estos problemas, presentamos Video-Ma^2mba, una arquitectura novedosa que incorpora Modelos de Espacio de Estado (SSMs) dentro del marco de Mamba-2, reemplazando los mecanismos de atención. Esto permite que los LMMs escalen linealmente en términos de tiempo y requisitos de memoria, lo que hace factible manejar contenido de video de larga duración. Además, mejoramos la eficiencia de memoria introduciendo el método de Punto de Control de Gradiente Multi-Eje (MA-GC), que gestiona estratégicamente la memoria al retener solo activaciones esenciales en múltiples ejes computacionales. Nuestro enfoque reduce significativamente la huella de memoria en comparación con el punto de control de gradiente estándar. Los análisis empíricos muestran que Video-Ma^2mba puede procesar extensas secuencias de video-equivalentes a millones de tokens o más de dos horas de secuencias continuas a 1 FPS-en una sola GPU. Al mantener una captura detallada de la dinámica temporal, nuestro modelo mejora la precisión y relevancia de las respuestas en tareas de comprensión de video largo, demostrando ventajas sustanciales sobre los marcos existentes.

DisCoRD: De Tokens Discretos a Movimiento Continuo a través de Flujo Rectificado Decodificación
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

El movimiento humano, inherentemente continuo y dinámico, presenta desafíos significativos para los modelos generativos. A pesar de su dominancia, los métodos de cuantización discreta, como los VQ-VAEs, sufren de limitaciones inherentes, incluyendo una expresividad restringida y artefactos de ruido por cuadro. Los enfoques continuos, aunque producen movimientos más suaves y naturales, a menudo fallan debido a la complejidad de alta dimensión y datos de entrenamiento limitados. Para resolver esta "discordia" entre representaciones discretas y continuas, presentamos DisCoRD: Tokens Discretos a Movimiento Continuo a través de Decodificación de Flujo Rectificado, un método novedoso que decodifica tokens de movimiento discretos en movimiento continuo a través de flujo rectificado. Al emplear un proceso de refinamiento iterativo en el espacio continuo, DisCoRD captura dinámicas detalladas y garantiza movimientos más suaves y naturales. Compatible con cualquier marco basado en lo discreto, nuestro método mejora la naturalidad sin comprometer la fidelidad a las señales de condicionamiento. Evaluaciones extensas demuestran que DisCoRD logra un rendimiento de vanguardia, con un FID de 0.032 en HumanML3D y 0.169 en KIT-ML. Estos resultados consolidan a DisCoRD como una solución robusta para cerrar la brecha entre la eficiencia discreta y el realismo continuo. Nuestra página del proyecto está disponible en: https://whwjdqls.github.io/discord.github.io/.

MATATA: una herramienta de razonamiento asistida por herramientas matemáticas débilmente supervisada para aplicaciones tabulares.
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

Las capacidades de razonamiento matemático están aumentando con agentes de lenguaje potenciados por herramientas, pero los métodos a menudo dependen de modelos cerrados o grandes, datos externos o un extenso diseño de indicaciones. Este trabajo presenta MATATA, un novedoso método rentable para entrenar agentes LLM para problemas de datos tabulares a través de razonamiento, planificación y uso de herramientas. Con un paradigma de auto-mejora progresiva y una supervisión débil iterativa, potencia a los Modelos de Lenguaje Pequeños (SLMs) de 3.8B/8B, especialmente adecuados para alojamiento local y contextos empresariales sensibles donde la privacidad de los datos es crucial. Al emplear herramientas flexibles y reutilizables en diferentes conjuntos de datos, logra un rendimiento robusto con escalabilidad efectiva en tareas compartidas. Los experimentos muestran que MATATA alcanza rendimientos de vanguardia en FinQA y TAT-QA entre los marcos de razonamiento basados en modelos de código abierto. Además, los modelos de MATATA compiten con los marcos basados en GPT-4 en TabMWP, siendo SLMs.

AC3D: Análisis y Mejora del Control de Cámara 3D en la Difusión de Video con Transformers
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

Numerosas obras han integrado recientemente el control de cámara 3D en modelos fundamentales de texto a video, pero el control resultante de la cámara a menudo es impreciso y la calidad de generación de video se ve afectada. En este trabajo, analizamos el movimiento de la cámara desde una perspectiva de primeros principios, descubriendo ideas que permiten una manipulación precisa de la cámara 3D sin comprometer la calidad de síntesis. En primer lugar, determinamos que el movimiento inducido por los movimientos de la cámara en los videos es de baja frecuencia. Esto nos motiva a ajustar los horarios de condicionamiento de la postura de entrenamiento y prueba, acelerando la convergencia del entrenamiento al tiempo que mejoramos la calidad visual y de movimiento. Luego, al explorar las representaciones de un transformador de difusión de video incondicional, observamos que implícitamente realizan una estimación de la postura de la cámara bajo el capó, y solo una subsección de sus capas contiene la información de la cámara. Esto nos sugirió limitar la inyección de condicionamiento de cámara a un subconjunto de la arquitectura para evitar interferencias con otras características de video, lo que resultó en una reducción de 4 veces de los parámetros de entrenamiento, una velocidad de entrenamiento mejorada y una calidad visual un 10% mayor. Finalmente, complementamos el conjunto de datos típico para el aprendizaje de control de cámara con un conjunto de datos seleccionado de 20K videos dinámicos diversos con cámaras estacionarias. Esto ayuda al modelo a diferenciar entre el movimiento de la cámara y de la escena, y mejora la dinámica de los videos condicionados por la postura generados. Combinamos estos hallazgos para diseñar la arquitectura de Control Avanzado de Cámara 3D (AC3D), el nuevo modelo de vanguardia para la modelización generativa de video con control de cámara.

AlphaTablets: Una Representación Genérica de Plano para la Reconstrucción Planar 3D a partir de Videos Monoculares
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

Presentamos AlphaTablets, una representación novedosa y genérica de planos 3D que presenta una superficie 3D continua y una delimitación precisa de los límites. Al representar los planos 3D como rectángulos con canales alfa, AlphaTablets combinan las ventajas de las representaciones actuales de planos 2D y 3D, permitiendo modelar de manera precisa, consistente y flexible los planos 3D. Derivamos una rasterización diferenciable sobre AlphaTablets para renderizar eficientemente los planos 3D en imágenes, y proponemos un nuevo pipeline ascendente para la reconstrucción planar 3D a partir de videos monoculares. Comenzando con superpíxeles 2D y señales geométricas de modelos pre-entrenados, inicializamos los planos 3D como AlphaTablets y los optimizamos a través de renderización diferenciable. Se introduce un esquema de fusión efectivo para facilitar el crecimiento y refinamiento de AlphaTablets. A través de la optimización iterativa y fusión, reconstruimos planos 3D completos y precisos con superficies sólidas y límites claros. Experimentos extensos en el conjunto de datos ScanNet demuestran un rendimiento de vanguardia en la reconstrucción planar 3D, subrayando el gran potencial de AlphaTablets como una representación genérica de planos 3D para diversas aplicaciones. La página del proyecto está disponible en: https://hyzcluster.github.io/alphatablets

DeMo: Optimización de Momento Desacoplado
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

El entrenamiento de grandes redes neuronales generalmente requiere compartir gradientes entre aceleradores a través de interconexiones especializadas de alta velocidad. Basándonos en los principios de procesamiento de señales de descomposición en frecuencia y compresión de energía, demostramos que sincronizar estados completos de optimización y parámetros del modelo durante el entrenamiento es innecesario. Al separar las actualizaciones de momento y permitir una divergencia controlada en los estados del optimizador entre aceleradores, logramos una convergencia mejorada en comparación con optimizadores de última generación. Presentamos Decoupled Momentum (DeMo), un optimizador fusionado y un algoritmo de paralelismo de datos que reduce los requisitos de comunicación entre aceleradores en varios órdenes de magnitud. Esto permite el entrenamiento de grandes redes neuronales incluso con ancho de banda de red limitado y hardware heterogéneo. Nuestro método es agnóstico a la topología e independiente de la arquitectura, y admite un entrenamiento distribuido síncrono a nivel de reloj con una sobrecarga computacional y de memoria despreciable. Los resultados empíricos muestran que los modelos entrenados con DeMo igualan o superan el rendimiento de modelos equivalentes entrenados con AdamW, al tiempo que eliminan la necesidad de interconexiones de alta velocidad al preentrenar modelos de base a gran escala. Se ha publicado una implementación de referencia de código abierto en PyTorch en GitHub en https://github.com/bloc97/DeMo

Marco de trabajo LLM para clasificación de texto sin datos anotados manualmente: un estudio de caso en la clasificación de temas de noticias IPTC.
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

Con el creciente número de noticias disponibles en línea, clasificarlas por tema, independientemente del idioma en que estén escritas, se ha vuelto crucial para mejorar el acceso de los lectores a contenido relevante. Para abordar este desafío, proponemos un marco de trabajo profesor-alumno basado en grandes modelos de lenguaje (LLMs) para desarrollar modelos multilingües de clasificación de noticias de tamaño razonable sin necesidad de anotación manual de datos. El marco emplea un modelo Generativo Preentrenado Transformer (GPT) como modelo profesor para desarrollar un conjunto de datos de entrenamiento de Temas de Medios IPTC a través de la anotación automática de artículos de noticias en esloveno, croata, griego y catalán. El modelo profesor muestra un alto rendimiento de cero disparos en los cuatro idiomas. Su acuerdo con los anotadores humanos es comparable al de los propios anotadores humanos. Para mitigar las limitaciones computacionales asociadas con el procesamiento de millones de textos diarios, se ajustan modelos de estudiantes más pequeños similares a BERT en el conjunto de datos anotado por GPT. Estos modelos de estudiantes logran un alto rendimiento comparable al del modelo profesor. Además, exploramos el impacto del tamaño de los datos de entrenamiento en el rendimiento de los modelos de estudiantes e investigamos sus capacidades monolingües, multilingües y de cero disparos cruzados. Los hallazgos indican que los modelos de estudiantes pueden lograr un alto rendimiento con un número relativamente pequeño de instancias de entrenamiento, y demuestran fuertes habilidades de cero disparos cruzados lingüísticos. Finalmente, publicamos el clasificador de temas de noticias con mejor rendimiento, permitiendo la clasificación multilingüe con las categorías de nivel superior del esquema de Temas de Medios IPTC.

SpotLight: Iluminación de objetos guiada por sombras a través de difusión
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Trabajos recientes han demostrado que los modelos de difusión pueden utilizarse como potentes motores de renderizado neuronal que pueden aprovecharse para insertar objetos virtuales en imágenes. Sin embargo, a diferencia de los renderizadores basados en física típicos, los motores de renderizado neuronal están limitados por la falta de control manual sobre la configuración de iluminación, que a menudo es esencial para mejorar o personalizar el resultado de la imagen deseada. En este artículo, mostramos que se puede lograr un control preciso de la iluminación para el reiluminado de objetos simplemente especificando las sombras deseadas del objeto. Sorprendentemente, demostramos que al inyectar solo la sombra del objeto en un renderizador neuronal basado en difusión preentrenado, este puede sombrear con precisión el objeto según la posición de la luz deseada, armonizando adecuadamente el objeto (y su sombra) dentro de la imagen de fondo objetivo. Nuestro método, SpotLight, aprovecha enfoques de renderizado neuronal existentes y logra resultados de reiluminado controlables sin necesidad de entrenamiento adicional. Específicamente, demostramos su uso con dos renderizadores neuronales de la literatura reciente. Mostramos que SpotLight logra resultados de composición de objetos superiores, tanto cuantitativa como perceptualmente, según lo confirmado por un estudio de usuarios, superando a los modelos basados en difusión existentes diseñados específicamente para el reiluminado.

Entrenamiento de Podado de Tokens de Ruido
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer

En el presente trabajo presentamos el Entrenamiento con Ruido en Tokens (TNT) para la poda de transformers de visión. Nuestro método relaja la condición de eliminación de tokens discretos a ruido aditivo continuo, lo que proporciona una optimización suave en el entrenamiento, al tiempo que conserva las ventajas computacionales de eliminación discreta en entornos de implementación. Establecemos conexiones teóricas con la literatura de Tasa-Distorsión y realizamos evaluaciones empíricas en el conjunto de datos ImageNet utilizando las arquitecturas ViT y DeiT, demostrando las ventajas de TNT sobre métodos de poda previos.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

GRAPE: Generalización de Políticas de Robot mediante Alineación de Preferencias
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

Profundidad de Video sin Modelos de Video
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

Más allá de los Ejemplos: Paradigma de Razonamiento Automatizado de Alto Nivel en Aprendizaje en Contexto a través de MCTS
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

Sobre el Post-Entrenamiento Específico de Dominio para Modelos de Lenguaje Multimodales de Gran Escala
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

Informe Técnico de Yi-Lightning
Yi-Lightning Technical Report

Dec 2

Orientación de Salto Espaciotemporal para una Muestra de Difusión de Video Mejorada
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

El Pensamiento Inverso Hace que los LLMs Sean Razonadores Más Fuertes
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

Incrustación de Paso Temporal: Es Hora de Cachear para el Modelo de Difusión de Video
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

Rompecabezas: NAS basado en destilación para LLMs optimizados para inferencia
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

Difusión FAM: Modulación de Frecuencia y Atención para la Generación de Imágenes de Alta Resolución con Difusión Estable
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

Escalando Transformadores para Codificación de Voz de Alta Calidad a Bajas Tasas de Bits
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

Atención de Trayectoria para el Control de Movimiento de Video Detallado
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

Observa Cada Fotograma de una Vez: Video-Ma^2mba para una Comprensión Eficiente de Videos de Larga Duración con Puntos de Control de Gradiente Multi-eje
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

DisCoRD: De Tokens Discretos a Movimiento Continuo a través de Flujo Rectificado Decodificación
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

MATATA: una herramienta de razonamiento asistida por herramientas matemáticas débilmente supervisada para aplicaciones tabulares.
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

AC3D: Análisis y Mejora del Control de Cámara 3D en la Difusión de Video con Transformers
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

AlphaTablets: Una Representación Genérica de Plano para la Reconstrucción Planar 3D a partir de Videos Monoculares
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

DeMo: Optimización de Momento Desacoplado
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

Marco de trabajo LLM para clasificación de texto sin datos anotados manualmente: un estudio de caso en la clasificación de temas de noticias IPTC.
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

SpotLight: Iluminación de objetos guiada por sombras a través de difusión
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Entrenamiento de Podado de Tokens de Ruido
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer