Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos autoregresivos han surgido como un enfoque poderoso para la generación visual, pero sufren de una velocidad de inferencia lenta debido a su proceso de predicción secuencial token por token. En este documento, proponemos un enfoque simple pero efectivo para la generación visual autoregresiva paralela que mejora la eficiencia de generación mientras preserva las ventajas del modelado autoregresivo. Nuestra idea clave es que la generación paralela depende de las dependencias entre tokens visuales: los tokens con dependencias débiles pueden generarse en paralelo, mientras que los tokens adyacentes fuertemente dependientes son difíciles de generar juntos, ya que su muestreo independiente puede llevar a inconsistencias. Basándonos en esta observación, desarrollamos una estrategia de generación paralela que genera tokens distantes con dependencias débiles en paralelo, mientras mantiene la generación secuencial para tokens locales fuertemente dependientes. Nuestro enfoque puede integrarse fácilmente en modelos autoregresivos estándar sin modificar la arquitectura o el tokenizador. Experimentos en ImageNet y UCF-101 demuestran que nuestro método logra una aceleración de 3.6 veces con calidad comparable y hasta 9.5 veces de aceleración con una degradación mínima de calidad en tareas de generación de imágenes y videos. Esperamos que este trabajo inspire futuras investigaciones en generación visual eficiente y modelado autoregresivo unificado. Página del proyecto: https://epiphqny.github.io/PAR-project.
Mejorar la capacidad de razonamiento de múltiples pasos de los modelos de lenguaje grandes (LLMs) con aprendizaje por refuerzo (RL) fuera de línea es esencial para adaptarlos rápidamente a tareas complejas. Si bien la Optimización de Preferencias Directas (DPO) ha demostrado ser prometedora en alinear los LLMs con las preferencias humanas, es menos adecuada para tareas de razonamiento de múltiples pasos porque (1) DPO se basa en datos de preferencias emparejadas, que no están fácilmente disponibles para tareas de razonamiento de múltiples pasos, y (2) trata todos los tokens de manera uniforme, lo que lo hace ineficaz para la asignación de crédito en tareas de razonamiento de múltiples pasos, que a menudo vienen con recompensas escasas. En este trabajo, proponemos OREO (Optimización de Razonamiento en Offline), un método de RL fuera de línea para mejorar el razonamiento de múltiples pasos de LLMs. Basándose en ideas de trabajos anteriores de aprendizaje por refuerzo de máxima entropía, aprende conjuntamente un modelo de política y una función de valor optimizando la Ecuación de Bellman suave. Mostramos en principio que reduce la necesidad de recopilar datos emparejados y permite una mejor asignación de crédito. Empíricamente, OREO supera a los métodos de aprendizaje fuera de línea existentes en bancos de pruebas de razonamiento de múltiples pasos, incluidas tareas de razonamiento matemático (GSM8K, MATH) y control de agentes encarnados (ALFWorld). El enfoque se puede extender a un marco de múltiples iteraciones cuando hay recursos adicionales disponibles. Además, la función de valor aprendida se puede aprovechar para guiar la búsqueda en árbol de forma gratuita, lo que puede mejorar aún más el rendimiento durante el tiempo de prueba.
Los Transformadores de Difusión (DiT) se han convertido en una arquitectura líder en la generación de imágenes. Sin embargo, la complejidad cuadrática de los mecanismos de atención, responsables de modelar las relaciones entre tokens, resulta en una latencia significativa al generar imágenes de alta resolución. Para abordar este problema, nuestro objetivo en este documento es un mecanismo de atención lineal que reduce la complejidad de los DiTs pre-entrenados a lineal. Comenzamos nuestra exploración con un resumen exhaustivo de los mecanismos de atención eficientes existentes e identificamos cuatro factores clave cruciales para la exitosa linealización de los DiTs pre-entrenados: localidad, consistencia de formulación, mapas de atención de alto rango e integridad de características. Basándonos en estos conocimientos, presentamos una estrategia de atención local similar a una convolución denominada CLEAR, que limita las interacciones de características a una ventana local alrededor de cada token de consulta, logrando así una complejidad lineal. Nuestros experimentos indican que, al ajustar finamente la capa de atención en tan solo 10K muestras auto-generadas durante 10K iteraciones, podemos transferir efectivamente el conocimiento de un DiT pre-entrenado a un modelo estudiante con complejidad lineal, obteniendo resultados comparables al modelo docente. Al mismo tiempo, reduce los cálculos de atención en un 99.5% y acelera la generación en 6.3 veces para la generación de imágenes de resolución 8K. Además, investigamos propiedades favorables en las capas de atención destiladas, como la generalización de cero disparos entre varios modelos y complementos, y un mejor soporte para inferencia paralela multi-GPU. Los modelos y códigos están disponibles aquí: https://github.com/Huage001/CLEAR.
La caché de Clave-Valor (KV) se ha convertido en un cuello de botella para los LLMs en la generación de contexto largo. A pesar de los numerosos esfuerzos en esta área, la optimización para la fase de decodificación generalmente se ignora. Sin embargo, creemos que dicha optimización es crucial, especialmente para tareas de generación de salidas largas basadas en las siguientes dos observaciones: (i) La compresión excesiva durante la fase de precarga, que requiere un contexto completo específico, perjudica la comprensión de la tarea de razonamiento; (ii) Se produce una desviación de los elementos más importantes en las tareas de razonamiento con salidas largas. Por lo tanto, se introduce SCOPE, un marco simple pero eficiente que realiza la optimización de la caché KV de forma separada durante las fases de precarga y decodificación. Específicamente, la caché KV durante la fase de precarga se conserva para mantener la información esencial, mientras que se propone una estrategia novedosa basada en deslizamiento para seleccionar los elementos más importantes esenciales para la fase de decodificación. El uso de memoria y la transferencia de memoria se optimizan aún más utilizando estrategias adaptativas y discontinuas. Experimentos extensos en LongGenBench muestran la efectividad y generalización de SCOPE y su compatibilidad como un complemento para otros métodos de compresión KV solo para precarga.
Proponemos sintetizar audio de alta calidad y sincronizado, dado un video y condiciones de texto opcionales, utilizando un novedoso marco de entrenamiento conjunto multimodal llamado MMAudio. En contraste con el entrenamiento de una sola modalidad condicionado solo a datos de video (limitados), MMAudio se entrena conjuntamente con datos texto-audio a gran escala y fácilmente disponibles para aprender a generar muestras de audio de alta calidad alineadas semánticamente. Además, mejoramos la sincronización audio-visual con un módulo de sincronización condicional que alinea las condiciones de video con latentes de audio a nivel de fotograma. Entrenado con un objetivo de coincidencia de flujo, MMAudio logra un nuevo estado del arte de video a audio entre los modelos públicos en términos de calidad de audio, alineación semántica y sincronización audio-visual, con un bajo tiempo de inferencia (1.23 segundos para generar un clip de 8 segundos) y solo 157 millones de parámetros. MMAudio también logra un rendimiento sorprendentemente competitivo en la generación de texto a audio, demostrando que el entrenamiento conjunto no obstaculiza el rendimiento de una sola modalidad. El código y la demostración están disponibles en: https://hkchengrex.github.io/MMAudio
Los modelos de lenguaje multimodales grandes (MLLMs) destacan en la generación de subtítulos altamente detallados pero a menudo producen alucinaciones. Nuestro análisis revela que los métodos existentes de detección de alucinaciones tienen dificultades con los subtítulos detallados. Atribuimos esto a la creciente dependencia de los MLLMs en su texto generado, en lugar de la imagen de entrada, a medida que la longitud de la secuencia aumenta. Para abordar este problema, proponemos un enfoque multiagente que aprovecha la colaboración LLM-MLLM para corregir los subtítulos dados. Además, presentamos un marco de evaluación y un conjunto de datos de referencia para facilitar el análisis sistemático de subtítulos detallados. Nuestros experimentos demuestran que nuestro método de evaluación propuesto se alinea mejor con los juicios humanos sobre la veracidad que las métricas existentes, y que los enfoques existentes para mejorar la veracidad de los MLLM pueden quedarse cortos en tareas de subtitulado de imágenes hiperdetalladas. Por el contrario, nuestro método propuesto mejora significativamente la precisión factual de los subtítulos, incluso mejorando aquellos generados por GPT-4V. Finalmente, destacamos una limitación de la evaluación centrada en VQA al demostrar que el rendimiento de un MLLM en los conjuntos de datos de VQA puede no correlacionar con su capacidad para generar subtítulos detallados de imágenes.
La cuantificación se ha convertido en una de las metodologías más efectivas para comprimir LLMs en un tamaño más pequeño. Sin embargo, las soluciones de cuantificación existentes aún muestran limitaciones, ya sea en una disminución de precisión no despreciable o en la ineficiencia del sistema. En este artículo, realizamos un análisis exhaustivo de los principios generales de cuantificación sobre su efecto en el triángulo de precisión, consumo de memoria y eficiencia del sistema. Proponemos MixLLM, que explora el nuevo espacio de optimización de cuantificación de precisión mixta entre características de salida basado en la idea de que diferentes características de salida tienen diferentes importancias en el modelo. MixLLM identifica las características de salida con alta relevancia en la vista global en lugar de dentro de cada capa individual, asignando de manera efectiva un mayor ancho de bits a las características de salida que más lo necesitan para lograr una buena precisión con bajo consumo de memoria. Presentamos el punto óptimo de configuración de cuantificación de co-diseño algoritmo-sistema que conduce a una alta precisión y eficiencia del sistema. Para abordar el desafío del sistema, diseñamos la de-cuantificación de dos pasos para aprovechar fácilmente el Tensor Core int8 y la conversión rápida de tipo de datos para reducir significativamente la sobrecarga de de-cuantificación, y presentamos el pipeline de software para superponer el acceso a memoria, la de-cuantificación y el MatMul de la mejor manera. Experimentos extensos muestran que con solo un 10% más de bits, el aumento de PPL se puede reducir de aproximadamente 0.5 en SOTA a dentro de 0.2 para Llama 3.1 70B, mientras que en promedio MMLU-Pro mejora en 0.93 sobre el SOTA de tres modelos populares. Además de su precisión superior, MixLLM también logra una eficiencia del sistema de vanguardia.
Proponemos un nuevo bloque para el modelado de video. Se basa en una factorización de tiempo-espacio-canal con bloques dedicados para cada dimensión: las unidades recurrentes lineales con compuertas (LRUs) realizan mezcla de información en el tiempo, las capas de autoatención realizan mezcla en el espacio y las MLPs en los canales. La arquitectura resultante, TRecViT, funciona bien en tareas dispersas y densas, entrenadas en regímenes supervisados o auto-supervisados. Notablemente, nuestro modelo es causal y supera o se iguala a un modelo de atención pura, ViViT-L, en conjuntos de datos de video a gran escala (SSv2, Kinetics400), mientras tiene 3 veces menos parámetros, una huella de memoria 12 veces más pequeña y un conteo de FLOPs 5 veces menor. El código y los puntos de control estarán disponibles en línea en https://github.com/google-deepmind/trecvit.
La superresolución 3D tiene como objetivo reconstruir modelos 3D de alta fidelidad a partir de imágenes de múltiples vistas de baja resolución (LR). Los primeros estudios se centraron principalmente en modelos de superresolución de imagen única (SISR) para aumentar la resolución de las imágenes LR a imágenes de alta resolución. Sin embargo, estos métodos a menudo carecen de consistencia de vista porque operan de forma independiente en cada imagen. Aunque se han explorado diversas técnicas de postprocesamiento para mitigar estas inconsistencias, aún no se han resuelto completamente los problemas. En este artículo, realizamos un estudio exhaustivo de la superresolución 3D aprovechando los modelos de superresolución de video (VSR). Al utilizar modelos VSR, aseguramos un mayor grado de consistencia espacial y podemos hacer referencia a la información espacial circundante, lo que conduce a reconstrucciones más precisas y detalladas. Nuestros hallazgos revelan que los modelos VSR pueden funcionar notablemente bien incluso en secuencias que carecen de alineación espacial precisa. Dada esta observación, proponemos un enfoque simple pero práctico para alinear imágenes LR sin implicar ajustes finos o generar una trayectoria 'suave' a partir de los modelos 3D entrenados sobre imágenes LR. Los resultados experimentales muestran que los algoritmos sorprendentemente simples pueden lograr los mejores resultados en tareas de superresolución 3D en conjuntos de datos de referencia estándar, como los conjuntos de datos NeRF-sintético y MipNeRF-360. Página del proyecto: https://ko-lani.github.io/Sequence-Matters
En este trabajo, proponemos un marco de resumen Multi-LLM y exploramos dos estrategias diferentes de multi-LLM, incluyendo centralizada y descentralizada. Nuestro marco de resumen Multi-LLM tiene dos pasos fundamentalmente importantes en cada ronda de conversación: generación y evaluación. Estos pasos son diferentes dependiendo de si se utiliza nuestra estrategia de resumen Multi-LLM descentralizada o centralizada. Tanto en nuestras estrategias de multi-LLM descentralizada como centralizada, tenemos k LLMs diferentes que generan resúmenes diversos del texto. Sin embargo, durante la evaluación, nuestro enfoque de resumen Multi-LLM centralizado aprovecha un solo LLM para evaluar los resúmenes y seleccionar el mejor, mientras que se utilizan k LLMs para la sumarización multi-LLM descentralizada. En general, encontramos que nuestros enfoques de resumen Multi-LLM superan significativamente a los baselines que aprovechan solo un LLM hasta en un 3x. Estos resultados indican la efectividad de los enfoques Multi-LLM para la sumarización.
Crear un avatar 3D de cuerpo completo altamente fiel y animable a partir de una sola imagen es una tarea desafiante debido a la diversidad de apariencias y poses humanas, así como a la limitada disponibilidad de datos de entrenamiento de alta calidad. Para lograr una reconstrucción humana rápida y de alta calidad, este trabajo replantea la tarea desde las perspectivas del conjunto de datos, el modelo y la representación. En primer lugar, presentamos un conjunto de datos generado centrado en humanos a gran escala, HuGe100K, que consta de 100K conjuntos diversos y fotorrealistas de imágenes humanas. Cada conjunto contiene fotogramas de 24 vistas en poses humanas específicas, generadas utilizando un modelo de imagen a múltiples vistas controlado por poses. Aprovechando la diversidad en vistas, poses y apariencias dentro de HuGe100K, desarrollamos un modelo transformador de avance rápido escalable para predecir una representación gaussiana humana en 3D en un espacio uniforme a partir de una imagen humana dada. Este modelo se entrena para desentrañar la pose humana, la forma del cuerpo, la geometría de la ropa y la textura. Las gaussianas estimadas pueden ser animadas sin procesamiento posterior. Realizamos experimentos exhaustivos para validar la efectividad del conjunto de datos y del método propuesto. Nuestro modelo demuestra la capacidad de reconstruir eficientemente humanos fotorrealistas a una resolución de 1K a partir de una sola imagen de entrada utilizando una sola GPU al instante. Además, admite de manera fluida diversas aplicaciones, así como tareas de edición de forma y textura.
Este documento presenta Fietje, una familia de modelos de lenguaje pequeños (SLMs) diseñados específicamente para el idioma neerlandés. El modelo se basa en Phi 2, un modelo centrado en el inglés de 2.7 mil millones de parámetros. Fietje demostró resultados competitivos con modelos de lenguaje más grandes al ser lanzado. Un énfasis central de este trabajo es la transparencia y la reproducibilidad: Fietje es completamente de código abierto, con pesos del modelo, conjuntos de datos, entrenamiento y código de evaluación accesibles públicamente. El documento discute el rendimiento de Fietje y muchos otros modelos en una amplia suite de evaluación de benchmarks en razonamiento, análisis de sentimientos, conocimiento del mundo, aceptabilidad lingüística y desambiguación del sentido de las palabras. Los resultados de la evaluación ilustran el rápido progreso en el campo de los LLMs, donde modelos pequeños recientes superan a modelos más antiguos y grandes que fueron ajustados para el neerlandés. Esta tendencia señala un futuro emocionante para el procesamiento del idioma neerlandés, sugiriendo que incluso los LLMs compactos están volviéndose cada vez más capaces. Además, los esfuerzos en curso y futuros para adaptar LLMs al neerlandés están preparados para mejorar aún más estos modelos, ampliando su aplicabilidad y accesibilidad. Fietje es solo un paso intermedio en la mejora de la accesibilidad a la tecnología del lenguaje para los usuarios del idioma neerlandés.
Construir Modelos de Lenguaje Grandes (LLMs) seguros en varios idiomas es esencial para garantizar tanto un acceso seguro como diversidad lingüística. Con este fin, presentamos M-ALERT, un banco de pruebas multilingüe que evalúa la seguridad de LLMs en cinco idiomas: inglés, francés, alemán, italiano y español. M-ALERT incluye 15k indicaciones de alta calidad por idioma, totalizando 75k, siguiendo la detallada taxonomía de ALERT. Nuestros extensos experimentos con 10 LLMs de última generación resaltan la importancia del análisis de seguridad específico por idioma, revelando que los modelos a menudo muestran inconsistencias significativas en seguridad entre idiomas y categorías. Por ejemplo, Llama3.2 muestra una alta inseguridad en la categoría crime_tax para italiano pero se mantiene seguro en otros idiomas. Similares diferencias pueden observarse en todos los modelos. En contraste, ciertas categorías, como substance_cannabis y crime_propaganda, desencadenan consistentemente respuestas inseguras en todos los modelos e idiomas. Estos hallazgos subrayan la necesidad de prácticas de seguridad robustas y multilingües en LLMs para garantizar un uso seguro y responsable en diversas comunidades de usuarios.