Artículos de investigación en IA seleccionados diariamente con traducciones
Una ventana de contexto grande es una característica deseable en los modelos de lenguaje de gran escala (LLMs). Sin embargo, debido a los altos costos de ajuste fino, la escasez de textos largos y los valores catastróficos introducidos por nuevas posiciones de tokens, las ventanas de contexto extendidas actuales están limitadas a alrededor de 128k tokens. Este artículo presenta LongRoPE, que, por primera vez, extiende la ventana de contexto de LLMs preentrenados a un impresionante 2048k tokens, con un máximo de solo 1k pasos de ajuste fino dentro de longitudes de entrenamiento de 256k, manteniendo el rendimiento en la ventana de contexto corta original. Esto se logra mediante tres innovaciones clave: (i) identificamos y aprovechamos dos formas de no uniformidades en la interpolación posicional a través de una búsqueda eficiente, proporcionando una mejor inicialización para el ajuste fino y permitiendo una extensión de 8x en escenarios sin ajuste fino; (ii) introducimos una estrategia de extensión progresiva que primero ajusta un LLM de 256k de longitud y luego realiza una segunda interpolación posicional en el LLM extendido ajustado para alcanzar una ventana de contexto de 2048k; (iii) reajustamos LongRoPE en una longitud de 8k para recuperar el rendimiento de la ventana de contexto corta. Experimentos extensos en LLaMA2 y Mistral en diversas tareas demuestran la efectividad de nuestro método. Los modelos extendidos mediante LongRoPE conservan la arquitectura original con modificaciones menores en la incrustación posicional y pueden reutilizar la mayoría de las optimizaciones preexistentes.
Los métodos actuales de aprendizaje profundo se centran en cómo diseñar las funciones de objetivo más adecuadas para que los resultados de predicción del modelo se acerquen lo más posible a la verdad fundamental. Al mismo tiempo, es necesario diseñar una arquitectura apropiada que facilite la adquisición de suficiente información para la predicción. Los métodos existentes ignoran el hecho de que, cuando los datos de entrada pasan por una extracción de características capa por capa y una transformación espacial, se pierde una gran cantidad de información. Este artículo profundizará en los problemas importantes de la pérdida de datos cuando estos se transmiten a través de redes profundas, específicamente el cuello de botella de información y las funciones reversibles. Proponemos el concepto de información de gradiente programable (PGI, por sus siglas en inglés) para abordar los diversos cambios requeridos por las redes profundas para alcanzar múltiples objetivos. PGI puede proporcionar información completa de entrada para la tarea objetivo, permitiendo calcular la función de objetivo y obtener información de gradiente confiable para actualizar los pesos de la red. Además, se ha diseñado una nueva arquitectura de red ligera: la Red de Agregación de Capas Eficiente Generalizada (GELAN, por sus siglas en inglés), basada en la planificación de rutas de gradiente. La arquitectura de GELAN confirma que PGI ha obtenido resultados superiores en modelos ligeros. Verificamos la propuesta de GELAN y PGI en la detección de objetos basada en el conjunto de datos MS COCO. Los resultados muestran que GELAN utiliza únicamente operadores de convolución convencionales para lograr una mejor utilización de parámetros que los métodos más avanzados desarrollados basados en convoluciones profundas. PGI puede utilizarse en una variedad de modelos, desde ligeros hasta grandes. Puede emplearse para obtener información completa, permitiendo que modelos entrenados desde cero logren mejores resultados que los modelos más avanzados preentrenados con grandes conjuntos de datos. Los resultados de comparación se muestran en la Figura 1. Los códigos fuente están disponibles en: https://github.com/WongKinYiu/yolov9.
Presentamos el conjunto de datos Aria Everyday Activities (AEA), un conjunto de datos multimodal egocéntrico y abierto grabado utilizando las gafas Project Aria. AEA contiene 143 secuencias de actividades diarias registradas por múltiples usuarios en cinco ubicaciones interiores geográficamente diversas. Cada grabación incluye datos de sensores multimodales capturados a través de las gafas Project Aria. Además, AEA proporciona datos de percepción automática, como trayectorias 3D alineadas globalmente de alta frecuencia, nubes de puntos de la escena, vectores 3D de la mirada por fotograma y transcripciones de voz alineadas temporalmente. En este artículo, demostramos algunas aplicaciones de investigación ejemplares habilitadas por este conjunto de datos, incluyendo la reconstrucción neuronal de escenas y la segmentación guiada por indicaciones. AEA es un conjunto de datos de código abierto que puede descargarse desde projectaria.com. También proporcionamos implementaciones de código abierto y ejemplos de cómo utilizar el conjunto de datos en las herramientas de Project Aria.
Proponemos un método de destilación por difusión que establece un nuevo estado del arte en la generación de imágenes de texto a imagen en un paso/pocos pasos a 1024px basado en SDXL. Nuestro método combina destilación progresiva y adversaria para lograr un equilibrio entre calidad y cobertura de modos. En este artículo, discutimos el análisis teórico, el diseño del discriminador, la formulación del modelo y las técnicas de entrenamiento. Liberamos nuestros modelos destilados SDXL-Lightning tanto como LoRA como pesos completos de UNet.
Los modelos contemporáneos para generar imágenes muestran una calidad y versatilidad notables. Impulsados por estas ventajas, la comunidad de investigación los adapta para generar videos. Dado que el contenido de video es altamente redundante, argumentamos que trasladar de manera ingenua los avances de los modelos de imágenes al dominio de la generación de videos reduce la fidelidad del movimiento, la calidad visual y perjudica la escalabilidad. En este trabajo, construimos Snap Video, un modelo centrado en video que aborda sistemáticamente estos desafíos. Para lograrlo, primero extendemos el marco EDM para tener en cuenta los píxeles redundantes espacial y temporalmente y apoyar naturalmente la generación de videos. En segundo lugar, demostramos que una U-Net —un componente clave detrás de la generación de imágenes— escala de manera deficiente al generar videos, requiriendo un sobrecosto computacional significativo. Por ello, proponemos una nueva arquitectura basada en transformadores que entrena 3.31 veces más rápido que las U-Nets (y es ~4.5 veces más rápida en la inferencia). Esto nos permite entrenar de manera eficiente un modelo de texto a video con miles de millones de parámetros por primera vez, alcanzar resultados de vanguardia en varios benchmarks y generar videos con una calidad, consistencia temporal y complejidad de movimiento sustancialmente superiores. Los estudios de usuarios mostraron que nuestro modelo fue favorecido por un amplio margen sobre los métodos más recientes. Visite nuestro sitio web en https://snap-research.github.io/snapvideo/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural. Sin embargo, incorporar de manera efectiva datos de interacción de usuarios complejos y potencialmente ruidosos sigue siendo un desafío. Para abordar esto, proponemos User-LLM, un marco novedoso que aprovecha los embeddings de usuarios para contextualizar los LLMs. Estos embeddings, extraídos de diversas interacciones de usuarios mediante preentrenamiento autosupervisado, capturan las preferencias latentes de los usuarios y su evolución en el tiempo. Integramos estos embeddings de usuarios con los LLMs mediante atención cruzada y soft-prompting, permitiendo que los LLMs se adapten dinámicamente al contexto del usuario. Nuestros experimentos exhaustivos en los conjuntos de datos MovieLens, Amazon Review y Google Local Review demuestran mejoras significativas en el rendimiento en diversas tareas. En particular, nuestro enfoque supera la contextualización basada en prompts de texto en tareas de secuencias largas y tareas que requieren un profundo entendimiento del usuario, además de ser computacionalmente eficiente. Además, incorporamos capas Perceiver para optimizar la integración entre los codificadores de usuarios y los LLMs, reduciendo las demandas computacionales.
Trabajos recientes han demostrado que los agentes de aprendizaje por refuerzo profundo tienen dificultades para utilizar de manera efectiva los parámetros de sus redes. Aprovechamos conocimientos previos sobre las ventajas de las técnicas de entrenamiento disperso y demostramos que la poda gradual por magnitud permite a los agentes maximizar la efectividad de los parámetros. Esto da como resultado redes que ofrecen mejoras de rendimiento significativas en comparación con las redes tradicionales y exhiben una especie de "ley de escalamiento", utilizando solo una pequeña fracción de los parámetros totales de la red.
Recientemente se ha demostrado que los ataques adversarios sobre modelos de lenguaje de gran escala (LLMs) pueden "liberar" al modelo para que realice declaraciones dañinas. En este trabajo, argumentamos que el espectro de ataques adversarios sobre LLMs es mucho más amplio que simplemente la liberación. Proporcionamos una visión general de las posibles superficies de ataque y objetivos de ataque. Basándonos en una serie de ejemplos concretos, discutimos, categorizamos y sistematizamos ataques que fuerzan diversos comportamientos no deseados, como la desorientación, el control del modelo, la denegación de servicio o la extracción de datos. Analizamos estos ataques en experimentos controlados y encontramos que muchos de ellos surgen de la práctica de pre-entrenar LLMs con capacidades de codificación, así como de la persistencia de "tokens" extraños o "glitch" en los vocabularios comunes de los LLMs que deberían eliminarse por razones de seguridad.
Con el desarrollo de los modelos de difusión, la transferencia de estilo de imágenes guiada por texto ha demostrado resultados de síntesis controlada de alta calidad. Sin embargo, la utilización de texto para la transferencia de estilo musical diversa presenta desafíos significativos, principalmente debido a la disponibilidad limitada de conjuntos de datos de audio-texto emparejados. La música, siendo una forma de arte abstracta y compleja, exhibe variaciones y matices incluso dentro del mismo género, lo que dificulta las descripciones textuales precisas. Este artículo presenta un enfoque de transferencia de estilo musical que captura efectivamente los atributos musicales utilizando datos mínimos. Introducimos un novedoso módulo de inversión textual variante en el tiempo para capturar con precisión las características del mel-espectrograma en diferentes niveles. Durante la inferencia, proponemos una técnica de estilización con reducción de sesgo para obtener resultados estables. Los resultados experimentales demuestran que nuestro método puede transferir el estilo de instrumentos específicos, así como incorporar sonidos naturales para componer melodías. Las muestras y el código fuente están disponibles en https://lsfhuihuiff.github.io/MusicTI/.
El razonamiento multimodal se erige como una capacidad fundamental para los grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés). La integración con Lenguajes Específicos de Dominio (DSL), que ofrecen representaciones visuales precisas, brinda a estos modelos la oportunidad de realizar razonamientos más exactos en dominios complejos y profesionales. Sin embargo, el método estándar de prompting de Cadena de Pensamiento (CoT) enfrenta desafíos para aprovechar eficazmente las fortalezas únicas de las representaciones visuales y DSL, principalmente debido a sus mecanismos de razonamiento divergentes. Además, a menudo no logra abordar pasos críticos en tareas de razonamiento de múltiples etapas. Para mitigar estos desafíos, presentamos el método de prompting de Alineación Conductual Bimodal (BBA), diseñado para maximizar el potencial de los DSL en la mejora de tareas complejas de razonamiento multimodal. Este método comienza guiando a los LVLMs para crear cadenas de razonamiento separadas para las representaciones visuales y DSL. Posteriormente, alinea estas cadenas abordando cualquier inconsistencia, logrando así una integración cohesiva de comportamientos de diferentes modalidades. Nuestros experimentos demuestran que BBA mejora sustancialmente el rendimiento de GPT-4V(isión) en la resolución de problemas de geometría (del 28,34% al 34,22%), la predicción de ventaja posicional en ajedrez (del 42,08% al 46,99%) y la predicción de propiedades moleculares (del 77,47% al 83,52%).
El mecanismo de atención ha sido crucial para los modelos de difusión de imágenes, sin embargo, su complejidad computacional cuadrática limita los tamaños de las imágenes que podemos procesar dentro de márgenes razonables de tiempo y memoria. Este artículo investiga la importancia de la atención densa en los modelos generativos de imágenes, los cuales a menudo contienen características redundantes, lo que los hace adecuados para mecanismos de atención más dispersos. Proponemos un nuevo método ToDo, que no requiere entrenamiento y se basa en el submuestreo de tokens de clave y valor para acelerar la inferencia de Stable Diffusion hasta 2x para tamaños comunes y hasta 4.5x o más para resoluciones altas como 2048x2048. Demostramos que nuestro enfoque supera a métodos anteriores en el equilibrio entre un rendimiento eficiente y la fidelidad.
Domar los resultados de generación de los modelos de última generación de Difusión y Emparejamiento de Flujos (FM) sin necesidad de volver a entrenar un modelo específico para cada tarea desbloquea una herramienta poderosa para resolver problemas inversos, generación condicional y generación controlada en general. En este trabajo presentamos D-Flow, un marco simple para controlar el proceso de generación diferenciando a través del flujo, optimizando el punto de origen (ruido). Motivamos este marco con nuestra observación clave que establece que, para los modelos de Difusión/FM entrenados con trayectorias de probabilidad gaussianas, diferenciar a través del proceso de generación proyecta el gradiente en la variedad de datos, inyectando implícitamente el previo en el proceso de optimización. Validamos nuestro marco en problemas de generación controlada lineales y no lineales, incluyendo: problemas inversos de imágenes y audio, y generación condicional de moléculas, alcanzando un rendimiento de última generación en todos ellos.
Los métodos de decodificación de redacción-then-verificación, como la decodificación especulativa, son ampliamente adoptados como métodos libres de entrenamiento para acelerar la inferencia de modelos de lenguaje grandes (LLMs, por sus siglas en inglés). En lugar de emplear un proceso autorregresivo para decodificar tokens secuencialmente, la decodificación especulativa inicialmente crea borradores con un modelo pequeño y eficiente. Luego, los LLMs deben realizar la verificación y corrección de manera no autorregresiva para minimizar el tiempo adicional. Generar borradores más largos puede llevar a aceleraciones aún más significativas una vez verificados, pero también incurre en costos sustanciales de prueba y error si falla. Debido a la alta probabilidad de fallo en la verificación, los métodos de decodificación existentes no pueden redactar demasiado contenido para verificación de una sola vez, logrando una aceleración de inferencia subóptima. En este artículo, presentamos Ouroboros, que construye un pool de candidatos de frases a partir del proceso de verificación de los LLMs para proporcionar candidatos para la generación de borradores del modelo pequeño. De esta manera, Ouroboros puede mejorar aún más la eficiencia y efectividad de los borradores iniciales. Los resultados experimentales en tareas típicas de generación de texto muestran que Ouroboros logra aceleraciones de hasta 1.9x y 2.8x en comparación con la decodificación anticipada y la decodificación especulativa, respectivamente. El código fuente de Ouroboros está disponible en https://github.com/thunlp/Ouroboros.