Artículos de investigación en IA seleccionados diariamente con traducciones
Este artículo aborda la creciente necesidad de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) eficientes en dispositivos móviles, impulsada por el aumento de los costos en la nube y las preocupaciones sobre la latencia. Nos enfocamos en diseñar LLMs de alta calidad con menos de mil millones de parámetros, una elección práctica para su implementación en dispositivos móviles. Contrario a la creencia predominante que enfatiza el papel crucial de la cantidad de datos y parámetros en la determinación de la calidad del modelo, nuestra investigación subraya la importancia de la arquitectura del modelo para LLMs de escala inferior a mil millones. Aprovechando arquitecturas profundas y delgadas, junto con mecanismos de compartición de embeddings y atención de consultas agrupadas, establecemos una red base sólida denominada MobileLLM, que logra un notable incremento en precisión de 2.7%/4.3% sobre los modelos anteriores de 125M/350M de última generación. Además, proponemos un enfoque inmediato de compartición de pesos por bloques sin aumento en el tamaño del modelo y con solo un ligero incremento en la latencia. Los modelos resultantes, denominados MobileLLM-LS, demuestran una mejora adicional en precisión de 0.7%/0.8% sobre MobileLLM 125M/350M. Asimismo, la familia de modelos MobileLLM muestra mejoras significativas en comparación con modelos anteriores de escala inferior a mil millones en benchmarks de chat, y demuestra una precisión cercana a LLaMA-v2 7B en tareas de llamadas a API, destacando la capacidad de los modelos pequeños para casos de uso comunes en dispositivos.
Presentamos Genie, el primer entorno interactivo generativo entrenado de manera no supervisada a partir de videos de Internet sin etiquetar. El modelo puede ser guiado para generar una variedad infinita de mundos virtuales controlables mediante acciones, descritos a través de texto, imágenes sintéticas, fotografías e incluso bocetos. Con 11 mil millones de parámetros, Genie puede considerarse un modelo base de mundos. Está compuesto por un tokenizador de videos espaciotemporales, un modelo dinámico autoregresivo y un modelo de acciones latentes simple y escalable. Genie permite a los usuarios interactuar en los entornos generados fotograma a fotograma, a pesar de haber sido entrenado sin etiquetas de acciones de referencia ni otros requisitos específicos de dominio típicamente presentes en la literatura sobre modelos de mundos. Además, el espacio de acciones latentes aprendido facilita el entrenamiento de agentes para imitar comportamientos a partir de videos no vistos, abriendo el camino para el entrenamiento de agentes generalistas del futuro.
Este artículo investiga la radioactividad de los textos generados por LLM, es decir, si es posible detectar que dichos datos se utilizaron como conjunto de entrenamiento. Métodos convencionales como la inferencia de pertenencia pueden llevar a cabo esta detección con cierto nivel de precisión. Demostramos que los datos de entrenamiento con marcas de agua dejan rastros más fáciles de detectar y mucho más confiables que la inferencia de pertenencia. Relacionamos el nivel de contaminación con la robustez de la marca de agua, su proporción en el conjunto de entrenamiento y el proceso de ajuste fino. En particular, demostramos que el entrenamiento con instrucciones sintéticas marcadas con agua puede detectarse con alta confianza (p-valor < 1e-5) incluso cuando tan solo el 5% del texto de entrenamiento está marcado. Por lo tanto, la marca de agua en LLM, originalmente diseñada para detectar texto generado por máquinas, permite identificar fácilmente si las salidas de un LLM marcado se utilizaron para ajustar otro LLM.
Métodos recientes han demostrado que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden resolver tareas de razonamiento de manera más efectiva cuando se les incentiva a abordar primero subtareas del problema principal. En este artículo, diseñamos una estrategia similar que descompone las tareas de razonamiento en una fase de descomposición del problema y una fase de resolución del problema, y mostramos que esta estrategia supera a una solución de una sola etapa. Además, planteamos la hipótesis de que la descomposición debería ser más fácil de destilar en un modelo más pequeño en comparación con la resolución del problema, ya que esta última requiere grandes cantidades de conocimiento del dominio, mientras que la primera solo requiere aprender estrategias generales de resolución de problemas. Proponemos métodos para destilar estas dos capacidades y evaluamos su impacto en los resultados de razonamiento y el costo de inferencia. Descubrimos que podemos destilar la fase de descomposición del problema y, al mismo tiempo, lograr una buena generalización entre tareas, conjuntos de datos y modelos. Sin embargo, es más difícil destilar la capacidad de resolución de problemas sin perder rendimiento, y el modelo destilado resultante tiene dificultades para generalizar. Estos resultados indican que, al utilizar modelos más pequeños y destilados para la descomposición del problema en combinación con LLMs de resolución de problemas, podemos lograr un razonamiento con inferencia eficiente en costos y adaptación local.
En este trabajo demostramos que el equilibrio entre tamaño y precisión en la cuantización de redes neuronales puede mejorarse significativamente al aumentar la dimensionalidad de la cuantización. Proponemos el método GPTVQ, un nuevo método rápido para la cuantización vectorial (VQ) post-entrenamiento que escala eficientemente a Modelos de Lenguaje de Gran Escala (LLMs). Nuestro método intercala la cuantización de una o más columnas con actualizaciones de los pesos no cuantizados restantes, utilizando información del Hessiano del error cuadrático medio (MSE) de reconstrucción de la salida por capa. Los codebooks de cuantización se inicializan mediante una versión eficiente y basada en datos del algoritmo EM. Luego, los codebooks se actualizan y se comprimen aún más mediante cuantización entera y compresión basada en SVD. GPTVQ establece un nuevo estado del arte en el equilibrio entre tamaño y precisión en una amplia gama de LLMs, como Llama-v2 y Mistral. Además, nuestro método es eficiente: en una sola H100, toma entre 3 y 11 horas procesar un modelo Llamav2-70B, dependiendo de la configuración de cuantización. Por último, con mediciones de tiempo en dispositivo para la descompresión VQ en una CPU móvil, demostramos que la VQ conduce a una latencia mejorada en comparación con el uso de un formato entero de 4 bits.
La autoatención es un componente esencial de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), pero también una fuente significativa de latencia en la inferencia para secuencias largas. En escenarios de servicio multiinquilino de LLMs, el costo computacional y de operaciones de memoria de la autoatención puede optimizarse utilizando la probabilidad de que múltiples solicitudes de LLM compartan prefijos de sistema en sus secuencias iniciales. En este artículo, presentamos ChunkAttention, un módulo de autoatención consciente de prefijos que puede detectar prefijos de sistema coincidentes en múltiples solicitudes y compartir sus tensores de clave/valor en memoria durante la ejecución para mejorar la utilización de la memoria de la caché KV. Esto se logra dividiendo los tensores monolíticos de clave/valor en fragmentos más pequeños y organizándolos en un árbol de prefijos auxiliar. En consecuencia, sobre la base de la caché KV estructurada en árbol de prefijos, diseñamos un núcleo de autoatención eficiente, donde se implementa un algoritmo de partición en dos fases para mejorar la localidad de los datos durante el cálculo de la autoatención en presencia de prefijos de sistema compartidos. Los experimentos muestran que ChunkAttention puede acelerar el núcleo de autoatención entre 3.2 y 4.8 veces en comparación con la implementación más avanzada, con longitudes de prefijos de sistema que van desde 1024 hasta 4096.
Este artículo explora el impacto de extender la longitud de las entradas en las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A pesar de los avances recientes en los LLMs, su consistencia en el rendimiento a través de diferentes longitudes de entrada no está bien comprendida. Investigamos este aspecto introduciendo un novedoso marco de razonamiento de preguntas y respuestas (QA), diseñado específicamente para evaluar el impacto de la longitud de la entrada. Aislamos el efecto de la longitud de la entrada utilizando múltiples versiones de la misma muestra, cada una extendida con relleno de diferentes longitudes, tipos y ubicaciones. Nuestros hallazgos muestran una degradación notable en el rendimiento de razonamiento de los LLMs a longitudes de entrada mucho más cortas que su máximo técnico. Demostramos que la tendencia de degradación aparece en cada versión de nuestro conjunto de datos, aunque con diferentes intensidades. Además, nuestro estudio revela que las métricas tradicionales de perplejidad no se correlacionan con el rendimiento de los LLMs en tareas de razonamiento con entradas largas. Analizamos nuestros resultados e identificamos modos de fallo que pueden servir como guías útiles para futuras investigaciones, potencialmente informando estrategias para abordar las limitaciones observadas en los LLMs.
Los agentes autónomos impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han captado una atención significativa en la investigación. Sin embargo, aprovechar plenamente el potencial de los LLMs para tareas basadas en agentes presenta desafíos inherentes debido a la naturaleza heterogénea de diversas fuentes de datos que incluyen trayectorias de múltiples turnos. En este artículo, presentamos AgentOhana como una solución integral para abordar estos desafíos. AgentOhana agrega trayectorias de agentes provenientes de distintos entornos, abarcando una amplia gama de escenarios. Meticulosamente, estandariza y unifica estas trayectorias en un formato consistente, optimizando la creación de un cargador de datos genérico diseñado para el entrenamiento de agentes. Aprovechando la unificación de datos, nuestra canalización de entrenamiento mantiene un equilibrio entre diferentes fuentes de datos y preserva la aleatoriedad independiente en los dispositivos durante la partición del conjunto de datos y el entrenamiento del modelo. Además, presentamos xLAM-v0.1, un modelo de acción de gran escala diseñado específicamente para agentes de IA, que demuestra un rendimiento excepcional en varios puntos de referencia.
La generación condicional de movimiento humano es un tema importante con múltiples aplicaciones en realidad virtual, videojuegos y robótica. Si bien trabajos previos se han centrado en generar movimientos guiados por texto, música o escenas, estos suelen resultar en movimientos aislados limitados a duraciones cortas. En cambio, abordamos la generación de secuencias largas y continuas guiadas por una serie de descripciones textuales variables. En este contexto, presentamos FlowMDM, el primer modelo basado en difusión que genera Composición de Movimiento Humano (HMC, por sus siglas en inglés) sin necesidad de postprocesamiento ni pasos redundantes de eliminación de ruido. Para ello, introducimos las Codificaciones Posicionales Mezcladas, una técnica que aprovecha tanto las codificaciones posicionales absolutas como relativas en la cadena de eliminación de ruido. Más específicamente, la coherencia global del movimiento se recupera en la etapa absoluta, mientras que las transiciones suaves y realistas se construyen en la etapa relativa. Como resultado, logramos resultados de vanguardia en términos de precisión, realismo y suavidad en los conjuntos de datos Babel y HumanML3D. FlowMDM destaca cuando se entrena con una sola descripción por secuencia de movimiento gracias a su Atención Cruzada Centrada en la Postura (Pose-Centric Cross-ATtention), lo que lo hace robusto frente a descripciones textuales variables durante la inferencia. Finalmente, para abordar las limitaciones de las métricas existentes para HMC, proponemos dos nuevas métricas: el Pico de Sacudida (Peak Jerk) y el Área Bajo la Sacudida (Area Under the Jerk), para detectar transiciones abruptas.
Existe una creciente necesidad de que los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) utilicen de manera efectiva herramientas e Interfaces de Programación de Aplicaciones (APIs) externas para planificar y completar tareas. Como resultado, hay un interés considerable en métodos que puedan adquirir cantidades suficientes de datos de entrenamiento y prueba que involucren llamadas a herramientas/APIs. Dos líneas de investigación han surgido como las estrategias predominantes para abordar este desafío. La primera se ha centrado en técnicas de generación de datos sintéticos, mientras que la segunda ha implicado la curación de conjuntos de datos relacionados con tareas que pueden transformarse en tareas basadas en APIs/herramientas. En este artículo, nos enfocamos en la tarea de identificar, curar y transformar conjuntos de datos existentes y, a su vez, presentamos API-BLEND, un gran corpus para el entrenamiento y la prueba sistemática de LLMs aumentados con herramientas. Los conjuntos de datos imitan escenarios del mundo real que involucran tareas de APIs, como la detección de APIs/herramientas, el llenado de espacios (slot filling) y la secuenciación de las APIs detectadas. Demostramos la utilidad del conjunto de datos API-BLEND tanto para fines de entrenamiento como de evaluación comparativa.