HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

10 papers found

MobileLLM: Optimización de Modelos de Lenguaje con Sub-mil Millones de Parámetros para Casos de Uso en Dispositivos Móviles
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134

Este artículo aborda la creciente necesidad de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) eficientes en dispositivos móviles, impulsada por el aumento de los costos en la nube y las preocupaciones sobre la latencia. Nos enfocamos en diseñar LLMs de alta calidad con menos de mil millones de parámetros, una elección práctica para su implementación en dispositivos móviles. Contrario a la creencia predominante que enfatiza el papel crucial de la cantidad de datos y parámetros en la determinación de la calidad del modelo, nuestra investigación subraya la importancia de la arquitectura del modelo para LLMs de escala inferior a mil millones. Aprovechando arquitecturas profundas y delgadas, junto con mecanismos de compartición de embeddings y atención de consultas agrupadas, establecemos una red base sólida denominada MobileLLM, que logra un notable incremento en precisión de 2.7%/4.3% sobre los modelos anteriores de 125M/350M de última generación. Además, proponemos un enfoque inmediato de compartición de pesos por bloques sin aumento en el tamaño del modelo y con solo un ligero incremento en la latencia. Los modelos resultantes, denominados MobileLLM-LS, demuestran una mejora adicional en precisión de 0.7%/0.8% sobre MobileLLM 125M/350M. Asimismo, la familia de modelos MobileLLM muestra mejoras significativas en comparación con modelos anteriores de escala inferior a mil millones en benchmarks de chat, y demuestra una precisión cercana a LLaMA-v2 7B en tareas de llamadas a API, destacando la capacidad de los modelos pequeños para casos de uso comunes en dispositivos.

Genie: Entornos Interactivos Generativos
Genie: Generative Interactive Environments

Feb 23

ByJake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Presentamos Genie, el primer entorno interactivo generativo entrenado de manera no supervisada a partir de videos de Internet sin etiquetar. El modelo puede ser guiado para generar una variedad infinita de mundos virtuales controlables mediante acciones, descritos a través de texto, imágenes sintéticas, fotografías e incluso bocetos. Con 11 mil millones de parámetros, Genie puede considerarse un modelo base de mundos. Está compuesto por un tokenizador de videos espaciotemporales, un modelo dinámico autoregresivo y un modelo de acciones latentes simple y escalable. Genie permite a los usuarios interactuar en los entornos generados fotograma a fotograma, a pesar de haber sido entrenado sin etiquetas de acciones de referencia ni otros requisitos específicos de dominio típicamente presentes en la literatura sobre modelos de mundos. Además, el espacio de acciones latentes aprendido facilita el entrenamiento de agentes para imitar comportamientos a partir de videos no vistos, abriendo el camino para el entrenamiento de agentes generalistas del futuro.

La marca de agua hace que los modelos de lenguaje sean radiactivos.
Watermarking Makes Language Models Radioactive

Feb 22

ByTom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon

Este artículo investiga la radioactividad de los textos generados por LLM, es decir, si es posible detectar que dichos datos se utilizaron como conjunto de entrenamiento. Métodos convencionales como la inferencia de pertenencia pueden llevar a cabo esta detección con cierto nivel de precisión. Demostramos que los datos de entrenamiento con marcas de agua dejan rastros más fáciles de detectar y mucho más confiables que la inferencia de pertenencia. Relacionamos el nivel de contaminación con la robustez de la marca de agua, su proporción en el conjunto de entrenamiento y el proceso de ajuste fino. En particular, demostramos que el entrenamiento con instrucciones sintéticas marcadas con agua puede detectarse con alta confianza (p-valor < 1e-5) incluso cuando tan solo el 5% del texto de entrenamiento está marcado. Por lo tanto, la marca de agua en LLM, originalmente diseñada para detectar texto generado por máquinas, permite identificar fácilmente si las salidas de un LLM marcado se utilizaron para ajustar otro LLM.

¿Dividir o conquistar? ¿Qué parte de tu modelo de lenguaje grande deberías destilar?
Divide-or-Conquer? Which Part Should You Distill Your LLM?

Feb 22

ByZhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang

Métodos recientes han demostrado que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden resolver tareas de razonamiento de manera más efectiva cuando se les incentiva a abordar primero subtareas del problema principal. En este artículo, diseñamos una estrategia similar que descompone las tareas de razonamiento en una fase de descomposición del problema y una fase de resolución del problema, y mostramos que esta estrategia supera a una solución de una sola etapa. Además, planteamos la hipótesis de que la descomposición debería ser más fácil de destilar en un modelo más pequeño en comparación con la resolución del problema, ya que esta última requiere grandes cantidades de conocimiento del dominio, mientras que la primera solo requiere aprender estrategias generales de resolución de problemas. Proponemos métodos para destilar estas dos capacidades y evaluamos su impacto en los resultados de razonamiento y el costo de inferencia. Descubrimos que podemos destilar la fase de descomposición del problema y, al mismo tiempo, lograr una buena generalización entre tareas, conjuntos de datos y modelos. Sin embargo, es más difícil destilar la capacidad de resolución de problemas sin perder rendimiento, y el modelo destilado resultante tiene dificultades para generalizar. Estos resultados indican que, al utilizar modelos más pequeños y destilados para la descomposición del problema en combinación con LLMs de resolución de problemas, podemos lograr un razonamiento con inferencia eficiente en costos y adaptación local.

GPTVQ: La bendición de la dimensionalidad para la cuantización de modelos de lenguaje grandes
GPTVQ: The Blessing of Dimensionality for LLM Quantization

Feb 23

ByMart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough

En este trabajo demostramos que el equilibrio entre tamaño y precisión en la cuantización de redes neuronales puede mejorarse significativamente al aumentar la dimensionalidad de la cuantización. Proponemos el método GPTVQ, un nuevo método rápido para la cuantización vectorial (VQ) post-entrenamiento que escala eficientemente a Modelos de Lenguaje de Gran Escala (LLMs). Nuestro método intercala la cuantización de una o más columnas con actualizaciones de los pesos no cuantizados restantes, utilizando información del Hessiano del error cuadrático medio (MSE) de reconstrucción de la salida por capa. Los codebooks de cuantización se inicializan mediante una versión eficiente y basada en datos del algoritmo EM. Luego, los codebooks se actualizan y se comprimen aún más mediante cuantización entera y compresión basada en SVD. GPTVQ establece un nuevo estado del arte en el equilibrio entre tamaño y precisión en una amplia gama de LLMs, como Llama-v2 y Mistral. Además, nuestro método es eficiente: en una sola H100, toma entre 3 y 11 horas procesar un modelo Llamav2-70B, dependiendo de la configuración de cuantización. Por último, con mediciones de tiempo en dispositivo para la descompresión VQ en una CPU móvil, demostramos que la VQ conduce a una latencia mejorada en comparación con el uso de un formato entero de 4 bits.

ChunkAttention: Atención Autónoma Eficiente con Caché KV Consciente de Prefijos y Partición Bifásica
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

Feb 23

ByLu Ye, Ze Tao, Yong Huang, Yang Li

La autoatención es un componente esencial de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), pero también una fuente significativa de latencia en la inferencia para secuencias largas. En escenarios de servicio multiinquilino de LLMs, el costo computacional y de operaciones de memoria de la autoatención puede optimizarse utilizando la probabilidad de que múltiples solicitudes de LLM compartan prefijos de sistema en sus secuencias iniciales. En este artículo, presentamos ChunkAttention, un módulo de autoatención consciente de prefijos que puede detectar prefijos de sistema coincidentes en múltiples solicitudes y compartir sus tensores de clave/valor en memoria durante la ejecución para mejorar la utilización de la memoria de la caché KV. Esto se logra dividiendo los tensores monolíticos de clave/valor en fragmentos más pequeños y organizándolos en un árbol de prefijos auxiliar. En consecuencia, sobre la base de la caché KV estructurada en árbol de prefijos, diseñamos un núcleo de autoatención eficiente, donde se implementa un algoritmo de partición en dos fases para mejorar la localidad de los datos durante el cálculo de la autoatención en presencia de prefijos de sistema compartidos. Los experimentos muestran que ChunkAttention puede acelerar el núcleo de autoatención entre 3.2 y 4.8 veces en comparación con la implementación más avanzada, con longitudes de prefijos de sistema que van desde 1024 hasta 4096.

Misma tarea, más tokens: el impacto de la longitud de la entrada en el rendimiento de razonamiento de los modelos de lenguaje de gran escala
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

Feb 19

ByMosh Levy, Alon Jacoby, Yoav Goldberg

Este artículo explora el impacto de extender la longitud de las entradas en las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A pesar de los avances recientes en los LLMs, su consistencia en el rendimiento a través de diferentes longitudes de entrada no está bien comprendida. Investigamos este aspecto introduciendo un novedoso marco de razonamiento de preguntas y respuestas (QA), diseñado específicamente para evaluar el impacto de la longitud de la entrada. Aislamos el efecto de la longitud de la entrada utilizando múltiples versiones de la misma muestra, cada una extendida con relleno de diferentes longitudes, tipos y ubicaciones. Nuestros hallazgos muestran una degradación notable en el rendimiento de razonamiento de los LLMs a longitudes de entrada mucho más cortas que su máximo técnico. Demostramos que la tendencia de degradación aparece en cada versión de nuestro conjunto de datos, aunque con diferentes intensidades. Además, nuestro estudio revela que las métricas tradicionales de perplejidad no se correlacionan con el rendimiento de los LLMs en tareas de razonamiento con entradas largas. Analizamos nuestros resultados e identificamos modos de fallo que pueden servir como guías útiles para futuras investigaciones, potencialmente informando estrategias para abordar las limitaciones observadas en los LLMs.

AgentOhana: Diseño de una Canalización Unificada de Datos y Entrenamiento para un Aprendizaje Efectivo de Agentes
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning

Feb 23

ByJianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Juntao Tan, Thai Hoang, Liangwei Yang, Yihao Feng, Zuxin Liu, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong

Los agentes autónomos impulsados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han captado una atención significativa en la investigación. Sin embargo, aprovechar plenamente el potencial de los LLMs para tareas basadas en agentes presenta desafíos inherentes debido a la naturaleza heterogénea de diversas fuentes de datos que incluyen trayectorias de múltiples turnos. En este artículo, presentamos AgentOhana como una solución integral para abordar estos desafíos. AgentOhana agrega trayectorias de agentes provenientes de distintos entornos, abarcando una amplia gama de escenarios. Meticulosamente, estandariza y unifica estas trayectorias en un formato consistente, optimizando la creación de un cargador de datos genérico diseñado para el entrenamiento de agentes. Aprovechando la unificación de datos, nuestra canalización de entrenamiento mantiene un equilibrio entre diferentes fuentes de datos y preserva la aleatoriedad independiente en los dispositivos durante la partición del conjunto de datos y el entrenamiento del modelo. Además, presentamos xLAM-v0.1, un modelo de acción de gran escala diseñado específicamente para agentes de IA, que demuestra un rendimiento excepcional en varios puntos de referencia.

API-BLEND: Un Corpus Integral para el Entrenamiento y Evaluación de Modelos de Lenguaje de API
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs

Feb 23

ByKinjal Basu, Ibrahim Abdelaziz, Subhajit Chaudhury, Soham Dan, Maxwell Crouse, Asim Munawar, Sadhana Kumaravel, Vinod Muthusamy, Pavan Kapanipathi, Luis A. Lastras

Existe una creciente necesidad de que los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) utilicen de manera efectiva herramientas e Interfaces de Programación de Aplicaciones (APIs) externas para planificar y completar tareas. Como resultado, hay un interés considerable en métodos que puedan adquirir cantidades suficientes de datos de entrenamiento y prueba que involucren llamadas a herramientas/APIs. Dos líneas de investigación han surgido como las estrategias predominantes para abordar este desafío. La primera se ha centrado en técnicas de generación de datos sintéticos, mientras que la segunda ha implicado la curación de conjuntos de datos relacionados con tareas que pueden transformarse en tareas basadas en APIs/herramientas. En este artículo, nos enfocamos en la tarea de identificar, curar y transformar conjuntos de datos existentes y, a su vez, presentamos API-BLEND, un gran corpus para el entrenamiento y la prueba sistemática de LLMs aumentados con herramientas. Los conjuntos de datos imitan escenarios del mundo real que involucran tareas de APIs, como la detección de APIs/herramientas, el llenado de espacios (slot filling) y la secuenciación de las APIs detectadas. Demostramos la utilidad del conjunto de datos API-BLEND tanto para fines de entrenamiento como de evaluación comparativa.

Composición fluida de movimiento humano con codificaciones posicionales combinadas
Seamless Human Motion Composition with Blended Positional Encodings

Feb 23

ByGerman Barquero, Sergio Escalera, Cristina Palmero

La generación condicional de movimiento humano es un tema importante con múltiples aplicaciones en realidad virtual, videojuegos y robótica. Si bien trabajos previos se han centrado en generar movimientos guiados por texto, música o escenas, estos suelen resultar en movimientos aislados limitados a duraciones cortas. En cambio, abordamos la generación de secuencias largas y continuas guiadas por una serie de descripciones textuales variables. En este contexto, presentamos FlowMDM, el primer modelo basado en difusión que genera Composición de Movimiento Humano (HMC, por sus siglas en inglés) sin necesidad de postprocesamiento ni pasos redundantes de eliminación de ruido. Para ello, introducimos las Codificaciones Posicionales Mezcladas, una técnica que aprovecha tanto las codificaciones posicionales absolutas como relativas en la cadena de eliminación de ruido. Más específicamente, la coherencia global del movimiento se recupera en la etapa absoluta, mientras que las transiciones suaves y realistas se construyen en la etapa relativa. Como resultado, logramos resultados de vanguardia en términos de precisión, realismo y suavidad en los conjuntos de datos Babel y HumanML3D. FlowMDM destaca cuando se entrena con una sola descripción por secuencia de movimiento gracias a su Atención Cruzada Centrada en la Postura (Pose-Centric Cross-ATtention), lo que lo hace robusto frente a descripciones textuales variables durante la inferencia. Finalmente, para abordar las limitaciones de las métricas existentes para HMC, proponemos dos nuevas métricas: el Pico de Sacudida (Peak Jerk) y el Área Bajo la Sacudida (Area Under the Jerk), para detectar transiciones abruptas.

MobileLLM: Optimización de Modelos de Lenguaje con Sub-mil Millones de Parámetros para Casos de Uso en Dispositivos Móviles
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134