Mini-GPTs: Modelos de Lenguaje de Gran Escala Eficientes mediante Poda Contextual
Mini-GPTs: Efficient Large Language Models through Contextual Pruning
December 20, 2023
Autores: Tim Valicenti, Justice Vidal, Ritik Patnaik
cs.AI
Resumen
En la investigación de IA, la optimización de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) sigue siendo un desafío significativo, crucial para avanzar en las aplicaciones prácticas y la sostenibilidad del campo. Basándonos en el trabajo fundamental del laboratorio del profesor Song Han en el MIT, este artículo introduce un enfoque novedoso en el desarrollo de Mini-GPTs mediante la poda contextual. Nuestra metodología poda estratégicamente la arquitectura computacional de los LLMs tradicionales, como Phi-1.5, centrándose en retener las funcionalidades principales mientras reduce drásticamente el tamaño de los modelos. Aplicamos esta técnica en diversos y complejos conjuntos de datos, incluyendo leyes de EE. UU., preguntas y respuestas médicas, diálogos de Skyrim, traducciones inglés-taiwanés y artículos de economía. Los resultados destacan la eficiencia y efectividad de la poda contextual, no solo como un concepto teórico, sino como una herramienta práctica en el desarrollo de LLMs específicos de dominio y eficientes en recursos. La poda contextual es un método prometedor para construir LLMs específicos de dominio, y esta investigación es un bloque fundamental hacia el desarrollo futuro con mayor capacidad de cómputo en hardware, ajuste fino refinado y cuantización.
English
In AI research, the optimization of Large Language Models (LLMs) remains a
significant challenge, crucial for advancing the field's practical applications
and sustainability. Building upon the foundational work of Professor Song Han's
lab at MIT, this paper introduces a novel approach in developing Mini-GPTs via
contextual pruning. Our methodology strategically prunes the computational
architecture of traditional LLMs, like Phi-1.5, focusing on retaining core
functionalities while drastically reducing model sizes. We employ the technique
across diverse and complex datasets, including US law, Medical Q&A, Skyrim
dialogue, English-Taiwanese translation, and Economics articles. The results
underscore the efficiency and effectiveness of contextual pruning, not merely
as a theoretical concept but as a practical tool in developing domain-specific,
resource-efficient LLMs. Contextual pruning is a promising method for building
domain-specific LLMs, and this research is a building block towards future
development with more hardware compute, refined fine-tuning, and quantization.