LLM-pruning en distillatie in de praktijk: de Minitron-aanpakLLM Pruning and Distillation in Practice: The Minitron Approach
We presenteren een uitgebreid rapport over het comprimeren van de Llama 3.1 8B en Mistral NeMo 12B modellen naar respectievelijk 4B en 8B parameters, met behulp van pruning en distillatie. We onderzoeken twee verschillende pruningstrategieën: (1) diepte-pruning en (2) gezamenlijke hidden/attention/MLP (breedte) pruning, en evalueren de resultaten op gangbare benchmarks uit de LM Evaluation Harness. De modellen worden vervolgens afgestemd met NeMo Aligner en getest in instruct-getunede versies. Deze aanpak resulteert in een overtuigend 4B model afgeleid van Llama 3.1 8B en een state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B voor de bondigheid) model afgeleid van Mistral NeMo 12B. We ontdekten dat het, zonder toegang tot de originele data, voordelig is om de leraarmodellen lichtelijk te finetunen op de distillatiedataset. We maken onze basismodelgewichten openbaar op Hugging Face onder een permissieve licentie.