Retour de l'Encodeur : Maximisation de l'Efficacité des Paramètres pour les Systèmes de Langage Naturel.
Return of the Encoder: Maximizing Parameter Efficiency for SLMs
January 27, 2025
Auteurs: Mohamed Elfeki, Rui Liu, Chad Voegele
cs.AI
Résumé
La domination des grands modèles de langage à décodeur unique a éclipsé les architectures encodeur-décodeur, malgré leurs avantages fondamentaux en termes d'efficacité dans le traitement de séquences. Pour les petits modèles de langage (SLM) - ceux avec 1 milliard de paramètres ou moins - notre analyse systématique sur les plates-formes GPU, CPU et NPU révèle que les architectures encodeur-décodeur atteignent une latence du premier jeton 47% inférieure et un débit 4,7 fois plus élevé par rapport aux modèles à décodeur unique sur les appareils périphériques. Ces gains peuvent être attribués au traitement en une seule fois de l'entrée par l'encodeur-décodeur et à la séparation efficace des phases de compréhension et de génération.
Nous introduisons un nouveau cadre de distillation des connaissances qui permet aux modèles encodeur-décodeur de tirer parti des capacités des grands enseignants à décodeur unique évolutifs tout en préservant leurs avantages architecturaux, atteignant jusqu'à 6 points d'amélioration de performance moyenne à travers des tâches diverses, avec des gains significatifs dans les tâches de séquence asymétriques où les distributions d'entrée et de sortie peuvent bénéficier de différentes approches de traitement.
Lorsqu'il est combiné avec des avancées modernes telles que les Incrustations de Position Rotatives (RoPE) et les encodeurs Vision, notre investigation systématique démontre que les architectures encodeur-décodeur offrent un chemin plus pratique pour déployer des modèles de langage capables dans des environnements aux ressources limitées. Nos résultats remettent en question la tendance dominante vers l'augmentation des modèles à décodeur unique, montrant que les choix architecturaux deviennent de plus en plus cruciaux à mesure que les budgets de paramètres diminuent, en particulier pour les déploiements sur appareils et périphériques où l'efficacité computationnelle est primordiale.
English
The dominance of large decoder-only language models has overshadowed
encoder-decoder architectures, despite their fundamental efficiency advantages
in sequence processing. For small language models (SLMs) - those with 1 billion
parameters or fewer - our systematic analysis across GPU, CPU, and NPU
platforms reveals that encoder-decoder architectures achieve 47% lower
first-token latency and 4.7x higher throughput compared to decoder-only models
on edge devices. These gains may be attributed to encoder-decoder's one-time
input processing and efficient separation of understanding and generation
phases.
We introduce a novel knowledge distillation framework that enables
encoder-decoder models to leverage capabilities from large scalable
decoder-only teachers while preserving their architectural advantages,
achieving up to 6 average performance points improvement across diverse tasks,
with significant gains in asymmetric sequence tasks where input and output
distributions can benefit from different processing approaches.
When combined with modern advances like Rotary Positional Embeddings (RoPE)
and Vision encoders, our systematic investigation demonstrates that
encoder-decoder architectures provide a more practical path toward deploying
capable language models in resource-constrained environments. Our findings
challenge the prevailing trend toward decoder-only scaling, showing that
architectural choices become increasingly crucial as parameter budgets
decrease, particularly for on-device and edge deployments where computational
efficiency is paramount.Summary
AI-Generated Summary