Retour de l'Encodeur : Maximisation de l'Efficacité des Paramètres pour les Systèmes de Langage Naturel.

papers.abstract

La domination des grands modèles de langage à décodeur unique a éclipsé les architectures encodeur-décodeur, malgré leurs avantages fondamentaux en termes d'efficacité dans le traitement de séquences. Pour les petits modèles de langage (SLM) - ceux avec 1 milliard de paramètres ou moins - notre analyse systématique sur les plates-formes GPU, CPU et NPU révèle que les architectures encodeur-décodeur atteignent une latence du premier jeton 47% inférieure et un débit 4,7 fois plus élevé par rapport aux modèles à décodeur unique sur les appareils périphériques. Ces gains peuvent être attribués au traitement en une seule fois de l'entrée par l'encodeur-décodeur et à la séparation efficace des phases de compréhension et de génération. Nous introduisons un nouveau cadre de distillation des connaissances qui permet aux modèles encodeur-décodeur de tirer parti des capacités des grands enseignants à décodeur unique évolutifs tout en préservant leurs avantages architecturaux, atteignant jusqu'à 6 points d'amélioration de performance moyenne à travers des tâches diverses, avec des gains significatifs dans les tâches de séquence asymétriques où les distributions d'entrée et de sortie peuvent bénéficier de différentes approches de traitement. Lorsqu'il est combiné avec des avancées modernes telles que les Incrustations de Position Rotatives (RoPE) et les encodeurs Vision, notre investigation systématique démontre que les architectures encodeur-décodeur offrent un chemin plus pratique pour déployer des modèles de langage capables dans des environnements aux ressources limitées. Nos résultats remettent en question la tendance dominante vers l'augmentation des modèles à décodeur unique, montrant que les choix architecturaux deviennent de plus en plus cruciaux à mesure que les budgets de paramètres diminuent, en particulier pour les déploiements sur appareils et périphériques où l'efficacité computationnelle est primordiale.

English

The dominance of large decoder-only language models has overshadowed encoder-decoder architectures, despite their fundamental efficiency advantages in sequence processing. For small language models (SLMs) - those with 1 billion parameters or fewer - our systematic analysis across GPU, CPU, and NPU platforms reveals that encoder-decoder architectures achieve 47% lower first-token latency and 4.7x higher throughput compared to decoder-only models on edge devices. These gains may be attributed to encoder-decoder's one-time input processing and efficient separation of understanding and generation phases. We introduce a novel knowledge distillation framework that enables encoder-decoder models to leverage capabilities from large scalable decoder-only teachers while preserving their architectural advantages, achieving up to 6 average performance points improvement across diverse tasks, with significant gains in asymmetric sequence tasks where input and output distributions can benefit from different processing approaches. When combined with modern advances like Rotary Positional Embeddings (RoPE) and Vision encoders, our systematic investigation demonstrates that encoder-decoder architectures provide a more practical path toward deploying capable language models in resource-constrained environments. Our findings challenge the prevailing trend toward decoder-only scaling, showing that architectural choices become increasingly crucial as parameter budgets decrease, particularly for on-device and edge deployments where computational efficiency is paramount.

Retour de l'Encodeur : Maximisation de l'Efficacité des Paramètres pour les Systèmes de Langage Naturel.

Return of the Encoder: Maximizing Parameter Efficiency for SLMs

papers.abstract

Support