ChatPaper.aiChatPaper

Lois d'échelle et architecture des modèles : vers des LLMs efficaces en inférence

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

October 21, 2025
papers.authors: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park
cs.AI

papers.abstract

L'augmentation du nombre de paramètres et de la taille des données d'entraînement s'est avérée être une stratégie efficace pour améliorer les performances des grands modèles de langage (LLM). Cependant, à mesure que ces modèles deviennent de plus en plus puissants et largement déployés, le coût de l'inférence est devenu une préoccupation pressante. Malgré son importance, le compromis entre la précision du modèle et l'efficacité de l'inférence reste peu exploré. Dans ce travail, nous examinons comment les facteurs architecturaux clés - la taille de la couche cachée, la répartition des paramètres entre les couches MLP et d'attention (ratio MLP/attention), et l'attention par requêtes groupées (GQA) - influencent à la fois le coût d'inférence et la précision. Nous introduisons une loi d'échelle conditionnelle qui enrichit le cadre de Chinchilla avec des informations architecturales, ainsi qu'un cadre de recherche pour identifier des architectures à la fois efficaces en inférence et précises. Pour valider notre approche, nous avons entraîné plus de 200 modèles allant de 80 millions à 3 milliards de paramètres et de 8 à 100 milliards de tokens d'entraînement, et avons ajusté la loi d'échelle conditionnelle proposée. Nos résultats montrent que cette loi prédit de manière fiable les choix architecturaux optimaux et que les modèles résultants surpassent les modèles de référence open-source existants. Pour un budget d'entraînement identique, les architectures optimisées atteignent jusqu'à 2,1 % de précision supplémentaire et un débit d'inférence 42 % supérieur par rapport à LLaMA-3.2.
English
Scaling the number of parameters and the size of training data has proven to be an effective strategy for improving large language model (LLM) performance. Yet, as these models grow increasingly powerful and widely deployed, the cost of inference has become a pressing concern. Despite its importance, the trade-off between model accuracy and inference efficiency remains underexplored. In this work, we examine how key architectural factors, hidden size, the allocation of parameters between MLP and attention (mlp-to-attention ratio), and grouped-query attention (GQA), influence both inference cost and accuracy. We introduce a conditional scaling law that augments the Chinchilla framework with architectural information, along with a search framework for identifying architectures that are simultaneously inference-efficient and accurate. To validate our approach, we train more than 200 models spanning 80M to 3B parameters and 8B to 100B training tokens, and fit the proposed conditional scaling law. Our results show that the conditional scaling law reliably predicts optimal architectural choices and that the resulting models outperform existing open-source baselines. Under the same training budget, optimized architectures achieve up to 2.1% higher accuracy and 42% greater inference throughput compared to LLaMA-3.2.
PDF62December 2, 2025