Lois d'échelle et architecture des modèles : vers des LLMs efficaces en inférence
Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
October 21, 2025
papers.authors: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park
cs.AI
papers.abstract
L'augmentation du nombre de paramètres et de la taille des données d'entraînement s'est avérée être une stratégie efficace pour améliorer les performances des grands modèles de langage (LLM). Cependant, à mesure que ces modèles deviennent de plus en plus puissants et largement déployés, le coût de l'inférence est devenu une préoccupation pressante. Malgré son importance, le compromis entre la précision du modèle et l'efficacité de l'inférence reste peu exploré. Dans ce travail, nous examinons comment les facteurs architecturaux clés - la taille de la couche cachée, la répartition des paramètres entre les couches MLP et d'attention (ratio MLP/attention), et l'attention par requêtes groupées (GQA) - influencent à la fois le coût d'inférence et la précision. Nous introduisons une loi d'échelle conditionnelle qui enrichit le cadre de Chinchilla avec des informations architecturales, ainsi qu'un cadre de recherche pour identifier des architectures à la fois efficaces en inférence et précises. Pour valider notre approche, nous avons entraîné plus de 200 modèles allant de 80 millions à 3 milliards de paramètres et de 8 à 100 milliards de tokens d'entraînement, et avons ajusté la loi d'échelle conditionnelle proposée. Nos résultats montrent que cette loi prédit de manière fiable les choix architecturaux optimaux et que les modèles résultants surpassent les modèles de référence open-source existants. Pour un budget d'entraînement identique, les architectures optimisées atteignent jusqu'à 2,1 % de précision supplémentaire et un débit d'inférence 42 % supérieur par rapport à LLaMA-3.2.
English
Scaling the number of parameters and the size of training data has proven to
be an effective strategy for improving large language model (LLM) performance.
Yet, as these models grow increasingly powerful and widely deployed, the cost
of inference has become a pressing concern. Despite its importance, the
trade-off between model accuracy and inference efficiency remains
underexplored. In this work, we examine how key architectural factors, hidden
size, the allocation of parameters between MLP and attention (mlp-to-attention
ratio), and grouped-query attention (GQA), influence both inference cost and
accuracy. We introduce a conditional scaling law that augments the Chinchilla
framework with architectural information, along with a search framework for
identifying architectures that are simultaneously inference-efficient and
accurate. To validate our approach, we train more than 200 models spanning 80M
to 3B parameters and 8B to 100B training tokens, and fit the proposed
conditional scaling law. Our results show that the conditional scaling law
reliably predicts optimal architectural choices and that the resulting models
outperform existing open-source baselines. Under the same training budget,
optimized architectures achieve up to 2.1% higher accuracy and 42% greater
inference throughput compared to LLaMA-3.2.