ChatPaper.aiChatPaper

Leyes de Escalado Encuentran la Arquitectura del Modelo: Hacia LLMs con Inferencia Eficiente

Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs

October 21, 2025
Autores: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park
cs.AI

Resumen

El escalado del número de parámetros y del tamaño de los datos de entrenamiento ha demostrado ser una estrategia eficaz para mejorar el rendimiento de los modelos de lenguaje grandes (LLM). Sin embargo, a medida que estos modelos se vuelven más potentes y se despliegan ampliamente, el coste de la inferencia se ha convertido en una preocupación apremiante. A pesar de su importancia, la compensación entre la precisión del modelo y la eficiencia de la inferencia sigue estando poco explorada. En este trabajo, examinamos cómo factores arquitectónicos clave —el tamaño de la capa oculta, la asignación de parámetros entre MLP y atención (relación mlp-atención) y la atención de consulta agrupada (GQA)— influyen tanto en el coste de inferencia como en la precisión. Introducimos una ley de escalado condicional que amplía el marco de Chinchilla con información arquitectónica, junto con un marco de búsqueda para identificar arquitecturas que sean simultáneamente eficientes en inferencia y precisas. Para validar nuestro enfoque, entrenamos más de 200 modelos que abarcan desde 80M hasta 3B de parámetros y de 8B a 100B de tokens de entrenamiento, y ajustamos la ley de escalado condicional propuesta. Nuestros resultados muestran que la ley de escalado condicional predice de forma fiable las opciones arquitectónicas óptimas y que los modelos resultantes superan a las líneas base de código abierto existentes. Con el mismo presupuesto de entrenamiento, las arquitecturas optimizadas logran hasta un 2.1% más de precisión y un 42% más de rendimiento de inferencia en comparación con LLaMA-3.2.
English
Scaling the number of parameters and the size of training data has proven to be an effective strategy for improving large language model (LLM) performance. Yet, as these models grow increasingly powerful and widely deployed, the cost of inference has become a pressing concern. Despite its importance, the trade-off between model accuracy and inference efficiency remains underexplored. In this work, we examine how key architectural factors, hidden size, the allocation of parameters between MLP and attention (mlp-to-attention ratio), and grouped-query attention (GQA), influence both inference cost and accuracy. We introduce a conditional scaling law that augments the Chinchilla framework with architectural information, along with a search framework for identifying architectures that are simultaneously inference-efficient and accurate. To validate our approach, we train more than 200 models spanning 80M to 3B parameters and 8B to 100B training tokens, and fit the proposed conditional scaling law. Our results show that the conditional scaling law reliably predicts optimal architectural choices and that the resulting models outperform existing open-source baselines. Under the same training budget, optimized architectures achieve up to 2.1% higher accuracy and 42% greater inference throughput compared to LLaMA-3.2.
PDF62December 2, 2025