Leyes de Escalado Encuentran la Arquitectura del Modelo: Hacia LLMs con Inferencia Eficiente
Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
October 21, 2025
Autores: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park
cs.AI
Resumen
El escalado del número de parámetros y del tamaño de los datos de entrenamiento ha demostrado ser una estrategia eficaz para mejorar el rendimiento de los modelos de lenguaje grandes (LLM). Sin embargo, a medida que estos modelos se vuelven más potentes y se despliegan ampliamente, el coste de la inferencia se ha convertido en una preocupación apremiante. A pesar de su importancia, la compensación entre la precisión del modelo y la eficiencia de la inferencia sigue estando poco explorada. En este trabajo, examinamos cómo factores arquitectónicos clave —el tamaño de la capa oculta, la asignación de parámetros entre MLP y atención (relación mlp-atención) y la atención de consulta agrupada (GQA)— influyen tanto en el coste de inferencia como en la precisión. Introducimos una ley de escalado condicional que amplía el marco de Chinchilla con información arquitectónica, junto con un marco de búsqueda para identificar arquitecturas que sean simultáneamente eficientes en inferencia y precisas. Para validar nuestro enfoque, entrenamos más de 200 modelos que abarcan desde 80M hasta 3B de parámetros y de 8B a 100B de tokens de entrenamiento, y ajustamos la ley de escalado condicional propuesta. Nuestros resultados muestran que la ley de escalado condicional predice de forma fiable las opciones arquitectónicas óptimas y que los modelos resultantes superan a las líneas base de código abierto existentes. Con el mismo presupuesto de entrenamiento, las arquitecturas optimizadas logran hasta un 2.1% más de precisión y un 42% más de rendimiento de inferencia en comparación con LLaMA-3.2.
English
Scaling the number of parameters and the size of training data has proven to
be an effective strategy for improving large language model (LLM) performance.
Yet, as these models grow increasingly powerful and widely deployed, the cost
of inference has become a pressing concern. Despite its importance, the
trade-off between model accuracy and inference efficiency remains
underexplored. In this work, we examine how key architectural factors, hidden
size, the allocation of parameters between MLP and attention (mlp-to-attention
ratio), and grouped-query attention (GQA), influence both inference cost and
accuracy. We introduce a conditional scaling law that augments the Chinchilla
framework with architectural information, along with a search framework for
identifying architectures that are simultaneously inference-efficient and
accurate. To validate our approach, we train more than 200 models spanning 80M
to 3B parameters and 8B to 100B training tokens, and fit the proposed
conditional scaling law. Our results show that the conditional scaling law
reliably predicts optimal architectural choices and that the resulting models
outperform existing open-source baselines. Under the same training budget,
optimized architectures achieve up to 2.1% higher accuracy and 42% greater
inference throughput compared to LLaMA-3.2.