Cuantificación de la Complejidad de Generalización para Modelos de Lenguaje Grandes
Quantifying Generalization Complexity for Large Language Models
October 2, 2024
Autores: Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass
cs.AI
Resumen
Si bien los modelos de lenguaje grandes (LLMs) han demostrado capacidades excepcionales en comprender consultas complejas y realizar tareas sofisticadas, sus habilidades de generalización a menudo están profundamente entrelazadas con la memorización, lo que requiere una evaluación más precisa. Para abordar este desafío, presentamos Scylla, un marco de evaluación dinámico que mide cuantitativamente las habilidades de generalización de los LLMs. Scylla desenreda la generalización de la memorización evaluando el rendimiento del modelo tanto en datos en distribución (ID) como fuera de distribución (OOD) a través de 20 tareas en 5 niveles de complejidad. A través de experimentos extensos, descubrimos una relación no monótona entre la complejidad de la tarea y la brecha de rendimiento entre los datos ID y OOD, a la que denominamos el valle de generalización. Específicamente, este fenómeno revela un umbral crítico, denominado complejidad crítica, donde la dependencia de comportamientos no generalizables alcanza su punto máximo, indicando el límite superior de las capacidades de generalización de los LLMs. A medida que el tamaño del modelo aumenta, la complejidad crítica se desplaza hacia niveles más altos de complejidad de la tarea, lo que sugiere que los modelos más grandes pueden manejar tareas de razonamiento más complejas antes de depender demasiado de la memorización. Aprovechando Scylla y el concepto de complejidad crítica, evaluamos 28 LLMs, incluidos modelos de código abierto como las familias LLaMA y Qwen, y modelos de código cerrado como Claude y GPT, lo que proporciona una evaluación más sólida y establece una comprensión más clara de las capacidades de generalización de los LLMs.
English
While large language models (LLMs) have shown exceptional capabilities in
understanding complex queries and performing sophisticated tasks, their
generalization abilities are often deeply entangled with memorization,
necessitating more precise evaluation. To address this challenge, we introduce
Scylla, a dynamic evaluation framework that quantitatively measures the
generalization abilities of LLMs. Scylla disentangles generalization from
memorization via assessing model performance on both in-distribution (ID) and
out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity.
Through extensive experiments, we uncover a non-monotonic relationship between
task complexity and the performance gap between ID and OOD data, which we term
the generalization valley. Specifically, this phenomenon reveals a critical
threshold - referred to as critical complexity - where reliance on
non-generalizable behavior peaks, indicating the upper bound of LLMs'
generalization capabilities. As model size increases, the critical complexity
shifts toward higher levels of task complexity, suggesting that larger models
can handle more complex reasoning tasks before over-relying on memorization.
Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs
including both open-sourced models such as LLaMA and Qwen families, and
close-sourced models like Claude and GPT, providing a more robust evaluation
and establishing a clearer understanding of LLMs' generalization capabilities.Summary
AI-Generated Summary