Cuantificación de la Complejidad de Generalización para Modelos de Lenguaje Grandes

Resumen

Si bien los modelos de lenguaje grandes (LLMs) han demostrado capacidades excepcionales en comprender consultas complejas y realizar tareas sofisticadas, sus habilidades de generalización a menudo están profundamente entrelazadas con la memorización, lo que requiere una evaluación más precisa. Para abordar este desafío, presentamos Scylla, un marco de evaluación dinámico que mide cuantitativamente las habilidades de generalización de los LLMs. Scylla desenreda la generalización de la memorización evaluando el rendimiento del modelo tanto en datos en distribución (ID) como fuera de distribución (OOD) a través de 20 tareas en 5 niveles de complejidad. A través de experimentos extensos, descubrimos una relación no monótona entre la complejidad de la tarea y la brecha de rendimiento entre los datos ID y OOD, a la que denominamos el valle de generalización. Específicamente, este fenómeno revela un umbral crítico, denominado complejidad crítica, donde la dependencia de comportamientos no generalizables alcanza su punto máximo, indicando el límite superior de las capacidades de generalización de los LLMs. A medida que el tamaño del modelo aumenta, la complejidad crítica se desplaza hacia niveles más altos de complejidad de la tarea, lo que sugiere que los modelos más grandes pueden manejar tareas de razonamiento más complejas antes de depender demasiado de la memorización. Aprovechando Scylla y el concepto de complejidad crítica, evaluamos 28 LLMs, incluidos modelos de código abierto como las familias LLaMA y Qwen, y modelos de código cerrado como Claude y GPT, lo que proporciona una evaluación más sólida y establece una comprensión más clara de las capacidades de generalización de los LLMs.

English

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold - referred to as critical complexity - where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs' generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs' generalization capabilities.

Cuantificación de la Complejidad de Generalización para Modelos de Lenguaje Grandes

Quantifying Generalization Complexity for Large Language Models

Resumen

Support