Quantification de la complexité de généralisation pour les grands modèles de langage

papers.abstract

Alors que les grands modèles de langage (LLM) ont montré des capacités exceptionnelles dans la compréhension de requêtes complexes et l'exécution de tâches sophistiquées, leurs capacités de généralisation sont souvent profondément liées à la mémorisation, nécessitant une évaluation plus précise. Pour relever ce défi, nous introduisons Scylla, un cadre d'évaluation dynamique qui mesure quantitativement les capacités de généralisation des LLM. Scylla démêle la généralisation de la mémorisation en évaluant les performances du modèle à la fois sur des données en distribution (ID) et hors distribution (OOD) à travers 20 tâches réparties sur 5 niveaux de complexité. À travers des expériences approfondies, nous mettons en lumière une relation non monotone entre la complexité des tâches et l'écart de performance entre les données ID et OOD, que nous nommons la vallée de la généralisation. Plus précisément, ce phénomène révèle un seuil critique - appelé complexité critique - où la dépendance à des comportements non généralisables atteint un pic, indiquant la limite supérieure des capacités de généralisation des LLM. Avec l'augmentation de la taille du modèle, la complexité critique se déplace vers des niveaux plus élevés de complexité des tâches, suggérant que les modèles plus grands peuvent gérer des tâches de raisonnement plus complexes avant de trop s'appuyer sur la mémorisation. En exploitant Scylla et le concept de complexité critique, nous évaluons 28 LLM, y compris à la fois des modèles open source tels que LLaMA et les familles Qwen, et des modèles propriétaires comme Claude et GPT, offrant une évaluation plus robuste et établissant une compréhension plus claire des capacités de généralisation des LLM.

English

While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold - referred to as critical complexity - where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs' generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs' generalization capabilities.

Quantification de la complexité de généralisation pour les grands modèles de langage

Quantifying Generalization Complexity for Large Language Models

papers.abstract

Support