Quantification de la complexité de généralisation pour les grands modèles de langage
Quantifying Generalization Complexity for Large Language Models
October 2, 2024
Auteurs: Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) ont montré des capacités exceptionnelles dans la compréhension de requêtes complexes et l'exécution de tâches sophistiquées, leurs capacités de généralisation sont souvent profondément liées à la mémorisation, nécessitant une évaluation plus précise. Pour relever ce défi, nous introduisons Scylla, un cadre d'évaluation dynamique qui mesure quantitativement les capacités de généralisation des LLM. Scylla démêle la généralisation de la mémorisation en évaluant les performances du modèle à la fois sur des données en distribution (ID) et hors distribution (OOD) à travers 20 tâches réparties sur 5 niveaux de complexité. À travers des expériences approfondies, nous mettons en lumière une relation non monotone entre la complexité des tâches et l'écart de performance entre les données ID et OOD, que nous nommons la vallée de la généralisation. Plus précisément, ce phénomène révèle un seuil critique - appelé complexité critique - où la dépendance à des comportements non généralisables atteint un pic, indiquant la limite supérieure des capacités de généralisation des LLM. Avec l'augmentation de la taille du modèle, la complexité critique se déplace vers des niveaux plus élevés de complexité des tâches, suggérant que les modèles plus grands peuvent gérer des tâches de raisonnement plus complexes avant de trop s'appuyer sur la mémorisation. En exploitant Scylla et le concept de complexité critique, nous évaluons 28 LLM, y compris à la fois des modèles open source tels que LLaMA et les familles Qwen, et des modèles propriétaires comme Claude et GPT, offrant une évaluation plus robuste et établissant une compréhension plus claire des capacités de généralisation des LLM.
English
While large language models (LLMs) have shown exceptional capabilities in
understanding complex queries and performing sophisticated tasks, their
generalization abilities are often deeply entangled with memorization,
necessitating more precise evaluation. To address this challenge, we introduce
Scylla, a dynamic evaluation framework that quantitatively measures the
generalization abilities of LLMs. Scylla disentangles generalization from
memorization via assessing model performance on both in-distribution (ID) and
out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity.
Through extensive experiments, we uncover a non-monotonic relationship between
task complexity and the performance gap between ID and OOD data, which we term
the generalization valley. Specifically, this phenomenon reveals a critical
threshold - referred to as critical complexity - where reliance on
non-generalizable behavior peaks, indicating the upper bound of LLMs'
generalization capabilities. As model size increases, the critical complexity
shifts toward higher levels of task complexity, suggesting that larger models
can handle more complex reasoning tasks before over-relying on memorization.
Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs
including both open-sourced models such as LLaMA and Qwen families, and
close-sourced models like Claude and GPT, providing a more robust evaluation
and establishing a clearer understanding of LLMs' generalization capabilities.Summary
AI-Generated Summary