ChatPaper.aiChatPaper

Оценка сложности обобщения для больших языковых моделей

Quantifying Generalization Complexity for Large Language Models

October 2, 2024
Авторы: Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass
cs.AI

Аннотация

Хотя большие языковые модели (LLM) продемонстрировали исключительные способности в понимании сложных запросов и выполнении сложных задач, их способности к обобщению часто глубоко переплетены с запоминанием, требуя более точной оценки. Для решения этой проблемы мы представляем Scylla, динамическую систему оценки, которая количественно измеряет способности обобщения LLM. Scylla разделяет обобщение от запоминания, оценивая производительность модели как на данных внутри распределения (ID), так и на данных вне распределения (OOD) через 20 задач на 5 уровнях сложности. Через обширные эксперименты мы выявляем не монотонное отношение между сложностью задачи и разрывом в производительности между данными ID и OOD, которое мы называем долиной обобщения. Конкретно, это явление раскрывает критический порог - называемый критической сложностью - где зависимость от негенерализуемого поведения достигает пика, указывая на верхнюю границу способностей обобщения LLM. По мере увеличения размера модели критическая сложность смещается к более высоким уровням сложности задач, что указывает на то, что более крупные модели могут обрабатывать более сложные задачи рассуждения, прежде чем слишком полагаться на запоминание. Используя Scylla и концепцию критической сложности, мы проводим оценку 28LLM, включая как модели с открытым исходным кодом, такие как семьи LLaMA и Qwen, так и закрытые модели, такие как Claude и GPT, обеспечивая более надежную оценку и установление более ясного понимания способностей обобщения LLM.
English
While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold - referred to as critical complexity - where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs' generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs' generalization capabilities.

Summary

AI-Generated Summary

PDF142November 16, 2024