ChatPaper.aiChatPaper

Quantificazione della complessità della generalizzazione per grandi modelli linguistici

Quantifying Generalization Complexity for Large Language Models

October 2, 2024
Autori: Zhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass
cs.AI

Abstract

Mentre i grandi modelli linguistici (LLM) hanno dimostrato capacità eccezionali nell'interpretare query complesse e svolgere compiti sofisticati, le loro capacità di generalizzazione sono spesso profondamente intrecciate con la memorizzazione, rendendo necessaria una valutazione più precisa. Per affrontare questa sfida, presentiamo Scylla, un framework di valutazione dinamico che misura quantitativamente le capacità di generalizzazione dei LLM. Scylla separa la generalizzazione dalla memorizzazione valutando le prestazioni del modello sia sui dati in distribuzione (ID) che fuori distribuzione (OOD) attraverso 20 compiti su 5 livelli di complessità. Attraverso esperimenti approfonditi, scopriamo una relazione non monotona tra la complessità del compito e il divario di prestazioni tra i dati ID e OOD, che chiamiamo la valle della generalizzazione. In particolare, questo fenomeno rivela una soglia critica - denominata complessità critica - dove il ricorso a comportamenti non generalizzabili raggiunge il picco, indicando il limite superiore delle capacità di generalizzazione dei LLM. Con l'aumentare delle dimensioni del modello, la complessità critica si sposta verso livelli più elevati di complessità del compito, suggerendo che modelli più grandi possano gestire compiti di ragionamento più complessi prima di fare eccessivo ricorso alla memorizzazione. Sfruttando Scylla e il concetto di complessità critica, valutiamo 28 LLM, inclusi modelli open-source come LLaMA e le famiglie Qwen, e modelli closed-source come Claude e GPT, fornendo una valutazione più robusta e stabilendo una comprensione più chiara delle capacità di generalizzazione dei LLM.
English
While large language models (LLMs) have shown exceptional capabilities in understanding complex queries and performing sophisticated tasks, their generalization abilities are often deeply entangled with memorization, necessitating more precise evaluation. To address this challenge, we introduce Scylla, a dynamic evaluation framework that quantitatively measures the generalization abilities of LLMs. Scylla disentangles generalization from memorization via assessing model performance on both in-distribution (ID) and out-of-distribution (OOD) data through 20 tasks across 5 levels of complexity. Through extensive experiments, we uncover a non-monotonic relationship between task complexity and the performance gap between ID and OOD data, which we term the generalization valley. Specifically, this phenomenon reveals a critical threshold - referred to as critical complexity - where reliance on non-generalizable behavior peaks, indicating the upper bound of LLMs' generalization capabilities. As model size increases, the critical complexity shifts toward higher levels of task complexity, suggesting that larger models can handle more complex reasoning tasks before over-relying on memorization. Leveraging Scylla and the concept of critical complexity, we benchmark 28LLMs including both open-sourced models such as LLaMA and Qwen families, and close-sourced models like Claude and GPT, providing a more robust evaluation and establishing a clearer understanding of LLMs' generalization capabilities.
PDF142November 16, 2024