Stesso Compito, Più Token: l'Impatto della Lunghezza dell'Input sulle Prestazioni di Ragionamento dei Modelli Linguistici di Grande Dimensione
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
February 19, 2024
Autori: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI
Abstract
Questo articolo esplora l'impatto dell'estensione della lunghezza degli input sulle capacità dei Large Language Models (LLM). Nonostante i recenti progressi nei LLM, la loro coerenza prestazionale su diverse lunghezze di input non è ben compresa. Investigiamo questo aspetto introducendo un nuovo framework di ragionamento a domande e risposte, specificamente progettato per valutare l'impatto della lunghezza dell'input. Isoliamo l'effetto della lunghezza dell'input utilizzando multiple versioni dello stesso campione, ciascuna estesa con padding di lunghezze, tipi e posizioni diversi. I nostri risultati mostrano un degrado significativo nelle prestazioni di ragionamento dei LLM a lunghezze di input molto più brevi rispetto al loro massimo tecnico. Dimostriamo che la tendenza al degrado appare in ogni versione del nostro dataset, sebbene con intensità diverse. Inoltre, il nostro studio rivela che le metriche tradizionali di perplessità non correlano con le prestazioni dei LLM nei compiti di ragionamento con input lunghi. Analizziamo i nostri risultati e identifichiamo modalità di fallimento che possono servire come utili guide per la ricerca futura, potenzialmente informando strategie per affrontare le limitazioni osservate nei LLM.
English
This paper explores the impact of extending input lengths on the capabilities
of Large Language Models (LLMs). Despite LLMs advancements in recent times,
their performance consistency across different input lengths is not well
understood. We investigate this aspect by introducing a novel QA reasoning
framework, specifically designed to assess the impact of input length. We
isolate the effect of input length using multiple versions of the same sample,
each being extended with padding of different lengths, types and locations. Our
findings show a notable degradation in LLMs' reasoning performance at much
shorter input lengths than their technical maximum. We show that the
degradation trend appears in every version of our dataset, although at
different intensities. Additionally, our study reveals that traditional
perplexity metrics do not correlate with performance of LLMs' in long input
reasoning tasks. We analyse our results and identify failure modes that can
serve as useful guides for future research, potentially informing strategies to
address the limitations observed in LLMs.