Stesso Compito, Più Token: l'Impatto della Lunghezza dell'Input sulle Prestazioni di Ragionamento dei Modelli Linguistici di Grande Dimensione

Abstract

Questo articolo esplora l'impatto dell'estensione della lunghezza degli input sulle capacità dei Large Language Models (LLM). Nonostante i recenti progressi nei LLM, la loro coerenza prestazionale su diverse lunghezze di input non è ben compresa. Investigiamo questo aspetto introducendo un nuovo framework di ragionamento a domande e risposte, specificamente progettato per valutare l'impatto della lunghezza dell'input. Isoliamo l'effetto della lunghezza dell'input utilizzando multiple versioni dello stesso campione, ciascuna estesa con padding di lunghezze, tipi e posizioni diversi. I nostri risultati mostrano un degrado significativo nelle prestazioni di ragionamento dei LLM a lunghezze di input molto più brevi rispetto al loro massimo tecnico. Dimostriamo che la tendenza al degrado appare in ogni versione del nostro dataset, sebbene con intensità diverse. Inoltre, il nostro studio rivela che le metriche tradizionali di perplessità non correlano con le prestazioni dei LLM nei compiti di ragionamento con input lunghi. Analizziamo i nostri risultati e identifichiamo modalità di fallimento che possono servire come utili guide per la ricerca futura, potenzialmente informando strategie per affrontare le limitazioni osservate nei LLM.

English

This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.

Stesso Compito, Più Token: l'Impatto della Lunghezza dell'Input sulle Prestazioni di Ragionamento dei Modelli Linguistici di Grande Dimensione

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

Abstract

Support