Dezelfde Taak, Meer Tokens: de Impact van Invoerlengte op de Redeneerprestaties van Grote Taalmodellen
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
February 19, 2024
Auteurs: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI
Samenvatting
Dit artikel onderzoekt de impact van het verlengen van invoerlengtes op de mogelijkheden van Large Language Models (LLM's). Ondanks de vooruitgang van LLM's in recente tijden, is hun prestatieconsistentie over verschillende invoerlengtes niet goed begrepen. Wij onderzoeken dit aspect door een nieuw QA-redeneerkader te introduceren, specifiek ontworpen om de impact van invoerlengte te beoordelen. We isoleren het effect van invoerlengte door gebruik te maken van meerdere versies van hetzelfde voorbeeld, elk verlengd met opvulling van verschillende lengtes, typen en locaties. Onze bevindingen tonen een opmerkelijke achteruitgang in de redeneerprestaties van LLM's bij veel kortere invoerlengtes dan hun technische maximum. We laten zien dat de achteruitgangstrend in elke versie van onze dataset voorkomt, hoewel in verschillende intensiteiten. Daarnaast onthult ons onderzoek dat traditionele perplexiteitsmetrieken niet correleren met de prestaties van LLM's in langere invoerredeneertaken. We analyseren onze resultaten en identificeren faalmodi die nuttige richtlijnen kunnen zijn voor toekomstig onderzoek, wat mogelijk strategieën kan informeren om de waargenomen beperkingen in LLM's aan te pakken.
English
This paper explores the impact of extending input lengths on the capabilities
of Large Language Models (LLMs). Despite LLMs advancements in recent times,
their performance consistency across different input lengths is not well
understood. We investigate this aspect by introducing a novel QA reasoning
framework, specifically designed to assess the impact of input length. We
isolate the effect of input length using multiple versions of the same sample,
each being extended with padding of different lengths, types and locations. Our
findings show a notable degradation in LLMs' reasoning performance at much
shorter input lengths than their technical maximum. We show that the
degradation trend appears in every version of our dataset, although at
different intensities. Additionally, our study reveals that traditional
perplexity metrics do not correlate with performance of LLMs' in long input
reasoning tasks. We analyse our results and identify failure modes that can
serve as useful guides for future research, potentially informing strategies to
address the limitations observed in LLMs.