Même tâche, plus de tokens : l'impact de la longueur de l'entrée sur la performance de raisonnement des grands modèles de langage
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models
February 19, 2024
Auteurs: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI
Résumé
Cet article explore l'impact de l'extension des longueurs d'entrée sur les capacités des modèles de langage à grande échelle (LLMs). Malgré les avancées récentes des LLMs, la cohérence de leurs performances sur différentes longueurs d'entrée n'est pas bien comprise. Nous étudions cet aspect en introduisant un nouveau cadre de raisonnement par questions-réponses, spécialement conçu pour évaluer l'impact de la longueur d'entrée. Nous isolons l'effet de la longueur d'entrée en utilisant plusieurs versions du même échantillon, chacune étant étendue avec un remplissage de différentes longueurs, types et positions. Nos résultats montrent une dégradation notable des performances de raisonnement des LLMs à des longueurs d'entrée bien plus courtes que leur maximum technique. Nous montrons que cette tendance à la dégradation apparaît dans chaque version de notre ensemble de données, bien qu'à des intensités différentes. De plus, notre étude révèle que les métriques traditionnelles de perplexité ne corrèlent pas avec les performances des LLMs dans les tâches de raisonnement sur des entrées longues. Nous analysons nos résultats et identifions des modes d'échec qui peuvent servir de guides utiles pour les recherches futures, potentiellement en informant des stratégies pour remédier aux limitations observées dans les LLMs.
English
This paper explores the impact of extending input lengths on the capabilities
of Large Language Models (LLMs). Despite LLMs advancements in recent times,
their performance consistency across different input lengths is not well
understood. We investigate this aspect by introducing a novel QA reasoning
framework, specifically designed to assess the impact of input length. We
isolate the effect of input length using multiple versions of the same sample,
each being extended with padding of different lengths, types and locations. Our
findings show a notable degradation in LLMs' reasoning performance at much
shorter input lengths than their technical maximum. We show that the
degradation trend appears in every version of our dataset, although at
different intensities. Additionally, our study reveals that traditional
perplexity metrics do not correlate with performance of LLMs' in long input
reasoning tasks. We analyse our results and identify failure modes that can
serve as useful guides for future research, potentially informing strategies to
address the limitations observed in LLMs.