ChatPaper.aiChatPaper

Gleiche Aufgabe, mehr Tokens: Der Einfluss der Eingabelänge auf die Argumentationsleistung von großen Sprachmodellen

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

February 19, 2024
Autoren: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI

Zusammenfassung

Diese Arbeit untersucht die Auswirkungen der Erweiterung von Eingabelängen auf die Fähigkeiten von Large Language Models (LLMs). Trotz der Fortschritte von LLMs in jüngster Zeit ist ihre Leistungskonsistenz über verschiedene Eingabelängen hinweg nicht gut verstanden. Wir untersuchen diesen Aspekt durch die Einführung eines neuartigen QA-Reasoning-Frameworks, das speziell entwickelt wurde, um die Auswirkungen der Eingabelänge zu bewerten. Wir isolieren den Effekt der Eingabelänge durch die Verwendung mehrerer Versionen derselben Probe, die jeweils mit Padding unterschiedlicher Längen, Typen und Positionen erweitert werden. Unsere Ergebnisse zeigen eine deutliche Verschlechterung der Reasoning-Leistung von LLMs bei viel kürzeren Eingabelängen als ihrem technischen Maximum. Wir zeigen, dass der Verschlechterungstrend in jeder Version unseres Datensatzes auftritt, wenn auch mit unterschiedlicher Intensität. Darüber hinaus zeigt unsere Studie, dass traditionelle Perplexity-Metriken nicht mit der Leistung von LLMs in langen Eingabe-Reasoning-Aufgaben korrelieren. Wir analysieren unsere Ergebnisse und identifizieren Fehlermodi, die als nützliche Leitfäden für zukünftige Forschung dienen können und potenziell Strategien zur Bewältigung der beobachteten Einschränkungen von LLMs informieren.
English
This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
PDF196December 15, 2024