ChatPaper.aiChatPaper

Та же задача, больше токенов: влияние длины входных данных на способность к рассуждению у крупных языковых моделей

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

February 19, 2024
Авторы: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI

Аннотация

В данной работе исследуется влияние увеличения длины входных данных на возможности крупных языковых моделей (LLM). Несмотря на значительные достижения LLM в последнее время, их стабильность производительности при различных длинах входных данных остается недостаточно изученной. Мы изучаем этот аспект, вводя новую структуру для оценки рассуждений в формате вопрос-ответ, специально разработанную для анализа влияния длины входных данных. Мы изолируем эффект длины входных данных, используя несколько версий одного и того же образца, каждая из которых расширена заполнением разной длины, типа и расположения. Наши результаты показывают значительное ухудшение производительности рассуждений LLM при гораздо более коротких длинах входных данных, чем их технический максимум. Мы демонстрируем, что тенденция к ухудшению проявляется в каждой версии нашего набора данных, хотя и с разной интенсивностью. Кроме того, наше исследование показывает, что традиционные метрики перплексии не коррелируют с производительностью LLM в задачах рассуждений с длинными входными данными. Мы анализируем наши результаты и выявляем типичные ошибки, которые могут служить полезным руководством для будущих исследований, потенциально информируя стратегии для устранения наблюдаемых ограничений LLM.
English
This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
PDF196December 15, 2024