ChatPaper.aiChatPaper

Mesma Tarefa, Mais Tokens: O Impacto do Comprimento da Entrada no Desempenho de Raciocínio dos Modelos de Linguagem de Grande Escala

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

February 19, 2024
Autores: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI

Resumo

Este artigo explora o impacto da extensão do comprimento de entrada nas capacidades dos Modelos de Linguagem de Grande Escala (LLMs). Apesar dos avanços recentes dos LLMs, a consistência de seu desempenho em diferentes comprimentos de entrada não é bem compreendida. Investigamos esse aspecto introduzindo uma nova estrutura de raciocínio de perguntas e respostas (QA), especificamente projetada para avaliar o impacto do comprimento de entrada. Isolamos o efeito do comprimento de entrada utilizando múltiplas versões da mesma amostra, cada uma estendida com preenchimentos de diferentes comprimentos, tipos e localizações. Nossos resultados mostram uma degradação notável no desempenho de raciocínio dos LLMs em comprimentos de entrada muito menores que seu máximo técnico. Demonstramos que a tendência de degradação aparece em todas as versões do nosso conjunto de dados, embora com intensidades diferentes. Além disso, nosso estudo revela que as métricas tradicionais de perplexidade não se correlacionam com o desempenho dos LLMs em tarefas de raciocínio com entradas longas. Analisamos nossos resultados e identificamos modos de falha que podem servir como guias úteis para pesquisas futuras, potencialmente informando estratégias para abordar as limitações observadas nos LLMs.
English
This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
PDF206December 15, 2024