LLMs de Contexto Longo Têm Dificuldades com Aprendizado In-contexto Prolongado
Long-context LLMs Struggle with Long In-context Learning
April 2, 2024
Autores: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm feito avanços significativos no processamento de sequências longas que excedem 32K tokens. No entanto, a avaliação de seu desempenho tem sido amplamente limitada a métricas como perplexidade e tarefas sintéticas, que podem não capturar plenamente suas habilidades em cenários do mundo real mais complexos. Este estudo introduz um benchmark especializado (LIConBench) focado no aprendizado contextual longo no domínio da classificação de rótulos extremos. Selecionamos meticulosamente seis conjuntos de dados com uma gama de rótulos variando de 28 a 174 classes, cobrindo diferentes comprimentos de entrada (demonstrações few-shot) de 2K a 50K. Nosso benchmark exige que os LLMs compreendam toda a entrada para reconhecer os espaços massivos de rótulos e fazer previsões corretas. Avaliamos 13 LLMs de contexto longo em nossos benchmarks. Descobrimos que os LLMs de contexto longo têm um desempenho relativamente bom sob o comprimento de token de 20K, e o desempenho se beneficia da utilização da janela de contexto longo. No entanto, após a janela de contexto exceder 20K, a maioria dos LLMs, exceto o GPT-4, cai drasticamente. Isso sugere uma lacuna notável nas capacidades atuais dos LLMs para processar e compreender sequências longas e ricas em contexto. Uma análise mais aprofundada revelou uma tendência entre os modelos de favorecer previsões para rótulos apresentados no final da sequência. Sua capacidade de raciocinar sobre múltiplas partes da sequência longa ainda precisa ser melhorada. Nosso estudo revela que a compreensão e o raciocínio de contexto longo ainda são tarefas desafiadoras para os LLMs existentes. Acreditamos que o LIConBench pode servir como uma avaliação mais realista para os futuros LLMs de contexto longo.
English
Large Language Models (LLMs) have made significant strides in handling long
sequences exceeding 32K tokens. However, their performance evaluation has
largely been confined to metrics like perplexity and synthetic tasks, which may
not fully capture their abilities in more nuanced, real-world scenarios. This
study introduces a specialized benchmark (LIConBench) focusing on long
in-context learning within the realm of extreme-label classification. We
meticulously selected six datasets with a label range spanning 28 to 174
classes covering different input (few-shot demonstration) length from 2K to
50K. Our benchmark requires LLMs to comprehend the entire input to recognize
the massive label spaces to make correct prediction. We evaluate 13
long-context LLMs on our benchmarks. We find that the long-context LLMs perform
relatively well under the token length of 20K and the performance benefits from
utilizing the long context window. However, after the context window exceeds
20K, most LLMs except GPT-4 will dip dramatically. This suggests a notable gap
in current LLM capabilities for processing and understanding long, context-rich
sequences. Further analysis revealed a tendency among models to favor
predictions for labels presented towards the end at the sequence. Their ability
to reason over multiple pieces in the long sequence is yet to be improved. Our
study reveals that long context understanding and reasoning is still a
challenging task for the existing LLMs. We believe LIConBench could serve as a
more realistic evaluation for the future long context LLMs.