FocusLLM: Ampliando o Contexto do LLM por Decodificação Paralela
FocusLLM: Scaling LLM's Context by Parallel Decoding
August 21, 2024
Autores: Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang
cs.AI
Resumo
Capacitar LLMs com a habilidade de utilizar informações úteis de um contexto longo é crucial para muitas aplicações subsequentes. No entanto, alcançar comprimentos de contexto longos com a arquitetura de transformer convencional requer recursos substanciais de treinamento e inferência. Neste artigo, apresentamos o FocusLLM, um framework projetado para estender o comprimento do contexto de qualquer LLM apenas decodificador, permitindo que o modelo se concentre em informações relevantes de sequências muito longas. O FocusLLM processa entradas de texto longas dividindo-as em pedaços com base no comprimento original do contexto do modelo para aliviar o problema da distração de atenção. Em seguida, ele anexa o contexto local a cada pedaço como um prompt para extrair informações essenciais de cada pedaço com base em um mecanismo de decodificação paralela inovador e, por fim, integra as informações extraídas ao contexto local. O FocusLLM se destaca pela grande eficiência de treinamento e versatilidade: treinado com um comprimento de entrada de 8K com um custo de treinamento muito menor do que métodos anteriores, o FocusLLM apresenta desempenho superior em tarefas subsequentes de contexto longo e mantém uma forte capacidade de modelagem de linguagem ao lidar com textos longos extensos, até 400K tokens. Nosso código está disponível em https://github.com/leezythu/FocusLLM.
English
Empowering LLMs with the ability to utilize useful information from a long
context is crucial for many downstream applications. However, achieving long
context lengths with the conventional transformer architecture requires
substantial training and inference resources. In this paper, we present
FocusLLM, a framework designed to extend the context length of any decoder-only
LLM, enabling the model to focus on relevant information from very long
sequences. FocusLLM processes long text inputs by dividing them into chunks
based on the model's original context length to alleviate the issue of
attention distraction. Then, it appends the local context to each chunk as a
prompt to extract essential information from each chunk based on a novel
parallel decoding mechanism, and ultimately integrates the extracted
information into the local context. FocusLLM stands out for great training
efficiency and versatility: trained with an 8K input length with much less
training cost than previous methods, FocusLLM exhibits superior performance
across downstream long-context tasks and maintains strong language modeling
ability when handling extensive long texts, even up to 400K tokens. Our code is
available at https://github.com/leezythu/FocusLLM.Summary
AI-Generated Summary