LLMtimesMapReduce: Processamento Simplificado de Longas Sequências usando Modelos de Linguagem Grandes
LLMtimesMapReduce: Simplified Long-Sequence Processing using Large Language Models
October 12, 2024
Autores: Zihan Zhou, Chong Li, Xinyi Chen, Shuo Wang, Yu Chao, Zhili Li, Haoyu Wang, Rongqiao An, Qi Shi, Zhixing Tan, Xu Han, Xiaodong Shi, Zhiyuan Liu, Maosong Sun
cs.AI
Resumo
Ampliar a janela de contexto dos grandes modelos de linguagem (LLMs) tornou-se uma área de pesquisa crucial, especialmente para aplicações envolvendo textos extremamente longos. Neste trabalho, propomos um novo framework sem treinamento para processar textos longos, utilizando uma estratégia de dividir e conquistar para alcançar uma compreensão abrangente de documentos. O framework proposto LLMtimesMapReduce divide o documento inteiro em vários pedaços para que os LLMs possam ler e depois agrega as respostas intermediárias para produzir a saída final. O principal desafio para os frameworks de processamento de texto longo dividir e conquistar está no risco de perder informações essenciais de longo alcance ao dividir o documento, o que pode levar o modelo a produzir respostas incompletas ou incorretas com base nos textos segmentados. A informação de longo alcance interrompida pode ser classificada em duas categorias: dependência entre pedaços e conflito entre pedaços. Projetamos um protocolo de informação estruturada para lidar melhor com a dependência entre pedaços e um mecanismo de calibração de confiança no contexto para resolver conflitos entre pedaços. Resultados experimentais demonstram que o LLMtimesMapReduce pode superar os LLMs de contexto longo de código aberto e comerciais representativos, e é aplicável a vários modelos diferentes.
English
Enlarging the context window of large language models (LLMs) has become a
crucial research area, particularly for applications involving extremely long
texts. In this work, we propose a novel training-free framework for processing
long texts, utilizing a divide-and-conquer strategy to achieve comprehensive
document understanding. The proposed LLMtimesMapReduce framework splits the
entire document into several chunks for LLMs to read and then aggregates the
intermediate answers to produce the final output. The main challenge for
divide-and-conquer long text processing frameworks lies in the risk of losing
essential long-range information when splitting the document, which can lead
the model to produce incomplete or incorrect answers based on the segmented
texts. Disrupted long-range information can be classified into two categories:
inter-chunk dependency and inter-chunk conflict. We design a structured
information protocol to better cope with inter-chunk dependency and an
in-context confidence calibration mechanism to resolve inter-chunk conflicts.
Experimental results demonstrate that LLMtimesMapReduce can outperform
representative open-source and commercial long-context LLMs, and is applicable
to several different models.Summary
AI-Generated Summary