LLMtimesMapReduce: Processamento Simplificado de Longas Sequências usando Modelos de Linguagem Grandes

Resumo

Ampliar a janela de contexto dos grandes modelos de linguagem (LLMs) tornou-se uma área de pesquisa crucial, especialmente para aplicações envolvendo textos extremamente longos. Neste trabalho, propomos um novo framework sem treinamento para processar textos longos, utilizando uma estratégia de dividir e conquistar para alcançar uma compreensão abrangente de documentos. O framework proposto LLMtimesMapReduce divide o documento inteiro em vários pedaços para que os LLMs possam ler e depois agrega as respostas intermediárias para produzir a saída final. O principal desafio para os frameworks de processamento de texto longo dividir e conquistar está no risco de perder informações essenciais de longo alcance ao dividir o documento, o que pode levar o modelo a produzir respostas incompletas ou incorretas com base nos textos segmentados. A informação de longo alcance interrompida pode ser classificada em duas categorias: dependência entre pedaços e conflito entre pedaços. Projetamos um protocolo de informação estruturada para lidar melhor com a dependência entre pedaços e um mecanismo de calibração de confiança no contexto para resolver conflitos entre pedaços. Resultados experimentais demonstram que o LLMtimesMapReduce pode superar os LLMs de contexto longo de código aberto e comerciais representativos, e é aplicável a vários modelos diferentes.

English

Enlarging the context window of large language models (LLMs) has become a crucial research area, particularly for applications involving extremely long texts. In this work, we propose a novel training-free framework for processing long texts, utilizing a divide-and-conquer strategy to achieve comprehensive document understanding. The proposed LLMtimesMapReduce framework splits the entire document into several chunks for LLMs to read and then aggregates the intermediate answers to produce the final output. The main challenge for divide-and-conquer long text processing frameworks lies in the risk of losing essential long-range information when splitting the document, which can lead the model to produce incomplete or incorrect answers based on the segmented texts. Disrupted long-range information can be classified into two categories: inter-chunk dependency and inter-chunk conflict. We design a structured information protocol to better cope with inter-chunk dependency and an in-context confidence calibration mechanism to resolve inter-chunk conflicts. Experimental results demonstrate that LLMtimesMapReduce can outperform representative open-source and commercial long-context LLMs, and is applicable to several different models.

LLMtimesMapReduce: Processamento Simplificado de Longas Sequências usando Modelos de Linguagem Grandes

LLMtimesMapReduce: Simplified Long-Sequence Processing using Large Language Models

Resumo

Support