Avaliação de Janelas de Contexto do Modelo de Linguagem: Um Teste de "Memória de Trabalho" e Correção em Tempo de Inferência

Resumo

Grandes modelos de linguagem são amplamente utilizados em aplicações do mundo real, frequentemente encarregados de raciocinar sobre grandes volumes de documentos. Um desenvolvimento empolgante nesse espaço são modelos que ostentam capacidades de contexto estendido, com alguns acomodando mais de 2 milhões de tokens. As capacidades desses modelos de contexto longo permanecem incertas em sistemas de produção, motivando a necessidade de avaliar seu desempenho em casos de uso do mundo real. Abordamos esse desafio propondo SWiM, um framework de avaliação que aborda as limitações dos testes padrão. Ao testar o framework em oito modelos de contexto longo, descobrimos que até mesmo modelos fortes como GPT-4 e Claude 3 Opus têm seu desempenho degradado quando a informação está presente no meio da janela de contexto (efeito de perda no meio). Em seguida, além de nosso benchmark, propomos a votação de medoides, uma abordagem simples, mas eficaz, sem necessidade de treinamento, que ajuda a aliviar esse efeito, gerando respostas algumas vezes, cada vez permutando aleatoriamente os documentos no contexto e selecionando a resposta medoide. Avaliamos a votação de medoides em tarefas de perguntas e respostas em um único documento, alcançando até 24% de aumento na precisão.

English

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy.

Avaliação de Janelas de Contexto do Modelo de Linguagem: Um Teste de "Memória de Trabalho" e Correção em Tempo de Inferência

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

Resumo

Support