Escrevendo nas Margens: Melhor Padrão de Inferência para Recuperação de Contexto LongoWriting in the Margins: Better Inference Pattern for Long Context
Retrieval
Neste artigo, apresentamos a Escrita nas Margens (WiM), um novo padrão de inferência para Modelos de Linguagem Grandes projetado para otimizar o tratamento de sequências de entrada longas em tarefas orientadas para recuperação. Esta abordagem aproveita o preenchimento segmentado do cache chave-valor para realizar inferência por segmento, o que possibilita o processamento eficiente de contextos extensos juntamente com a geração e classificação de informações intermediárias ("margens") que orientam o modelo em direção a tarefas específicas. Este método aumenta marginalmente a sobrecarga computacional, ao mesmo tempo em que melhora significativamente o desempenho de modelos prontos para uso sem a necessidade de ajustes finos. Especificamente, observamos que o WiM proporciona um aumento médio de 7,5% na precisão para habilidades de raciocínio (HotpotQA, MultiHop-RAG) e mais de 30,0% no aumento do escore F1 para tarefas de agregação (CWE). Além disso, demonstramos como o padrão proposto se encaixa em um design de recuperação interativa que fornece aos usuários finais atualizações contínuas sobre o progresso do processamento de contexto e destaca a integração de informações relevantes na resposta final. Disponibilizamos nossa implementação do WiM utilizando a biblioteca Hugging Face Transformers em https://github.com/writer/writing-in-the-margins.