Treinamento Contextual com Busca Ativa de Informações

Resumo

A maioria dos modelos de linguagem de grande escala (LLMs) existentes é cara de adaptar após a implantação, especialmente quando uma tarefa requer informações recém-produzidas ou conhecimento de domínio específico. Trabalhos recentes mostraram que, manipulando e otimizando seu contexto, os LLMs podem ser adaptados a tarefas downstream sem atualizar seus pesos. No entanto, a maioria dos métodos existentes permanece em circuito fechado, dependendo exclusivamente do conhecimento intrínseco do modelo. Neste artigo, equipamos esses otimizadores de contexto com ferramentas de pesquisa na Wikipedia e navegador para busca ativa de informações. Mostramos que adicionar essas ferramentas de forma ingênua a um pipeline sequencial padrão de otimização de contexto pode, na verdade, degradar o desempenho em comparação com as linhas de base. No entanto, quando combinado com um procedimento de treinamento baseado em busca que mantém e poda múltiplos contextos candidatos, a busca ativa de informações proporciona ganhos consistentes e substanciais. Demonstramos essas melhorias em diversos domínios, incluindo tradução com poucos recursos (Flores+), cenários de saúde (HealthBench) e tarefas de alto raciocínio (LiveCodeBench e Humanity's Last Exam). Além disso, nosso método se mostra eficiente em termos de dados, robusto diante de diferentes hiperparâmetros e capaz de gerar contextos textuais eficazes que se generalizam bem entre diferentes modelos.

English

Most existing large language models (LLMs) are expensive to adapt after deployment, especially when a task requires newly produced information or niche domain knowledge. Recent work has shown that, by manipulating and optimizing their context, LLMs can be tailored to downstream tasks without updating their weights. However, most existing methods remain closed-loop, relying solely on the model's intrinsic knowledge. In this paper, we equip these context optimizers with Wikipedia search and browser tools for active information seeking. We show that naively adding these tools to a standard sequential context optimization pipeline can actually degrade performance compared to baselines. However, when paired with a search-based training procedure that maintains and prunes multiple candidate contexts, active information seeking delivers consistent and substantial gains. We demonstrate these improvements across diverse domains, including low-resource translation (Flores+), health scenarios (HealthBench), and reasoning-heavy tasks (LiveCodeBench and Humanity's Last Exam). Furthermore, our method proves to be data-efficient, robust across different hyperparameters, and capable of generating effective textual contexts that generalize well across different models.