Contexttraining met actief informatie zoeken

Samenvatting

De meeste bestaande grote taalmodellen (LLM's) zijn duur om aan te passen na implementatie, vooral wanneer een taak nieuw geproduceerde informatie of niche-domeinkennis vereist. Recent werk heeft aangetoond dat LLM's door het manipuleren en optimaliseren van hun context kunnen worden afgestemd op downstream-taken zonder hun gewichten bij te werken. De meeste bestaande methoden blijven echter gesloten-lus en vertrouwen uitsluitend op de intrinsieke kennis van het model. In dit artikel voorzien we deze contextoptimaliseerders van Wikipedia-zoek- en browserhulpmiddelen voor actieve informatievergaring. We tonen aan dat het naïef toevoegen van deze hulpmiddelen aan een standaard sequentiële contextoptimalisatiepijplijn de prestaties zelfs kan verslechteren in vergelijking met baselines. Wanneer dit echter wordt gekoppeld aan een zoekgebaseerde trainingsprocedure die meerdere kandidaatcontexten onderhoudt en snoeit, levert actieve informatievergaring consistente en substantiële winst op. We demonstreren deze verbeteringen in uiteenlopende domeinen, waaronder vertaling met weinig bronmateriaal (Flores+), gezondheidsscenario's (HealthBench) en redeneerintensieve taken (LiveCodeBench en Humanity's Last Exam). Bovendien blijkt onze methode data-efficiënt, robuust over verschillende hyperparameters en in staat om effectieve tekstuele contexten te genereren die goed generaliseren over verschillende modellen.

English

Most existing large language models (LLMs) are expensive to adapt after deployment, especially when a task requires newly produced information or niche domain knowledge. Recent work has shown that, by manipulating and optimizing their context, LLMs can be tailored to downstream tasks without updating their weights. However, most existing methods remain closed-loop, relying solely on the model's intrinsic knowledge. In this paper, we equip these context optimizers with Wikipedia search and browser tools for active information seeking. We show that naively adding these tools to a standard sequential context optimization pipeline can actually degrade performance compared to baselines. However, when paired with a search-based training procedure that maintains and prunes multiple candidate contexts, active information seeking delivers consistent and substantial gains. We demonstrate these improvements across diverse domains, including low-resource translation (Flores+), health scenarios (HealthBench), and reasoning-heavy tasks (LiveCodeBench and Humanity's Last Exam). Furthermore, our method proves to be data-efficient, robust across different hyperparameters, and capable of generating effective textual contexts that generalize well across different models.