ChatPaper.aiChatPaper

MaskSearch: Un Framework Universale di Pre-Addestramento per Potenziare la Capacità di Ricerca Agente

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability

May 26, 2025
Autori: Weiqi Wu, Xin Guan, Shen Huang, Yong Jiang, Pengjun Xie, Fei Huang, Jiuxin Cao, Hai Zhao, Jingren Zhou
cs.AI

Abstract

I Modelli Linguistici Potenziati dal Recupero (RALMs) rappresentano un paradigma classico in cui i modelli migliorano le capacità generative utilizzando conoscenze esterne recuperate tramite un modulo specializzato. I recenti progressi nelle tecniche di Agente consentono ai Modelli Linguistici di Grande Scala (LLMs) di utilizzare autonomamente strumenti per il recupero, la pianificazione e il ragionamento. Sebbene i metodi esistenti basati sul training mostrino promettenti risultati, le loro capacità agentiche sono limitate dalle caratteristiche intrinseche dei dati specifici del compito utilizzati durante l'addestramento. Per potenziare ulteriormente la capacità di ricerca universale degli agenti, proponiamo un nuovo framework di pre-training, MaskSearch. Nella fase di pre-training, introduciamo il compito di Predizione Maschera Potenziata dal Recupero (RAMP), in cui il modello impara a sfruttare strumenti di ricerca per riempire porzioni mascherate su un ampio numero di dati di pre-training, acquisendo così capacità universali di recupero e ragionamento per gli LLMs. Successivamente, il modello viene addestrato su compiti downstream per ottenere ulteriori miglioramenti. Applichiamo sia il Fine-tuning Supervisionato (SFT) che l'Apprendimento per Rinforzo (RL) per l'addestramento. Per il SFT, combiniamo metodi basati su agente e su distillazione per generare dati di training, iniziando con un sistema multi-agente composto da un pianificatore, un riscrittore, un osservatore e seguito da un modello insegnante auto-evolutivo. Per il RL, utilizziamo DAPO come framework di addestramento e adottiamo un sistema di ricompensa ibrido composto da ricompense per le risposte e ricompense per il formato. Inoltre, introduciamo un approccio di apprendimento curriculare che consente al modello di apprendere progressivamente da istanze più semplici a più complesse in base al numero di porzioni mascherate. Valutiamo l'efficacia del nostro framework nello scenario di risposta a domande multi-hop in dominio aperto. Attraverso esperimenti estensivi, dimostriamo che MaskSearch migliora significativamente le prestazioni degli agenti di ricerca basati su LLM sia su compiti downstream in dominio che fuori dominio.
English
Retrieval-Augmented Language Models (RALMs) represent a classic paradigm where models enhance generative capabilities using external knowledge retrieved via a specialized module. Recent advancements in Agent techniques enable Large Language Models (LLMs) to autonomously utilize tools for retrieval, planning, and reasoning. While existing training-based methods show promise, their agentic abilities are limited by inherent characteristics of the task-specific data used during training. To further enhance the universal search capability of agents, we propose a novel pre-training framework, MaskSearch. In the pre-training stage, we introduce the Retrieval Augmented Mask Prediction (RAMP) task, where the model learns to leverage search tools to fill masked spans on a large number of pre-training data, thus acquiring universal retrieval and reasoning capabilities for LLMs. After that, the model is trained on downstream tasks to achieve further improvement. We apply both Supervised Fine-tuning (SFT) and Reinforcement Learning (RL) for training. For SFT, we combine agent-based and distillation-based methods to generate training data, starting with a multi-agent system consisting of a planner, rewriter, observer, and followed by a self-evolving teacher model. While for RL, we employ DAPO as the training framework and adopt a hybrid reward system consisting of answer rewards and format rewards. Additionally, we introduce a curriculum learning approach that allows the model to learn progressively from easier to more challenging instances based on the number of masked spans. We evaluate the effectiveness of our framework in the scenario of open-domain multi-hop question answering. Through extensive experiments, we demonstrate that MaskSearch significantly enhances the performance of LLM-based search agents on both in-domain and out-of-domain downstream tasks.
PDF32June 3, 2025