ChatPaper.aiChatPaper

Ricerca con Auto-gioco: Spingere le Frontiere delle Capacità degli Agenti senza Supervisione

Search Self-play: Pushing the Frontier of Agent Capability without Supervision

October 21, 2025
Autori: Hongliang Lu, Yuhang Wen, Pengyu Cheng, Ruijin Ding, Haotian Xu, Jiaqi Guo, Chutian Wang, Haonan Chen, Xiaoxi Jiang, Guanjun Jiang
cs.AI

Abstract

L’apprendimento per rinforzo con ricompense verificabili (RLVR) è diventato la tecnica principale per l’addestramento di agenti basati su LLM. Tuttavia, l’RLVR dipende fortemente da query di task ben strutturate e dalle relative risposte di ground truth per fornire ricompense accurate, il che richiede notevoli sforzi umani e ostacola i processi di scalabilità del RL, specialmente in scenari agentici. Sebbene alcuni recenti lavori abbiano esplorato metodi di sintesi dei task, la difficoltà dei task agentici generati difficilmente può essere controllata per fornire vantaggi efficaci nell’addestramento RL. Per realizzare un RLVR agentico con maggiore scalabilità, esploriamo l’addestramento self-play per agenti di ricerca approfondita, in cui l’LLM in apprendimento utilizza chiamate multi-turn a motori di ricerca e agisce simultaneamente sia come proponente di task che come risolutore di problemi. Il proponente di task mira a generare query di ricerca approfondita con risposte di ground truth ben definite e difficoltà crescente. Il risolutore di problemi tenta di gestire le query di ricerca generate e produrre previsioni di risposta corrette. Per garantire che ogni query di ricerca generata abbia un ground truth accurato, raccogliiamo tutti i risultati di ricerca dalla traiettoria del proponente come conoscenza esterna, quindi conduciamo una generazione aumentata tramite recupero (RAG) per verificare se la query proposta può essere correttamente risposta fornendo tutti i documenti di ricerca necessari. In questo gioco di ricerca self-play (SSP), il proponente e il risolutore co-evolvono le proprie capacità agentiche attraverso competizione e cooperazione. Con risultati sperimentali sostanziali, scopriamo che SSP può migliorare significativamente e uniformemente le prestazioni degli agenti di ricerca su vari benchmark senza alcuna supervisione, sia in configurazioni di addestramento RL da zero che continuativo. Il codice è disponibile su https://github.com/Alibaba-Quark/SSP.
English
Reinforcement learning with verifiable rewards (RLVR) has become the mainstream technique for training LLM agents. However, RLVR highly depends on well-crafted task queries and corresponding ground-truth answers to provide accurate rewards, which requires massive human efforts and hinders the RL scaling processes, especially under agentic scenarios. Although a few recent works explore task synthesis methods, the difficulty of generated agentic tasks can hardly be controlled to provide effective RL training advantages. To achieve agentic RLVR with higher scalability, we explore self-play training for deep search agents, in which the learning LLM utilizes multi-turn search engine calling and acts simultaneously as both a task proposer and a problem solver. The task proposer aims to generate deep search queries with well-defined ground-truth answers and increasing task difficulty. The problem solver tries to handle the generated search queries and output the correct answer predictions. To ensure that each generated search query has accurate ground truth, we collect all the searching results from the proposer's trajectory as external knowledge, then conduct retrieval-augmentation generation (RAG) to test whether the proposed query can be correctly answered with all necessary search documents provided. In this search self-play (SSP) game, the proposer and the solver co-evolve their agent capabilities through both competition and cooperation. With substantial experimental results, we find that SSP can significantly improve search agents' performance uniformly on various benchmarks without any supervision under both from-scratch and continuous RL training setups. The code is at https://github.com/Alibaba-Quark/SSP.
PDF172December 2, 2025