ChatPaper.aiChatPaper

세분화된 검색 에이전트 지도를 위한 합성 데이터 재활용

Repurposing Synthetic Data for Fine-grained Search Agent Supervision

October 28, 2025
저자: Yida Zhao, Kuan Li, Xixi Wu, Liwen Zhang, Dingchu Zhang, Baixuan Li, Maojia Song, Zhuo Chen, Chenxi Wang, Xinyu Wang, Kewei Tu, Pengjun Xie, Jingren Zhou, Yong Jiang
cs.AI

초록

LLM 기반 검색 에이전트는 복잡하고 지식 집약적인 작업을 해결하기 위해 점차적으로 엔티티 중심의 합성 데이터로 훈련되고 있습니다. 그러나 그룹 상대 정책 최적화(GRPO)와 같은 기존 훈련 방법은 이러한 풍부한 엔티티 정보를 버리고, 희소한 결과 기반 보상에 의존합니다. 이 중요한 한계는 근접 오류(near-miss) 샘플, 즉 추론 과정은 상당히 정확했지만 최종 답변이 틀린 유익한 샘플을 완전한 실패와 구분하지 못하게 하여 귀중한 학습 신호를 버리게 만듭니다. 우리는 훈련 과정에서 버려지는 바로 그 엔티티를 활용하여 이 문제를 해결합니다. 실증 분석 결과, 에이전트의 추론 과정에서 식별된 실제 정답 엔티티의 수와 최종 답변 정확도 사이에 강한 양의 상관관계가 있음이 밝혀졌습니다. 이러한 통찰을 바탕으로, 우리는 밀집된 엔티티 인식 보상 함수를 구성하는 새로운 프레임워크인 엔티티 인식 그룹 상대 정책 최적화(E-GRPO)를 소개합니다. E-GRPO는 잘못된 샘플에 대해 엔티티 일치 비율에 비례하는 부분 보상을 부여하여 모델이 이러한 "근접 오류"로부터 효과적으로 학습할 수 있게 합니다. 다양한 질의응답(QA) 및 심층 연구 벤치마크에서의 실험을 통해 E-GRPO가 GRPO 기준선을 지속적이고 유의미하게 능가함을 보여줍니다. 더 나아가, 우리의 분석은 E-GRPO가 더 높은 정확도를 달성할 뿐만 아니라 더 적은 도구 호출을 필요로 하는 더 효율적인 추론 정책을 유도하여, 검색 에이전트 정렬에 대해 더 효과적이고 샘플 효율적인 접근법을 보여줍니다.
English
LLM-based search agents are increasingly trained on entity-centric synthetic data to solve complex, knowledge-intensive tasks. However, prevailing training methods like Group Relative Policy Optimization (GRPO) discard this rich entity information, relying instead on sparse, outcome-based rewards. This critical limitation renders them unable to distinguish informative "near-miss" samples-those with substantially correct reasoning but a flawed final answer-from complete failures, thus discarding valuable learning signals. We address this by leveraging the very entities discarded during training. Our empirical analysis reveals a strong positive correlation between the number of ground-truth entities identified during an agent's reasoning process and final answer accuracy. Building on this insight, we introduce Entity-aware Group Relative Policy Optimization (E-GRPO), a novel framework that formulates a dense entity-aware reward function. E-GRPO assigns partial rewards to incorrect samples proportional to their entity match rate, enabling the model to effectively learn from these "near-misses". Experiments on diverse question-answering (QA) and deep research benchmarks show that E-GRPO consistently and significantly outperforms the GRPO baseline. Furthermore, our analysis reveals that E-GRPO not only achieves superior accuracy but also induces more efficient reasoning policies that require fewer tool calls, demonstrating a more effective and sample-efficient approach to aligning search agents.
PDF232December 1, 2025