ChatPaper.aiChatPaper

PokeeResearch: AI 피드백 강화 학습과 견고한 추론 구조를 통한 효과적인 딥 리서치

PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

October 17, 2025
저자: Yi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu
cs.AI

초록

도구 강화 대형 언어 모델(LLMs)은 복잡한 질의를 분해하고, 외부 증거를 검색하며, 근거 있는 응답을 종합하는 심층 연구 에이전트로서 주목받고 있습니다. 그러나 현재의 에이전트들은 피상적인 검색, 약한 정렬 지표, 그리고 취약한 도구 사용 행동으로 인해 한계를 보이고 있습니다. 우리는 강건성, 정렬, 확장성을 위한 통합 강화 학습 프레임워크 하에 구축된 7B 파라미터 심층 연구 에이전트인 PokeeResearch-7B를 소개합니다. PokeeResearch-7B는 사실적 정확성, 인용 충실도, 지시 준수를 포착하는 LLM 기반 보상 신호를 사용하여 정책을 최적화하기 위해 주석 없는 AI 피드백 강화 학습(RLAIF) 프레임워크로 훈련되었습니다. 사고의 연쇄(chain-of-thought) 기반 다중 호출 추론 구조는 자체 검증과 도구 실패로부터의 적응적 복구를 통해 강건성을 더욱 강화합니다. 10개의 인기 있는 심층 연구 벤치마크에서 PokeeResearch-7B는 7B 규모 심층 연구 에이전트 중 최고의 성능을 달성했습니다. 이는 신중한 강화 학습과 추론 설계가 효율적이고 탄력적이며 연구 수준의 AI 에이전트를 생산할 수 있음을 보여줍니다. 이 모델과 추론 코드는 MIT 라이선스 하에 https://github.com/Pokee-AI/PokeeResearchOSS에서 오픈소스로 제공됩니다.
English
Tool-augmented large language models (LLMs) are emerging as deep research agents, systems that decompose complex queries, retrieve external evidence, and synthesize grounded responses. Yet current agents remain limited by shallow retrieval, weak alignment metrics, and brittle tool-use behavior. We introduce PokeeResearch-7B, a 7B-parameter deep research agent built under a unified reinforcement learning framework for robustness, alignment, and scalability. PokeeResearch-7B is trained by an annotation-free Reinforcement Learning from AI Feedback (RLAIF) framework to optimize policies using LLM-based reward signals that capture factual accuracy, citation faithfulness, and instruction adherence. A chain-of-thought-driven multi-call reasoning scaffold further enhances robustness through self-verification and adaptive recovery from tool failures. Among 10 popular deep research benchmarks, PokeeResearch-7B achieves state-of-the-art performance among 7B-scale deep research agents. This highlights that careful reinforcement learning and reasoning design can produce efficient, resilient, and research-grade AI agents. The model and inference code is open-sourced under MIT license at https://github.com/Pokee-AI/PokeeResearchOSS.
PDF02October 22, 2025