PokeeResearch: AIフィードバックによる強化学習と堅牢な推論スキャフォールドを活用した効果的ディープリサーチ
PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold
October 17, 2025
著者: Yi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu
cs.AI
要旨
ツール拡張型大規模言語モデル(LLMs)は、複雑なクエリを分解し、外部の証拠を検索し、根拠に基づいた応答を合成する深層研究エージェントとして台頭しつつある。しかし、現在のエージェントは、浅い検索、弱いアライメント指標、脆弱なツール使用行動によって制限されている。本論文では、堅牢性、アライメント、スケーラビリティを目的とした統一された強化学習フレームワークの下で構築された7Bパラメータの深層研究エージェント、PokeeResearch-7Bを紹介する。PokeeResearch-7Bは、アノテーションフリーのAIフィードバックからの強化学習(RLAIF)フレームワークによって訓練され、事実の正確性、引用の忠実性、指示の遵守を捉えたLLMベースの報酬信号を使用してポリシーを最適化する。チェーン・オブ・シンク駆動型のマルチコール推論スキャフォールドは、自己検証とツール障害からの適応的復旧を通じて堅牢性をさらに向上させる。10の主要な深層研究ベンチマークにおいて、PokeeResearch-7Bは7Bスケールの深層研究エージェントの中で最先端の性能を達成した。これは、慎重な強化学習と推論設計が、効率的で回復力のある研究レベルのAIエージェントを生み出すことができることを示している。モデルと推論コードはMITライセンスの下でhttps://github.com/Pokee-AI/PokeeResearchOSSにてオープンソース化されている。
English
Tool-augmented large language models (LLMs) are emerging as deep research
agents, systems that decompose complex queries, retrieve external evidence, and
synthesize grounded responses. Yet current agents remain limited by shallow
retrieval, weak alignment metrics, and brittle tool-use behavior. We introduce
PokeeResearch-7B, a 7B-parameter deep research agent built under a unified
reinforcement learning framework for robustness, alignment, and scalability.
PokeeResearch-7B is trained by an annotation-free Reinforcement Learning from
AI Feedback (RLAIF) framework to optimize policies using LLM-based reward
signals that capture factual accuracy, citation faithfulness, and instruction
adherence. A chain-of-thought-driven multi-call reasoning scaffold further
enhances robustness through self-verification and adaptive recovery from tool
failures. Among 10 popular deep research benchmarks, PokeeResearch-7B achieves
state-of-the-art performance among 7B-scale deep research agents. This
highlights that careful reinforcement learning and reasoning design can produce
efficient, resilient, and research-grade AI agents. The model and inference
code is open-sourced under MIT license at
https://github.com/Pokee-AI/PokeeResearchOSS.