PokeeResearch : Recherche approfondie efficace via apprentissage par renforcement à partir de retours d'IA et échafaudage de raisonnement robuste
PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold
October 17, 2025
papers.authors: Yi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu
cs.AI
papers.abstract
Les grands modèles de langage (LLM) augmentés par des outils émergent en tant qu'agents de recherche approfondis, des systèmes capables de décomposer des requêtes complexes, de récupérer des preuves externes et de synthétiser des réponses fondées. Cependant, les agents actuels restent limités par une récupération superficielle, des métriques d'alignement faibles et un comportement fragile dans l'utilisation des outils. Nous présentons PokeeResearch-7B, un agent de recherche approfondi de 7 milliards de paramètres construit sous un cadre unifié d'apprentissage par renforcement pour la robustesse, l'alignement et l'évolutivité. PokeeResearch-7B est entraîné par un cadre d'apprentissage par renforcement à partir de retours d'IA (RLAIF) sans annotation, optimisant les politiques à l'aide de signaux de récompense basés sur des LLM qui capturent la précision factuelle, la fidélité des citations et l'adhésion aux instructions. Un échafaudage de raisonnement multi-appels piloté par une chaîne de pensée renforce encore la robustesse grâce à l'auto-vérification et à la récupération adaptative après des échecs d'outils. Parmi 10 benchmarks populaires de recherche approfondie, PokeeResearch-7B atteint des performances de pointe parmi les agents de recherche approfondis à l'échelle de 7 milliards de paramètres. Cela met en évidence qu'un apprentissage par renforcement et une conception de raisonnement minutieux peuvent produire des agents IA efficaces, résilients et de qualité recherche. Le modèle et le code d'inférence sont open-source sous licence MIT à l'adresse https://github.com/Pokee-AI/PokeeResearchOSS.
English
Tool-augmented large language models (LLMs) are emerging as deep research
agents, systems that decompose complex queries, retrieve external evidence, and
synthesize grounded responses. Yet current agents remain limited by shallow
retrieval, weak alignment metrics, and brittle tool-use behavior. We introduce
PokeeResearch-7B, a 7B-parameter deep research agent built under a unified
reinforcement learning framework for robustness, alignment, and scalability.
PokeeResearch-7B is trained by an annotation-free Reinforcement Learning from
AI Feedback (RLAIF) framework to optimize policies using LLM-based reward
signals that capture factual accuracy, citation faithfulness, and instruction
adherence. A chain-of-thought-driven multi-call reasoning scaffold further
enhances robustness through self-verification and adaptive recovery from tool
failures. Among 10 popular deep research benchmarks, PokeeResearch-7B achieves
state-of-the-art performance among 7B-scale deep research agents. This
highlights that careful reinforcement learning and reasoning design can produce
efficient, resilient, and research-grade AI agents. The model and inference
code is open-sourced under MIT license at
https://github.com/Pokee-AI/PokeeResearchOSS.