ChatPaper.aiChatPaper

PokeeResearch : Recherche approfondie efficace via apprentissage par renforcement à partir de retours d'IA et échafaudage de raisonnement robuste

PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

October 17, 2025
papers.authors: Yi Wan, Jiuqi Wang, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu
cs.AI

papers.abstract

Les grands modèles de langage (LLM) augmentés par des outils émergent en tant qu'agents de recherche approfondis, des systèmes capables de décomposer des requêtes complexes, de récupérer des preuves externes et de synthétiser des réponses fondées. Cependant, les agents actuels restent limités par une récupération superficielle, des métriques d'alignement faibles et un comportement fragile dans l'utilisation des outils. Nous présentons PokeeResearch-7B, un agent de recherche approfondi de 7 milliards de paramètres construit sous un cadre unifié d'apprentissage par renforcement pour la robustesse, l'alignement et l'évolutivité. PokeeResearch-7B est entraîné par un cadre d'apprentissage par renforcement à partir de retours d'IA (RLAIF) sans annotation, optimisant les politiques à l'aide de signaux de récompense basés sur des LLM qui capturent la précision factuelle, la fidélité des citations et l'adhésion aux instructions. Un échafaudage de raisonnement multi-appels piloté par une chaîne de pensée renforce encore la robustesse grâce à l'auto-vérification et à la récupération adaptative après des échecs d'outils. Parmi 10 benchmarks populaires de recherche approfondie, PokeeResearch-7B atteint des performances de pointe parmi les agents de recherche approfondis à l'échelle de 7 milliards de paramètres. Cela met en évidence qu'un apprentissage par renforcement et une conception de raisonnement minutieux peuvent produire des agents IA efficaces, résilients et de qualité recherche. Le modèle et le code d'inférence sont open-source sous licence MIT à l'adresse https://github.com/Pokee-AI/PokeeResearchOSS.
English
Tool-augmented large language models (LLMs) are emerging as deep research agents, systems that decompose complex queries, retrieve external evidence, and synthesize grounded responses. Yet current agents remain limited by shallow retrieval, weak alignment metrics, and brittle tool-use behavior. We introduce PokeeResearch-7B, a 7B-parameter deep research agent built under a unified reinforcement learning framework for robustness, alignment, and scalability. PokeeResearch-7B is trained by an annotation-free Reinforcement Learning from AI Feedback (RLAIF) framework to optimize policies using LLM-based reward signals that capture factual accuracy, citation faithfulness, and instruction adherence. A chain-of-thought-driven multi-call reasoning scaffold further enhances robustness through self-verification and adaptive recovery from tool failures. Among 10 popular deep research benchmarks, PokeeResearch-7B achieves state-of-the-art performance among 7B-scale deep research agents. This highlights that careful reinforcement learning and reasoning design can produce efficient, resilient, and research-grade AI agents. The model and inference code is open-sourced under MIT license at https://github.com/Pokee-AI/PokeeResearchOSS.
PDF02October 22, 2025