ReZero : Amélioration des capacités de recherche des LLM en essayant une fois de plus
ReZero: Enhancing LLM search ability by trying one-more-time
April 15, 2025
Auteurs: Alan Dao, Thinh Le
cs.AI
Résumé
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) améliore les performances des Modèles de Langue à Grande Échelle (Large Language Models, LLM) sur des tâches nécessitant une connaissance approfondie, mais dépend fortement de la qualité de la requête de recherche initiale. Les méthodes actuelles, utilisant souvent l'Apprentissage par Renforcement (Reinforcement Learning, RL), se concentrent généralement sur la formulation des requêtes ou le raisonnement sur les résultats, sans encourager explicitement la persévérance après une recherche infructueuse. Nous introduisons ReZero (Retry-Zero), un nouveau cadre RL qui récompense directement l'acte de réessayer une requête de recherche après une première tentative infructueuse. Cela incite le LLM à explorer des requêtes alternatives plutôt que de s'arrêter prématurément. ReZero démontre une amélioration significative, atteignant une précision de 46,88 % contre un taux de référence de 25 %. En récompensant la persévérance, ReZero renforce la robustesse des LLM dans des scénarios complexes de recherche d'information où les requêtes initiales peuvent s'avérer insuffisantes.
English
Retrieval-Augmented Generation (RAG) improves Large Language Model (LLM)
performance on knowledge-intensive tasks but depends heavily on initial search
query quality. Current methods, often using Reinforcement Learning (RL),
typically focus on query formulation or reasoning over results, without
explicitly encouraging persistence after a failed search. We introduce ReZero
(Retry-Zero), a novel RL framework that directly rewards the act of retrying a
search query following an initial unsuccessful attempt. This incentivizes the
LLM to explore alternative queries rather than prematurely halting. ReZero
demonstrates significant improvement, achieving 46.88% accuracy compared to a
25% baseline. By rewarding persistence, ReZero enhances LLM robustness in
complex information-seeking scenarios where initial queries may prove
insufficient.Summary
AI-Generated Summary