ReZero: Mejorando la capacidad de búsqueda de LLM intentando una vez más
ReZero: Enhancing LLM search ability by trying one-more-time
April 15, 2025
Autores: Alan Dao, Thinh Le
cs.AI
Resumen
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mejora el rendimiento de los Modelos de Lenguaje a Gran Escala (LLM) en tareas intensivas en conocimiento, pero depende en gran medida de la calidad de la consulta de búsqueda inicial. Los métodos actuales, que a menudo utilizan Aprendizaje por Refuerzo (RL), suelen centrarse en la formulación de consultas o el razonamiento sobre los resultados, sin fomentar explícitamente la persistencia tras una búsqueda fallida. Presentamos ReZero (Reintentar-Cero), un novedoso marco de RL que recompensa directamente el acto de reintentar una consulta de búsqueda después de un intento inicial sin éxito. Esto incentiva al LLM a explorar consultas alternativas en lugar de detenerse prematuramente. ReZero demuestra una mejora significativa, alcanzando un 46,88% de precisión en comparación con un 25% de referencia. Al recompensar la persistencia, ReZero aumenta la robustez de los LLM en escenarios complejos de búsqueda de información donde las consultas iniciales pueden resultar insuficientes.
English
Retrieval-Augmented Generation (RAG) improves Large Language Model (LLM)
performance on knowledge-intensive tasks but depends heavily on initial search
query quality. Current methods, often using Reinforcement Learning (RL),
typically focus on query formulation or reasoning over results, without
explicitly encouraging persistence after a failed search. We introduce ReZero
(Retry-Zero), a novel RL framework that directly rewards the act of retrying a
search query following an initial unsuccessful attempt. This incentivizes the
LLM to explore alternative queries rather than prematurely halting. ReZero
demonstrates significant improvement, achieving 46.88% accuracy compared to a
25% baseline. By rewarding persistence, ReZero enhances LLM robustness in
complex information-seeking scenarios where initial queries may prove
insufficient.Summary
AI-Generated Summary