ReZero: Улучшение поисковых способностей больших языковых моделей через подход "попробуй еще раз"

Аннотация

Генерация с использованием поиска (Retrieval-Augmented Generation, RAG) повышает производительность крупных языковых моделей (LLM) в задачах, требующих глубоких знаний, но сильно зависит от качества начального поискового запроса. Современные методы, часто использующие обучение с подкреплением (Reinforcement Learning, RL), обычно сосредоточены на формулировке запросов или анализе результатов, не поощряя явно повторные попытки после неудачного поиска. Мы представляем ReZero (Retry-Zero), новую RL-структуру, которая напрямую вознаграждает повторную попытку поискового запроса после первоначальной неудачи. Это стимулирует LLM исследовать альтернативные запросы вместо преждевременного прекращения поиска. ReZero демонстрирует значительное улучшение, достигая точности 46,88% по сравнению с базовым уровнем в 25%. Поощряя настойчивость, ReZero повышает устойчивость LLM в сложных сценариях поиска информации, где начальные запросы могут оказаться недостаточными.

English

Retrieval-Augmented Generation (RAG) improves Large Language Model (LLM) performance on knowledge-intensive tasks but depends heavily on initial search query quality. Current methods, often using Reinforcement Learning (RL), typically focus on query formulation or reasoning over results, without explicitly encouraging persistence after a failed search. We introduce ReZero (Retry-Zero), a novel RL framework that directly rewards the act of retrying a search query following an initial unsuccessful attempt. This incentivizes the LLM to explore alternative queries rather than prematurely halting. ReZero demonstrates significant improvement, achieving 46.88% accuracy compared to a 25% baseline. By rewarding persistence, ReZero enhances LLM robustness in complex information-seeking scenarios where initial queries may prove insufficient.

ReZero: Улучшение поисковых способностей больших языковых моделей через подход "попробуй еще раз"

ReZero: Enhancing LLM search ability by trying one-more-time

Аннотация

Support