AceSearcher: Развитие способностей к рассуждению и поиску в больших языковых моделях через усиленное самообучение
AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play
September 29, 2025
Авторы: Ran Xu, Yuchen Zhuang, Zihan Dong, Jonathan Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang
cs.AI
Аннотация
Поисково-усиленные большие языковые модели (LLM) часто испытывают трудности с выполнением сложных задач рассуждения из-за неэффективного многошагового поиска и ограниченных способностей к рассуждению. Мы предлагаем AceSearcher — фреймворк кооперативного самообучения, который обучает одну большую языковую модель (LLM) попеременно выполнять две роли: декомпозитора, который разбивает сложные запросы, и решателя, который интегрирует найденные контексты для генерации ответов. AceSearcher сочетает контролируемую тонкую настройку на разнообразной смеси задач поиска, рассуждения и декомпозиции с тонкой настройкой с подкреплением, оптимизированной для точности конечного ответа, что устраняет необходимость в промежуточных аннотациях. Экстенсивные эксперименты на трех задачах, требующих интенсивного рассуждения, на 10 наборах данных показывают, что AceSearcher превосходит современные базовые модели, достигая среднего улучшения точного совпадения на 7,6%. Примечательно, что на задачах рассуждения на уровне документов в финансовой области AceSearcher-32B демонстрирует производительность, сопоставимую с моделью DeepSeek-V3, используя менее 5% её параметров. Даже на меньших масштабах (1,5B и 8B) AceSearcher часто превосходит существующие поисково-усиленные LLM с до 9 раз большим количеством параметров, подчеркивая его исключительную эффективность и производительность в решении сложных задач рассуждения. Наш код будет опубликован на https://github.com/ritaranx/AceSearcher и https://huggingface.co/AceSearcher.
English
Search-augmented LLMs often struggle with complex reasoning tasks due to
ineffective multi-hop retrieval and limited reasoning ability. We propose
AceSearcher, a cooperative self-play framework that trains a single large
language model (LLM) to alternate between two roles: a decomposer that breaks
down complex queries and a solver that integrates retrieved contexts for answer
generation. AceSearcher couples supervised fine-tuning on a diverse mixture of
search, reasoning, and decomposition tasks with reinforcement fine-tuning
optimized for final answer accuracy, eliminating the need for intermediate
annotations. Extensive experiments on three reasoning-intensive tasks across 10
datasets show that AceSearcher outperforms state-of-the-art baselines,
achieving an average exact match improvement of 7.6%. Remarkably, on
document-level finance reasoning tasks, AceSearcher-32B matches the performance
of the DeepSeek-V3 model using less than 5% of its parameters. Even at smaller
scales (1.5B and 8B), AceSearcher often surpasses existing search-augmented
LLMs with up to 9x more parameters, highlighting its exceptional efficiency and
effectiveness in tackling complex reasoning tasks. Our code will be published
at https://github.com/ritaranx/AceSearcher and
https://huggingface.co/AceSearcher.