ChatPaper.aiChatPaper

Насколько больше логических рассуждений добавляют модели с расширенным поиском по сравнению с большими языковыми моделями? Система оценки для многозвенных выводов на основе гибридных знаний

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

February 10, 2026
Авторы: Junhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu
cs.AI

Аннотация

Крупные языковые модели (LLM) по-прежнему испытывают трудности с вопросами, требующими обширных знаний, актуальной информации и многошаговых рассуждений. Расширение возможностей LLM за счет гибридных внешних знаний, таких как неструктурированный текст и структурированные графы знаний, представляет собой перспективную альтернативу дорогостоящему непрерывному предварительному обучению. В связи с этим надежная оценка их способностей к извлечению и рассуждению становится критически важной. Однако многие существующие бенчмарки все больше пересекаются с данными предварительного обучения LLM, что означает, что ответы или вспомогательные знания могут быть уже закодированы в параметрах модели, что затрудняет различение подлинного извлечения и рассуждений от запоминания параметров. Мы представляем HybridRAG-Bench — фреймворк для создания бенчмарков, оценивающих интенсивное извлечение и многошаговые рассуждения на основе гибридных знаний. HybridRAG-Bench автоматически объединяет неструктурированный текст и структурированные представления графов знаний, полученные из недавних научных статей на arXiv, и генерирует пары «вопрос-ответ», требующие глубоких знаний и основанные на явных путях рассуждений. Фреймворк поддерживает гибкий выбор предметной области и временного периода, что позволяет проводить настраиваемую оценку с учетом возможного загрязнения данных по мере развития моделей и знаний. Эксперименты в трех областях (искусственный интеллект, государственное управление и политика, а также биоинформатика) показывают, что HybridRAG-Bench поощряет именно подлинное извлечение и рассуждения, а не запоминание параметров, предлагая принципиальную основу для оценки систем рассуждений, усиленных гибридными знаниями. Наш код и данные доступны по адресу github.com/junhongmit/HybridRAG-Bench.
English
Large language models (LLMs) continue to struggle with knowledge-intensive questions that require up-to-date information and multi-hop reasoning. Augmenting LLMs with hybrid external knowledge, such as unstructured text and structured knowledge graphs, offers a promising alternative to costly continual pretraining. As such, reliable evaluation of their retrieval and reasoning capabilities becomes critical. However, many existing benchmarks increasingly overlap with LLM pretraining data, which means answers or supporting knowledge may already be encoded in model parameters, making it difficult to distinguish genuine retrieval and reasoning from parametric recall. We introduce HybridRAG-Bench, a framework for constructing benchmarks to evaluate retrieval-intensive, multi-hop reasoning over hybrid knowledge. HybridRAG-Bench automatically couples unstructured text and structured knowledge graph representations derived from recent scientific literature on arXiv, and generates knowledge-intensive question-answer pairs grounded in explicit reasoning paths. The framework supports flexible domain and time-frame selection, enabling contamination-aware and customizable evaluation as models and knowledge evolve. Experiments across three domains (artificial intelligence, governance and policy, and bioinformatics) demonstrate that HybridRAG-Bench rewards genuine retrieval and reasoning rather than parametric recall, offering a principled testbed for evaluating hybrid knowledge-augmented reasoning systems. We release our code and data at github.com/junhongmit/HybridRAG-Bench.
PDF11February 19, 2026