OCC-RAG: Оптимальное когнитивное ядро для достоверного отвечания на вопросы

Аннотация

Последние достижения в разработке языковых моделей определялись масштабом, при этом каждое новое поколение вбирало в свои веса всё больше знаний о мире. Однако многие практические приложения выигрывают больше от надежного рассуждения, чем от обширных параметрических знаний. В этом контексте специализированные малые языковые модели (SLM) представляют собой принципиальный выбор архитектуры. Мы представляем Optimal Cognitive Core (OCC) — семейство SLM, построенное на этой предпосылке. В качестве варианта OCC мы представляем OCC-RAG, оптимизированный для достоверного отвечания на вопросы (QA), основанного на предоставленном контексте. Эта задача напрямую согласуется с подходом OCC, требуя многошагового рассуждения по предоставленным отрывкам при игнорировании запомненных знаний. Для обучения OCC-RAG мы реализуем новый конвейер синтеза многосложных, многошаговых данных QA в масштабе, создавая корпус из более чем трех миллионов примеров, нацеленных на многошаговое рассуждение, строгую верность контексту и калиброванное воздержание от ответа. Мы выпускаем OCC-RAG-0.6B и OCC-RAG-1.7B, обе модели дообучены на этом корпусе. Модели генерируют структурированные цепочки рассуждений с цитированием источников, основанных на дословных цитатах из контекста. На примере OCC-RAG мы демонстрируем, что компактные специализированные SLM могут сравниться или превзойти универсальные модели, в 2–6 раз превышающие их по размеру, на бенчмарках многошагового рассуждения (HotpotQA, MuSiQue, TAT-QA), верности контексту (ConFiQA) и отказа от ответа (MuSiQue-Un).

English

Recent progress in the development of language models has been defined by scale, with each generation absorbing more of the world's knowledge into its weights. However, many practical applications benefit more from robust reasoning than from extensive parametric knowledge. In this setting, task-specialized small language models (SLMs) offer a principled design choice. We introduce Optimal Cognitive Core (OCC), a family of SLMs built around this premise. As a variant of OCC, we present OCC-RAG, optimized for faithful question answering (QA) grounded in the provided context. This task directly aligns with the OCC design approach, requiring multi-hop reasoning over supplied passages while ignoring memorized knowledge. To train OCC-RAG, we implement a novel pipeline for synthesizing multi-context, multi-hop QA data at scale, producing a corpus of over three million examples targeting multi-hop reasoning, strict context faithfulness, and calibrated abstention. We release OCC-RAG-0.6B and OCC-RAG-1.7B, both mid-trained on this corpus. The models produce structured reasoning traces with source citations grounded in literal quotes from the context. Through OCC-RAG, we demonstrate that compact, task-specialized SLMs can match or exceed general-purpose models 2 -- 6x their size across multi-hop reasoning (HotpotQA, MuSiQue, TAT-QA), faithfulness (ConFiQA), and refusal (MuSiQue-Un) benchmarks.