OCC-RAG: Optimale Cognitieve Kern voor Getrouwe Vraagbeantwoording

Samenvatting

De recente vooruitgang in de ontwikkeling van taalmodellen wordt gekenmerkt door schaalvergroting, waarbij elke generatie meer van de wereldse kennis absorbeert in haar gewichten. Veel praktische toepassingen profiteren echter meer van robuust redeneren dan van uitgebreide parametrische kennis. In deze context bieden taakspecifieke kleine taalmodellen (SLM's) een principiële ontwerpkeuze. We introduceren Optimal Cognitive Core (OCC), een familie van SLM's die op deze premisse is gebouwd. Als variant van OCC presenteren we OCC-RAG, geoptimaliseerd voor getrouwe vraagbeantwoording (QA) die is gebaseerd op de aangeleverde context. Deze taak sluit direct aan bij de OCC-ontwerpbenadering, waarbij meerstapsredenering over aangeleverde passages vereist is, terwijl gememoriseerde kennis wordt genegeerd. Om OCC-RAG te trainen implementeren we een nieuwe pijplijn voor het op schaal synthetiseren van multi-context, multi-hop QA-data, wat een corpus oplevert van meer dan drie miljoen voorbeelden die gericht zijn op meerstapsredenering, strikte contextgetrouwheid en gekalibreerde weigering. We brengen OCC-RAG-0.6B en OCC-RAG-1.7B uit, beide verder getraind op dit corpus. De modellen produceren gestructureerde redeneringsporen met bronvermeldingen die gebaseerd zijn op letterlijke citaten uit de context. Met OCC-RAG tonen we aan dat compacte, taakspecifieke SLM's kunnen wedijveren met of beter kunnen presteren dan algemene modellen die 2 tot 6 keer zo groot zijn, op het gebied van meerstapsredenering (HotpotQA, MuSiQue, TAT-QA), getrouwheid (ConFiQA) en weigering (MuSiQue-Un) benchmarks.

English

Recent progress in the development of language models has been defined by scale, with each generation absorbing more of the world's knowledge into its weights. However, many practical applications benefit more from robust reasoning than from extensive parametric knowledge. In this setting, task-specialized small language models (SLMs) offer a principled design choice. We introduce Optimal Cognitive Core (OCC), a family of SLMs built around this premise. As a variant of OCC, we present OCC-RAG, optimized for faithful question answering (QA) grounded in the provided context. This task directly aligns with the OCC design approach, requiring multi-hop reasoning over supplied passages while ignoring memorized knowledge. To train OCC-RAG, we implement a novel pipeline for synthesizing multi-context, multi-hop QA data at scale, producing a corpus of over three million examples targeting multi-hop reasoning, strict context faithfulness, and calibrated abstention. We release OCC-RAG-0.6B and OCC-RAG-1.7B, both mid-trained on this corpus. The models produce structured reasoning traces with source citations grounded in literal quotes from the context. Through OCC-RAG, we demonstrate that compact, task-specialized SLMs can match or exceed general-purpose models 2 -- 6x their size across multi-hop reasoning (HotpotQA, MuSiQue, TAT-QA), faithfulness (ConFiQA), and refusal (MuSiQue-Un) benchmarks.