OCC-RAG: Optimaler kognitiver Kern für treue Fragenbeantwortung

Zusammenfassung

Die jüngsten Fortschritte bei der Entwicklung von Sprachmodellen wurden durch die Größe bestimmt, wobei jede Generation mehr Weltwissen in ihre Gewichte aufnimmt. Viele praktische Anwendungen profitieren jedoch mehr von robustem logischem Denken als von umfangreichem parametrischem Wissen. In diesem Zusammenhang stellen aufgabenspezialisierte kleine Sprachmodelle (SLMs) eine prinzipientreue Designentscheidung dar. Wir stellen das Optimal Cognitive Core (OCC) vor, eine Familie von SLMs, die auf dieser Prämisse aufbaut. Als Variante von OCC präsentieren wir OCC-RAG, optimiert für treues Fragenbeantworten (QA), das auf dem bereitgestellten Kontext basiert. Diese Aufgabe steht in direktem Einklang mit dem OCC-Designansatz, da sie mehrschrittiges Schlussfolgern über vorgegebene Textpassagen erfordert, während memoriertes Wissen ignoriert wird. Um OCC-RAG zu trainieren, implementieren wir eine neuartige Pipeline zur Synthese von Multi-Kontext- und Multi-Hop-QA-Daten in großem Maßstab, die einen Korpus von über drei Millionen Beispielen produziert, die auf mehrschrittiges Schlussfolgern, strenge Kontexttreue und kalibrierte Enthaltung abzielen. Wir veröffentlichen OCC-RAG-0.6B und OCC-RAG-1.7B, beide auf diesem Korpus weiter trainiert. Die Modelle erzeugen strukturierte Denkspuren mit Quellenangaben, die auf wörtlichen Zitaten aus dem Kontext basieren. Durch OCC-RAG demonstrieren wir, dass kompakte, aufgabenspezialisierte SLMs mit allgemeinen Modellen, die 2- bis 6-mal so groß sind, bei Benchmarks für mehrschrittiges Schlussfolgern (HotpotQA, MuSiQue, TAT-QA), Treue (ConFiQA) und Antwortverweigerung (MuSiQue-Un) mithalten oder diese übertreffen können.

English

Recent progress in the development of language models has been defined by scale, with each generation absorbing more of the world's knowledge into its weights. However, many practical applications benefit more from robust reasoning than from extensive parametric knowledge. In this setting, task-specialized small language models (SLMs) offer a principled design choice. We introduce Optimal Cognitive Core (OCC), a family of SLMs built around this premise. As a variant of OCC, we present OCC-RAG, optimized for faithful question answering (QA) grounded in the provided context. This task directly aligns with the OCC design approach, requiring multi-hop reasoning over supplied passages while ignoring memorized knowledge. To train OCC-RAG, we implement a novel pipeline for synthesizing multi-context, multi-hop QA data at scale, producing a corpus of over three million examples targeting multi-hop reasoning, strict context faithfulness, and calibrated abstention. We release OCC-RAG-0.6B and OCC-RAG-1.7B, both mid-trained on this corpus. The models produce structured reasoning traces with source citations grounded in literal quotes from the context. Through OCC-RAG, we demonstrate that compact, task-specialized SLMs can match or exceed general-purpose models 2 -- 6x their size across multi-hop reasoning (HotpotQA, MuSiQue, TAT-QA), faithfulness (ConFiQA), and refusal (MuSiQue-Un) benchmarks.