OCC-RAG : Noyau Cognitif Optimal pour une Réponse Fidèle aux Questions

Résumé

Les progrès récents dans le développement des modèles de langage ont été marqués par l'échelle, chaque génération absorbant une part croissante des connaissances mondiales dans ses poids. Cependant, de nombreuses applications pratiques bénéficient davantage d’un raisonnement robuste que d’une connaissance paramétrique extensive. Dans ce contexte, les petits modèles de langage spécialisés dans une tâche (SLMs) constituent un choix de conception pertinent. Nous introduisons le Noyau Cognitif Optimal (Optimal Cognitive Core, OCC), une famille de SLMs construite autour de ce principe. Sous une variante de l’OCC, nous présentons OCC-RAG, optimisé pour répondre fidèlement aux questions en s’appuyant sur le contexte fourni. Cette tâche s’aligne directement avec l’approche de conception d’OCC, nécessitant un raisonnement multi-étapes sur des passages donnés tout en ignorant les connaissances mémorisées. Pour entraîner OCC-RAG, nous mettons en œuvre un nouveau pipeline de synthèse de données de questions-réponses multi-étapes et multi-contextes à grande échelle, produisant un corpus de plus de trois millions d’exemples ciblant le raisonnement multi-étapes, la fidélité stricte au contexte et une abstention calibrée. Nous publions OCC-RAG-0.6B et OCC-RAG-1.7B, tous deux pré-entraînés sur ce corpus. Les modèles génèrent des traces de raisonnement structurées avec des citations de sources ancrées dans des citations littérales du contexte. À travers OCC-RAG, nous démontrons que des petits modèles de langage compacts et spécialisés peuvent égaler ou surpasser des modèles à usage général de taille 2 à 6 fois supérieure sur des benchmarks de raisonnement multi-étapes (HotpotQA, MuSiQue, TAT-QA), de fidélité (ConFiQA) et de refus (MuSiQue-Un).

English

Recent progress in the development of language models has been defined by scale, with each generation absorbing more of the world's knowledge into its weights. However, many practical applications benefit more from robust reasoning than from extensive parametric knowledge. In this setting, task-specialized small language models (SLMs) offer a principled design choice. We introduce Optimal Cognitive Core (OCC), a family of SLMs built around this premise. As a variant of OCC, we present OCC-RAG, optimized for faithful question answering (QA) grounded in the provided context. This task directly aligns with the OCC design approach, requiring multi-hop reasoning over supplied passages while ignoring memorized knowledge. To train OCC-RAG, we implement a novel pipeline for synthesizing multi-context, multi-hop QA data at scale, producing a corpus of over three million examples targeting multi-hop reasoning, strict context faithfulness, and calibrated abstention. We release OCC-RAG-0.6B and OCC-RAG-1.7B, both mid-trained on this corpus. The models produce structured reasoning traces with source citations grounded in literal quotes from the context. Through OCC-RAG, we demonstrate that compact, task-specialized SLMs can match or exceed general-purpose models 2 -- 6x their size across multi-hop reasoning (HotpotQA, MuSiQue, TAT-QA), faithfulness (ConFiQA), and refusal (MuSiQue-Un) benchmarks.