OCC-RAG: Núcleo Cognitivo Ótimo para Respostas Fiéis a Perguntas

Resumo

O progresso recente no desenvolvimento de modelos de linguagem tem sido definido pela escala, com cada geração absorvendo mais conhecimento mundial em seus pesos. No entanto, muitas aplicações práticas se beneficiam mais de raciocínio robusto do que de conhecimento paramétrico extenso. Nesse contexto, modelos de linguagem pequenos e especializados em tarefas (SLMs) oferecem uma escolha de design fundamentada. Apresentamos o Optimal Cognitive Core (OCC), uma família de SLMs construída em torno dessa premissa. Como variante do OCC, propomos o OCC-RAG, otimizado para resposta a perguntas (QA) fiel, fundamentada no contexto fornecido. Essa tarefa alinha-se diretamente com a abordagem de design do OCC, exigindo raciocínio de múltiplas etapas sobre passagens fornecidas enquanto ignora conhecimento memorizado. Para treinar o OCC-RAG, implementamos um pipeline inovador para sintetizar dados de QA de múltiplas etapas e múltiplos contextos em escala, produzindo um corpus de mais de três milhões de exemplos voltados para raciocínio de múltiplas etapas, fidelidade estrita ao contexto e abstenção calibrada. Disponibilizamos OCC-RAG-0.6B e OCC-RAG-1.7B, ambos treinados nesse corpus. Os modelos produzem traços de raciocínio estruturados com citações de fontes fundamentadas em citações literais do contexto. Através do OCC-RAG, demonstramos que SLMs compactos e especializados em tarefas podem igualar ou superar modelos de propósito geral de 2 a 6 vezes seu tamanho nos benchmarks de raciocínio de múltiplas etapas (HotpotQA, MuSiQue, TAT-QA), fidelidade (ConFiQA) e recusa (MuSiQue-Un).

English

Recent progress in the development of language models has been defined by scale, with each generation absorbing more of the world's knowledge into its weights. However, many practical applications benefit more from robust reasoning than from extensive parametric knowledge. In this setting, task-specialized small language models (SLMs) offer a principled design choice. We introduce Optimal Cognitive Core (OCC), a family of SLMs built around this premise. As a variant of OCC, we present OCC-RAG, optimized for faithful question answering (QA) grounded in the provided context. This task directly aligns with the OCC design approach, requiring multi-hop reasoning over supplied passages while ignoring memorized knowledge. To train OCC-RAG, we implement a novel pipeline for synthesizing multi-context, multi-hop QA data at scale, producing a corpus of over three million examples targeting multi-hop reasoning, strict context faithfulness, and calibrated abstention. We release OCC-RAG-0.6B and OCC-RAG-1.7B, both mid-trained on this corpus. The models produce structured reasoning traces with source citations grounded in literal quotes from the context. Through OCC-RAG, we demonstrate that compact, task-specialized SLMs can match or exceed general-purpose models 2 -- 6x their size across multi-hop reasoning (HotpotQA, MuSiQue, TAT-QA), faithfulness (ConFiQA), and refusal (MuSiQue-Un) benchmarks.