OCC-RAG: Núcleo Cognitivo Óptimo para Respuesta Fiel a Preguntas

Resumen

El progreso reciente en el desarrollo de modelos de lenguaje ha estado definido por la escala, donde cada generación incorpora más conocimiento del mundo en sus pesos. Sin embargo, muchas aplicaciones prácticas se benefician más de un razonamiento sólido que de un conocimiento paramétrico extenso. En este contexto, los modelos de lenguaje pequeños (SLMs) especializados en tareas ofrecen una opción de diseño fundamentada. Presentamos el Núcleo Cognitivo Óptimo (OCC), una familia de SLMs construida sobre esta premisa. Como variante de OCC, presentamos OCC-RAG, optimizado para la respuesta fiel a preguntas (QA) basada en el contexto proporcionado. Esta tarea se alinea directamente con el enfoque de diseño de OCC, ya que requiere razonamiento de múltiples pasos sobre pasajes suministrados, ignorando el conocimiento memorizado. Para entrenar OCC-RAG, implementamos un novedoso pipeline para sintetizar datos de QA de múltiples contextos y múltiples pasos a escala, produciendo un corpus de más de tres millones de ejemplos centrados en el razonamiento de múltiples pasos, la fidelidad estricta al contexto y la abstención calibrada. Publicamos OCC-RAG-0.6B y OCC-RAG-1.7B, ambos entrenados de forma intermedia en este corpus. Los modelos generan trazas de razonamiento estructuradas con citas de fuentes basadas en citas textuales del contexto. A través de OCC-RAG, demostramos que los SLMs compactos y especializados en tareas pueden igualar o superar a modelos de propósito general de 2 a 6 veces su tamaño en evaluaciones de razonamiento de múltiples pasos (HotpotQA, MuSiQue, TAT-QA), fidelidad (ConFiQA) y rechazo (MuSiQue-Un).

English

Recent progress in the development of language models has been defined by scale, with each generation absorbing more of the world's knowledge into its weights. However, many practical applications benefit more from robust reasoning than from extensive parametric knowledge. In this setting, task-specialized small language models (SLMs) offer a principled design choice. We introduce Optimal Cognitive Core (OCC), a family of SLMs built around this premise. As a variant of OCC, we present OCC-RAG, optimized for faithful question answering (QA) grounded in the provided context. This task directly aligns with the OCC design approach, requiring multi-hop reasoning over supplied passages while ignoring memorized knowledge. To train OCC-RAG, we implement a novel pipeline for synthesizing multi-context, multi-hop QA data at scale, producing a corpus of over three million examples targeting multi-hop reasoning, strict context faithfulness, and calibrated abstention. We release OCC-RAG-0.6B and OCC-RAG-1.7B, both mid-trained on this corpus. The models produce structured reasoning traces with source citations grounded in literal quotes from the context. Through OCC-RAG, we demonstrate that compact, task-specialized SLMs can match or exceed general-purpose models 2 -- 6x their size across multi-hop reasoning (HotpotQA, MuSiQue, TAT-QA), faithfulness (ConFiQA), and refusal (MuSiQue-Un) benchmarks.