Informe Técnico Jan-nano

Resumen

La mayoría de los modelos de lenguaje enfrentan una compensación fundamental en la que capacidades potentes requieren recursos computacionales sustanciales. Rompemos esta limitación con Jan-nano, un modelo de lenguaje de 4B parámetros que redefine la eficiencia mediante una especialización radical: en lugar de intentar saberlo todo, domina el arte de encontrar cualquier cosa al instante. Ajustado finamente a partir de Qwen3-4B utilizando nuestro novedoso sistema RLVR de múltiples etapas, que elimina por completo la dependencia del entrenamiento de predicción del siguiente token (SFT), Jan-nano alcanza un 83.2% en el benchmark SimpleQA con integración MCP mientras se ejecuta en hardware de consumo. Con una longitud de contexto de 128K, Jan-nano demuestra que la inteligencia no se trata de escala, sino de estrategia.

English

Most language models face a fundamental tradeoff where powerful capabilities require substantial computational resources. We shatter this constraint with Jan-nano, a 4B parameter language model that redefines efficiency through radical specialization: instead of trying to know everything, it masters the art of finding anything instantly. Fine-tuned from Qwen3-4B using our novel multi-stage RLVR system that completely eliminates reliance on next token prediction training (SFT), Jan-nano achieves 83.2% on SimpleQA benchmark with MCP integration while running on consumer hardware. With 128K context length, Jan-nano proves that intelligence isn't about scale, it's about strategy.

Informe Técnico Jan-nano

Jan-nano Technical Report

Resumen

Support