Informe Técnico Jan-nano
Jan-nano Technical Report
June 28, 2025
Autores: Alan Dao, Dinh Bach Vu
cs.AI
Resumen
La mayoría de los modelos de lenguaje enfrentan una compensación fundamental en la que capacidades potentes requieren recursos computacionales sustanciales. Rompemos esta limitación con Jan-nano, un modelo de lenguaje de 4B parámetros que redefine la eficiencia mediante una especialización radical: en lugar de intentar saberlo todo, domina el arte de encontrar cualquier cosa al instante. Ajustado finamente a partir de Qwen3-4B utilizando nuestro novedoso sistema RLVR de múltiples etapas, que elimina por completo la dependencia del entrenamiento de predicción del siguiente token (SFT), Jan-nano alcanza un 83.2% en el benchmark SimpleQA con integración MCP mientras se ejecuta en hardware de consumo. Con una longitud de contexto de 128K, Jan-nano demuestra que la inteligencia no se trata de escala, sino de estrategia.
English
Most language models face a fundamental tradeoff where powerful capabilities
require substantial computational resources. We shatter this constraint with
Jan-nano, a 4B parameter language model that redefines efficiency through
radical specialization: instead of trying to know everything, it masters the
art of finding anything instantly. Fine-tuned from Qwen3-4B using our novel
multi-stage RLVR system that completely eliminates reliance on next token
prediction training (SFT), Jan-nano achieves 83.2% on SimpleQA benchmark with
MCP integration while running on consumer hardware. With 128K context length,
Jan-nano proves that intelligence isn't about scale, it's about strategy.