ChatPaper.aiChatPaper

Informe Técnico Jan-nano

Jan-nano Technical Report

June 28, 2025
Autores: Alan Dao, Dinh Bach Vu
cs.AI

Resumen

La mayoría de los modelos de lenguaje enfrentan una compensación fundamental en la que capacidades potentes requieren recursos computacionales sustanciales. Rompemos esta limitación con Jan-nano, un modelo de lenguaje de 4B parámetros que redefine la eficiencia mediante una especialización radical: en lugar de intentar saberlo todo, domina el arte de encontrar cualquier cosa al instante. Ajustado finamente a partir de Qwen3-4B utilizando nuestro novedoso sistema RLVR de múltiples etapas, que elimina por completo la dependencia del entrenamiento de predicción del siguiente token (SFT), Jan-nano alcanza un 83.2% en el benchmark SimpleQA con integración MCP mientras se ejecuta en hardware de consumo. Con una longitud de contexto de 128K, Jan-nano demuestra que la inteligencia no se trata de escala, sino de estrategia.
English
Most language models face a fundamental tradeoff where powerful capabilities require substantial computational resources. We shatter this constraint with Jan-nano, a 4B parameter language model that redefines efficiency through radical specialization: instead of trying to know everything, it masters the art of finding anything instantly. Fine-tuned from Qwen3-4B using our novel multi-stage RLVR system that completely eliminates reliance on next token prediction training (SFT), Jan-nano achieves 83.2% on SimpleQA benchmark with MCP integration while running on consumer hardware. With 128K context length, Jan-nano proves that intelligence isn't about scale, it's about strategy.
PDF41July 1, 2025