ChatPaper.aiChatPaper

Технический отчет Jan-nano

Jan-nano Technical Report

June 28, 2025
Авторы: Alan Dao, Dinh Bach Vu
cs.AI

Аннотация

Большинство языковых моделей сталкиваются с фундаментальным компромиссом, где мощные возможности требуют значительных вычислительных ресурсов. Мы разрушаем это ограничение с помощью Jan-nano, языковой модели с 4 миллиардами параметров, которая переопределяет эффективность благодаря радикальной специализации: вместо того чтобы пытаться знать всё, она овладевает искусством мгновенного поиска информации. Настроенная на основе Qwen3-4B с использованием нашей инновационной многоэтапной системы RLVR, которая полностью устраняет зависимость от обучения предсказания следующего токена (SFT), Jan-nano достигает 83,2% на бенчмарке SimpleQA с интеграцией MCP, работая на потребительском оборудовании. С длиной контекста в 128 тысяч токенов Jan-nano доказывает, что интеллект заключается не в масштабе, а в стратегии.
English
Most language models face a fundamental tradeoff where powerful capabilities require substantial computational resources. We shatter this constraint with Jan-nano, a 4B parameter language model that redefines efficiency through radical specialization: instead of trying to know everything, it masters the art of finding anything instantly. Fine-tuned from Qwen3-4B using our novel multi-stage RLVR system that completely eliminates reliance on next token prediction training (SFT), Jan-nano achieves 83.2% on SimpleQA benchmark with MCP integration while running on consumer hardware. With 128K context length, Jan-nano proves that intelligence isn't about scale, it's about strategy.
PDF41July 1, 2025