T-pro 2.0: Um Modelo Russo Híbrido de Raciocínio Eficiente e Ambiente de Testes

Resumo

Apresentamos o T-pro 2.0, um LLM russo de pesos abertos para raciocínio híbrido e inferência eficiente. O modelo suporta resposta direta e geração de traços de raciocínio, utilizando um tokenizador denso em cirílico e um *pipeline* adaptado de decodificação especulativa EAGLE para reduzir a latência. Para possibilitar pesquisas reproduzíveis e extensíveis, disponibilizamos publicamente os pesos do modelo, o corpus de instruções T-Wix 500k, o benchmark de raciocínio T-Math e os pesos do EAGLE no Hugging Face. Esses recursos permitem aos usuários estudar o raciocínio em língua russa e estender ou adaptar tanto o modelo quanto o *pipeline* de inferência. Uma demonstração web pública expõe os modos de raciocínio e não raciocínio e ilustra os ganhos de velocidade alcançados pela nossa *stack* de inferência em diversos domínios. O T-pro 2.0 serve, portanto, como um sistema aberto e acessível para construir e avaliar aplicações práticas e eficientes de LLMs russos.

English

We introduce T-pro 2.0, an open-weight Russian LLM for hybrid reasoning and efficient inference. The model supports direct answering and reasoning-trace generation, using a Cyrillic-dense tokenizer and an adapted EAGLE speculative-decoding pipeline to reduce latency. To enable reproducible and extensible research, we release the model weights, the T-Wix 500k instruction corpus, the T-Math reasoning benchmark, and the EAGLE weights on Hugging Face. These resources allow users to study Russian-language reasoning and to extend or adapt both the model and the inference pipeline. A public web demo exposes reasoning and non-reasoning modes and illustrates the speedups achieved by our inference stack across domains. T-pro 2.0 thus serves as an accessible open system for building and evaluating efficient, practical Russian LLM applications.