MinT: Infraestrutura Gerenciada para Treinar e Servir Milhões de LLMs
MinT: Managed Infrastructure for Training and Serving Millions of LLMs
May 13, 2026
Autores: Mind Lab, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan, Hera Feng, Huan Feng, Arthur Fu, Jun Gao, Hongquan Gu, Aaron Guan, Nolan Ho, Mutian Hong, Hailee Hou, Peixuan Hua, Charles Huang, Miles Jiang, Nora Jiang, Yuyi Jiang, Qiuyu Jin, Fancy Kong, Andrew Lei, Kyrie Lei, Alexy Li, Lucian Li, Ray Li, Theo Li, Zhihui Li, Jiayi Lin, Kairus Liu, Kieran Liu, Logan Liu, Xiang Liu, Irvine Lu, Maeve Luo, Runze Lv, Pony Ma, Verity Niu, Anson Qiu, Vincent Wang, Rio Yang, Maxwell Yao, Carrie Ye, Regis Ye, Wenlin Ye, Josh Ying, Danney Zeng, Yuhan Zhan, Anya Zhang, Di Zhang, Ruijia Zhang, Sueky Zhang, Ya Zhang, Wei Zhao, Ada Zhou, Changhai Zhou, Yuhua Zhou, Xinyue Zhu, Murphy Zhuang
cs.AI
Resumo
Apresentamos o MindLab Toolkit (MinT), um sistema de infraestrutura gerenciada para pós-treinamento e inferência online com Adaptação de Baixo Posto (LoRA). O MinT tem como alvo um cenário no qual muitas políticas treinadas são produzidas sobre um pequeno número de implantações caras de modelo base. Em vez de materializar cada política como um checkpoint completo fundido, o MinT mantém o modelo base residente e move as revisões de adaptador LoRA exportadas por meio de rollout, atualização, exportação, avaliação, inferência e reversão, ocultando treinamento distribuído, inferência, escalonamento e movimentação de dados por trás de uma interface de serviço. O MinT escala esse caminho ao longo de três eixos. O *Scale Up* estende o RL (aprendizado por reforço) com LoRA para arquiteturas densas e MoE de escala de fronteira, incluindo caminhos de atenção MLA e DSA, com treinamento e inferência validados além de 1T de parâmetros totais. O *Scale Down* move apenas o adaptador LoRA exportado, que pode ser inferior a 1% do tamanho do modelo base em configurações de posto 1; a transferência apenas do adaptador reduz o passo medido em 18,3x em um modelo denso de 4B e 2,85x em um MoE de 30B, enquanto o GRPO concorrente com múltiplas políticas encurta o tempo de parede em 1,77x e 1,45x sem aumentar o pico de memória. O *Scale Out* separa a endereçabilidade duradoura de políticas dos conjuntos de trabalho CPU/GPU: uma implantação paralela de tensores suporta catálogos endereçáveis na escala de 10^6 (varreduras de motor único medidas através de 100K) e ondas ativas de milhares de adaptadores em escala de cluster, com carregamento a frio tratado como trabalho de serviço agendado e tensores LoRA MoE compactados melhorando o carregamento do motor ativo em 8,5–8,7x. Assim, o MinT gerencia catálogos de políticas LoRA em escala de milhões enquanto treina e serve revisões de adaptadores selecionados sobre modelos base compartilhados da classe 1T.
English
We present MindLab Toolkit (MinT), a managed infrastructure system for Low-Rank Adaptation (LoRA) post-training and online serving. MinT targets a setting where many trained policies are produced over a small number of expensive base-model deployments. Instead of materializing each policy as a merged full checkpoint, MinT keeps the base model resident and moves exported LoRA adapter revisions through rollout, update, export, evaluation, serving, and rollback, hiding distributed training, serving, scheduling, and data movement behind a service interface. MinT scales this path along three axes. Scale Up extends LoRA RL to frontier-scale dense and MoE architectures, including MLA and DSA attention paths, with training and serving validated beyond 1T total parameters. Scale Down moves only the exported LoRA adapter, which can be under 1% of base-model size in rank-1 settings; adapter-only handoff reduces the measured step by 18.3x on a 4B dense model and 2.85x on a 30B MoE, while concurrent multi-policy GRPO shortens wall time by 1.77x and 1.45x without raising peak memory. Scale Out separates durable policy addressability from CPU/GPU working sets: a tensor-parallel deployment supports 10^6-scale addressable catalogs (measured single-engine sweeps through 100K) and thousand-adapter active waves at cluster scale, with cold loading treated as scheduled service work and packed MoE LoRA tensors improving live engine loading by 8.5-8.7x. MinT thus manages million-scale LoRA policy catalogs while training and serving selected adapter revisions over shared 1T-class base models.