MinT: Beheerde infrastructuur voor het trainen en serveren van miljoenen LLM's

Samenvatting

We presenteren MindLab Toolkit (MinT), een beheerd infrastructuursysteem voor Low-Rank Adaptation (LoRA) nabewerking en online serveren. MinT richt zich op een situatie waarin veel getrainde beleidspolicies worden geproduceerd over een klein aantal dure basismodelimplementaties. In plaats van elk beleid te materialiseren als een samengevoegde volledige checkpoint, houdt MinT het basismodel resident en verplaatst geëxporteerde LoRA-adapterrevisies door uitrol, bijwerking, export, evaluatie, serveren en terugdraaien, waarbij gedistribueerde training, serveren, planning en gegevensverplaatsing worden verborgen achter een service-interface. MinT schaalt dit pad langs drie assen. Opschalen breidt LoRA RL uit naar geavanceerde dichte en MoE-architecturen, inclusief MLA- en DSA-aandachtspaden, met training en serveren gevalideerd voorbij 1T totale parameters. Aftschalen verplaatst alleen de geëxporteerde LoRA-adapter, die in rang-1-instellingen minder dan 1% van de basismodelgrootte kan bedragen; alleen-adapter-overdracht vermindert de gemeten stap met 18,3x op een 4B dicht model en 2,85x op een 30B MoE, terwijl gelijktijdige multi-policy GRPO de wandkloktijd verkort met 1,77x en 1,45x zonder piekgeheugen te verhogen. Uitschalen scheidt duurzame beleidsadresseerbaarheid van CPU/GPU-werkverzamelingen: een tensorparallelle implementatie ondersteunt adresseerbare catalogi op 10^6-schaal (gemeten enkele-engine doorgangen van 100K) en actieve golven van duizend adapters op clusterniveau, waarbij koude lading wordt behandeld als gepland servicewerk en ingepakte MoE LoRA-tensoren het live-engine laden verbeteren met 8,5-8,7x. MinT beheert zo miljoenschaal LoRA-beleidscatalogi terwijl het geselecteerde adapterrevisies traint en serveert over gedeelde basismodellen van de 1T-klasse.

English

We present MindLab Toolkit (MinT), a managed infrastructure system for Low-Rank Adaptation (LoRA) post-training and online serving. MinT targets a setting where many trained policies are produced over a small number of expensive base-model deployments. Instead of materializing each policy as a merged full checkpoint, MinT keeps the base model resident and moves exported LoRA adapter revisions through rollout, update, export, evaluation, serving, and rollback, hiding distributed training, serving, scheduling, and data movement behind a service interface. MinT scales this path along three axes. Scale Up extends LoRA RL to frontier-scale dense and MoE architectures, including MLA and DSA attention paths, with training and serving validated beyond 1T total parameters. Scale Down moves only the exported LoRA adapter, which can be under 1% of base-model size in rank-1 settings; adapter-only handoff reduces the measured step by 18.3x on a 4B dense model and 2.85x on a 30B MoE, while concurrent multi-policy GRPO shortens wall time by 1.77x and 1.45x without raising peak memory. Scale Out separates durable policy addressability from CPU/GPU working sets: a tensor-parallel deployment supports 10^6-scale addressable catalogs (measured single-engine sweeps through 100K) and thousand-adapter active waves at cluster scale, with cold loading treated as scheduled service work and packed MoE LoRA tensors improving live engine loading by 8.5-8.7x. MinT thus manages million-scale LoRA policy catalogs while training and serving selected adapter revisions over shared 1T-class base models.