Quebra-cabeça: NAS Baseado em Destilação para LLMs Otimizados para Inferência

Resumo

Os modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis, mas sua adoção é limitada pelos altos custos computacionais durante a inferência. Aumentar o número de parâmetros melhora a precisão, porém amplia a lacuna entre as capacidades de ponta e a viabilidade prática. Apresentamos o Puzzle, um framework para acelerar a inferência de LLM em hardware específico, preservando suas capacidades. Através de uma aplicação inovadora de busca de arquitetura neural (NAS) em uma escala sem precedentes, o Puzzle otimiza sistematicamente modelos com dezenas de bilhões de parâmetros sob restrições de hardware. Nosso método utiliza a destilação de conhecimento local em blocos (BLD) para exploração de arquitetura paralela e emprega programação inteira mista para otimização precisa das restrições. Demonstramos o impacto do nosso framework no mundo real através do Nemotron-51B do Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), um modelo disponível publicamente derivado do Llama-3.1-70B-Instruct. O Nemotron-51B alcança um aumento de 2,17 vezes na velocidade de inferência, sendo executado em uma única GPU NVIDIA H100, preservando 98,4% das capacidades do modelo original. O Nemotron-51B atualmente é o modelo de linguagem mais preciso capaz de inferência em uma única GPU com tamanhos de lote grandes. Notavelmente, essa transformação exigiu apenas 45B de tokens de treinamento, em comparação com mais de 15T de tokens usados para o modelo de 70B do qual foi derivado. Isso estabelece um novo paradigma onde modelos poderosos podem ser otimizados para implantação eficiente com apenas comprometimento negligível de suas capacidades, demonstrando que o desempenho de inferência, e não apenas o número de parâmetros, deve guiar a seleção do modelo. Com o lançamento do Nemotron-51B e a apresentação do framework Puzzle, fornecemos aos profissionais acesso imediato às capacidades de modelagem de linguagem de ponta a custos computacionais significativamente reduzidos.

English

Large language models (LLMs) have demonstrated remarkable capabilities, but their adoption is limited by high computational costs during inference. While increasing parameter counts enhances accuracy, it also widens the gap between state-of-the-art capabilities and practical deployability. We present Puzzle, a framework to accelerate LLM inference on specific hardware while preserving their capabilities. Through an innovative application of neural architecture search (NAS) at an unprecedented scale, Puzzle systematically optimizes models with tens of billions of parameters under hardware constraints. Our approach utilizes blockwise local knowledge distillation (BLD) for parallel architecture exploration and employs mixed-integer programming for precise constraint optimization. We demonstrate the real-world impact of our framework through Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), a publicly available model derived from Llama-3.1-70B-Instruct. Nemotron-51B achieves a 2.17x inference throughput speedup, fitting on a single NVIDIA H100 GPU while preserving 98.4% of the original model's capabilities. Nemotron-51B currently stands as the most accurate language model capable of inference on a single GPU with large batch sizes. Remarkably, this transformation required just 45B training tokens, compared to over 15T tokens used for the 70B model it was derived from. This establishes a new paradigm where powerful models can be optimized for efficient deployment with only negligible compromise of their capabilities, demonstrating that inference performance, not parameter count alone, should guide model selection. With the release of Nemotron-51B and the presentation of the Puzzle framework, we provide practitioners immediate access to state-of-the-art language modeling capabilities at significantly reduced computational costs.

Quebra-cabeça: NAS Baseado em Destilação para LLMs Otimizados para Inferência

Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Resumo

Support