COSMOS: Adaptação Previsível e Custo-Eficiente de LLMs
COSMOS: Predictable and Cost-Effective Adaptation of LLMs
April 30, 2025
Autores: Jiayu Wang, Aws Albarghouthi, Frederic Sala
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) alcançam desempenho notável em diversas tarefas ao utilizar uma ampla gama de estratégias de adaptação. No entanto, selecionar de forma ideal um modelo e uma estratégia de adaptação sob restrições de recursos é desafiador e frequentemente requer experimentação extensiva. Investigamos se é possível prever com precisão tanto o desempenho quanto o custo sem a necessidade de testes dispendiosos. Formalizamos o problema de seleção de estratégias para LLMs e introduzimos o COSMOS, uma estrutura de predição unificada que estima eficientemente os resultados de adaptação com custo mínimo. Instanciamos e estudamos a capacidade de nossa estrutura por meio de um par de preditores poderosos: modelos proxy leves aumentados por embeddings para prever o desempenho de ajuste fino, e leis de escalonamento de baixa amostragem para prever o aprendizado contextual aumentado por recuperação. Uma avaliação extensa em oito benchmarks representativos demonstra que o COSMOS alcança alta precisão de predição enquanto reduz os custos computacionais em 92,72% em média, e até 98,71% em cenários intensivos em recursos. Nossos resultados mostram que a predição eficiente dos resultados de adaptação não só é viável, mas pode reduzir substancialmente a sobrecarga computacional da implantação de LLMs, mantendo os padrões de desempenho.
English
Large language models (LLMs) achieve remarkable performance across numerous
tasks by using a diverse array of adaptation strategies. However, optimally
selecting a model and adaptation strategy under resource constraints is
challenging and often requires extensive experimentation. We investigate
whether it is possible to accurately predict both performance and cost without
expensive trials. We formalize the strategy selection problem for LLMs and
introduce COSMOS, a unified prediction framework that efficiently estimates
adaptation outcomes at minimal cost. We instantiate and study the capability of
our framework via a pair of powerful predictors: embedding-augmented
lightweight proxy models to predict fine-tuning performance, and low-sample
scaling laws to forecast retrieval-augmented in-context learning. Extensive
evaluation across eight representative benchmarks demonstrates that COSMOS
achieves high prediction accuracy while reducing computational costs by 92.72%
on average, and up to 98.71% in resource-intensive scenarios. Our results show
that efficient prediction of adaptation outcomes is not only feasible but can
substantially reduce the computational overhead of LLM deployment while
maintaining performance standards.