COSMOS: Vorhersehbare und kosteneffiziente Anpassung von LLMs

Zusammenfassung

Große Sprachmodelle (LLMs) erzielen bemerkenswerte Leistungen in zahlreichen Aufgaben durch den Einsatz einer Vielzahl von Adaptionsstrategien. Die optimale Auswahl eines Modells und einer Adaptionsstrategie unter Ressourcenbeschränkungen ist jedoch herausfordernd und erfordert oft umfangreiche Experimente. Wir untersuchen, ob es möglich ist, sowohl die Leistung als auch die Kosten genau vorherzusagen, ohne kostspielige Versuche durchzuführen. Wir formalisieren das Problem der Strategieauswahl für LLMs und führen COSMOS ein, ein einheitliches Vorhersageframework, das die Ergebnisse von Adaptionen effizient und mit minimalem Aufwand schätzt. Wir instanziieren und untersuchen die Fähigkeiten unseres Frameworks anhand zweier leistungsstarker Vorhersagemodelle: embedding-augmentierte, leichtgewichtige Proxy-Modelle zur Vorhersage der Feinabstimmungsleistung und Skalierungsgesetze mit geringer Stichprobenanzahl zur Prognose des retrieval-augmentierten In-Context-Lernens. Eine umfassende Bewertung über acht repräsentative Benchmarks zeigt, dass COSMOS eine hohe Vorhersagegenauigkeit erreicht und dabei die Rechenkosten im Durchschnitt um 92,72 % und in ressourcenintensiven Szenarien sogar um bis zu 98,71 % reduziert. Unsere Ergebnisse zeigen, dass eine effiziente Vorhersage von Adaptionsergebnissen nicht nur machbar ist, sondern den Rechenaufwand für den Einsatz von LLMs erheblich verringern kann, während die Leistungsstandards erhalten bleiben.

English

Large language models (LLMs) achieve remarkable performance across numerous tasks by using a diverse array of adaptation strategies. However, optimally selecting a model and adaptation strategy under resource constraints is challenging and often requires extensive experimentation. We investigate whether it is possible to accurately predict both performance and cost without expensive trials. We formalize the strategy selection problem for LLMs and introduce COSMOS, a unified prediction framework that efficiently estimates adaptation outcomes at minimal cost. We instantiate and study the capability of our framework via a pair of powerful predictors: embedding-augmented lightweight proxy models to predict fine-tuning performance, and low-sample scaling laws to forecast retrieval-augmented in-context learning. Extensive evaluation across eight representative benchmarks demonstrates that COSMOS achieves high prediction accuracy while reducing computational costs by 92.72% on average, and up to 98.71% in resource-intensive scenarios. Our results show that efficient prediction of adaptation outcomes is not only feasible but can substantially reduce the computational overhead of LLM deployment while maintaining performance standards.

COSMOS: Vorhersehbare und kosteneffiziente Anpassung von LLMs

COSMOS: Predictable and Cost-Effective Adaptation of LLMs

Zusammenfassung

Support