Erschließung der Fähigkeiten feinabgestimmter Transformer durch Inferenzzeit-Techniken
Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
June 9, 2025
Autoren: Asankhaya Sharma
cs.AI
Zusammenfassung
Große Sprachmodelle haben die natürliche Sprachverarbeitung revolutioniert, doch das überwachte Feinabstimmen (Supervised Fine-Tuning, SFT) bleibt rechenintensiv. Diese Arbeit beweist formal, dass die durch SFT erworbenen Fähigkeiten durch ein Basistransformermodell mit Inferenzzeit-Techniken, insbesondere In-Context-Lernen (In-Context Learning, ICL), ohne Änderung der Modellparameter unter idealisierten Annahmen, einschließlich unbegrenzter Rechenressourcen und Zugriff auf den Feinabstimmungsdatensatz, approximiert werden können. Wir erweitern diese Ergebnisse auf praktische Szenarien mit begrenzten Kontextlängen und teilweisem Zugriff auf den Datensatz. Für Textgenerierungsaufgaben mit fester Ausgabelänge l genügen Datensätze der Größe \(O\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right)\) oder, bei begrenztem Kontext, \(O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right)\), um das feinabgestimmte Verhalten über m Kontexte innerhalb eines Fehlers \(\varepsilon\) zu approximieren, wobei V die Vokabulargröße und \(\delta\) die Ausfallwahrscheinlichkeit ist. Für lineare Klassifikation genügen Datensätze der Größe \(O\left( \frac{d}{\varepsilon} \right)\) oder, bei festem Kontext, \(O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right)\), wobei d die Eingabedimension ist. Basierend auf der Turing-Vollständigkeit von Transformern bieten diese Ergebnisse eine theoretische Grundlage für den ressourceneffizienten Einsatz großer Sprachmodelle, wobei praktische Techniken wie retrieval-augmented generation die Brücke von der Theorie zu realen Anwendungen schlagen.
English
Large language models have transformed natural language processing, yet
supervised fine-tuning (SFT) remains computationally intensive. This paper
formally proves that capabilities acquired through SFT can be approximated by a
base transformer model using inference-time techniques, specifically in-context
learning (ICL), without altering model parameters, under idealized assumptions
including unbounded computational resources and access to the fine-tuning
dataset. We extend these results to practical scenarios with finite context
lengths and partial dataset access. For text generation tasks with fixed output
length l, datasets of size Oleft( m V{varepsilon^2} log
m{delta} right) or, with bounded context, Oleft( l
log V{varepsilon^2} log 1{delta} right) suffice to approximate
fine-tuned behavior across m contexts within error varepsilon, where V
is the vocabulary size and delta is the failure probability. For linear
classification, datasets of size Oleft( d{varepsilon}
right) or, with fixed context, Oleft( 1{varepsilon^2} log
1{delta} right) are sufficient, where d is the input dimension.
Grounded in the Turing completeness of transformers, these results provide a
theoretical foundation for resource-efficient deployment of large language
models, with practical techniques like retrieval-augmented generation bridging
theory to real-world applications.