Het oproepen van fijn afgestemde Transformer-mogelijkheden via technieken tijdens inferentie
Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
June 9, 2025
Auteurs: Asankhaya Sharma
cs.AI
Samenvatting
Grote taalmodelen hebben natuurlijke taalverwerking getransformeerd, maar supervised fine-tuning (SFT) blijft rekenintensief. Dit artikel bewijst formeel dat de capaciteiten die via SFT worden verworven, kunnen worden benaderd door een basistransformermodel met behulp van inference-time technieken, specifiek in-context learning (ICL), zonder de modelparameters te wijzigen, onder geïdealiseerde aannames zoals onbeperkte rekenbronnen en toegang tot de fine-tuning dataset. We breiden deze resultaten uit naar praktische scenario's met beperkte contextlengtes en gedeeltelijke datasettoegang. Voor tekstgeneratietaken met een vaste uitvoerlengte l volstaan datasets van grootte Oleft( m V{varepsilon^2} log m{delta} right) of, bij beperkte context, Oleft( l log V{varepsilon^2} log 1{delta} right) om het fine-tuned gedrag te benaderen over m contexten binnen een foutmarge varepsilon, waarbij V de vocabulairegrootte is en delta de faalkans. Voor lineaire classificatie volstaan datasets van grootte Oleft( d{varepsilon} right) of, bij vaste context, Oleft( 1{varepsilon^2} log 1{delta} right), waarbij d de invoerdimensie is. Geworteld in de Turingvolledigheid van transformermodellen, bieden deze resultaten een theoretische basis voor de resource-efficiënte inzet van grote taalmodelen, waarbij praktische technieken zoals retrieval-augmented generation de kloof tussen theorie en real-world toepassingen overbruggen.
English
Large language models have transformed natural language processing, yet
supervised fine-tuning (SFT) remains computationally intensive. This paper
formally proves that capabilities acquired through SFT can be approximated by a
base transformer model using inference-time techniques, specifically in-context
learning (ICL), without altering model parameters, under idealized assumptions
including unbounded computational resources and access to the fine-tuning
dataset. We extend these results to practical scenarios with finite context
lengths and partial dataset access. For text generation tasks with fixed output
length l, datasets of size Oleft( m V{varepsilon^2} log
m{delta} right) or, with bounded context, Oleft( l
log V{varepsilon^2} log 1{delta} right) suffice to approximate
fine-tuned behavior across m contexts within error varepsilon, where V
is the vocabulary size and delta is the failure probability. For linear
classification, datasets of size Oleft( d{varepsilon}
right) or, with fixed context, Oleft( 1{varepsilon^2} log
1{delta} right) are sufficient, where d is the input dimension.
Grounded in the Turing completeness of transformers, these results provide a
theoretical foundation for resource-efficient deployment of large language
models, with practical techniques like retrieval-augmented generation bridging
theory to real-world applications.