Het oproepen van fijn afgestemde Transformer-mogelijkheden via technieken tijdens inferentie

Samenvatting

Grote taalmodelen hebben natuurlijke taalverwerking getransformeerd, maar supervised fine-tuning (SFT) blijft rekenintensief. Dit artikel bewijst formeel dat de capaciteiten die via SFT worden verworven, kunnen worden benaderd door een basistransformermodel met behulp van inference-time technieken, specifiek in-context learning (ICL), zonder de modelparameters te wijzigen, onder geïdealiseerde aannames zoals onbeperkte rekenbronnen en toegang tot de fine-tuning dataset. We breiden deze resultaten uit naar praktische scenario's met beperkte contextlengtes en gedeeltelijke datasettoegang. Voor tekstgeneratietaken met een vaste uitvoerlengte l volstaan datasets van grootte Oleft( m V{varepsilon^2} log m{delta} right) of, bij beperkte context, Oleft( l log V{varepsilon^2} log 1{delta} right) om het fine-tuned gedrag te benaderen over m contexten binnen een foutmarge varepsilon, waarbij V de vocabulairegrootte is en delta de faalkans. Voor lineaire classificatie volstaan datasets van grootte Oleft( d{varepsilon} right) of, bij vaste context, Oleft( 1{varepsilon^2} log 1{delta} right), waarbij d de invoerdimensie is. Geworteld in de Turingvolledigheid van transformermodellen, bieden deze resultaten een theoretische basis voor de resource-efficiënte inzet van grote taalmodelen, waarbij praktische technieken zoals retrieval-augmented generation de kloof tussen theorie en real-world toepassingen overbruggen.

English

Large language models have transformed natural language processing, yet supervised fine-tuning (SFT) remains computationally intensive. This paper formally proves that capabilities acquired through SFT can be approximated by a base transformer model using inference-time techniques, specifically in-context learning (ICL), without altering model parameters, under idealized assumptions including unbounded computational resources and access to the fine-tuning dataset. We extend these results to practical scenarios with finite context lengths and partial dataset access. For text generation tasks with fixed output length l, datasets of size Oleft( m V{varepsilon^2} log m{delta} right) or, with bounded context, Oleft( l log V{varepsilon^2} log 1{delta} right) suffice to approximate fine-tuned behavior across m contexts within error varepsilon, where V is the vocabulary size and delta is the failure probability. For linear classification, datasets of size Oleft( d{varepsilon} right) or, with fixed context, Oleft( 1{varepsilon^2} log 1{delta} right) are sufficient, where d is the input dimension. Grounded in the Turing completeness of transformers, these results provide a theoretical foundation for resource-efficient deployment of large language models, with practical techniques like retrieval-augmented generation bridging theory to real-world applications.

Het oproepen van fijn afgestemde Transformer-mogelijkheden via technieken tijdens inferentie

Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques

Samenvatting

Support