Elicitare le capacità dei Transformer ottimizzati mediante tecniche di inferenza
Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
June 9, 2025
Autori: Asankhaya Sharma
cs.AI
Abstract
I grandi modelli linguistici hanno rivoluzionato l'elaborazione del linguaggio naturale, tuttavia il fine-tuning supervisionato (SFT) rimane computazionalmente intensivo. Questo articolo dimostra formalmente che le capacità acquisite attraverso l'SFT possono essere approssimate da un modello trasformatore di base utilizzando tecniche di inferenza, in particolare l'apprendimento in contesto (ICL), senza modificare i parametri del modello, sotto ipotesi idealizzate che includono risorse computazionali illimitate e accesso al dataset di fine-tuning. Estendiamo questi risultati a scenari pratici con lunghezze di contesto finite e accesso parziale al dataset. Per compiti di generazione di testo con lunghezza di output fissa l, dataset di dimensione \( O\left( \frac{m}{\varepsilon^2} \log \frac{m}{\delta} \right) \) o, con contesto limitato, \( O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right) \) sono sufficienti per approssimare il comportamento fine-tuned su m contesti con un errore \(\varepsilon\), dove \( V \) è la dimensione del vocabolario e \(\delta\) è la probabilità di fallimento. Per la classificazione lineare, dataset di dimensione \( O\left( \frac{d}{\varepsilon} \right) \) o, con contesto fisso, \( O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right) \) sono sufficienti, dove \( d \) è la dimensione dell'input. Basandosi sulla completezza di Turing dei trasformatori, questi risultati forniscono una fondazione teorica per il dispiegamento efficiente delle risorse dei grandi modelli linguistici, con tecniche pratiche come la generazione aumentata dal recupero che collegano la teoria alle applicazioni nel mondo reale.
English
Large language models have transformed natural language processing, yet
supervised fine-tuning (SFT) remains computationally intensive. This paper
formally proves that capabilities acquired through SFT can be approximated by a
base transformer model using inference-time techniques, specifically in-context
learning (ICL), without altering model parameters, under idealized assumptions
including unbounded computational resources and access to the fine-tuning
dataset. We extend these results to practical scenarios with finite context
lengths and partial dataset access. For text generation tasks with fixed output
length l, datasets of size Oleft( m V{varepsilon^2} log
m{delta} right) or, with bounded context, Oleft( l
log V{varepsilon^2} log 1{delta} right) suffice to approximate
fine-tuned behavior across m contexts within error varepsilon, where V
is the vocabulary size and delta is the failure probability. For linear
classification, datasets of size Oleft( d{varepsilon}
right) or, with fixed context, Oleft( 1{varepsilon^2} log
1{delta} right) are sufficient, where d is the input dimension.
Grounded in the Turing completeness of transformers, these results provide a
theoretical foundation for resource-efficient deployment of large language
models, with practical techniques like retrieval-augmented generation bridging
theory to real-world applications.