Exploitation des capacités des Transformers affinés via des techniques au moment de l'inférence
Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
June 9, 2025
Auteurs: Asankhaya Sharma
cs.AI
Résumé
Les grands modèles de langage ont transformé le traitement du langage naturel, mais l'affinage supervisé (SFT) reste coûteux en calcul. Cet article démontre formellement que les capacités acquises par le SFT peuvent être approximées par un modèle de base de type transformer en utilisant des techniques d'inférence, notamment l'apprentissage en contexte (ICL), sans modifier les paramètres du modèle, sous des hypothèses idéalisées incluant des ressources de calcul illimitées et un accès au jeu de données d'affinage. Nous étendons ces résultats à des scénarios pratiques avec des longueurs de contexte finies et un accès partiel au jeu de données. Pour les tâches de génération de texte avec une longueur de sortie fixe l, des jeux de données de taille Oleft( m V{varepsilon^2} log m{delta} right) ou, avec un contexte borné, Oleft( l log V{varepsilon^2} log 1{delta} right) suffisent à approximer le comportement affiné sur m contextes avec une erreur varepsilon, où V est la taille du vocabulaire et delta est la probabilité d'échec. Pour la classification linéaire, des jeux de données de taille Oleft( d{varepsilon} right) ou, avec un contexte fixe, Oleft( 1{varepsilon^2} log 1{delta} right) sont suffisants, où d est la dimension d'entrée. Ancrés dans la complétude de Turing des transformers, ces résultats fournissent une base théorique pour le déploiement efficace en ressources des grands modèles de langage, avec des techniques pratiques comme la génération augmentée par récupération reliant la théorie aux applications réelles.
English
Large language models have transformed natural language processing, yet
supervised fine-tuning (SFT) remains computationally intensive. This paper
formally proves that capabilities acquired through SFT can be approximated by a
base transformer model using inference-time techniques, specifically in-context
learning (ICL), without altering model parameters, under idealized assumptions
including unbounded computational resources and access to the fine-tuning
dataset. We extend these results to practical scenarios with finite context
lengths and partial dataset access. For text generation tasks with fixed output
length l, datasets of size Oleft( m V{varepsilon^2} log
m{delta} right) or, with bounded context, Oleft( l
log V{varepsilon^2} log 1{delta} right) suffice to approximate
fine-tuned behavior across m contexts within error varepsilon, where V
is the vocabulary size and delta is the failure probability. For linear
classification, datasets of size Oleft( d{varepsilon}
right) or, with fixed context, Oleft( 1{varepsilon^2} log
1{delta} right) are sufficient, where d is the input dimension.
Grounded in the Turing completeness of transformers, these results provide a
theoretical foundation for resource-efficient deployment of large language
models, with practical techniques like retrieval-augmented generation bridging
theory to real-world applications.