Exploitation des capacités des Transformers affinés via des techniques au moment de l'inférence

papers.abstract

Les grands modèles de langage ont transformé le traitement du langage naturel, mais l'affinage supervisé (SFT) reste coûteux en calcul. Cet article démontre formellement que les capacités acquises par le SFT peuvent être approximées par un modèle de base de type transformer en utilisant des techniques d'inférence, notamment l'apprentissage en contexte (ICL), sans modifier les paramètres du modèle, sous des hypothèses idéalisées incluant des ressources de calcul illimitées et un accès au jeu de données d'affinage. Nous étendons ces résultats à des scénarios pratiques avec des longueurs de contexte finies et un accès partiel au jeu de données. Pour les tâches de génération de texte avec une longueur de sortie fixe l, des jeux de données de taille Oleft( m V{varepsilon^2} log m{delta} right) ou, avec un contexte borné, Oleft( l log V{varepsilon^2} log 1{delta} right) suffisent à approximer le comportement affiné sur m contextes avec une erreur varepsilon, où V est la taille du vocabulaire et delta est la probabilité d'échec. Pour la classification linéaire, des jeux de données de taille Oleft( d{varepsilon} right) ou, avec un contexte fixe, Oleft( 1{varepsilon^2} log 1{delta} right) sont suffisants, où d est la dimension d'entrée. Ancrés dans la complétude de Turing des transformers, ces résultats fournissent une base théorique pour le déploiement efficace en ressources des grands modèles de langage, avec des techniques pratiques comme la génération augmentée par récupération reliant la théorie aux applications réelles.

English

Large language models have transformed natural language processing, yet supervised fine-tuning (SFT) remains computationally intensive. This paper formally proves that capabilities acquired through SFT can be approximated by a base transformer model using inference-time techniques, specifically in-context learning (ICL), without altering model parameters, under idealized assumptions including unbounded computational resources and access to the fine-tuning dataset. We extend these results to practical scenarios with finite context lengths and partial dataset access. For text generation tasks with fixed output length l, datasets of size Oleft( m V{varepsilon^2} log m{delta} right) or, with bounded context, Oleft( l log V{varepsilon^2} log 1{delta} right) suffice to approximate fine-tuned behavior across m contexts within error varepsilon, where V is the vocabulary size and delta is the failure probability. For linear classification, datasets of size Oleft( d{varepsilon} right) or, with fixed context, Oleft( 1{varepsilon^2} log 1{delta} right) are sufficient, where d is the input dimension. Grounded in the Turing completeness of transformers, these results provide a theoretical foundation for resource-efficient deployment of large language models, with practical techniques like retrieval-augmented generation bridging theory to real-world applications.

Exploitation des capacités des Transformers affinés via des techniques au moment de l'inférence

Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques

papers.abstract

Support