Выявление возможностей тонко настроенных трансформаторов с использованием методов на этапе вывода
Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
June 9, 2025
Авторы: Asankhaya Sharma
cs.AI
Аннотация
Крупные языковые модели произвели революцию в обработке естественного языка, однако обучение с учителем (supervised fine-tuning, SFT) остается вычислительно затратным. В данной работе формально доказывается, что способности, приобретенные с помощью SFT, могут быть аппроксимированы базовой трансформерной моделью с использованием методов вывода, в частности, обучения в контексте (in-context learning, ICL), без изменения параметров модели, при идеализированных предположениях, включая неограниченные вычислительные ресурсы и доступ к набору данных для тонкой настройки. Мы расширяем эти результаты на практические сценарии с ограниченной длиной контекста и частичным доступом к данным. Для задач генерации текста с фиксированной длиной вывода l достаточно наборов данных размером \(O\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right)\) или, при ограниченном контексте, \(O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right)\), чтобы аппроксимировать поведение тонко настроенной модели для m контекстов с ошибкой \(\varepsilon\), где V — размер словаря, а \(\delta\) — вероятность ошибки. Для линейной классификации достаточно наборов данных размером \(O\left( \frac{d}{\varepsilon} \right)\) или, при фиксированном контексте, \(O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right)\), где d — размерность входных данных. Основываясь на тьюринг-полноте трансформеров, эти результаты предоставляют теоретическую основу для ресурсоэффективного развертывания крупных языковых моделей, а практические методы, такие как генерация с использованием извлечения данных, связывают теорию с реальными приложениями.
English
Large language models have transformed natural language processing, yet
supervised fine-tuning (SFT) remains computationally intensive. This paper
formally proves that capabilities acquired through SFT can be approximated by a
base transformer model using inference-time techniques, specifically in-context
learning (ICL), without altering model parameters, under idealized assumptions
including unbounded computational resources and access to the fine-tuning
dataset. We extend these results to practical scenarios with finite context
lengths and partial dataset access. For text generation tasks with fixed output
length l, datasets of size Oleft( m V{varepsilon^2} log
m{delta} right) or, with bounded context, Oleft( l
log V{varepsilon^2} log 1{delta} right) suffice to approximate
fine-tuned behavior across m contexts within error varepsilon, where V
is the vocabulary size and delta is the failure probability. For linear
classification, datasets of size Oleft( d{varepsilon}
right) or, with fixed context, Oleft( 1{varepsilon^2} log
1{delta} right) are sufficient, where d is the input dimension.
Grounded in the Turing completeness of transformers, these results provide a
theoretical foundation for resource-efficient deployment of large language
models, with practical techniques like retrieval-augmented generation bridging
theory to real-world applications.