Выявление возможностей тонко настроенных трансформаторов с использованием методов на этапе вывода

Аннотация

Крупные языковые модели произвели революцию в обработке естественного языка, однако обучение с учителем (supervised fine-tuning, SFT) остается вычислительно затратным. В данной работе формально доказывается, что способности, приобретенные с помощью SFT, могут быть аппроксимированы базовой трансформерной моделью с использованием методов вывода, в частности, обучения в контексте (in-context learning, ICL), без изменения параметров модели, при идеализированных предположениях, включая неограниченные вычислительные ресурсы и доступ к набору данных для тонкой настройки. Мы расширяем эти результаты на практические сценарии с ограниченной длиной контекста и частичным доступом к данным. Для задач генерации текста с фиксированной длиной вывода l достаточно наборов данных размером \(O\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right)\) или, при ограниченном контексте, \(O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right)\), чтобы аппроксимировать поведение тонко настроенной модели для m контекстов с ошибкой \(\varepsilon\), где V — размер словаря, а \(\delta\) — вероятность ошибки. Для линейной классификации достаточно наборов данных размером \(O\left( \frac{d}{\varepsilon} \right)\) или, при фиксированном контексте, \(O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right)\), где d — размерность входных данных. Основываясь на тьюринг-полноте трансформеров, эти результаты предоставляют теоретическую основу для ресурсоэффективного развертывания крупных языковых моделей, а практические методы, такие как генерация с использованием извлечения данных, связывают теорию с реальными приложениями.

English

Large language models have transformed natural language processing, yet supervised fine-tuning (SFT) remains computationally intensive. This paper formally proves that capabilities acquired through SFT can be approximated by a base transformer model using inference-time techniques, specifically in-context learning (ICL), without altering model parameters, under idealized assumptions including unbounded computational resources and access to the fine-tuning dataset. We extend these results to practical scenarios with finite context lengths and partial dataset access. For text generation tasks with fixed output length l, datasets of size Oleft( m V{varepsilon^2} log m{delta} right) or, with bounded context, Oleft( l log V{varepsilon^2} log 1{delta} right) suffice to approximate fine-tuned behavior across m contexts within error varepsilon, where V is the vocabulary size and delta is the failure probability. For linear classification, datasets of size Oleft( d{varepsilon} right) or, with fixed context, Oleft( 1{varepsilon^2} log 1{delta} right) are sufficient, where d is the input dimension. Grounded in the Turing completeness of transformers, these results provide a theoretical foundation for resource-efficient deployment of large language models, with practical techniques like retrieval-augmented generation bridging theory to real-world applications.

Выявление возможностей тонко настроенных трансформаторов с использованием методов на этапе вывода

Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques

Аннотация

Support