Extraindo Capacidades de Transformadores Ajustados Fino por Meio de Técnicas em Tempo de Inferência
Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques
June 9, 2025
Autores: Asankhaya Sharma
cs.AI
Resumo
Modelos de linguagem de grande escala transformaram o processamento de linguagem natural, mas o ajuste fino supervisionado (SFT) continua sendo computacionalmente intensivo. Este artigo prova formalmente que as capacidades adquiridas por meio do SFT podem ser aproximadas por um modelo base de transformadores usando técnicas de inferência, especificamente o aprendizado em contexto (ICL), sem alterar os parâmetros do modelo, sob suposições idealizadas, incluindo recursos computacionais ilimitados e acesso ao conjunto de dados de ajuste fino. Estendemos esses resultados para cenários práticos com comprimentos de contexto finitos e acesso parcial ao conjunto de dados. Para tarefas de geração de texto com comprimento de saída fixo l, conjuntos de dados de tamanho \( O\left( \frac{m V}{\varepsilon^2} \log \frac{m}{\delta} \right) \) ou, com contexto limitado, \( O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right) \) são suficientes para aproximar o comportamento ajustado fino em m contextos dentro de um erro \(\varepsilon\), onde V é o tamanho do vocabulário e \(\delta\) é a probabilidade de falha. Para classificação linear, conjuntos de dados de tamanho \( O\left( \frac{d}{\varepsilon} \right) \) ou, com contexto fixo, \( O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right) \) são suficientes, onde d é a dimensão de entrada. Baseados na completude de Turing dos transformadores, esses resultados fornecem uma fundação teórica para a implantação eficiente de recursos de modelos de linguagem de grande escala, com técnicas práticas como geração aumentada por recuperação conectando a teoria às aplicações do mundo real.
English
Large language models have transformed natural language processing, yet
supervised fine-tuning (SFT) remains computationally intensive. This paper
formally proves that capabilities acquired through SFT can be approximated by a
base transformer model using inference-time techniques, specifically in-context
learning (ICL), without altering model parameters, under idealized assumptions
including unbounded computational resources and access to the fine-tuning
dataset. We extend these results to practical scenarios with finite context
lengths and partial dataset access. For text generation tasks with fixed output
length l, datasets of size Oleft( m V{varepsilon^2} log
m{delta} right) or, with bounded context, Oleft( l
log V{varepsilon^2} log 1{delta} right) suffice to approximate
fine-tuned behavior across m contexts within error varepsilon, where V
is the vocabulary size and delta is the failure probability. For linear
classification, datasets of size Oleft( d{varepsilon}
right) or, with fixed context, Oleft( 1{varepsilon^2} log
1{delta} right) are sufficient, where d is the input dimension.
Grounded in the Turing completeness of transformers, these results provide a
theoretical foundation for resource-efficient deployment of large language
models, with practical techniques like retrieval-augmented generation bridging
theory to real-world applications.