ChatPaper.aiChatPaper

Desencadenar capacidades de transformadores ajustados mediante técnicas en tiempo de inferencia

Eliciting Fine-Tuned Transformer Capabilities via Inference-Time Techniques

June 9, 2025
Autores: Asankhaya Sharma
cs.AI

Resumen

Los modelos de lenguaje de gran escala han transformado el procesamiento del lenguaje natural, aunque el ajuste fino supervisado (SFT, por sus siglas en inglés) sigue siendo computacionalmente intensivo. Este artículo demuestra formalmente que las capacidades adquiridas mediante SFT pueden ser aproximadas por un modelo base de transformadores utilizando técnicas en tiempo de inferencia, específicamente el aprendizaje en contexto (ICL, por sus siglas en inglés), sin alterar los parámetros del modelo, bajo supuestos idealizados que incluyen recursos computacionales ilimitados y acceso al conjunto de datos de ajuste fino. Extendemos estos resultados a escenarios prácticos con longitudes de contexto finitas y acceso parcial a los conjuntos de datos. Para tareas de generación de texto con longitud de salida fija \( l \), conjuntos de datos de tamaño \( O\left( \frac{m}{\varepsilon^2} \log \frac{m}{\delta} \right) \) o, con contexto limitado, \( O\left( l \log \frac{V}{\varepsilon^2} \log \frac{1}{\delta} \right) \) son suficientes para aproximar el comportamiento ajustado fino en \( m \) contextos dentro de un error \( \varepsilon \), donde \( V \) es el tamaño del vocabulario y \( \delta \) es la probabilidad de fallo. Para clasificación lineal, conjuntos de datos de tamaño \( O\left( \frac{d}{\varepsilon} \right) \) o, con contexto fijo, \( O\left( \frac{1}{\varepsilon^2} \log \frac{1}{\delta} \right) \) son suficientes, donde \( d \) es la dimensión de entrada. Basados en la completitud de Turing de los transformadores, estos resultados proporcionan una base teórica para el despliegue eficiente de recursos de modelos de lenguaje de gran escala, con técnicas prácticas como la generación aumentada por recuperación que conectan la teoría con aplicaciones del mundo real.
English
Large language models have transformed natural language processing, yet supervised fine-tuning (SFT) remains computationally intensive. This paper formally proves that capabilities acquired through SFT can be approximated by a base transformer model using inference-time techniques, specifically in-context learning (ICL), without altering model parameters, under idealized assumptions including unbounded computational resources and access to the fine-tuning dataset. We extend these results to practical scenarios with finite context lengths and partial dataset access. For text generation tasks with fixed output length l, datasets of size Oleft( m V{varepsilon^2} log m{delta} right) or, with bounded context, Oleft( l log V{varepsilon^2} log 1{delta} right) suffice to approximate fine-tuned behavior across m contexts within error varepsilon, where V is the vocabulary size and delta is the failure probability. For linear classification, datasets of size Oleft( d{varepsilon} right) or, with fixed context, Oleft( 1{varepsilon^2} log 1{delta} right) are sufficient, where d is the input dimension. Grounded in the Turing completeness of transformers, these results provide a theoretical foundation for resource-efficient deployment of large language models, with practical techniques like retrieval-augmented generation bridging theory to real-world applications.
PDF52June 13, 2025