Aprovechando la Autoatención para la Inducción de Preguntas Suaves Dependientes de la Entrada en Modelos de Lenguaje de Gran Escala
Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs
June 5, 2025
Autores: Ananth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay
cs.AI
Resumen
El rendimiento de los modelos de lenguaje de gran escala en tareas específicas de dominio requiere un ajuste fino, el cual es computacionalmente costoso y técnicamente desafiante. Este artículo se centra en el ajuste fino eficiente en parámetros mediante el uso de *soft prompting*, un enfoque prometedor que adapta modelos preentrenados a tareas posteriores mediante el aprendizaje de un conjunto reducido de parámetros. Proponemos una novedosa técnica de *Input Dependent Soft Prompting* con un Mecanismo de Auto-Atención (ID-SPAM, por sus siglas en inglés) que genera *soft prompts* basados en los tokens de entrada y asigna diferentes niveles de importancia a distintos tokens. Nuestro método es simple y eficiente, manteniendo el número de parámetros entrenables reducido. Demostramos las ventajas del enfoque propuesto en comparación con técnicas de vanguardia en diversas tareas y mostramos una capacidad mejorada de transferencia de dominio en escenarios de *zero-shot*.
English
The performance of large language models in domain-specific tasks
necessitates fine-tuning, which is computationally expensive and technically
challenging. This paper focuses on parameter-efficient fine-tuning using soft
prompting, a promising approach that adapts pre-trained models to downstream
tasks by learning a small set of parameters. We propose a novel Input Dependent
Soft Prompting technique with a self-Attention Mechanism (ID-SPAM) that
generates soft prompts based on the input tokens and attends different tokens
with varying importance. Our method is simple and efficient, keeping the number
of trainable parameters small. We show the merits of the proposed approach
compared to state-of-the-art techniques on various tasks and show the improved
zero shot domain transfer capability.Summary
AI-Generated Summary