ChatPaper.aiChatPaper

Aprovechando la Autoatención para la Inducción de Preguntas Suaves Dependientes de la Entrada en Modelos de Lenguaje de Gran Escala

Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

June 5, 2025
Autores: Ananth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay
cs.AI

Resumen

El rendimiento de los modelos de lenguaje de gran escala en tareas específicas de dominio requiere un ajuste fino, el cual es computacionalmente costoso y técnicamente desafiante. Este artículo se centra en el ajuste fino eficiente en parámetros mediante el uso de *soft prompting*, un enfoque prometedor que adapta modelos preentrenados a tareas posteriores mediante el aprendizaje de un conjunto reducido de parámetros. Proponemos una novedosa técnica de *Input Dependent Soft Prompting* con un Mecanismo de Auto-Atención (ID-SPAM, por sus siglas en inglés) que genera *soft prompts* basados en los tokens de entrada y asigna diferentes niveles de importancia a distintos tokens. Nuestro método es simple y eficiente, manteniendo el número de parámetros entrenables reducido. Demostramos las ventajas del enfoque propuesto en comparación con técnicas de vanguardia en diversas tareas y mostramos una capacidad mejorada de transferencia de dominio en escenarios de *zero-shot*.
English
The performance of large language models in domain-specific tasks necessitates fine-tuning, which is computationally expensive and technically challenging. This paper focuses on parameter-efficient fine-tuning using soft prompting, a promising approach that adapts pre-trained models to downstream tasks by learning a small set of parameters. We propose a novel Input Dependent Soft Prompting technique with a self-Attention Mechanism (ID-SPAM) that generates soft prompts based on the input tokens and attends different tokens with varying importance. Our method is simple and efficient, keeping the number of trainable parameters small. We show the merits of the proposed approach compared to state-of-the-art techniques on various tasks and show the improved zero shot domain transfer capability.

Summary

AI-Generated Summary

PDF321June 9, 2025