ChatPaper.aiChatPaper

Sfruttare il Meccanismo di Self-Attention per il Prompting Soft Dipendente dall'Input nei Modelli Linguistici di Grande Dimensione

Leveraging Self-Attention for Input-Dependent Soft Prompting in LLMs

June 5, 2025
Autori: Ananth Muppidi, Abhilash Nandy, Sambaran Bandyopadhyay
cs.AI

Abstract

Le prestazioni dei grandi modelli linguistici in compiti specifici di dominio richiedono un fine-tuning, che è computazionalmente costoso e tecnicamente impegnativo. Questo articolo si concentra sul fine-tuning efficiente in termini di parametri utilizzando il soft prompting, un approccio promettente che adatta modelli pre-addestrati a compiti downstream apprendendo un piccolo insieme di parametri. Proponiamo una nuova tecnica di Soft Prompting Dipendente dall'Input con un Meccanismo di Self-Attention (ID-SPAM) che genera soft prompt basati sui token di input e assegna importanza variabile a diversi token. Il nostro metodo è semplice ed efficiente, mantenendo basso il numero di parametri addestrabili. Dimostriamo i vantaggi dell'approccio proposto rispetto alle tecniche state-of-the-art su vari compiti e mostriamo una capacità migliorata di trasferimento di dominio zero-shot.
English
The performance of large language models in domain-specific tasks necessitates fine-tuning, which is computationally expensive and technically challenging. This paper focuses on parameter-efficient fine-tuning using soft prompting, a promising approach that adapts pre-trained models to downstream tasks by learning a small set of parameters. We propose a novel Input Dependent Soft Prompting technique with a self-Attention Mechanism (ID-SPAM) that generates soft prompts based on the input tokens and attends different tokens with varying importance. Our method is simple and efficient, keeping the number of trainable parameters small. We show the merits of the proposed approach compared to state-of-the-art techniques on various tasks and show the improved zero shot domain transfer capability.
PDF352June 9, 2025