Arrastrar y soltar LLMs: Prompt-to-Weights con enfoque de cero disparos
Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights
June 19, 2025
Autores: Zhiyuan Liang, Dongwen Tang, Yuhao Zhou, Xuanlei Zhao, Mingjia Shi, Wangbo Zhao, Zekai Li, Peihao Wang, Konstantin Schürholt, Damian Borth, Michael M. Bronstein, Yang You, Zhangyang Wang, Kai Wang
cs.AI
Resumen
Los métodos modernos de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés), como la adaptación de bajo rango (LoRA), reducen el costo de personalizar modelos de lenguaje grandes (LLMs), pero aún requieren una ejecución de optimización separada para cada conjunto de datos descendente. Presentamos Drag-and-Drop LLMs (\textit{DnD}), un generador de parámetros condicionado por prompts que elimina el entrenamiento por tarea al mapear un puñado de prompts no etiquetados directamente a actualizaciones de pesos LoRA. Un codificador de texto ligero destila cada lote de prompts en embeddings condicionales, que luego son transformados por un decodificador hiper-convolucional en cascada en el conjunto completo de matrices LoRA. Una vez entrenado en una colección diversa de pares de prompts y puntos de control, DnD produce parámetros específicos para cada tarea en segundos, logrando i) una sobrecarga hasta 12,000 veces menor que el ajuste fino completo, ii) mejoras promedio de hasta el 30\% en el rendimiento sobre los LoRAs entrenados más fuertes en pruebas de razonamiento de sentido común, matemáticas, codificación y multimodalidad no vistas, y iii) una generalización robusta entre dominios a pesar de no haber visto nunca los datos o etiquetas objetivo. Nuestros resultados demuestran que la generación de parámetros condicionada por prompts es una alternativa viable a la adaptación basada en gradientes para especializar rápidamente LLMs. Nuestro proyecto está disponible en https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
English
Modern Parameter-Efficient Fine-Tuning (PEFT) methods such as low-rank
adaptation (LoRA) reduce the cost of customizing large language models (LLMs),
yet still require a separate optimization run for every downstream dataset. We
introduce Drag-and-Drop LLMs (\textit{DnD)}, a prompt-conditioned
parameter generator that eliminates per-task training by mapping a handful of
unlabeled task prompts directly to LoRA weight updates. A lightweight text
encoder distills each prompt batch into condition embeddings, which are then
transformed by a cascaded hyper-convolutional decoder into the full set of LoRA
matrices. Once trained in a diverse collection of prompt-checkpoint pairs, DnD
produces task-specific parameters in seconds, yielding i) up to
12,000times lower overhead than full fine-tuning, ii) average gains
up to 30\% in performance over the strongest training LoRAs on unseen
common-sense reasoning, math, coding, and multimodal benchmarks, and iii)
robust cross-domain generalization despite never seeing the target data or
labels. Our results demonstrate that prompt-conditioned parameter generation is
a viable alternative to gradient-based adaptation for rapidly specializing
LLMs. Our project is available at
https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.