GReaTer: Los gradientes sobre el razonamiento hacen que los modelos de lenguaje más pequeños sean más sólidos Optimizadores de indicaciones
GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers
December 12, 2024
Autores: Sarkar Snigdha Sarathi Das, Ryo Kamoi, Bo Pang, Yusen Zhang, Caiming Xiong, Rui Zhang
cs.AI
Resumen
La efectividad de los modelos de lenguaje grandes (LLMs) está estrechamente ligada al diseño de las indicaciones, lo que hace que la optimización de las indicaciones sea esencial para mejorar su rendimiento en una amplia gama de tareas. Muchos enfoques existentes para automatizar la ingeniería de indicaciones se basan exclusivamente en la retroalimentación textual, refinando las indicaciones únicamente en función de los errores de inferencia identificados por los LLMs grandes y computacionalmente costosos. Desafortunadamente, los modelos más pequeños tienen dificultades para generar retroalimentación de alta calidad, lo que resulta en una dependencia total del juicio de los LLMs grandes. Además, estos métodos no aprovechan la información más directa y detallada, como los gradientes, debido a que operan puramente en el espacio de texto. Con este fin, presentamos GReaTer, una novedosa técnica de optimización de indicaciones que incorpora directamente información de gradientes sobre el razonamiento específico de la tarea. Al utilizar los gradientes de pérdida de la tarea, GReaTer permite la auto-optimización de las indicaciones para modelos de lenguaje ligeros de código abierto sin necesidad de costosos LLMs de código cerrado. Esto permite una optimización de indicaciones de alto rendimiento sin depender de LLMs masivos, cerrando la brecha entre los modelos más pequeños y el razonamiento sofisticado a menudo necesario para el refinamiento de las indicaciones. Evaluaciones extensas en diversas tareas de razonamiento, incluidas BBH, GSM8k y FOLIO, demuestran que GReaTer supera consistentemente a los métodos anteriores de optimización de indicaciones de vanguardia, incluso aquellos que dependen de potentes LLMs. Además, las indicaciones optimizadas por GReaTer muestran frecuentemente una mejor transferibilidad y, en algunos casos, mejoran el rendimiento de la tarea a niveles comparables o superiores a los logrados por modelos de lenguaje más grandes, destacando la efectividad de la optimización de indicaciones guiada por gradientes sobre el razonamiento. El código de GReaTer está disponible en https://github.com/psunlpgroup/GreaTer.
English
The effectiveness of large language models (LLMs) is closely tied to the
design of prompts, making prompt optimization essential for enhancing their
performance across a wide range of tasks. Many existing approaches to
automating prompt engineering rely exclusively on textual feedback, refining
prompts based solely on inference errors identified by large, computationally
expensive LLMs. Unfortunately, smaller models struggle to generate high-quality
feedback, resulting in complete dependence on large LLM judgment. Moreover,
these methods fail to leverage more direct and finer-grained information, such
as gradients, due to operating purely in text space. To this end, we introduce
GReaTer, a novel prompt optimization technique that directly incorporates
gradient information over task-specific reasoning. By utilizing task loss
gradients, GReaTer enables self-optimization of prompts for open-source,
lightweight language models without the need for costly closed-source LLMs.
This allows high-performance prompt optimization without dependence on massive
LLMs, closing the gap between smaller models and the sophisticated reasoning
often needed for prompt refinement. Extensive evaluations across diverse
reasoning tasks including BBH, GSM8k, and FOLIO demonstrate that GReaTer
consistently outperforms previous state-of-the-art prompt optimization methods,
even those reliant on powerful LLMs. Additionally, GReaTer-optimized prompts
frequently exhibit better transferability and, in some cases, boost task
performance to levels comparable to or surpassing those achieved by larger
language models, highlighting the effectiveness of prompt optimization guided
by gradients over reasoning. Code of GReaTer is available at
https://github.com/psunlpgroup/GreaTer.Summary
AI-Generated Summary