GReaTer: Los gradientes sobre el razonamiento hacen que los modelos de lenguaje más pequeños sean más sólidos Optimizadores de indicaciones

Resumen

La efectividad de los modelos de lenguaje grandes (LLMs) está estrechamente ligada al diseño de las indicaciones, lo que hace que la optimización de las indicaciones sea esencial para mejorar su rendimiento en una amplia gama de tareas. Muchos enfoques existentes para automatizar la ingeniería de indicaciones se basan exclusivamente en la retroalimentación textual, refinando las indicaciones únicamente en función de los errores de inferencia identificados por los LLMs grandes y computacionalmente costosos. Desafortunadamente, los modelos más pequeños tienen dificultades para generar retroalimentación de alta calidad, lo que resulta en una dependencia total del juicio de los LLMs grandes. Además, estos métodos no aprovechan la información más directa y detallada, como los gradientes, debido a que operan puramente en el espacio de texto. Con este fin, presentamos GReaTer, una novedosa técnica de optimización de indicaciones que incorpora directamente información de gradientes sobre el razonamiento específico de la tarea. Al utilizar los gradientes de pérdida de la tarea, GReaTer permite la auto-optimización de las indicaciones para modelos de lenguaje ligeros de código abierto sin necesidad de costosos LLMs de código cerrado. Esto permite una optimización de indicaciones de alto rendimiento sin depender de LLMs masivos, cerrando la brecha entre los modelos más pequeños y el razonamiento sofisticado a menudo necesario para el refinamiento de las indicaciones. Evaluaciones extensas en diversas tareas de razonamiento, incluidas BBH, GSM8k y FOLIO, demuestran que GReaTer supera consistentemente a los métodos anteriores de optimización de indicaciones de vanguardia, incluso aquellos que dependen de potentes LLMs. Además, las indicaciones optimizadas por GReaTer muestran frecuentemente una mejor transferibilidad y, en algunos casos, mejoran el rendimiento de la tarea a niveles comparables o superiores a los logrados por modelos de lenguaje más grandes, destacando la efectividad de la optimización de indicaciones guiada por gradientes sobre el razonamiento. El código de GReaTer está disponible en https://github.com/psunlpgroup/GreaTer.

English

The effectiveness of large language models (LLMs) is closely tied to the design of prompts, making prompt optimization essential for enhancing their performance across a wide range of tasks. Many existing approaches to automating prompt engineering rely exclusively on textual feedback, refining prompts based solely on inference errors identified by large, computationally expensive LLMs. Unfortunately, smaller models struggle to generate high-quality feedback, resulting in complete dependence on large LLM judgment. Moreover, these methods fail to leverage more direct and finer-grained information, such as gradients, due to operating purely in text space. To this end, we introduce GReaTer, a novel prompt optimization technique that directly incorporates gradient information over task-specific reasoning. By utilizing task loss gradients, GReaTer enables self-optimization of prompts for open-source, lightweight language models without the need for costly closed-source LLMs. This allows high-performance prompt optimization without dependence on massive LLMs, closing the gap between smaller models and the sophisticated reasoning often needed for prompt refinement. Extensive evaluations across diverse reasoning tasks including BBH, GSM8k, and FOLIO demonstrate that GReaTer consistently outperforms previous state-of-the-art prompt optimization methods, even those reliant on powerful LLMs. Additionally, GReaTer-optimized prompts frequently exhibit better transferability and, in some cases, boost task performance to levels comparable to or surpassing those achieved by larger language models, highlighting the effectiveness of prompt optimization guided by gradients over reasoning. Code of GReaTer is available at https://github.com/psunlpgroup/GreaTer.

GReaTer: Los gradientes sobre el razonamiento hacen que los modelos de lenguaje más pequeños sean más sólidos Optimizadores de indicaciones

GReaTer: Gradients over Reasoning Makes Smaller Language Models Strong Prompt Optimizers

Resumen

Support