Más allá del enfoque único: Aprendizaje por inversión para la creación de indicadores altamente efectivos en la evaluación de la generación de lenguaje natural
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
April 29, 2025
Autores: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI
Resumen
La evaluación de sistemas de generación de lenguaje natural (NLG) es un desafío debido a la diversidad de salidas válidas. Si bien la evaluación humana es el estándar de oro, esta sufre de inconsistencias, falta de estandarización y sesgos demográficos, lo que limita su reproducibilidad. La evaluación basada en modelos de lenguaje grandes (LLM) ofrece una alternativa escalable, pero es altamente sensible al diseño de los prompts, donde pequeñas variaciones pueden generar discrepancias significativas. En este trabajo, proponemos un método de aprendizaje por inversión que aprende mapeos inversos efectivos desde las salidas del modelo de vuelta a sus instrucciones de entrada, permitiendo la generación automática de prompts de evaluación altamente efectivos y específicos para cada modelo. Nuestro método requiere solo una muestra de evaluación y elimina la necesidad de una ingeniería de prompts manual y laboriosa, mejorando así tanto la eficiencia como la robustez. Nuestro trabajo contribuye hacia una nueva dirección para una evaluación basada en LLM más robusta y eficiente.
English
Evaluating natural language generation (NLG) systems is challenging due to
the diversity of valid outputs. While human evaluation is the gold standard, it
suffers from inconsistencies, lack of standardisation, and demographic biases,
limiting reproducibility. LLM-based evaluation offers a scalable alternative
but is highly sensitive to prompt design, where small variations can lead to
significant discrepancies. In this work, we propose an inversion learning
method that learns effective reverse mappings from model outputs back to their
input instructions, enabling the automatic generation of highly effective,
model-specific evaluation prompts. Our method requires only a single evaluation
sample and eliminates the need for time-consuming manual prompt engineering,
thereby improving both efficiency and robustness. Our work contributes toward a
new direction for more robust and efficient LLM-based evaluation.Summary
AI-Generated Summary