ChatPaper.aiChatPaper

Más allá del enfoque único: Aprendizaje por inversión para la creación de indicadores altamente efectivos en la evaluación de la generación de lenguaje natural

Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

April 29, 2025
Autores: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI

Resumen

La evaluación de sistemas de generación de lenguaje natural (NLG) es un desafío debido a la diversidad de salidas válidas. Si bien la evaluación humana es el estándar de oro, esta sufre de inconsistencias, falta de estandarización y sesgos demográficos, lo que limita su reproducibilidad. La evaluación basada en modelos de lenguaje grandes (LLM) ofrece una alternativa escalable, pero es altamente sensible al diseño de los prompts, donde pequeñas variaciones pueden generar discrepancias significativas. En este trabajo, proponemos un método de aprendizaje por inversión que aprende mapeos inversos efectivos desde las salidas del modelo de vuelta a sus instrucciones de entrada, permitiendo la generación automática de prompts de evaluación altamente efectivos y específicos para cada modelo. Nuestro método requiere solo una muestra de evaluación y elimina la necesidad de una ingeniería de prompts manual y laboriosa, mejorando así tanto la eficiencia como la robustez. Nuestro trabajo contribuye hacia una nueva dirección para una evaluación basada en LLM más robusta y eficiente.
English
Evaluating natural language generation (NLG) systems is challenging due to the diversity of valid outputs. While human evaluation is the gold standard, it suffers from inconsistencies, lack of standardisation, and demographic biases, limiting reproducibility. LLM-based evaluation offers a scalable alternative but is highly sensitive to prompt design, where small variations can lead to significant discrepancies. In this work, we propose an inversion learning method that learns effective reverse mappings from model outputs back to their input instructions, enabling the automatic generation of highly effective, model-specific evaluation prompts. Our method requires only a single evaluation sample and eliminates the need for time-consuming manual prompt engineering, thereby improving both efficiency and robustness. Our work contributes toward a new direction for more robust and efficient LLM-based evaluation.

Summary

AI-Generated Summary

PDF122May 5, 2025