Além do Modelo Único: Aprendizado de Inversão para Prompts de Avaliação Altamente Eficazes em Geração de Linguagem Natural
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
April 29, 2025
Autores: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI
Resumo
A avaliação de sistemas de geração de linguagem natural (NLG) é desafiadora devido à diversidade de saídas válidas. Embora a avaliação humana seja o padrão-ouro, ela sofre com inconsistências, falta de padronização e vieses demográficos, limitando a reprodutibilidade. A avaliação baseada em modelos de linguagem de grande escala (LLM) oferece uma alternativa escalável, mas é altamente sensível ao design de prompts, onde pequenas variações podem levar a discrepâncias significativas. Neste trabalho, propomos um método de aprendizado por inversão que aprende mapeamentos reversos eficazes a partir das saídas do modelo de volta para suas instruções de entrada, permitindo a geração automática de prompts de avaliação altamente eficazes e específicos para o modelo. Nosso método requer apenas uma única amostra de avaliação e elimina a necessidade de engenharia de prompts manual demorada, melhorando tanto a eficiência quanto a robustez. Nosso trabalho contribui para uma nova direção em avaliações baseadas em LLM mais robustas e eficientes.
English
Evaluating natural language generation (NLG) systems is challenging due to
the diversity of valid outputs. While human evaluation is the gold standard, it
suffers from inconsistencies, lack of standardisation, and demographic biases,
limiting reproducibility. LLM-based evaluation offers a scalable alternative
but is highly sensitive to prompt design, where small variations can lead to
significant discrepancies. In this work, we propose an inversion learning
method that learns effective reverse mappings from model outputs back to their
input instructions, enabling the automatic generation of highly effective,
model-specific evaluation prompts. Our method requires only a single evaluation
sample and eliminates the need for time-consuming manual prompt engineering,
thereby improving both efficiency and robustness. Our work contributes toward a
new direction for more robust and efficient LLM-based evaluation.