Oltre l'approccio universale: l'apprendimento per inversione per prompt di valutazione altamente efficaci nella generazione del linguaggio naturale
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
April 29, 2025
Autori: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI
Abstract
Valutare i sistemi di generazione del linguaggio naturale (NLG) è complesso a causa della diversità degli output validi. Sebbene la valutazione umana rappresenti lo standard di riferimento, essa soffre di incoerenze, mancanza di standardizzazione e bias demografici, limitando la riproducibilità. La valutazione basata su LLM offre un'alternativa scalabile, ma è altamente sensibile al design dei prompt, dove piccole variazioni possono portare a discrepanze significative. In questo lavoro, proponiamo un metodo di apprendimento inverso che apprende mappature efficaci dagli output del modello alle istruzioni di input corrispondenti, consentendo la generazione automatica di prompt di valutazione altamente efficaci e specifici per il modello. Il nostro metodo richiede un solo campione di valutazione ed elimina la necessità di un'ingegnerizzazione manuale dei prompt, migliorando così sia l'efficienza che la robustezza. Il nostro lavoro contribuisce a una nuova direzione per una valutazione basata su LLM più robusta ed efficiente.
English
Evaluating natural language generation (NLG) systems is challenging due to
the diversity of valid outputs. While human evaluation is the gold standard, it
suffers from inconsistencies, lack of standardisation, and demographic biases,
limiting reproducibility. LLM-based evaluation offers a scalable alternative
but is highly sensitive to prompt design, where small variations can lead to
significant discrepancies. In this work, we propose an inversion learning
method that learns effective reverse mappings from model outputs back to their
input instructions, enabling the automatic generation of highly effective,
model-specific evaluation prompts. Our method requires only a single evaluation
sample and eliminates the need for time-consuming manual prompt engineering,
thereby improving both efficiency and robustness. Our work contributes toward a
new direction for more robust and efficient LLM-based evaluation.