Voorbij One-Size-Fits-All: Inversie-Leren voor Zeer Effectieve NLG-Evaluatieprompts
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
April 29, 2025
Auteurs: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI
Samenvatting
Het evalueren van natural language generation (NLG)-systemen is uitdagend vanwege de diversiteit aan geldige uitvoer. Hoewel menselijke evaluatie de gouden standaard is, heeft het te kampen met inconsistenties, een gebrek aan standaardisatie en demografische vooroordelen, wat de reproduceerbaarheid beperkt. Evaluatie op basis van grote taalmodelen (LLM) biedt een schaalbare alternatief, maar is zeer gevoelig voor promptontwerp, waarbij kleine variaties kunnen leiden tot aanzienlijke verschillen. In dit werk stellen we een inversie-leermethode voor die effectieve omgekeerde afbeeldingen leert van modeluitvoer terug naar hun invoerinstructies, waardoor het automatisch genereren van zeer effectieve, modelspecifieke evaluatieprompts mogelijk wordt. Onze methode vereist slechts één evaluatievoorbeeld en elimineert de noodzaak van tijdrovende handmatige promptengineering, waardoor zowel de efficiëntie als de robuustheid worden verbeterd. Ons werk draagt bij aan een nieuwe richting voor robuustere en efficiëntere LLM-gebaseerde evaluatie.
English
Evaluating natural language generation (NLG) systems is challenging due to
the diversity of valid outputs. While human evaluation is the gold standard, it
suffers from inconsistencies, lack of standardisation, and demographic biases,
limiting reproducibility. LLM-based evaluation offers a scalable alternative
but is highly sensitive to prompt design, where small variations can lead to
significant discrepancies. In this work, we propose an inversion learning
method that learns effective reverse mappings from model outputs back to their
input instructions, enabling the automatic generation of highly effective,
model-specific evaluation prompts. Our method requires only a single evaluation
sample and eliminates the need for time-consuming manual prompt engineering,
thereby improving both efficiency and robustness. Our work contributes toward a
new direction for more robust and efficient LLM-based evaluation.