ChatPaper.aiChatPaper

Voorbij One-Size-Fits-All: Inversie-Leren voor Zeer Effectieve NLG-Evaluatieprompts

Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

April 29, 2025
Auteurs: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI

Samenvatting

Het evalueren van natural language generation (NLG)-systemen is uitdagend vanwege de diversiteit aan geldige uitvoer. Hoewel menselijke evaluatie de gouden standaard is, heeft het te kampen met inconsistenties, een gebrek aan standaardisatie en demografische vooroordelen, wat de reproduceerbaarheid beperkt. Evaluatie op basis van grote taalmodelen (LLM) biedt een schaalbare alternatief, maar is zeer gevoelig voor promptontwerp, waarbij kleine variaties kunnen leiden tot aanzienlijke verschillen. In dit werk stellen we een inversie-leermethode voor die effectieve omgekeerde afbeeldingen leert van modeluitvoer terug naar hun invoerinstructies, waardoor het automatisch genereren van zeer effectieve, modelspecifieke evaluatieprompts mogelijk wordt. Onze methode vereist slechts één evaluatievoorbeeld en elimineert de noodzaak van tijdrovende handmatige promptengineering, waardoor zowel de efficiëntie als de robuustheid worden verbeterd. Ons werk draagt bij aan een nieuwe richting voor robuustere en efficiëntere LLM-gebaseerde evaluatie.
English
Evaluating natural language generation (NLG) systems is challenging due to the diversity of valid outputs. While human evaluation is the gold standard, it suffers from inconsistencies, lack of standardisation, and demographic biases, limiting reproducibility. LLM-based evaluation offers a scalable alternative but is highly sensitive to prompt design, where small variations can lead to significant discrepancies. In this work, we propose an inversion learning method that learns effective reverse mappings from model outputs back to their input instructions, enabling the automatic generation of highly effective, model-specific evaluation prompts. Our method requires only a single evaluation sample and eliminates the need for time-consuming manual prompt engineering, thereby improving both efficiency and robustness. Our work contributes toward a new direction for more robust and efficient LLM-based evaluation.
PDF262May 5, 2025