ChatPaper.aiChatPaper

Jenseits der Einheitslösung: Inversionslernen für hochwirksame NLG-Evaluationsprompts

Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

April 29, 2025
Autoren: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI

Zusammenfassung

Die Bewertung von Systemen zur natürlichen Sprachgenerierung (NLG) ist aufgrund der Vielfalt gültiger Ausgaben eine Herausforderung. Obwohl die menschliche Bewertung als Goldstandard gilt, leidet sie unter Inkonsistenzen, mangelnder Standardisierung und demografischen Verzerrungen, was die Reproduzierbarkeit einschränkt. Die LLM-basierte Bewertung bietet eine skalierbare Alternative, ist jedoch äußerst empfindlich gegenüber dem Prompt-Design, bei dem kleine Variationen zu erheblichen Abweichungen führen können. In dieser Arbeit schlagen wir eine Inversionslernmethode vor, die effektive Rückabbildungen von Modellausgaben auf ihre Eingabeanweisungen lernt und so die automatische Generierung hochwirksamer, modellspezifischer Bewertungs-Prompts ermöglicht. Unsere Methode erfordert lediglich eine einzelne Bewertungsprobe und eliminiert den Bedarf an zeitaufwändiger manueller Prompt-Entwicklung, wodurch sowohl die Effizienz als auch die Robustheit verbessert werden. Unsere Arbeit trägt zu einer neuen Richtung für eine robustere und effizientere LLM-basierte Bewertung bei.
English
Evaluating natural language generation (NLG) systems is challenging due to the diversity of valid outputs. While human evaluation is the gold standard, it suffers from inconsistencies, lack of standardisation, and demographic biases, limiting reproducibility. LLM-based evaluation offers a scalable alternative but is highly sensitive to prompt design, where small variations can lead to significant discrepancies. In this work, we propose an inversion learning method that learns effective reverse mappings from model outputs back to their input instructions, enabling the automatic generation of highly effective, model-specific evaluation prompts. Our method requires only a single evaluation sample and eliminates the need for time-consuming manual prompt engineering, thereby improving both efficiency and robustness. Our work contributes toward a new direction for more robust and efficient LLM-based evaluation.

Summary

AI-Generated Summary

PDF122May 5, 2025