Au-delà de l'approche universelle : L'apprentissage par inversion pour des prompts d'évaluation de la génération de langage naturel hautement efficaces
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
April 29, 2025
Auteurs: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI
Résumé
L'évaluation des systèmes de génération de langage naturel (NLG) est complexe en raison de la diversité des sorties valides. Bien que l'évaluation humaine soit considérée comme la référence, elle souffre d'incohérences, d'un manque de standardisation et de biais démographiques, limitant ainsi la reproductibilité. L'évaluation basée sur les modèles de langage (LLM) offre une alternative évolutive, mais elle est très sensible à la conception des prompts, où de petites variations peuvent entraîner des divergences significatives. Dans ce travail, nous proposons une méthode d'apprentissage par inversion qui apprend des correspondances inverses efficaces entre les sorties du modèle et leurs instructions d'entrée, permettant la génération automatique de prompts d'évaluation hautement efficaces et spécifiques au modèle. Notre méthode ne nécessite qu'un seul échantillon d'évaluation et élimine le besoin d'un laborieux ajustement manuel des prompts, améliorant ainsi à la fois l'efficacité et la robustesse. Notre contribution ouvre une nouvelle voie pour une évaluation basée sur les LLM plus robuste et efficace.
English
Evaluating natural language generation (NLG) systems is challenging due to
the diversity of valid outputs. While human evaluation is the gold standard, it
suffers from inconsistencies, lack of standardisation, and demographic biases,
limiting reproducibility. LLM-based evaluation offers a scalable alternative
but is highly sensitive to prompt design, where small variations can lead to
significant discrepancies. In this work, we propose an inversion learning
method that learns effective reverse mappings from model outputs back to their
input instructions, enabling the automatic generation of highly effective,
model-specific evaluation prompts. Our method requires only a single evaluation
sample and eliminates the need for time-consuming manual prompt engineering,
thereby improving both efficiency and robustness. Our work contributes toward a
new direction for more robust and efficient LLM-based evaluation.Summary
AI-Generated Summary