万能型を超えて:高効率なNLG評価プロンプトのための逆転学習
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
April 29, 2025
著者: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI
要旨
自然言語生成(NLG)システムの評価は、有効な出力の多様性により困難を伴う。人間による評価はゴールドスタンダードであるが、一貫性の欠如、標準化の不足、人口統計的バイアスといった問題があり、再現性が制限される。大規模言語モデル(LLM)ベースの評価はスケーラブルな代替手段を提供するが、プロンプト設計に非常に敏感であり、小さな変動が大きな差異を引き起こす可能性がある。本研究では、モデルの出力からその入力指示への効果的な逆写像を学習する逆学習手法を提案する。これにより、モデル固有の高効果な評価プロンプトを自動生成することが可能となる。本手法は単一の評価サンプルのみを必要とし、時間のかかる手動のプロンプトエンジニアリングを不要とするため、効率性と頑健性の両方を向上させる。本研究は、より頑健で効率的なLLMベースの評価に向けた新たな方向性を示すものである。
English
Evaluating natural language generation (NLG) systems is challenging due to
the diversity of valid outputs. While human evaluation is the gold standard, it
suffers from inconsistencies, lack of standardisation, and demographic biases,
limiting reproducibility. LLM-based evaluation offers a scalable alternative
but is highly sensitive to prompt design, where small variations can lead to
significant discrepancies. In this work, we propose an inversion learning
method that learns effective reverse mappings from model outputs back to their
input instructions, enabling the automatic generation of highly effective,
model-specific evaluation prompts. Our method requires only a single evaluation
sample and eliminates the need for time-consuming manual prompt engineering,
thereby improving both efficiency and robustness. Our work contributes toward a
new direction for more robust and efficient LLM-based evaluation.Summary
AI-Generated Summary