ChatPaper.aiChatPaper

일률적 접근을 넘어서: 고효율 NLG 평가 프롬프트를 위한 역학습

Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

April 29, 2025
저자: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI

초록

자연어 생성(NLG) 시스템을 평가하는 것은 유효한 출력의 다양성으로 인해 어려운 과제이다. 인간 평가가 최적의 기준으로 여겨지지만, 이는 불일치, 표준화 부족, 인구통계학적 편향 등의 문제로 인해 재현성이 제한된다. 대규모 언어 모델(LLM) 기반 평가는 확장 가능한 대안을 제공하지만, 프롬프트 설계에 매우 민감하여 작은 변화가 큰 차이를 초래할 수 있다. 본 연구에서는 모델 출력을 다시 입력 지시로 매핑하는 효과적인 역학습 방법을 제안하여, 모델 특화적이고 매우 효과적인 평가 프롬프트를 자동으로 생성할 수 있도록 한다. 우리의 방법은 단일 평가 샘플만을 요구하며, 시간이 많이 소요되는 수동 프롬프트 엔지니어링의 필요성을 없애 효율성과 견고성을 모두 개선한다. 이 연구는 더 견고하고 효율적인 LLM 기반 평가를 위한 새로운 방향을 제시한다.
English
Evaluating natural language generation (NLG) systems is challenging due to the diversity of valid outputs. While human evaluation is the gold standard, it suffers from inconsistencies, lack of standardisation, and demographic biases, limiting reproducibility. LLM-based evaluation offers a scalable alternative but is highly sensitive to prompt design, where small variations can lead to significant discrepancies. In this work, we propose an inversion learning method that learns effective reverse mappings from model outputs back to their input instructions, enabling the automatic generation of highly effective, model-specific evaluation prompts. Our method requires only a single evaluation sample and eliminates the need for time-consuming manual prompt engineering, thereby improving both efficiency and robustness. Our work contributes toward a new direction for more robust and efficient LLM-based evaluation.

Summary

AI-Generated Summary

PDF122May 5, 2025