ChatPaper.aiChatPaper

За пределами универсальности: обучение инверсии для создания высокоэффективных промптов оценки генерации естественного языка

Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts

April 29, 2025
Авторы: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI

Аннотация

Оценка систем генерации естественного языка (NLG) представляет собой сложную задачу из-за разнообразия допустимых выходных данных. Хотя человеческая оценка считается золотым стандартом, она страдает от несоответствий, отсутствия стандартизации и демографических предубеждений, что ограничивает воспроизводимость. Оценка на основе языковых моделей (LLM) предлагает масштабируемую альтернативу, но она крайне чувствительна к дизайну промптов, где небольшие изменения могут привести к значительным расхождениям. В данной работе мы предлагаем метод инверсного обучения, который изучает эффективные обратные отображения от выходных данных модели к их входным инструкциям, что позволяет автоматически генерировать высокоэффективные, специфичные для модели оценочные промпты. Наш метод требует всего одного оценочного образца и устраняет необходимость в трудоемком ручном проектировании промптов, тем самым повышая как эффективность, так и надежность. Наша работа вносит вклад в новое направление для более надежной и эффективной оценки на основе LLM.
English
Evaluating natural language generation (NLG) systems is challenging due to the diversity of valid outputs. While human evaluation is the gold standard, it suffers from inconsistencies, lack of standardisation, and demographic biases, limiting reproducibility. LLM-based evaluation offers a scalable alternative but is highly sensitive to prompt design, where small variations can lead to significant discrepancies. In this work, we propose an inversion learning method that learns effective reverse mappings from model outputs back to their input instructions, enabling the automatic generation of highly effective, model-specific evaluation prompts. Our method requires only a single evaluation sample and eliminates the need for time-consuming manual prompt engineering, thereby improving both efficiency and robustness. Our work contributes toward a new direction for more robust and efficient LLM-based evaluation.

Summary

AI-Generated Summary

PDF122May 5, 2025