За пределами универсальности: обучение инверсии для создания высокоэффективных промптов оценки генерации естественного языка
Beyond One-Size-Fits-All: Inversion Learning for Highly Effective NLG Evaluation Prompts
April 29, 2025
Авторы: Hanhua Hong, Chenghao Xiao, Yang Wang, Yiqi Liu, Wenge Rong, Chenghua Lin
cs.AI
Аннотация
Оценка систем генерации естественного языка (NLG) представляет собой сложную задачу из-за разнообразия допустимых выходных данных. Хотя человеческая оценка считается золотым стандартом, она страдает от несоответствий, отсутствия стандартизации и демографических предубеждений, что ограничивает воспроизводимость. Оценка на основе языковых моделей (LLM) предлагает масштабируемую альтернативу, но она крайне чувствительна к дизайну промптов, где небольшие изменения могут привести к значительным расхождениям. В данной работе мы предлагаем метод инверсного обучения, который изучает эффективные обратные отображения от выходных данных модели к их входным инструкциям, что позволяет автоматически генерировать высокоэффективные, специфичные для модели оценочные промпты. Наш метод требует всего одного оценочного образца и устраняет необходимость в трудоемком ручном проектировании промптов, тем самым повышая как эффективность, так и надежность. Наша работа вносит вклад в новое направление для более надежной и эффективной оценки на основе LLM.
English
Evaluating natural language generation (NLG) systems is challenging due to
the diversity of valid outputs. While human evaluation is the gold standard, it
suffers from inconsistencies, lack of standardisation, and demographic biases,
limiting reproducibility. LLM-based evaluation offers a scalable alternative
but is highly sensitive to prompt design, where small variations can lead to
significant discrepancies. In this work, we propose an inversion learning
method that learns effective reverse mappings from model outputs back to their
input instructions, enabling the automatic generation of highly effective,
model-specific evaluation prompts. Our method requires only a single evaluation
sample and eliminates the need for time-consuming manual prompt engineering,
thereby improving both efficiency and robustness. Our work contributes toward a
new direction for more robust and efficient LLM-based evaluation.Summary
AI-Generated Summary