ChatPaper.aiChatPaper

Shepherd: Un Crítico para la Generación de Modelos de Lenguaje

Shepherd: A Critic for Language Model Generation

August 8, 2023
Autores: Tianlu Wang, Ping Yu, Xiaoqing Ellen Tan, Sean O'Brien, Ramakanth Pasunuru, Jane Dwivedi-Yu, Olga Golovneva, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz
cs.AI

Resumen

A medida que los modelos de lenguaje grandes mejoran, existe un creciente interés en técnicas que aprovechen las capacidades de estos modelos para refinar sus propias salidas. En este trabajo, presentamos Shepherd, un modelo de lenguaje específicamente ajustado para criticar respuestas y sugerir refinamientos, yendo más allá de las capacidades de un modelo no ajustado para identificar errores diversos y proporcionar sugerencias para remediarlos. En el núcleo de nuestro enfoque se encuentra un conjunto de datos de retroalimentación de alta calidad, que hemos seleccionado a partir de comentarios de la comunidad y anotaciones humanas. Aunque Shepherd es pequeño (7B parámetros), sus críticas son equivalentes o preferidas en comparación con las de modelos establecidos como ChatGPT. Utilizando GPT-4 para la evaluación, Shepherd alcanza una tasa promedio de preferencia del 53-87% frente a alternativas competitivas. En evaluaciones humanas, Shepherd supera estrictamente a otros modelos y, en promedio, se equipara estrechamente con ChatGPT.
English
As large language models improve, there is increasing interest in techniques that leverage these models' capabilities to refine their own outputs. In this work, we introduce Shepherd, a language model specifically tuned to critique responses and suggest refinements, extending beyond the capabilities of an untuned model to identify diverse errors and provide suggestions to remedy them. At the core of our approach is a high quality feedback dataset, which we curate from community feedback and human annotations. Even though Shepherd is small (7B parameters), its critiques are either equivalent or preferred to those from established models including ChatGPT. Using GPT-4 for evaluation, Shepherd reaches an average win-rate of 53-87% compared to competitive alternatives. In human evaluation, Shepherd strictly outperforms other models and on average closely ties with ChatGPT.
PDF325December 15, 2024