Autoconsistencia para generaciones de extremo abierto
Self-consistency for open-ended generations
July 11, 2023
Autores: Siddhartha Jain, Xiaofei Ma, Anoop Deoras, Bing Xiang
cs.AI
Resumen
En este artículo, presentamos un enfoque novedoso para mejorar la calidad y la consistencia de las salidas generadas por modelos de lenguaje preentrenados a gran escala (LLMs, por sus siglas en inglés). La auto-consistencia ha surgido como un método efectivo para prompts con respuestas fijas, seleccionando la respuesta con el mayor número de votos. En este trabajo, introducimos un marco generalizado para la auto-consistencia que amplía su aplicabilidad más allá de problemas con respuestas fijas. A través de simulaciones extensas, demostramos que nuestro enfoque recupera de manera consistente la generación óptima o casi óptima de un conjunto de candidatos. También proponemos funciones de similitud ligeras y sin parámetros que muestran mejoras significativas y consistentes en tareas de generación de código, autoformalización y resumen, incluso sin acceso a las probabilidades logarítmicas de los tokens. Nuestro método incurre en un sobrecargo computacional mínimo, sin requerir modelos de reranking adicionales ni modificaciones al modelo existente.
English
In this paper, we present a novel approach for improving the quality and
consistency of generated outputs from large-scale pre-trained language models
(LLMs). Self-consistency has emerged as an effective approach for prompts with
fixed answers, selecting the answer with the highest number of votes. In this
paper, we introduce a generalized framework for self-consistency that extends
its applicability beyond problems that have fixed-answer answers. Through
extensive simulations, we demonstrate that our approach consistently recovers
the optimal or near-optimal generation from a set of candidates. We also
propose lightweight parameter-free similarity functions that show significant
and consistent improvements across code generation, autoformalization, and
summarization tasks, even without access to token log probabilities. Our method
incurs minimal computational overhead, requiring no auxiliary reranker models
or modifications to the existing model.