Aprendizaje Verificable a partir de Retroalimentación Lingüística
Provably Learning from Language Feedback
June 12, 2025
Autores: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI
Resumen
El aprendizaje interactivo a partir de la observación y la retroalimentación lingüística es un área de estudio cada vez más explorada, impulsada por el surgimiento de agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Aunque se han demostrado resultados empíricos impresionantes, hasta ahora falta un marco teórico sólido para estos problemas de decisión. En este artículo, formalizamos el problema de Aprendizaje a partir de Retroalimentación Lingüística (LLF, por sus siglas en inglés), establecemos supuestos suficientes para permitir el aprendizaje a pesar de recompensas latentes e introducimos la dimensión de elusión de transferencia como una medida de complejidad para caracterizar la dificultad de los problemas de LLF. Mostramos que la dimensión de elusión de transferencia captura la intuición de que la información en la retroalimentación altera la complejidad del aprendizaje en el problema de LLF. Demostramos casos en los que el aprendizaje a partir de retroalimentación lingüística rica puede ser exponencialmente más rápido que el aprendizaje a partir de recompensas. Desarrollamos un algoritmo sin arrepentimiento, llamado HELiX, que resuelve de manera probada los problemas de LLF mediante interacciones secuenciales, con garantías de rendimiento que escalan con la dimensión de elusión de transferencia del problema. A través de varios dominios empíricos, mostramos que HELiX funciona bien incluso cuando la repetición de solicitudes a LLMs no es confiable. Nuestras contribuciones marcan un primer paso hacia el diseño de algoritmos de aprendizaje interactivo fundamentados a partir de retroalimentación lingüística genérica.
English
Interactively learning from observation and language feedback is an
increasingly studied area driven by the emergence of large language model (LLM)
agents. While impressive empirical demonstrations have been shown, so far a
principled framing of these decision problems remains lacking. In this paper,
we formalize the Learning from Language Feedback (LLF) problem, assert
sufficient assumptions to enable learning despite latent rewards, and introduce
transfer eluder dimension as a complexity measure to characterize
the hardness of LLF problems. We show that transfer eluder dimension captures
the intuition that information in the feedback changes the learning complexity
of the LLF problem. We demonstrate cases where learning from rich language
feedback can be exponentially faster than learning from reward. We develop a
no-regret algorithm, called HELiX, that provably solves LLF problems
through sequential interactions, with performance guarantees that scale with
the transfer eluder dimension of the problem. Across several empirical domains,
we show that HELiX performs well even when repeatedly prompting LLMs
does not work reliably. Our contributions mark a first step towards designing
principled interactive learning algorithms from generic language feedback.