Apprentissage Garanti à partir de Retours Langagiers
Provably Learning from Language Feedback
June 12, 2025
Auteurs: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI
Résumé
L'apprentissage interactif à partir d'observations et de retours langagiers est un domaine de plus en plus étudié, stimulé par l'émergence d'agents basés sur de grands modèles de langage (LLM). Bien que des démonstrations empiriques impressionnantes aient été présentées, un cadre théorique solide pour ces problèmes de décision fait encore défaut. Dans cet article, nous formalisons le problème d'Apprentissage à partir de Retours Langagiers (LLF), établissons des hypothèses suffisantes pour permettre l'apprentissage malgré des récompenses latentes, et introduisons la dimension de transfert éludeur comme mesure de complexité pour caractériser la difficulté des problèmes LLF. Nous montrons que la dimension de transfert éludeur capture l'intuition selon laquelle l'information contenue dans les retours modifie la complexité de l'apprentissage du problème LLF. Nous démontrons des cas où l'apprentissage à partir de retours langagiers riches peut être exponentiellement plus rapide que l'apprentissage à partir de récompenses. Nous développons un algorithme sans regret, appelé HELiX, qui résout de manière prouvée les problèmes LLF à travers des interactions séquentielles, avec des garanties de performance qui évoluent avec la dimension de transfert éludeur du problème. À travers plusieurs domaines empiriques, nous montrons que HELiX performe bien même lorsque l'interrogation répétée de LLMs ne fonctionne pas de manière fiable. Nos contributions marquent une première étape vers la conception d'algorithmes d'apprentissage interactif fondés sur des principes théoriques à partir de retours langagiers génériques.
English
Interactively learning from observation and language feedback is an
increasingly studied area driven by the emergence of large language model (LLM)
agents. While impressive empirical demonstrations have been shown, so far a
principled framing of these decision problems remains lacking. In this paper,
we formalize the Learning from Language Feedback (LLF) problem, assert
sufficient assumptions to enable learning despite latent rewards, and introduce
transfer eluder dimension as a complexity measure to characterize
the hardness of LLF problems. We show that transfer eluder dimension captures
the intuition that information in the feedback changes the learning complexity
of the LLF problem. We demonstrate cases where learning from rich language
feedback can be exponentially faster than learning from reward. We develop a
no-regret algorithm, called HELiX, that provably solves LLF problems
through sequential interactions, with performance guarantees that scale with
the transfer eluder dimension of the problem. Across several empirical domains,
we show that HELiX performs well even when repeatedly prompting LLMs
does not work reliably. Our contributions mark a first step towards designing
principled interactive learning algorithms from generic language feedback.