Aprendizado Comprovado a partir de Feedback Linguístico
Provably Learning from Language Feedback
June 12, 2025
Autores: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI
Resumo
A aprendizagem interativa a partir de observação e feedback linguístico é uma área cada vez mais estudada, impulsionada pelo surgimento de agentes baseados em modelos de linguagem de grande escala (LLMs). Embora demonstrações empíricas impressionantes tenham sido apresentadas, até agora falta uma estruturação teórica consistente para esses problemas de decisão. Neste artigo, formalizamos o problema de Aprendizagem a partir de Feedback Linguístico (LLF), estabelecemos suposições suficientes para permitir a aprendizagem apesar de recompensas latentes e introduzimos a dimensão de transferência elusiva como uma medida de complexidade para caracterizar a dificuldade dos problemas de LLF. Mostramos que a dimensão de transferência elusiva captura a intuição de que a informação no feedback altera a complexidade da aprendizagem do problema de LLF. Demonstramos casos em que a aprendizagem a partir de feedback linguístico rico pode ser exponencialmente mais rápida do que a aprendizagem a partir de recompensas. Desenvolvemos um algoritmo sem arrependimento, chamado HELiX, que resolve problemas de LLF de forma comprovada por meio de interações sequenciais, com garantias de desempenho que escalam com a dimensão de transferência elusiva do problema. Em vários domínios empíricos, mostramos que o HELiX tem um bom desempenho mesmo quando o uso repetido de LLMs não funciona de forma confiável. Nossas contribuições marcam um primeiro passo em direção ao projeto de algoritmos de aprendizagem interativa fundamentados a partir de feedback linguístico genérico.
English
Interactively learning from observation and language feedback is an
increasingly studied area driven by the emergence of large language model (LLM)
agents. While impressive empirical demonstrations have been shown, so far a
principled framing of these decision problems remains lacking. In this paper,
we formalize the Learning from Language Feedback (LLF) problem, assert
sufficient assumptions to enable learning despite latent rewards, and introduce
transfer eluder dimension as a complexity measure to characterize
the hardness of LLF problems. We show that transfer eluder dimension captures
the intuition that information in the feedback changes the learning complexity
of the LLF problem. We demonstrate cases where learning from rich language
feedback can be exponentially faster than learning from reward. We develop a
no-regret algorithm, called HELiX, that provably solves LLF problems
through sequential interactions, with performance guarantees that scale with
the transfer eluder dimension of the problem. Across several empirical domains,
we show that HELiX performs well even when repeatedly prompting LLMs
does not work reliably. Our contributions mark a first step towards designing
principled interactive learning algorithms from generic language feedback.