Aprendizado Comprovado a partir de Feedback Linguístico

Resumo

A aprendizagem interativa a partir de observação e feedback linguístico é uma área cada vez mais estudada, impulsionada pelo surgimento de agentes baseados em modelos de linguagem de grande escala (LLMs). Embora demonstrações empíricas impressionantes tenham sido apresentadas, até agora falta uma estruturação teórica consistente para esses problemas de decisão. Neste artigo, formalizamos o problema de Aprendizagem a partir de Feedback Linguístico (LLF), estabelecemos suposições suficientes para permitir a aprendizagem apesar de recompensas latentes e introduzimos a dimensão de transferência elusiva como uma medida de complexidade para caracterizar a dificuldade dos problemas de LLF. Mostramos que a dimensão de transferência elusiva captura a intuição de que a informação no feedback altera a complexidade da aprendizagem do problema de LLF. Demonstramos casos em que a aprendizagem a partir de feedback linguístico rico pode ser exponencialmente mais rápida do que a aprendizagem a partir de recompensas. Desenvolvemos um algoritmo sem arrependimento, chamado HELiX, que resolve problemas de LLF de forma comprovada por meio de interações sequenciais, com garantias de desempenho que escalam com a dimensão de transferência elusiva do problema. Em vários domínios empíricos, mostramos que o HELiX tem um bom desempenho mesmo quando o uso repetido de LLMs não funciona de forma confiável. Nossas contribuições marcam um primeiro passo em direção ao projeto de algoritmos de aprendizagem interativa fundamentados a partir de feedback linguístico genérico.

English

Interactively learning from observation and language feedback is an increasingly studied area driven by the emergence of large language model (LLM) agents. While impressive empirical demonstrations have been shown, so far a principled framing of these decision problems remains lacking. In this paper, we formalize the Learning from Language Feedback (LLF) problem, assert sufficient assumptions to enable learning despite latent rewards, and introduce transfer eluder dimension as a complexity measure to characterize the hardness of LLF problems. We show that transfer eluder dimension captures the intuition that information in the feedback changes the learning complexity of the LLF problem. We demonstrate cases where learning from rich language feedback can be exponentially faster than learning from reward. We develop a no-regret algorithm, called HELiX, that provably solves LLF problems through sequential interactions, with performance guarantees that scale with the transfer eluder dimension of the problem. Across several empirical domains, we show that HELiX performs well even when repeatedly prompting LLMs does not work reliably. Our contributions mark a first step towards designing principled interactive learning algorithms from generic language feedback.

Aprendizado Comprovado a partir de Feedback Linguístico

Provably Learning from Language Feedback

Resumo

Support