ChatPaper.aiChatPaper

Bewijsbaar Leren van Taalgerichte Feedback

Provably Learning from Language Feedback

June 12, 2025
Auteurs: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI

Samenvatting

Interactief leren van observatie en taalfeedback is een steeds meer bestudeerd gebied, aangedreven door de opkomst van grote taalmodel (LLM) agents. Hoewel indrukwekkende empirische demonstraties zijn getoond, ontbreekt tot nu toe een principieel kader voor deze beslissingsproblemen. In dit artikel formaliseren we het Learning from Language Feedback (LLF) probleem, stellen we voldoende aannames vast om leren mogelijk te maken ondanks latente beloningen, en introduceren we de transfer eluder dimensie als een complexiteitsmaat om de moeilijkheidsgraad van LLF-problemen te karakteriseren. We laten zien dat de transfer eluder dimensie de intuïtie vastlegt dat informatie in de feedback de leercomplexiteit van het LLF-probleem verandert. We demonstreren gevallen waarin leren van rijke taalfeedback exponentieel sneller kan zijn dan leren van beloning. We ontwikkelen een no-regret algoritme, genaamd HELiX, dat LLF-problemen bewezen oplost door sequentiële interacties, met prestatiegaranties die schalen met de transfer eluder dimensie van het probleem. Over verschillende empirische domeinen laten we zien dat HELiX goed presteert, zelfs wanneer herhaaldelijk prompten van LLM's niet betrouwbaar werkt. Onze bijdragen markeren een eerste stap naar het ontwerpen van principiële interactieve leeralgoritmen vanuit generieke taalfeedback.
English
Interactively learning from observation and language feedback is an increasingly studied area driven by the emergence of large language model (LLM) agents. While impressive empirical demonstrations have been shown, so far a principled framing of these decision problems remains lacking. In this paper, we formalize the Learning from Language Feedback (LLF) problem, assert sufficient assumptions to enable learning despite latent rewards, and introduce transfer eluder dimension as a complexity measure to characterize the hardness of LLF problems. We show that transfer eluder dimension captures the intuition that information in the feedback changes the learning complexity of the LLF problem. We demonstrate cases where learning from rich language feedback can be exponentially faster than learning from reward. We develop a no-regret algorithm, called HELiX, that provably solves LLF problems through sequential interactions, with performance guarantees that scale with the transfer eluder dimension of the problem. Across several empirical domains, we show that HELiX performs well even when repeatedly prompting LLMs does not work reliably. Our contributions mark a first step towards designing principled interactive learning algorithms from generic language feedback.
PDF82June 17, 2025