ChatPaper.aiChatPaper

Nachweisbares Lernen aus Sprachfeedback

Provably Learning from Language Feedback

June 12, 2025
Autoren: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI

Zusammenfassung

Interaktives Lernen aus Beobachtung und Sprachfeedback ist ein zunehmend erforschtes Gebiet, das durch das Aufkommen von Agenten mit großen Sprachmodellen (LLMs) vorangetrieben wird. Obwohl bereits beeindruckende empirische Demonstrationen gezeigt wurden, fehlt bisher eine prinzipielle Rahmung dieser Entscheidungsprobleme. In diesem Artikel formalisieren wir das Problem des Lernens aus Sprachfeedback (LLF), stellen hinreichende Annahmen auf, um Lernen trotz latenter Belohnungen zu ermöglichen, und führen die Transfer-Eluder-Dimension als Komplexitätsmaß ein, um die Schwierigkeit von LLF-Problemen zu charakterisieren. Wir zeigen, dass die Transfer-Eluder-Dimension die Intuition erfasst, dass Informationen im Feedback die Lernkomplexität des LLF-Problems verändern. Wir demonstrieren Fälle, in denen das Lernen aus umfangreichem Sprachfeedback exponentiell schneller sein kann als das Lernen aus Belohnungen. Wir entwickeln einen No-Regret-Algorithmus namens HELiX, der LLF-Probleme durch sequenzielle Interaktionen nachweislich löst, mit Leistungsgarantien, die mit der Transfer-Eluder-Dimension des Problems skalieren. Über mehrere empirische Domänen hinweg zeigen wir, dass HELiX gut abschneidet, selbst wenn wiederholtes Abfragen von LLMs nicht zuverlässig funktioniert. Unsere Beiträge markieren einen ersten Schritt hin zur Entwicklung prinzipieller interaktiver Lernalgorithmen aus generischem Sprachfeedback.
English
Interactively learning from observation and language feedback is an increasingly studied area driven by the emergence of large language model (LLM) agents. While impressive empirical demonstrations have been shown, so far a principled framing of these decision problems remains lacking. In this paper, we formalize the Learning from Language Feedback (LLF) problem, assert sufficient assumptions to enable learning despite latent rewards, and introduce transfer eluder dimension as a complexity measure to characterize the hardness of LLF problems. We show that transfer eluder dimension captures the intuition that information in the feedback changes the learning complexity of the LLF problem. We demonstrate cases where learning from rich language feedback can be exponentially faster than learning from reward. We develop a no-regret algorithm, called HELiX, that provably solves LLF problems through sequential interactions, with performance guarantees that scale with the transfer eluder dimension of the problem. Across several empirical domains, we show that HELiX performs well even when repeatedly prompting LLMs does not work reliably. Our contributions mark a first step towards designing principled interactive learning algorithms from generic language feedback.
PDF62June 17, 2025