ChatPaper.aiChatPaper

Доказательное обучение на основе языковой обратной связи

Provably Learning from Language Feedback

June 12, 2025
Авторы: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI

Аннотация

Интерактивное обучение на основе наблюдений и языковой обратной связи становится всё более изучаемой областью, чему способствует появление агентов на основе больших языковых моделей (LLM). Хотя были продемонстрированы впечатляющие эмпирические результаты, до сих пор отсутствует строгая формализация этих задач принятия решений. В данной работе мы формализуем задачу обучения на основе языковой обратной связи (LLF), формулируем достаточные предположения для обеспечения обучения при скрытых наградах и вводим размерность переноса (transfer eluder dimension) как меру сложности для характеристики трудности задач LLF. Мы показываем, что размерность переноса отражает интуицию о том, что информация в обратной связи изменяет сложность обучения в задачах LLF. Мы демонстрируем случаи, когда обучение на основе богатой языковой обратной связи может быть экспоненциально быстрее, чем обучение на основе наград. Мы разрабатываем алгоритм без сожаления, называемый HELiX, который теоретически решает задачи LLF через последовательные взаимодействия, с гарантиями производительности, масштабируемыми в зависимости от размерности переноса задачи. В нескольких эмпирических областях мы показываем, что HELiX работает хорошо даже в случаях, когда многократные запросы к LLM не дают надёжных результатов. Наш вклад представляет собой первый шаг к разработке принципиальных алгоритмов интерактивного обучения на основе универсальной языковой обратной связи.
English
Interactively learning from observation and language feedback is an increasingly studied area driven by the emergence of large language model (LLM) agents. While impressive empirical demonstrations have been shown, so far a principled framing of these decision problems remains lacking. In this paper, we formalize the Learning from Language Feedback (LLF) problem, assert sufficient assumptions to enable learning despite latent rewards, and introduce transfer eluder dimension as a complexity measure to characterize the hardness of LLF problems. We show that transfer eluder dimension captures the intuition that information in the feedback changes the learning complexity of the LLF problem. We demonstrate cases where learning from rich language feedback can be exponentially faster than learning from reward. We develop a no-regret algorithm, called HELiX, that provably solves LLF problems through sequential interactions, with performance guarantees that scale with the transfer eluder dimension of the problem. Across several empirical domains, we show that HELiX performs well even when repeatedly prompting LLMs does not work reliably. Our contributions mark a first step towards designing principled interactive learning algorithms from generic language feedback.
PDF82June 17, 2025