ChatPaper.aiChatPaper

Apprendimento Verificabile da Feedback Linguistico

Provably Learning from Language Feedback

June 12, 2025
Autori: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI

Abstract

L'apprendimento interattivo dall'osservazione e dal feedback linguistico è un'area sempre più studiata, guidata dall'emergere di agenti basati su modelli linguistici di grandi dimensioni (LLM). Sebbene siano state dimostrate impressionanti evidenze empiriche, finora manca una formalizzazione rigorosa di questi problemi decisionali. In questo articolo, formalizziamo il problema dell'Apprendimento dal Feedback Linguistico (LLF), affermiamo ipotesi sufficienti per abilitare l'apprendimento nonostante ricompense latenti e introduciamo la dimensione di trasferimento eluder come misura di complessità per caratterizzare la difficoltà dei problemi LLF. Mostriamo che la dimensione di trasferimento eluder cattura l'intuizione che le informazioni nel feedback modificano la complessità dell'apprendimento del problema LLF. Dimostriamo casi in cui l'apprendimento da un feedback linguistico ricco può essere esponenzialmente più veloce rispetto all'apprendimento dalla ricompensa. Sviluppiamo un algoritmo senza rimpianto, chiamato HELiX, che risolve in modo dimostrabile i problemi LLF attraverso interazioni sequenziali, con garanzie di prestazioni che scalano con la dimensione di trasferimento eluder del problema. In diversi domini empirici, mostriamo che HELiX performa bene anche quando il prompting ripetuto di LLM non funziona in modo affidabile. I nostri contributi rappresentano un primo passo verso la progettazione di algoritmi di apprendimento interattivo basati su feedback linguistico generico.
English
Interactively learning from observation and language feedback is an increasingly studied area driven by the emergence of large language model (LLM) agents. While impressive empirical demonstrations have been shown, so far a principled framing of these decision problems remains lacking. In this paper, we formalize the Learning from Language Feedback (LLF) problem, assert sufficient assumptions to enable learning despite latent rewards, and introduce transfer eluder dimension as a complexity measure to characterize the hardness of LLF problems. We show that transfer eluder dimension captures the intuition that information in the feedback changes the learning complexity of the LLF problem. We demonstrate cases where learning from rich language feedback can be exponentially faster than learning from reward. We develop a no-regret algorithm, called HELiX, that provably solves LLF problems through sequential interactions, with performance guarantees that scale with the transfer eluder dimension of the problem. Across several empirical domains, we show that HELiX performs well even when repeatedly prompting LLMs does not work reliably. Our contributions mark a first step towards designing principled interactive learning algorithms from generic language feedback.
PDF82June 17, 2025