Apprendimento Verificabile da Feedback Linguistico
Provably Learning from Language Feedback
June 12, 2025
Autori: Wanqiao Xu, Allen Nie, Ruijie Zheng, Aditya Modi, Adith Swaminathan, Ching-An Cheng
cs.AI
Abstract
L'apprendimento interattivo dall'osservazione e dal feedback linguistico è un'area sempre più studiata, guidata dall'emergere di agenti basati su modelli linguistici di grandi dimensioni (LLM). Sebbene siano state dimostrate impressionanti evidenze empiriche, finora manca una formalizzazione rigorosa di questi problemi decisionali. In questo articolo, formalizziamo il problema dell'Apprendimento dal Feedback Linguistico (LLF), affermiamo ipotesi sufficienti per abilitare l'apprendimento nonostante ricompense latenti e introduciamo la dimensione di trasferimento eluder come misura di complessità per caratterizzare la difficoltà dei problemi LLF. Mostriamo che la dimensione di trasferimento eluder cattura l'intuizione che le informazioni nel feedback modificano la complessità dell'apprendimento del problema LLF. Dimostriamo casi in cui l'apprendimento da un feedback linguistico ricco può essere esponenzialmente più veloce rispetto all'apprendimento dalla ricompensa. Sviluppiamo un algoritmo senza rimpianto, chiamato HELiX, che risolve in modo dimostrabile i problemi LLF attraverso interazioni sequenziali, con garanzie di prestazioni che scalano con la dimensione di trasferimento eluder del problema. In diversi domini empirici, mostriamo che HELiX performa bene anche quando il prompting ripetuto di LLM non funziona in modo affidabile. I nostri contributi rappresentano un primo passo verso la progettazione di algoritmi di apprendimento interattivo basati su feedback linguistico generico.
English
Interactively learning from observation and language feedback is an
increasingly studied area driven by the emergence of large language model (LLM)
agents. While impressive empirical demonstrations have been shown, so far a
principled framing of these decision problems remains lacking. In this paper,
we formalize the Learning from Language Feedback (LLF) problem, assert
sufficient assumptions to enable learning despite latent rewards, and introduce
transfer eluder dimension as a complexity measure to characterize
the hardness of LLF problems. We show that transfer eluder dimension captures
the intuition that information in the feedback changes the learning complexity
of the LLF problem. We demonstrate cases where learning from rich language
feedback can be exponentially faster than learning from reward. We develop a
no-regret algorithm, called HELiX, that provably solves LLF problems
through sequential interactions, with performance guarantees that scale with
the transfer eluder dimension of the problem. Across several empirical domains,
we show that HELiX performs well even when repeatedly prompting LLMs
does not work reliably. Our contributions mark a first step towards designing
principled interactive learning algorithms from generic language feedback.