Smetti di Fare Regressione: Addestramento di Funzioni di Valore tramite Classificazione per il Deep RL Scalabile
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL
March 6, 2024
Autori: Jesse Farebrother, Jordi Orbay, Quan Vuong, Adrien Ali Taïga, Yevgen Chebotar, Ted Xiao, Alex Irpan, Sergey Levine, Pablo Samuel Castro, Aleksandra Faust, Aviral Kumar, Rishabh Agarwal
cs.AI
Abstract
Le funzioni di valore sono un componente centrale dell'apprendimento per rinforzo profondo (RL). Queste funzioni, parametrizzate da reti neurali, vengono addestrate utilizzando un obiettivo di regressione a errore quadratico medio per corrispondere a valori target ottenuti tramite bootstrap. Tuttavia, scalare metodi RL basati su valore che utilizzano la regressione per reti di grandi dimensioni, come i Transformer ad alta capacità, si è rivelato impegnativo. Questa difficoltà è in netto contrasto con l'apprendimento supervisionato: sfruttando una perdita di classificazione a entropia incrociata, i metodi supervisionati si sono scalati in modo affidabile a reti di dimensioni massicce. Osservando questa discrepanza, in questo articolo, indaghiamo se la scalabilità del RL profondo possa essere migliorata semplicemente utilizzando la classificazione al posto della regressione per l'addestramento delle funzioni di valore. Dimostriamo che le funzioni di valore addestrate con entropia incrociata categorica migliorano significativamente le prestazioni e la scalabilità in una varietà di domini. Questi includono: RL a singolo compito sui giochi Atari 2600 con SoftMoEs, RL multi-compito su Atari con ResNet su larga scala, manipolazione robotica con Q-transformers, giocare a scacchi senza ricerca, e un compito di Wordle con agenti linguistici basati su Transformer ad alta capacità, raggiungendo risultati all'avanguardia in questi domini. Attraverso un'analisi attenta, mostriamo che i vantaggi dell'entropia incrociata categorica derivano principalmente dalla sua capacità di mitigare problemi intrinseci al RL basato su valore, come target rumorosi e non stazionarietà. In sintesi, sosteniamo che un semplice passaggio all'addestramento delle funzioni di valore con entropia incrociata categorica può portare a sostanziali miglioramenti nella scalabilità del RL profondo a costi minimi o nulli.
English
Value functions are a central component of deep reinforcement learning (RL).
These functions, parameterized by neural networks, are trained using a mean
squared error regression objective to match bootstrapped target values.
However, scaling value-based RL methods that use regression to large networks,
such as high-capacity Transformers, has proven challenging. This difficulty is
in stark contrast to supervised learning: by leveraging a cross-entropy
classification loss, supervised methods have scaled reliably to massive
networks. Observing this discrepancy, in this paper, we investigate whether the
scalability of deep RL can also be improved simply by using classification in
place of regression for training value functions. We demonstrate that value
functions trained with categorical cross-entropy significantly improves
performance and scalability in a variety of domains. These include: single-task
RL on Atari 2600 games with SoftMoEs, multi-task RL on Atari with large-scale
ResNets, robotic manipulation with Q-transformers, playing Chess without
search, and a language-agent Wordle task with high-capacity Transformers,
achieving state-of-the-art results on these domains. Through careful analysis,
we show that the benefits of categorical cross-entropy primarily stem from its
ability to mitigate issues inherent to value-based RL, such as noisy targets
and non-stationarity. Overall, we argue that a simple shift to training value
functions with categorical cross-entropy can yield substantial improvements in
the scalability of deep RL at little-to-no cost.