Smetti di Fare Regressione: Addestramento di Funzioni di Valore tramite Classificazione per il Deep RL Scalabile

Abstract

Le funzioni di valore sono un componente centrale dell'apprendimento per rinforzo profondo (RL). Queste funzioni, parametrizzate da reti neurali, vengono addestrate utilizzando un obiettivo di regressione a errore quadratico medio per corrispondere a valori target ottenuti tramite bootstrap. Tuttavia, scalare metodi RL basati su valore che utilizzano la regressione per reti di grandi dimensioni, come i Transformer ad alta capacità, si è rivelato impegnativo. Questa difficoltà è in netto contrasto con l'apprendimento supervisionato: sfruttando una perdita di classificazione a entropia incrociata, i metodi supervisionati si sono scalati in modo affidabile a reti di dimensioni massicce. Osservando questa discrepanza, in questo articolo, indaghiamo se la scalabilità del RL profondo possa essere migliorata semplicemente utilizzando la classificazione al posto della regressione per l'addestramento delle funzioni di valore. Dimostriamo che le funzioni di valore addestrate con entropia incrociata categorica migliorano significativamente le prestazioni e la scalabilità in una varietà di domini. Questi includono: RL a singolo compito sui giochi Atari 2600 con SoftMoEs, RL multi-compito su Atari con ResNet su larga scala, manipolazione robotica con Q-transformers, giocare a scacchi senza ricerca, e un compito di Wordle con agenti linguistici basati su Transformer ad alta capacità, raggiungendo risultati all'avanguardia in questi domini. Attraverso un'analisi attenta, mostriamo che i vantaggi dell'entropia incrociata categorica derivano principalmente dalla sua capacità di mitigare problemi intrinseci al RL basato su valore, come target rumorosi e non stazionarietà. In sintesi, sosteniamo che un semplice passaggio all'addestramento delle funzioni di valore con entropia incrociata categorica può portare a sostanziali miglioramenti nella scalabilità del RL profondo a costi minimi o nulli.

English

Value functions are a central component of deep reinforcement learning (RL). These functions, parameterized by neural networks, are trained using a mean squared error regression objective to match bootstrapped target values. However, scaling value-based RL methods that use regression to large networks, such as high-capacity Transformers, has proven challenging. This difficulty is in stark contrast to supervised learning: by leveraging a cross-entropy classification loss, supervised methods have scaled reliably to massive networks. Observing this discrepancy, in this paper, we investigate whether the scalability of deep RL can also be improved simply by using classification in place of regression for training value functions. We demonstrate that value functions trained with categorical cross-entropy significantly improves performance and scalability in a variety of domains. These include: single-task RL on Atari 2600 games with SoftMoEs, multi-task RL on Atari with large-scale ResNets, robotic manipulation with Q-transformers, playing Chess without search, and a language-agent Wordle task with high-capacity Transformers, achieving state-of-the-art results on these domains. Through careful analysis, we show that the benefits of categorical cross-entropy primarily stem from its ability to mitigate issues inherent to value-based RL, such as noisy targets and non-stationarity. Overall, we argue that a simple shift to training value functions with categorical cross-entropy can yield substantial improvements in the scalability of deep RL at little-to-no cost.

Smetti di Fare Regressione: Addestramento di Funzioni di Valore tramite Classificazione per il Deep RL Scalabile

Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Abstract

Support