ChatPaper.aiChatPaper

No aprendizado por reforço profundo, uma rede podada é uma boa rede.

In deep reinforcement learning, a pruned network is a good network

February 19, 2024
Autores: Johan Obando-Ceron, Aaron Courville, Pablo Samuel Castro
cs.AI

Resumo

Trabalhos recentes demonstraram que agentes de aprendizado por reforço profundo têm dificuldade em utilizar efetivamente seus parâmetros de rede. Aproveitamos insights anteriores sobre as vantagens de técnicas de treinamento esparso e mostramos que a poda gradual de magnitude permite que os agentes maximizem a eficácia dos parâmetros. Isso resulta em redes que proporcionam melhorias dramáticas de desempenho em comparação com redes tradicionais e exibem um tipo de "lei de escalonamento", utilizando apenas uma pequena fração dos parâmetros da rede completa.
English
Recent work has shown that deep reinforcement learning agents have difficulty in effectively using their network parameters. We leverage prior insights into the advantages of sparse training techniques and demonstrate that gradual magnitude pruning enables agents to maximize parameter effectiveness. This results in networks that yield dramatic performance improvements over traditional networks and exhibit a type of "scaling law", using only a small fraction of the full network parameters.
PDF191December 15, 2024