ChatPaper.aiChatPaper

YOLOv9: Aprendendo o que você quer aprender usando informações de gradiente programáveis

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

February 21, 2024
Autores: Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
cs.AI

Resumo

Os métodos atuais de aprendizado profundo concentram-se em como projetar as funções objetivo mais adequadas para que os resultados de previsão do modelo possam estar o mais próximo possível da verdade fundamental. Paralelamente, uma arquitetura apropriada que facilite a aquisição de informações suficientes para a previsão precisa ser projetada. Os métodos existentes ignoram o fato de que, quando os dados de entrada passam por extração de características camada por camada e transformação espacial, uma grande quantidade de informações será perdida. Este artigo se aprofundará nas questões importantes da perda de dados quando eles são transmitidos por redes profundas, nomeadamente o gargalo de informação e as funções reversíveis. Propomos o conceito de informação de gradiente programável (PGI) para lidar com as diversas mudanças exigidas pelas redes profundas para alcançar múltiplos objetivos. O PGI pode fornecer informações completas de entrada para a tarefa alvo, permitindo o cálculo da função objetivo, de modo que informações confiáveis de gradiente possam ser obtidas para atualizar os pesos da rede. Além disso, uma nova arquitetura de rede leve -- Rede de Agregação de Camadas Eficiente Generalizada (GELAN), baseada no planejamento de caminho de gradiente, foi projetada. A arquitetura da GELAN confirma que o PGI obteve resultados superiores em modelos leves. Verificamos a GELAN e o PGI propostos na detecção de objetos baseada no conjunto de dados MS COCO. Os resultados mostram que a GELAN utiliza apenas operadores de convolução convencionais para alcançar uma melhor utilização de parâmetros do que os métodos state-of-the-art desenvolvidos com base em convolução depth-wise. O PGI pode ser usado para uma variedade de modelos, desde os leves até os grandes. Ele pode ser usado para obter informações completas, de modo que modelos treinados do zero possam alcançar resultados melhores do que os modelos state-of-the-art pré-treinados usando grandes conjuntos de dados, os resultados da comparação são mostrados na Figura 1. Os códigos-fonte estão disponíveis em: https://github.com/WongKinYiu/yolov9.
English
Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.
PDF493December 15, 2024