ChatPaper.aiChatPaper

YOLOv9 : Apprendre ce que vous souhaitez apprendre grâce à l'information de gradient programmable

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

February 21, 2024
Auteurs: Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
cs.AI

Résumé

Les méthodes actuelles d'apprentissage profond se concentrent sur la conception des fonctions objectives les plus appropriées afin que les résultats de prédiction du modèle soient les plus proches possible de la vérité terrain. Parallèlement, une architecture appropriée permettant d'acquérir suffisamment d'informations pour la prédiction doit être conçue. Les méthodes existantes ignorent un fait essentiel : lorsque les données d'entrée subissent une extraction de caractéristiques couche par couche et une transformation spatiale, une grande quantité d'informations est perdue. Cet article explore en profondeur les problèmes importants de perte de données lors de la transmission à travers des réseaux profonds, à savoir le goulot d'étranglement informationnel et les fonctions réversibles. Nous proposons le concept d'information de gradient programmable (PGI) pour répondre aux divers changements requis par les réseaux profonds afin d'atteindre plusieurs objectifs. Le PGI peut fournir des informations d'entrée complètes pour la tâche cible afin de calculer la fonction objective, permettant ainsi d'obtenir des informations de gradient fiables pour mettre à jour les poids du réseau. De plus, une nouvelle architecture de réseau léger -- le Réseau d'Aggrégation de Couches Efficace Généralisé (GELAN), basé sur la planification de chemin de gradient, est conçue. L'architecture du GELAN confirme que le PGI a obtenu des résultats supérieurs sur des modèles légers. Nous avons validé le GELAN et le PGI proposés sur la détection d'objets basée sur le jeu de données MS COCO. Les résultats montrent que le GELAN utilise uniquement des opérateurs de convolution conventionnels pour atteindre une meilleure utilisation des paramètres que les méthodes de pointe développées à partir de convolutions séparables en profondeur. Le PGI peut être utilisé pour une variété de modèles, des plus légers aux plus grands. Il peut être utilisé pour obtenir des informations complètes, permettant ainsi à des modèles entraînés à partir de zéro d'obtenir de meilleurs résultats que les modèles de pointe pré-entraînés sur de grands jeux de données, comme le montrent les résultats de comparaison dans la Figure 1. Les codes sources sont disponibles à l'adresse : https://github.com/WongKinYiu/yolov9.
English
Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.

Summary

AI-Generated Summary

PDF483December 15, 2024