ChatPaper.aiChatPaper

YOLOv9: Leren wat je wilt leren met programmeerbare gradiëntinformatie

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

February 21, 2024
Auteurs: Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
cs.AI

Samenvatting

De huidige deep learning-methoden richten zich op het ontwerpen van de meest geschikte doel functies, zodat de voorspellingsresultaten van het model zo dicht mogelijk bij de grondwaarheid liggen. Tegelijkertijd moet een geschikte architectuur worden ontworpen die het mogelijk maakt om voldoende informatie voor voorspelling te verkrijgen. Bestaande methoden negeren het feit dat wanneer invoergegevens laag-voor-laag kenmerkextractie en ruimtelijke transformatie ondergaan, een grote hoeveelheid informatie verloren gaat. Dit artikel gaat dieper in op de belangrijke kwesties van gegevensverlies wanneer gegevens door diepe netwerken worden doorgegeven, namelijk informatie bottleneck en omkeerbare functies. We introduceerden het concept van programmeerbare gradiëntinformatie (PGI) om om te gaan met de verschillende veranderingen die diepe netwerken vereisen om meerdere doelen te bereiken. PGI kan volledige invoerinformatie bieden voor de doel taak om de doel functie te berekenen, zodat betrouwbare gradiëntinformatie kan worden verkregen om netwerkgewichten bij te werken. Daarnaast is een nieuwe lichtgewicht netwerkarchitectuur ontworpen -- Generalized Efficient Layer Aggregation Network (GELAN), gebaseerd op gradiëntpadplanning. De architectuur van GELAN bevestigt dat PGI superieure resultaten heeft behaald op lichtgewicht modellen. We hebben de voorgestelde GELAN en PGI geverifieerd op objectdetectie gebaseerd op de MS COCO-dataset. De resultaten tonen aan dat GELAN alleen conventionele convolutie-operatoren gebruikt om een betere parameterbenutting te bereiken dan de state-of-the-art methoden die zijn ontwikkeld op basis van depth-wise convolutie. PGI kan worden gebruikt voor een verscheidenheid aan modellen, van lichtgewicht tot groot. Het kan worden gebruikt om volledige informatie te verkrijgen, zodat modellen die vanaf nul worden getraind betere resultaten kunnen bereiken dan state-of-the-art modellen die vooraf zijn getraind met grote datasets, de vergelijkingsresultaten zijn weergegeven in Figuur 1. De broncodes zijn te vinden op: https://github.com/WongKinYiu/yolov9.
English
Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.
PDF493December 15, 2024