YOLOv9: Lernen, was Sie lernen möchten, mit programmierbarer Gradienteninformation
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
February 21, 2024
Autoren: Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
cs.AI
Zusammenfassung
Die heutigen Deep-Learning-Methoden konzentrieren sich darauf, die am besten geeigneten Zielfunktionen zu entwerfen, damit die Vorhersageergebnisse des Modells möglichst nahe an der Grundwahrheit liegen. Gleichzeitig muss eine geeignete Architektur entwickelt werden, die den Erwerb ausreichender Informationen für die Vorhersage ermöglicht. Bestehende Methoden ignorieren die Tatsache, dass bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten eine große Menge an Informationen verloren geht. Dieses Papier wird die wichtigen Fragen des Datenverlusts, wenn Daten durch tiefe Netzwerke übertragen werden, nämlich den Informationsengpass und reversible Funktionen, eingehend untersuchen. Wir haben das Konzept der programmierbaren Gradienteninformation (PGI) vorgeschlagen, um den verschiedenen Anforderungen tiefer Netzwerke zur Erreichung mehrerer Ziele gerecht zu werden. PGI kann vollständige Eingabeinformationen für die Zielaufgabe bereitstellen, um die Zielfunktion zu berechnen, sodass zuverlässige Gradienteninformationen zur Aktualisierung der Netzwerkgewichte erhalten werden können. Darüber hinaus wurde eine neue leichte Netzwerkarchitektur – das Generalized Efficient Layer Aggregation Network (GELAN) – basierend auf der Gradientenpfadplanung entwickelt. Die Architektur von GELAN bestätigt, dass PGI bei leichten Modellen überlegene Ergebnisse erzielt hat. Wir haben das vorgeschlagene GELAN und PGI anhand der Objekterkennung auf dem MS-COCO-Datensatz überprüft. Die Ergebnisse zeigen, dass GELAN nur herkömmliche Faltungsoperatoren verwendet, um eine bessere Parameterausnutzung als die auf Tiefenweise-Faltung basierenden State-of-the-Art-Methoden zu erreichen. PGI kann für eine Vielzahl von Modellen, von leicht bis groß, verwendet werden. Es kann verwendet werden, um vollständige Informationen zu erhalten, sodass von Grund auf trainierte Modelle bessere Ergebnisse erzielen können als State-of-the-Art-Modelle, die mit großen Datensätzen vortrainiert wurden. Die Vergleichsergebnisse sind in Abbildung 1 dargestellt. Die Quellcodes sind unter: https://github.com/WongKinYiu/yolov9 verfügbar.
English
Today's deep learning methods focus on how to design the most appropriate
objective functions so that the prediction results of the model can be closest
to the ground truth. Meanwhile, an appropriate architecture that can facilitate
acquisition of enough information for prediction has to be designed. Existing
methods ignore a fact that when input data undergoes layer-by-layer feature
extraction and spatial transformation, large amount of information will be
lost. This paper will delve into the important issues of data loss when data is
transmitted through deep networks, namely information bottleneck and reversible
functions. We proposed the concept of programmable gradient information (PGI)
to cope with the various changes required by deep networks to achieve multiple
objectives. PGI can provide complete input information for the target task to
calculate objective function, so that reliable gradient information can be
obtained to update network weights. In addition, a new lightweight network
architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based
on gradient path planning is designed. GELAN's architecture confirms that PGI
has gained superior results on lightweight models. We verified the proposed
GELAN and PGI on MS COCO dataset based object detection. The results show that
GELAN only uses conventional convolution operators to achieve better parameter
utilization than the state-of-the-art methods developed based on depth-wise
convolution. PGI can be used for variety of models from lightweight to large.
It can be used to obtain complete information, so that train-from-scratch
models can achieve better results than state-of-the-art models pre-trained
using large datasets, the comparison results are shown in Figure 1. The source
codes are at: https://github.com/WongKinYiu/yolov9.Summary
AI-Generated Summary