ChatPaper.aiChatPaper

YOLOv9: Apprendere ciò che vuoi apprendere utilizzando informazioni programmabili sul gradiente

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

February 21, 2024
Autori: Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
cs.AI

Abstract

I metodi di deep learning odierni si concentrano su come progettare le funzioni obiettivo più appropriate affinché i risultati predittivi del modello possano essere il più vicini possibile alla verità di riferimento. Allo stesso tempo, è necessario progettare un'architettura adeguata che possa facilitare l'acquisizione di informazioni sufficienti per la previsione. I metodi esistenti ignorano il fatto che, quando i dati di input subiscono un'estrazione di caratteristiche strato per strato e una trasformazione spaziale, una grande quantità di informazioni andrà persa. Questo articolo approfondirà le questioni cruciali della perdita di dati quando questi vengono trasmessi attraverso reti profonde, ovvero il collo di bottiglia informativo e le funzioni reversibili. Abbiamo proposto il concetto di informazione sul gradiente programmabile (PGI) per affrontare i vari cambiamenti richiesti dalle reti profonde per raggiungere molteplici obiettivi. Il PGI può fornire informazioni complete sull'input per il compito target per calcolare la funzione obiettivo, in modo da ottenere informazioni affidabili sul gradiente per aggiornare i pesi della rete. Inoltre, è stata progettata una nuova architettura di rete leggera -- Generalized Efficient Layer Aggregation Network (GELAN), basata sulla pianificazione del percorso del gradiente. L'architettura di GELAN conferma che il PGI ha ottenuto risultati superiori su modelli leggeri. Abbiamo verificato il GELAN e il PGI proposti sulla rilevazione di oggetti basata sul dataset MS COCO. I risultati mostrano che GELAN utilizza solo operatori di convoluzione convenzionali per ottenere una migliore utilizzazione dei parametri rispetto ai metodi all'avanguardia sviluppati basandosi sulla convoluzione depth-wise. Il PGI può essere utilizzato per una varietà di modelli, da quelli leggeri a quelli di grandi dimensioni. Può essere utilizzato per ottenere informazioni complete, in modo che i modelli addestrati da zero possano ottenere risultati migliori rispetto ai modelli all'avanguardia pre-addestrati utilizzando grandi dataset, i risultati del confronto sono mostrati nella Figura 1. I codici sorgente sono disponibili su: https://github.com/WongKinYiu/yolov9.
English
Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.
PDF493December 15, 2024