YOLOv9: Aprendiendo lo que quieres aprender usando información de gradiente programable

Resumen

Los métodos actuales de aprendizaje profundo se centran en cómo diseñar las funciones de objetivo más adecuadas para que los resultados de predicción del modelo se acerquen lo más posible a la verdad fundamental. Al mismo tiempo, es necesario diseñar una arquitectura apropiada que facilite la adquisición de suficiente información para la predicción. Los métodos existentes ignoran el hecho de que, cuando los datos de entrada pasan por una extracción de características capa por capa y una transformación espacial, se pierde una gran cantidad de información. Este artículo profundizará en los problemas importantes de la pérdida de datos cuando estos se transmiten a través de redes profundas, específicamente el cuello de botella de información y las funciones reversibles. Proponemos el concepto de información de gradiente programable (PGI, por sus siglas en inglés) para abordar los diversos cambios requeridos por las redes profundas para alcanzar múltiples objetivos. PGI puede proporcionar información completa de entrada para la tarea objetivo, permitiendo calcular la función de objetivo y obtener información de gradiente confiable para actualizar los pesos de la red. Además, se ha diseñado una nueva arquitectura de red ligera: la Red de Agregación de Capas Eficiente Generalizada (GELAN, por sus siglas en inglés), basada en la planificación de rutas de gradiente. La arquitectura de GELAN confirma que PGI ha obtenido resultados superiores en modelos ligeros. Verificamos la propuesta de GELAN y PGI en la detección de objetos basada en el conjunto de datos MS COCO. Los resultados muestran que GELAN utiliza únicamente operadores de convolución convencionales para lograr una mejor utilización de parámetros que los métodos más avanzados desarrollados basados en convoluciones profundas. PGI puede utilizarse en una variedad de modelos, desde ligeros hasta grandes. Puede emplearse para obtener información completa, permitiendo que modelos entrenados desde cero logren mejores resultados que los modelos más avanzados preentrenados con grandes conjuntos de datos. Los resultados de comparación se muestran en la Figura 1. Los códigos fuente están disponibles en: https://github.com/WongKinYiu/yolov9.

English

Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.

YOLOv9: Aprendiendo lo que quieres aprender usando información de gradiente programable

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Resumen

Support