YOLOv9: Обучение тому, что вы хотите изучить, с использованием программируемой градиентной информации
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
February 21, 2024
Авторы: Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
cs.AI
Аннотация
Современные методы глубокого обучения сосредоточены на том, как разработать наиболее подходящие целевые функции, чтобы результаты предсказания модели были максимально близки к истинным значениям. Одновременно необходимо разработать подходящую архитектуру, которая может способствовать получению достаточного объема информации для прогнозирования. Существующие методы игнорируют тот факт, что при прохождении входных данных через послойное извлечение признаков и пространственные преобразования теряется значительное количество информации. В данной статье рассматриваются важные вопросы потери данных при их передаче через глубокие сети, а именно информационное узкое место и обратимые функции. Мы предложили концепцию программируемой градиентной информации (PGI) для адаптации к различным изменениям, требуемым глубокими сетями для достижения множества целей. PGI может предоставлять полную входную информацию для целевой задачи, чтобы рассчитывать целевую функцию, что позволяет получать надежную градиентную информацию для обновления весов сети. Кроме того, разработана новая легковесная сетевая архитектура — Обобщенная Эффективная Сеть Агрегации Слоев (GELAN), основанная на планировании градиентных путей. Архитектура GELAN подтверждает, что PGI демонстрирует превосходные результаты на легковесных моделях. Мы проверили предложенные GELAN и PGI на задаче детекции объектов на наборе данных MS COCO. Результаты показывают, что GELAN, используя только стандартные операторы свертки, достигает лучшего использования параметров по сравнению с современными методами, разработанными на основе depth-wise сверток. PGI может применяться для различных моделей — от легковесных до крупных. Она позволяет получать полную информацию, благодаря чему модели, обучаемые с нуля, могут достигать лучших результатов, чем современные модели, предварительно обученные на больших наборах данных. Сравнительные результаты представлены на Рисунке 1. Исходные коды доступны по адресу: https://github.com/WongKinYiu/yolov9.
English
Today's deep learning methods focus on how to design the most appropriate
objective functions so that the prediction results of the model can be closest
to the ground truth. Meanwhile, an appropriate architecture that can facilitate
acquisition of enough information for prediction has to be designed. Existing
methods ignore a fact that when input data undergoes layer-by-layer feature
extraction and spatial transformation, large amount of information will be
lost. This paper will delve into the important issues of data loss when data is
transmitted through deep networks, namely information bottleneck and reversible
functions. We proposed the concept of programmable gradient information (PGI)
to cope with the various changes required by deep networks to achieve multiple
objectives. PGI can provide complete input information for the target task to
calculate objective function, so that reliable gradient information can be
obtained to update network weights. In addition, a new lightweight network
architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based
on gradient path planning is designed. GELAN's architecture confirms that PGI
has gained superior results on lightweight models. We verified the proposed
GELAN and PGI on MS COCO dataset based object detection. The results show that
GELAN only uses conventional convolution operators to achieve better parameter
utilization than the state-of-the-art methods developed based on depth-wise
convolution. PGI can be used for variety of models from lightweight to large.
It can be used to obtain complete information, so that train-from-scratch
models can achieve better results than state-of-the-art models pre-trained
using large datasets, the comparison results are shown in Figure 1. The source
codes are at: https://github.com/WongKinYiu/yolov9.