Построение и более глубокое понимание моделей видео-языкового взаимодействия: идеи и
перспективы развитияBuilding and better understanding vision-language models: insights and
future directions
Область моделей видео-языка (VLM), которые принимают изображения и тексты в качестве входных данных и выдают тексты, стремительно развивается и пока не достигла согласия по нескольким ключевым аспектам процесса разработки, включая данные, архитектуру и методы обучения. Этот документ можно рассматривать как руководство по созданию VLM. Мы начинаем с обзора текущих передовых подходов, выделяя сильные и слабые стороны каждого из них, рассматривая основные проблемы в области и предлагая перспективные направления исследований для недостаточно изученных областей. Затем мы переходим к практическим шагам по созданию Idefics3-8B, мощного VLM, который значительно превосходит своего предшественника Idefics2-8B, обучаясь эффективно, исключительно на открытых наборах данных и используя простой процесс. Эти шаги включают создание Docmatix, набора данных для улучшения способностей понимания документов, который в 240 раз больше, чем ранее доступные наборы данных. Мы предоставляем модель вместе с созданными для ее обучения наборами данных.