Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем GAIA — эталонный тест для универсальных искусственных интеллектов, решение которого станет важной вехой в исследованиях ИИ. GAIA предлагает реальные вопросы, требующие набора фундаментальных способностей, таких как логическое рассуждение, обработка мультимодальных данных, веб-поиск и общее умение работать с инструментами. Вопросы GAIA концептуально просты для людей, но сложны для большинства современных ИИ: мы показываем, что люди дают правильные ответы в 92% случаев, в то время как GPT-4 с плагинами справляется лишь в 15%. Этот значительный разрыв в производительности контрастирует с недавней тенденцией, когда языковые модели превосходят людей в задачах, требующих профессиональных навыков, например в юриспруденции или химии. Философия GAIA отличается от текущего тренда в эталонных тестах ИИ, которые предлагают задачи, всё более сложные для людей. Мы утверждаем, что появление искусственного общего интеллекта (ИОИ) зависит от способности системы демонстрировать такую же устойчивость, как средний человек, при решении подобных вопросов. Используя методологию GAIA, мы разработали 466 вопросов и ответов на них. Мы публикуем вопросы, сохраняя ответы на 300 из них для создания рейтинговой таблицы, доступной по адресу https://huggingface.co/gaia-benchmark.
Методы генерации мультимедиа занимают важное место в исследованиях искусственного интеллекта. Модели преобразования текста в изображение достигли высококачественных результатов за последние несколько лет. Однако методы синтеза видео начали развиваться сравнительно недавно. В данной статье представлена новая двухэтапная архитектура генерации видео из текста на основе латентной диффузии, базирующаяся на модели диффузии для преобразования текста в изображение. Первый этап посвящен синтезу ключевых кадров для формирования сюжетной линии видео, тогда как второй этап сосредоточен на генерации интерполяционных кадров для обеспечения плавности движений сцены и объектов. Мы сравниваем несколько подходов к временному условию для генерации ключевых кадров. Результаты демонстрируют преимущество использования отдельных временных блоков перед временными слоями с точки зрения метрик, отражающих аспекты качества генерации видео и предпочтения пользователей. Конструкция нашей модели интерполяции значительно снижает вычислительные затраты по сравнению с другими подходами к интерполяции маскированных кадров. Кроме того, мы оцениваем различные конфигурации схемы декодирования видео на основе MoVQ для улучшения согласованности и достижения более высоких показателей PSNR, SSIM, MSE и LPIPS. Наконец, мы сравниваем наш подход с существующими решениями и достигаем второго места в общем рейтинге и первого среди открытых решений: CLIPSIM = 0,2976 и FVD = 433,054. Страница проекта: https://ai-forever.github.io/kandinsky-video/
С широким распространением VR-устройств и контента растет спрос на технологии генерации 3D-сцен. Однако существующие модели генерации 3D-сцен ограничивают целевую сцену конкретной областью, в основном из-за стратегий обучения, использующих наборы данных 3D-сканирования, которые далеки от реального мира. Чтобы устранить это ограничение, мы предлагаем LucidDreamer — универсальный конвейер генерации сцен, полностью использующий возможности существующих крупномасштабных генеративных моделей на основе диффузии. Наш LucidDreamer состоит из двух чередующихся этапов: "Сновидение" и "Согласование". Во-первых, для генерации многовидовых согласованных изображений из входных данных мы используем облако точек в качестве геометрического ориентира для генерации каждого изображения. В частности, мы проецируем часть облака точек на желаемый вид и используем эту проекцию как ориентир для восстановления изображения с помощью генеративной модели. Восстановленные изображения преобразуются в 3D-пространство с использованием оцененных карт глубины, формируя новые точки. Во-вторых, для объединения новых точек в 3D-сцену мы предлагаем алгоритм согласования, который гармонично интегрирует части вновь сгенерированных 3D-сцен. Полученная 3D-сцена служит начальными точками для оптимизации сплатов Гаусса. LucidDreamer создает сплаты Гаусса, которые отличаются высокой детализацией по сравнению с предыдущими методами генерации 3D-сцен, без ограничений на область целевой сцены.
Крупные языковые модели (LLM) дорабатываются с использованием данных человеческих сравнений методами обучения с подкреплением на основе человеческой обратной связи (RLHF), чтобы лучше соответствовать предпочтениям пользователей. В отличие от LLM, обучение на основе человеческих предпочтений не получило широкого распространения в диффузионных моделях для генерации изображений по тексту; лучший существующий подход заключается в доработке предварительно обученной модели с использованием тщательно отобранных высококачественных изображений и подписей для улучшения визуальной привлекательности и соответствия тексту. Мы предлагаем метод Diffusion-DPO, который позволяет адаптировать диффузионные модели к человеческим предпочтениям путем прямой оптимизации на основе данных человеческих сравнений. Diffusion-DPO адаптирован из недавно разработанного метода Direct Preference Optimization (DPO), более простой альтернативы RLHF, который напрямую оптимизирует политику, наилучшим образом удовлетворяющую человеческим предпочтениям в рамках задачи классификации. Мы переформулируем DPO с учетом понятия правдоподобия для диффузионных моделей, используя нижнюю границу доказательства для вывода дифференцируемой целевой функции. Используя набор данных Pick-a-Pic, содержащий 851 тыс. парных предпочтений, собранных с помощью краудсорсинга, мы дорабатываем базовую модель современной модели Stable Diffusion XL (SDXL)-1.0 с помощью Diffusion-DPO. Наша доработанная базовая модель значительно превосходит как базовую SDXL-1.0, так и более крупную модель SDXL-1.0, включающую дополнительную модель уточнения, в оценке людьми, улучшая визуальную привлекательность и соответствие запросу. Мы также разрабатываем вариант, использующий обратную связь от ИИ, который демонстрирует сопоставимую производительность с обучением на человеческих предпочтениях, открывая путь для масштабирования методов адаптации диффузионных моделей.
Методы тонкой настройки генеративных моделей для персонализации на основе концепций обычно демонстрируют высокие результаты в задачах генерации, ориентированных на объекты или стили. Недавно были предложены низкоранговые адаптации (LoRA) как параметрически эффективный способ достижения персонализации на основе концепций. Хотя современные исследования изучают комбинацию отдельных LoRA для совместной генерации изученных стилей и объектов, существующие методы не всегда надежно решают эту задачу; они часто идут на компромисс либо в точности воспроизведения объекта, либо в точности стиля. Мы предлагаем ZipLoRA — метод для дешевого и эффективного объединения независимо обученных LoRA для стиля и объекта, что позволяет генерировать любой предоставленный пользователем объект в любом предоставленном стиле. Эксперименты с широким спектром комбинаций объектов и стилей показывают, что ZipLoRA способна создавать убедительные результаты с существенным улучшением точности воспроизведения объекта и стиля по сравнению с базовыми методами, сохраняя при этом возможность переконтекстуализации. Страница проекта: https://ziplora.github.io.
Использование обучения с подкреплением с обратной связью от человека (RLHF) показало значительный потенциал в тонкой настройке диффузионных моделей. Предыдущие методы начинаются с обучения модели вознаграждения, которая соответствует человеческим предпочтениям, а затем используют техники обучения с подкреплением для тонкой настройки базовых моделей. Однако создание эффективной модели вознаграждения требует обширных наборов данных, оптимальной архитектуры и ручной настройки гиперпараметров, что делает процесс трудоемким и затратным. Метод прямой оптимизации предпочтений (DPO), эффективный для тонкой настройки больших языковых моделей, устраняет необходимость в модели вознаграждения. Однако значительные требования к памяти GPU в процессе удаления шума диффузионной модели препятствуют прямому применению метода DPO. Для решения этой проблемы мы представляем метод прямой оптимизации политики удаления шума с учетом предпочтений (D3PO), который позволяет напрямую настраивать диффузионные модели. Теоретический анализ показывает, что, хотя D3PO исключает обучение модели вознаграждения, он эффективно функционирует как оптимальная модель вознаграждения, обученная на данных с обратной связью от человека для управления процессом обучения. Этот подход не требует обучения модели вознаграждения, что делает его более прямым, экономически эффективным и минимизирует вычислительные затраты. В экспериментах наш метод использует относительную шкалу целей в качестве заместителя человеческих предпочтений, демонстрируя результаты, сопоставимые с методами, использующими истинные вознаграждения. Более того, D3PO демонстрирует способность снижать уровень искажений изображений и генерировать более безопасные изображения, преодолевая проблемы, связанные с отсутствием надежных моделей вознаграждения.
Контекстное промптирование в больших языковых моделях (LLMs) стало распространённым подходом для улучшения возможностей в условиях zero-shot, однако эта идея менее исследована в области компьютерного зрения. Существующие методы визуального промптирования сосредоточены на сегментации с указанием для выделения наиболее релевантного объекта, что не позволяет решать многие общие задачи зрения, такие как сегментация и детектирование в условиях открытого множества. В данной статье мы представляем универсальную структуру визуального контекстного промптирования для обеих задач. В частности, мы основываемся на архитектуре "кодировщик-декодировщик" и разрабатываем универсальный кодировщик промптов, поддерживающий различные типы промптов, такие как штрихи, рамки и точки. Мы дополнительно улучшаем его, чтобы он мог принимать произвольное количество сегментов эталонных изображений в качестве контекста. Наши обширные исследования показывают, что предложенное визуальное контекстное промптирование раскрывает выдающиеся возможности для сегментации с указанием и общей сегментации, позволяя эффективно выделять и детектировать объекты, демонстрируя конкурентоспособные результаты на закрытых наборах данных в рамках домена и многообещающие результаты на многих наборах данных для сегментации в условиях открытого множества. Благодаря совместному обучению на COCO и SA-1B, наша модель достигает 57.7 PQ на COCO и 23.2 PQ на ADE20K. Код будет доступен по адресу https://github.com/UX-Decoder/DINOv.
Расширение возможностей крупных мультимодальных моделей (LMM), основанных на изображениях, для работы с видео представляет собой сложную задачу из-за присущей видео данным сложности. Современные подходы, расширяющие LMM на основе изображений для работы с видео, либо не обладают способностью к локализации объектов (например, VideoChat, Video-ChatGPT, Video-LLaMA), либо не используют аудиосигналы для улучшения понимания видео (например, Video-ChatGPT). Для устранения этих недостатков мы предлагаем Video-LLaVA — первую LMM с возможностью локализации объектов на уровне пикселей, которая интегрирует аудиоподсказки, транскрибируя их в текст для обогащения понимания контекста видео. Наша платформа использует готовый трекер и новый модуль локализации, что позволяет ей пространственно и временно локализовать объекты в видео в соответствии с инструкциями пользователя. Мы оцениваем Video-LLaVA с использованием бенчмарков для генерации и ответов на вопросы на основе видео, а также вводим новые бенчмарки, специально разработанные для измерения производительности локализации объектов в видео на основе запросов. Кроме того, мы предлагаем использовать Vicuna вместо GPT-3.5, как это сделано в Video-ChatGPT, для бенчмаркинга видео-диалогов, что обеспечивает воспроизводимость результатов, что является проблемой из-за проприетарной природы GPT-3.5. Наша платформа основывается на современной модели LLaVA для изображений и расширяет её преимущества на видео-домен, демонстрируя значительные улучшения в задачах видео-диалогов и локализации объектов. Страница проекта: https://github.com/mbzuai-oryx/Video-LLaVA
Это технический отчет о задаче генерации 360-градусных панорамных изображений на основе диффузионных моделей. В отличие от обычных 2D-изображений, 360-градусные панорамные изображения охватывают все поле зрения 360° × 180°. Таким образом, правая и левая стороны 360-градусного панорамного изображения должны быть непрерывными, что является основной проблемой в этой области. Однако текущий диффузионный конвейер не подходит для генерации таких бесшовных 360-градусных панорамных изображений. Для решения этой задачи мы предлагаем стратегию кругового смешивания на этапах как шумоподавления, так и декодирования VAE для обеспечения геометрической непрерывности. На основе этого мы представляем две модели для задач Text-to-360-panoramas и Single-Image-to-360-panoramas. Код был выпущен как проект с открытым исходным кодом на https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} и https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.