Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем GAIA — эталонный тест для универсальных искусственных интеллектов, решение которого станет важной вехой в исследованиях ИИ. GAIA предлагает реальные вопросы, требующие набора фундаментальных способностей, таких как логическое рассуждение, обработка мультимодальных данных, веб-поиск и общее умение работать с инструментами. Вопросы GAIA концептуально просты для людей, но сложны для большинства современных ИИ: мы показываем, что люди дают правильные ответы в 92% случаев, в то время как GPT-4 с плагинами справляется лишь в 15%. Этот значительный разрыв в производительности контрастирует с недавней тенденцией, когда языковые модели превосходят людей в задачах, требующих профессиональных навыков, например в юриспруденции или химии. Философия GAIA отличается от текущего тренда в эталонных тестах ИИ, которые предлагают задачи, всё более сложные для людей. Мы утверждаем, что появление искусственного общего интеллекта (ИОИ) зависит от способности системы демонстрировать такую же устойчивость, как средний человек, при решении подобных вопросов. Используя методологию GAIA, мы разработали 466 вопросов и ответов на них. Мы публикуем вопросы, сохраняя ответы на 300 из них для создания рейтинговой таблицы, доступной по адресу https://huggingface.co/gaia-benchmark.
С широким распространением VR-устройств и контента растет спрос на технологии генерации 3D-сцен. Однако существующие модели генерации 3D-сцен ограничивают целевую сцену конкретной областью, в основном из-за стратегий обучения, использующих наборы данных 3D-сканирования, которые далеки от реального мира. Чтобы устранить это ограничение, мы предлагаем LucidDreamer — универсальный конвейер генерации сцен, полностью использующий возможности существующих крупномасштабных генеративных моделей на основе диффузии. Наш LucidDreamer состоит из двух чередующихся этапов: "Сновидение" и "Согласование". Во-первых, для генерации многовидовых согласованных изображений из входных данных мы используем облако точек в качестве геометрического ориентира для генерации каждого изображения. В частности, мы проецируем часть облака точек на желаемый вид и используем эту проекцию как ориентир для восстановления изображения с помощью генеративной модели. Восстановленные изображения преобразуются в 3D-пространство с использованием оцененных карт глубины, формируя новые точки. Во-вторых, для объединения новых точек в 3D-сцену мы предлагаем алгоритм согласования, который гармонично интегрирует части вновь сгенерированных 3D-сцен. Полученная 3D-сцена служит начальными точками для оптимизации сплатов Гаусса. LucidDreamer создает сплаты Гаусса, которые отличаются высокой детализацией по сравнению с предыдущими методами генерации 3D-сцен, без ограничений на область целевой сцены.
Крупные языковые модели (LLM) дорабатываются с использованием данных человеческих сравнений методами обучения с подкреплением на основе человеческой обратной связи (RLHF), чтобы лучше соответствовать предпочтениям пользователей. В отличие от LLM, обучение на основе человеческих предпочтений не получило широкого распространения в диффузионных моделях для генерации изображений по тексту; лучший существующий подход заключается в доработке предварительно обученной модели с использованием тщательно отобранных высококачественных изображений и подписей для улучшения визуальной привлекательности и соответствия тексту. Мы предлагаем метод Diffusion-DPO, который позволяет адаптировать диффузионные модели к человеческим предпочтениям путем прямой оптимизации на основе данных человеческих сравнений. Diffusion-DPO адаптирован из недавно разработанного метода Direct Preference Optimization (DPO), более простой альтернативы RLHF, который напрямую оптимизирует политику, наилучшим образом удовлетворяющую человеческим предпочтениям в рамках задачи классификации. Мы переформулируем DPO с учетом понятия правдоподобия для диффузионных моделей, используя нижнюю границу доказательства для вывода дифференцируемой целевой функции. Используя набор данных Pick-a-Pic, содержащий 851 тыс. парных предпочтений, собранных с помощью краудсорсинга, мы дорабатываем базовую модель современной модели Stable Diffusion XL (SDXL)-1.0 с помощью Diffusion-DPO. Наша доработанная базовая модель значительно превосходит как базовую SDXL-1.0, так и более крупную модель SDXL-1.0, включающую дополнительную модель уточнения, в оценке людьми, улучшая визуальную привлекательность и соответствие запросу. Мы также разрабатываем вариант, использующий обратную связь от ИИ, который демонстрирует сопоставимую производительность с обучением на человеческих предпочтениях, открывая путь для масштабирования методов адаптации диффузионных моделей.
Контекстное промптирование в больших языковых моделях (LLMs) стало распространённым подходом для улучшения возможностей в условиях zero-shot, однако эта идея менее исследована в области компьютерного зрения. Существующие методы визуального промптирования сосредоточены на сегментации с указанием для выделения наиболее релевантного объекта, что не позволяет решать многие общие задачи зрения, такие как сегментация и детектирование в условиях открытого множества. В данной статье мы представляем универсальную структуру визуального контекстного промптирования для обеих задач. В частности, мы основываемся на архитектуре "кодировщик-декодировщик" и разрабатываем универсальный кодировщик промптов, поддерживающий различные типы промптов, такие как штрихи, рамки и точки. Мы дополнительно улучшаем его, чтобы он мог принимать произвольное количество сегментов эталонных изображений в качестве контекста. Наши обширные исследования показывают, что предложенное визуальное контекстное промптирование раскрывает выдающиеся возможности для сегментации с указанием и общей сегментации, позволяя эффективно выделять и детектировать объекты, демонстрируя конкурентоспособные результаты на закрытых наборах данных в рамках домена и многообещающие результаты на многих наборах данных для сегментации в условиях открытого множества. Благодаря совместному обучению на COCO и SA-1B, наша модель достигает 57.7 PQ на COCO и 23.2 PQ на ADE20K. Код будет доступен по адресу https://github.com/UX-Decoder/DINOv.
Это технический отчет о задаче генерации 360-градусных панорамных изображений на основе диффузионных моделей. В отличие от обычных 2D-изображений, 360-градусные панорамные изображения охватывают все поле зрения 360° × 180°. Таким образом, правая и левая стороны 360-градусного панорамного изображения должны быть непрерывными, что является основной проблемой в этой области. Однако текущий диффузионный конвейер не подходит для генерации таких бесшовных 360-градусных панорамных изображений. Для решения этой задачи мы предлагаем стратегию кругового смешивания на этапах как шумоподавления, так и декодирования VAE для обеспечения геометрической непрерывности. На основе этого мы представляем две модели для задач Text-to-360-panoramas и Single-Image-to-360-panoramas. Код был выпущен как проект с открытым исходным кодом на https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} и https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.