Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы решаем задачу условной генерации музыки. Представляем MusicGen — единую языковую модель (LM), которая работает с несколькими потоками сжатого дискретного представления музыки, то есть токенами. В отличие от предыдущих работ, MusicGen состоит из одноэтапной трансформерной LM вместе с эффективными схемами чередования токенов, что устраняет необходимость каскадирования нескольких моделей, например, иерархически или с повышением частоты дискретизации. Следуя этому подходу, мы демонстрируем, как MusicGen может генерировать высококачественные образцы, будучи обусловленным текстовым описанием или мелодическими характеристиками, что позволяет лучше контролировать генерируемый результат. Мы проводим обширную эмпирическую оценку, включая как автоматические, так и экспертные исследования, показывая, что предложенный подход превосходит оцениваемые базовые методы на стандартном бенчмарке для задачи "текст-в-музыку". С помощью исследований по удалению компонентов мы раскрываем важность каждого из элементов, составляющих MusicGen. Примеры музыки, код и модели доступны по адресу https://github.com/facebookresearch/audiocraft.
Высококачественные инструкции и ответы имеют ключевое значение для нулевого сценария (zero-shot) производительности крупных языковых моделей в интерактивных задачах обработки естественного языка. Для интерактивных задач, связанных с обработкой визуальных и языковых данных, включающих сложные визуальные сцены, необходимо большое количество разнообразных и креативных пар "инструкция-ответ" для настройки моделей, работающих с визуальными и языковыми данными (vision-language models, VLMs). Однако текущая доступность таких пар с точки зрения количества, разнообразия и креативности остается ограниченной, что создает трудности для обобщения интерактивных VLMs. В данной работе представлен набор данных MultI-Modal In-Context Instruction Tuning (MIMIC-IT), содержащий 2,8 миллиона мультимодальных пар "инструкция-ответ", включая 2,2 миллиона уникальных инструкций, полученных на основе изображений и видео. Каждая пара сопровождается мультимодальной контекстной информацией, формирующей диалоговые контексты, направленные на улучшение способностей VLMs в восприятии, рассуждении и планировании. Процесс сбора пар "инструкция-ответ", названный Syphus, масштабируется с использованием автоматизированного конвейера аннотирования, который сочетает экспертные знания человека с возможностями GPT. Используя набор данных MIMIC-IT, мы обучаем крупную VLM под названием Otter. На основе обширных оценок, проведенных на бенчмарках для задач обработки визуальных и языковых данных, было установлено, что Otter демонстрирует выдающиеся способности в мультимодальном восприятии, рассуждении и обучении в контексте. Оценка людьми показывает, что модель эффективно соответствует намерениям пользователя. Мы публикуем набор данных MIMIC-IT, конвейер сбора пар "инструкция-ответ", бенчмарки и модель Otter.
Мы представляем новый метод оптимизации во время тестирования для оценки плотного и дальнодействующего движения из видеопоследовательности. Предыдущие алгоритмы оптического потока или трекинга частиц в видео обычно работают в ограниченных временных окнах, испытывая трудности с отслеживанием через окклюзии и поддержанием глобальной согласованности оцененных траекторий движения. Мы предлагаем полное и глобально согласованное представление движения, названное OmniMotion, которое позволяет точно оценивать движение каждого пикселя в видео на всем его протяжении. OmniMotion представляет видео с использованием квази-3D канонического объема и выполняет покомпонентный трекинг через биекции между локальным и каноническим пространством. Это представление позволяет нам обеспечивать глобальную согласованность, отслеживать через окклюзии и моделировать любую комбинацию движения камеры и объектов. Обширные оценки на бенчмарке TAP-Vid и реальных видеоматериалах показывают, что наш подход значительно превосходит предыдущие передовые методы как количественно, так и качественно. Дополнительные результаты можно найти на нашей странице проекта: http://omnimotion.github.io/
Диалоговые агенты, основанные на крупных языковых моделях (LLM), открывают новые возможности для взаимодействия с визуальными данными. Хотя уже были предприняты первые попытки создания моделей для диалогов на основе изображений, данная работа исследует малоизученную область диалогов на основе видео, представляя модель Video-ChatGPT. Это мультимодальная модель, которая объединяет визуальный кодировщик, адаптированный для работы с видео, и крупную языковую модель. Модель способна понимать и генерировать естественные диалоги о видео. Мы представляем новый набор данных, состоящий из 100 000 пар "видео-инструкция", который использовался для обучения Video-ChatGPT. Данные были получены с помощью ручного и полуавтоматизированного процесса, который легко масштабируется и устойчив к шуму в метках. Мы также разработали количественную систему оценки для моделей диалогов на основе видео, позволяющую объективно анализировать сильные и слабые стороны предложенных моделей. Наш код, модели, наборы инструкций и демонстрация доступны по адресу https://github.com/mbzuai-oryx/Video-ChatGPT.
Замечательные возможности предобученных моделей диффузии изображений были использованы не только для генерации изображений фиксированного размера, но и для создания панорам. Однако простое сшивание нескольких изображений часто приводит к видимым швам. Современные методы пытаются решить эту проблему, выполняя совместную диффузию в нескольких окнах и усредняя латентные признаки в перекрывающихся областях. Однако эти подходы, направленные на создание бесшовных монтажей, часто приводят к несогласованным результатам, смешивая разные сцены в одном изображении. Чтобы преодолеть это ограничение, мы предлагаем SyncDiffusion — модуль plug-and-play, который синхронизирует несколько процессов диффузии через градиентный спуск на основе потери перцептивного сходства. В частности, мы вычисляем градиент перцептивной потери, используя предсказанные очищенные от шума изображения на каждом шаге денизинга, что обеспечивает значимое руководство для достижения согласованных монтажей. Наши экспериментальные результаты показывают, что наш метод создает значительно более согласованные результаты по сравнению с предыдущими методами (66,35% против 33,65% в нашем пользовательском исследовании), сохраняя при этом точность (оцененную с помощью GIQA) и соответствие входному запросу (измеренное с помощью CLIP score).
В данной статье мы представляем Matting Anything Model (MAM) — эффективную и универсальную структуру для оценки альфа-матов любого объекта на изображении с гибким и интерактивным управлением через визуальные или языковые подсказки пользователя. MAM предлагает несколько значительных преимуществ по сравнению с предыдущими специализированными сетями для матирования изображений: (i) MAM способна обрабатывать различные типы матирования, включая семантическое, инстансное и референсное матирование, используя всего одну модель; (ii) MAM использует карты признаков из модели Segment Anything Model (SAM) и применяет легковесный модуль Mask-to-Matte (M2M) для предсказания альфа-матов через итеративное уточнение, что требует всего 2,7 миллиона обучаемых параметров; (iii) Благодаря интеграции SAM, MAM упрощает необходимое вмешательство пользователя для интерактивного матирования изображений, заменяя тримап на прямоугольник, точку или текстовую подсказку. Мы оцениваем производительность MAM на различных бенчмарках для матирования изображений, и результаты экспериментов показывают, что MAM достигает сопоставимой производительности с современными специализированными моделями матирования по различным метрикам на каждом бенчмарке. В целом, MAM демонстрирует превосходную способность к обобщению и эффективно справляется с различными задачами матирования изображений при меньшем количестве параметров, что делает её практичным решением для унифицированного матирования изображений. Наш код и модели доступны по адресу https://github.com/SHI-Labs/Matting-Anything.
Суперсеть с общими весами стала важным компонентом для оценки производительности в современных (SOTA) фреймворках поиска нейронных архитектур (NAS). Хотя суперсеть может напрямую генерировать различные подсети без повторного обучения, нет гарантии качества этих подсетей из-за совместного использования весов. В задачах NLP, таких как машинный перевод и предварительное обучение языковых моделей, мы наблюдаем, что при одинаковой архитектуре модели существует значительный разрыв в производительности между суперсетью и обучением с нуля. Следовательно, суперсеть нельзя использовать напрямую, и необходимо повторное обучение после нахождения оптимальных архитектур. В данной работе мы предлагаем смесь суперсетей (mixture-of-supernets), обобщённую формулировку суперсети, в которой используется подход смеси экспертов (MoE) для повышения выразительной способности модели суперсети с минимальными накладными расходами на обучение. Таким образом, различные подсети не используют общие веса напрямую, а через механизм маршрутизации, основанный на архитектуре. В результате веса модели для разных подсетей адаптируются к их конкретным архитектурам, а генерация весов обучается с помощью градиентного спуска. По сравнению с существующими суперсетями с общими весами для NLP, наш метод позволяет минимизировать время повторного обучения, значительно повышая эффективность обучения. Кроме того, предложенный метод достигает SOTA-результатов в NAS для создания быстрых моделей машинного перевода, обеспечивая лучшее соотношение задержка-BLEU по сравнению с HAT, современным NAS для машинного перевода. Мы также достигаем SOTA-результатов в NAS для создания энергоэффективных моделей BERT, не зависящих от задачи, превосходя NAS-BERT и AutoDistil для различных размеров моделей.
Оценка глубины объектов по одному изображению является важной задачей для многих приложений в области компьютерного зрения, робототехники и графики. Однако современные методы часто не могут обеспечить точную оценку глубины для объектов в разнообразных сценах. В данной работе мы предлагаем простую, но эффективную стратегию Background Prompting, которая адаптирует входное изображение объекта с использованием изученного фона. Мы обучаем фоновые подсказки, используя только небольшие синтетические наборы данных объектов. Для оценки глубины объекта на реальном изображении мы помещаем сегментированный объект в изученную фоновую подсказку и применяем готовые сети для оценки глубины. Стратегия Background Prompting помогает сетям сосредоточиться на объекте переднего плана, делая их инвариантными к вариациям фона. Кроме того, Background Prompting минимизирует разрыв между синтетическими и реальными изображениями объектов, что приводит к лучшей обобщающей способности (sim2real) по сравнению с простым дообучением. Результаты на множестве синтетических и реальных наборов данных демонстрируют устойчивое улучшение оценки глубины реальных объектов для различных существующих сетей. Код и оптимизированные фоновые подсказки доступны по адресу: https://mbaradad.github.io/depth_prompt.
Методы синтеза изображений из текста, основанные на масштабируемых диффузионных моделях, обученных на крупномасштабных наборах данных с парными текстовыми и изображениями, демонстрируют впечатляющие результаты. Однако эти модели по-прежнему не способны точно следовать текстовым запросам, когда в них задействованы несколько объектов, атрибутов и пространственных композиций. В данной работе мы выявляем потенциальные причины этого в кросс-внимании и самовнимании слоев диффузионной модели. Мы предлагаем два новых типа потерь, которые переориентируют карты внимания в соответствии с заданной компоновкой в процессе выборки. Мы проводим всесторонние эксперименты на наборах данных DrawBench и HRS, используя компоновки, синтезированные крупными языковыми моделями, и показываем, что предложенные нами потери могут быть легко и эффективно интегрированы в существующие методы синтеза изображений из текста, последовательно улучшая соответствие между генерируемыми изображениями и текстовыми запросами.
Генеративные модели для создания изображений по текстовому описанию позволяют синтезировать изображения высокого разрешения в различных областях, но требуют от пользователей указания контента, который они хотят создать. В данной работе мы рассматриваем обратную задачу — можно ли, имея набор различных изображений, обнаружить генеративные концепции, которые представляют каждое изображение? Мы предлагаем неконтролируемый подход для обнаружения генеративных концепций из набора изображений, разделяя различные художественные стили в картинах, объекты и освещение в сценах кухни, а также обнаруживая классы изображений на основе данных ImageNet. Мы показываем, как такие генеративные концепции могут точно представлять содержание изображений, быть перекомбинированы и использованы для создания новых художественных и гибридных изображений, а также служить представлением для последующих задач классификации.
Мы представляем BlenderBot 3x — обновление диалоговой модели BlenderBot 3, которая теперь обучается с использованием органических данных из разговоров и обратной связи от пользователей системы с целью улучшения как её навыков, так и безопасности. Мы публикуем анонимизированные данные взаимодействий для использования исследовательским сообществом, чтобы стимулировать дальнейший прогресс. Обучение моделей на органических данных является сложной задачей, поскольку взаимодействия с людьми "в реальных условиях" включают как высококачественные диалоги и обратную связь, так и враждебное и токсичное поведение. Мы изучаем методы, которые позволяют обучаться на основе полезных примеров, избегая при этом обучения на данных от тех, кто пытается заставить модель давать бесполезные или токсичные ответы. BlenderBot 3x не только предпочтительнее в диалогах по сравнению с BlenderBot 3, но и демонстрирует более безопасные ответы в сложных ситуациях. Хотя наши текущие модели всё ещё далеки от идеала, мы считаем, что дальнейшее улучшение может быть достигнуто за счёт продолжения использования методов, исследованных в этой работе.
Специфические для компьютерного зрения концепции, такие как "регион", сыграли ключевую роль в расширении общих фреймворков машинного обучения для задач, таких как обнаружение объектов. Учитывая успех регион-ориентированных детекторов в обучении с учителем и прогресс методов внутриизображения для контрастного обучения, мы исследуем использование регионов для реконструктивного предобучения. Начиная с Masked Autoencoding (MAE) как базового подхода и источника вдохновения, мы предлагаем параллельную предобучающую задачу, адаптированную для решения проблемы "один ко многим" между изображениями и регионами. Поскольку такие регионы могут быть сгенерированы неконтролируемым способом, наш подход (R-MAE) наследует широкую применимость MAE, будучи более "регион-ориентированным". Мы проводим тщательный анализ в процессе разработки R-MAE и приходим к варианту, который является как эффективным, так и экономичным (накладные расходы всего 1,3% по сравнению с MAE). Более того, он демонстрирует стабильные количественные улучшения при обобщении на различные данные для предобучения и эталонные тесты для обнаружения и сегментации. Наконец, мы предоставляем обширные качественные визуализации для лучшего понимания поведения и потенциала R-MAE. Код будет доступен по адресу https://github.com/facebookresearch/r-mae.
Ключевым препятствием для широкого применения моделей NeRF в реальных условиях является их зависимость от точных поз камер. В связи с этим растет интерес к расширению моделей NeRF для совместной оптимизации поз камер и представления сцены, что предлагает альтернативу готовым SfM-пайплайнам, которые имеют хорошо изученные случаи сбоев. Существующие подходы для NeRF без заданных поз работают в рамках ограниченных предположений, таких как априорное распределение поз или грубая инициализация поз, что делает их менее эффективными в общем случае. В данной работе мы предлагаем новый подход, LU-NeRF, который совместно оценивает позы камер и нейронные поля излучения с ослабленными предположениями о конфигурации поз. Наш подход работает по принципу от локального к глобальному, где сначала оптимизируются локальные подмножества данных, называемые мини-сценами. LU-NeRF оценивает локальные позы и геометрию для этой сложной задачи с малым количеством данных. Позы мини-сцен приводятся к глобальной системе отсчета через этап синхронизации поз, где затем выполняется финальная глобальная оптимизация поз и сцены. Мы показываем, что наш пайплайн LU-NeRF превосходит предыдущие попытки работы с NeRF без заданных поз, не делая ограничительных предположений о позах. Это позволяет нам работать в общем случае SE(3), в отличие от базовых подходов. Наши результаты также указывают на то, что наша модель может быть дополнением к feature-based SfM-пайплайнам, так как она показывает лучшие результаты по сравнению с COLMAP на изображениях с низкой текстурой и низким разрешением.
Мы представляем фреймворк, который формулирует задачу визуального ответа на вопросы как генерацию модульного кода. В отличие от предыдущих работ по модульным подходам к VQA, наш метод не требует дополнительного обучения и опирается на предварительно обученные языковые модели (LM), визуальные модели, обученные на парах изображение-описание, и пятьдесят примеров VQA, используемых для обучения в контексте. Сгенерированные программы на языке Python вызывают и комбинируют выходные данные визуальных моделей с использованием арифметической и условной логики. Наш подход повышает точность на наборе данных COVR как минимум на 3% и на наборе данных GQA примерно на 2% по сравнению с базовым методом few-shot, который не использует генерацию кода.
В данной статье мы рассматриваем проблемы, связанные с длительным временем обучения и высоким потреблением памяти в видео-трансформерах, уделяя особое внимание модели ViViT (Video Vision Transformer), а именно версии с факторизованным кодировщиком, которая используется в качестве базовой для задач распознавания действий. Факторизованный кодировщик следует подходу позднего слияния, который применяется во многих современных методах. Несмотря на выгодный компромисс между скоростью и точностью среди различных вариантов ViViT, значительное время обучения и требования к памяти остаются серьезным препятствием для использования. Наш метод направлен на снижение этого барьера и основан на идее заморозки пространственного трансформера в процессе обучения. Это приводит к снижению точности модели, если применять данный подход без дополнительных мер. Однако мы показываем, что путем (1) корректной инициализации временного трансформера (модуля, отвечающего за обработку временной информации) и (2) введения компактного адаптера, связывающего замороженные пространственные представления (модуль, который избирательно фокусируется на областях входного изображения) с временным трансформером, можно получить преимущества заморозки пространственного трансформера без потери точности. В ходе обширных экспериментов на 6 бенчмарках мы демонстрируем, что предложенная стратегия обучения значительно сокращает затраты на обучение (примерно на 50%) и потребление памяти, при этом сохраняя или даже немного улучшая производительность (до 1,79%) по сравнению с базовой моделью. Наш подход также позволяет использовать более крупные модели изображений в качестве пространственного трансформера и обрабатывать больше кадров при том же объеме памяти.
Сферические сверточные нейронные сети (CNNs) обобщают традиционные CNNs для работы с функциями на сфере, используя сферические свертки в качестве основной линейной операции. Наиболее точный и эффективный способ вычисления сферических сверток — в спектральной области (через теорему о свертке), что всё же требует больше ресурсов, чем обычные плоские свертки. По этой причине применение сферических CNNs до сих пор ограничивалось небольшими задачами, которые можно решать с использованием моделей низкой сложности. В данной работе мы показываем, как сферические CNNs можно масштабировать для решения значительно более крупных задач. Для этого мы вносим ключевые улучшения, включая новые варианты стандартных компонентов моделей, реализацию основных операций с учетом характеристик аппаратных ускорителей, а также специализированные представления входных данных, которые используют свойства нашей модели. Эксперименты показывают, что наши более крупные сферические CNN достигают наилучших результатов на нескольких целевых задачах молекулярного бенчмарка QM9, который ранее доминировали эквивариантные графовые нейронные сети, а также демонстрируют конкурентоспособную производительность на множестве задач прогнозирования погоды. Наш код доступен по адресу https://github.com/google-research/spherical-cnn.