Ежедневно отобранные исследовательские статьи по ИИ с переводами
Синтез визуального контента, отвечающего потребностям пользователей, часто требует гибкого и точного управления позой, формой, выражением и компоновкой генерируемых объектов. Существующие подходы обеспечивают управление генеративно-состязательными сетями (GAN) с помощью ручной аннотации обучающих данных или предварительной 3D-модели, что часто ограничивает гибкость, точность и универсальность. В данной работе мы исследуем мощный, но малоизученный способ управления GAN, который заключается в "перетаскивании" любых точек изображения для точного достижения целевых точек в интерактивном режиме, как показано на рис. 1. Для реализации этого мы предлагаем DragGAN, состоящий из двух основных компонентов: 1) управления движением на основе признаков, которое направляет опорную точку к целевой позиции, и 2) нового подхода к отслеживанию точек, использующего дискриминативные признаки генератора для постоянной локализации положения опорных точек. С помощью DragGAN любой пользователь может деформировать изображение с точным контролем над перемещением пикселей, тем самым управляя позой, формой, выражением и компоновкой объектов различных категорий, таких как животные, автомобили, люди, пейзажи и т.д. Поскольку эти манипуляции выполняются на изученном генеративном многообразии изображений GAN, они позволяют получать реалистичные результаты даже в сложных сценариях, таких как восстановление скрытых областей и деформация форм, которые согласуются с жесткостью объекта. Качественные и количественные сравнения демонстрируют преимущество DragGAN перед предыдущими подходами в задачах манипуляции изображениями и отслеживания точек. Мы также демонстрируем манипуляцию реальными изображениями с помощью инверсии GAN.
Языковые модели всё чаще применяются для решения широкого круга задач, однако во время вывода они по-прежнему ограничены пошаговыми, слева-направо процессами принятия решений. Это означает, что они могут не справляться с задачами, требующими исследования, стратегического предвидения или где начальные решения играют ключевую роль. Чтобы преодолеть эти ограничения, мы представляем новый подход к выводу языковых моделей — «Дерево мыслей» (Tree of Thoughts, ToT), который обобщает популярный метод «Цепочки мыслей» (Chain of Thought) и позволяет исследовать связанные блоки текста (мысли), выступающие промежуточными шагами в решении задач. ToT позволяет языковым моделям принимать обдуманные решения, рассматривая несколько возможных путей рассуждений и самостоятельно оценивая варианты для выбора следующего шага, а также заглядывая вперёд или возвращаясь назад при необходимости для принятия глобальных решений. Наши эксперименты показывают, что ToT значительно улучшает способность языковых моделей решать задачи в трёх новых областях, требующих нетривиального планирования или поиска: игра «24», творческое письмо и мини-кроссворды. Например, в игре «24» GPT-4 с методом «Цепочки мыслей» справился только с 4% задач, тогда как наш метод достиг успеха в 74% случаев. Репозиторий с кодом и всеми промптами: https://github.com/ysymyth/tree-of-thought-llm.
В данной научной работе представлена модель латентной диффузии для 3D (LDM3D), которая генерирует как изображения, так и карты глубины на основе текстового запроса, позволяя пользователям создавать RGBD-изображения из текстовых подсказок. Модель LDM3D дообучена на наборе данных, содержащем кортежи из RGB-изображения, карты глубины и текстового описания, и проверена в ходе обширных экспериментов. Мы также разработали приложение под названием DepthFusion, которое использует сгенерированные RGB-изображения и карты глубины для создания иммерсивных и интерактивных 360-градусных визуализаций с использованием TouchDesigner. Эта технология имеет потенциал для преобразования широкого спектра отраслей, от развлечений и игр до архитектуры и дизайна. В целом, данная работа представляет собой значительный вклад в область генеративного ИИ и компьютерного зрения, демонстрируя потенциал LDM3D и DepthFusion для революции в создании контента и цифровых впечатлений. Короткое видео, суммирующее подход, доступно по ссылке: https://t.ly/tdi2.
Мы представляем OpenShape — метод для обучения мультимодальных совместных представлений текста, изображений и облаков точек. Мы используем широко применяемую мультимодальную контрастную обучающую структуру для выравнивания представлений, но с особым акцентом на масштабировании 3D-представлений для обеспечения понимания 3D-форм в открытом мире. Для достижения этой цели мы увеличиваем объем обучающих данных путем объединения нескольких 3D-наборов и предлагаем несколько стратегий для автоматической фильтрации и обогащения зашумленных текстовых описаний. Мы также исследуем и сравниваем стратегии масштабирования базовых сетей для 3D и представляем новый модуль поиска сложных негативных примеров для более эффективного обучения. Мы оцениваем OpenShape на тестах для классификации 3D-объектов с нулевым обучением и демонстрируем его превосходные возможности для распознавания в открытом мире. В частности, OpenShape достигает точности 46,8% на тесте Objaverse-LVIS с 1156 категориями, в то время как существующие методы показывают менее 10%. OpenShape также достигает точности 85,3% на ModelNet40, превосходя предыдущие методы с нулевым обучением на 20% и показывая результаты, сопоставимые с некоторыми полностью контролируемыми методами. Кроме того, мы показываем, что наши обученные эмбеддинги кодируют широкий спектр визуальных и семантических концепций (например, подкатегории, цвет, форма, стиль) и способствуют детализированному взаимодействию текста и 3D, а также изображений и 3D. Благодаря их совместимости с эмбеддингами CLIP, наши обученные представления форм также могут быть интегрированы с готовыми моделями на основе CLIP для различных приложений, таких как генерация описаний облаков точек и создание изображений на основе облаков точек.
Мультимодальные большие языковые модели рассматриваются как важный шаг на пути к созданию искусственного общего интеллекта (AGI) и привлекли значительный интерес с появлением ChatGPT. Однако современные речевые языковые модели обычно используют каскадный подход, что препятствует передаче знаний между модальностями. В данной работе мы представляем SpeechGPT — большую языковую модель с внутренними кросс-модальными диалоговыми способностями, способную воспринимать и генерировать мультимодальный контент. Используя дискретные речевые представления, мы сначала создаем SpeechInstruct — крупномасштабный набор данных для кросс-модальных речевых инструкций. Кроме того, мы применяем трехэтапную стратегию обучения, включающую предварительное обучение для адаптации к модальностям, тонкую настройку на кросс-модальных инструкциях и тонкую настройку на цепочках модальностей. Результаты экспериментов демонстрируют впечатляющую способность SpeechGPT следовать мультимодальным человеческим инструкциям и подчеркивают потенциал обработки нескольких модальностей одной моделью. Демонстрации доступны по ссылке: https://0nutation.github.io/SpeechGPT.github.io/.
Крупные языковые модели (LLM) значительно ускорили прогресс в направлении искусственного общего интеллекта (AGI), демонстрируя впечатляющую способность к выполнению задач с нулевым обучением, адаптированных под пользователя, что наделяет их огромным потенциалом в различных приложениях. Однако в области компьютерного зрения, несмотря на наличие множества мощных базовых моделей для обработки изображений (VFMs), они по-прежнему ограничены задачами предопределённого формата, с трудом достигая универсальных возможностей LLM. В данной работе мы представляем основанную на LLM структуру для задач, ориентированных на обработку изображений, под названием VisionLLM. Эта структура предлагает единый подход к задачам в области зрения и языка, рассматривая изображения как иностранный язык и согласовывая задачи, связанные с обработкой изображений, с языковыми задачами, которые могут быть гибко определены и управляемы с помощью языковых инструкций. Затем декодер на основе LLM может делать соответствующие прогнозы для открытых задач на основе этих инструкций. Многочисленные эксперименты показывают, что предложенная VisionLLM способна достигать различных уровней настройки задач через языковые инструкции — от детальной настройки на уровне объектов до более общей настройки на уровне задач, — демонстрируя при этом хорошие результаты. Примечательно, что с использованием универсальной структуры на основе LLM наша модель достигает более 60% mAP на наборе данных COCO, что сопоставимо с моделями, специализированными на детекции. Мы надеемся, что эта модель сможет установить новый стандарт для универсальных моделей в области зрения и языка. Демонстрация будет доступна по адресу https://github.com/OpenGVLab/InternGPT. Код будет опубликован на https://github.com/OpenGVLab/VisionLLM.
Достижение автономности машин и контроля со стороны человека часто представляют собой расходящиеся цели при проектировании интерактивных систем искусственного интеллекта. Визуальные генеративные базовые модели, такие как Stable Diffusion, демонстрируют потенциал в достижении этих целей, особенно при использовании произвольных языковых запросов. Однако они часто не справляются с генерацией изображений, требующих пространственного, структурного или геометрического контроля. Интеграция таких элементов управления, способных учитывать различные визуальные условия в рамках единой модели, остается нерешенной задачей. В ответ на это мы представляем UniControl — новую генеративную базовую модель, которая объединяет широкий спектр задач управления от условий к изображению (C2I) в единой структуре, сохраняя при этом возможность использования произвольных языковых запросов. UniControl позволяет создавать изображения с точностью на уровне пикселей, где визуальные условия в основном влияют на генерируемые структуры, а языковые запросы задают стиль и контекст. Чтобы наделить UniControl способностью обрабатывать разнообразные визуальные условия, мы расширяем предварительно обученные модели диффузии текста в изображение и вводим задаче-ориентированный HyperNet для модуляции моделей диффузии, что позволяет адаптироваться к различным задачам C2I одновременно. Обучив UniControl на девяти уникальных задачах C2I, мы демонстрируем впечатляющие возможности нулевого сэмплинга при работе с неизвестными визуальными условиями. Экспериментальные результаты показывают, что UniControl часто превосходит по производительности методы с одноцелевым управлением при сопоставимых размерах модели. Эта универсальность управления делает UniControl значительным шагом вперед в области контролируемой визуальной генерации.
Диффузионные модели привлекают всё больше внимания благодаря своим впечатляющим способностям к генерации, однако в настоящее время они сталкиваются с трудностями в создании точного и связного текста. Для решения этой проблемы мы представляем TextDiffuser, который фокусируется на генерации изображений с визуально привлекательным текстом, гармонирующим с фоном. TextDiffuser состоит из двух этапов: сначала модель на основе Transformer генерирует макет ключевых слов, извлечённых из текстовых запросов, а затем диффузионные модели создают изображения, учитывая текстовый запрос и сгенерированный макет. Кроме того, мы представляем первый крупномасштабный набор данных текстовых изображений с OCR-аннотациями, MARIO-10M, содержащий 10 миллионов пар изображение-текст с аннотациями для распознавания, обнаружения и сегментации текста на уровне символов. Мы также собираем эталонный набор данных MARIO-Eval, который служит комплексным инструментом для оценки качества визуализации текста. В ходе экспериментов и пользовательских исследований мы демонстрируем, что TextDiffuser является гибким и управляемым инструментом для создания высококачественных текстовых изображений с использованием только текстовых запросов или совместно с шаблонными изображениями текста, а также для восстановления неполных изображений с текстом с помощью текстового инпайтинга. Код, модель и набор данных будут доступны по адресу https://aka.ms/textdiffuser.
Улучшение представления текста привлекает значительное внимание для достижения выразительного синтеза речи (TTS). Однако существующие работы лишь неявно изучают просодию с помощью задач восстановления замаскированных токенов, что приводит к низкой эффективности обучения и сложностям в моделировании просодии. Мы предлагаем CLAPSpeech, кросс-модальную контрастную предобучающую структуру, которая явно изучает вариации просодии одного и того же текстового токена в различных контекстах. В частности: 1) Мы стимулируем модель связывать текстовый контекст с соответствующей ему просодической структурой в совместном мультимодальном пространстве с помощью тщательно разработанных входных данных энкодера и контрастной функции потерь; 2) Мы вводим многоуровневый предобучающий конвейер для захвата просодических структур на нескольких уровнях. Мы показываем, как интегрировать CLAPSpeech в существующие модели TTS для улучшения просодии. Эксперименты на трех наборах данных не только демонстрируют, что CLAPSpeech может улучшить предсказание просодии для существующих методов TTS, но и показывают его способность к обобщению для адаптации к нескольким языкам и многоговорящему TTS. Мы также глубоко анализируем принципы, лежащие в основе производительности CLAPSpeech. Абляционные исследования подтверждают необходимость каждого компонента нашего метода. Исходный код и аудиообразцы доступны по адресу https://clapspeech.github.io.
Диффузионные модели, такие как Stable Diffusion, продемонстрировали впечатляющие результаты в задаче генерации изображений по тексту. Поскольку генерация изображений по тексту часто требует от моделей создания визуальных концепций с детализированными атрибутами, указанными в текстовых запросах, возникает вопрос: можно ли использовать мощные представления, изученные предобученными диффузионными моделями, для дискриминативных задач, таких как сопоставление изображений и текста? Чтобы ответить на этот вопрос, мы предлагаем новый подход — Discriminative Stable Diffusion (DSD), который превращает предобученные диффузионные модели для генерации изображений по тексту в модели, способные обучаться дискриминативным задачам с малым количеством примеров. Наш подход использует оценку кросс-внимания модели Stable Diffusion для захвата взаимного влияния визуальной и текстовой информации и дообучает модель с помощью обучения на основе подсказок (prompt learning) для выполнения задачи сопоставления изображений и текста. Сравнивая DSD с современными методами на нескольких эталонных наборах данных, мы демонстрируем потенциал использования предобученных диффузионных моделей для дискриминативных задач, показывая превосходные результаты в задаче сопоставления изображений и текста с малым количеством примеров.
Обнаружение объектов расширилось от ограниченного числа категорий до открытого словаря. Для создания полноценной интеллектуальной системы компьютерного зрения требуется понимание более детализированных описаний объектов, включая их части. В данной статье мы предлагаем детектор, способный предсказывать как объекты с открытым словарем, так и их сегментацию на части. Эта способность достигается благодаря двум ключевым решениям. Во-первых, мы обучаем детектор на объединенных данных уровня частей, уровня объектов и уровня изображений, чтобы установить многогранулярное соответствие между языком и изображением. Во-вторых, мы анализируем новый объект, разбивая его на части на основе плотной семантической связи с базовым объектом. Эти два подхода позволяют детектору значительно выигрывать от использования различных источников данных и базовых моделей. В экспериментах по сегментации частей с открытым словарем наш метод превосходит базовый подход на 3,3–7,3 mAP в кросс-датасетной генерализации на PartImageNet и улучшает базовый результат на 7,3 novel AP_{50} в кросс-категориальной генерализации на Pascal Part. В итоге мы обучаем детектор, который обобщается на широкий спектр наборов данных для сегментации частей, демонстрируя при этом более высокую производительность, чем обучение, специфичное для конкретного набора данных.
Оценка фактической согласованности часто проводится с использованием моделей естественного языкового вывода (Natural Language Inference, NLI), однако эти модели демонстрируют ограниченный успех при оценке рефератов. Предыдущие работы улучшали такие модели с помощью синтетических обучающих данных. Однако эти данные обычно основаны на модифицированных рефератах, написанных людьми, которые часто отличаются по своим характеристикам от реальных рефератов, сгенерированных моделями, и имеют ограниченное покрытие возможных фактических ошибок. В качестве альтернативы, крупные языковые модели (LLM) недавно показали многообещающие результаты в прямой оценке генеративных задач, но они слишком ресурсоемки для практического использования. Вдохновленные этими ограничениями, мы представляем TrueTeacher — метод генерации синтетических данных путем аннотирования разнообразных рефератов, сгенерированных моделями, с использованием LLM. В отличие от предыдущих работ, TrueTeacher не полагается на рефераты, написанные людьми, и по своей природе является многоязычным. Эксперименты на бенчмарке TRUE показывают, что студенческая модель, обученная на наших данных, значительно превосходит как современную модель с аналогичной емкостью, так и LLM-учителя. В систематическом исследовании мы сравниваем TrueTeacher с существующими методами генерации синтетических данных и демонстрируем его превосходство и устойчивость к сдвигу домена. Используя набор данных mFACE, мы также показываем, что наш метод обобщается на многоязычные сценарии. Наконец, мы публикуем крупномасштабный синтетический набор данных с 1,4 миллионами примеров, сгенерированных с помощью TrueTeacher.
Мы представляем нашу работу по разработке многоязычного, эффективного текстового трансформера, подходящего для обработки длинных входных данных. Эта модель, названная mLongT5, основана на архитектуре LongT5, используя многоязычные наборы данных, применяемые для предварительного обучения mT5, а также задачи предварительного обучения UL2. Мы оцениваем эту модель на различных задачах многоязычного суммаризации и ответов на вопросы, и результаты демонстрируют более высокую производительность mLongT5 по сравнению с существующими многоязычными моделями, такими как mBART или M-BERT.
Генерация символической музыки направлена на создание музыкальных нот, что может помочь пользователям в сочинении музыки, например, в создании целевых инструментальных треков с нуля или на основе предоставленных пользователем исходных треков. Учитывая разнообразные и гибкие комбинации между исходными и целевыми треками, крайне необходима унифицированная модель, способная генерировать любые произвольные треки. Предыдущие работы не смогли удовлетворить эту потребность из-за внутренних ограничений в представлении музыки и архитектуре моделей. Чтобы решить эту задачу, мы предлагаем унифицированное представление и диффузионную модель под названием GETMusic (где `GET` означает GEnerate music Tracks), которая включает новое представление музыки под названием GETScore и диффузионную модель GETDiff. GETScore представляет ноты в виде токенов и организует их в двумерной структуре, где треки расположены вертикально, а время прогрессирует горизонтально. Во время обучения треки случайным образом выбираются в качестве целевых или исходных. В прямом процессе целевые треки искажаются путем маскирования их токенов, в то время как исходные треки остаются в качестве эталонных данных. В процессе денойзинга GETDiff учится предсказывать замаскированные токены целевых треков, основываясь на исходных треках. Благодаря разделению треков в GETScore и неавторегрессивному поведению модели, GETMusic может явно контролировать генерацию любых целевых треков с нуля или на основе исходных треков. Мы провели эксперименты по генерации музыки с участием шести инструментальных треков, что в общей сложности составило 665 комбинаций. GETMusic демонстрирует высококачественные результаты для различных комбинаций и превосходит предыдущие работы, предложенные для некоторых конкретных комбинаций.
Визуальный текст вызывает образ в сознании человека, тогда как невизуальный текст этого не делает. Метод автоматического определения визуальности текста откроет возможность дополнять текст соответствующими изображениями, поскольку нейронные модели генерации и поиска изображений из текста работают на основе неявного предположения, что входной текст носит визуальный характер. Мы создали набор данных из 3 620 английских предложений и их оценок визуальности, предоставленных несколькими аннотаторами. Кроме того, мы используем документы, содержащие текст и визуальные элементы, для создания дистанционно контролируемого корпуса текста документов и связанных с ними изображений. Мы также предлагаем стратегию тонкой настройки, которая адаптирует крупные модели, работающие с текстом и изображениями, такие как CLIP, предполагающие однозначное соответствие между текстом и изображением, к задаче оценки визуальности текста только на основе текстового ввода. Наша стратегия включает изменение контрастивной цели обучения модели таким образом, чтобы текст, идентифицированный как невизуальный, сопоставлялся с общим NULL-изображением, а визуальный текст — с соответствующими изображениями в документе. Мы оцениваем предложенный подход по его способности (i) точно классифицировать визуальный и невизуальный текст и (ii) выделять слова, которые идентифицируются как визуальные в психолингвистических исследованиях. Эмпирическая оценка показывает, что наш подход превосходит несколько эвристик и базовых моделей для предложенной задачи. Кроме того, чтобы подчеркнуть важность моделирования визуальности текста, мы проводим качественный анализ систем генерации изображений из текста, таких как DALL-E.
Мы исследуем использование трансформерных моделей последовательностей в качестве моделей динамики (TDM) для задач управления. В ряде экспериментов на наборе задач DeepMind Control Suite мы обнаруживаем, что, во-первых, TDM демонстрируют высокую производительность в условиях обучения на одной среде по сравнению с базовыми моделями. Во-вторых, TDM проявляют сильные способности к обобщению на незнакомые среды, как в условиях few-shot обучения, где универсальная модель дообучается на небольшом количестве данных из целевой среды, так и в условиях zero-shot, где универсальная модель применяется к новой среде без дополнительного обучения. Мы также показываем, что обобщение динамики системы может работать значительно лучше, чем прямое обобщение оптимального поведения в виде политики. Это делает TDM перспективным компонентом для создания базовой модели управления.
Мы представляем VideoFactory — инновационную платформу для генерации высококачественных видеороликов в открытой предметной области. VideoFactory превосходно создает видео высокой четкости (1376x768) с широкоэкранным форматом (16:9) без водяных знаков, обеспечивая увлекательный пользовательский опыт. Генерация видео, управляемая текстовыми инструкциями, сталкивается с серьезными вызовами, такими как моделирование сложной взаимосвязи между пространством и временем, а также отсутствие крупномасштабных парных данных "текст-видео". Предыдущие подходы расширяют предобученные модели генерации изображений из текста, добавляя временные одномерные сверточные или внимательные модули для создания видео. Однако эти подходы упускают важность совместного моделирования пространства и времени, что неизбежно приводит к временным искажениям и рассогласованию между текстами и видео. В данной работе мы предлагаем новый метод, который усиливает взаимодействие между пространственным и временным восприятием. В частности, мы используем механизм перекрестного внимания с переключением ролей в трехмерных окнах, где "запрос" чередуется между пространственными и временными блоками, что позволяет им взаимно усиливать друг друга. Для полного раскрытия возможностей модели в генерации высококачественных видео мы создали крупномасштабный набор данных под названием HD-VG-130M. Этот набор включает 130 миллионов пар "текст-видео" из открытой предметной области, обеспечивая высокую четкость, широкоэкранный формат и отсутствие водяных знаков. Объективные метрики и пользовательские исследования демонстрируют превосходство нашего подхода в отношении качества отдельных кадров, временной согласованности и соответствия текста и видео с заметным отрывом.
Генеративный предобученный трансформатор (GPT) продемонстрировал значительный успех в обработке естественного языка, и связанные с ним методы были адаптированы для молекулярного моделирования. Учитывая, что текст является важнейшим средством записи научных открытий, в данной статье мы представляем MolXPT — унифицированную языковую модель текста и молекул, предобученную на SMILES (последовательном представлении молекул), заключённых в текст. Вкратце, мы обнаруживаем названия молекул в каждой последовательности и заменяем их на соответствующие SMILES. Таким образом, SMILES могут использовать информацию из окружающего текста, и наоборот. Упомянутые последовательности с SMILES, текстовые последовательности из PubMed и последовательности SMILES из PubChem подаются в языковую модель для предобучения. Экспериментальные результаты показывают, что MolXPT превосходит сильные базовые модели в предсказании молекулярных свойств на MoleculeNet, демонстрирует сопоставимую производительность с лучшей моделью в переводе между текстом и молекулами, используя менее половины её параметров, и позволяет выполнять генерацию молекул без дообучения (zero-shot).
Несмотря на значительный прогресс в создании высококачественных изображений с использованием диффузионных моделей, синтез последовательности анимированных кадров, которые одновременно являются фотореалистичными и временно согласованными, всё ещё находится на начальной стадии. Хотя доступны готовые наборы данных для генерации изображений масштаба в миллиарды, сбор аналогичных видео данных такого же масштаба остаётся сложной задачей. Кроме того, обучение видео-диффузионной модели требует значительно больше вычислительных ресурсов по сравнению с её аналогом для изображений. В данной работе мы исследуем дообучение предварительно обученной диффузионной модели для изображений на видео данных как практическое решение задачи синтеза видео. Мы обнаруживаем, что простое расширение априорного распределения шума для изображений до априорного распределения шума для видео в видео-дифузии приводит к неоптимальной производительности. Наш тщательно разработанный априорный шум для видео обеспечивает существенно лучшие результаты. Обширные экспериментальные проверки показывают, что наша модель, Preserve Your Own Correlation (PYoCo), достигает наилучших результатов (SOTA) в задаче zero-shot текстового преобразования в видео на бенчмарках UCF-101 и MSR-VTT. Она также демонстрирует наивысшее качество генерации видео на небольшом бенчмарке UCF-101, используя модель в 10 раз меньшего размера и значительно меньше вычислительных ресурсов по сравнению с предыдущими подходами.