Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модель Segment Anything (SAM) зарекомендовала себя как мощная модель для сегментации изображений в режиме zero-shot, использующая интерактивные подсказки, такие как точки, для генерации масок. В данной статье представлен метод SAM-PT, расширяющий возможности SAM для отслеживания и сегментации объектов в динамических видео. SAM-PT использует надежные и разреженные методы выбора и распространения точек для генерации масок, демонстрируя, что трекер сегментации на основе SAM может достигать высоких результатов в режиме zero-shot на популярных бенчмарках для сегментации объектов в видео, включая DAVIS, YouTube-VOS и MOSE. В отличие от традиционных стратегий распространения масок, ориентированных на объекты, мы уникальным образом используем распространение точек для извлечения локальной структурной информации, независимой от семантики объектов. Мы подчеркиваем преимущества трекинга на основе точек через прямое тестирование на бенчмарке Unidentified Video Objects (UVO) в режиме zero-shot для открытого мира. Для дальнейшего улучшения нашего подхода мы применяем кластеризацию K-Medoids для инициализации точек и отслеживаем как положительные, так и отрицательные точки для четкого выделения целевого объекта. Мы также используем несколько проходов декодирования масок для их уточнения и разрабатываем стратегию повторной инициализации точек для повышения точности трекинга. Наш код интегрирует различные трекеры точек и бенчмарки для сегментации видео и будет опубликован по адресу https://github.com/SysCV/sam-pt.
Недавние крупномасштабные диффузионные модели, управляемые текстом, предоставляют мощные возможности для генерации изображений. В настоящее время значительные усилия направлены на обеспечение модификации этих изображений с использованием только текста, что позволяет предложить интуитивное и универсальное редактирование. Однако редактирование оказывается сложной задачей для этих генеративных моделей из-за природы техник редактирования, которые предполагают сохранение определенного содержания из исходного изображения. В то же время, в текстовых моделях даже незначительные изменения в текстовом запросе часто приводят к совершенно иному результату, что делает достижение однократной генерации, точно соответствующей намерениям пользователя, чрезвычайно сложной задачей. Кроме того, для редактирования реального изображения с использованием этих современных инструментов необходимо сначала инвертировать изображение в область предварительно обученной модели, что добавляет еще один фактор, влияющий на качество редактирования, а также на задержку. В этом исследовательском отчете мы предлагаем LEDITS — комбинированный легковесный подход для редактирования реальных изображений, который объединяет технику инверсии Edit Friendly DDPM с семантическим управлением, тем самым расширяя возможности семантического управления для редактирования реальных изображений, одновременно используя возможности редактирования инверсии DDPM. Этот подход позволяет выполнять универсальные правки, как незначительные, так и масштабные, а также изменения в композиции и стиле, не требуя оптимизации или расширения архитектуры.
Генеративный ИИ достиг значительных успехов в области компьютерного зрения, особенно в синтезе изображений и видео на основе текстовых описаний. Несмотря на прогресс, задача остается сложной, особенно в генерации контента, связанного с человеком, такого как синтез танцев. Существующие методы синтеза танцев сталкиваются с разрывом между синтезированным контентом и реальными танцевальными сценами. В данной статье мы определяем новую постановку задачи: Генерация Танца с Указанием на Человека, которая фокусируется на реальных танцевальных сценах с тремя важными свойствами: (i) Достоверность: синтез должен сохранять внешний вид как переднего плана с человеком, так и фона из эталонного изображения и точно следовать целевой позе; (ii) Обобщаемость: модель должна обобщать на невидимых ранее людей, фоны и позы; (iii) Композиционность: она должна позволять комбинировать видимые/невидимые объекты, фоны и позы из различных источников. Для решения этих задач мы представляем новый подход DISCO, который включает в себя новую архитектуру модели с разделенным управлением для повышения достоверности и композиционности синтеза танцев, а также эффективное предварительное обучение атрибутов человека для лучшей обобщаемости на невидимых людей. Обширные качественные и количественные результаты демонстрируют, что DISCO способен генерировать высококачественные изображения и видео танцев с разнообразными внешними видами и гибкими движениями. Код, демо, видео и визуализация доступны по адресу: https://disco-dance.github.io/.
Появление крупных языковых моделей (LLM) произвело революцию в обработке естественного языка, позволив генерировать связный и контекстуально релевантный текст. Поскольку LLM всё чаще используются в качестве основы для диалоговых агентов, синтезированная личность, заложенная в этих моделях благодаря их обучению на больших объёмах данных, созданных людьми, привлекает внимание. Поскольку личность является важным фактором, определяющим эффективность коммуникации, мы представляем комплексный метод для проведения валидированных психометрических тестов, а также количественной оценки, анализа и формирования личностных черт, проявляющихся в тексте, генерируемом широко используемыми LLM. Мы обнаружили, что: 1) личность, моделируемая в выходных данных некоторых LLM (при определённых конфигурациях запросов), является надёжной и валидной; 2) доказательства надёжности и валидности моделируемой LLM личности сильнее для более крупных и тонко настроенных на инструкции моделей; и 3) личность в выходных данных LLM может быть сформирована вдоль желаемых измерений для имитации конкретных личностных профилей. Мы также обсуждаем потенциальные приложения и этические последствия нашего подхода к измерению и формированию, особенно в контексте ответственного использования LLM.
Хотя последние достижения в моделях обработки зрения и языка произвели революцию в многомодальном понимании, остается неясным, обладают ли они способностью осмысливать генерируемые изображения. По сравнению с реальными данными, синтетические изображения демонстрируют более высокую степень разнообразия как в содержании, так и в стиле, что создает значительные трудности для полного понимания моделями. В связи с этим мы представляем крупномасштабный набор данных JourneyDB для многомодального визуального понимания генерируемых изображений. Наш тщательно отобранный набор данных охватывает 4 миллиона разнообразных и высококачественных сгенерированных изображений, сопряженных с текстовыми запросами, использованными для их создания. Мы также разработали 4 теста для количественной оценки понимания генерируемых изображений с точки зрения интерпретации содержания и стиля. Эти тесты включают инверсию запроса, поиск стиля, генерацию описаний изображений и визуальный вопросно-ответный анализ. Наконец, мы оцениваем производительность современных многомодальных моделей при работе с JourneyDB и предоставляем детальный анализ их сильных сторон и ограничений в понимании генерируемого контента. Мы надеемся, что предложенный набор данных и тесты будут способствовать исследованиям в области понимания генерируемого контента. Набор данных будет доступен на https://journeydb.github.io.
В данной статье представлен MVDiffusion — простой, но эффективный метод генерации многовидовых изображений для сценариев, где доступны пиксель-к-пиксельные соответствия, такие как перспективные срезы из панорам или многовидовые изображения с заданной геометрией (карты глубины и позиции). В отличие от предыдущих моделей, которые полагаются на итеративное искажение и восстановление изображений, MVDiffusion одновременно генерирует все изображения с глобальным учетом контекста, охватывая высокое разрешение и богатое содержание, эффективно устраняя накопление ошибок, характерное для предшествующих моделей. MVDiffusion специально включает механизм внимания, учитывающий соответствия, что позволяет эффективно взаимодействовать между видами. Этот механизм лежит в основе трех ключевых модулей: 1) модуль генерации, который создает изображения низкого разрешения, сохраняя глобальные соответствия, 2) модуль интерполяции, который увеличивает плотность пространственного покрытия между изображениями, и 3) модуль супер-разрешения, который повышает разрешение до высококачественных выходных данных. В контексте панорамных изображений MVDiffusion способен генерировать фотореалистичные изображения с разрешением до 1024×1024 пикселей. Для генерации многовидовых изображений с учетом геометрии MVDiffusion демонстрирует первый метод, способный создавать текстурированную карту сцены. Страница проекта доступна по адресу https://mvdiffusion.github.io.
Методы монохромного захвата движения, основанные на обучении, недавно продемонстрировали многообещающие результаты благодаря регрессии на основе данных. Однако из-за сложностей в сборе данных и проектировании сетей существующие решения по-прежнему сталкиваются с трудностями в достижении точного и реального времени захвата всего тела в мировом пространстве. В данной работе мы предлагаем последовательную схему обучения от прокси к движению, а также набор прокси-данных, включающий последовательности 2D-скелетов и 3D-вращательных движений в мировом пространстве. Такие прокси-данные позволяют нам построить обучаемую сеть с точным контролем всего тела, одновременно смягчая проблемы обобщения. Для более точных и физически правдоподобных прогнозов в нашей сети предложен модуль нейронного спуска движения с учетом контакта, который позволяет учитывать контакт стопы с землей и несоответствие движения прокси-наблюдениям. Кроме того, мы используем информацию о контексте тела и руки в нашей сети для более совместимого восстановления поз запястий с моделью всего тела. С предложенным решением на основе обучения мы демонстрируем первую систему монохромного захвата всего тела в реальном времени с правдоподобным контактом стопы с землей в мировом пространстве. Дополнительные видеорезультаты можно найти на странице нашего проекта: https://liuyebin.com/proxycap.
Предобученные языковые модели (PLM) в настоящее время являются основным инструментом для обработки естественного языка. Несмотря на их впечатляющую производительность в решении задач, применение PLM к новым языкам может быть затруднено, что создает барьер для их универсальной доступности. Хотя предыдущие исследования показали, что эту проблему можно решить путем обучения нового слоя эмбеддингов для нового языка, такой подход требует значительных вычислительных ресурсов и данных. Мы предлагаем использовать механизм активного забывания в процессе предобучения как простой способ создания PLM, которые могут быстро адаптироваться к новым языкам. Конкретно, сбрасывая слой эмбеддингов каждые K обновлений во время предобучения, мы стимулируем PLM улучшать способность к обучению новых эмбеддингов за ограниченное число обновлений, что аналогично эффекту метаобучения. Эксперименты с моделью RoBERTa показывают, что модели, предобученные с нашим механизмом забывания, не только демонстрируют более быструю сходимость при адаптации к языкам, но и превосходят стандартные модели в условиях ограниченного объема данных, особенно для языков, далеких от английского.
Наша цель заключается в том, чтобы роботы могли выполнять инструкции на естественном языке, такие как «положи полотенце рядом с микроволновкой». Однако получение больших объемов размеченных данных, то есть данных, содержащих демонстрации задач, аннотированных языковыми инструкциями, является крайне затруднительным. В то же время получение политик, реагирующих на целевые изображения, значительно проще, поскольку любое автономное испытание или демонстрация могут быть задним числом помечены своим конечным состоянием как целью. В данной работе мы предлагаем метод, который использует совместные политики, обусловленные изображениями и целями, с применением языка, используя лишь небольшое количество языковых данных. Предыдущие исследования добились прогресса в этом направлении с помощью моделей, объединяющих зрение и язык, или путем совместного обучения политик, обусловленных языком и целями, но до сих пор ни один из этих методов не масштабировался эффективно для задач реального мира без значительных человеческих аннотаций. Наш метод достигает устойчивой производительности в реальном мире, обучая эмбеддинг на размеченных данных, который связывает язык не с целевым изображением, а с желаемым изменением между начальным и целевым изображениями, соответствующим инструкции. Затем мы обучаем политику на этом эмбеддинге: политика извлекает выгоду из всех немаркированных данных, а выровненный эмбеддинг предоставляет интерфейс для управления политикой с помощью языка. Мы демонстрируем выполнение инструкций в различных задачах манипуляции в разных сценах, с обобщением на языковые инструкции, выходящие за пределы размеченных данных. Видео и код нашего подхода можно найти на нашем сайте: http://tiny.cc/grif.
Крупные языковые модели демонстрируют впечатляющие результаты в задачах NLP с малым количеством примеров. Однако эти модели требуют значительных ресурсов памяти и вычислений. Мета-обучение позволяет использовать более компактные модели для обобщения в условиях малого количества примеров в общем и независимом от задачи виде; однако сами по себе эти методы могут приводить к созданию моделей, которые не обладают достаточной параметризацией или знаниями для быстрой адаптации к широкому спектру задач. Чтобы преодолеть эту проблему, мы предлагаем мета-обучение с извлечением демонстраций, где мы используем плотный извлекатель текстовых фрагментов для поиска семантически похожих размеченных демонстраций для каждого примера, что обеспечивает более разнообразное обучение. Отделяя внешние знания от параметров модели, мы можем использовать мета-обучение для тренировки параметрически эффективных моделей, которые хорошо обобщаются на более широкий круг задач. Мы создаем набор для мета-обучения на основе UnifiedQA и CrossFit и предлагаем банк демонстраций, основанный на задачах UnifiedQA. Насколько нам известно, наша работа является первой, где сочетаются извлечение и мета-обучение, используются модели DPR для извлечения демонстраций и задействуются демонстрации из множества задач одновременно, вместо случайного выбора демонстраций из обучающего набора целевой задачи. Наш подход превосходит различные специализированные параметрически эффективные и дополненные извлечением методы для задач с малым количеством примеров в задачах QA, NLI и классификации текста (включая SQuAD, QNLI и TREC). Наш подход может быть быстро мета-обучен и дообучен на одном GPU.
Моделирование 3D-аватаров полезно в различных сценариях применения, таких как AR/VR, игры и кинопроизводство. Лица персонажей вносят значительный вклад в разнообразие и выразительность как важный компонент аватаров. Однако создание 3D-моделей лиц персонажей обычно требует больших усилий с использованием коммерческих инструментов, даже для опытных художников. Различные существующие инструменты на основе эскизов не поддерживают любителей в моделировании разнообразных форм лица и богатых геометрических деталей. В этой статье мы представляем SketchMetaFace — систему для создания эскизов, предназначенную для пользователей-любителей, позволяющую моделировать высококачественные 3D-лица за считанные минуты. Мы тщательно разработали как пользовательский интерфейс, так и базовый алгоритм. Во-первых, используются штрихи, учитывающие кривизну, чтобы лучше поддерживать управляемость при создании деталей лица. Во-вторых, учитывая ключевую проблему преобразования 2D-эскиза в 3D-модель, мы разработали новый метод на основе обучения, названный "Моделирование сетки с использованием неявных и глубинных данных" (IDGMM). Он объединяет преимущества представлений в виде сетки, неявных и глубинных данных для достижения высококачественных результатов с высокой эффективностью. Кроме того, для дальнейшего повышения удобства использования мы представляем интерфейс для создания эскизов от грубого к детальному и инструмент для предложения штрихов на основе данных. Исследования с участием пользователей демонстрируют превосходство нашей системы над существующими инструментами моделирования с точки зрения простоты использования и визуального качества результатов. Экспериментальные анализы также показывают, что IDGMM достигает лучшего баланса между точностью и эффективностью. SketchMetaFace доступен по адресу https://zhongjinluo.github.io/SketchMetaFace/.