Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ROICtrl: Усиление контроля экземпляра для визуальной генерации
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27, 2024

Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

712

Естественный язык часто испытывает трудности с точным сочетанием позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает текущие модели генерации визуальных данных на основе текста до более простых композиций, содержащих лишь несколько доминирующих экземпляров. Для преодоления этого ограничения данная работа улучшает модели диффузии путем внедрения регионального управления экземплярами, где каждый экземпляр управляется ограничивающим прямоугольником, сопоставленным с подробным описанием. Предыдущие методы в этой области обычно опираются на неявное кодирование позиции или явные маски внимания для разделения областей интереса (ROI), что приводит либо к неточному внедрению координат, либо к значительным вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы предлагаем дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на картах признаков высокого разрешения для генерации визуальных данных. На основе ROI-Unpool мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точное региональное управление экземплярами. ROICtrl совместим с моделями диффузии, донастроенными сообществом, а также с существующими дополнениями на основе пространственной информации (\например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (\например, IP-Adapter, ED-LoRA), расширяя их применение на генерацию нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в региональном управлении экземплярами, существенно снижая вычислительные затраты.

Переплетенный граф сцен для переплетенной генерации текста и изображений Оценка
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26, 2024

Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

192

Многие запросы пользователей в реальном мире (например, "Как приготовить яичный жареный рис?") могли бы получить выгоду от систем, способных генерировать ответы с текстовыми шагами и сопровождающими изображениями, аналогично кулинарной книге. Модели, разработанные для генерации чередующегося текста и изображений, сталкиваются с вызовами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную систему оценки для генерации чередующегося текста и изображений. ISG использует структуру графа сцены для захвата отношений между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях детализации: целостном, структурном, блочном и специфическом для изображения. Эта многоуровневая оценка позволяет проводить тонкую оценку согласованности, согласованности и точности, а также обеспечивает интерпретируемую обратную связь вопрос-ответ. Вместе с ISG мы представляем бенчмарк, ISG-Bench, охватывающий 1,150 примеров в 8 категориях и 21 подкатегории. Этот набор данных бенчмарков включает сложные зависимости между языком и зрением и золотые ответы для эффективной оценки моделей на задачах, сосредоточенных на зрении, таких как стилевой трансфер, сложная область для текущих моделей. Используя ISG-Bench, мы демонстрируем, что недавние объединенные модели зрения и языка плохо справляются с генерацией чередующегося контента. В то время как композиционные подходы, объединяющие отдельные языковые и изображенческие модели, показывают улучшение на 111% по сравнению с объединенными моделями на целостном уровне, их производительность остается недостаточной как на уровне блока, так и на уровне изображения. Для облегчения будущей работы мы разрабатываем ISG-Agent, базового агента, использующего конвейер "планирование-выполнение-усовершенствование" для вызова инструментов, достигая улучшения производительности на 122%.

Генерация видео из текста с сохранением идентичности путем декомпозиции частот.
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26, 2024

Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

133

Генерация текста в видео с сохранением идентичности (IPT2V) направлена на создание видеороликов высокого качества с согласованной человеческой идентичностью. Это важная задача в области генерации видео, но остаётся открытой проблемой для генеративных моделей. В данной статье расширяются технические возможности IPT2V в двух направлениях, которые не были решены в литературе: (1) конвейер без настройки без утомительной настройки в каждом случае, и (2) эвристическая схема управления на основе DiT с учётом частот. Мы предлагаем ConsisID, модель IPT2V на основе DiT с возможностью управления без настройки для поддержания согласованности человеческой идентичности в созданном видео. Вдохновленные предыдущими исследованиями в области анализа частот диффузионных трансформаторов, мы используем сигналы управления идентичностью в частотной области, где лицевые черты могут быть разложены на низкочастотные глобальные черты и высокочастотные внутренние черты. Во-первых, с низкочастотной точки зрения, мы представляем глобальный лицевой извлекатель, который кодирует ссылочные изображения и ключевые точки лица в латентное пространство, генерируя черты, обогащенные низкочастотной информацией. Эти черты затем интегрируются в поверхностные слои сети для смягчения проблем обучения, связанных с DiT. Во-вторых, с высокочастотной точки зрения, мы разрабатываем локальный лицевой извлекатель для захвата деталей высокой частоты и внедряем их в блоки трансформатора, улучшая способность модели сохранять мелкозернистые черты. Мы предлагаем иерархическую стратегию обучения для использования информации о частотах для сохранения идентичности, превращая обычную предварительно обученную модель генерации видео в модель IPT2V. Обширные эксперименты показывают, что наша эвристическая схема с учётом частот предоставляет оптимальное решение управления для моделей на основе DiT. Благодаря этой схеме наш ConsisID генерирует видеоролики высокого качества с сохранением идентичности, делая шаги в направлении более эффективного IPT2V.

MARVEL-40M+: Многоуровневая визуальная доработка для создания контента Text-to-3D высокой точности.
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26, 2024

Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

214

Генерация трехмерного контента высокой точности по текстовым запросам остается значительной проблемой в компьютерном зрении из-за ограниченного размера, разнообразия и глубины аннотации существующих наборов данных. Для решения этой проблемы мы представляем MARVEL-40M+, обширный набор данных с 40 миллионами текстовых аннотаций для более чем 8,9 миллиона трехмерных ресурсов, собранных из семи крупных 3D наборов данных. Наш вклад - это новая многоэтапная аннотационная платформа, которая интегрирует предварительно обученные многообзорные VLM и LLM для автоматического создания многоуровневых описаний, начиная от подробных (150-200 слов) до кратких семантических тегов (10-20 слов). Эта структура поддерживает как детализированную трехмерную реконструкцию, так и быстрое прототипирование. Кроме того, мы включаем метаданные человека из исходных наборов данных в нашу аннотационную платформу, чтобы добавить доменно-специфическую информацию в нашу аннотацию и уменьшить галлюцинации VLM. Кроме того, мы разрабатываем MARVEL-FX3D, двухэтапную платформу текст-в-3D. Мы донастраиваем Stable Diffusion с нашими аннотациями и используем предварительно обученную сеть изображения-в-3D для создания текстурированных трехмерных сеток за 15 секунд. Обширные оценки показывают, что MARVEL-40M+ значительно превосходит существующие наборы данных по качеству аннотации и лингвистическому разнообразию, достигая победных показателей 72,41% по GPT-4 и 73,40% по оценщикам-людям.

CAT4D: Создание Любого Объекта в 4D с Моделями Диффузии Видео из Множества Видов
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27, 2024

Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

595

Мы представляем CAT4D, метод создания 4D (динамических 3D) сцен из монокулярного видео. CAT4D использует модель многозрительного диффузионного видео, обученную на разнообразных наборах данных, для синтеза нового вида в любых заданных позах камеры и временных метках. В сочетании с новым подходом к выборке, эта модель может преобразовать одиночное монокулярное видео в многозрительное видео, обеспечивая надежное восстановление 4D путем оптимизации деформируемого трехмерного гауссова представления. Мы демонстрируем конкурентоспособную производительность на бенчмарках синтеза нового вида и восстановления динамичных сцен, а также выделяем творческие возможности для создания 4D сцен из реальных или сгенерированных видео. См. нашу страницу проекта для результатов и интерактивных демонстраций: cat-4d.github.io.

Агенты GUI с большой языковой моделью: обзор
Large Language Model-Brained GUI Agents: A Survey

Nov 27, 2024

Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

323

Графические пользовательские интерфейсы (GUI) давно являются центральным элементом взаимодействия человека с компьютером, предоставляя интуитивный и визуально ориентированный способ доступа и взаимодействия с цифровыми системами. Появление LLM, особенно мультимодельных моделей, открыло новую эру автоматизации GUI. Они продемонстрировали исключительные способности в понимании естественного языка, генерации кода и обработке изображений. Это положило начало новому поколению агентов GUI с LLM, способных интерпретировать сложные элементы GUI и автономно выполнять действия на основе инструкций на естественном языке. Эти агенты представляют собой парадигмальный сдвиг, позволяя пользователям выполнять сложные многоэтапные задачи через простые разговорные команды. Их применение охватывает веб-навигацию, взаимодействие с мобильными приложениями и автоматизацию рабочего стола, предлагая трансформационный пользовательский опыт, который революционизирует способы взаимодействия людей с программным обеспечением. Это развивающееся направление быстро продвигается вперед, с значительными успехами как в исследованиях, так и в промышленности. Для структурированного понимания этой тенденции в данной статье представлен обширный обзор агентов GUI с LLM, исследуя их историческое развитие, основные компоненты и передовые техники. Мы рассматриваем исследовательские вопросы, такие как существующие фреймворки агентов GUI, сбор и использование данных для обучения специализированных агентов GUI, разработку крупных моделей действий, адаптированных для GUI задач, и метрики оценки и стандарты, необходимые для оценки их эффективности. Кроме того, мы рассматриваем новые приложения, работающие на основе этих агентов. Через детальный анализ этот обзор выявляет ключевые исследовательские пробелы и намечает план развития для будущих достижений в этой области. Объединяя фундаментальные знания и передовые разработки, данная работа нацелена на то, чтобы направить как исследователей, так и практиков на преодоление вызовов и раскрытие полного потенциала агентов GUI с LLM.

Диффузионная самодистилляция для генерации изображений с нулевой настройкой.
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27, 2024

Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

166

Модели диффузии текста в изображение производят впечатляющие результаты, но являются раздражающими инструментами для художников, желающих тонкой настройки. Например, распространенным случаем использования является создание изображений конкретного экземпляра в новых контекстах, т.е. "генерация с сохранением идентичности". Этот сценарий, а также многие другие задачи (например, изменение освещения), естественным образом подходят для условных генеративных моделей изображения+текста. Однако для обучения такой модели недостаточно высококачественных сопоставленных данных. Мы предлагаем метод самодистилляции диффузии, позволяющий использовать предварительно обученную модель текста в изображение для создания собственного набора данных для задач изображение-изображение с условием текста. Сначала мы используем способность модели диффузии текста в изображение к генерации в контексте для создания сеток изображений и курируем большой сопоставленный набор данных с помощью модели визуального языка. Затем мы донастраиваем модель текста в изображение в модель текст+изображение-изображение, используя подготовленный сопоставленный набор данных. Мы демонстрируем, что метод самодистилляции диффузии превосходит существующие методы нулевой настройки и конкурентоспособен с методами настройки по экземпляру в широком спектре задач генерации с сохранением идентичности, не требуя оптимизации во время тестирования.

3D Выпуклое сглаживание: Визуализация поля излучения с 3D гладкими выпуклыми объектами.
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22, 2024

Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

165

Недавние достижения в восстановлении поля яркости, такие как 3D Гауссово сплетение (3DGS), позволили достичь высококачественного синтеза нового вида и быстрой отрисовки, представляя сцены с помощью композиций гауссовых примитивов. Однако 3D Гауссианы имеют несколько ограничений для восстановления сцены. Точное воспроизведение резких краев затруднительно без значительного увеличения количества Гауссианов, что приводит к большому объему памяти. Более того, они имеют проблемы с представлением плоских поверхностей, так как они диффундируются в пространстве. Без ручных регуляризаторов они склонны неравномерно распределяться вокруг фактической поверхности. Для обхода этих проблем мы представляем новый метод, названный 3D Конвексное сплетение (3DCS), который использует 3D гладкие выпуклые формы в качестве примитивов для моделирования геометрически значимых полей яркости из многовидовых изображений. Гладкие выпуклые формы предлагают большую гибкость по сравнению с Гауссианами, что позволяет лучше представлять 3D сцены с резкими краями и плотными объемами, используя меньшее количество примитивов. Благодаря нашему эффективному растеризатору на основе CUDA, 3DCS достигает превосходной производительности по сравнению с 3DGS на бенчмарках, таких как Mip-NeRF360, Tanks and Temples и Deep Blending. В частности, наш метод достигает улучшения до 0.81 в PSNR и 0.026 в LPIPS по сравнению с 3DGS, сохраняя высокие скорости отрисовки и сокращая количество необходимых примитивов. Наши результаты подчеркивают потенциал 3D Конвексного сплетения стать новым стандартом для высококачественного восстановления сцены и синтеза нового вида. Страница проекта: convexsplatting.github.io.

DiffusionDrive: Усеченная модель диффузии для автономного вождения от начала и до конца
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22, 2024

Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

152

Недавно модель диффузии стала мощным генеративным методом для обучения политике роботов, способным моделировать распределения действий с несколькими режимами. Использование ее возможностей для автономного вождения "от начала и до конца" является многообещающим направлением. Однако многочисленные этапы подавления шума в роботизированной политике диффузии и более динамичная, открытая природа сцен дорожного движения представляют существенные вызовы для генерации разнообразных действий вождения в реальном времени. Для решения этих проблем мы предлагаем новую усеченную политику диффузии, которая включает в себя предварительные многорежимные якоря и усекает график диффузии, позволяя модели изучать подавление шума от якорной гауссовой дистрибуции к многорежимному распределению действий вождения. Кроме того, мы разрабатываем эффективный каскадный декодер диффузии для улучшенного взаимодействия с условным контекстом сцены. Предложенная модель, DiffusionDrive, демонстрирует уменьшение количества этапов подавления шума в 10 раз по сравнению с обычной политикой диффузии, обеспечивая превосходное разнообразие и качество всего за 2 шага. На наборе данных NAVSIM, ориентированном на планирование, с использованием основы ResNet-34, DiffusionDrive достигает 88,1 PDMS без лишних украшательств, устанавливая новый рекорд, работая при скорости реального времени 45 FPS на NVIDIA 4090. Качественные результаты на сложных сценариях дополнительно подтверждают, что DiffusionDrive может надежно генерировать разнообразные правдоподобные действия вождения. Код и модель будут доступны по ссылке https://github.com/hustvl/DiffusionDrive.

Make-It-Animatable: Эффективная структура для создания анимационно готовых 3D персонажей
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27, 2024

Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

144

3D-персонажи являются неотъемлемой частью современных творческих отраслей, однако их анимация часто требует обширной ручной работы, такой как создание рига и скинов. Существующие инструменты автоматического создания рига сталкиваются с несколькими ограничениями, включая необходимость ручной аннотации, жесткую топологию скелета и ограниченную обобщаемость для разнообразных форм и поз. Альтернативным подходом является создание анимируемых аватаров, заранее привязанных к шаблонной сетке рига. Однако этот метод часто лишен гибкости и обычно ограничивается реалистичными формами человека. Для решения этих проблем мы представляем Make-It-Animatable, новый метод на основе данных, который позволяет подготовить любую 3D-модель человекоподобного персонажа к анимации персонажей менее чем за одну секунду, независимо от ее формы и позы. Наш единый фреймворк генерирует высококачественные веса смешивания, кости и преобразования поз. Интегрируя автоэнкодер формы на основе частиц, наш подход поддерживает различные 3D-представления, включая сетки и трехмерные гауссовы пятна. Кроме того, мы используем представление от грубого к точному и стратегию моделирования, учитывающую структуру, чтобы обеспечить как точность, так и надежность, даже для персонажей с нестандартными структурами скелета. Мы провели обширные эксперименты для подтверждения эффективности нашего фреймворка. По сравнению с существующими методами, наш подход демонстрирует значительное улучшение как по качеству, так и по скорости.

UniPose: Объединенная мультимодальная платформа для понимания, генерации и редактирования поз человека.
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25, 2024

Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

134

Человеческая поза играет решающую роль в цифровую эпоху. В то время как недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и работают в изоляции, что ограничивает их применение в реальных сценариях. В данной статье представлена UniPose, фреймворк, использующий Большие Языковые Модели (LLM) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D позы SMPL. Конкретно, мы применяем токенизатор поз для преобразования 3D поз в дискретные токены поз, обеспечивая безупречную интеграцию в LLM в рамках единого словаря. Для дальнейшего улучшения возможностей восприятия поз с высокой детализацией мы обеспечиваем UniPose смесью визуальных кодировщиков, включая специализированный кодировщик поз. Благодаря унифицированной стратегии обучения UniPose эффективно передает знания между различными задачами, адаптируется к невидимым задачам и проявляет расширенные возможности. Эта работа служит первой попыткой создания универсального фреймворка для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособность и даже превосходство UniPose в различных задачах, связанных с позами.

Совместное декодирование обеспечивает эффективность визуального авторегрессионного моделирования.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26, 2024

Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

122

В быстро развивающейся области генерации изображений моделирование Visual Auto-Regressive (VAR) привлекло значительное внимание благодаря своему инновационному подходу к предсказанию следующего уровня. Этот парадигма предлагает существенные улучшения в эффективности, масштабируемости и обобщении без обучающих примеров. Тем не менее, встроенная в модель VAR грубая структура от мелкого к крупному вводит в действие продолжительную последовательность токенов, что приводит к запретительному расходу памяти и вычислительным избыткам. Для решения этих узких мест мы предлагаем Collaborative Decoding (CoDe), новую эффективную стратегию декодирования, разработанную специально для рамок VAR. CoDe опирается на два критических наблюдения: существенно сниженные требования к параметрам на более крупных масштабах и исключительные образцы генерации на разных масштабах. Основываясь на этих идеях, мы разбиваем процесс вывода на многомасштабный процесс на плавное взаимодействие между большой и малой моделями. Большая модель выступает в роли "чертежника", специализируясь на генерации контента низкой частоты на более мелких масштабах, в то время как малая модель выступает в роли "усовершенствователя", сосредотачиваясь исключительно на предсказании деталей высокой частоты на более крупных масштабах. Это взаимодействие обеспечивает замечательную эффективность с минимальным влиянием на качество: CoDe достигает ускорения в 1,7 раза, сокращает использование памяти примерно на 50% и сохраняет качество изображения с незначительным увеличением FID с 1,95 до 1,98. При дальнейшем сокращении шагов черчения CoDe может достичь впечатляющего коэффициента ускорения в 2,9 раза, достигая 41 изображения/с при разрешении 256x256 на одном графическом процессоре NVIDIA 4090, сохраняя при этом похвальное значение FID в 2,27. Код доступен по адресу https://github.com/czg1225/CoDe

DreamCache: Легковесная персонализированная генерация изображений без настройки через кэширование признаков
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26, 2024

Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

123

Генерация персонализированных изображений требует моделей, преобразующих текст в изображения, которые захватывают основные характеристики исходной темы для контролируемой генерации в различных контекстах. Существующие методы сталкиваются с проблемами из-за сложных требований к обучению, высоких затрат на вывод, ограниченной гибкости или их комбинации. В данной статье мы представляем DreamCache, масштабируемый подход для эффективной и качественной генерации персонализированных изображений. Путем кэширования небольшого количества характеристик исходного изображения из подмножества слоев и одного временного шага предварительно обученного диффузионного денойзера, DreamCache позволяет динамически модулировать характеристики сгенерированного изображения с помощью легких, обученных адаптеров условий. DreamCache достигает передового согласования изображений и текста, используя порядок меньше дополнительных параметров, и является как более вычислительно эффективным, так и универсальным по сравнению с существующими моделями.

ChatRex: Приручение мультимодальной LLM для совместного восприятия и понимания
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27, 2024

Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

103

Восприятие и понимание являются двумя основами компьютерного зрения. В то время как мультимодельные модели обработки больших языковых данных (MLLM) продемонстрировали выдающиеся возможности визуального понимания, можно утверждать, что у них отсутствуют точные способности восприятия, например, модель новейшего поколения Qwen2-VL достигает только 43,9% вероятности обнаружения на наборе данных COCO, что ограничивает множество задач, требующих сочетания восприятия и понимания. В данной работе мы стремимся устранить этот разрыв в восприятии с точек зрения как проектирования модели, так и разработки данных. Сначала мы представляем ChatRex, MLLM с разделенным дизайном восприятия. Вместо того чтобы позволить LLM прямо предсказывать координаты рамок, мы подаем выходные рамки из универсальной сети предложений в LLM, позволяя ему выдавать соответствующие индексы рамок для представления результатов обнаружения, превращая задачу регрессии в задачу на основе поиска, с которой LLM справляется более опытно. С точки зрения данных мы создаем полностью автоматизированный движок данных и создаем набор данных Rexverse-2M, который обладает несколькими уровнями детализации для поддержки совместного обучения восприятия и понимания. После стандартного двухэтапного обучения ChatRex демонстрирует сильные способности в восприятии, сохраняя при этом производительность мультимодального понимания. Сочетание этих двух способностей одновременно открывает множество привлекательных приложений, демонстрируя дополняющие роли восприятия и понимания в MLLM. Код доступен по адресу https://github.com/IDEA-Research/ChatRex.

Генерация звуков Фоли с помощью видео-руководства с мультимодальным управлением
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26, 2024

Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

102

Генерация звуковых эффектов для видео часто требует создания художественных звуковых эффектов, которые значительно отличаются от источников реальной жизни, и гибкого контроля в звуковом дизайне. Для решения этой проблемы мы представляем MultiFoley, модель, разработанную для генерации звука под управлением видео, поддерживающую мультимодальное условие через текст, аудио и видео. Учитывая бесшумное видео и текстовую подсказку, MultiFoley позволяет пользователям создавать чистые звуки (например, вращение колес скейтборда без шума ветра) или более фантастические звуки (например, звук рыка льва, похожий на мяуканье кота). MultiFoley также позволяет пользователям выбирать ссылочное аудио из библиотек звуковых эффектов (SFX) или частичных видео для условий. Одной из ключевых новинок нашей модели является ее совместное обучение как на интернет-видео наборах данных с аудио низкого качества, так и на профессиональных записях звуковых эффектов, обеспечивая генерацию аудио высокого качества с полной пропускной способностью (48 кГц). Через автоматизированные оценки и исследования с участием людей мы демонстрируем, что MultiFoley успешно генерирует синхронизированные звуки высокого качества при разнообразных условиях ввода и превосходит существующие методы. Пожалуйста, посетите нашу страницу проекта для видео-результатов: https://ificl.github.io/MultiFoley/

Омеганс: Один параметр для различных уровней детализации в синтезе на основе диффузии
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26, 2024

Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

В данной работе мы представляем один параметр омега для эффективного контроля гранулярности в синтезе на основе диффузии. Этот параметр внедряется во время этапов удаления шума обратного процесса модели диффузии. Наш подход не требует повторного обучения модели, изменений в архитектуре или дополнительных вычислительных затрат во время вывода, однако обеспечивает точный контроль над уровнем деталей в созданных изображениях. Более того, пространственные маски или графики удаления шума с различными значениями омега могут быть применены для достижения контроля над гранулярностью для конкретных областей или моментов времени. Предварительное знание композиции изображения из управляющих сигналов или ссылочных изображений также облегчает создание точных масок омега для контроля гранулярности на конкретных объектах. Для выделения роли параметра в контроле за тонкими вариациями деталей, технику назвали Omegance, объединяя "омега" и "нюанс". Наш метод демонстрирует впечатляющую производительность в различных задачах синтеза изображений и видео и адаптируется к передовым моделям диффузии. Код доступен по ссылке https://github.com/itsmag11/Omegance.

Модель Draft знает, когда остановиться: политика самопроверки длины для спекулятивного декодирования
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27, 2024

Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

Спекулятивное декодирование (SD) стало важной техникой для ускорения скорости вывода больших языковых моделей. Традиционные методы SD используют фиксированную длину черновика, что не учитывает сложность генерации токенов в различных задачах. В данной статье мы рассматриваем эту проблему и представляем SVIP - политику динамической длины черновика, учитывающую сложность генерации. Основываясь на теоретической нижней границе скорости принятия токенов черновика и ее приближении во время вывода, SVIP адаптивно определяет длины черновых последовательностей на основе энтропии распределения каждого токена черновика. Экспериментальные результаты на основных бенчмарках и фреймворках SD демонстрируют превосходную производительность SVIP, достигая ускорения времени работы на стенде до 20\% по сравнению с базовыми методами SD и ускорения на 60\% на MT-Bench для генерации длинных форматов до 8K токенов. Более того, SVIP полностью лишен обучения и совместим с любыми существующими методами SD, генерирующими токены черновика авторегрессивно. Экспериментальные результаты также показывают, что SVIP обеспечивает последовательное улучшение времени работы на фоне GliDe & CaPE и EAGLE-2.

VideoLLM знает, когда говорить: улучшение понимания видео с учетом времени с помощью формата взаимодействия видео-текст.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27, 2024

Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Недавние исследования по видео-моделям с широким языковым контекстом (VideoLLM) в основном сосредотачиваются на архитектурах моделей и наборах данных для обучения, оставляя взаимодействие между пользователем и моделью недостаточно исследованным. В существующих работах пользователи часто взаимодействуют с VideoLLM, используя весь видеоролик и запрос в качестве входных данных, после чего модель генерирует ответ. Такой формат взаимодействия ограничивает применение VideoLLM в сценариях, таких как понимание прямых трансляций, где видеоролики не заканчиваются, и требуются ответы в реальном времени, а также приводит к неудовлетворительной производительности при выполнении задач, требующих локализации видеоотрывков. В данной статье мы сосредотачиваемся на формате взаимодействия видео-текст. Этот формат взаимодействия характеризуется непрерывным воспроизведением видео, и как пользователь, так и модель могут вставлять свои текстовые сообщения в любой момент во время воспроизведения видео. Когда текстовое сообщение завершается, видео продолжает воспроизводиться, подобно альтернативе двух исполнителей в дуэте. Мы создаем MMDuetIT, набор данных для обучения видео-текстовых моделей, разработанный для адаптации VideoLLM к формату взаимодействия видео-текст. Мы также представляем задачу множественного ответа на вопросы по видео (MAGQA) для оценки способности VideoLLM к реагированию в реальном времени. Обученный на MMDuetIT, MMDuet демонстрирует, что принятие формата взаимодействия видео-текст позволяет модели значительно улучшить результаты в различных задачах, требующих выполнения в ограниченные сроки (76% CIDEr при плотном описании видеороликов YouCook2, 90% mAP при обнаружении высокоценных моментов в QVHighlights и 25% R@0.5 при временной локализации видеоотрывков в Charades-STA) с минимальными усилиями по обучению, а также позволяет VideoLLM отвечать в реальном времени во время воспроизведения видео. Код, данные и демонстрация доступны по ссылке: https://github.com/yellow-binary-tree/MMDuet.

Оптимизация сегментации опухолей головного мозга с помощью MedNeXt: BraTS 2024 SSA и Педиатрия
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24, 2024

Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

Выявление ключевых патологических особенностей на магнитно-резонансных изображениях мозга имеет решающее значение для долгосрочного выживания пациентов с глиомой. Однако ручная сегментация требует много времени, вмешательства эксперта и подвержена человеческой ошибке. Поэтому значительные исследования были посвящены разработке методов машинного обучения, способных точно сегментировать опухоли на 3D мультимодальных магнитно-резонансных изображениях мозга. Несмотря на их прогресс, передовые модели часто ограничены данными, на которых они обучены, возникают опасения относительно их надежности при применении к разнообразным популяциям, что может вызвать сдвиги в распределении. Такие сдвиги могут быть обусловлены более низким качеством технологии МРТ (например, в странах южной части Африки) или различиями в демографии пациентов (например, дети). Соревнование BraTS-2024 предоставляет платформу для решения этих проблем. В данном исследовании представлена наша методология сегментации опухолей в задачах BraTS-2024 SSA и детских опухолях с использованием MedNeXt, комплексного ансамблирования моделей и тщательной постобработки. Наш подход продемонстрировал высокую производительность на невидимом валидационном наборе данных, достигнув среднего коэффициента сходства Дайса (DSC) 0.896 на наборе данных BraTS-2024 SSA и среднего DSC 0.830 на наборе данных BraTS детских опухолей. Кроме того, наш метод достиг среднего расстояния Хаусдорфа (HD95) 14.682 на наборе данных BraTS-2024 SSA и среднего HD95 37.508 на наборе данных BraTS детских опухолей. Наш репозиторий GitHub доступен по ссылке: Репозиторий проекта: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

Адаптивное слепое всестороннее восстановление изображений.
Adaptive Blind All-in-One Image Restoration

Nov 27, 2024

David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Слепые модели восстановления изображений "все в одном" направлены на восстановление изображения высокого качества из входных данных, подвергшихся неизвестным искажениям. Однако такие модели требуют, чтобы все возможные типы искажений были определены на этапе обучения, что снижает их обобщающую способность к невидимым искажениям и ограничивает их практическое применение в сложных случаях. В данной статье мы предлагаем простую, но эффективную адаптивную слепую модель восстановления "все в одном" (ABAIR), способную справляться с несколькими видами искажений, хорошо обобщающуюся к невидимым искажениям и эффективно интегрирующую новые искажения путем обучения небольшой доли параметров. Сначала мы обучаем базовую модель на большом наборе данных естественных изображений с различными синтетическими искажениями, дополненными сегментационным блоком для оценки типов искажений на пиксельном уровне, что приводит к мощному основному блоку, способному обобщаться на широкий спектр искажений. Затем мы адаптируем базовую модель к различным задачам восстановления изображений с помощью независимых адаптеров низкого ранга. В третьих, мы учимся адаптивно комбинировать адаптеры для универсальных изображений через гибкий и легкий оценщик искажений. Наша модель одновременно мощна в обработке конкретных искажений и гибка в адаптации к сложным задачам, превосходя существующие методы с большим отрывом на настройках восстановления изображений с пятью и тремя задачами, а также показывает улучшенную обобщающую способность к невидимым искажениям и составным искажениям.

Обучение и оценка языковых моделей с генерацией данных на основе шаблонов
Training and Evaluating Language Models with Template-based Data Generation

Nov 27, 2024

Yifan Zhang

Быстрое развитие больших языковых моделей (LLM), таких как GPT-3, PaLM и Llama, значительно изменило обработку естественного языка, продемонстрировав замечательные способности в понимании и генерации языка. Однако эти модели часто испытывают трудности с задачами, требующими сложного рассуждения, особенно в математическом решении проблем, частично из-за недостатка масштабных, высококачественных, областно-специфичных наборов данных, необходимых для обучения сложных рассуждений. Для преодоления этого ограничения мы представляем Генерацию данных на основе шаблонов (TDG), новый подход, который использует LLM (GPT-4) для автоматической генерации параметризованных мета-шаблонов, которые затем используются для синтеза огромного количества высококачественных проблем и решений. Используя TDG, мы создаем TemplateMath Part I: TemplateGSM, набор данных, включающий более 7 миллионов синтетически созданных математических задач начальной школы - каждая сопровождается кодовыми и естественными языковыми решениями - с потенциалом генерировать эффективно неограниченное количество других. Этот набор данных уменьшает дефицит масштабных математических наборов данных и служит ценным ресурсом для предварительного обучения, настройки и оценки LLM в математическом рассуждении. Наш метод не только позволяет генерировать практически бесконечные данные, но также поднимает аугментацию данных на новый уровень, используя GPT-4 для генерации мета-шаблонов, обеспечивая разнообразные и высококачественные структуры проблем. Набор данных TemplateMath Part I: TemplateGSM доступен публично по адресу https://huggingface.co/datasets/math-ai/TemplateGSM. Код доступен по адресу https://github.com/iiis-ai/TemplateMath.

Редактируйте на здоровье, но мое лицо не останется: персональная биометрическая защита от вредоносного генеративного редактирования.
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25, 2024

Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu

Недавние достижения в моделях диффузии сделали генеративное редактирование изображений более доступным, позволяя творческие правки, но вызывая этические вопросы, особенно в отношении злонамеренных правок портретов людей, угрожающих конфиденциальности и безопасности личности. Существующие методы защиты в основном опираются на адверсарные искажения для аннулирования правок, но часто терпят неудачу против разнообразных запросов на редактирование. Мы предлагаем FaceLock, новый подход к защите портретов, который оптимизирует адверсарные искажения для уничтожения или значительного изменения биометрической информации, делая отредактированные выходные данные биометрически неузнаваемыми. FaceLock интегрирует распознавание лиц и визуальное восприятие в оптимизацию искажений для обеспечения надежной защиты от различных попыток редактирования. Мы также выявляем недостатки общеиспользуемых метрик оценки и раскрываем, как их можно манипулировать, подчеркивая необходимость надежной оценки защиты. Эксперименты показывают, что FaceLock превосходит базовые показатели в защите от злонамеренных правок и устойчив против техник очистки. Исследования абляции подтверждают его стабильность и широкие возможности применения в алгоритмах редактирования на основе диффузии. Наша работа продвигает биометрическую защиту и заложивает основу для практик, сохраняющих конфиденциальность при редактировании изображений. Код доступен по ссылке: https://github.com/taco-group/FaceLock.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ROICtrl: Усиление контроля экземпляра для визуальной генерации
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27, 2024

Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

712

Переплетенный граф сцен для переплетенной генерации текста и изображений Оценка
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26, 2024

Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

192

Генерация видео из текста с сохранением идентичности путем декомпозиции частот.
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26, 2024

Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

133

MARVEL-40M+: Многоуровневая визуальная доработка для создания контента Text-to-3D высокой точности.
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26, 2024

Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

214

CAT4D: Создание Любого Объекта в 4D с Моделями Диффузии Видео из Множества Видов
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27, 2024

Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

595

Агенты GUI с большой языковой моделью: обзор
Large Language Model-Brained GUI Agents: A Survey

Nov 27, 2024

Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

323

Диффузионная самодистилляция для генерации изображений с нулевой настройкой.
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27, 2024

Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

166

3D Выпуклое сглаживание: Визуализация поля излучения с 3D гладкими выпуклыми объектами.
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22, 2024

Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

165

DiffusionDrive: Усеченная модель диффузии для автономного вождения от начала и до конца
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22, 2024

Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

152

Make-It-Animatable: Эффективная структура для создания анимационно готовых 3D персонажей
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27, 2024

Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

144

UniPose: Объединенная мультимодальная платформа для понимания, генерации и редактирования поз человека.
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25, 2024

Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

134

Совместное декодирование обеспечивает эффективность визуального авторегрессионного моделирования.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26, 2024

Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

122

DreamCache: Легковесная персонализированная генерация изображений без настройки через кэширование признаков
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26, 2024

Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

123

ChatRex: Приручение мультимодальной LLM для совместного восприятия и понимания
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27, 2024

Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

103

Генерация звуков Фоли с помощью видео-руководства с мультимодальным управлением
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26, 2024

Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

102

Омеганс: Один параметр для различных уровней детализации в синтезе на основе диффузии
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26, 2024

Xinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

Модель Draft знает, когда остановиться: политика самопроверки длины для спекулятивного декодирования
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27, 2024

Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

VideoLLM знает, когда говорить: улучшение понимания видео с учетом времени с помощью формата взаимодействия видео-текст.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27, 2024

Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Оптимизация сегментации опухолей головного мозга с помощью MedNeXt: BraTS 2024 SSA и Педиатрия
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24, 2024

Sarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

Адаптивное слепое всестороннее восстановление изображений.
Adaptive Blind All-in-One Image Restoration

Nov 27, 2024

David Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Обучение и оценка языковых моделей с генерацией данных на основе шаблонов
Training and Evaluating Language Models with Template-based Data Generation

Nov 27, 2024

Yifan Zhang

Редактируйте на здоровье, но мое лицо не останется: персональная биометрическая защита от вредоносного генеративного редактирования.
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25, 2024

Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu