Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ShowUI: Одна модель Vision-Language-Action для визуального агента пользовательского интерфейса.
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

Построение ассистентов с графическим пользовательским интерфейсом (GUI) обещает значительно повысить производительность рабочего процесса человека. В то время как большинство агентов основаны на языке и используют закрытые API с мета-информацией, богатой текстом (например, HTML или дерево доступности), они ограничены в способности воспринимать визуальные элементы пользовательского интерфейса так же, как это делают люди, что подчеркивает необходимость агентов с визуальным GUI. В данной работе мы разрабатываем модель видение-язык-действие в цифровом мире, названную ShowUI, которая представляет следующие инновации: (i) UI-ориентированный выбор визуальных токенов для снижения вычислительных затрат путем формулирования снимков экрана как связанного графа UI, адаптивного определения избыточных связей и использования их в качестве критерия выбора токенов во время блоков самовнимания; (ii) Перемеженная передача видение-язык-действие, гибко объединяющая разнообразные потребности в рамках задач GUI, обеспечивая эффективное управление историей визуальных действий при навигации или сопоставлении последовательностей запрос-действие на несколько ходов на каждом снимке для повышения эффективности обучения; (iii) Наборы данных для выполнения инструкций GUI малого масштаба и высокого качества путем тщательной кураторской работы с данными и использования стратегии повторной выборки для решения значительных дисбалансов типов данных. С использованием вышеуказанных компонентов ShowUI, легкая модель 2B, использующая 256K данных, достигает высокой точности в 75,1% при обработке снимков экрана без предварительного обучения. UI-ориентированный выбор токенов дополнительно снижает на 33% избыточных визуальных токенов во время обучения и ускоряет производительность в 1,4 раза. Эксперименты с навигацией на веб-платформах Mind2Web, мобильных AITW и онлайн-окружениях MiniWob дополнительно подчеркивают эффективность и потенциал нашей модели в продвижении агентов с визуальным GUI. Модели доступны на https://github.com/showlab/ShowUI.

ROICtrl: Усиление контроля экземпляра для визуальной генерации
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Естественный язык часто испытывает трудности с точным сочетанием позиционной и атрибутивной информации с несколькими экземплярами, что ограничивает текущие модели генерации визуальных данных на основе текста до более простых композиций, содержащих лишь несколько доминирующих экземпляров. Для преодоления этого ограничения данная работа улучшает модели диффузии путем внедрения регионального управления экземплярами, где каждый экземпляр управляется ограничивающим прямоугольником, сопоставленным с подробным описанием. Предыдущие методы в этой области обычно опираются на неявное кодирование позиции или явные маски внимания для разделения областей интереса (ROI), что приводит либо к неточному внедрению координат, либо к значительным вычислительным затратам. Вдохновленные ROI-Align в обнаружении объектов, мы предлагаем дополнительную операцию под названием ROI-Unpool. Вместе ROI-Align и ROI-Unpool обеспечивают явное, эффективное и точное управление ROI на картах признаков высокого разрешения для генерации визуальных данных. На основе ROI-Unpool мы предлагаем ROICtrl, адаптер для предварительно обученных моделей диффузии, который обеспечивает точное региональное управление экземплярами. ROICtrl совместим с моделями диффузии, донастроенными сообществом, а также с существующими дополнениями на основе пространственной информации (\например, ControlNet, T2I-Adapter) и дополнениями на основе встраивания (\например, IP-Adapter, ED-LoRA), расширяя их применение на генерацию нескольких экземпляров. Эксперименты показывают, что ROICtrl достигает превосходных результатов в региональном управлении экземплярами, существенно снижая вычислительные затраты.

Пути на многообразии изображений: редактирование изображений с помощью генерации видео
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, показали значительный прогресс. Однако остаются значительные проблемы, поскольку эти модели часто испытывают трудности в точном выполнении сложных инструкций по редактированию и часто жертвуют достоверностью, изменяя ключевые элементы исходного изображения. В то же время генерация видео сделала значительные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В данной статье мы предлагаем объединить эти две области, используя модели изображений в видео для редактирования изображений. Мы переформулируем редактирование изображений как временной процесс, используя предварительно обученные видео-модели для создания плавных переходов от исходного изображения к желаемому редактированию. Этот подход непрерывно проходит по многообразию изображений, обеспечивая последовательные редактирования, сохраняя при этом ключевые аспекты исходного изображения. Наш подход достигает передовых результатов в редактировании изображений на основе текста, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.

Генерация видео из текста с сохранением идентичности путем декомпозиции частот.
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

Генерация текста в видео с сохранением идентичности (IPT2V) направлена на создание видеороликов высокого качества с согласованной человеческой идентичностью. Это важная задача в области генерации видео, но остаётся открытой проблемой для генеративных моделей. В данной статье расширяются технические возможности IPT2V в двух направлениях, которые не были решены в литературе: (1) конвейер без настройки без утомительной настройки в каждом случае, и (2) эвристическая схема управления на основе DiT с учётом частот. Мы предлагаем ConsisID, модель IPT2V на основе DiT с возможностью управления без настройки для поддержания согласованности человеческой идентичности в созданном видео. Вдохновленные предыдущими исследованиями в области анализа частот диффузионных трансформаторов, мы используем сигналы управления идентичностью в частотной области, где лицевые черты могут быть разложены на низкочастотные глобальные черты и высокочастотные внутренние черты. Во-первых, с низкочастотной точки зрения, мы представляем глобальный лицевой извлекатель, который кодирует ссылочные изображения и ключевые точки лица в латентное пространство, генерируя черты, обогащенные низкочастотной информацией. Эти черты затем интегрируются в поверхностные слои сети для смягчения проблем обучения, связанных с DiT. Во-вторых, с высокочастотной точки зрения, мы разрабатываем локальный лицевой извлекатель для захвата деталей высокой частоты и внедряем их в блоки трансформатора, улучшая способность модели сохранять мелкозернистые черты. Мы предлагаем иерархическую стратегию обучения для использования информации о частотах для сохранения идентичности, превращая обычную предварительно обученную модель генерации видео в модель IPT2V. Обширные эксперименты показывают, что наша эвристическая схема с учётом частот предоставляет оптимальное решение управления для моделей на основе DiT. Благодаря этой схеме наш ConsisID генерирует видеоролики высокого качества с сохранением идентичности, делая шаги в направлении более эффективного IPT2V.

MME-опрос: Комплексный обзор оценки мультимодальных языковых моделей с многомодальными данными
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Как важное направление искусственного общего интеллекта (AGI), мультимодальные крупные языковые модели (MLLMs) привлекли увеличенное внимание как от промышленности, так и от академии. Основываясь на предварительно обученных LLMs, эта семейство моделей дальше развивает мультимодальное восприятие и способности к рассуждениям, включая такие впечатляющие навыки, как написание кода по блок-схеме или создание историй на основе изображения. В процессе разработки оценка имеет критическое значение, поскольку она обеспечивает интуитивную обратную связь и руководство по улучшению моделей. Отличаясь от традиционной парадигмы обучения-оценки-тестирования, которая отдает предпочтение только одной задаче, такой как классификация изображений, универсальность MLLMs спровоцировала появление различных новых бенчмарков и методов оценки. В данной статье мы стремимся представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы кратко описанных бенчмарков, разделенные по возможностям оценки, включая базовые возможности, анализ модели самой по себе и расширенные применения; 2) типичный процесс построения бенчмарков, включающий сбор данных, аннотацию и предосторожности; 3) систематический способ оценки, состоящий из экспертов, метрик и инструментов; 4) перспективы для следующего бенчмарка. Эта работа нацелена на то, чтобы предложить исследователям легкое понимание того, как эффективно оценивать MLLMs в соответствии с различными потребностями и вдохновить на лучшие методы оценки, тем самым способствуя прогрессу исследований MLLM.

Переплетенный граф сцен для переплетенной генерации текста и изображений Оценка
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

Многие запросы пользователей в реальном мире (например, "Как приготовить яичный жареный рис?") могли бы получить выгоду от систем, способных генерировать ответы с текстовыми шагами и сопровождающими изображениями, аналогично кулинарной книге. Модели, разработанные для генерации чередующегося текста и изображений, сталкиваются с вызовами обеспечения согласованности внутри и между этими модальностями. Для решения этих проблем мы представляем ISG, комплексную систему оценки для генерации чередующегося текста и изображений. ISG использует структуру графа сцены для захвата отношений между текстовыми и изображенческими блоками, оценивая ответы на четырех уровнях детализации: целостном, структурном, блочном и специфическом для изображения. Эта многоуровневая оценка позволяет проводить тонкую оценку согласованности, согласованности и точности, а также обеспечивает интерпретируемую обратную связь вопрос-ответ. Вместе с ISG мы представляем бенчмарк, ISG-Bench, охватывающий 1,150 примеров в 8 категориях и 21 подкатегории. Этот набор данных бенчмарков включает сложные зависимости между языком и зрением и золотые ответы для эффективной оценки моделей на задачах, сосредоточенных на зрении, таких как стилевой трансфер, сложная область для текущих моделей. Используя ISG-Bench, мы демонстрируем, что недавние объединенные модели зрения и языка плохо справляются с генерацией чередующегося контента. В то время как композиционные подходы, объединяющие отдельные языковые и изображенческие модели, показывают улучшение на 111% по сравнению с объединенными моделями на целостном уровне, их производительность остается недостаточной как на уровне блока, так и на уровне изображения. Для облегчения будущей работы мы разрабатываем ISG-Agent, базового агента, использующего конвейер "планирование-выполнение-усовершенствование" для вызова инструментов, достигая улучшения производительности на 122%.

SketchAgent: Генерация последовательных набросков на основе языка
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Скетчинг служит универсальным инструментом для внешней фиксации идей, обеспечивая быстрое исследование и визуальное общение, охватывающее различные дисциплины. В то время как искусственные системы привели к значительным прорывам в создании контента и взаимодействии человека с компьютером, захват динамичной и абстрактной природы человеческого скетчинга остается сложной задачей. В данной работе мы представляем SketchAgent, метод генерации скетчей последовательным образом, управляемый языком, который позволяет пользователям создавать, изменять и улучшать скетчи через динамичное, разговорное взаимодействие. Наш подход не требует обучения или тонкой настройки. Вместо этого мы используем последовательную природу и обширные предварительные знания моделей языка с многомодальностью "из коробки". Мы представляем интуитивный язык скетчинга, введенный в модель через примеры в контексте, позволяя ей "рисовать" с использованием действий на основе строк. Они обрабатываются в векторную графику, а затем отображаются для создания скетча на пиксельном холсте, который затем можно снова использовать для дальнейших задач. Рисуя штрих за штрихом, наш агент захватывает изменчивые, динамичные качества, присущие скетчингу. Мы демонстрируем, что SketchAgent может генерировать скетчи по разнообразным подсказкам, участвовать в рисовании, управляемом диалогом, и взаимодействовать с людьми в значимой мере.

Переосмысление сокращения токенов в MLLM: к общей парадигме для ускорения обучения.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Для ускорения вывода тяжелых мультимодальных крупных языковых моделей (MLLMs) в данном исследовании переосмысливается текущий ландшафт исследований по сокращению токенов без обучения. Мы с сожалением отмечаем, что критические компоненты существующих методов тесно переплетены, их взаимосвязи и эффекты остаются неясными для сравнения, передачи и расширения. Поэтому мы предлагаем унифицированную парадигму "фильтр-корреляция-сжатие", которая декомпозирует сокращение токенов на три отдельных этапа в рамках конвейера, сохраняя согласованные цели и элементы дизайна, позволяя уникальные реализации. Мы также разъясняем популярные работы и включаем их в нашу парадигму, чтобы продемонстрировать ее универсальность. Наконец, мы предлагаем набор методов, основанных на данной парадигме, достигая баланса между скоростью и точностью на различных этапах вывода. Экспериментальные результаты на 10 бенчмарках показывают, что наши методы могут достичь сокращения FLOPs до 82,4% с минимальным влиянием на производительность, превосходя при этом современные методы сокращения без обучения. Наша страница проекта находится по адресу https://ficoco-accelerate.github.io/.

Квантование с низким битовым разрешением предпочтительно для недообученных LLM: законы масштабирования для квантованных LLM с 100 трлн обучающих токенов.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

Мы обнаружили, что квантование с низким битовым разрешением благоприятствует недообученным большим языковым моделям (LLM), заметив, что модели большего размера или с меньшим количеством обучающих токенов испытывают меньшее ухудшение, вызванное квантованием, при применении квантования с низким битовым разрешением, в то время как более маленькие модели с обширным количеством обучающих токенов страдают от значительного ухудшения. Для более глубокого понимания этой тенденции мы изучили более 1500 контролируемых квантованных точек LLM различных размеров и на разных уровнях обучения (недообученные или полностью обученные), выведя законы масштабирования для понимания взаимосвязи между ухудшением, вызванным квантованием, и факторами, такими как количество обучающих токенов, размер модели и разрядность бита. С использованием выведенных законов масштабирования мы предлагаем новую перспективу, что мы можем использовать ухудшение, вызванное квантованием, для измерения уровней обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования различных по размеру LLM, обученных с 100 триллионами токенов. Наш прогноз показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые ожидается будут обучены более чем на 100 триллионах токенов, может НЕ быть желательной. Это представляет потенциальное вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость осознания уровня обучения модели при оценке исследований квантования с низким битовым разрешением. Для облегчения будущих исследований по этой проблеме мы публикуем все более чем 1500 квантованных контрольных точек, использованных в этой работе по адресу https://huggingface.co/Xu-Ouyang.

SAR3D: Авторегрессивная генерация и понимание трехмерных объектов через многоуровневый 3D VQVAE
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

Авторегрессионные модели продемонстрировали выдающийся успех в различных областях, начиная от больших языковых моделей (LLM) до больших мультимодальных моделей (LMM) и генерации контента в 2D, приближаясь к искусственному общему интеллекту (AGI). Несмотря на эти достижения, применение авторегрессионных подходов к генерации и пониманию 3D объектов остается в значительной степени неисследованным. В данной статье представляется Scale AutoRegressive 3D (SAR3D), новая структура, которая использует многомасштабный 3D векторно-квантованный вариационный автокодировщик (VQVAE) для токенизации 3D объектов для эффективной авторегрессионной генерации и детального понимания. Предсказывая следующий масштаб в многомасштабном латентном представлении вместо следующего отдельного токена, SAR3D значительно сокращает время генерации, достигая быстрой генерации 3D объектов всего за 0,82 секунды на GPU A6000. Кроме того, учитывая токены, обогащенные иерархической 3D-информацией, мы донастраиваем предварительно обученную LLM на них, обеспечивая мультимодальное понимание 3D контента. Наши эксперименты показывают, что SAR3D превосходит текущие методы генерации 3D как по скорости, так и по качеству, и позволяет LLM интерпретировать и подписывать 3D модели всесторонне.

VLRewardBench: Сложный бенчмарк для моделей генерации вознаграждений визуально-языковых систем
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Модели вознаграждения на основе зрительно-языковой генерации (VL-GenRM) играют ключевую роль в выравнивании и оценке мультимодальных систем искусственного интеллекта, однако собственная оценка остается мало исследованной. Существующие методы оценки в основном опираются на предпочтительные ярлыки, размеченные искусственным интеллектом в традиционных задачах зрительно-языковой обработки, что может внести предвзятость и часто не позволяет эффективно проверить современные модели. Для преодоления этих ограничений мы представляем VL-RewardBench, обширный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи рассуждения. Через нашу аннотационную платформу, поддерживаемую искусственным интеллектом, объединяющую выборку образцов с верификацией человеком, мы составляем 1 250 высококачественных примеров, специально разработанных для проверки ограничений модели. Комплексная оценка 16 ведущих крупных моделей зрительно-языковой обработки показывает эффективность VL-RewardBench в качестве сложной платформы, где даже GPT-4o достигает лишь 65,4% точности, а современные модели с открытым исходным кодом, такие как Qwen2-VL-72B, борются превзойти случайное угадывание. Важно, что результаты на VL-RewardBench сильно коррелируют (коэффициент корреляции Пирсона > 0,9) с точностью MMMU-Pro при использовании выборки Best-of-N с VL-GenRM. Эксперименты анализа раскрывают три ключевых исследования для улучшения VL-GenRM: (i) модели в основном терпят неудачу в базовых задачах визуального восприятия, а не в задачах рассуждения; (ii) выгоды от масштабирования во время вывода сильно варьируются в зависимости от мощности модели; и (iii) обучение VL-GenRM научиться судить существенно улучшает способность к суждению (+14,7% точности для 7B VL-GenRM). Мы считаем, что VL-RewardBench вместе с экспериментальными исследованиями станет ценным ресурсом для продвижения VL-GenRM.

Обучение трехмерным представлениям на основе процедурных трехмерных программ
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

Самообучение стало перспективным подходом к получению переносимых трехмерных представлений из неразмеченных облаков точек. В отличие от двумерных изображений, к которым широкий доступ, получение трехмерных ресурсов требует специализированных знаний или профессионального оборудования для сканирования 3D, что затрудняет масштабирование и вызывает проблемы с авторскими правами. Для решения этих проблем мы предлагаем изучать трехмерные представления из процедурных 3D программ, которые автоматически генерируют 3D формы, используя простые примитивы и дополнения. Замечательно, что несмотря на отсутствие семантического содержания, трехмерные представления, изученные из этого синтезированного набора данных, проявляют себя на уровне передовых представлений, изученных из семантически узнаваемых трехмерных моделей (например, самолетов) на различных последующих трехмерных задачах, включая классификацию формы, сегментацию частей и завершение маскированных облаков точек. Наш анализ дополнительно показывает, что текущие методы самообучения в основном захватывают геометрические структуры, а не высокоуровневую семантику.

SALOVA: Сегментированный длинный видеоассистент для целевого извлечения и маршрутизации в анализе длинных видеоформатов
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

Несмотря на прогресс в области крупных мультимодальных моделей, их применение к длинным и необработанным видеоматериалам остается сложным из-за ограничений на длину контекста и значительных накладных расходов памяти. Эти ограничения часто приводят к значительной потере информации и снижению актуальности ответов модели. С увеличением экспоненциального роста видеоданных на веб-платформах понимание длинных видеоматериалов критично для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую структуру видео-LLM, разработанную для улучшения понимания длинных видеоматериалов через целенаправленный процесс извлечения. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, высококачественную коллекцию из 87,8 тыс. длинных видеоматериалов, каждый из которых плотно озаглавлен на уровне сегмента для возможности моделям захватывать непрерывность сцен и сохранять богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные конструкции, интегрирующие механизм динамического маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки соответствующих видеосегментов на основе запросов пользователей. Наша структура устраняет ограничения текущих видео-LLM, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную актуальность сгенерированных ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность к обработке сложных длинных видеоматериалов, показывая значительную способность сохранять контекстуальную целостность на протяжении продолжительных последовательностей.

FINECAPTION: Композиционное описание изображений с акцентом на том, где бы вы ни хотели с любой степенью детализации.
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

Появление больших моделей видео-языка (VLM) значительно продвинуло мультимодальные задачи, обеспечивая более сложное и точное рассуждение в различных приложениях, включая подписывание изображений и видео, визуальное ответ на вопросы и кросс-модальный поиск. Несмотря на их превосходные возможности, VLM испытывают трудности с восприятием информации о тонкой композиции областей изображения. В частности, у них возникают сложности с точным выравниванием сегментационных масок с соответствующей семантикой и точным описанием композиционных аспектов упомянутых областей. Однако композициональность - способность понимать и создавать новые комбинации известных визуальных и текстовых компонентов - критична для облегчения последовательного рассуждения и понимания между модальностями VLM. Для решения этой проблемы мы предлагаем FINECAPTION, новую модель VLM, которая может распознавать произвольные маски в качестве справочных входных данных и обрабатывать изображения высокого разрешения для композиционного подписывания изображений на разных уровнях детализации. Для поддержки этого начинания мы представляем COMPOSITIONCAP, новый набор данных для композиционного подписывания изображений с многозернистой региональной детализацией, который вводит задачу композиционного атрибутивно осознанного регионального подписывания изображений. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми моделями VLM. Кроме того, мы анализируем возможности текущих VLM в распознавании различных визуальных подсказок для композиционного подписывания изображений регионов, выделяя области для улучшения в дизайне и обучении VLM.

AnchorCrafter: Анимация киберякорей для продажи ваших продуктов через генерацию видео взаимодействия человека с объектом.
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

Автоматическое создание видеороликов в стиле якорной продуктовой рекламы предоставляет многообещающие возможности в онлайн-торговле, рекламе и вовлечении потребителей. Однако это остается сложной задачей, несмотря на значительные достижения в генерации видео с управлением позы человека. Для решения этой проблемы мы выделяем интеграцию взаимодействий человек-объект (HOI) в генерацию видео с управлением позы человека как ключевую проблему. В этом контексте мы представляем AnchorCrafter, новую систему на основе диффузии, разработанную для создания 2D видеороликов с участием целевого человека и настраиваемого объекта, обеспечивая высокую визуальную точность и управляемые взаимодействия. Конкретно, мы предлагаем два ключевых инновационных подхода: восприятие внешнего вида HOI, улучшающее распознавание внешнего вида объекта с произвольных многоплоскостных перспектив и разделяющее внешний вид объекта и человека, и инъекцию движения HOI, позволяющую реализовать сложные взаимодействия человек-объект путем преодоления проблем с условиями траектории объекта и управлением межобъектными заслонками. Кроме того, мы представляем потерю перевзвешивания области HOI, целевую функцию обучения, улучшающую изучение деталей объекта. Обширные эксперименты показывают, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и формы объекта, одновременно поддерживая согласованность во внешнем виде и движении человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/

EfficientViM: Эффективная видеомамба с смешивателем скрытого состояния на основе двойственности пространства состояний.
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

Для развертывания нейронных сетей в ресурсоограниченных средах, предшествующие работы создали легковесные архитектуры с использованием сверток и внимания для захвата локальных и глобальных зависимостей соответственно. Недавно модель пространства состояний стала эффективным глобальным взаимодействием токенов благодаря своей выгодной линейной вычислительной стоимости по количеству токенов. Тем не менее, эффективные основы зрения, построенные на SSM, были исследованы менее подробно. В данной статье мы представляем Efficient Vision Mamba (EfficientViM), новую архитектуру, построенную на основе дуализма пространства состояний на основе смесителя скрытых состояний (HSM-SSD), которая эффективно захватывает глобальные зависимости с дальнейшим снижением вычислительных затрат. В слое HSM-SSD мы перерабатываем предыдущий слой SSD для выполнения операции смешивания каналов внутри скрытых состояний. Кроме того, мы предлагаем многоступенчатое слияние скрытых состояний для дальнейшего укрепления мощности представления скрытых состояний и предоставляем дизайн, смягчающий узкое место, вызванное операциями, связанными с памятью. В результате семейство EfficientViM достигает нового state-of-the-art баланса скорость-точность на ImageNet-1k, предлагая улучшение производительности до 0,7% по сравнению со второй лучшей моделью SHViT с более высокой скоростью. Кроме того, мы наблюдаем значительные улучшения в пропускной способности и точности по сравнению с предыдущими работами при масштабировании изображений или использовании обучения дистилляции. Код доступен по адресу https://github.com/mlvlab/EfficientViM.

MolReFlect: К точному выравниванию молекул и текстов в контексте
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Открытие молекул является ключевым направлением исследований, влияющим на все, начиная от лекарств, которые мы принимаем, и заканчивая материалами, которые мы используем. Недавно большие языковые модели (LLM) широко применяются в понимании и генерации молекул, однако соответствия между молекулами и их соответствующими подписями остаются значительным вызовом. Предыдущие попытки часто рассматривали молекулу как общую строку SMILES или молекулярный граф, игнорируя тонкие соответствия между молекулярными подструктурами и описательными текстовыми фразами, которые являются важными для точных и объяснимых прогнозов. В данном случае мы представляем MolReFlect, новую структуру учителя-ученика, разработанную для контекстуального выполнения соответствий между молекулой и подписью в тонкой детализации. Наш подход изначально использует более крупную учительскую LLM для маркировки детальных соответствий, прямо извлекая критические фразы из подписей молекул или строк SMILES и применяя их к соответствующим подструктурам или характеристикам. Для улучшения этих соответствий мы предлагаем метод In-Context Selective Reflection, который извлекает предыдущие результаты в качестве контекстных примеров для учительской LLM для отражения и позволяет меньшей ученической LLM выбирать из контекстного отражения и предыдущих результатов извлечения. Наконец, мы улучшаем процесс обучения ученической LLM через Chain-of-Thought In-Context Molecule Tuning, интегрируя тонкие соответствия и процессы рассуждения в формат Chain-of-Thought. Наши экспериментальные результаты показывают, что MolReFlect позволяет LLM, такие как Mistral-7B, значительно превзойти предыдущие базовые уровни, достигнув лучшей производительности на наборе данных ChEBI-20. Этот прогресс не только улучшает генеративные возможности LLM в задаче перевода молекула-подпись, но также способствует более объяснимой структуре.

Визуальный контрольный тест Тьюринга (VCT^2): выявление вызовов для обнаружения изображений, созданных искусственным интеллектом, и введение индекса визуального искусственного интеллекта (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

ByNasrin Imanpour, Shashwat Bajpai, Subhankar Ghosh, Sainath Reddy Sankepally, Abhilekh Borah, Hasnat Md Abdullah, Nishoak Kosaraju, Shreyas Dixit, Ashhar Aziz, Shwetangshu Biswas, Vinija Jain, Aman Chadha, Amit Sheth, Amitava Das

Распространение методов искусственного интеллекта для генерации изображений, совмещенное с их все более широким доступом, вызвало значительные опасения относительно потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, сгенерированных искусственным интеллектом (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы считаем, что существующие передовые техники AGID недостаточны для эффективного обнаружения современных изображений, созданных искусственным интеллектом, и выступаем за всестороннюю переоценку этих методов. Мы представляем Визуальный контрольный тест Тьюринга (VCT^2), бенчмарк, включающий ~130 тыс. изображений, созданных современными моделями текст-в-изображение (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, взятых из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем производительность упомянутых выше методов AGID на бенчмарке VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных искусственным интеллектом. Поскольку модели искусственного интеллекта, создающие изображения, продолжают развиваться, становится все более критической необходимость в количественной системе оценки этих моделей. Для удовлетворения этой потребности мы предлагаем Визуальный индекс искусственного интеллекта (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и согласованность объектов, устанавливая новый стандарт для оценки моделей искусственного интеллекта, создающих изображения. Для содействия исследованиям в этой области мы делаем наши наборы данных COCO_AI и twitter_AI, доступные публично по ссылкам https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI.

Управляемое создание изображений людей с персонализированной одеждой различных типов
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin

Мы представляем BootComp, новый фреймворк на основе моделей диффузии текста в изображение для контролируемой генерации изображений людей с несколькими ссылочными предметами одежды. Здесь основным узким местом является сбор данных для обучения: сбор крупномасштабного набора данных изображений высокого качества ссылочных предметов одежды на каждого человека представляет собой довольно сложную задачу, то есть в идеале необходимо вручную собирать каждое фото предмета одежды, надетого каждым человеком. Для решения этой проблемы мы предлагаем конвейер генерации данных для создания большого синтетического набора данных, состоящего из пар человек-несколько предметов одежды, путем введения модели для извлечения любых изображений ссылочных предметов одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения восприимчивых сходств между предметом одежды, представленным на изображении человека, и извлеченным предметом одежды. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии с двумя параллельными путями денойзинга, которые используют несколько изображений предметов одежды в качестве условий для генерации изображений людей с сохранением их мелких деталей. Мы также показываем широкую применимость нашего фреймворка, адаптируя его к различным типам генерации на основе ссылок в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, например, позой, лицом и т. д.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ShowUI: Одна модель Vision-Language-Action для визуального агента пользовательского интерфейса.
ShowUI: One Vision-Language-Action Model for GUI Visual Agent

Nov 26

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ROICtrl: Усиление контроля экземпляра для визуальной генерации
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27

ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

Пути на многообразии изображений: редактирование изображений с помощью генерации видео
Pathways on the Image Manifold: Image Editing via Video Generation

Nov 25

ByNoam Rotstein, Gal Yona, Daniel Silver, Roy Velich, David Bensaïd, Ron Kimmel

Генерация видео из текста с сохранением идентичности путем декомпозиции частот.
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26

ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

MME-опрос: Комплексный обзор оценки мультимодальных языковых моделей с многомодальными данными
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

Nov 22

ByChaoyou Fu, Yi-Fan Zhang, Shukang Yin, Bo Li, Xinyu Fang, Sirui Zhao, Haodong Duan, Xing Sun, Ziwei Liu, Liang Wang, Caifeng Shan, Ran He

Переплетенный граф сцен для переплетенной генерации текста и изображений Оценка
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26

ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

SketchAgent: Генерация последовательных набросков на основе языка
SketchAgent: Language-Driven Sequential Sketch Generation

Nov 26

ByYael Vinker, Tamar Rott Shaham, Kristine Zheng, Alex Zhao, Judith E Fan, Antonio Torralba

Переосмысление сокращения токенов в MLLM: к общей парадигме для ускорения обучения.
Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

Nov 26

ByYuhang Han, Xuyang Liu, Pengxiang Ding, Donglin Wang, Honggang Chen, Qingsen Yan, Siteng Huang

Квантование с низким битовым разрешением предпочтительно для недообученных LLM: законы масштабирования для квантованных LLM с 100 трлн обучающих токенов.
Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

Nov 26

ByXu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu

SAR3D: Авторегрессивная генерация и понимание трехмерных объектов через многоуровневый 3D VQVAE
SAR3D: Autoregressive 3D Object Generation and Understanding via Multi-scale 3D VQVAE

Nov 25

ByYongwei Chen, Yushi Lan, Shangchen Zhou, Tengfei Wang, XIngang Pan

VLRewardBench: Сложный бенчмарк для моделей генерации вознаграждений визуально-языковых систем
VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models

Nov 26

ByLei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

Обучение трехмерным представлениям на основе процедурных трехмерных программ
Learning 3D Representations from Procedural 3D Programs

Nov 25

ByXuweiyi Chen, Zezhou Cheng

SALOVA: Сегментированный длинный видеоассистент для целевого извлечения и маршрутизации в анализе длинных видеоформатов
SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis

Nov 25

ByJunho Kim, Hyunjun Kim, Hosu Lee, Yong Man Ro

FINECAPTION: Композиционное описание изображений с акцентом на том, где бы вы ни хотели с любой степенью детализации.
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

Nov 23

ByHang Hua, Qing Liu, Lingzhi Zhang, Jing Shi, Zhifei Zhang, Yilin Wang, Jianming Zhang, Jiebo Luo

AnchorCrafter: Анимация киберякорей для продажи ваших продуктов через генерацию видео взаимодействия человека с объектом.
AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation

Nov 26

ByZiyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang

EfficientViM: Эффективная видеомамба с смешивателем скрытого состояния на основе двойственности пространства состояний.
EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality

Nov 22

BySanghyeok Lee, Joonmyung Choi, Hyunwoo J. Kim

MolReFlect: К точному выравниванию молекул и текстов в контексте
MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts

Nov 22

ByJiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li

Визуальный контрольный тест Тьюринга (VCT^2): выявление вызовов для обнаружения изображений, созданных искусственным интеллектом, и введение индекса визуального искусственного интеллекта (V_AI)
Visual Counter Turing Test (VCT^2): Discovering the Challenges for AI-Generated Image Detection and Introducing Visual AI Index (V_AI)

Nov 24

Управляемое создание изображений людей с персонализированной одеждой различных типов
Controllable Human Image Generation with Personalized Multi-Garments

Nov 25

ByYisol Choi, Sangkyung Kwak, Sihyun Yu, Hyungwon Choi, Jinwoo Shin