Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя высококачественные текстурные карты необходимы для реалистичного рендеринга 3D-моделей, немногие исследования занимались обучением непосредственно в пространстве текстур, особенно на крупномасштабных наборах данных. В данной работе мы отходим от традиционного подхода, основанного на использовании заранее обученных 2D моделей диффузии для оптимизации текстур 3D-моделей во время тестирования. Вместо этого мы сосредотачиваемся на фундаментальной проблеме обучения в пространстве UV-текстур. Впервые мы обучаем большую модель диффузии, способную непосредственно генерировать текстурные карты высокого разрешения в прямом порядке. Для облегчения эффективного обучения в пространствах UV большого разрешения мы предлагаем масштабируемую архитектуру сети, которая чередует свертки на UV-картах с слоями внимания на облаках точек. Используя этот архитектурный дизайн, мы обучаем модель диффузии с 700 миллионами параметров, способную генерировать текстурные карты UV, управляемые текстовыми подсказками и изображениями с одним видом. После обучения наша модель естественным образом поддерживает различные расширенные приложения, включая заполнение текстур по текстовым подсказкам, завершение текстур для разреженных видов и синтез текстур под управлением текста. Страница проекта находится по адресу http://cvmi-lab.github.io/TEXGen/.
Инпейнтинг изображений, управляемый субъектом, стал популярной задачей в редактировании изображений наряду с недавними достижениями в моделях диффузии. Предыдущие методы в основном сосредотачивались на сохранении идентичности, но испытывали трудности с сохранением возможности редактирования вставленных объектов. В данной работе представлен DreamMix, модель генерации на основе диффузии, способная вставлять целевые объекты в заданные сцены в указанных пользователем местах, обеспечивая одновременно произвольные текстовые модификации их атрибутов. В частности, мы используем передовые базовые модели инпейнтинга и представляем дизентанглированную локально-глобальную структуру инпейнтинга для балансировки точной локальной вставки объектов с эффективной глобальной визуальной согласованностью. Кроме того, мы предлагаем Механизм декомпозиции атрибутов (ADM) и модуль Текстовой замены атрибутов (TAS) для улучшения разнообразия и дискриминационной способности текстового руководства атрибутами. Обширные эксперименты показывают, что DreamMix эффективно балансирует сохранение идентичности и возможность редактирования атрибутов в различных сценариях применения, включая вставку объектов, редактирование атрибутов и инпейнтинг малых объектов. Наш код общедоступен по адресу https://github.com/mycfhs/DreamMix.
Выполнение вывода с использованием моделей языка на основе трансформера (LLM) на длинных последовательностях является как затратным, так и медленным из-за квадратичной сложности механизма самовнимания. Мы представляем Star Attention, двухфазное блочно-разреженное приближение, которое повышает вычислительную эффективность путем разделения внимания между несколькими узлами, минимизируя при этом накладные расходы на коммуникацию. На первой фазе контекст обрабатывается с использованием блочного локального внимания между узлами параллельно. На второй фазе токены запроса и ответа обращаются ко всем предыдущим закешированным токенам через глобальное внимание по последовательности. Star Attention интегрируется плавно с большинством моделей LLM на основе трансформера, обученных с глобальным вниманием, снижая требования к памяти и время вывода до 11 раз, сохраняя при этом от 95 до 100% точности.
Построение ассистентов с графическим пользовательским интерфейсом (GUI) обещает значительно повысить производительность рабочего процесса человека. В то время как большинство агентов основаны на языке и используют закрытые API с мета-информацией, богатой текстом (например, HTML или дерево доступности), они ограничены в способности воспринимать визуальные элементы пользовательского интерфейса так же, как это делают люди, что подчеркивает необходимость агентов с визуальным GUI. В данной работе мы разрабатываем модель видение-язык-действие в цифровом мире, названную ShowUI, которая представляет следующие инновации: (i) UI-ориентированный выбор визуальных токенов для снижения вычислительных затрат путем формулирования снимков экрана как связанного графа UI, адаптивного определения избыточных связей и использования их в качестве критерия выбора токенов во время блоков самовнимания; (ii) Перемеженная передача видение-язык-действие, гибко объединяющая разнообразные потребности в рамках задач GUI, обеспечивая эффективное управление историей визуальных действий при навигации или сопоставлении последовательностей запрос-действие на несколько ходов на каждом снимке для повышения эффективности обучения; (iii) Наборы данных для выполнения инструкций GUI малого масштаба и высокого качества путем тщательной кураторской работы с данными и использования стратегии повторной выборки для решения значительных дисбалансов типов данных. С использованием вышеуказанных компонентов ShowUI, легкая модель 2B, использующая 256K данных, достигает высокой точности в 75,1% при обработке снимков экрана без предварительного обучения. UI-ориентированный выбор токенов дополнительно снижает на 33% избыточных визуальных токенов во время обучения и ускоряет производительность в 1,4 раза. Эксперименты с навигацией на веб-платформах Mind2Web, мобильных AITW и онлайн-окружениях MiniWob дополнительно подчеркивают эффективность и потенциал нашей модели в продвижении агентов с визуальным GUI. Модели доступны на https://github.com/showlab/ShowUI.
Недавние достижения в области редактирования изображений, обусловленные моделями диффузии изображений, показали значительный прогресс. Однако остаются значительные проблемы, поскольку эти модели часто испытывают трудности в точном выполнении сложных инструкций по редактированию и часто жертвуют достоверностью, изменяя ключевые элементы исходного изображения. В то же время генерация видео сделала значительные шаги вперед, с моделями, которые эффективно функционируют как последовательные и непрерывные симуляторы мира. В данной статье мы предлагаем объединить эти две области, используя модели изображений в видео для редактирования изображений. Мы переформулируем редактирование изображений как временной процесс, используя предварительно обученные видео-модели для создания плавных переходов от исходного изображения к желаемому редактированию. Этот подход непрерывно проходит по многообразию изображений, обеспечивая последовательные редактирования, сохраняя при этом ключевые аспекты исходного изображения. Наш подход достигает передовых результатов в редактировании изображений на основе текста, демонстрируя значительное улучшение как в точности редактирования, так и в сохранении изображения.
Как важное направление искусственного общего интеллекта (AGI), мультимодальные крупные языковые модели (MLLMs) привлекли увеличенное внимание как от промышленности, так и от академии. Основываясь на предварительно обученных LLMs, эта семейство моделей дальше развивает мультимодальное восприятие и способности к рассуждениям, включая такие впечатляющие навыки, как написание кода по блок-схеме или создание историй на основе изображения. В процессе разработки оценка имеет критическое значение, поскольку она обеспечивает интуитивную обратную связь и руководство по улучшению моделей. Отличаясь от традиционной парадигмы обучения-оценки-тестирования, которая отдает предпочтение только одной задаче, такой как классификация изображений, универсальность MLLMs спровоцировала появление различных новых бенчмарков и методов оценки. В данной статье мы стремимся представить всесторонний обзор оценки MLLM, обсуждая четыре ключевых аспекта: 1) типы кратко описанных бенчмарков, разделенные по возможностям оценки, включая базовые возможности, анализ модели самой по себе и расширенные применения; 2) типичный процесс построения бенчмарков, включающий сбор данных, аннотацию и предосторожности; 3) систематический способ оценки, состоящий из экспертов, метрик и инструментов; 4) перспективы для следующего бенчмарка. Эта работа нацелена на то, чтобы предложить исследователям легкое понимание того, как эффективно оценивать MLLMs в соответствии с различными потребностями и вдохновить на лучшие методы оценки, тем самым способствуя прогрессу исследований MLLM.
Для ускорения вывода тяжелых мультимодальных крупных языковых моделей (MLLMs) в данном исследовании переосмысливается текущий ландшафт исследований по сокращению токенов без обучения. Мы с сожалением отмечаем, что критические компоненты существующих методов тесно переплетены, их взаимосвязи и эффекты остаются неясными для сравнения, передачи и расширения. Поэтому мы предлагаем унифицированную парадигму "фильтр-корреляция-сжатие", которая декомпозирует сокращение токенов на три отдельных этапа в рамках конвейера, сохраняя согласованные цели и элементы дизайна, позволяя уникальные реализации. Мы также разъясняем популярные работы и включаем их в нашу парадигму, чтобы продемонстрировать ее универсальность. Наконец, мы предлагаем набор методов, основанных на данной парадигме, достигая баланса между скоростью и точностью на различных этапах вывода. Экспериментальные результаты на 10 бенчмарках показывают, что наши методы могут достичь сокращения FLOPs до 82,4% с минимальным влиянием на производительность, превосходя при этом современные методы сокращения без обучения. Наша страница проекта находится по адресу https://ficoco-accelerate.github.io/.
Скетчинг служит универсальным инструментом для внешней фиксации идей, обеспечивая быстрое исследование и визуальное общение, охватывающее различные дисциплины. В то время как искусственные системы привели к значительным прорывам в создании контента и взаимодействии человека с компьютером, захват динамичной и абстрактной природы человеческого скетчинга остается сложной задачей. В данной работе мы представляем SketchAgent, метод генерации скетчей последовательным образом, управляемый языком, который позволяет пользователям создавать, изменять и улучшать скетчи через динамичное, разговорное взаимодействие. Наш подход не требует обучения или тонкой настройки. Вместо этого мы используем последовательную природу и обширные предварительные знания моделей языка с многомодальностью "из коробки". Мы представляем интуитивный язык скетчинга, введенный в модель через примеры в контексте, позволяя ей "рисовать" с использованием действий на основе строк. Они обрабатываются в векторную графику, а затем отображаются для создания скетча на пиксельном холсте, который затем можно снова использовать для дальнейших задач. Рисуя штрих за штрихом, наш агент захватывает изменчивые, динамичные качества, присущие скетчингу. Мы демонстрируем, что SketchAgent может генерировать скетчи по разнообразным подсказкам, участвовать в рисовании, управляемом диалогом, и взаимодействовать с людьми в значимой мере.
Мы обнаружили, что квантование с низким битовым разрешением благоприятствует недообученным большим языковым моделям (LLM), заметив, что модели большего размера или с меньшим количеством обучающих токенов испытывают меньшее ухудшение, вызванное квантованием, при применении квантования с низким битовым разрешением, в то время как более маленькие модели с обширным количеством обучающих токенов страдают от значительного ухудшения. Для более глубокого понимания этой тенденции мы изучили более 1500 контролируемых квантованных точек LLM различных размеров и на разных уровнях обучения (недообученные или полностью обученные), выведя законы масштабирования для понимания взаимосвязи между ухудшением, вызванным квантованием, и факторами, такими как количество обучающих токенов, размер модели и разрядность бита. С использованием выведенных законов масштабирования мы предлагаем новую перспективу, что мы можем использовать ухудшение, вызванное квантованием, для измерения уровней обучения LLM и определения количества обучающих токенов, необходимых для полного обучения LLM различных размеров. Более того, мы используем законы масштабирования для прогнозирования производительности квантования различных по размеру LLM, обученных с 100 триллионами токенов. Наш прогноз показывает, что производительность квантования с низким битовым разрешением будущих моделей, которые ожидается будут обучены более чем на 100 триллионах токенов, может НЕ быть желательной. Это представляет потенциальное вызов для квантования с низким битовым разрешением в будущем и подчеркивает необходимость осознания уровня обучения модели при оценке исследований квантования с низким битовым разрешением. Для облегчения будущих исследований по этой проблеме мы публикуем все более чем 1500 квантованных контрольных точек, использованных в этой работе по адресу https://huggingface.co/Xu-Ouyang.
Авторегрессионные модели продемонстрировали выдающийся успех в различных областях, начиная от больших языковых моделей (LLM) до больших мультимодальных моделей (LMM) и генерации контента в 2D, приближаясь к искусственному общему интеллекту (AGI). Несмотря на эти достижения, применение авторегрессионных подходов к генерации и пониманию 3D объектов остается в значительной степени неисследованным. В данной статье представляется Scale AutoRegressive 3D (SAR3D), новая структура, которая использует многомасштабный 3D векторно-квантованный вариационный автокодировщик (VQVAE) для токенизации 3D объектов для эффективной авторегрессионной генерации и детального понимания. Предсказывая следующий масштаб в многомасштабном латентном представлении вместо следующего отдельного токена, SAR3D значительно сокращает время генерации, достигая быстрой генерации 3D объектов всего за 0,82 секунды на GPU A6000. Кроме того, учитывая токены, обогащенные иерархической 3D-информацией, мы донастраиваем предварительно обученную LLM на них, обеспечивая мультимодальное понимание 3D контента. Наши эксперименты показывают, что SAR3D превосходит текущие методы генерации 3D как по скорости, так и по качеству, и позволяет LLM интерпретировать и подписывать 3D модели всесторонне.
Модели вознаграждения на основе зрительно-языковой генерации (VL-GenRM) играют ключевую роль в выравнивании и оценке мультимодальных систем искусственного интеллекта, однако собственная оценка остается мало исследованной. Существующие методы оценки в основном опираются на предпочтительные ярлыки, размеченные искусственным интеллектом в традиционных задачах зрительно-языковой обработки, что может внести предвзятость и часто не позволяет эффективно проверить современные модели. Для преодоления этих ограничений мы представляем VL-RewardBench, обширный бенчмарк, охватывающий общие мультимодальные запросы, обнаружение визуальных галлюцинаций и сложные задачи рассуждения. Через нашу аннотационную платформу, поддерживаемую искусственным интеллектом, объединяющую выборку образцов с верификацией человеком, мы составляем 1 250 высококачественных примеров, специально разработанных для проверки ограничений модели. Комплексная оценка 16 ведущих крупных моделей зрительно-языковой обработки показывает эффективность VL-RewardBench в качестве сложной платформы, где даже GPT-4o достигает лишь 65,4% точности, а современные модели с открытым исходным кодом, такие как Qwen2-VL-72B, борются превзойти случайное угадывание. Важно, что результаты на VL-RewardBench сильно коррелируют (коэффициент корреляции Пирсона > 0,9) с точностью MMMU-Pro при использовании выборки Best-of-N с VL-GenRM. Эксперименты анализа раскрывают три ключевых исследования для улучшения VL-GenRM: (i) модели в основном терпят неудачу в базовых задачах визуального восприятия, а не в задачах рассуждения; (ii) выгоды от масштабирования во время вывода сильно варьируются в зависимости от мощности модели; и (iii) обучение VL-GenRM научиться судить существенно улучшает способность к суждению (+14,7% точности для 7B VL-GenRM). Мы считаем, что VL-RewardBench вместе с экспериментальными исследованиями станет ценным ресурсом для продвижения VL-GenRM.
Несмотря на прогресс в области крупных мультимодальных моделей, их применение к длинным и необработанным видеоматериалам остается сложным из-за ограничений на длину контекста и значительных накладных расходов памяти. Эти ограничения часто приводят к значительной потере информации и снижению актуальности ответов модели. С увеличением экспоненциального роста видеоданных на веб-платформах понимание длинных видеоматериалов критично для развития обобщенного интеллекта. В данной статье мы представляем SALOVA: Segment-Augmented LOng Video Assistant, новую структуру видео-LLM, разработанную для улучшения понимания длинных видеоматериалов через целенаправленный процесс извлечения. Мы решаем две основные проблемы для достижения этой цели: (i) Мы представляем набор данных SceneWalk, высококачественную коллекцию из 87,8 тыс. длинных видеоматериалов, каждый из которых плотно озаглавлен на уровне сегмента для возможности моделям захватывать непрерывность сцен и сохранять богатый описательный контекст. (ii) Мы разрабатываем надежные архитектурные конструкции, интегрирующие механизм динамического маршрутизации и пространственно-временной проектор для эффективного извлечения и обработки соответствующих видеосегментов на основе запросов пользователей. Наша структура устраняет ограничения текущих видео-LLM, позволяя точно идентифицировать и извлекать соответствующие видеосегменты в ответ на запросы, тем самым улучшая контекстуальную актуальность сгенерированных ответов. Через обширные эксперименты SALOVA демонстрирует улучшенную способность к обработке сложных длинных видеоматериалов, показывая значительную способность сохранять контекстуальную целостность на протяжении продолжительных последовательностей.
Самообучение стало перспективным подходом к получению переносимых трехмерных представлений из неразмеченных облаков точек. В отличие от двумерных изображений, к которым широкий доступ, получение трехмерных ресурсов требует специализированных знаний или профессионального оборудования для сканирования 3D, что затрудняет масштабирование и вызывает проблемы с авторскими правами. Для решения этих проблем мы предлагаем изучать трехмерные представления из процедурных 3D программ, которые автоматически генерируют 3D формы, используя простые примитивы и дополнения. Замечательно, что несмотря на отсутствие семантического содержания, трехмерные представления, изученные из этого синтезированного набора данных, проявляют себя на уровне передовых представлений, изученных из семантически узнаваемых трехмерных моделей (например, самолетов) на различных последующих трехмерных задачах, включая классификацию формы, сегментацию частей и завершение маскированных облаков точек. Наш анализ дополнительно показывает, что текущие методы самообучения в основном захватывают геометрические структуры, а не высокоуровневую семантику.
Появление больших моделей видео-языка (VLM) значительно продвинуло мультимодальные задачи, обеспечивая более сложное и точное рассуждение в различных приложениях, включая подписывание изображений и видео, визуальное ответ на вопросы и кросс-модальный поиск. Несмотря на их превосходные возможности, VLM испытывают трудности с восприятием информации о тонкой композиции областей изображения. В частности, у них возникают сложности с точным выравниванием сегментационных масок с соответствующей семантикой и точным описанием композиционных аспектов упомянутых областей. Однако композициональность - способность понимать и создавать новые комбинации известных визуальных и текстовых компонентов - критична для облегчения последовательного рассуждения и понимания между модальностями VLM. Для решения этой проблемы мы предлагаем FINECAPTION, новую модель VLM, которая может распознавать произвольные маски в качестве справочных входных данных и обрабатывать изображения высокого разрешения для композиционного подписывания изображений на разных уровнях детализации. Для поддержки этого начинания мы представляем COMPOSITIONCAP, новый набор данных для композиционного подписывания изображений с многозернистой региональной детализацией, который вводит задачу композиционного атрибутивно осознанного регионального подписывания изображений. Эмпирические результаты демонстрируют эффективность нашей предложенной модели по сравнению с другими передовыми моделями VLM. Кроме того, мы анализируем возможности текущих VLM в распознавании различных визуальных подсказок для композиционного подписывания изображений регионов, выделяя области для улучшения в дизайне и обучении VLM.
Автоматическое создание видеороликов в стиле якорной продуктовой рекламы предоставляет многообещающие возможности в онлайн-торговле, рекламе и вовлечении потребителей. Однако это остается сложной задачей, несмотря на значительные достижения в генерации видео с управлением позы человека. Для решения этой проблемы мы выделяем интеграцию взаимодействий человек-объект (HOI) в генерацию видео с управлением позы человека как ключевую проблему. В этом контексте мы представляем AnchorCrafter, новую систему на основе диффузии, разработанную для создания 2D видеороликов с участием целевого человека и настраиваемого объекта, обеспечивая высокую визуальную точность и управляемые взаимодействия. Конкретно, мы предлагаем два ключевых инновационных подхода: восприятие внешнего вида HOI, улучшающее распознавание внешнего вида объекта с произвольных многоплоскостных перспектив и разделяющее внешний вид объекта и человека, и инъекцию движения HOI, позволяющую реализовать сложные взаимодействия человек-объект путем преодоления проблем с условиями траектории объекта и управлением межобъектными заслонками. Кроме того, мы представляем потерю перевзвешивания области HOI, целевую функцию обучения, улучшающую изучение деталей объекта. Обширные эксперименты показывают, что наша предложенная система превосходит существующие методы в сохранении внешнего вида и формы объекта, одновременно поддерживая согласованность во внешнем виде и движении человека. Страница проекта: https://cangcz.github.io/Anchor-Crafter/
Для развертывания нейронных сетей в ресурсоограниченных средах, предшествующие работы создали легковесные архитектуры с использованием сверток и внимания для захвата локальных и глобальных зависимостей соответственно. Недавно модель пространства состояний стала эффективным глобальным взаимодействием токенов благодаря своей выгодной линейной вычислительной стоимости по количеству токенов. Тем не менее, эффективные основы зрения, построенные на SSM, были исследованы менее подробно. В данной статье мы представляем Efficient Vision Mamba (EfficientViM), новую архитектуру, построенную на основе дуализма пространства состояний на основе смесителя скрытых состояний (HSM-SSD), которая эффективно захватывает глобальные зависимости с дальнейшим снижением вычислительных затрат. В слое HSM-SSD мы перерабатываем предыдущий слой SSD для выполнения операции смешивания каналов внутри скрытых состояний. Кроме того, мы предлагаем многоступенчатое слияние скрытых состояний для дальнейшего укрепления мощности представления скрытых состояний и предоставляем дизайн, смягчающий узкое место, вызванное операциями, связанными с памятью. В результате семейство EfficientViM достигает нового state-of-the-art баланса скорость-точность на ImageNet-1k, предлагая улучшение производительности до 0,7% по сравнению со второй лучшей моделью SHViT с более высокой скоростью. Кроме того, мы наблюдаем значительные улучшения в пропускной способности и точности по сравнению с предыдущими работами при масштабировании изображений или использовании обучения дистилляции. Код доступен по адресу https://github.com/mlvlab/EfficientViM.
Открытие молекул является ключевым направлением исследований, влияющим на все, начиная от лекарств, которые мы принимаем, и заканчивая материалами, которые мы используем. Недавно большие языковые модели (LLM) широко применяются в понимании и генерации молекул, однако соответствия между молекулами и их соответствующими подписями остаются значительным вызовом. Предыдущие попытки часто рассматривали молекулу как общую строку SMILES или молекулярный граф, игнорируя тонкие соответствия между молекулярными подструктурами и описательными текстовыми фразами, которые являются важными для точных и объяснимых прогнозов. В данном случае мы представляем MolReFlect, новую структуру учителя-ученика, разработанную для контекстуального выполнения соответствий между молекулой и подписью в тонкой детализации. Наш подход изначально использует более крупную учительскую LLM для маркировки детальных соответствий, прямо извлекая критические фразы из подписей молекул или строк SMILES и применяя их к соответствующим подструктурам или характеристикам. Для улучшения этих соответствий мы предлагаем метод In-Context Selective Reflection, который извлекает предыдущие результаты в качестве контекстных примеров для учительской LLM для отражения и позволяет меньшей ученической LLM выбирать из контекстного отражения и предыдущих результатов извлечения. Наконец, мы улучшаем процесс обучения ученической LLM через Chain-of-Thought In-Context Molecule Tuning, интегрируя тонкие соответствия и процессы рассуждения в формат Chain-of-Thought. Наши экспериментальные результаты показывают, что MolReFlect позволяет LLM, такие как Mistral-7B, значительно превзойти предыдущие базовые уровни, достигнув лучшей производительности на наборе данных ChEBI-20. Этот прогресс не только улучшает генеративные возможности LLM в задаче перевода молекула-подпись, но также способствует более объяснимой структуре.
Мы представляем BootComp, новый фреймворк на основе моделей диффузии текста в изображение для контролируемой генерации изображений людей с несколькими ссылочными предметами одежды. Здесь основным узким местом является сбор данных для обучения: сбор крупномасштабного набора данных изображений высокого качества ссылочных предметов одежды на каждого человека представляет собой довольно сложную задачу, то есть в идеале необходимо вручную собирать каждое фото предмета одежды, надетого каждым человеком. Для решения этой проблемы мы предлагаем конвейер генерации данных для создания большого синтетического набора данных, состоящего из пар человек-несколько предметов одежды, путем введения модели для извлечения любых изображений ссылочных предметов одежды из каждого изображения человека. Для обеспечения качества данных мы также предлагаем стратегию фильтрации для удаления нежелательных сгенерированных данных на основе измерения восприимчивых сходств между предметом одежды, представленным на изображении человека, и извлеченным предметом одежды. Наконец, используя созданный синтетический набор данных, мы обучаем модель диффузии с двумя параллельными путями денойзинга, которые используют несколько изображений предметов одежды в качестве условий для генерации изображений людей с сохранением их мелких деталей. Мы также показываем широкую применимость нашего фреймворка, адаптируя его к различным типам генерации на основе ссылок в области моды, включая виртуальную примерку и контролируемую генерацию изображений людей с другими условиями, например, позой, лицом и т. д.
Распространение методов искусственного интеллекта для генерации изображений, совмещенное с их все более широким доступом, вызвало значительные опасения относительно потенциального злоупотребления этими изображениями для распространения дезинформации. Недавние методы обнаружения изображений, сгенерированных искусственным интеллектом (AGID), включают CNNDetection, NPR, DM Image Detection, Fake Image Detection, DIRE, LASTED, GAN Image Detection, AIDE, SSP, DRCT, RINE, OCC-CLIP, De-Fake и Deep Fake Detection. Однако мы считаем, что существующие передовые техники AGID недостаточны для эффективного обнаружения современных изображений, созданных искусственным интеллектом, и выступаем за всестороннюю переоценку этих методов. Мы представляем Визуальный контрольный тест Тьюринга (VCT^2), бенчмарк, включающий ~130 тыс. изображений, созданных современными моделями текст-в-изображение (Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3 и Midjourney 6). VCT^2 включает два набора запросов, взятых из твитов аккаунта New York Times в Twitter и подписей из набора данных MS COCO. Мы также оцениваем производительность упомянутых выше методов AGID на бенчмарке VCT^2, подчеркивая их неэффективность в обнаружении изображений, созданных искусственным интеллектом. Поскольку модели искусственного интеллекта, создающие изображения, продолжают развиваться, становится все более критической необходимость в количественной системе оценки этих моделей. Для удовлетворения этой потребности мы предлагаем Визуальный индекс искусственного интеллекта (V_AI), который оценивает созданные изображения с различных визуальных точек зрения, включая сложность текстуры и согласованность объектов, устанавливая новый стандарт для оценки моделей искусственного интеллекта, создающих изображения. Для содействия исследованиям в этой области мы делаем наши наборы данных COCO_AI и twitter_AI, доступные публично по ссылкам https://huggingface.co/datasets/anonymous1233/COCO_AI и https://huggingface.co/datasets/anonymous1233/twitter_AI.