Ежедневно отобранные исследовательские статьи по ИИ с переводами
Многие компании по искусственному интеллекту обучают свои большие языковые модели (LLM) на данных без разрешения владельцев авторских прав. Допустимость таких действий варьируется в зависимости от юрисдикции: в странах, таких как ЕС и Япония, это разрешено при определенных ограничениях, в то время как в Соединенных Штатах юридическая обстановка более неоднозначна. Независимо от юридического статуса, опасения со стороны творческих производителей привели к нескольким знаковым судебным разбирательствам по вопросам авторских прав, и угроза судебных разбирательств часто упоминается как причина последнего тренда к минимизации информации, раскрываемой о наборах данных для обучения как корпоративными, так и общественными участниками. Этот тренд ограничения информации о данных наносит вред, затрудняя прозрачность, ответственность и инновации в широкой экосистеме, отказывая исследователям, аудиторам и затронутым лицам доступ к информации, необходимой для понимания моделей искусственного интеллекта. Хотя это можно было бы смягчить, обучая языковые модели на открытых и общедоступных данных, на момент написания нет таких моделей (обученных в значительном масштабе) из-за существенных технических и социологических вызовов в сборе необходимого корпуса. Эти вызовы включают неполные и ненадежные метаданные, стоимость и сложность цифровизации физических записей, а также разнообразие юридических и технических навыков, необходимых для обеспечения актуальности и ответственности в быстро меняющейся обстановке. Достижение будущего, в котором системы искусственного интеллекта могут обучаться на открытых лицензионных данных, которые ответственно курируются и управляются, требует совместной работы в области юридических, технических и политических сферах, а также инвестиций в стандарты метаданных, цифровизацию и формирование культуры открытости.
Многомодальный поиск документов разработан для идентификации и извлечения различных форм многомодального контента, таких как фигуры, таблицы, графики и информация о макете из обширных документов. Несмотря на его важность, отмечается значительное отсутствие надежного эталонного показателя для эффективной оценки производительности систем в многомодальном поиске документов. Для заполнения этого пробела данная работа представляет новый эталон, названный MMDocIR, включающий две различные задачи: поиск на уровне страницы и на уровне макета. Первая задача направлена на локализацию наиболее релевантных страниц в длинном документе, в то время как вторая целится на обнаружение конкретных макетов, предлагая более детальную гранулярность, чем анализ всей страницы. Макет может относиться к различным элементам, таким как текстовые абзацы, уравнения, фигуры, таблицы или графики. Эталон MMDocIR включает обширный набор данных с экспертно размеченными метками для 1 685 вопросов и самостоятельно созданными метками для 173 843 вопросов, что делает его ключевым ресурсом для продвижения многомодального поиска документов как для обучения, так и для оценки. Через строгие эксперименты мы показываем, что (i) визуальные поисковики значительно превосходят своих текстовых аналогов, (ii) набор данных MMDocIR может эффективно способствовать процессу обучения многомодального поиска документов и (iii) текстовые поисковики, использующие VLM-текст, работают намного лучше, чем те, которые используют OCR-текст. Эти результаты подчеркивают потенциальные преимущества интеграции визуальных элементов для многомодального поиска документов.
Генерация трехмерных сцен в последние годы привлекла все больше внимания и достигла значительного прогресса. Создание четырехмерных городов более сложно, чем трехмерных сцен, из-за наличия структурно сложных, визуально разнообразных объектов, таких как здания и транспортные средства, а также повышенной чувствительности человека к искажениям в городской среде. Для решения этих проблем мы предлагаем CityDreamer4D, композиционную генеративную модель, специально разработанную для создания неограниченных четырехмерных городов. Наши основные идеи заключаются в том, что 1) генерация четырехмерного города должна разделять динамические объекты (например, транспортные средства) от статических сцен (например, зданий и дорог), и 2) все объекты в четырехмерной сцене должны состоять из различных типов нейронных полей для зданий, транспортных средств и фоновых элементов. Конкретно, мы предлагаем Генератор Транспортной Ситуации и Генератор Неограниченной Конфигурации для создания динамических транспортных сценариев и статических городских планов с использованием высокоэффективного представления BEV. Объекты в четырехмерных городах создаются путем объединения нейронных полей, ориентированных на элементы и экземпляры, для фоновых элементов, зданий и транспортных средств. Для соответствия особенностям фоновых элементов и экземпляров нейронные поля используют настраиваемые генеративные хэш-сетки и периодические позиционные вложения в качестве параметризаций сцены. Кроме того, мы предлагаем обширный набор наборов данных для генерации городов, включая OSM, GoogleEarth и CityTopia. Набор данных OSM предоставляет разнообразные реальные городские планы, в то время как наборы данных Google Earth и CityTopia предоставляют масштабные изображения городов высокого качества с полными трехмерными аннотациями экземпляров. Благодаря своему композиционному дизайну, CityDreamer4D поддерживает ряд прикладных приложений, таких как редактирование экземпляров, стилизация городов и городская симуляция, обеспечивая при этом передовую производительность в создании реалистичных четырехмерных городов.
Генерация видео достигла значительного прогресса с появлением моделей диффузии, которые значительно улучшили качество создаваемых видеороликов. Однако недавние исследования в основном сосредоточены на масштабировании обучения моделей, предлагая ограниченное понимание прямого влияния представлений на процесс генерации видео. В данной статье мы начинаем исследовать характеристики признаков в промежуточных слоях, обнаружив значительные различия в картах внимания между различными слоями. Эти различия приводят к нестабильным семантическим представлениям и способствуют накоплению различий между признаками, что в конечном итоге снижает сходство между смежными кадрами и негативно влияет на временную согласованность. Для решения этой проблемы мы предлагаем RepVideo, улучшенную структуру представлений для моделей диффузии текста в видео. Накопляя признаки из соседних слоев для формирования обогащенных представлений, данный подход захватывает более стабильную семантическую информацию. Эти улучшенные представления затем используются в качестве входных данных для механизма внимания, тем самым улучшая семантическую выразительность и обеспечивая согласованность признаков между смежными кадрами. Обширные эксперименты демонстрируют, что наша модель RepVideo не только значительно улучшает способность генерировать точные пространственные образы, такие как захват сложных пространственных отношений между несколькими объектами, но также улучшает временную согласованность в генерации видео.
Первым вошел — первым вышел (FIFO) видео-диффузия, основанная на предварительно обученной модели текст-видео, недавно стала эффективным подходом для генерации длинных видео без необходимости настройки. Эта техника поддерживает очередь видеокадров с постепенно увеличивающимся шумом, непрерывно создавая чистые кадры в начале очереди, в то время как гауссовский шум добавляется в конец. Однако FIFO-Диффузия часто испытывает затруднения с сохранением долгосрочной временной согласованности в создаваемых видео из-за отсутствия моделирования соответствия между кадрами. В данной статье мы предлагаем Ouroboros-Диффузию, новую структурированную систему видео-очистки, разработанную для улучшения структурной и содержательной (предметной) согласованности, обеспечивая создание согласованных видео произвольной длины. Конкретно, мы представляем новый метод сэмплирования латентных переменных в конце очереди для улучшения структурной согласованности, обеспечивая визуально плавные переходы между кадрами. Для улучшения предметной согласованности мы разрабатываем механизм SACFA (Subject-Aware Cross-Frame Attention), который выравнивает предметы на кадрах в рамках коротких сегментов для достижения лучшей визуальной согласованности. Кроме того, мы вводим саморекуррентное руководство. Эта техника использует информацию со всех предыдущих чистых кадров в начале очереди для направления очистки более шумных кадров в конце, способствуя богатому и контекстному взаимодействию глобальной информации. Обширные эксперименты по генерации длинных видео на бенчмарке VBench демонстрируют превосходство нашей Ouroboros-Диффузии, особенно в плане предметной согласованности, плавности движения и временной согласованности.
Мы представляем первое исследование о том, как способность к рассуждению мультимодальных языковых моделей (MLLMs) может быть вызвана для оценки эстетики произведений искусства. Для облегчения этого исследования мы создаем MM-StyleBench, новый высококачественный набор данных для оценки художественной стилизации. Затем мы разрабатываем принципиальный метод моделирования предпочтений человека и проводим систематический анализ корреляции между ответами MLLMs и предпочтениями человека. Наши эксперименты раскрывают врожденную проблему галлюцинаций у MLLMs в оценке искусства, связанную с субъективностью ответов. Предлагается ArtCoT, демонстрирующий, что декомпозиция задач, специфичных для искусства, и использование конкретного языка повышают способность MLLMs к рассуждению об эстетике. Наши результаты предлагают ценные идеи о MLLMs для искусства и могут быть полезны для широкого спектра прикладных задач, таких как перенос стиля и генерация художественных изображений. Код доступен по адресу https://github.com/songrise/MLLM4Art.
В последние годы в области синтеза изображений и генерации текста были достигнуты значительные прорывы в области создания контента, сгенерированного искусственным интеллектом (ИИКИ), создающего контент, сравнимый с тем, что производят люди. Однако качество музыки, созданной ИИ, пока не достигло этого уровня, в основном из-за сложности эффективного контроля музыкальных эмоций и обеспечения высококачественных результатов. В данной статье представлена обобщенная символьная система генерации музыки, XMusic, которая поддерживает гибкие подсказки (т.е. изображения, видео, тексты, теги и напевы) для создания эмоционально управляемой и высококачественной символьной музыки. XMusic состоит из двух основных компонентов, XProjector и XComposer. XProjector анализирует подсказки различных модальностей и преобразует их в символьные музыкальные элементы (т.е. эмоции, жанры, ритмы и ноты) в пространстве проекции для создания соответствующей музыки. XComposer содержит Генератор и Селектор. Генератор создает эмоционально управляемую и мелодичную музыку на основе нашего инновационного представления символьной музыки, в то время как Селектор идентифицирует высококачественную символьную музыку, создавая схему обучения с несколькими задачами, включающую оценку качества, распознавание эмоций и жанров. Кроме того, мы создали XMIDI, крупномасштабный набор данных символьной музыки, содержащий 108 023 файлов MIDI с точными метками эмоций и жанров. Объективные и субъективные оценки показывают, что XMusic значительно превосходит текущие передовые методы с впечатляющим качеством музыки. Наш XMusic был признан одним из девяти Лучших коллекций на WAIC 2023. Домашняя страница проекта XMusic: https://xmusic-project.github.io.
Изображенчатые пирамиды широко используются в передовых методах для получения мультимасштабных признаков для точного визуального восприятия и понимания. Однако текущие изображенчатые пирамиды используют одну и ту же модель большого масштаба для обработки нескольких разрешений изображений, что приводит к значительным вычислительным затратам. Для решения этой проблемы мы предлагаем новую архитектуру сети, называемую Сети изображенчатых пирамид с инвертированными параметрами (PIIP). Конкретно, PIIP использует предварительно обученные модели (ViTs или CNN) в качестве ветвей для обработки мультимасштабных изображений, где изображения более высокого разрешения обрабатываются более маленькими сетевыми ветвями для балансировки вычислительных затрат и производительности. Для интеграции информации с различных пространственных масштабов мы дополнительно предлагаем новый механизм взаимодействия признаков между ветвями. Для проверки PIIP мы применяем его к различным моделям восприятия и представляем крупную мультимодальную модель обработки языка под названием LLaVA, и проводим обширные эксперименты по различным задачам, таким как обнаружение объектов, сегментация, классификация изображений и мультимодальное понимание. PIIP демонстрирует превосходную производительность по сравнению с одноветвевыми и существующими многоразрешенчатыми подходами с более низкими вычислительными затратами. Примененный к InternViT-6B, крупной модели основы зрения, PIIP может улучшить ее производительность на 1%-2% в обнаружении и сегментации с использованием только 40%-60% исходных вычислений, в конечном итоге достигнув 60.0 box AP на MS COCO и 59.7 mIoU на ADE20K. Для мультимодального понимания наш PIIP-LLaVA достигает 73.0% точности на TextVQA и 74.5% на MMBench с использованием только 2.8M обучающих данных. Наш код доступен по ссылке https://github.com/OpenGVLab/PIIP.
Мы часто взаимодействуем с ненадежными сторонами. Приоритизация конфиденциальности может ограничить эффективность этих взаимодействий, поскольку достижение определенных целей требует обмена чувствительными данными. Традиционно решение этой проблемы включало либо поиск доверенных посредников, либо создание криптографических протоколов, ограничивающих объем раскрываемых данных, таких как многопартийные вычисления или доказательства нулевого разглашения. Несмотря на значительные успехи в масштабировании криптографических подходов, они остаются ограниченными по размеру и сложности приложений, для которых их можно использовать. В данной статье мы утверждаем, что способные модели машинного обучения могут выполнять роль доверенного третьего лица, обеспечивая тем самым безопасные вычисления для приложений, которые ранее были невозможны. В частности, мы описываем Среды Доверенных Способных Моделей (TCME) как альтернативный подход для масштабирования безопасных вычислений, где способные модели машинного обучения взаимодействуют в рамках ограничений ввода/вывода, с явным управлением потоком информации и явным отсутствием состояния. Этот подход нацелен на достижение баланса между конфиденциальностью и вычислительной эффективностью, обеспечивая конфиденциальное вывод, где классические криптографические решения в настоящее время невозможны. Мы описываем ряд примеров использования, которые становятся возможными благодаря TCME, и показываем, что даже некоторые простые классические криптографические задачи уже могут быть решены с помощью TCME. Наконец, мы обозначаем текущие ограничения и обсуждаем дальнейший путь в их реализации.
Сопоставление изображений как для перекрестного представления, так и для перекрестной модальности играет критическую роль в мультимодальном восприятии. На практике разрыв модальности, вызванный различными системами/стилями изображения, представляет собой большие вызовы для задачи сопоставления. Существующие работы пытаются извлечь инвариантные особенности для конкретных модальностей и обучаться на ограниченных наборах данных, что приводит к плохой обобщаемости. В данной статье мы представляем MINIMA, унифицированную структуру сопоставления изображений для нескольких перекрестных модальных случаев. Не стремясь к сложным модулям, наш MINIMA нацелен на улучшение универсальной производительности с точки зрения масштабирования данных. Для этой цели мы предлагаем простой, но эффективный движок данных, который может свободно создавать большой набор данных, содержащий несколько модальностей, разнообразные сценарии и точные метки сопоставления. В частности, мы масштабируем модальности от дешевых, но богатых только RGB данных для сопоставления, с помощью генеративных моделей. В этой установке метки сопоставления и богатое разнообразие набора данных RGB хорошо наследуются сгенерированными мультимодальными данными. Благодаря этому мы создаем MD-syn, новый всесторонний набор данных, который заполняет пробел данных для общего сопоставления мультимодальных изображений. С помощью MD-syn мы можем напрямую обучать любую передовую конвейерную систему сопоставления на случайно выбранных парах модальностей для получения перекрестной модальной способности. Обширные эксперименты на задачах сопоставления внутри домена и нулевых совпадений, включая 19 перекрестных модальных случаев, демонстрируют, что наш MINIMA значительно превосходит базовые показатели и даже превосходит методы, специфичные для модальности. Набор данных и код доступны по адресу https://github.com/LSXI7/MINIMA.
Взаимодействие с миром - это многозначительный опыт: достижение эффективного взаимодействия общего назначения требует использования всех доступных модальностей - включая зрение, осязание и звук - для заполнения пробелов из-за частичного наблюдения. Например, когда зрение заслонено при попытке достать что-то из сумки, робот должен полагаться на свои осязание и слух. Однако современные общие политики роботов обычно обучаются на больших наборах данных для прогнозирования действий робота исключительно на основе визуальных и проприоцептивных наблюдений. В данной работе мы предлагаем FuSe, новый подход, который позволяет донастраивать общие визуомоторные политики на гетерогенных модальностях сенсоров, для которых большие наборы данных не доступны, используя естественный язык в качестве общего кросс-модального опорного пункта. Мы комбинируем мультимодальную контрастную потерю с потерей генерации языка, связанного с сенсорикой, для кодирования семантики высокого уровня. В контексте манипуляции роботов мы показываем, что FuSe позволяет выполнять сложные задачи, требующие совместного рассуждения по модальностям, таким как зрение, осязание и звук, в нулевой ситуации, такие как мультимодальное подталкивание, композиционное кросс-модальное подталкивание и описания объектов, с которыми взаимодействует робот. Мы показываем, что тот же подход применим к широко различным общим политикам, включая как общие политики на основе диффузии, так и большие модели зрение-язык-действие (VLA). Обширные эксперименты в реальном мире показывают, что FuSe способен увеличить процент успешных результатов на более чем 20% по сравнению со всеми рассматриваемыми базовыми вариантами.