Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

К лучшим практикам использования открытых наборов данных для обучения моделей языкового моделирования.
Towards Best Practices for Open Datasets for LLM Training

Jan 14

ByStefan Baack, Stella Biderman, Kasia Odrozek, Aviya Skowron, Ayah Bdeir, Jillian Bommarito, Jennifer Ding, Maximilian Gahntz, Paul Keller, Pierre-Carl Langlais, Greg Lindahl, Sebastian Majstorovic, Nik Marda, Guilherme Penedo, Maarten Van Segbroeck, Jennifer Wang, Leandro von Werra, Mitchell Baker, Julie Belião, Kasia Chmielinski, Marzieh Fadaee, Lisa Gutermuth, Hynek Kydlíček, Greg Leppert, EM Lewis-Jong, Solana Larsen, Shayne Longpre, Angela Oduor Lungati, Cullen Miller, Victor Miller, Max Ryabinin, Kathleen Siminyu, Andrew Strait, Mark Surman, Anna Tumadóttir, Maurice Weber, Rebecca Weiss, Lee White, Thomas Wolf

Многие компании по искусственному интеллекту обучают свои большие языковые модели (LLM) на данных без разрешения владельцев авторских прав. Допустимость таких действий варьируется в зависимости от юрисдикции: в странах, таких как ЕС и Япония, это разрешено при определенных ограничениях, в то время как в Соединенных Штатах юридическая обстановка более неоднозначна. Независимо от юридического статуса, опасения со стороны творческих производителей привели к нескольким знаковым судебным разбирательствам по вопросам авторских прав, и угроза судебных разбирательств часто упоминается как причина последнего тренда к минимизации информации, раскрываемой о наборах данных для обучения как корпоративными, так и общественными участниками. Этот тренд ограничения информации о данных наносит вред, затрудняя прозрачность, ответственность и инновации в широкой экосистеме, отказывая исследователям, аудиторам и затронутым лицам доступ к информации, необходимой для понимания моделей искусственного интеллекта. Хотя это можно было бы смягчить, обучая языковые модели на открытых и общедоступных данных, на момент написания нет таких моделей (обученных в значительном масштабе) из-за существенных технических и социологических вызовов в сборе необходимого корпуса. Эти вызовы включают неполные и ненадежные метаданные, стоимость и сложность цифровизации физических записей, а также разнообразие юридических и технических навыков, необходимых для обеспечения актуальности и ответственности в быстро меняющейся обстановке. Достижение будущего, в котором системы искусственного интеллекта могут обучаться на открытых лицензионных данных, которые ответственно курируются и управляются, требует совместной работы в области юридических, технических и политических сферах, а также инвестиций в стандарты метаданных, цифровизацию и формирование культуры открытости.

MMDocIR: Сравнение производительности мульти-модального поиска для длинных документов
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents

Jan 15

ByKuicai Dong, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, Yong Liu

Многомодальный поиск документов разработан для идентификации и извлечения различных форм многомодального контента, таких как фигуры, таблицы, графики и информация о макете из обширных документов. Несмотря на его важность, отмечается значительное отсутствие надежного эталонного показателя для эффективной оценки производительности систем в многомодальном поиске документов. Для заполнения этого пробела данная работа представляет новый эталон, названный MMDocIR, включающий две различные задачи: поиск на уровне страницы и на уровне макета. Первая задача направлена на локализацию наиболее релевантных страниц в длинном документе, в то время как вторая целится на обнаружение конкретных макетов, предлагая более детальную гранулярность, чем анализ всей страницы. Макет может относиться к различным элементам, таким как текстовые абзацы, уравнения, фигуры, таблицы или графики. Эталон MMDocIR включает обширный набор данных с экспертно размеченными метками для 1 685 вопросов и самостоятельно созданными метками для 173 843 вопросов, что делает его ключевым ресурсом для продвижения многомодального поиска документов как для обучения, так и для оценки. Через строгие эксперименты мы показываем, что (i) визуальные поисковики значительно превосходят своих текстовых аналогов, (ii) набор данных MMDocIR может эффективно способствовать процессу обучения многомодального поиска документов и (iii) текстовые поисковики, использующие VLM-текст, работают намного лучше, чем те, которые используют OCR-текст. Эти результаты подчеркивают потенциальные преимущества интеграции визуальных элементов для многомодального поиска документов.

CityDreamer4D: Композиционная генеративная модель бесконечных 4D городов
CityDreamer4D: Compositional Generative Model of Unbounded 4D Cities

Jan 15

ByHaozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu

Генерация трехмерных сцен в последние годы привлекла все больше внимания и достигла значительного прогресса. Создание четырехмерных городов более сложно, чем трехмерных сцен, из-за наличия структурно сложных, визуально разнообразных объектов, таких как здания и транспортные средства, а также повышенной чувствительности человека к искажениям в городской среде. Для решения этих проблем мы предлагаем CityDreamer4D, композиционную генеративную модель, специально разработанную для создания неограниченных четырехмерных городов. Наши основные идеи заключаются в том, что 1) генерация четырехмерного города должна разделять динамические объекты (например, транспортные средства) от статических сцен (например, зданий и дорог), и 2) все объекты в четырехмерной сцене должны состоять из различных типов нейронных полей для зданий, транспортных средств и фоновых элементов. Конкретно, мы предлагаем Генератор Транспортной Ситуации и Генератор Неограниченной Конфигурации для создания динамических транспортных сценариев и статических городских планов с использованием высокоэффективного представления BEV. Объекты в четырехмерных городах создаются путем объединения нейронных полей, ориентированных на элементы и экземпляры, для фоновых элементов, зданий и транспортных средств. Для соответствия особенностям фоновых элементов и экземпляров нейронные поля используют настраиваемые генеративные хэш-сетки и периодические позиционные вложения в качестве параметризаций сцены. Кроме того, мы предлагаем обширный набор наборов данных для генерации городов, включая OSM, GoogleEarth и CityTopia. Набор данных OSM предоставляет разнообразные реальные городские планы, в то время как наборы данных Google Earth и CityTopia предоставляют масштабные изображения городов высокого качества с полными трехмерными аннотациями экземпляров. Благодаря своему композиционному дизайну, CityDreamer4D поддерживает ряд прикладных приложений, таких как редактирование экземпляров, стилизация городов и городская симуляция, обеспечивая при этом передовую производительность в создании реалистичных четырехмерных городов.

RepVideo: Переосмысление представления на разных уровнях для генерации видео
RepVideo: Rethinking Cross-Layer Representation for Video Generation

Jan 15

ByChenyang Si, Weichen Fan, Zhengyao Lv, Ziqi Huang, Yu Qiao, Ziwei Liu

Генерация видео достигла значительного прогресса с появлением моделей диффузии, которые значительно улучшили качество создаваемых видеороликов. Однако недавние исследования в основном сосредоточены на масштабировании обучения моделей, предлагая ограниченное понимание прямого влияния представлений на процесс генерации видео. В данной статье мы начинаем исследовать характеристики признаков в промежуточных слоях, обнаружив значительные различия в картах внимания между различными слоями. Эти различия приводят к нестабильным семантическим представлениям и способствуют накоплению различий между признаками, что в конечном итоге снижает сходство между смежными кадрами и негативно влияет на временную согласованность. Для решения этой проблемы мы предлагаем RepVideo, улучшенную структуру представлений для моделей диффузии текста в видео. Накопляя признаки из соседних слоев для формирования обогащенных представлений, данный подход захватывает более стабильную семантическую информацию. Эти улучшенные представления затем используются в качестве входных данных для механизма внимания, тем самым улучшая семантическую выразительность и обеспечивая согласованность признаков между смежными кадрами. Обширные эксперименты демонстрируют, что наша модель RepVideo не только значительно улучшает способность генерировать точные пространственные образы, такие как захват сложных пространственных отношений между несколькими объектами, но также улучшает временную согласованность в генерации видео.

Оуроборос-Диффузия: Исследование Постоянного Генерирования Контента в Диффузии Длинных Видео без Настройки
Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion

Jan 15

ByJingyuan Chen, Fuchen Long, Jie An, Zhaofan Qiu, Ting Yao, Jiebo Luo, Tao Mei

Первым вошел — первым вышел (FIFO) видео-диффузия, основанная на предварительно обученной модели текст-видео, недавно стала эффективным подходом для генерации длинных видео без необходимости настройки. Эта техника поддерживает очередь видеокадров с постепенно увеличивающимся шумом, непрерывно создавая чистые кадры в начале очереди, в то время как гауссовский шум добавляется в конец. Однако FIFO-Диффузия часто испытывает затруднения с сохранением долгосрочной временной согласованности в создаваемых видео из-за отсутствия моделирования соответствия между кадрами. В данной статье мы предлагаем Ouroboros-Диффузию, новую структурированную систему видео-очистки, разработанную для улучшения структурной и содержательной (предметной) согласованности, обеспечивая создание согласованных видео произвольной длины. Конкретно, мы представляем новый метод сэмплирования латентных переменных в конце очереди для улучшения структурной согласованности, обеспечивая визуально плавные переходы между кадрами. Для улучшения предметной согласованности мы разрабатываем механизм SACFA (Subject-Aware Cross-Frame Attention), который выравнивает предметы на кадрах в рамках коротких сегментов для достижения лучшей визуальной согласованности. Кроме того, мы вводим саморекуррентное руководство. Эта техника использует информацию со всех предыдущих чистых кадров в начале очереди для направления очистки более шумных кадров в конце, способствуя богатому и контекстному взаимодействию глобальной информации. Обширные эксперименты по генерации длинных видео на бенчмарке VBench демонстрируют превосходство нашей Ouroboros-Диффузии, особенно в плане предметной согласованности, плавности движения и временной согласованности.

XMusic: К обобщенной и управляемой символьной генерации музыки_Framework
XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

Jan 15

BySida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu

В последние годы в области синтеза изображений и генерации текста были достигнуты значительные прорывы в области создания контента, сгенерированного искусственным интеллектом (ИИКИ), создающего контент, сравнимый с тем, что производят люди. Однако качество музыки, созданной ИИ, пока не достигло этого уровня, в основном из-за сложности эффективного контроля музыкальных эмоций и обеспечения высококачественных результатов. В данной статье представлена обобщенная символьная система генерации музыки, XMusic, которая поддерживает гибкие подсказки (т.е. изображения, видео, тексты, теги и напевы) для создания эмоционально управляемой и высококачественной символьной музыки. XMusic состоит из двух основных компонентов, XProjector и XComposer. XProjector анализирует подсказки различных модальностей и преобразует их в символьные музыкальные элементы (т.е. эмоции, жанры, ритмы и ноты) в пространстве проекции для создания соответствующей музыки. XComposer содержит Генератор и Селектор. Генератор создает эмоционально управляемую и мелодичную музыку на основе нашего инновационного представления символьной музыки, в то время как Селектор идентифицирует высококачественную символьную музыку, создавая схему обучения с несколькими задачами, включающую оценку качества, распознавание эмоций и жанров. Кроме того, мы создали XMIDI, крупномасштабный набор данных символьной музыки, содержащий 108 023 файлов MIDI с точными метками эмоций и жанров. Объективные и субъективные оценки показывают, что XMusic значительно превосходит текущие передовые методы с впечатляющим качеством музыки. Наш XMusic был признан одним из девяти Лучших коллекций на WAIC 2023. Домашняя страница проекта XMusic: https://xmusic-project.github.io.

Мультимодальные языковые модели могут рассуждать об эстетике в режиме нулевой настройки.
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Jan 15

ByRuixiang Jiang, Changwen Chen

Мы представляем первое исследование о том, как способность к рассуждению мультимодальных языковых моделей (MLLMs) может быть вызвана для оценки эстетики произведений искусства. Для облегчения этого исследования мы создаем MM-StyleBench, новый высококачественный набор данных для оценки художественной стилизации. Затем мы разрабатываем принципиальный метод моделирования предпочтений человека и проводим систематический анализ корреляции между ответами MLLMs и предпочтениями человека. Наши эксперименты раскрывают врожденную проблему галлюцинаций у MLLMs в оценке искусства, связанную с субъективностью ответов. Предлагается ArtCoT, демонстрирующий, что декомпозиция задач, специфичных для искусства, и использование конкретного языка повышают способность MLLMs к рассуждению об эстетике. Наши результаты предлагают ценные идеи о MLLMs для искусства и могут быть полезны для широкого спектра прикладных задач, таких как перенос стиля и генерация художественных изображений. Код доступен по адресу https://github.com/songrise/MLLM4Art.

Пирамидальные сети изображений с инвертированными параметрами для визуального восприятия и мультимодального понимания
Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding

Jan 14

ByZhaokai Wang, Xizhou Zhu, Xue Yang, Gen Luo, Hao Li, Changyao Tian, Wenhan Dou, Junqi Ge, Lewei Lu, Yu Qiao, Jifeng Dai

Изображенчатые пирамиды широко используются в передовых методах для получения мультимасштабных признаков для точного визуального восприятия и понимания. Однако текущие изображенчатые пирамиды используют одну и ту же модель большого масштаба для обработки нескольких разрешений изображений, что приводит к значительным вычислительным затратам. Для решения этой проблемы мы предлагаем новую архитектуру сети, называемую Сети изображенчатых пирамид с инвертированными параметрами (PIIP). Конкретно, PIIP использует предварительно обученные модели (ViTs или CNN) в качестве ветвей для обработки мультимасштабных изображений, где изображения более высокого разрешения обрабатываются более маленькими сетевыми ветвями для балансировки вычислительных затрат и производительности. Для интеграции информации с различных пространственных масштабов мы дополнительно предлагаем новый механизм взаимодействия признаков между ветвями. Для проверки PIIP мы применяем его к различным моделям восприятия и представляем крупную мультимодальную модель обработки языка под названием LLaVA, и проводим обширные эксперименты по различным задачам, таким как обнаружение объектов, сегментация, классификация изображений и мультимодальное понимание. PIIP демонстрирует превосходную производительность по сравнению с одноветвевыми и существующими многоразрешенчатыми подходами с более низкими вычислительными затратами. Примененный к InternViT-6B, крупной модели основы зрения, PIIP может улучшить ее производительность на 1%-2% в обнаружении и сегментации с использованием только 40%-60% исходных вычислений, в конечном итоге достигнув 60.0 box AP на MS COCO и 59.7 mIoU на ADE20K. Для мультимодального понимания наш PIIP-LLaVA достигает 73.0% точности на TextVQA и 74.5% на MMBench с использованием только 2.8M обучающих данных. Наш код доступен по ссылке https://github.com/OpenGVLab/PIIP.

Доверенные модели машинного обучения обеспечивают доступ к конфиденциальному выводу для задач, в настоящее время недостижимых с помощью криптографии.
Trusted Machine Learning Models Unlock Private Inference for Problems Currently Infeasible with Cryptography

Jan 15

ByIlia Shumailov, Daniel Ramage, Sarah Meiklejohn, Peter Kairouz, Florian Hartmann, Borja Balle, Eugene Bagdasarian

Мы часто взаимодействуем с ненадежными сторонами. Приоритизация конфиденциальности может ограничить эффективность этих взаимодействий, поскольку достижение определенных целей требует обмена чувствительными данными. Традиционно решение этой проблемы включало либо поиск доверенных посредников, либо создание криптографических протоколов, ограничивающих объем раскрываемых данных, таких как многопартийные вычисления или доказательства нулевого разглашения. Несмотря на значительные успехи в масштабировании криптографических подходов, они остаются ограниченными по размеру и сложности приложений, для которых их можно использовать. В данной статье мы утверждаем, что способные модели машинного обучения могут выполнять роль доверенного третьего лица, обеспечивая тем самым безопасные вычисления для приложений, которые ранее были невозможны. В частности, мы описываем Среды Доверенных Способных Моделей (TCME) как альтернативный подход для масштабирования безопасных вычислений, где способные модели машинного обучения взаимодействуют в рамках ограничений ввода/вывода, с явным управлением потоком информации и явным отсутствием состояния. Этот подход нацелен на достижение баланса между конфиденциальностью и вычислительной эффективностью, обеспечивая конфиденциальное вывод, где классические криптографические решения в настоящее время невозможны. Мы описываем ряд примеров использования, которые становятся возможными благодаря TCME, и показываем, что даже некоторые простые классические криптографические задачи уже могут быть решены с помощью TCME. Наконец, мы обозначаем текущие ограничения и обсуждаем дальнейший путь в их реализации.

МИНИМА: Сопоставление изображений, инвариантное к модальности
MINIMA: Modality Invariant Image Matching

Dec 27

ByXingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai

Сопоставление изображений как для перекрестного представления, так и для перекрестной модальности играет критическую роль в мультимодальном восприятии. На практике разрыв модальности, вызванный различными системами/стилями изображения, представляет собой большие вызовы для задачи сопоставления. Существующие работы пытаются извлечь инвариантные особенности для конкретных модальностей и обучаться на ограниченных наборах данных, что приводит к плохой обобщаемости. В данной статье мы представляем MINIMA, унифицированную структуру сопоставления изображений для нескольких перекрестных модальных случаев. Не стремясь к сложным модулям, наш MINIMA нацелен на улучшение универсальной производительности с точки зрения масштабирования данных. Для этой цели мы предлагаем простой, но эффективный движок данных, который может свободно создавать большой набор данных, содержащий несколько модальностей, разнообразные сценарии и точные метки сопоставления. В частности, мы масштабируем модальности от дешевых, но богатых только RGB данных для сопоставления, с помощью генеративных моделей. В этой установке метки сопоставления и богатое разнообразие набора данных RGB хорошо наследуются сгенерированными мультимодальными данными. Благодаря этому мы создаем MD-syn, новый всесторонний набор данных, который заполняет пробел данных для общего сопоставления мультимодальных изображений. С помощью MD-syn мы можем напрямую обучать любую передовую конвейерную систему сопоставления на случайно выбранных парах модальностей для получения перекрестной модальной способности. Обширные эксперименты на задачах сопоставления внутри домена и нулевых совпадений, включая 19 перекрестных модальных случаев, демонстрируют, что наш MINIMA значительно превосходит базовые показатели и даже превосходит методы, специфичные для модальности. Набор данных и код доступны по адресу https://github.com/LSXI7/MINIMA.

За пределами зрения: Доводка общих политик роботов с разнородными датчиками через языковую привязку
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding

Jan 8

ByJoshua Jones, Oier Mees, Carmelo Sferrazza, Kyle Stachowicz, Pieter Abbeel, Sergey Levine

Взаимодействие с миром - это многозначительный опыт: достижение эффективного взаимодействия общего назначения требует использования всех доступных модальностей - включая зрение, осязание и звук - для заполнения пробелов из-за частичного наблюдения. Например, когда зрение заслонено при попытке достать что-то из сумки, робот должен полагаться на свои осязание и слух. Однако современные общие политики роботов обычно обучаются на больших наборах данных для прогнозирования действий робота исключительно на основе визуальных и проприоцептивных наблюдений. В данной работе мы предлагаем FuSe, новый подход, который позволяет донастраивать общие визуомоторные политики на гетерогенных модальностях сенсоров, для которых большие наборы данных не доступны, используя естественный язык в качестве общего кросс-модального опорного пункта. Мы комбинируем мультимодальную контрастную потерю с потерей генерации языка, связанного с сенсорикой, для кодирования семантики высокого уровня. В контексте манипуляции роботов мы показываем, что FuSe позволяет выполнять сложные задачи, требующие совместного рассуждения по модальностям, таким как зрение, осязание и звук, в нулевой ситуации, такие как мультимодальное подталкивание, композиционное кросс-модальное подталкивание и описания объектов, с которыми взаимодействует робот. Мы показываем, что тот же подход применим к широко различным общим политикам, включая как общие политики на основе диффузии, так и большие модели зрение-язык-действие (VLA). Обширные эксперименты в реальном мире показывают, что FuSe способен увеличить процент успешных результатов на более чем 20% по сравнению со всеми рассматриваемыми базовыми вариантами.