Ежедневно отобранные исследовательские статьи по ИИ с переводами
Сквозная генерация музыкального аудио с использованием методов глубокого обучения в последнее время переживает взрывной рост активности. Однако большинство моделей сосредоточены на создании полностью сведенной музыки в ответ на абстрактные условия. В данной работе мы предлагаем альтернативную парадигму для создания моделей генерации музыки, которые способны слушать и реагировать на музыкальный контекст. Мы описываем, как такая модель может быть построена с использованием неавторегрессивной архитектуры на основе трансформеров, и представляем ряд новых архитектурных улучшений и усовершенствований в процессе сэмплирования. Мы обучаем описанную архитектуру как на открытых, так и на проприетарных наборах данных. Произведенные модели оцениваются с использованием стандартных метрик качества и нового подхода, основанного на дескрипторах извлечения музыкальной информации. Полученная модель достигает качества аудио, сопоставимого с современными моделями, обусловленными текстом, а также демонстрирует высокую музыкальную согласованность с контекстом.
Модели небольшого масштаба предлагают различные вычислительные преимущества, однако вопрос о том, насколько критичен размер для способности решать задачи, остается открытым. В частности, для решения задач по математике начальной школы минимальный размер модели, необходимый для преодоления барьера в 80\% на бенчмарке GSM8K, до сих пор составляет 34 миллиарда параметров. Наша работа исследует, как высококачественные наборы данных могут стать ключом к тому, чтобы небольшие языковые модели приобрели способность к математическому рассуждению. Мы представляем TinyGSM — синтетический набор данных, содержащий 12,3 миллиона задач по математике начальной школы, сопряженных с решениями на Python, полностью сгенерированными моделью GPT-3.5. После тонкой настройки на TinyGSM мы обнаружили, что дуэт из генеративной модели на 1,3 миллиарда параметров и модели-верификатора на 1,3 миллиарда параметров может достичь точности в 81,5\%, превосходя существующие модели, которые на порядки больше. Этот результат также сопоставим с производительностью модели GPT-3.5 (77,4\%), которая выступала в роли «учителя» и генерировала данные для обучения нашей модели. Наш подход прост и состоит из двух ключевых компонентов: 1) высококачественного набора данных TinyGSM, 2) использования верификатора, который выбирает окончательные ответы из множества кандидатов, сгенерированных моделью.
Люди проводят огромное количество времени за цифровыми устройствами, взаимодействуя с графическими пользовательскими интерфейсами (GUI), такими как экраны компьютеров или смартфонов. Крупные языковые модели (LLM), такие как ChatGPT, могут помогать людям в задачах, например, в написании писем, но испытывают трудности с пониманием и взаимодействием с GUI, что ограничивает их потенциал для повышения уровня автоматизации. В этой статье мы представляем CogAgent, визуальную языковую модель (VLM) с 18 миллиардами параметров, специализирующуюся на понимании и навигации по GUI. Благодаря использованию как низкоразрешающих, так и высокоразрешающих кодировщиков изображений, CogAgent поддерживает ввод с разрешением 1120*1120, что позволяет ей распознавать мелкие элементы страницы и текст. Как универсальная визуальная языковая модель, CogAgent достигает наилучших результатов на пяти текстоориентированных и четырех общих бенчмарках для визуального вопросно-ответного анализа (VQA), включая VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet и POPE. CogAgent, использующая только скриншоты в качестве входных данных, превосходит методы на основе LLM, которые используют извлеченный HTML-текст, в задачах навигации по GUI на ПК и Android — Mind2Web и AITW, устанавливая новый стандарт в этой области. Модель и код доступны по адресу https://github.com/THUDM/CogVLM.
Модели согласованности продемонстрировали мощные возможности в эффективной генерации изображений, позволяя синтезировать их за несколько шагов сэмплирования, что снижает высокие вычислительные затраты в диффузионных моделях. Однако применение моделей согласованности в более сложной и ресурсоемкой задаче генерации видео остается малоизученным. В данном отчете мы представляем фреймворк VideoLCM, который заполняет этот пробел, используя концепцию моделей согласованности из генерации изображений для эффективного синтеза видео с минимальным количеством шагов при сохранении высокого качества. VideoLCM основывается на существующих латентных диффузионных моделях для видео и включает методы согласованной дистилляции для обучения латентной модели согласованности. Экспериментальные результаты демонстрируют эффективность VideoLCM с точки зрения вычислительной эффективности, точности и временной согласованности. Примечательно, что VideoLCM достигает синтеза видео с высокой точностью и плавностью всего за четыре шага сэмплирования, что открывает потенциал для синтеза в реальном времени. Мы надеемся, что VideoLCM сможет стать простым, но эффективным базовым решением для последующих исследований. Исходный код и модели будут общедоступны.
Методы курирования крупномасштабных наборов данных для задач "визуальный язык" требуют компромисса между размером набора данных и его качеством. Однако даже самые качественные доступные аннотации к изображениям оказываются слишком краткими, чтобы передать всё богатство визуальных деталей. Чтобы продемонстрировать ценность плотных и точно согласованных пар "изображение-текст", мы собрали набор данных Densely Captioned Images (DCI), содержащий 8012 натуральных изображений, аннотированных человеком с описаниями, привязанными к маскам, где каждое описание в среднем превышает 1000 слов. Благодаря точным и надёжным аннотациям, связанным с конкретными частями изображения, мы можем оценить понимание моделей "визуальный язык" (VLMs) с помощью новой задачи, которая сопоставляет каждое описание с соответствующим фрагментом изображения. Поскольку современные модели часто ограничены 77 текстовыми токенами, мы также представляем сокращённую версию (sDCI), в которой длина каждого описания ограничена. Мы показываем, что современные методы, демонстрирующие прогресс на стандартных бенчмарках, не приводят к значительному улучшению на нашем бенчмарке, основанном на sDCI. Наконец, мы дообучили модель CLIP с использованием sDCI и показали значительное улучшение по сравнению с базовой моделью, несмотря на небольшой обучающий набор. Выпуская первый набор данных с плотными аннотациями изображений, созданными человеком, мы надеемся способствовать разработке новых бенчмарков или рецептов дообучения для следующего поколения моделей "визуальный язык".
Современные диффузионные или потоковые генеративные модели для 3D-форм делятся на два типа: дистилляция предобученных диффузионных моделей для 2D-изображений и прямое обучение на 3D-формах. При обучении диффузионных или потоковых моделей на 3D-формах ключевым выбором является представление формы. Эффективное представление формы должно соответствовать трем принципам: оно должно позволять эффективное преобразование больших наборов 3D-данных в нужную форму; обеспечивать оптимальный баланс между точностью аппроксимации и количеством параметров; и иметь простую тензорную форму, совместимую с существующими мощными нейронными архитектурами. Хотя стандартные представления 3D-форм, такие как воксельные сетки и облака точек, не соответствуют всем этим принципам одновременно, в данной статье мы предлагаем новое представление, которое их удовлетворяет. Мы представляем Mosaic-SDF (M-SDF): простое представление 3D-форм, которое аппроксимирует функцию знакового расстояния (SDF) для заданной формы с использованием набора локальных сеток, распределенных вблизи границы формы. Представление M-SDF быстро вычисляется для каждой формы в отдельности, что делает его легко параллелизуемым; оно эффективно по параметрам, так как покрывает только пространство вокруг границы формы; и имеет простую матричную форму, совместимую с архитектурами на основе трансформеров. Мы демонстрируем эффективность представления M-SDF, используя его для обучения 3D-генеративной потоковой модели, включая условную генерацию по классам на наборе данных 3D Warehouse, а также генерацию 3D-форм по тексту с использованием набора данных из около 600 тысяч пар "описание-форма".
Крупные языковые модели достигли значительных успехов в последние годы, как и их аналоги в области компьютерного зрения. Существующие модели, объединяющие зрение и язык, способны описывать изображения на естественном языке, отвечать на вопросы, связанные с визуальным контентом, или выполнять сложные рассуждения об изображении. Однако до сих пор неясно, как можно выполнять задачи локализации, такие как привязка слов или локализация по ссылкам, с использованием крупных языковых моделей. В данной работе мы стремимся разработать модель, объединяющую зрение и язык, которая может принимать местоположения, например, набор точек или ограничивающих рамок, в качестве входных или выходных данных. Когда местоположения используются как входные данные, модель выполняет генерацию подписей с учетом локации, создавая описания для указанного объекта или области. Когда модель генерирует местоположения как выходные данные, она предсказывает координаты пикселей для каждого слова, сгенерированного языковой моделью, тем самым выполняя плотную привязку слов. Наша модель предварительно обучается на наборе данных Localized Narrative, который содержит подписи, согласованные с пикселями на основе человеческого внимания. Мы показываем, что наша модель может быть применена к различным задачам, учитывающим локализацию в области зрения и языка, включая локализацию по ссылкам, генерацию подписей с учетом локации и плотное описание объектов, достигая наилучших результатов на наборах данных RefCOCO и Visual Genome. Страница проекта: https://jerryxu.net/PixelLLM.
В данной статье представлен новый подход для расширения возможностей крупных языковых моделей (LLM) в обработке и понимании длинных текстовых последовательностей, что является критически важным аспектом для приложений, требующих глубокого анализа и синтеза больших объемов информации. Учитывая присущие трудности в расширении контекстного окна для LLM, основанных преимущественно на архитектуре Transformer, мы предлагаем новую архитектуру модели, названную Zebra. Эта архитектура эффективно решает проблемы квадратичной временной и пространственной сложности, связанные с полным вниманием в Transformer, за счет использования группированных локально-глобальных слоев внимания. Наша модель, подобно чередующимся полосам зебры, балансирует между локальными и глобальными слоями внимания, значительно снижая вычислительные требования и потребление памяти. Для оценки производительности Zebra проведены комплексные эксперименты, включая предварительное обучение с нуля, продолжение адаптационного обучения для длинных контекстов и тонкую настройку на длинных инструкциях. Результаты показывают, что Zebra демонстрирует сопоставимую или превосходящую производительность на бенчмарках как для коротких, так и для длинных последовательностей, одновременно повышая эффективность обучения и вывода.
Благодаря крупномасштабным моделям генерации изображений из текста, создание 3D-аватаров по текстовому описанию достигло значительного прогресса. Однако большинство методов не способны создавать фотореалистичные результаты из-за неточной геометрии и низкокачественного внешнего вида. Для более практичного создания аватаров мы представляем SEEAvatar — метод генерации фотореалистичных 3D-аватаров из текста с использованием SElf-Evolving ограничений для разделения геометрии и внешнего вида. Для геометрии мы предлагаем ограничивать оптимизированный аватар в рамках корректной глобальной формы с использованием шаблонного аватара. Шаблонный аватар инициализируется с учетом априорных данных о человеке и может периодически обновляться на основе оптимизированного аватара, выступая в роли эволюционирующего шаблона, что позволяет создавать более гибкие формы. Кроме того, геометрия также ограничивается статическими априорными данными о человеке для локальных частей, таких как лицо и руки, чтобы сохранить тонкие структуры. Для генерации внешнего вида мы используем диффузионную модель, усиленную инженерией подсказок, чтобы направлять физически основанный конвейер рендеринга для создания реалистичных текстур. Ограничение яркости применяется к альбедо-текстуре для подавления некорректных эффектов освещения. Эксперименты показывают, что наш метод значительно превосходит предыдущие подходы как по качеству глобальной и локальной геометрии, так и по качеству внешнего вида. Поскольку наш метод позволяет создавать высококачественные меши и текстуры, такие ресурсы могут быть напрямую использованы в классическом графическом конвейере для реалистичного рендеринга при любых условиях освещения. Страница проекта: https://seeavatar3d.github.io.
Создание универсальных агентов, способных достигать множества целей в сложных и открытых средах, является одной из ключевых исследовательских задач в области обучения с подкреплением. Основным ограничивающим фактором при разработке таких агентов с использованием RL была необходимость в большом количестве функций вознаграждения для достижения различных целей. Мы исследуем возможность использования готовых моделей, объединяющих зрение и язык (vision-language models, VLMs), в качестве источников вознаграждения для агентов обучения с подкреплением. Мы демонстрируем, как вознаграждения за визуальное достижение разнообразных языковых целей могут быть получены из семейства моделей CLIP и использованы для обучения RL-агентов, способных достигать различных языковых целей. Мы представляем этот подход в двух различных визуальных областях и показываем тенденцию масштабирования, согласно которой более крупные VLMs обеспечивают более точные вознаграждения за достижение визуальных целей, что, в свою очередь, приводит к созданию более эффективных RL-агентов.
Недавно представленный ControlNet обладает способностью управлять процессом генерации изображений на основе текста с использованием геометрических входных данных, таких как 2D-поза человека или граничные признаки. Хотя ControlNet обеспечивает контроль над геометрической формой объектов в сгенерированном изображении, он не способен задавать визуальный внешний вид каждого объекта. Мы представляем FineControlNet, который предоставляет точный контроль над внешним видом каждого объекта, сохраняя при этом возможность точного управления позой. В частности, мы разработали и продемонстрировали FineControlNet с геометрическим управлением через изображения поз человека и управлением внешним видом через текстовые подсказки на уровне объектов. Пространственное выравнивание текстовых подсказок, специфичных для объектов, и 2D-поз в латентном пространстве обеспечивает возможности точного управления FineControlNet. Мы оцениваем производительность FineControlNet, сравнивая его с современными моделями диффузии текста в изображение, управляемыми позой. FineControlNet демонстрирует превосходную производительность в генерации изображений, соответствующих предоставленным пользователем текстовым подсказкам и позам, по сравнению с существующими методами. Страница проекта: https://samsunglabs.github.io/FineControlNet-project-page.
Диффузионные модели (DMs) приобрели значительную популярность благодаря своей способности генерировать высококачественные и разнообразные изображения, особенно с учетом последних достижений в области генерации изображений на основе текста. В настоящее время исследовательский фокус смещается в сторону управляемости DMs. Одной из ключевых задач в этой области является локализованное редактирование, при котором изменяются определенные области изображения без воздействия на остальное содержимое. В данной статье представлен метод LIME для локализованного редактирования изображений в диффузионных моделях, который не требует указания пользователем областей интереса (RoI) или дополнительного текстового ввода. Наш метод использует признаки, полученные с помощью предобученных методов, и простую технику кластеризации для создания точных семантических карт сегментации. Затем, используя карты кросс-внимания, метод уточняет эти сегменты для локализованного редактирования. Наконец, мы предлагаем новую технику регуляризации кросс-внимания, которая штрафует несвязанные оценки кросс-внимания в области интереса на этапах удаления шума, обеспечивая локализованные изменения. Наш подход, не требующий повторного обучения и тонкой настройки, последовательно улучшает производительность существующих методов в различных тестах на редактирование.
В данной работе мы представляем GLEE — базовую модель на уровне объектов для локализации и идентификации объектов на изображениях и видео. В рамках единой структуры GLEE выполняет задачи обнаружения, сегментации, отслеживания, привязки и идентификации произвольных объектов в сценариях открытого мира для различных задач восприятия объектов. Используя согласованную стратегию обучения, GLEE приобретает знания из разнообразных источников данных с различными уровнями контроля, формируя общие представления об объектах, что позволяет ей эффективно справляться с задачами переноса на новые данные и задачи в условиях нулевого обучения. В частности, мы применяем кодировщик изображений, кодировщик текста и визуальный промптер для обработки многомодальных входных данных, что позволяет одновременно решать различные задачи, ориентированные на объекты, сохраняя при этом передовые показатели производительности. Продемонстрированная в ходе обширного обучения на более чем пяти миллионах изображений из различных наборов данных, GLEE демонстрирует выдающуюся универсальность и улучшенную способность к обобщению, эффективно справляясь с задачами без необходимости адаптации под конкретные задачи. Благодаря интеграции больших объемов автоматически размеченных данных мы дополнительно усиливаем её способности к нулевому обобщению. Кроме того, GLEE может быть интегрирована в крупные языковые модели, выступая в качестве базовой модели для предоставления универсальной информации на уровне объектов для многомодальных задач. Мы надеемся, что универсальность и универсальность нашего метода станут важным шагом в разработке эффективных визуальных базовых моделей для систем искусственного общего интеллекта (AGI). Модель и код будут доступны по адресу https://glee-vision.github.io.
В данном исследовании рассматриваются методы 4-битной квантизации, такие как GPTQ, в крупных языковых моделях (LLM), подчеркивая склонность GPTQ к переобучению и ограниченное улучшение в задачах Zero-Shot. В то время как предыдущие работы фокусировались исключительно на измерениях в режиме zero-shot, мы расширяем спектр задач до более генеративных категорий, таких как генерация кода и абстрактное суммирование, в которых обнаружили, что INT4-квантизация может значительно уступать по производительности. Однако переход к более высоким форматам точности, таким как FP6, оказался особенно сложным и часто игнорировался из-за низкой производительности, вызванной отсутствием сложной интеграции и стратегий ускорения на современном аппаратном обеспечении для ИИ. Наши результаты показывают, что FP6, даже с грубой схемой квантизации, демонстрирует устойчивую производительность в различных алгоритмах и задачах, подтверждая его превосходство в точности и универсальности. В частности, при использовании FP6-квантизации модель \codestar-15B показывает сопоставимые результаты с её FP16-аналогом в генерации кода, а для более мелких моделей, таких как 406M, она близка к их базовым показателям в задачах суммирования. Ничего подобного не удается достичь с INT4. Для лучшей адаптации к различному аппаратному обеспечению ИИ и достижения наилучшей системной производительности мы предлагаем новую 4+2 схему для FP6, которая обеспечивает задержку, сравнимую с современной INT4-квантизацией с мелкой гранулярностью. С нашей разработкой FP6 может стать перспективным решением для текущих методов 4-битной квантизации, используемых в LLM.
Модели вознаграждения играют ключевую роль в согласовании приложений языковых моделей с человеческими предпочтениями. Однако такая настройка создает стимул для языковой модели эксплуатировать ошибки в модели вознаграждения для достижения высокой оценки вознаграждения — явление, часто называемое "взломом вознаграждения". Естественным способом смягчения этой проблемы является обучение ансамбля моделей вознаграждения, агрегирующего выходы моделей для получения более устойчивой оценки вознаграждения. Мы исследуем применение ансамблей вознаграждения для согласования как на этапе обучения (через обучение с подкреплением), так и на этапе вывода (через переранжирование). Во-первых, мы показываем, что модели вознаграждения недостаточно специфицированы: модели, которые демонстрируют схожую производительность в рамках обучающего распределения, могут давать сильно различающиеся оценки вознаграждения при использовании для согласования из-за сдвига распределения. Во-вторых, недостаточная спецификация приводит к переоптимизации, при которой согласование с одной моделью вознаграждения не улучшает оценку вознаграждения, измеренную другой моделью, обученной на тех же данных. В-третьих, использование ансамблей моделей вознаграждения смягчает проблему переоптимизации, причем ансамбли, различающиеся начальными значениями для предварительного обучения, обеспечивают лучшее обобщение, чем ансамбли, различающиеся только начальными значениями для тонкой настройки, и оба типа ансамблей превосходят отдельные модели вознаграждения. Однако даже ансамбли моделей с предварительным обучением не устраняют полностью взлом вознаграждения: мы демонстрируем несколько качественных примеров взлома вознаграждения, которые не устраняются ансамблированием, поскольку все модели в ансамбле демонстрируют схожие паттерны ошибок.
Последние достижения в технологии генерации 3D-объектов из текстовых описаний значительно продвинули процесс преобразования текстовых описаний в воображаемые, геометрически точные и детально текстурированные 3D-модели. Однако, несмотря на эти успехи, распространённым ограничением является использование RGB-данных в диффузионных или реконструкционных моделях, что часто приводит к появлению моделей с эффектами освещения и теней, которые снижают их реалистичность и ограничивают их применимость в задачах, требующих точного переосвещения. Чтобы устранить этот пробел, мы представляем UniDream — фреймворк для генерации 3D-объектов из текста, основанный на объединённых диффузионных априорных данных. Наш подход включает три основных компонента: (1) двухэтапный процесс обучения для получения согласованных по альбедо и нормалям многовидовых диффузионных и реконструкционных моделей, (2) прогрессивную процедуру генерации геометрии и текстур альбедо на основе метода Score Distillation Sample (SDS) с использованием обученных реконструкционных и диффузионных моделей, и (3) инновационное применение SDS для финализации генерации PBR (физически корректного рендеринга) с сохранением фиксированного альбедо на основе модели Stable Diffusion. Результаты обширных экспериментов показывают, что UniDream превосходит существующие методы в создании 3D-объектов с более чёткими текстурами альбедо, гладкими поверхностями, повышенной реалистичностью и улучшенными возможностями переосвещения.
В данной работе мы представляем Vision-Language Generative Pre-trained Transformer (VL-GPT) — трансформерную модель, способную одновременно воспринимать и генерировать визуальные и лингвистические данные. VL-GPT реализует унифицированный подход к предварительному обучению для изображений и текста, используя простую авторегрессионную задачу, что позволяет модели обрабатывать изображения и текст так же естественно, как языковая модель обрабатывает текст. Для достижения этого мы сначала предлагаем новую архитектуру токенизатора-детокенизатора для визуальных данных, специально разработанную для преобразования исходных изображений в последовательность непрерывных эмбеддингов и их последующего восстановления. В сочетании с существующими токенизатором и детокенизатором для текста эта архитектура позволяет кодировать чередующиеся изображения и текст в мультимодальную последовательность, которая затем может быть подана в трансформерную модель. В результате VL-GPT может выполнять масштабное предварительное обучение на мультимодальных корпусах, используя унифицированную авторегрессионную задачу (т.е. предсказание следующего токена). После завершения предварительного обучения VL-GPT демонстрирует выдающуюся производительность в задачах нулевого и немногих примеров для широкого спектра задач понимания и генерации визуальных и текстовых данных, включая создание подписей к изображениям, визуальный вопросно-ответный анализ, генерацию изображений по тексту и многое другое. Кроме того, предобученная модель сохраняет способность к обучению в контексте при работе с мультимодальными запросами. Мы также проводим тонкую настройку инструкций для нашей VL-GPT, подчеркивая её исключительный потенциал для мультимодальной помощи. Исходный код и веса модели будут опубликованы.
Мы предлагаем новый фреймворк для прямого редактирования 3D-объектов под названием Shap-Editor. Предыдущие исследования в области редактирования 3D-объектов в основном сосредотачивались на редактировании отдельных объектов с использованием готовых сетей для редактирования 2D-изображений. Это достигается с помощью процесса, называемого дистилляцией, который переносит знания из 2D-сети в 3D-активы. Дистилляция требует как минимум десятков минут на каждый объект для достижения удовлетворительных результатов редактирования, что делает её не очень практичной. В отличие от этого, мы задаёмся вопросом, можно ли выполнять редактирование 3D-объектов напрямую с помощью прямой сети, избегая оптимизации во время тестирования. В частности, мы предполагаем, что редактирование может быть значительно упрощено, если сначала закодировать 3D-объекты в подходящем латентном пространстве. Мы проверяем эту гипотезу, основываясь на латентном пространстве Shap-E. Мы демонстрируем, что прямое редактирование 3D-объектов в этом пространстве возможно и эффективно, создавая прямую сеть для редактирования, которая требует всего около одной секунды на каждое изменение. Наши эксперименты показывают, что Shap-Editor хорошо обобщается как на объекты из распределения, так и на объекты вне распределения, с различными запросами, демонстрируя сопоставимую производительность с методами, которые выполняют оптимизацию во время тестирования для каждого редактируемого экземпляра.
Мы представляем семейство больших языковых моделей (LLM) TigerBot, включающее базовые и чат-модели с размерами от 7, 13, 70 до 180 миллиардов параметров. Наши модели разработаны на основе Llama-2 и BLOOM, и мы продвигаем границы возможностей в области данных, алгоритмов обучения, инфраструктуры и инструментов для приложений. Наши модели демонстрируют значительный прирост производительности по сравнению с современными открытыми моделями, такими как Llama-2, с улучшением на 6% для английского языка и на 20% для китайского. Семейство моделей TigerBot также достигает лидирующих результатов в основных академических и промышленных бенчмарках и рейтингах. Мы считаем, что TigerBot представляет собой лишь моментальный снимок стремительного прогресса в сообществе открытых LLM. Поэтому мы с радостью делимся нашими моделями, публично выпуская их и описывая наш подход, с особым акцентом на создание современных LLM в демократизированной манере и их применение в реальных задачах.