Ежедневно отобранные исследовательские статьи по ИИ с переводами
Amphion — это инструментарий для генерации аудио, музыки и речи. Его цель — поддерживать воспроизводимые исследования и помогать начинающим исследователям и инженерам начать работу в области исследований и разработок, связанных с генерацией аудио, музыки и речи. Amphion предлагает уникальную функцию: визуализации классических моделей или архитектур. Мы считаем, что эти визуализации полезны для начинающих исследователей и инженеров, которые хотят лучше понять модель. Основная цель Amphion — предоставить платформу для изучения преобразования любых входных данных в общее аудио. Amphion разработан для поддержки отдельных задач генерации. Помимо конкретных задач генерации, Amphion также включает несколько вокодеров и метрик оценки. Вокодер — это важный модуль для создания высококачественных аудиосигналов, а метрики оценки критически важны для обеспечения согласованности показателей в задачах генерации. В этой статье мы предоставляем общий обзор Amphion.
Ответы на сложные вопросы на естественном языке часто требуют многошагового рассуждения и интеграции внешней информации. Несколько систем уже объединили поиск знаний с большой языковой моделью (LLM) для решения таких задач. Однако эти системы сталкиваются с различными случаями сбоев, и мы не можем напрямую обучать их сквозным образом для устранения таких проблем, поскольку взаимодействие с внешними знаниями не является дифференцируемым. Чтобы устранить эти недостатки, мы определяем LLM-агента в стиле ReAct, способного рассуждать и действовать на основе внешних знаний. Мы дополнительно улучшаем агента с помощью метода, подобного ReST, который итеративно обучается на предыдущих траекториях, используя обучение с подкреплением с растущим пакетом и обратной связью от ИИ для непрерывного самосовершенствования и само-дистилляции. Начиная с подсказанной большой модели и всего после двух итераций алгоритма, мы можем создать тонко настроенную небольшую модель, которая демонстрирует сопоставимую производительность на сложных композиционных тестах по ответам на вопросы, используя на два порядка меньше параметров.
Диффузионные модели продемонстрировали впечатляющие успехи в различных генеративных задачах, однако их потенциал в важной и сложной области создания выразительных говорящих голов остается недостаточно изученным. В данной работе мы предлагаем фреймворк DreamTalk, который призван заполнить этот пробел, используя тщательно продуманный дизайн для раскрытия возможностей диффузионных моделей в генерации выразительных говорящих голов. В частности, DreamTalk состоит из трех ключевых компонентов: сети для удаления шума, эксперта по губам с учетом стиля и предсказателя стиля. Диффузионная сеть для удаления шума способна стабильно синтезировать высококачественные движения лица, управляемые аудио, для различных выражений. Для повышения выразительности и точности движений губ мы вводим эксперта по губам с учетом стиля, который может направлять синхронизацию губ, учитывая при этом стиль речи. Чтобы устранить необходимость в эталонном видео или тексте для выражения, используется дополнительный диффузионный предсказатель стиля, который предсказывает целевое выражение непосредственно из аудио. Таким образом, DreamTalk может эффективно использовать мощные диффузионные модели для генерации выразительных лиц и снижать зависимость от дорогостоящих эталонов стиля. Экспериментальные результаты показывают, что DreamTalk способен создавать фотореалистичные говорящие лица с разнообразными стилями речи и достигать точных движений губ, превосходя существующие передовые аналоги.
Модель Segment Anything Model (SAM) решает две практические, но сложные задачи сегментации: сегментация любого объекта (SegAny), которая использует определённую точку для предсказания маски одного интересующего объекта, и сегментация всех объектов (SegEvery), которая предсказывает маски для всех объектов на изображении. Что делает SegAny медленной для SAM, так это её тяжёлый кодировщик изображений, что было решено в MobileSAM с помощью разделённого дистилляции знаний. Однако узким местом в эффективности SegEvery для SAM является декодер масок, поскольку ему сначала необходимо сгенерировать множество масок с избыточными запросами методом сеточного поиска, а затем выполнить фильтрацию для получения окончательных валидных масок. Мы предлагаем улучшить её эффективность, напрямую генерируя финальные маски только с валидными запросами, которые могут быть получены через обнаружение объектов. Наш подход не только помогает сократить общее время работы декодера масок как минимум в 16 раз, но и обеспечивает превосходную производительность. В частности, наш подход даёт средний прирост производительности на 3.6\% (42.5\% против 38.9\%) для задачи zero-shot предложения объектов на наборе данных LVIS с метрикой mask AR@K. Качественные результаты показывают, что наш подход генерирует детализированные маски, избегая избыточной сегментации объектов. Этот проект, направленный на ускорение SegEvery по сравнению с оригинальной SAM, назван MobileSAMv2, чтобы отличать его от MobileSAM, который нацелен на ускорение SegAny. Более того, мы демонстрируем, что наш новый метод выборки запросов также совместим с дистиллированными кодировщиками изображений в MobileSAM, что способствует созданию унифицированной структуры для эффективных SegAny и SegEvery. Код доступен по той же ссылке, что и проект MobileSAM: https://github.com/ChaoningZhang/MobileSAM.
Данная работа не ставит своей целью поиск инноваций в механизме внимания. Вместо этого она сосредоточена на преодолении существующих компромиссов между точностью и эффективностью в контексте обработки облаков точек, используя преимущества масштабирования. Вдохновляясь последними достижениями в области обучения крупномасштабных 3D-представлений, мы признаем, что производительность модели в большей степени зависит от масштаба, чем от сложности конструкции. Поэтому мы представляем Point Transformer V3 (PTv3), который отдает приоритет простоте и эффективности перед точностью определенных механизмов, незначительно влияющих на общую производительность после масштабирования, таких как замена точного поиска соседей с помощью KNN на эффективное серийное отображение соседей для облаков точек, организованных по определенным шаблонам. Этот принцип позволяет значительно увеличить масштаб, расширяя рецептивное поле с 16 до 1024 точек, сохраняя при этом высокую эффективность (увеличение скорости обработки в 3 раза и улучшение эффективности использования памяти в 10 раз по сравнению с предшественником, PTv2). PTv3 достигает наилучших результатов на более чем 20 задачах, охватывающих как внутренние, так и внешние сценарии. Дополнительно улучшенный совместным обучением на нескольких наборах данных, PTv3 поднимает эти результаты на новый уровень.
Одним из ключевых компонентов в диффузионных моделях является UNet для предсказания шума. Хотя в нескольких работах были изучены базовые свойства декодера UNet, его энкодер остается в значительной степени неисследованным. В данной работе мы проводим первое всестороннее исследование энкодера UNet. Мы эмпирически анализируем особенности энкодера и предоставляем важные инсайты относительно их изменений в процессе вывода. В частности, мы обнаруживаем, что особенности энкодера изменяются плавно, тогда как особенности декодера демонстрируют значительные вариации на разных временных шагах. Это наблюдение вдохновило нас на то, чтобы исключить энкодер на определенных смежных временных шагах и повторно использовать особенности энкодера с предыдущих шагов для декодера. Основываясь на этом наблюдении, мы вводим простую, но эффективную схему распространения энкодера для ускорения выборки диффузии в различных задачах. Благодаря нашей схеме распространения, мы можем параллельно выполнять декодер на определенных смежных временных шагах. Кроме того, мы представляем метод инъекции предварительного шума для улучшения текстурных деталей в генерируемом изображении. Помимо стандартной задачи текстового описания в изображение, мы также проверяем наш подход на других задачах: текстовое описание в видео, персонализированная генерация и генерация с использованием референсов. Без использования каких-либо методов дистилляции знаний наш подход ускоряет выборку моделей Stable Diffusion (SD) и DeepFloyd-IF на 41% и 24% соответственно, сохраняя при этом высокое качество генерации. Наш код доступен по адресу https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}.
Трансформерные модели больших языковых моделей (LLM) часто накладывают ограничения на длину входного текста, чтобы обеспечить генерацию беглых и релевантных ответов. Это ограничение снижает их применимость в сценариях, связанных с обработкой длинных текстов. Мы предлагаем новый метод семантического сжатия, который позволяет обобщать тексты, в 6-8 раз превышающие стандартные ограничения, без значительных вычислительных затрат или необходимости дообучения. Наш подход вдохновлен теорией кодирования источников и использует предобученную модель для уменьшения семантической избыточности длинных входных данных перед их передачей в LLM для выполнения последующих задач. Экспериментальные результаты показывают, что наш метод эффективно расширяет контекстное окно LLM для различных задач, включая ответы на вопросы, суммаризацию, обучение с малым количеством примеров и информационный поиск. Кроме того, предложенный метод семантического сжатия демонстрирует стабильную беглость в генерации текста, одновременно снижая связанные с этим вычислительные затраты.
Мы показываем, что существующие неконтролируемые методы, работающие с активациями больших языковых моделей (LLM), не обнаруживают знания — вместо этого они, по-видимому, выявляют наиболее заметные особенности активаций. Идея, лежащая в основе неконтролируемого извлечения знаний, заключается в том, что знание обладает структурой согласованности, которую можно использовать для его обнаружения. Сначала мы теоретически доказываем, что произвольные особенности (не только знание) удовлетворяют структуре согласованности, используемой в одном из ведущих неконтролируемых методов извлечения знаний — контрастно-согласованном поиске (Burns et al. - arXiv:2212.03827). Затем мы представляем серию экспериментов, демонстрирующих ситуации, в которых неконтролируемые методы приводят к созданию классификаторов, которые предсказывают не знание, а другую заметную особенность. Мы делаем вывод, что существующие неконтролируемые методы для обнаружения скрытых знаний недостаточны, и предлагаем проверки, которые следует применять для оценки будущих методов извлечения знаний. Концептуально мы предполагаем, что проблемы идентификации, рассмотренные здесь, например, различение знаний модели и знаний симулированного персонажа, сохранятся и для будущих неконтролируемых методов.
Метод Score Distillation Sampling (SDS) продемонстрировал выдающиеся результаты в условной генерации 3D-контента. Однако полное понимание формулировки SDS до сих пор отсутствует, что сдерживает развитие 3D-генерации. В данной работе мы предлагаем интерпретацию SDS как комбинации трех функциональных компонентов: терминов, отвечающих за разделение мод, поиск мод и уменьшение дисперсии, и анализируем свойства каждого из них. Мы показываем, что такие проблемы, как излишняя сглаженность и насыщенность цветов, возникают из-за внутренних недостатков терминов супервизии, и выявляем, что введенный SDS термин уменьшения дисперсии является субоптимальным. Кроме того, мы проливаем свет на использование большого масштаба Classifier-Free Guidance (CFG) для 3D-генерации. На основе проведенного анализа мы предлагаем простой, но эффективный подход под названием Stable Score Distillation (SSD), который стратегически организует каждый термин для генерации высококачественного 3D-контента. Многочисленные эксперименты подтверждают эффективность нашего подхода, демонстрируя его способность создавать высококачественный 3D-контент без проблем, таких как излишняя сглаженность и перенасыщенность, даже при низких значениях CFG и использовании наиболее сложного представления NeRF.
Нейронные поля излучения (NeRF) и их варианты недавно стали успешными методами для синтеза новых видов и реконструкции 3D-сцен. Однако большинство современных моделей NeRF либо достигают высокой точности за счет больших размеров модели, либо обеспечивают высокую эффективность использования памяти за счет снижения точности. Это ограничивает область применения любой отдельной модели, поскольку высокоточные модели могут не поместиться в устройства с ограниченной памятью, а модели с высокой эффективностью использования памяти могут не удовлетворять требованиям к качеству. В связи с этим мы представляем SlimmeRF — модель, которая позволяет мгновенно регулировать компромисс между размером модели и точностью во время тестирования за счет "упрощения", что делает модель одновременно подходящей для сценариев с различными вычислительными бюджетами. Мы достигаем этого с помощью нового алгоритма под названием Тензорное Увеличение Ранга (Tensorial Rank Incrementation, TRaIn), который постепенно увеличивает ранг тензорного представления модели в процессе обучения. Мы также наблюдаем, что наша модель позволяет более эффективно регулировать компромиссы в сценариях с ограниченным количеством видов, иногда даже достигая более высокой точности после упрощения. Мы связываем это с тем, что ошибочная информация, такая как артефакты, обычно хранится в компонентах, соответствующих более высоким рангам. Наша реализация доступна по адресу https://github.com/Shiran-Yuan/SlimmeRF.
Высококачественные диалоговые наборы данных крайне важны для разработки ИИ-моделей, способных эффективно взаимодействовать с пользователями. Одним из способов углубления взаимодействия между чат-ботом и пользователем является использование персонажей — аспектов личности пользователя, которые дают представление о его характере, мотивах и поведении. Обучение моделей обработки естественного языка (NLP) на разнообразных и всесторонних наборах данных, основанных на персонажах, может привести к созданию диалоговых моделей, которые устанавливают более глубокую связь с пользователем и поддерживают его вовлеченность. В данной работе мы используем возможности крупных языковых моделей (LLM) для создания обширного и качественного диалогового набора данных на основе начального набора. Мы предлагаем архитектурный фреймворк "Генератор-Критик" для расширения исходного набора данных с одновременным улучшением качества диалогов. Генератор представляет собой LLM, которая генерирует диалоги. Критик состоит из ансамбля экспертных LLM, которые контролируют качество сгенерированных диалогов. Эти эксперты выбирают лучшие сгенерированные диалоги, которые затем используются для улучшения Генератора. Мы представляем Synthetic-Persona-Chat, состоящий из 20 тысяч диалогов, созданных на основе Persona-Chat. Мы оцениваем качество Synthetic-Persona-Chat и нашего фреймворка генерации по различным параметрам в ходе обширных экспериментов и наблюдаем, что уровень проигрыша Synthetic-Persona-Chat по сравнению с Persona-Chat в тесте Тьюринга снижается с 17,2% до 8,8% за три итерации.
Цель этой серии — зафиксировать мнения и актуальные вопросы в области машинного обучения, какими они являются сегодня и как они будут меняться со временем. Планируется проводить этот опрос периодически вплоть до наступления апокалипсиса, вызванного одержимостью искусственного интеллекта созданием скрепок, поддерживая актуальный список ключевых вопросов и опрашивая новых представителей сообщества для каждого выпуска. В этом номере мы исследовали мнения людей о интерпретируемости ИИ, ценности бенчмаркинга в современной обработке естественного языка, состоянии прогресса в понимании глубокого обучения и будущем академической науки.