Ежедневно отобранные исследовательские статьи по ИИ с переводами
Одной из впечатляющих возникающих способностей крупных языковых моделей (LLM) является генерация кода, включая язык структурированных запросов (SQL) для баз данных. Для задачи преобразования текста на естественном языке в SQL-запросы, известной как Text-to-SQL, адаптация LLM имеет первостепенное значение как в контекстном обучении, так и в настройке с тонкой настройкой, в зависимости от объема используемых данных для адаптации. В данной статье мы предлагаем модель Text-to-SQL на основе LLM под названием SQL-PaLM, основанную на PaLM-2, которая устанавливает новый уровень в обеих настройках. Модель SQL-PaLM с использованием нескольких примеров основана на подходе к самосогласованному запросу, ориентированному на выполнение, специально разработанном для Text-to-SQL, и достигает 77,3% точности на тестовом наборе Spider, что, насколько нам известно, впервые значительно превосходит предыдущий уровень с тонкой настройкой на 4%. Более того, мы показываем, что тонко настроенная SQL-PaLM превосходит этот результат еще на 1%. Для применения SQL-PaLM в реальных сценариях мы дополнительно оцениваем ее устойчивость на других сложных вариантах Spider и демонстрируем превосходные обобщающие способности SQL-PaLM. Кроме того, с помощью обширных кейс-стади мы демонстрируем впечатляющие интеллектуальные возможности и различные факторы успеха LLM-моделей Text-to-SQL.
Модели диффузии для генерации изображений из текста способны создавать потрясающие изображения на основе естественных языковых описаний, которые могут соперничать с работами профессиональных художников и фотографов. Однако эти модели обладают большими размерами, сложной архитектурой сети и требуют десятков итераций для удаления шума, что делает их вычислительно затратными и медленными в работе. В результате для масштабированного использования моделей диффузии требуются высокопроизводительные графические процессоры и облачные вычисления. Это дорого и имеет последствия для конфиденциальности, особенно когда пользовательские данные передаются третьим сторонам. Чтобы преодолеть эти ограничения, мы представляем универсальный подход, который впервые позволяет запускать модели генерации изображений из текста на мобильных устройствах менее чем за 2 секунды. Мы достигаем этого за счет внедрения эффективной архитектуры сети и улучшения дистилляции шагов. В частности, мы предлагаем оптимизированную версию UNet, выявляя избыточность исходной модели и сокращая вычисления в декодере изображений с помощью дистилляции данных. Кроме того, мы улучшаем дистилляцию шагов, исследуя стратегии обучения и вводя регуляризацию на основе классификатора без управления. Наши обширные эксперименты на наборе данных MS-COCO показывают, что наша модель с 8 шагами удаления шума достигает лучших показателей FID и CLIP, чем Stable Diffusion v1.5 с 50 шагами. Наша работа демократизирует создание контента, предоставляя пользователям доступ к мощным моделям генерации изображений из текста.
Мы представляем Wuerstchen — новую методику синтеза изображений по тексту, которая сочетает конкурентоспособную производительность с беспрецедентной экономичностью и простотой обучения на ограниченных аппаратных ресурсах. Опираясь на последние достижения в области машинного обучения, наш подход, использующий стратегии латентной диффузии при высокой степени сжатия латентных изображений, значительно снижает вычислительную нагрузку, обычно связанную с передовыми моделями, сохраняя, а в некоторых случаях даже улучшая качество генерируемых изображений. Wuerstchen демонстрирует заметное ускорение на этапе вывода, что делает приложения в реальном времени более реалистичными. Одним из ключевых преимуществ нашего метода являются скромные требования к обучению — всего 9 200 GPU-часов, что значительно сокращает обычные затраты без ущерба для конечной производительности. В сравнении с современными решениями наш подход показал высокую конкурентоспособность. Эта работа открывает путь к новому направлению исследований, которое уделяет равное внимание как производительности, так и вычислительной доступности, тем самым демократизируя использование сложных технологий искусственного интеллекта. С помощью Wuerstchen мы демонстрируем значительный шаг вперед в области синтеза изображений по тексту, предлагая инновационный путь для изучения в будущих исследованиях.
Мы представляем GenMM, генеративную модель, которая "извлекает" максимально разнообразные движения из одного или нескольких примеров последовательностей. В отличие от существующих методов, основанных на данных, которые обычно требуют длительного времени для обучения, склонны к визуальным артефактам и часто не справляются с крупными и сложными скелетами, GenMM наследует отсутствие необходимости в обучении и превосходное качество известного метода Motion Matching. GenMM способна синтезировать высококачественное движение за доли секунды, даже для сложных и крупных скелетных структур. В основе нашей генеративной структуры лежит модуль генеративного сопоставления движений, который использует двунаправленное визуальное сходство в качестве генеративной функции стоимости для сопоставления движений и работает в многоэтапной структуре, постепенно уточняя случайное предположение с использованием примеров сопоставленных движений. Помимо генерации разнообразных движений, мы демонстрируем универсальность нашей генеративной структуры, расширяя её на ряд сценариев, которые невозможны при использовании только Motion Matching, включая завершение движений, генерацию на основе ключевых кадров, бесконечное зацикливание и пересборку движений. Код и данные для этой статьи доступны по адресу https://wyysf-98.github.io/GenMM/.
Современные подходы глубокого обучения обычно преобразуют входные данные в форму, специфичную для модальности. Например, наиболее распространенный подход глубокого обучения к классификации изображений предполагает декодирование байтов файла изображения в RGB-тензор, который передается в нейронную сеть. Вместо этого мы исследуем выполнение классификации непосредственно на байтах файлов, без необходимости декодирования файлов во время вывода. Использование байтов файлов в качестве входных данных модели позволяет разрабатывать модели, способные работать с несколькими входными модальностями. Наша модель, ByteFormer, достигает точности классификации Top-1 на ImageNet в 77,33% при обучении и тестировании непосредственно на байтах файлов TIFF с использованием трансформерной архитектуры, конфигурация которой аналогична DeiT-Ti (точность 72,2% при работе с RGB-изображениями). Без изменений или настройки гиперпараметров ByteFormer достигает точности классификации 95,42% при работе с WAV-файлами из набора данных Speech Commands v2 (по сравнению с современным уровнем точности 98,7%). Кроме того, мы демонстрируем, что ByteFormer имеет применение в задачах вывода с сохранением конфиденциальности. ByteFormer способен выполнять вывод на определенных зашифрованных входных представлениях без потери точности. Мы также демонстрируем способность ByteFormer выполнять вывод с использованием гипотетической камеры, сохраняющей конфиденциальность, которая избегает формирования полных изображений, постоянно маскируя 90% каналов пикселей, при этом достигая точности 71,35% на ImageNet. Наш код будет доступен по адресу https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
Модели диффузии для генерации изображений из текста продемонстрировали беспрецедентную способность создавать высококачественные и разнообразные изображения на основе текстовых концепций (например, "врач", "любовь"). Однако внутренний процесс преобразования текста в богатое визуальное представление остается загадкой. В данной работе мы решаем задачу понимания представления концепций в моделях генерации изображений из текста путем декомпозиции входного текстового запроса на небольшой набор интерпретируемых элементов. Это достигается за счет обучения псевдотокена, который представляет собой разреженную взвешенную комбинацию токенов из словаря модели, с целью реконструкции изображений, сгенерированных для данной концепции. Примененная к современной модели Stable Diffusion, эта декомпозиция выявляет нетривиальные и удивительные структуры в представлениях концепций. Например, мы обнаруживаем, что некоторые концепции, такие как "президент" или "композитор", доминируются конкретными примерами (например, "Обама", "Байден") и их интерполяциями. Другие концепции, такие как "счастье", объединяют связанные термины, которые могут быть конкретными ("семья", "смех") или абстрактными ("дружба", "эмоция"). Помимо изучения внутренних механизмов Stable Diffusion, наш метод также позволяет применять такие задачи, как декомпозиция одного изображения на токены, обнаружение и устранение смещений, а также семантическое манипулирование изображениями. Наш код будет доступен по адресу: https://hila-chefer.github.io/Conceptor/.
Создание яркого видео из события или сценария в нашем воображении — это поистине захватывающий опыт. Недавние достижения в области синтеза видео из текста раскрыли потенциал для реализации этого с использованием только текстовых подсказок. Хотя текст удобен для передачи общего контекста сцены, он может быть недостаточным для точного контроля. В данной работе мы исследуем персонализированную генерацию видео, используя текст как описание контекста и структуру движения (например, глубину по кадрам) в качестве конкретного руководства. Наш метод, названный Make-Your-Video, включает совместно-условную генерацию видео с использованием Latent Diffusion Model, которая предварительно обучена для синтеза статичных изображений, а затем адаптирована для генерации видео с введением временных модулей. Эта двухэтапная схема обучения не только сокращает требуемые вычислительные ресурсы, но и улучшает производительность за счет переноса богатых концепций из наборов данных изображений исключительно в генерацию видео. Более того, мы используем простую, но эффективную стратегию маскирования причинного внимания для синтеза более длинных видео, что эффективно смягчает потенциальное ухудшение качества. Экспериментальные результаты демонстрируют превосходство нашего метода над существующими базовыми подходами, особенно в плане временной согласованности и соответствия указаниям пользователя. Кроме того, наша модель позволяет реализовать несколько интересных приложений, демонстрирующих потенциал для практического использования.
Мы исследуем потенциал обучения визуальных представлений с использованием синтетических изображений, сгенерированных моделями преобразования текста в изображение. Этот вопрос естественно возникает в свете выдающейся производительности таких моделей в создании высококачественных изображений. В частности, мы рассматриваем Stable Diffusion — одну из ведущих открытых моделей преобразования текста в изображение. Мы показываем, что (1) при правильной настройке генеративной модели с использованием масштаба классификатор-свободного управления, обучение методов самоконтроля на синтетических изображениях может соответствовать или превосходить результаты, полученные на реальных изображениях; (2) рассматривая несколько изображений, сгенерированных из одного текстового запроса, как позитивные примеры друг для друга, мы разрабатываем метод контрастного обучения с множеством позитивных примеров, который мы называем StableRep. Используя исключительно синтетические изображения, представления, изученные StableRep, превосходят по производительности представления, изученные SimCLR и CLIP, на основе одного и того же набора текстовых запросов и соответствующих реальных изображений, на крупномасштабных наборах данных. При добавлении языкового контроля, StableRep, обученный на 20 миллионах синтетических изображений, достигает более высокой точности, чем CLIP, обученный на 50 миллионах реальных изображений.
Персонализированная генерация изображений из текста с использованием диффузионных моделей недавно была предложена и привлекла значительное внимание. Имея небольшое количество изображений, содержащих новый концепт (например, уникальную игрушку), мы стремимся настроить генеративную модель для захвата тонких визуальных деталей этого концепта и создания фотореалистичных изображений в соответствии с текстовым условием. Мы представляем метод под названием ViCo, который является быстрым и легковесным решением для персонализированной генерации. В частности, мы предлагаем модуль внимания на изображениях для учета семантики визуальных патчей в процессе диффузии. Мы вводим маску объекта на основе внимания, которая практически не требует дополнительных затрат благодаря модулю внимания. Кроме того, мы разрабатываем простую регуляризацию, основанную на внутренних свойствах карт внимания текст-изображение, чтобы уменьшить типичное ухудшение из-за переобучения. В отличие от многих существующих моделей, наш метод не требует тонкой настройки параметров исходной диффузионной модели. Это обеспечивает более гибкое и переносимое развертывание модели. При обучении всего лишь небольшого количества параметров (~6% от U-Net в диффузионной модели) наш метод демонстрирует сопоставимую или даже лучшую производительность по сравнению со всеми современными моделями как качественно, так и количественно.
Самообучение (SSL) недавно стало перспективной парадигмой для обучения обобщаемых моделей на больших объемах данных в областях зрения, текста и речи. Хотя SSL доказало свою эффективность в обработке речи и аудио, его применение к музыкальным аудиоданным еще не было тщательно исследовано. Это связано в первую очередь с уникальными задачами, связанными с моделированием музыкальных знаний, особенно тональных и высотных характеристик музыки. Чтобы восполнить этот пробел в исследованиях, мы предлагаем акустическую модель понимания музыки с крупномасштабным самообучением (MERT), которая использует модели-учителя для предоставления псевдометок в рамках акустического предобучения в стиле маскированного языкового моделирования (MLM). В ходе исследования мы определили оптимальную комбинацию моделей-учителей, которая превосходит традиционные подходы для речи и аудио по производительности. Эта комбинация включает акустического учителя на основе Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) и музыкального учителя на основе Constant-Q Transform (CQT). Эти учителя эффективно направляют нашу модель-ученика, трансформерный кодировщик в стиле BERT, для лучшего моделирования музыкальных аудиоданных. Кроме того, мы вводим аугментацию с использованием внутрибатчевого смешивания шумов для повышения устойчивости представлений. Также мы исследуем широкий спектр настроек, чтобы преодолеть нестабильность в предобучении акустических языковых моделей, что позволяет нашей разработанной парадигме масштабироваться от 95 млн до 330 млн параметров. Экспериментальные результаты показывают, что наша модель способна обобщать и хорошо справляться с 14 задачами понимания музыки, достигая наивысших общих показателей (SOTA). Код и модели доступны по адресу: https://github.com/yizhilll/MERT.
Существует высокая потребность в настройке предобученных крупных моделей для генерации изображений из текста, таких как Stable Diffusion, для создания инновационных концепций, например, изображений самих пользователей. Однако новые концепции, добавленные с помощью предыдущих методов настройки, часто демонстрируют более слабую способность к комбинированию по сравнению с оригинальными, даже при наличии нескольких изображений во время обучения. Мы предлагаем новый метод персонализации, который позволяет бесшовно интегрировать уникальную личность в предобученную диффузионную модель, используя всего одну фотографию лица и всего 1024 обучаемых параметра менее чем за 3 минуты. Это позволяет нам легко генерировать потрясающие изображения этого человека в любых позах и положениях, взаимодействующего с кем угодно и выполняющего любые действия, описанные в текстовых запросах. Для достижения этого мы сначала анализируем и создаем четко определенную базу знаменитостей из пространства эмбеддингов предобученного крупного текстового энкодера. Затем, используя одну фотографию лица в качестве целевой идентичности, мы генерируем её собственный эмбеддинг, оптимизируя вес этой базы и фиксируя все остальные параметры. Благодаря предложенной базе знаменитостей, новая идентичность в нашей настроенной модели демонстрирует лучшую способность к комбинированию концепций по сравнению с предыдущими методами персонализации. Кроме того, наша модель также может одновременно изучать несколько новых идентичностей и взаимодействовать между собой, что недоступно для предыдущих моделей настройки. Код будет опубликован.
Крупномасштабные генеративные модели способны создавать высококачественные изображения на основе детальных текстовых описаний. Однако многие аспекты изображения сложно или невозможно передать через текст. Мы представляем метод самоконтроля, который обеспечивает более точное управление генерируемыми изображениями, направляя внутренние представления диффузионных моделей. Мы демонстрируем, что такие свойства, как форма, расположение и внешний вид объектов, могут быть извлечены из этих представлений и использованы для управления процессом сэмплирования. Самоконтроль работает аналогично управлению с помощью классификатора, но использует сигналы, присутствующие в самой предобученной модели, не требуя дополнительных моделей или обучения. Мы показываем, как простой набор свойств может быть объединен для выполнения сложных манипуляций с изображениями, таких как изменение положения или размера объектов, объединение внешнего вида объектов из одного изображения с композицией другого, сборка объектов из множества изображений в одно и многое другое. Мы также демонстрируем, что самоконтроль может быть использован для редактирования реальных изображений. Для результатов и интерактивной демонстрации посетите нашу страницу проекта: https://dave.ml/selfguidance/.
Крупные языковые модели, основанные на архитектуре трансформеров, достигли значительных эмпирических успехов. Однако по мере их более широкого внедрения возникает растущая необходимость лучше понять их внутренние механизмы, чтобы сделать их более надежными. Эти модели, по-видимому, хранят огромные объемы знаний из своих обучающих данных и быстро адаптируются к новой информации, предоставляемой в их контексте или промпте. Мы исследуем, как трансформеры балансируют эти два типа знаний, рассматривая синтетическую установку, в которой токены генерируются либо из глобальных, либо из контекстно-зависимых биграммных распределений. С помощью тщательного эмпирического анализа процесса обучения на упрощенном двухслойном трансформере мы демонстрируем быстрое усвоение глобальных биграмм и более медленное развитие механизма "индукционной головы" для контекстных биграмм. Мы подчеркиваем роль матриц весов как ассоциативной памяти, предоставляем теоретические инсайты о том, как градиенты обеспечивают их обучение в процессе тренировки, и изучаем влияние свойств распределения данных.
Генерация музыки из текстовых описаний представляет собой удобный для пользователя подход, поскольку текст является относительно простым интерфейсом для взаимодействия. Хотя некоторые методы используют тексты для управления генерацией музыкального аудио, редактирование музыкальных элементов в сгенерированном аудио остается сложной задачей для пользователей. В отличие от этого, символическая музыка обеспечивает легкость редактирования, что делает ее более доступной для манипуляции конкретными музыкальными элементами. В данной статье мы предлагаем MuseCoco, который генерирует символическую музыку из текстовых описаний, используя музыкальные атрибуты в качестве связующего звена для разделения задачи на этапы понимания текста в атрибуты и генерации музыки из атрибутов. MuseCoco (Music Composition Copilot) позволяет музыкантам создавать музыку непосредственно из заданных текстовых описаний, что значительно повышает эффективность по сравнению с созданием музыки с нуля. Система имеет два основных преимущества: во-первых, она эффективно использует данные. На этапе генерации музыки из атрибутов атрибуты могут быть напрямую извлечены из музыкальных последовательностей, что делает обучение модели самообучаемым. На этапе понимания текста в атрибуты текст синтезируется и уточняется ChatGPT на основе заданных шаблонов атрибутов. Во-вторых, система обеспечивает точный контроль с использованием конкретных атрибутов в текстовых описаниях и предлагает множество вариантов управления через подходы, основанные на атрибутах или тексте. MuseCoco превосходит базовые системы по музыкальности, управляемости и общему баллу как минимум на 1.27, 1.08 и 1.32 соответственно. Кроме того, наблюдается заметное улучшение точности объективного контроля примерно на 20%. Дополнительно мы разработали мощную крупномасштабную модель с 1.2 миллиардами параметров, демонстрирующую исключительную управляемость и музыкальность.
Интеллектуальная обработка кода играет ключевую роль в преобразовании современной разработки программного обеспечения. В последнее время модели на основе глубокого обучения, особенно крупные языковые модели (LLM) на базе архитектуры Transformer, продемонстрировали значительный потенциал в решении таких задач, используя огромные объемы открытых данных кода и особенности языков программирования. Однако разработка и внедрение таких моделей часто требуют экспертных знаний как в области машинного обучения, так и в разработке программного обеспечения, что создает барьер для их широкого применения. В данной статье мы представляем CodeTF — открытую библиотеку на основе Transformer для современных LLM, ориентированных на код, и интеллектуальной обработки кода. Следуя принципам модульного дизайна и расширяемой архитектуры, мы разработали CodeTF с унифицированным интерфейсом, позволяющим быстро получать доступ и разрабатывать различные типы моделей, наборы данных и задачи. Наша библиотека поддерживает набор предобученных моделей LLM для кода и популярные бенчмарки, включая стандартизированный интерфейс для эффективного обучения и обслуживания таких моделей, а также функции данных, такие как языково-специфичные парсеры и утилиты для извлечения атрибутов кода. В статье мы описываем принципы проектирования, архитектуру, ключевые модули и компоненты, а также проводим сравнение с другими аналогичными библиотечными инструментами. В заключение мы надеемся, что CodeTF сможет сократить разрыв между машинным обучением/генеративным ИИ и разработкой программного обеспечения, предоставив комплексное открытое решение для разработчиков, исследователей и практиков.
Текст-условные диффузионные модели способны генерировать изображения высокой четкости с разнообразным содержанием. Однако лингвистические представления часто демонстрируют неоднозначные описания целевых образов, что требует включения дополнительных управляющих сигналов для повышения эффективности текстово-управляемых диффузионных моделей. В данной работе мы предлагаем Cocktail — конвейер для смешивания различных модальностей в одно встраивание, объединенное с обобщенным ControlNet (gControlNet), управляемой нормализацией (ControlNorm) и методом пространственного направленного сэмплирования, чтобы реализовать многомодальное и пространственно-уточненное управление для текст-условных диффузионных моделей. В частности, мы представляем гиперсеть gControlNet, предназначенную для согласования и внедрения управляющих сигналов из различных модальностей в предварительно обученную диффузионную модель. gControlNet способен принимать гибкие сигналы модальностей, включая одновременное получение любой комбинации сигналов или дополнительное слияние нескольких сигналов модальностей. Затем управляющие сигналы объединяются и внедряются в основную модель в соответствии с предложенной нами ControlNorm. Кроме того, наш усовершенствованный метод пространственного направленного сэмплирования эффективно интегрирует управляющий сигнал в заданную область, тем самым предотвращая появление нежелательных объектов в сгенерированном изображении. Мы демонстрируем результаты нашего метода в управлении различными модальностями, подтверждая высокое качество синтеза и соответствие множеству внешних сигналов.
Мы представляем ObjectFolder Benchmark — набор из 10 задач для мультисенсорного объектно-ориентированного обучения, сосредоточенных на распознавании, реконструкции и манипуляции объектами с использованием зрения, слуха и осязания. Также мы представляем набор данных ObjectFolder Real, включающий мультисенсорные измерения для 100 реальных бытовых объектов, созданный на основе новой методики сбора 3D-моделей, видео, звуков ударов и тактильных показаний реальных объектов. Мы проводим систематическое тестирование как на 1 000 мультисенсорных нейронных объектах из ObjectFolder, так и на реальных мультисенсорных данных из ObjectFolder Real. Наши результаты демонстрируют важность мультисенсорного восприятия и раскрывают роли зрения, звука и осязания в различных объектно-ориентированных задачах. Публикуя наш набор данных и набор тестов, мы надеемся стимулировать и поддержать новые исследования в области мультисенсорного объектно-ориентированного обучения в компьютерном зрении, робототехнике и других областях. Страница проекта: https://objectfolder.stanford.edu
Методы, основанные на диффузионных моделях, показали перспективность в планировании на основе данных, однако они не обеспечивают гарантий безопасности, что затрудняет их применение в критически важных для безопасности задачах. Для решения этих проблем мы предлагаем новый метод под названием SafeDiffuser, который обеспечивает выполнение спецификаций для диффузионных вероятностных моделей с использованием класса функций управляющих барьеров. Основная идея нашего подхода заключается во внедрении предложенной инвариантности диффузии за конечное время в процедуру денойзинга диффузии, что позволяет генерировать достоверные данные. Более того, мы демонстрируем, что наш метод инвариантности диффузии за конечное время через генеративные модели не только сохраняет обобщающую способность, но и обеспечивает устойчивость в генерации безопасных данных. Мы тестируем наш метод на ряде задач безопасного планирования, включая генерацию путей в лабиринтах, передвижение шагающих роботов и манипуляции в трехмерном пространстве, и результаты показывают преимущества в устойчивости и гарантиях по сравнению с базовыми диффузионными моделями.
Трансформеры играют ключевую роль в последних достижениях в области обработки естественного языка и компьютерного зрения. Трансформеры имеют в основном однородную архитектуру, где слои чередуются между полносвязными и слоями самовнимания для построения глубокой сети. В данной работе мы исследуем этот выбор архитектуры и обнаруживаем, что более сложные блоки с различными комбинациями базовых слоев могут быть более эффективными. Используя это наблюдение, мы разрабатываем сложный блок под названием Brainformer, который состоит из разнообразных слоев, таких как разреженно управляемые полносвязные слои, плотные полносвязные слои, слои внимания, а также различные формы нормализации слоев и функций активации. Brainformer стабильно превосходит современные плотные и разреженные трансформеры как по качеству, так и по эффективности. Модель Brainformer с 8 миллиардами активируемых параметров на токен демонстрирует в 2 раза более быструю сходимость при обучении и в 5 раз более быстрое время выполнения шага по сравнению с аналогом GLaM. В оценке на задачах дообучения Brainformer также показывает на 3% более высокий результат на тесте SuperGLUE по сравнению с GLaM при схожем количестве активируемых параметров. Наконец, Brainformer значительно превосходит плотную модель Primer, полученную с помощью нейроархитектурного поиска (NAS), при схожих вычислительных затратах на токен в задачах немногих примеров (few-shot).