Ежедневно отобранные исследовательские статьи по ИИ с переводами
Денойзинговые диффузионные вероятностные модели (DDPM) продемонстрировали перспективные результаты в синтезе речи. Однако для достижения высокого качества образцов требуется большое количество итеративных шагов, что ограничивает скорость вывода. Сохранение качества образцов при увеличении скорости выборки стало сложной задачей. В данной статье мы предлагаем метод синтеза речи на основе "Co"nsistency "Mo"del, CoMoSpeech, который позволяет синтезировать речь за один шаг диффузионной выборки, сохраняя при этом высокое качество звука. Ограничение согласованности применяется для дистилляции модели согласованности из хорошо разработанной диффузионной модели-учителя, что в конечном итоге обеспечивает превосходные результаты в дистиллированном CoMoSpeech. Наши эксперименты показывают, что при генерации аудиозаписей за один шаг выборки CoMoSpeech достигает скорости вывода более чем в 150 раз быстрее реального времени на одном GPU NVIDIA A100, что сопоставимо с FastSpeech2, делая синтез речи на основе диффузионной выборки действительно практичным. В то же время объективные и субъективные оценки синтеза речи и пения показывают, что предложенные модели-учители обеспечивают наилучшее качество звука, а CoMoSpeech с одношаговой выборкой достигает наилучшей скорости вывода с качеством звука, которое лучше или сопоставимо с другими традиционными многошаговыми диффузионными моделями. Аудиообразцы доступны по адресу https://comospeech.github.io/.
Мы представляем Region-aware Open-vocabulary Vision Transformers (RO-ViT) — метод контрастивного предобучения на основе изображений и текста, призванный сократить разрыв между предобучением на уровне изображений и открытым словарным детектированием объектов. На этапе предобучения мы предлагаем случайным образом обрезать и изменять размер областей позиционных эмбеддингов вместо использования эмбеддингов для всего изображения. Это лучше согласуется с использованием позиционных эмбеддингов на уровне регионов на этапе тонкой настройки для детектирования. Кроме того, мы заменяем стандартную функцию потерь на основе softmax и кросс-энтропии в контрастивном обучении на фокальную потерь, чтобы лучше учитывать информативные, но сложные примеры. Наконец, мы используем последние достижения в области предложений новых объектов для улучшения тонкой настройки открытого словарного детектирования. Мы оцениваем нашу полную модель на бенчмарках открытого словарного детектирования LVIS и COCO, а также на задачах zero-shot переноса. RO-ViT достигает нового рекорда в 32.1 AP_r на LVIS, превосходя лучший существующий подход на +5.8 пунктов, а также демонстрирует конкурентоспособные результаты в zero-shot детектировании. Удивительно, но RO-ViT также улучшает представление на уровне изображений и устанавливает новый стандарт на 9 из 12 метрик на бенчмарках COCO и Flickr для поиска соответствий между изображениями и текстом, превосходя конкурирующие подходы с более крупными моделями.
Универсальные языковые модели, способные решать различные задачи в области обработки естественного языка, появились благодаря использованию конвейера предварительного обучения и настройки на инструкциях. Однако создание универсальных моделей для обработки визуально-языковых данных является более сложной задачей из-за увеличения различий между задачами, вызванного дополнительным визуальным вводом. Хотя предварительное обучение для визуально-языковых моделей широко изучалось, настройка на инструкциях в этой области остается менее исследованной. В данной работе мы проводим систематическое и всестороннее исследование настройки на инструкциях для визуально-языковых моделей на основе предварительно обученных моделей BLIP-2. Мы собираем 26 общедоступных наборов данных, преобразуем их в формат для настройки на инструкциях и разделяем на две группы: для настройки на инструкциях и для оценки с нулевым обучением. Кроме того, мы представляем метод извлечения визуальных признаков, учитывающих инструкции, который позволяет модели извлекать информативные признаки, адаптированные к конкретной инструкции. Полученные модели InstructBLIP демонстрируют наилучшие результаты с нулевым обучением на всех 13 наборах данных, значительно превосходя BLIP-2 и более крупную модель Flamingo. Наши модели также показывают наилучшие результаты при дообучении на отдельных задачах (например, 90,7% точности на ScienceQA IMG). Кроме того, мы качественно демонстрируем преимущества InstructBLIP по сравнению с современными мультимодальными моделями. Все модели InstructBLIP были опубликованы в открытом доступе по адресу https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
Мы представляем новый подход, который использует предварительные знания, заложенные в предобученных моделях диффузии для генерации изображений из текста, для задачи слепого сверхвысокого разрешения (SR). В частности, с помощью нашего временно-ориентированного кодера мы достигаем впечатляющих результатов восстановления без изменения предобученной модели синтеза, тем самым сохраняя генеративный приоритет и минимизируя затраты на обучение. Для устранения потери точности, вызванной внутренней стохастичностью моделей диффузии, мы вводим управляемый модуль обертывания признаков, который позволяет пользователям балансировать между качеством и точностью, просто регулируя скалярное значение в процессе вывода. Кроме того, мы разрабатываем стратегию прогрессивной агрегации выборки, чтобы преодолеть ограничения по размеру, присущие предобученным моделям диффузии, что позволяет адаптироваться к разрешениям любого размера. Комплексная оценка нашего метода с использованием как синтетических, так и реальных тестовых данных демонстрирует его превосходство над современными передовыми подходами.
Трансформеры для обработки изображений демонстрируют выдающиеся результаты благодаря своим высоким модельным возможностям. Однако их впечатляющая производительность сопровождается значительными вычислительными затратами, что делает их непригодными для приложений реального времени. В данной статье мы предлагаем семейство высокоскоростных трансформеров для обработки изображений под названием EfficientViT. Мы обнаружили, что скорость существующих моделей трансформеров часто ограничивается операциями с неэффективным использованием памяти, особенно переформатированием тензоров и поэлементными функциями в MHSA (Multi-Head Self-Attention). Поэтому мы разработали новый строительный блок с сэндвич-структурой, где используется единственная операция MHSA, ограниченная по памяти, между эффективными слоями FFN (Feed-Forward Network), что повышает эффективность использования памяти и улучшает взаимодействие между каналами. Кроме того, мы выяснили, что карты внимания имеют высокую степень сходства между головками, что приводит к вычислительной избыточности. Для решения этой проблемы мы представляем каскадный модуль группового внимания, который подает на головки внимания различные части полного признакового пространства, что не только снижает вычислительные затраты, но и повышает разнообразие внимания. Комплексные эксперименты показывают, что EfficientViT превосходит существующие эффективные модели, достигая оптимального баланса между скоростью и точностью. Например, наша модель EfficientViT-M5 превосходит MobileNetV3-Large на 1,9% по точности, при этом обеспечивая на 40,4% и 45,2% более высокую пропускную способность на GPU Nvidia V100 и CPU Intel Xeon соответственно. По сравнению с недавней эффективной моделью MobileViT-XXS, EfficientViT-M2 демонстрирует на 1,8% более высокую точность, работая в 5,8/3,7 раза быстрее на GPU/CPU и в 7,4 раза быстрее при конвертации в формат ONNX. Код и модели доступны по адресу https://github.com/microsoft/Cream/tree/main/EfficientViT.
CLIP, первая фундаментальная модель, связывающая изображения и текст, стала основой для многих недавних прорывов в области компьютерного зрения. Однако связанные с её обучением затраты чрезвычайно высоки, что создаёт значительные препятствия для её широкого изучения. В данной статье мы представляем неожиданное открытие: для обучения CLIP существует обратный закон масштабирования, согласно которому чем больше размеры кодировщиков изображений и текста, тем короче может быть длина последовательностей токенов изображений и текста, используемых при обучении. Более того, мы демонстрируем, что стратегия сокращения длины токенов изображений и текста играет ключевую роль в определении качества этого закона масштабирования. В результате этого открытия мы смогли успешно обучить CLIP даже с использованием академических ресурсов. Например, на сервере с восемью GPU A100 наши модели CLIP достигают точности zero-shot top-1 на ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня. Снижая вычислительные барьеры, связанные с CLIP, мы надеемся вдохновить больше исследований в этой области, особенно со стороны академического сообщества. Наш код доступен по адресу https://github.com/UCSC-VLAA/CLIPA.
Крупные языковые модели (LLM) демонстрируют удивительно высокую производительность в задачах многоязычного нейронного машинного перевода (MNMT), даже когда обучаются без параллельных данных. Однако, несмотря на огромный объем обучающих данных, они по-прежнему испытывают трудности с переводом редких слов, особенно для языков с ограниченными ресурсами. Более того, зачастую нереалистично извлекать релевантные примеры для обучения в контексте для таких языков на LLM, что ограничивает практическое применение LLM для перевода. Как можно смягчить эту проблему? В этой работе мы представляем новый метод CoD, который дополняет LLM предварительными знаниями, используя цепочки многоязычных словарей для подмножества входных слов, чтобы активировать способности LLM к переводу. Многочисленные эксперименты показывают, что дополнение ChatGPT методом CoD приводит к значительному улучшению результатов — до 13 баллов по метрике ChrF++ для MNMT (с 3.08 до 42.63 для перевода с английского на сербский, написанный кириллицей) на полном тестовом наборе FLORES-200. Мы также демонстрируем важность использования цепочек многоязычных словарей, а также превосходство CoD над обучением с несколькими примерами для языков с ограниченными ресурсами.
Способность оценивать, правильно ли подпись описывает изображение, является важнейшим аспектом понимания связи между зрением и языком. Однако современные модели часто ошибаются в интерпретации корректности мелких деталей, что приводит к ошибкам в результатах, таким как галлюцинация объектов в генерируемых подписях или слабое композиционное рассуждение. В данной работе мы исследуем метод Token-Level Confidence (TLC) — простой, но удивительно эффективный способ оценки корректности подписей. В частности, мы дообучаем модель, связывающую зрение и язык, на задаче генерации подписей к изображениям, подаем на вход модели изображение и предложенную подпись, а затем агрегируем либо алгебраические, либо обученные оценки уверенности для отдельных слов или последовательностей, чтобы оценить согласованность изображения и подписи. По сравнению с оценками на уровне последовательности, полученными с помощью предобученных моделей, TLC с алгебраическими мерами уверенности демонстрирует относительное улучшение точности на 10% в понимании глаголов в тестах SVO-Probes и превосходит предыдущие передовые результаты в оценках композиционного рассуждения на наборе данных Winoground на 37% и 9% для изображений и групп соответственно. При наличии обучающих данных обученный оценщик уверенности обеспечивает дальнейшее улучшение производительности, снижая частоту галлюцинаций объектов в наборе данных MS COCO Captions на 30% по сравнению с исходной моделью и устанавливая новый эталонный результат.
Крупные языковые модели (LLM) демонстрируют впечатляющие мультиязычные способности, однако их производительность существенно варьируется в зависимости от языка. В данной работе мы представляем простой, но эффективный метод, названный кросс-лингвальным подсказочным мышлением (XLT), для систематического улучшения мультиязычных возможностей LLM. В частности, XLT представляет собой универсальный шаблон подсказки, который стимулирует кросс-лингвальные и логические навыки рассуждения для повышения производительности задач на разных языках. Мы проводим всесторонние оценки на 7 типичных тестовых наборах, связанных с задачами рассуждения, понимания и генерации, охватывающих как языки с высоким, так и с низким уровнем ресурсов. Экспериментальные результаты показывают, что XLT не только значительно улучшает производительность в различных мультиязычных задачах, но и существенно сокращает разрыв между средней производительностью и наилучшей производительностью для каждой задачи на разных языках. Примечательно, что XLT обеспечивает среднее улучшение более чем на 10 баллов в задачах арифметического рассуждения и открытого вопросно-ответного взаимодействия.
Создание высококачественной музыки, которая дополняет визуальное содержание видео, является сложной задачей. Большинство существующих систем генерации музыки, основанных на визуальных данных, создают символические музыкальные данные, такие как MIDI-файлы, вместо сырых аудиоволн. Учитывая ограниченную доступность символических музыкальных данных, такие методы могут генерировать музыку только для нескольких инструментов или для определенных типов визуального контента. В данной статье мы предлагаем новый подход под названием V2Meow, который способен генерировать высококачественную музыку, хорошо согласованную с визуальной семантикой разнообразных типов видео. В частности, предложенная система генерации музыки представляет собой многоступенчатую авторегрессионную модель, обученную на наборе из порядка 100 тысяч аудиоклипов, сопоставленных с кадрами видео, которые были извлечены из музыкальных видео, доступных в открытых источниках, при этом параллельные символические музыкальные данные не используются. V2Meow способна синтезировать высококачественные аудиоволны музыки, основываясь исключительно на предварительно извлеченных визуальных признаках из произвольного немого видеоклипа, а также позволяет осуществлять высокоуровневое управление стилем генерируемой музыки с помощью текстовых подсказок в дополнение к условиям, задаваемым кадрами видео. С помощью качественных и количественных оценок мы демонстрируем, что наша модель превосходит несколько существующих систем генерации музыки как по соответствию визуального и аудио контента, так и по качеству звука.
Пожизненное обучение (LL) является важной способностью моделей обработки естественного языка (NLP) к непрерывному изучению новых задач. Подходы, основанные на архитектуре, считаются эффективными реализациями для моделей LL. Однако расширение предыдущих подходов на сценарии доменного инкрементального LL является нетривиальной задачей, поскольку они либо требуют доступа к идентификаторам задач на этапе тестирования, либо не могут обрабатывать образцы из неизвестных задач. В данной статье мы предлагаем Diana: динамическую модель пожизненного обучения, основанную на архитектуре, которая пытается изучить последовательность задач с использованием языковой модели, усиленной подсказками. В Diana используются четыре типа иерархически организованных подсказок для захвата знаний на разных уровнях детализации. В частности, мы выделяем подсказки на уровне задач для захвата специфических знаний, чтобы сохранить высокую производительность LL, и поддерживаем подсказки на уровне экземпляров для изучения знаний, общих для входных образцов, чтобы улучшить обобщающую способность модели. Кроме того, мы выделяем отдельные подсказки для явного моделирования неизвестных задач и вводим набор векторов ключей подсказок для облегчения обмена знаниями между задачами. Многочисленные эксперименты демонстрируют, что Diana превосходит современные модели LL, особенно в обработке неизвестных задач. Мы публикуем код и данные по адресу https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
Крупные языковые модели (LLM) продемонстрировали исключительные способности к обобщению новых задач в условиях нулевого или малого количества примеров. Однако степень, в которой LLM могут понимать предпочтения пользователей на основе их предыдущего поведения, остается актуальным и недостаточно изученным вопросом. Традиционно метод коллаборативной фильтрации (CF) был наиболее эффективным подходом для таких задач, преимущественно опираясь на большой объем данных о рейтингах. В отличие от этого, LLM обычно требуют значительно меньше данных, сохраняя при этом исчерпывающие знания о каждом объекте, таком как фильмы или товары. В данной работе мы проводим тщательное исследование как CF, так и LLM в рамках классической задачи предсказания пользовательских рейтингов, которая заключается в прогнозировании оценки пользователя для кандидатного объекта на основе его прошлых оценок. Мы исследуем различные LLM с разным количеством параметров, от 250 миллионов до 540 миллиардов, и оцениваем их производительность в условиях нулевого, малого количества примеров и тонкой настройки. Мы проводим всесторонний анализ для сравнения LLM с сильными методами CF и обнаруживаем, что LLM в условиях нулевого количества примеров отстают от традиционных моделей рекомендательных систем, имеющих доступ к данным о взаимодействии пользователей, что подчеркивает важность таких данных. Однако с помощью тонкой настройки LLM достигают сопоставимой или даже лучшей производительности, используя лишь небольшую часть обучающих данных, демонстрируя свой потенциал через эффективность использования данных.
Мы представляем физически обоснованный контроллер для гуманоидных моделей, который обеспечивает высокоточное воспроизведение движений и устойчивость к ошибкам при наличии зашумленных входных данных (например, оценок позы из видео или сгенерированных на основе текстовых описаний) и неожиданных падений. Наш контроллер способен масштабироваться для обучения на десятках тысяч клипов движений без использования внешних стабилизирующих сил и учится естественным образом восстанавливаться из аварийных состояний. При наличии эталонного движения контроллер способен бесконечно управлять симулированными аватарами без необходимости сброса. В основе нашего подхода лежит прогрессивная мультипликативная политика управления (PMCP), которая динамически выделяет новые ресурсы сети для изучения всё более сложных последовательностей движений. PMCP позволяет эффективно масштабировать обучение на крупных базах данных движений и добавлять новые задачи, такие как восстановление из аварийных состояний, без катастрофического забывания. Мы демонстрируем эффективность нашего контроллера, используя его для воспроизведения зашумленных поз, полученных из видео-оценщиков поз и генераторов движений на основе текста, в реальном времени в сценарии использования многопользовательских аватаров.
Крупные языковые модели, такие как ChatGPT, недавно продемонстрировали впечатляющие способности в понимании и генерации естественного языка, что открыло возможности для различных приложений, включая перевод, написание эссе и ведение бесед. Однако существует опасение, что их можно использовать в злонамеренных целях, таких как мошенничество или атаки на отказ в обслуживании. Поэтому крайне важно разработать методы для определения, является ли участник диалога ботом или человеком. В данной статье мы предлагаем фреймворк под названием FLAIR (Finding Large language model Authenticity via a single Inquiry and Response) для обнаружения диалоговых ботов в режиме онлайн. В частности, мы ориентируемся на сценарий с одним вопросом, который может эффективно отличать пользователей-людей от ботов. Вопросы делятся на две категории: те, которые легки для людей, но сложны для ботов (например, подсчет, замена, позиционирование, фильтрация шума и ASCII-арт), и те, которые легки для ботов, но сложны для людей (например, запоминание и вычисления). Наш подход демонстрирует различные сильные стороны этих вопросов в их эффективности, предоставляя новый способ для онлайн-сервисов защититься от злонамеренной деятельности и убедиться, что они обслуживают реальных пользователей. Мы открыли доступ к нашему набору данных на https://github.com/hongwang600/FLAIR и приветствуем вклад сообщества в обогащение таких наборов данных для обнаружения.
Текстовые эмбеддинги являются полезными признаками для ряда задач обработки естественного языка (NLP), таких как определение схожести предложений, кластеризация текста и семантический поиск. В данной работе мы представляем метод Low-rank Adaptation с контрастивной функцией потерь, применяемый к 8-битной версии модели Siamese-BLOOM — многоязычной крупной языковой модели, оптимизированной для генерации семантически значимых векторных представлений слов. Наше нововведение состоит из трех ключевых аспектов. Во-первых, мы приводим веса модели BLOOM к 8-битным значениям. Во-вторых, мы дообучаем BLOOM с использованием масштабируемого адаптера (LoRA) и 8-битного оптимизатора Adam для задачи классификации схожести предложений. В-третьих, мы применяем сиамскую архитектуру к модели BLOOM с контрастивной функцией потерь, чтобы смягчить проблему нехватки размеченных данных для многоязычных задач. Результаты экспериментов показывают, что качество эмбеддингов, полученных с помощью LACoS-BLOOM, пропорционально количеству параметров модели и объему неразмеченных обучающих данных. Благодаря эффективному по параметрам дизайну дообучения, мы можем запускать модель BLOOM с 7,1 миллиардами параметров на одной GPU-машине с 32 ГБ памяти. По сравнению с предыдущим решением Sentence-BERT, мы достигаем значительного улучшения как на английских, так и на многоязычных задачах семантической текстовой схожести (STS).