Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем модель Recognize Anything Model (RAM): мощную базовую модель для тегирования изображений. RAM способна распознавать любые распространенные категории с высокой точностью. RAM вводит новую парадигму для тегирования изображений, используя для обучения крупномасштабные пары изображение-текст вместо ручной аннотации. Разработка RAM включает четыре ключевых этапа. Во-первых, аннотации для изображений без ручного вмешательства получаются в большом объеме с помощью автоматического семантического анализа текста. Затем предварительная модель обучается для автоматической аннотации путем объединения задач генерации подписей и тегирования, контролируемых исходными текстами и проанализированными тегами соответственно. В-третьих, используется механизм обработки данных для создания дополнительных аннотаций и очистки некорректных. Наконец, модель переобучается на обработанных данных и дорабатывается с использованием меньшего, но более качественного набора данных. Мы оцениваем возможности тегирования RAM на множестве тестовых наборов и наблюдаем впечатляющую производительность в условиях zero-shot, значительно превосходящую CLIP и BLIP. Примечательно, что RAM даже превосходит полностью контролируемые методы и демонстрирует конкурентоспособные результаты с API Google. Мы публикуем RAM на сайте https://recognize-anything.github.io/ для содействия развитию крупных моделей в области компьютерного зрения.
Настройка на инструкции значительно продвинула крупные языковые модели (LLM), такие как ChatGPT, позволив им соответствовать человеческим инструкциям в разнообразных задачах. Однако прогресс в открытых визуально-языковых моделях (VLMs) был ограничен из-за недостатка высококачественных наборов данных с инструкциями. Для решения этой проблемы и стимулирования исследований в области визуально-языковых моделей мы представляем набор данных Multi-Modal, Multilingual Instruction Tuning (M^3IT), разработанный для оптимизации соответствия VLMs человеческим инструкциям. Наш набор данных M^3IT включает 40 тщательно отобранных наборов данных, содержащих 2,4 миллиона примеров и 400 вручную написанных инструкций для задач, переформатированных в структуру "визуальный-в-текстовый". Ключевые задачи переведены на 80 языков с использованием передовой системы перевода, что обеспечивает более широкую доступность. M^3IT превосходит предыдущие наборы данных по охвату задач, количеству инструкций и масштабу примеров. Кроме того, мы разработали модель Ying-VLM, обученную на нашем наборе данных M^3IT, демонстрирующую её способность отвечать на сложные вопросы, требующие знаний о мире, обобщать на невидимые задачи в видео и понимать невидимые инструкции на китайском языке. Для поощрения дальнейших исследований мы открыли исходные коды как набора данных, так и обученных моделей.
Мы рассматриваем новую задачу, а именно создание говорящего аватара с ограниченными ресурсами. Имея в качестве обучающих данных лишь короткое видео говорящего человека с аудиодорожкой и произвольные тексты в качестве входных данных, мы стремимся синтезировать высококачественные видеоролики говорящего портрета, соответствующие входному тексту. Эта задача имеет широкие перспективы применения в индустрии цифровых людей, но до сих пор не была технически реализована из-за двух основных проблем: (1) Традиционной системе синтеза речи для нескольких говорящих сложно воспроизвести тембр из аудио, выходящего за пределы обучающей области. (2) Сложно создать высококачественные и синхронизированные с губами говорящие аватары при ограниченных обучающих данных. В данной статье мы представляем Adaptive Text-to-Talking Avatar (Ada-TTA), который (1) разрабатывает универсальную модель синтеза речи для нескольких говорящих с нулевым обучением, эффективно разделяющую текстовое содержание, тембр и просодию; и (2) использует последние достижения в области нейронного рендеринга для создания реалистичных видео говорящего лица, управляемых аудио. Благодаря этим решениям наш метод преодолевает упомянутые проблемы и позволяет генерировать речь, сохраняющую идентичность, и реалистичные видео говорящего человека. Эксперименты показывают, что наш метод способен синтезировать реалистичные, сохраняющие идентичность и аудиовизуально синхронизированные видео говорящих аватаров.
Поиск соответствий между изображениями является фундаментальной задачей в компьютерном зрении. В данной работе мы показываем, что соответствия возникают в моделях диффузии изображений без явного обучения. Мы предлагаем простую стратегию для извлечения этого скрытого знания из сетей диффузии в виде признаков изображений, а именно DIffusion FeaTures (DIFT), и используем их для установления соответствий между реальными изображениями. Без дополнительной тонкой настройки или обучения на данных или аннотациях, специфичных для задачи, DIFT способен превзойти как слабо контролируемые методы, так и конкурентоспособные готовые признаки в идентификации семантических, геометрических и временных соответствий. В частности, для семантических соответствий DIFT из Stable Diffusion превосходит DINO и OpenCLIP на 19 и 14 пунктов точности соответственно на сложном бенчмарке SPair-71k. Он даже превосходит современные контролируемые методы в 9 из 18 категорий, оставаясь наравне по общей производительности. Страница проекта: https://diffusionfeatures.github.io
Крупные языковые модели (LLM) могут использоваться для генерации текстовых данных для обучения и оценки других моделей. Однако создание высококачественных наборов данных с помощью LLM может быть сложной задачей. В данной работе мы исследуем партнерство человека и ИИ для обеспечения высокой разнородности и точности при генерации текстовых данных на основе LLM. Сначала мы рассматриваем два подхода для повышения разнообразия генерации текста: 1) подавление логитов, которое минимизирует генерацию языков, уже часто встречающихся в данных, и 2) температурная выборка, которая сглаживает вероятность выбора токенов. Мы обнаружили, что подходы к диверсификации могут увеличить разнообразие данных, но часто за счет снижения их точности (т.е. соответствия текстов и меток целевому домену). Чтобы решить эту проблему, мы изучили два вида вмешательства человека: 1) замена меток (LR), исправляющая некорректно назначенные метки, и 2) фильтрация выходящих за рамки (OOSF), удаляющая примеры, которые не относятся к интересующему пользователя домену или для которых не подходит ни одна из рассматриваемых меток. В экспериментах с "оракулом" мы выяснили, что LR повышает абсолютную точность моделей, обученных на диверсифицированных данных, на 14,4%. Более того, мы обнаружили, что некоторые модели, обученные на данных, сгенерированных с использованием LR, превосходят классификацию на основе LLM с малым количеством примеров. В то же время OOSF не оказалась эффективной в повышении точности моделей, что указывает на необходимость дальнейших исследований в области генерации текстовых данных с участием человека.
Языковые модели часто достигают более высокой точности, когда рассуждают пошагово в сложных задачах. Однако их рассуждения могут быть некорректными, противоречивыми или основываться на нежелательных предварительных допущениях. Чтобы решить эти проблемы, мы представляем класс инструментов для языковых моделей, называемых гидами, которые используют состояние и инкрементные ограничения для управления генерацией. Модель может вызывать гид, чтобы ограничить свою генерацию набором допустимых утверждений, предоставляемых инструментом. В свою очередь, выбор модели может изменять состояние гида. Мы показываем, как общая система для логического рассуждения может быть использована в качестве гида, который мы называем LogicGuide. Для задачи рассуждения, сформулированной на естественном языке, модель может формализовать свои допущения для LogicGuide и затем гарантировать, что её шаги рассуждения будут корректными. В экспериментах с наборами данных для рассуждений PrOntoQA и ProofWriter LogicGuide значительно улучшает производительность GPT-3, GPT-3.5 Turbo и LLaMA (увеличение точности до 35%). LogicGuide также резко снижает эффекты контекста: влияние предварительных и текущих допущений, от которых, как было показано, страдают как люди, так и языковые модели. Наконец, мы исследуем самообучение LLaMA 13B на основе собственных рассуждений и обнаруживаем, что LogicGuide играет ключевую роль: обучаясь только на проверенных самостоятельно сгенерированных рассуждениях, LLaMA может самоулучшаться, избегая обучения на собственных галлюцинациях.
Адаптация домена с использованием только текстового корпуса представляет сложность в сквозном (E2E) распознавании речи. Адаптация путем синтеза аудио из текста с помощью TTS требует значительных ресурсов. Мы предлагаем метод обучения унифицированного представления речи и текста в Conformer Transducer (USTR-CT), который позволяет быстро адаптироваться к домену с использованием только текстового корпуса. В отличие от предыдущего метода textogram, в нашей работе вводится дополнительный текстовый кодировщик для обучения текстового представления, который удаляется на этапе вывода, что не требует изменений для онлайн-развертывания. Для повышения эффективности адаптации также исследуются одношаговая и многошаговая адаптации. Эксперименты по адаптации LibriSpeech к SPGISpeech показывают, что предложенный метод снижает частоту ошибок по словам (WER) на 44% в целевом домене, что лучше, чем у метода TTS и метода textogram. Кроме того, демонстрируется, что предложенный метод может быть объединен с оценкой внутренней языковой модели (ILME) для дальнейшего улучшения производительности.
Несмотря на способность легко запоминать информацию о сущностях, предварительно обученные языковые модели (LMs) испытывают трудности с объединением двух или более фактов для выполнения многошагового рассуждения в задачах ответа на вопросы. В данной работе мы предлагаем методы, которые улучшают эту ограниченность, используя случайные блуждания по структурированным графам знаний. В частности, мы применяем мягкие подсказки, чтобы направлять языковые модели в объединении их закодированных знаний, обучая их сопоставлять многошаговые вопросы с путями случайного блуждания, ведущими к ответу. Применение наших методов на двух моделях T5 демонстрирует значительные улучшения по сравнению с традиционными подходами настройки в ответах на вопросы, требующие 2-шагового рассуждения.
В данной статье мы представляем подход для локализации этапов процедурных действий в озвученных обучающих видео. Чтобы справиться с недостатком размеченных данных в больших масштабах, мы извлекаем описания этапов из языковой базы знаний (wikiHow), содержащей инструктивные статьи для широкого спектра процедурных задач. Без какого-либо ручного контроля наша модель обучается временной привязке этапов процедурных статей к обучающим видео путем сопоставления трех модальностей: кадров, озвучивания и описаний этапов. В частности, наш метод выравнивает этапы с видео, объединяя информацию из двух различных путей: i) {\em прямое} сопоставление описаний этапов с кадрами, ii) {\em косвенное} сопоставление, полученное путем комбинирования соответствий этапов к озвучиванию и озвучивания к видео. Примечательно, что наш подход выполняет глобальную временную привязку всех этапов статьи одновременно, используя информацию о порядке, и обучается с псевдо-метками этапов, которые итеративно уточняются и агрессивно фильтруются. Для проверки нашей модели мы вводим новый эталонный набор данных для оценки — HT-Step, полученный путем ручной разметки 124-часового подмножества HowTo100M. Тестовый сервер доступен по адресу \url{https://eval.ai/web/challenges/challenge-page/2082.} с этапами, извлеченными из статей wikiHow. Эксперименты на этом эталоне, а также оценки в условиях zero-shot на CrossTask демонстрируют, что наше многомодальное сопоставление обеспечивает значительное улучшение по сравнению с несколькими базовыми методами и предыдущими работами. Наконец, мы показываем, что наш внутренний модуль для сопоставления озвучивания с видео значительно превосходит современные результаты на эталоне HTM-Align для сопоставления озвучивания и видео.