Ежедневно отобранные исследовательские статьи по ИИ с переводами
Революция генеративного искусственного интеллекта недавно распространилась на видео. Тем не менее, современные модели для работы с видео всё ещё отстают от моделей для изображений с точки зрения визуального качества и контроля пользователя над генерируемым контентом. В данной работе мы представляем фреймворк, который использует возможности диффузионной модели для преобразования текста в изображение для задачи текстового редактирования видео. В частности, при наличии исходного видео и целевого текстового запроса наш метод генерирует высококачественное видео, соответствующее целевому тексту, сохраняя при этом пространственную композицию и движение исходного видео. Наш метод основан на ключевом наблюдении, что согласованность в отредактированном видео может быть достигнута за счёт обеспечения согласованности в пространстве диффузионных признаков. Мы достигаем этого путём явного распространения диффузионных признаков на основе межкадровых соответствий, которые легко доступны в модели. Таким образом, наш фреймворк не требует обучения или дообучения и может работать в сочетании с любым готовым методом редактирования текста в изображение. Мы демонстрируем передовые результаты редактирования на различных реальных видео. Веб-страница: https://diffusion-tokenflow.github.io/
Мультимодальное обучение направлено на создание моделей, способных обрабатывать и связывать информацию из нескольких модальностей. Несмотря на многолетнее развитие в этой области, проектирование унифицированной сети для обработки различных модальностей (например, естественного языка, 2D-изображений, 3D-точечных облаков, аудио, видео, временных рядов, табличных данных) остается сложной задачей из-за присущих им различий. В данной работе мы предлагаем фреймворк под названием Meta-Transformer, который использует замороженный кодировщик для выполнения мультимодального восприятия без каких-либо парных мультимодальных обучающих данных. В Meta-Transformer исходные данные из различных модальностей преобразуются в общее токен-пространство, что позволяет последующему кодировщику с замороженными параметрами извлекать высокоуровневые семантические признаки входных данных. Состоящий из трех основных компонентов: унифицированного токенизатора данных, кодировщика, общего для всех модальностей, и специализированных голов для задач, Meta-Transformer является первым фреймворком, выполняющим унифицированное обучение для 12 модальностей с использованием непарных данных. Эксперименты на различных бенчмарках показывают, что Meta-Transformer способен справляться с широким спектром задач, включая базовое восприятие (текст, изображения, точечные облака, аудио, видео), практическое применение (рентген, инфракрасное излучение, гиперспектральные данные и IMU) и анализ данных (графы, табличные данные и временные ряды). Meta-Transformer указывает на перспективное будущее для разработки унифицированного мультимодального интеллекта с использованием трансформеров. Код будет доступен по адресу https://github.com/invictus717/MetaTransformer.
Процесс восстановления переживаний на основе активности человеческого мозга предоставляет уникальную возможность понять, как мозг интерпретирует и представляет окружающий мир. В данной статье мы представляем метод восстановления музыки на основе активности мозга, зарегистрированной с помощью функциональной магнитно-резонансной томографии (фМРТ). Наш подход использует либо поиск музыки, либо модель генерации музыки MusicLM, адаптированную на основе эмбеддингов, полученных из данных фМРТ. Сгенерированная музыка напоминает музыкальные стимулы, которые испытывали участники исследования, с точки зрения семантических свойств, таких как жанр, инструментовка и настроение. Мы исследуем взаимосвязь между различными компонентами MusicLM и активностью мозга с помощью анализа воксель-кодирующего моделирования. Кроме того, мы обсуждаем, какие области мозга представляют информацию, полученную исключительно из текстовых описаний музыкальных стимулов. Мы предоставляем дополнительные материалы, включая примеры восстановленной музыки, по адресу https://google-research.github.io/seanet/brain2music.
Оценка крупных языковых моделей (LLMs) представляет собой сложную задачу, поскольку их соответствие человеческим ценностям требует сочетания множества навыков, а необходимый набор навыков варьируется в зависимости от инструкции. В последних исследованиях производительность LLMs оценивалась двумя способами: (1) автоматическая оценка на нескольких независимых бенчмарках и (2) оценка на основе человека или машин, присваивающая общий балл ответу. Однако оба подхода представляют собой грубую оценку, не учитывающую природу пользовательских инструкций, которые требуют композиции навыков на уровне отдельных экземпляров, что ограничивает интерпретацию истинных возможностей LLMs. В данной статье мы представляем FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets) — протокол детализированной оценки, который может использоваться как для модельной, так и для человеческой оценки, декомпозируя общий балл на уровень наборов навыков для каждого экземпляра. В частности, мы определяем 12 детализированных навыков, необходимых LLMs для выполнения открытых пользовательских инструкций, и создаем набор данных для оценки, назначая набор навыков для каждого экземпляра. Дополнительно, аннотируя целевые области и уровень сложности для каждого экземпляра, FLASK предоставляет целостное представление с комплексным анализом производительности модели в зависимости от навыка, области и сложности. Используя FLASK, мы сравниваем несколько открытых и проприетарных LLMs и наблюдаем высокую корреляцию между модельной и человеческой оценками. FLASK позволяет разработчикам более точно измерять производительность модели и определять, как её можно улучшить, анализируя факторы, которые делают LLMs эффективными в определенных навыках. Для практиков FLASK может быть использован для рекомендации подходящих моделей для конкретных ситуаций через всестороннее сравнение различных LLMs. Мы публикуем данные оценки и реализацию кода по адресу https://github.com/kaistAI/FLASK.
Массивные веб-датасеты играют ключевую роль в успехе крупных моделей, работающих с визуальными и текстовыми данными, таких как CLIP и Flamingo. Однако сырые веб-данные зашумлены, и существующие методы фильтрации для снижения уровня шума часто приводят к потере разнообразия данных. Наша работа сосредоточена на качестве подписей как одном из основных источников шума и исследует, как сгенерированные подписи могут повысить полезность веб-скрапленных данных с неинформативным текстом. Изучая различные стратегии смешивания сырых и сгенерированных подписей, мы превосходим лучший метод фильтрации, предложенный бенчмарком DataComp, на 2% на ImageNet и на 4% в среднем по 38 задачам, при наличии пула из 128 миллионов пар изображение-текст. Наш лучший подход также в 2 раза эффективнее в задачах поиска на Flickr и MS-COCO. Затем мы анализируем, что делает синтетические подписи эффективным источником текстового супервизии. Экспериментируя с различными моделями генерации подписей к изображениям, мы также показываем, что производительность модели на стандартных бенчмарках для генерации подписей (например, NoCaps CIDEr) не является надежным индикатором полезности генерируемых ею подписей для мультимодального обучения. Наконец, наши эксперименты с использованием сгенерированных подписей на масштабе DataComp (1,28 миллиарда пар изображение-текст) дают представление о ограничениях синтетического текста, а также о важности курации изображений с увеличением объема обучающих данных.
Самообучение привело к революционному сдвигу парадигмы в различных вычислительных областях, включая обработку естественного языка (NLP), компьютерное зрение и биологию. Современные подходы предполагают предварительное обучение трансформерных моделей на огромных объемах немаркированных данных, что служит отправной точкой для эффективного решения последующих задач. В области обучения с подкреплением исследователи недавно адаптировали эти подходы, разработав модели, предварительно обученные на траекториях экспертов, что позволяет им решать широкий спектр задач — от робототехники до рекомендательных систем. Однако существующие методы в основном опираются на сложные цели предварительного обучения, адаптированные под конкретные приложения. В данной статье представлено всестороннее исследование моделей, которые мы называем Pretrained Action-State Transformer Agents (PASTA). Наше исследование использует унифицированную методологию и охватывает широкий набор общих задач, включая поведенческое клонирование, оффлайн-обучение с подкреплением, устойчивость к сбоям сенсоров и адаптацию к изменениям динамики. Наша цель — систематически сравнить различные варианты проектирования и предоставить практикам ценные инсайты для создания устойчивых моделей. Ключевые аспекты нашего исследования включают токенизацию на уровне компонентов действий и состояний, использование базовых целей предварительного обучения, таких как предсказание следующего токена, обучение моделей в различных доменах одновременно и применение параметрически эффективной тонкой настройки (PEFT). Разработанные в нашем исследовании модели содержат менее 10 миллионов параметров, а использование PEFT позволяет тонко настраивать менее 10 000 параметров в процессе адаптации к последующим задачам, что делает эти модели доступными для широкого круга пользователей и позволяет воспроизводить наши эксперименты. Мы надеемся, что это исследование стимулирует дальнейшие изыскания в области использования трансформеров с фундаментальными подходами к проектированию для представления траекторий обучения с подкреплением и внесет вклад в создание устойчивых стратегий обучения.
Последние достижения в области крупных языковых моделей (LLM) продемонстрировали значительный прогресс на многих математических тестах. Однако большинство этих тестов включают задачи, основанные на материалах средней школы, содержат только вопросы с множественным выбором и ограничены элементарными арифметическими операциями. Чтобы устранить эти недостатки, в данной статье представлен расширенный набор тестов SciBench, который направлен на систематическое изучение способностей к рассуждению, необходимых для решения сложных научных задач. SciBench включает два тщательно отобранных набора данных: открытый набор, содержащий задачи университетского уровня из учебников по математике, химии и физике, и закрытый набор, состоящий из задач из экзаменов бакалавриата по информатике и математике. На основе этих наборов данных мы проводим углубленное исследование двух репрезентативных LLM с использованием различных стратегий подсказок. Результаты показывают, что современные LLM не справляются с удовлетворительной производительностью, набирая в среднем всего 35,80%. Кроме того, с помощью детального исследования пользователей мы классифицируем ошибки, допущенные LLM, по десяти способностям к решению задач. Наш анализ показывает, что ни одна стратегия подсказок не превосходит другие значительно, а некоторые стратегии, демонстрирующие улучшения в определенных навыках решения задач, приводят к ухудшению других навыков. Мы предполагаем, что SciBench будет способствовать дальнейшему развитию способностей к рассуждению у LLM, что в конечном итоге внесет вклад в научные исследования и открытия.
Механизмы, лежащие в основе успеха многовидового самообучения (MVSSL), до сих пор не полностью изучены. Контрастивные методы MVSSL исследовались через призму InfoNCE, нижней границы взаимной информации (MI). Однако связь между другими методами MVSSL и MI остается неясной. Мы рассматриваем другую нижнюю границу MI, состоящую из энтропии и реконструкционного члена (ER), и анализируем основные семейства методов MVSSL через эту призму. С помощью этой границы ER мы показываем, что методы, основанные на кластеризации, такие как DeepCluster и SwAV, максимизируют MI. Мы также переосмысливаем механизмы подходов, основанных на дистилляции, таких как BYOL и DINO, демонстрируя, что они явно максимизируют реконструкционный член и неявно способствуют стабильной энтропии, что подтверждается эмпирически. Мы показываем, что замена целей распространенных методов MVSSL на эту границу ER позволяет достичь конкурентоспособных результатов, одновременно делая их более стабильными при обучении с меньшими размерами пакетов или меньшими коэффициентами экспоненциального скользящего среднего (EMA). Репозиторий на Github: https://github.com/apple/ml-entropy-reconstruction.
Хотя модели, настроенные на выполнение инструкций, продемонстрировали впечатляющие успехи в различных задачах обработки естественного языка, точная оценка их способности следовать инструкциям остается сложной задачей. Существующие бенчмарки в основном сосредоточены на распространенных инструкциях, которые хорошо согласуются с тем, что модель изучила в процессе обучения. Однако умение реагировать на такие инструкции не обязательно свидетельствует о сильной способности следовать инструкциям. В данной статье мы предлагаем новый протокол оценки способности следовать инструкциям, называемый манипуляцией вербализаторами. Он предписывает модели вербализовать метку задачи с использованием слов, которые в разной степени соответствуют априорным ожиданиям модели, начиная от вербализаторов с высокой степенью согласованности (например, вывод «положительный» для положительной эмоциональной окраски) до минимально согласованных (например, вывод «отрицательный» для положительной эмоциональной окраски). Манипуляция вербализаторами может быть легко интегрирована в любой классификационный бенчмарк для изучения зависимости модели от априорных ожиданий и ее способности преодолевать их для точного выполнения инструкций. Мы проводим всестороннюю оценку четырех основных семейств моделей на девяти наборах данных, используя двенадцать наборов вербализаторов для каждого из них. Мы наблюдаем, что способности моделей следовать инструкциям, независимо от их семейства и масштаба, значительно различаются в зависимости от их производительности на менее естественных вербализаторах. Даже самая мощная модель GPT-4 с трудом справляется с наиболее сложным вербализатором, показывая результаты, не превышающие случайного угадывания, что подчеркивает необходимость дальнейшего совершенствования их способности следовать инструкциям.