Ежедневно отобранные исследовательские статьи по ИИ с переводами
Автоматическое создание описаний музыки, которое генерирует естественно-языковые описания для заданных музыкальных треков, обладает значительным потенциалом для улучшения понимания и организации больших объемов музыкальных данных. Несмотря на свою важность, исследователи сталкиваются с трудностями из-за дорогостоящего и трудоемкого процесса сбора существующих наборов данных, связывающих музыку и язык, которые ограничены по объему. Для решения проблемы нехватки данных мы предлагаем использование крупных языковых моделей (LLM) для искусственного создания описательных предложений на основе крупномасштабных наборов тегов. В результате получается примерно 2,2 миллиона описаний, сопоставленных с 0,5 миллиона аудиоклипов. Мы называем этот набор данных Псевдо-описания музыки на основе крупных языковых моделей, сокращенно LP-MusicCaps. Мы проводим систематическую оценку крупномасштабного набора данных для создания описаний музыки с использованием различных количественных метрик, применяемых в области обработки естественного языка, а также с привлечением экспертной оценки. Кроме того, мы обучили трансформерную модель для создания описаний музыки на этом наборе данных и оценили её в условиях zero-shot и трансферного обучения. Результаты показывают, что наш предложенный подход превосходит базовую модель, обученную с учителем.
Мы исследуем, как модели, обученные на данных масштаба интернета для обработки зрения и языка, могут быть напрямую интегрированы в сквозное управление роботами для улучшения обобщения и обеспечения семантического рассуждения. Наша цель — создать единую сквозно обученную модель, которая способна как преобразовывать наблюдения робота в действия, так и использовать преимущества масштабного предобучения на языковых и визуально-языковых данных из интернета. Для этого мы предлагаем совместно дообучать современные модели обработки зрения и языка как на данных траекторий роботов, так и на задачах масштаба интернета, таких как визуальное ответы на вопросы. В отличие от других подходов, мы предлагаем простой и универсальный метод для достижения этой цели: чтобы объединить естественные языковые ответы и действия роботов в единый формат, мы выражаем действия в виде текстовых токенов и включаем их непосредственно в обучающий набор модели, аналогично токенам естественного языка. Мы называем такие модели моделями "зрение-язык-действие" (VLA) и реализуем пример такой модели, которую называем RT-2. Наши обширные эксперименты (6 тысяч тестовых испытаний) показывают, что наш подход приводит к эффективным стратегиям управления роботами и позволяет RT-2 демонстрировать ряд новых возможностей, полученных благодаря обучению на данных масштаба интернета. Это включает значительное улучшение обобщения на новые объекты, способность интерпретировать команды, отсутствующие в обучающих данных робота (например, размещение объекта на определённом числе или иконке), и способность выполнять базовые рассуждения в ответ на команды пользователя (например, выбор самого маленького или большого объекта, или объекта, ближайшего к другому). Мы также показываем, что включение цепочки рассуждений позволяет RT-2 выполнять многоэтапное семантическое рассуждение, например, определять, какой объект поднять для использования в качестве импровизированного молотка (камень), или какой напиток лучше всего подходит для уставшего человека (энергетический напиток).
Мы исследуем различные стратегии промптинга для повышения эффективности персонализированных рекомендаций контента с использованием больших языковых моделей (LLM) через аугментацию входных данных. Наш предложенный подход, названный LLM-Rec, включает четыре различные стратегии промптинга: (1) базовый промптинг, (2) промптинг, ориентированный на рекомендации, (3) промптинг, управляемый вовлеченностью, и (4) комбинированный промптинг, ориентированный на рекомендации и управляемый вовлеченностью. Наши эмпирические эксперименты показывают, что сочетание оригинального описания контента с аугментированным текстом, сгенерированным LLM с использованием этих стратегий, приводит к улучшению качества рекомендаций. Этот результат подчеркивает важность включения разнообразных промптов и техник аугментации входных данных для повышения возможностей рекомендательных систем на основе больших языковых моделей в контексте персонализированных рекомендаций контента.
Мы исследуем внутреннюю структуру вычислений языковых моделей с использованием причинного анализа и демонстрируем два ключевых механизма: (1) форму адаптивных вычислений, при которой удаление одного слоя внимания в языковой модели приводит к компенсации со стороны другого слоя (что мы называем эффектом Гидры), и (2) уравновешивающую функцию поздних слоев MLP, которые снижают вероятность токена с максимальным правдоподобием. Наши исследования с удалением слоев показывают, что слои языковых моделей обычно слабо связаны между собой (удаление одного слоя влияет лишь на небольшое количество последующих слоев). Удивительно, что эти эффекты наблюдаются даже в языковых моделях, обученных без какого-либо использования dropout. Мы анализируем эти эффекты в контексте воспроизведения фактов и рассматриваем их значение для атрибуции на уровне схем в языковых моделях.
Генерация подписей к изображениям традиционно формулируется как задача создания описаний, соответствующих распределению пар "изображение-подпись" из эталонных данных. Однако подписи в стандартных наборах данных для генерации описаний часто короткие и могут не однозначно идентифицировать изображения, которые они описывают. Эти проблемы усугубляются, когда модели обучаются непосредственно на парах "изображение-альтернативный текст", собранных из интернета. В данной работе мы показываем, что можно генерировать более специфичные подписи с минимальными изменениями в процессе обучения. Мы реализуем метод классификатор-фри гида для авторегрессионной модели генерации подписей, дообучая её для оценки как условного, так и безусловного распределений над подписями. Масштаб гида, применяемый на этапе декодирования, контролирует компромисс между максимизацией p(подпись|изображение) и p(изображение|подпись). По сравнению со стандартным жадным декодированием, декодирование с масштабом гида, равным 2, значительно улучшает метрики, не зависящие от эталонных данных, такие как CLIPScore (0.808 против 0.775) и производительность поиска изображений по подписям в пространстве эмбеддингов CLIP (recall@1 44.6% против 26.5%), но ухудшает стандартные метрики, основанные на эталонных данных (например, CIDEr 78.6 против 126.1). Мы также исследуем использование языковых моделей для управления процессом декодирования, получая небольшие улучшения по сравнению с Парето-фронтом метрик, не зависящих от эталонных данных и основанных на них, который возникает при использовании классификатор-фри гида, и значительно повышая качество подписей, сгенерированных моделью, обученной только на минимально обработанных веб-данных.
В последнее время интеграция базовых моделей для работы с видео и крупных языковых моделей позволила создать системы понимания видео, преодолевающие ограничения конкретных предопределенных задач компьютерного зрения. Однако существующие системы способны обрабатывать только видео с очень малым количеством кадров. Для длинных видео вычислительная сложность, затраты памяти и установление долгосрочных временных связей остаются нерешенными проблемами. Вдохновленные моделью памяти Аткинсона-Шиффрина, мы разработали механизм памяти, включающий быстро обновляемую кратковременную память и компактную, но устойчивую долговременную память. Мы используем токены в Transformers в качестве носителей памяти. MovieChat демонстрирует наилучшие результаты в понимании длинных видео.
Крупные языковые модели (LLMs) значительно приблизили амбициозную цель создания универсальных агентов, сделав её далёкой от фантазии. Одним из ключевых препятствий для построения таких универсальных моделей является разнообразие и гетерогенность задач и модальностей. Перспективным решением является унификация, позволяющая поддерживать множество задач и модальностей в рамках единой структуры. Хотя некоторые крупные модели (например, Flamingo (Alayrac et al., 2022)), обученные на огромных наборах данных, могут поддерживать более двух модальностей, текущие небольшие и средние унифицированные модели всё ещё ограничены двумя модальностями, обычно текст-изображение или текст-видео. Вопрос, который мы задаём: возможно ли эффективно построить унифицированную модель, способную поддерживать все модальности? Чтобы ответить на него, мы предлагаем UnIVAL — шаг вперёд к этой амбициозной цели. Без использования огромных наборов данных или моделей с миллиардами параметров, модель UnIVAL с ~0,25 миллиардами параметров выходит за пределы двух модальностей и объединяет текст, изображения, видео и аудио в единую модель. Наша модель эффективно предобучается на множестве задач, основываясь на балансировке задач и мультимодальном обучении по учебному плану. UnIVAL демонстрирует конкурентоспособные результаты по сравнению с современными подходами в задачах, связанных с изображениями и текстом, а также видео и текстом. Особенности, извлечённые из модальностей текст-изображение и текст-видео, позволяют модели достигать конкурентоспособных результатов при дообучении на задачах текст-аудио, несмотря на отсутствие предварительного обучения на аудио. Благодаря унифицированной модели мы предлагаем новое исследование по объединению мультимодальных моделей через интерполяцию весов моделей, обученных на различных мультимодальных задачах, демонстрируя их преимущества, особенно для обобщения на данных, выходящих за пределы распределения. Наконец, мы обосновываем унификацию, показывая синергию между задачами. Веса модели и код доступны по ссылке: https://github.com/mshukor/UnIVAL.
Можем ли мы лучше предсказать будущие действия человека (например, взбить яйца), зная, что обычно происходит после его/её текущего действия (например, разбить яйца)? А что, если мы также знаем долгосрочную цель человека (например, приготовить жареный рис с яйцом)? Задача долгосрочного предсказания действий (Long-Term Action Anticipation, LTA) направлена на прогнозирование будущего поведения человека на основе видеонаблюдений, представленных в виде последовательностей глаголов и существительных, и она имеет ключевое значение для взаимодействия человека и машины. Мы предлагаем формулировать задачу LTA с двух точек зрения: снизу вверх — подход, который предсказывает следующие действия авторегрессивно, моделируя временную динамику; и сверху вниз — подход, который выводит цель человека и планирует необходимые шаги для её достижения. Мы предполагаем, что большие языковые модели (Large Language Models, LLMs), предварительно обученные на текстовых данных о процедурах (например, рецепты, инструкции), могут помочь в решении задачи LTA с обеих точек зрения. Они могут предоставить априорные знания о возможных следующих действиях, а также вывести цель, учитывая наблюдаемую часть процедуры. Чтобы использовать LLMs, мы предлагаем двухэтапную структуру AntGPT. Сначала она распознаёт действия, уже выполненные в наблюдаемых видео, а затем запрашивает у LLM предсказание будущих действий через условную генерацию или вывод цели и планирование всей процедуры с помощью цепочки рассуждений (chain-of-thought prompting). Эмпирические результаты на бенчмарках Ego4D LTA v1 и v2, EPIC-Kitchens-55, а также EGTEA GAZE+ демонстрируют эффективность нашего подхода. AntGPT достигает наилучших результатов на всех вышеупомянутых бенчмарках и успешно выводит цель, выполняя прогнозирование "контрфактуальных" действий, обусловленных целью, на основе качественного анализа. Код и модель будут доступны по адресу https://brown-palm.github.io/AntGPT.
Временное закрепление видео (Video Temporal Grounding, VTG), целью которого является выделение целевых фрагментов из видео (например, последовательных интервалов или разрозненных сцен) в соответствии с пользовательскими языковыми запросами (например, предложениями или словами), играет ключевую роль для просмотра видео в социальных сетях. Большинство методов в этой области разрабатывают специализированные модели, которые обучаются с использованием меток, специфичных для конкретного типа задач, таких как поиск моментов (временной интервал) и обнаружение ключевых моментов (кривая значимости), что ограничивает их способность обобщаться для различных задач и меток VTG. В данной статье мы предлагаем унифицировать разнообразные метки и задачи VTG, назвав этот подход UniVTG, по трем направлениям: Во-первых, мы пересматриваем широкий спектр меток и задач VTG и определяем унифицированную формулировку. На основе этого мы разрабатываем схемы аннотирования данных для создания масштабируемого псевдо-надзора. Во-вторых, мы разрабатываем эффективную и гибкую модель закрепления, способную решать каждую задачу и полностью использовать каждую метку. Наконец, благодаря унифицированной структуре, мы можем реализовать предварительное обучение временного закрепления на основе крупномасштабных разнообразных меток и развить более сильные способности закрепления, например, закрепление в условиях нулевого сценария (zero-shot grounding). Обширные эксперименты на трех задачах (поиск моментов, обнаружение ключевых моментов и суммаризация видео) на семи наборах данных (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum и QFVS) демонстрируют эффективность и гибкость предложенной нами структуры. Код доступен по адресу https://github.com/showlab/UniVTG.
Мы представляем метод Виртуальной Инъекции Подсказок (Virtual Prompt Injection, VPI) для крупных языковых моделей (LLM), настроенных на выполнение инструкций. VPI позволяет злоумышленнику задать виртуальную подсказку, которая управляет поведением модели в определенных сценариях срабатывания без явной инъекции в входные данные модели. Например, если LLM скомпрометирована виртуальной подсказкой "Опиши Джо Байдена негативно" для инструкций, связанных с Джо Байденом, то любой сервис, использующий эту модель, будет распространять предвзятые взгляды при обработке пользовательских запросов, связанных с Джо Байденом. VPI особенно опасен по двум основным причинам. Во-первых, злоумышленник может детально контролировать поведение LLM, задавая различные виртуальные подсказки, используя способность моделей следовать инструкциям. Во-вторых, этот контроль достигается без какого-либо взаимодействия со стороны злоумышленника во время работы модели, что делает атаку устойчивой. Чтобы продемонстрировать угрозу, мы предлагаем простой метод выполнения VPI путем отравления данных для настройки модели на выполнение инструкций. Мы обнаружили, что наш метод высокоэффективен в управлении LLM с помощью VPI. Например, добавив всего 52 отравленных примера (0,1% от объема обучающих данных) в данные для настройки, процент негативных ответов, выдаваемых обученной моделью на запросы, связанные с Джо Байденом, изменился с 0% до 40%. Таким образом, мы подчеркиваем необходимость обеспечения целостности данных для настройки на выполнение инструкций, так как даже небольшое количество отравленных данных может нанести скрытый и устойчивый вред развернутой модели. Мы также исследуем возможные методы защиты и определяем фильтрацию данных как эффективный способ противодействия атакам отравления. Наш проект доступен по адресу https://poison-llm.github.io.
На основе мощных больших языковых моделей (LLM) недавние генеративные мультимодальные большие языковые модели (MLLM) стали ключевой областью исследований, демонстрируя выдающиеся способности как в понимании, так и в генерации. В данной работе мы рассматриваем оценку генеративного понимания в MLLM как предварительный шаг к всесторонней оценке генеративных моделей, представляя бенчмарк под названием SEED-Bench. SEED-Bench включает 19 тысяч вопросов с множественным выбором, снабженных точными аннотациями, созданными людьми (в 6 раз больше, чем в существующих бенчмарках), и охватывает 12 оценочных измерений, включая понимание как изображений, так и видео. Мы разработали продвинутый конвейер для генерации вопросов с множественным выбором, которые нацелены на конкретные оценочные измерения, интегрируя как автоматическую фильтрацию, так и процессы ручной проверки. Вопросы с множественным выбором и эталонными вариантами ответов, основанными на аннотациях людей, позволяют проводить объективную и эффективную оценку производительности моделей, устраняя необходимость вмешательства человека или GPT в процессе оценки. Мы также оцениваем производительность 18 моделей по всем 12 измерениям, охватывая как пространственное, так и временное понимание. Выявляя ограничения существующих MLLM через результаты оценки, мы стремимся к тому, чтобы SEED-Bench предоставил ценные инсайты для мотивации будущих исследований. Мы запустим и будем постоянно поддерживать рейтинговую таблицу, чтобы предоставить сообществу платформу для оценки и исследования возможностей моделей.
Автономные роботы, развернутые в реальном мире, потребуют стратегий управления, способных быстро адаптироваться к изменениям окружающей среды. Для достижения этой цели мы предлагаем AutoRobotics-Zero (ARZ) — метод, основанный на AutoML-Zero, который позволяет находить стратегии, адаптируемые с нуля без предварительного обучения. В отличие от стратегий адаптации на основе нейронных сетей, где оптимизируются только параметры модели, ARZ способен создавать алгоритмы управления с полной выразительной мощью линейной регистровой машины. Мы разрабатываем модульные стратегии, которые настраивают параметры модели и изменяют алгоритм вывода на лету для адаптации к внезапным изменениям среды. Мы демонстрируем наш метод на реалистичной симуляции четвероногого робота, для которого создаем безопасные стратегии управления, предотвращающие падение при внезапной поломке отдельных конечностей. Это сложная задача, с которой не справляются две популярные базовые модели на основе нейронных сетей. Наконец, мы проводим детальный анализ нашего метода на новой и сложной нестационарной задаче управления, названной "Катастрофический Cartpole". Результаты подтверждают, что ARZ значительно более устойчив к внезапным изменениям среды и способен создавать простые и интерпретируемые стратегии управления.