Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) и модели, объединяющие зрение и язык (VLM), доказали свою эффективность в решении множества задач, таких как рассуждения на основе здравого смысла. Несмотря на их мощь, эти модели не заземлены в трехмерном физическом мире, который включает более богатые концепции, такие как пространственные отношения, аффордансы, физика, планировка и так далее. В данной работе мы предлагаем внедрить трехмерный мир в крупные языковые модели и представляем новое семейство 3D-LLM. В частности, 3D-LLM могут принимать на вход облака точек и их характеристики, выполняя широкий спектр задач, связанных с 3D, включая генерацию описаний, плотное описание, ответы на вопросы в 3D, декомпозицию задач, локализацию в 3D, диалоги с использованием 3D, навигацию и многое другое. Используя три типа разработанных нами механизмов подсказок, мы смогли собрать более 300 тысяч данных, связывающих 3D и язык, охватывающих эти задачи. Для эффективного обучения 3D-LLM мы сначала используем 3D-экстрактор признаков, который получает 3D-характеристики из рендеренных изображений с нескольких ракурсов. Затем мы используем 2D VLM в качестве основы для обучения наших 3D-LLM. Внедрив механизм 3D-локализации, 3D-LLM могут лучше улавливать пространственную информацию. Эксперименты на данных ScanQA показывают, что наша модель значительно превосходит современные базовые модели (например, показатель BLEU-1 превышает лучший результат на 9%). Кроме того, эксперименты на наших собственных наборах данных для 3D-описаний, композиции задач и диалогов с использованием 3D демонстрируют, что наша модель превосходит 2D VLM. Качественные примеры также показывают, что наша модель способна выполнять задачи, выходящие за рамки существующих LLM и VLM. Страница проекта: https://vis-www.cs.umass.edu/3dllm/.
Предварительно обученные большие языковые модели (LLM) недавно достигли лучшей обобщаемости и эффективности использования данных в автономной навигации в вебе. Однако производительность на реальных веб-сайтах всё ещё страдает от (1) открытой доменности, (2) ограниченной длины контекста и (3) отсутствия индуктивного смещения для HTML. Мы представляем WebAgent — агента на основе LLM, который может выполнять задачи на реальных веб-сайтах, следуя инструкциям на естественном языке. WebAgent планирует заранее, разбивая инструкции на канонические подзадачи, суммирует длинные HTML-документы в релевантные для задачи фрагменты и взаимодействует с веб-сайтами через сгенерированные на их основе программы на Python. Мы разработали WebAgent с использованием Flan-U-PaLM для генерации заземлённого кода и HTML-T5 — новых предварительно обученных LLM для работы с длинными HTML-документами, использующих локальные и глобальные механизмы внимания, а также смесь задач по восстановлению длинных последовательностей, для планирования и суммирования. Эмпирически мы демонстрируем, что наш подход повышает успешность выполнения задач на реальном веб-сайте более чем на 50%, а HTML-T5 является лучшей моделью для решения задач на основе HTML, достигая на 14,9% более высокой успешности, чем предыдущее состояние искусства на бенчмарке MiniWoB для веб-навигации, а также лучшей точности в офлайн-оценке планирования задач.
Одной из малоизученных областей генерации и редактирования изображений является задача интерполяции между двумя входными изображениями, функция, отсутствующая во всех существующих на данный момент конвейерах генерации изображений. Мы утверждаем, что такая функция может расширить творческие возможности подобных моделей, и предлагаем метод интерполяции в режиме zero-shot с использованием латентных диффузионных моделей. Мы применяем интерполяцию в латентном пространстве на последовательности уменьшающихся уровней шума, а затем выполняем удаление шума, обусловленное интерполированными текстовыми эмбеддингами, полученными с помощью текстовой инверсии и (опционально) поз объектов. Для повышения согласованности или задания дополнительных критериев мы можем генерировать несколько кандидатов и использовать CLIP для выбора изображения наивысшего качества. Мы получаем убедительные результаты интерполяции для различных поз объектов, стилей изображений и их содержания, а также показываем, что стандартные количественные метрики, такие как FID, недостаточны для оценки качества интерполяции. Код и данные доступны по адресу https://clintonjwang.github.io/interpolation.
Крупные языковые модели продемонстрировали высокую гибкость, способность решать широкий спектр генеративных задач, таких как абстрактное суммирование и открытые вопросы. В данной работе мы расширяем возможности языковых моделей, напрямую подключая к ним небольшой аудиоэнкодер, что позволяет им выполнять распознавание речи. Путем непосредственного добавления последовательности аудиальных эмбеддингов к эмбеддингам текстовых токенов языковая модель может быть преобразована в систему автоматического распознавания речи (ASR) и использоваться точно так же, как и её текстовая версия. Эксперименты на наборе данных Multilingual LibriSpeech (MLS) показывают, что интеграция конформерного энкодера в открытую модель LLaMA-7B позволяет ей превзойти монолингвальные базовые модели на 18% и выполнять многоязычное распознавание речи, несмотря на то, что LLaMA обучалась преимущественно на английских текстах. Кроме того, мы проводим исследования с удалением компонентов, чтобы выяснить, можно ли полностью заморозить языковую модель во время обучения для сохранения её исходных возможностей, масштабировать аудиоэнкодер и увеличить шаг аудиоэнкодера для генерации меньшего количества эмбеддингов. Результаты этих исследований показывают, что многоязычное ASR возможно даже при замороженной языковой модели или при использовании шага аудиоэнкодера длительностью почти в 1 секунду, что открывает возможность для работы языковых моделей с длинными аудиозаписями.
С появлением ChatGPT множество компаний начали предоставлять услуги на основе крупных моделей Transformer. Однако использование таких сервисов неизбежно приводит к утечке пользовательских запросов к поставщику модели. Предыдущие исследования изучали безопасный вывод для моделей Transformer с использованием безопасных многосторонних вычислений (MPC), где параметры модели и запросы клиентов остаются конфиденциальными. Несмотря на это, эти фреймворки всё ещё ограничены в плане производительности модели, эффективности и развёртывания. Чтобы устранить эти ограничения, мы предлагаем фреймворк PUMA, который обеспечивает быстрый и безопасный вывод моделей Transformer. Наш фреймворк разрабатывает высококачественные аппроксимации для дорогостоящих функций, таких как GeLU и Softmax, что значительно снижает затраты на безопасный вывод, сохраняя при этом производительность модели. Кроме того, мы разработали безопасные процедуры Embedding и LayerNorm, которые точно реализуют требуемую функциональность, не нарушая архитектуру Transformer. PUMA примерно в 2 раза быстрее, чем современный MPC-фреймворк MPCFORMER (ICLR 2023), и имеет точность, сопоставимую с моделями в открытом тексте, без необходимости тонкой настройки (чего не удалось достичь в предыдущих работах). Кроме того, PUMA может оценить модель LLaMA-7B примерно за 5 минут для генерации одного токена. Насколько нам известно, это первый случай, когда модель с таким количеством параметров может быть оценена в рамках MPC. PUMA была открыта в репозитории GitHub SecretFlow-SPU.
По мере того как крупные языковые модели (LLMs) выполняют всё более сложные задачи, становится труднее проверять корректность и безопасность их поведения. Один из подходов к решению этой проблемы заключается в том, чтобы побуждать LLMs внешне выражать свои рассуждения, например, заставляя их генерировать пошаговые рассуждения при ответе на вопрос (Chain-of-Thought; CoT). Такие рассуждения могут позволить нам проверить процесс, который модели используют для выполнения задач. Однако этот подход основывается на том, что заявленные рассуждения точно отражают реальные рассуждения модели, что не всегда так. Чтобы повысить достоверность рассуждений CoT, мы заставляем модели генерировать рассуждения, разбивая вопросы на подвопросы. Методы, основанные на декомпозиции, демонстрируют высокую производительность в задачах ответов на вопросы, иногда приближаясь к результатам CoT, при этом улучшая достоверность заявленных рассуждений модели по нескольким недавно предложенным метрикам. Заставляя модель отвечать на более простые подвопросы в отдельных контекстах, мы значительно повышаем достоверность генерируемых моделью рассуждений по сравнению с CoT, сохраняя при этом некоторые преимущества в производительности, характерные для CoT. Наши результаты показывают, что можно улучшить достоверность генерируемых моделью рассуждений; дальнейшие улучшения могут привести к созданию рассуждений, которые позволят нам проверять корректность и безопасность поведения LLM.
Современные языковые модели охватывают обширный объем фактических знаний. Однако некоторые факты могут быть некорректно выведены или устареть со временем, что приводит к генерации фактически неверных утверждений. Это стимулировало разработку различных методов редактирования, позволяющих обновлять факты, закодированные в модели. Оценка этих методов в основном сосредоточена на проверке того, был ли успешно внедрен отдельный факт и не изменились ли предсказания для других связанных объектов. Мы утверждаем, что такая оценка ограничена, поскольку внедрение одного факта (например, «Джек Депп — сын Джонни Деппа») вызывает «эффект ряби» в виде дополнительных фактов, которые модель должна обновить (например, «Джек Депп — брат Лили-Роуз Депп»). Чтобы решить эту проблему, мы предлагаем новый набор критериев оценки, учитывающих последствия редактирования для связанных фактов. Используя эти критерии, мы создаем диагностический бенчмарк из 5 тысяч фактологических правок, охватывающий различные типы эффектов ряби. Мы оцениваем ведущие методы редактирования на этом бенчмарке, показывая, что текущие методы не обеспечивают согласованных изменений в знаниях модели. Кроме того, мы обнаруживаем, что простой базовый метод редактирования в контексте демонстрирует наилучшие результаты на нашем бенчмарке, что указывает на перспективное направление исследований в области редактирования моделей.
Мы предлагаем метод Обучения с Подкреплением на основе Контрастной Дистилляции (RLCD) для согласования языковых моделей с принципами естественного языка без использования обратной связи от человека. RLCD обучает модель предпочтений с использованием смоделированных пар предпочтений, содержащих как высококачественные, так и низкокачественные примеры, сгенерированные с помощью контрастных положительных и отрицательных запросов. Затем модель предпочтений используется для улучшения базовой несогласованной языковой модели посредством обучения с подкреплением. Эмпирически RLCD превосходит базовые методы RLAIF (Bai et al., 2022b) и контекстной дистилляции (Huang et al., 2022) в трех различных задачах согласования — безвредности, полезности и генерации сюжетных контуров — а также на масштабах моделей 7B и 30B для симуляции данных предпочтений.
В данной статье подвергается сомнению устоявшаяся парадигма построения сетей с произвольной топологией (any-to-any) для обучения крупных языковых моделей (LLM). Мы демонстрируем, что LLM демонстрируют уникальный паттерн коммуникации, при котором только небольшие группы графических процессоров (GPU) требуют высокоскоростной произвольной коммуникации внутри себя для достижения почти оптимальной производительности обучения. Между этими группами GPU коммуникация незначительна, редка и однородна. Мы предлагаем новую архитектуру сети, которая точно соответствует требованиям коммуникации LLM. Наша архитектура разделяет кластер на наборы GPU, соединенных между собой неблокирующими высокоскоростными соединениями произвольной топологии, которые мы называем HB-доменами. Между HB-доменами сеть соединяет только те GPU, которые имеют потребность в коммуникации. Мы называем это соединение "рельсовым" (rail-only) и показываем, что предложенная архитектура снижает стоимость сети до 75% по сравнению с современными сетями Clos с произвольной топологией, не ухудшая при этом производительность обучения LLM.
Самообучение визуальных представлений традиционно сосредоточено на изучении признаков содержания, которые не учитывают движение или местоположение объектов, а направлены на идентификацию и различение объектов в изображениях и видео. С другой стороны, задача оценки оптического потока не требует понимания содержания изображений, на которых она выполняется. Мы объединяем эти два подхода и представляем MC-JEPA — архитектуру совместного предсказания вложений и метод самообучения, который позволяет совместно изучать оптический поток и признаки содержания с использованием общего кодировщика. Мы демонстрируем, что две связанные задачи — цель оценки оптического потока и цель самообучения — взаимно обогащают друг друга, что приводит к изучению признаков содержания, включающих информацию о движении. Предложенный подход демонстрирует результаты, сопоставимые с существующими методами оценки оптического потока без учителя, а также с распространенными подходами самообучения на задачах последующего анализа, таких как семантическая сегментация изображений и видео.
Модели, подобные DETR, значительно повысили производительность детекторов и даже превзошли классические сверточные модели. Однако в традиционной структуре энкодера все токены обрабатываются одинаково, без различия, что приводит к избыточной вычислительной нагрузке. Недавние стратегии разрежения используют подмножество информативных токенов для снижения сложности механизма внимания, сохраняя при этом производительность через разреженный энкодер. Но эти методы часто полагаются на ненадежные статистические данные модели. Более того, простое сокращение количества токенов в значительной степени ухудшает производительность детектирования, ограничивая применение таких разреженных моделей. Мы предлагаем Focus-DETR, который концентрирует внимание на более информативных токенах для достижения лучшего баланса между вычислительной эффективностью и точностью модели. В частности, мы реконструируем энкодер с двойным вниманием, включающим механизм оценки токенов, который учитывает как локализацию, так и семантическую информацию категорий объектов на основе многомасштабных карт признаков. Мы эффективно отбрасываем фоновые запросы и усиливаем семантическое взаимодействие детализированных запросов объектов на основе оценок. По сравнению с современными разреженными детекторами, подобными DETR, в тех же условиях наш Focus-DETR демонстрирует сопоставимую сложность, достигая 50.4 AP (+2.2) на COCO. Код доступен по адресам: https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR и https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
Прогнозирование долгосрочной активности представляет собой особенно сложную исследовательскую задачу, поскольку требует понимания временных взаимосвязей между наблюдаемыми действиями, а также изменчивости и сложности человеческой деятельности. Несмотря на использование строгого контроля через дорогостоящие аннотации, созданные человеком, современные методы прогнозирования часто плохо обобщаются на новые данные. Чтобы смягчить эту проблему, мы предлагаем Multiscale Video Pretraining (MVP) — новый подход к самоконтролируемому предобучению, который изучает устойчивые представления для прогнозирования, обучаясь предсказывать контекстуализированные представления будущих видеоклипов на нескольких временных масштабах. MVP основан на нашем наблюдении, что действия в видео имеют многоуровневую природу, где атомарные действия обычно происходят на коротком временном масштабе, а более сложные действия могут охватывать более длительные периоды. Мы сравниваем MVP с современными подходами к самоконтролируемому обучению на видео в задачах долгосрочного прогнозирования, включая предсказание долгосрочных действий и прогнозирование видеосводок. Наши всесторонние эксперименты на наборах данных Ego4D и Epic-Kitchens-55/100 показывают, что MVP значительно превосходит современные методы. В частности, MVP демонстрирует относительное улучшение точности более чем на 20% в прогнозировании видеосводок по сравнению с существующими методами.