Ежедневно отобранные исследовательские статьи по ИИ с переводами
С развитием моделей преобразования текста в изображения (например, Stable Diffusion) и соответствующих методов персонализации, таких как DreamBooth и LoRA, каждый может воплотить свое воображение в высококачественные изображения с минимальными затратами. В связи с этим возникает значительный спрос на технологии анимации изображений, которые позволят дополнить статичные сгенерированные изображения динамикой движения. В данном отчете мы предлагаем практическую структуру для анимации большинства существующих персонализированных моделей преобразования текста в изображения, что избавляет от необходимости настройки для каждой конкретной модели. Основой предложенной структуры является внедрение нового модуля моделирования движения в замороженную модель преобразования текста в изображения и его обучение на видеоклипах для извлечения разумных априорных знаний о движении. После обучения, просто добавив этот модуль моделирования движения, все персонализированные версии, созданные на основе одной и той же базовой модели T2I, легко превращаются в текстово-управляемые модели, способные создавать разнообразные и персонализированные анимированные изображения. Мы проводим оценку на нескольких публичных представительных персонализированных моделях преобразования текста в изображения, охватывающих аниме и реалистичные фотографии, и демонстрируем, что предложенная структура помогает этим моделям генерировать временно плавные анимационные клипы, сохраняя при этом специфику и разнообразие их выходных данных. Код и предварительно обученные веса будут доступны по адресу https://animatediff.github.io/.
Крупные языковые модели (LLM) сформировали основу для продвижения в области искусственного общего интеллекта. Их главная цель — функционировать как помощник, ориентированный на человека (полезный, честный и безопасный). Согласование с человеческими ценностями приобретает первостепенное значение, а обучение с подкреплением на основе человеческой обратной связи (RLHF) становится ключевой технологической парадигмой, лежащей в основе этого стремления. Современные технические подходы обычно включают модели вознаграждения для измерения человеческих предпочтений, оптимизацию проксимальной политики (PPO) для оптимизации выходных данных модели политики и контроль процесса для улучшения пошаговых способностей к рассуждению. Однако из-за сложностей проектирования вознаграждений, взаимодействия с окружающей средой и обучения агентов, а также огромных затрат на метод проб и ошибок в крупных языковых моделях, перед исследователями ИИ стоит значительный барьер в мотивации развития технического согласования и безопасного внедрения LLM. Стабильное обучение RLHF до сих пор остается загадкой. В первом отчете мы анализируем структуру RLHF, переоцениваем внутренние механизмы PPO и исследуем, как компоненты, составляющие алгоритмы PPO, влияют на обучение агентов политики. Мы определяем ограничения политики как ключевой фактор для эффективной реализации алгоритма PPO. Поэтому мы исследуем PPO-max, усовершенствованную версию алгоритма PPO, чтобы эффективно повысить стабильность обучения модели политики. На основе наших основных результатов мы проводим всесторонний анализ возможностей RLHF в сравнении с моделями SFT и ChatGPT. Отсутствие открытых реализаций создало значительные трудности для исследования согласования LLM. Поэтому мы стремимся опубликовать технические отчеты, модели вознаграждения и коды PPO.
В последнее время был достигнут значительный прогресс в творческих приложениях крупных предобученных моделей для задач в области 3D-видения, таких как генерация форм из текста. Это мотивирует наше исследование того, как эти предобученные модели могут быть эффективно использованы для генерации 3D-форм из эскизов, что до сих пор оставалось открытой проблемой из-за ограниченного количества парных наборов данных "эскиз-форма" и различного уровня абстракции в эскизах. Мы обнаружили, что использование признаков (полученных из замороженной крупной предобученной модели зрения) синтетических рендеров в качестве условия для 3D-генеративной модели во время обучения позволяет эффективно генерировать 3D-формы из эскизов на этапе вывода. Это говорит о том, что признаки крупной предобученной модели зрения содержат семантические сигналы, устойчивые к сдвигам доменов, то есть позволяют использовать только RGB-рендеры, но обобщать на эскизы на этапе вывода. Мы проводим всесторонний набор экспериментов, исследующих различные факторы проектирования, и демонстрируем эффективность нашего простого подхода для генерации нескольких 3D-форм для каждого входного эскиза независимо от их уровня абстракции, не требуя парных наборов данных во время обучения.
Мы представляем Emu, мультимодальную базовую модель на основе архитектуры Transformer, которая способна бесшовно генерировать изображения и тексты в мультимодальном контексте. Эта универсальная модель может принимать любые одноканальные или мультимодальные данные без разбора (например, чередующиеся изображения, тексты и видео) благодаря процессу авторегрессивного обучения, реализованному в рамках единой модели. Сначала визуальные сигналы кодируются в эмбеддинги и вместе с текстовыми токенами формируют чередующуюся входную последовательность. Emu обучается сквозным образом с единой целью классификации следующего текстового токена или регрессии следующего визуального эмбеддинга в мультимодальной последовательности. Эта универсальная мультимодальность позволяет масштабно исследовать разнообразные источники данных для предварительного обучения, такие как видео с чередующимися кадрами и текстами, веб-страницы с чередующимися изображениями и текстами, а также масштабные пары изображение-текст и видео-текст. Emu может служить универсальным мультимодальным интерфейсом для задач как генерации текста по изображению, так и генерации изображения по тексту, а также поддерживает генерацию изображений и текстов в контексте. На широком спектре задач с нулевым/малым количеством примеров, включая создание подписей к изображениям, визуальный и видео-вопросоответ, а также генерацию изображений по тексту, Emu демонстрирует превосходную производительность по сравнению с современными крупными мультимодальными моделями. Также продемонстрированы расширенные возможности, такие как мультимодальные ассистенты, настраиваемые с помощью инструкций, с впечатляющими результатами.
В данной статье мы представляем Semantic-SAM — универсальную модель сегментации изображений, способную сегментировать и распознавать объекты на любом уровне детализации. Наша модель обладает двумя ключевыми преимуществами: семантической осведомленностью и поддержкой множества уровней детализации. Для достижения семантической осведомленности мы объединяем несколько наборов данных, охватывающих три уровня детализации, и вводим раздельную классификацию для объектов и их частей. Это позволяет модели захватывать богатую семантическую информацию. Для реализации поддержки множества уровней детализации мы предлагаем схему многовариантного обучения на этапе тренировки, которая позволяет каждому клику генерировать маски на нескольких уровнях, соответствующих нескольким эталонным маскам. Примечательно, что данная работа представляет собой первую попытку совместного обучения модели на наборах данных SA-1B, общей и частичной сегментации. Результаты экспериментов и визуализации демонстрируют, что наша модель успешно достигает семантической осведомленности и поддержки множества уровней детализации. Более того, комбинирование обучения на SA-1B с другими задачами сегментации, такими как панорамная и частичная сегментация, приводит к улучшению производительности. Мы предоставим код и демонстрацию для дальнейшего изучения и оценки.
Мы представляем VampNet — подход к синтезу, сжатию, восстановлению и вариациям музыки на основе моделирования маскированных акустических токенов. В процессе обучения используется переменный график маскирования, что позволяет генерировать согласованную музыку, применяя различные стратегии маскирования (называемые промптами) на этапе вывода. VampNet является неавторегрессивной моделью, использующей двунаправленную архитектуру трансформера, которая обрабатывает все токены за один прямой проход. Всего за 36 проходов VampNet способен генерировать согласованные высококачественные музыкальные волновые формы. Мы демонстрируем, что, используя различные промпты, VampNet можно применять для задач сжатия музыки, восстановления пропущенных фрагментов, расширения, продолжения и создания вариаций (vamping). При правильном промптировании VampNet способен сохранять стиль, жанр, инструментовку и другие высокоуровневые аспекты музыки. Эта гибкость в промптировании делает VampNet мощным инструментом для совместного создания музыки. Код и аудиообразцы доступны онлайн.
Человеческий интеллект процветает благодаря концепции когнитивной синергии, где сотрудничество и интеграция информации между различными когнитивными процессами приводят к превосходным результатам по сравнению с изолированными когнитивными процессами. Хотя крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в качестве универсальных агентов для решения задач, они всё ещё сталкиваются с трудностями при выполнении задач, требующих глубоких знаний в конкретной области и сложного рассуждения. В данной работе мы предлагаем метод Solo Performance Prompting (SPP), который превращает одну LLM в когнитивного синергиста, вовлекая её в многошаговое само-сотрудничество с множеством персонажей. Когнитивный синергист — это интеллектуальный агент, который сотрудничает с множеством "умов", объединяя их индивидуальные сильные стороны и знания для улучшения решения задач и общей производительности в сложных ситуациях. Динамически идентифицируя и моделируя различные персонажи на основе входных данных задачи, SPP раскрывает потенциал когнитивной синергии в LLM. Мы обнаружили, что назначение множества детализированных персонажей в LLM способствует лучшим способностям к решению задач по сравнению с использованием одного или фиксированного числа персонажей. Мы оцениваем SPP на трёх сложных задачах: Trivia Creative Writing, Codenames Collaborative и Logic Grid Puzzle, охватывающих как задачи, требующие глубоких знаний, так и задачи, требующие сложного рассуждения. В отличие от предыдущих работ, таких как Chain-of-Thought, которые лишь усиливают способности к рассуждению в LLM, SPP эффективно стимулирует внутренние способности к приобретению знаний, снижает галлюцинации и сохраняет сильные возможности рассуждения. Код, данные и промпты можно найти по адресу: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
Мы наблюдаем, что предварительно обученные большие языковые модели (LLM) способны авторегрессивно завершать сложные последовательности токенов — начиная от произвольных последовательностей, сгенерированных процедурно с использованием вероятностных контекстно-свободных грамматик (PCFG), и заканчивая более богатыми пространственными паттернами, обнаруженными в наборе данных Abstract Reasoning Corpus (ARC), общем тесте на искусственный интеллект, представленном в стиле ASCII-арта. Удивительно, но способность к завершению паттернов частично сохраняется даже в случаях, когда последовательности выражены с использованием токенов, случайно выбранных из словаря. Эти результаты позволяют предположить, что без дополнительного обучения LLM могут выступать в роли универсальных моделей последовательностей, управляемых обучением в контексте. В данной работе мы исследуем, как эти возможности в режиме "zero-shot" могут быть применены к задачам в робототехнике — от экстраполяции последовательностей чисел, представляющих состояния во времени, для завершения простых движений, до подхода "от меньшего к большему" (least-to-most prompting) для траекторий, обусловленных наградой, которые могут обнаруживать и представлять замкнутые политики (например, стабилизирующий контроллер для задачи CartPole). Хотя сегодня развертывание таких подходов для реальных систем затруднено из-за задержек, ограничений на размер контекста и вычислительных затрат, использование LLM для управления низкоуровневым контролем может дать захватывающее представление о том, как паттерны среди слов могут быть перенесены на действия.
Одной из проблем в разработке систем обработки естественного языка (NLP) для языков мира является понимание того, как они обобщают типологические различия, важные для реальных приложений. В связи с этим мы предлагаем M2C — морфологически осознанный фреймворк для поведенческого тестирования моделей NLP. Мы используем M2C для создания тестов, которые исследуют поведение моделей с учетом конкретных лингвистических особенностей в 12 типологически разнообразных языках. Мы оцениваем современные языковые модели на основе сгенерированных тестов. Хотя модели демонстрируют высокие результаты в большинстве тестов на английском языке, мы выявляем проблемы обобщения для определенных типологических характеристик, таких как временные выражения в суахили и сложные притяжательные конструкции в финском. Наши результаты подчеркивают необходимость разработки моделей, которые устраняют эти пробелы.
Крупные языковые модели (LLM) достигли значительных успехов в области обработки естественного языка, улучшив взаимодействие человека и компьютера с использованием естественной речи. Однако интеграция речевых сигналов в LLM до сих пор изучена недостаточно. Архитектура "только декодер" также не была хорошо исследована для задач обработки речи. В данной работе мы представляем Speech-LLaMA — новый подход, который эффективно интегрирует акустическую информацию в текстовые крупные языковые модели. Наш метод использует Connectionist Temporal Classification и простой аудио-энкодер для отображения сжатых акустических признаков в непрерывное семантическое пространство LLM. Кроме того, мы исследуем архитектуру "только декодер" для задач преобразования речи в текст, обучая меньшую по масштабу модель Speech-LLaMA с случайной инициализацией исключительно на парных данных "речь-текст". Мы проводим эксперименты на задачах многоязычного перевода речи в текст и демонстрируем значительное улучшение по сравнению с сильными базовыми моделями, подчеркивая потенциальные преимущества моделей "только декодер" для преобразования речи в текст.
Международные институты могут играть важную роль в обеспечении того, чтобы передовые системы искусственного интеллекта приносили пользу человечеству. Международное сотрудничество способно раскрыть потенциал ИИ для содействия устойчивому развитию, а координация регуляторных усилий может снизить барьеры для инноваций и распространения преимуществ. С другой стороны, потенциально опасные возможности мощных и универсальных систем ИИ создают глобальные внешние эффекты в их разработке и внедрении, и международные усилия по продвижению ответственных практик ИИ могут помочь управлять связанными с ними рисками. В данной статье определяется набор функций управления, которые могут быть реализованы на международном уровне для решения этих вызовов, начиная от поддержки доступа к передовым системам ИИ и заканчивая установлением международных стандартов безопасности. Эти функции группируются в четыре институциональные модели, которые демонстрируют внутреннюю синергию и имеют прецеденты в существующих организациях: 1) Комиссия по передовому ИИ, которая способствует достижению экспертного консенсуса по возможностям и рискам, связанным с передовым ИИ, 2) Организация по управлению передовым ИИ, которая устанавливает международные стандарты для управления глобальными угрозами от передовых моделей, поддерживает их внедрение и, возможно, контролирует соблюдение будущего режима управления, 3) Коллаборация по передовому ИИ, которая способствует доступу к передовым технологиям ИИ, и 4) Проект по безопасности ИИ, который объединяет ведущих исследователей и инженеров для продвижения исследований в области безопасности ИИ. Мы исследуем полезность этих моделей и определяем открытые вопросы, касающиеся их жизнеспособности.
Цель синтеза программ, или генерации кода, заключается в создании исполняемого кода на основе заданных описаний. В последнее время наблюдается рост числа исследований, использующих обучение с подкреплением (RL) для повышения производительности больших языковых моделей (LLM) в области генерации кода. Однако эти методы RL применялись только в рамках оффлайн-подходов, что ограничивает их способность исследовать новые пространства выборок. Кроме того, существующие подходы, использующие сигналы от модульных тестов, являются довольно простыми и не учитывают конкретные места ошибок в коде. Для решения этих проблем мы предложили RLTF, то есть обучение с подкреплением на основе обратной связи от модульных тестов, — новый онлайн-фреймворк RL с обратной связью от модульных тестов различной гранулярности для улучшения LLM, генерирующих код. Наш подход позволяет генерировать данные в реальном времени в процессе обучения и одновременно использовать детализированные сигналы обратной связи для направления модели на создание кода более высокого качества. Многочисленные эксперименты показывают, что RLTF достигает наилучших результатов на бенчмарках APPS и MBPP. Наш код доступен по ссылке: https://github.com/Zyq-scut/RLTF.
Согласованность и надежность имеют решающее значение для проведения исследований в области искусственного интеллекта. Многие известные области исследований, такие как обнаружение объектов, были сравнены и проверены с использованием надежных эталонных фреймворков. После появления AlphaFold2 задача предсказания структуры белков перешла на новый этап, и многие методы были предложены на основе компонентов AlphaFold2. Важность унифицированного исследовательского фреймворка в области предсказания структуры белков заключается в реализации и эталонировании, которые позволяют последовательно и справедливо сравнивать различные подходы. Для достижения этой цели мы представляем Solvent — фреймворк для предсказания структуры белков, который поддерживает ключевые компоненты современных моделей в виде готового интерфейса. Solvent включает различные модели, реализованные в единой кодовой базе, и поддерживает обучение и оценку определенных моделей на одном и том же наборе данных. Мы проводим эталонирование известных алгоритмов и их компонентов и предоставляем эксперименты, которые дают полезные инсайты в области моделирования структуры белков. Мы надеемся, что Solvent повысит надежность и согласованность предлагаемых моделей, а также обеспечит эффективность как в скорости, так и в затратах, что приведет к ускорению исследований в области моделирования структуры белков. Код доступен по адресу https://github.com/kakaobrain/solvent, и проект будет продолжать развиваться.
Мы предлагаем систему для перестановки объектов в сцене с целью достижения желаемого отношения размещения объекта в сцене, например, вставки книги в открытый слот книжной полки. Наш подход обобщается на новые геометрии, позы и компоновки как сцен, так и объектов, и обучается на демонстрациях для работы непосредственно с 3D-облаками точек. Наша система преодолевает проблемы, связанные с существованием множества геометрически схожих решений для перестановки в заданной сцене. Используя итеративную процедуру обучения для устранения шума в позах, мы можем адаптироваться к многомодальным данным демонстраций и генерировать многомодальные выходные данные, сохраняя при этом точность и аккуратность. Мы также показываем преимущества учета локальных геометрических особенностей при игнорировании нерелевантной глобальной структуры, которая ухудшает как обобщение, так и точность. Мы демонстрируем наш подход на трех различных задачах перестановки, требующих обработки многомодальности и обобщения формы и позы объектов как в симуляции, так и в реальном мире. Веб-сайт проекта, код и видео: https://anthonysimeonov.github.io/rpdiff-multi-modal/
Голосовой ввод текста становится все более важным способом ввода данных. Существующие системы, которые позволяют как диктовку, так и редактирование голосом, ограничивают свой командный язык плоскими шаблонами, активируемыми ключевыми словами. В данной работе мы исследуем возможность предоставления пользователям возможности прерывать диктовку голосовыми командами редактирования на естественном языке без ограничений. Мы представляем новую задачу и набор данных, TERTiUS, для экспериментов с такими системами. Для поддержки такой гибкости в реальном времени система должна инкрементально сегментировать и классифицировать отрезки речи как диктовку или команду, а также интерпретировать отрезки, являющиеся командами. Мы экспериментируем с использованием крупных предобученных языковых моделей для предсказания отредактированного текста или, альтернативно, для предсказания небольшой программы редактирования текста. Эксперименты показывают естественный компромисс между точностью модели и задержкой: меньшая модель достигает 30% точности конечного состояния с задержкой 1,3 секунды, в то время как более крупная модель достигает 55% точности конечного состояния с задержкой 7 секунд.
Телеуправление на основе зрения предлагает возможность наделить роботов интеллектом человеческого уровня для физического взаимодействия с окружающей средой, требуя при этом только недорогих камер. Однако современные системы телеуправления на основе зрения проектируются и разрабатываются для конкретной модели робота и среды развертывания, что плохо масштабируется по мере увеличения разнообразия моделей роботов и условий эксплуатации. В данной статье мы представляем AnyTeleop — унифицированную и общую систему телеуправления, которая поддерживает множество различных манипуляторов, захватов, реальностей и конфигураций камер в рамках одной системы. Несмотря на то, что система разработана для обеспечения высокой гибкости в выборе симуляторов и реального оборудования, она по-прежнему демонстрирует отличную производительность. В реальных экспериментах AnyTeleop превосходит предыдущую систему, разработанную для конкретного аппаратного обеспечения робота, с более высоким процентом успеха, используя того же робота. Для телеуправления в симуляции AnyTeleop обеспечивает лучшие результаты в обучении с имитацией по сравнению с предыдущей системой, специально разработанной для этого симулятора. Страница проекта: http://anyteleop.com/.