Ежедневно отобранные исследовательские статьи по ИИ с переводами
Увеличение размера модели трансформера не всегда приводит к улучшению производительности. Этот феномен не может быть объяснен эмпирическими законами масштабирования. Более того, улучшенная обобщающая способность проявляется при запоминании моделью обучающих образцов. Мы представляем теоретическую основу, которая проливает свет на процесс запоминания и динамику производительности языковых моделей на основе трансформера. Мы моделируем поведение трансформеров с использованием ассоциативных памяти с помощью сетей Хопфилда, таким образом, что каждый блок трансформера эффективно осуществляет приблизительный поиск ближайшего соседа. На основе этого мы разрабатываем энергетическую функцию, аналогичную современной непрерывной сети Хопфилда, которая предоставляет содержательное объяснение механизма внимания. С использованием техники мажоризации-минимизации мы строим глобальную энергетическую функцию, которая учитывает слоистую архитектуру трансформера. При определенных условиях мы показываем, что минимальная достижимая потеря перекрестной энтропии ограничена снизу постоянной, приблизительно равной 1. Мы подтверждаем наши теоретические результаты, проводя эксперименты с GPT-2 на различных объемах данных, а также обучая обычные трансформеры на наборе данных из 2 миллионов токенов.
Как люди, мы стремимся создавать медиа-контент, который был бы и свободно волен, и легко контролируем. Благодаря значительному развитию генеративных техник, мы теперь можем легко использовать 2D методы диффузии для синтеза изображений, контролируемых сырым наброском или заданными позами человека, а также постепенно редактировать/регенерировать локальные области с помощью маскированного заполнения. Однако аналогичные рабочие процессы в задачах 3D-моделирования до сих пор недоступны из-за недостаточной контролируемости и эффективности в 3D-генерации. В данной статье мы представляем новую контролируемую и интерактивную рамку моделирования 3D-активов, названную Coin3D. Coin3D позволяет пользователям контролировать генерацию 3D с помощью грубого геометрического прокси, собранного из базовых форм, и вводит интерактивный рабочий процесс генерации для поддержки плавного редактирования локальных частей, обеспечивая отзывчивый предпросмотр 3D-объекта всего за несколько секунд. Для этого мы разработали несколько техник, включая 3D-адаптер, который применяет объемное управление грубой формой к модели диффузии, стратегию редактирования с ограничением прокси для точного редактирования части, прогрессивный объемный кэш для поддержки отзывчивого предпросмотра и объемный SDS для обеспечения последовательной реконструкции сетки. Обширные эксперименты по интерактивной генерации и редактированию на различных формах прокси демонстрируют, что наш метод достигает превосходной контролируемости и гибкости в задаче генерации 3D-активов.
Мы представляем Hunyuan-DiT, трансформер диффузии текста в изображение с тонким пониманием как английского, так и китайского языков. Для создания Hunyuan-DiT мы тщательно разрабатываем структуру трансформера, кодировщик текста и позиционное кодирование. Мы также с нуля создаем весь конвейер данных для обновления и оценки данных для итеративной оптимизации модели. Для тонкого понимания языка мы обучаем Мультимодельную Большую Языковую Модель для усовершенствования подписей к изображениям. Наконец, Hunyuan-DiT способен вести многоходовой мультимодальный диалог с пользователями, создавая и усовершенствуя изображения в соответствии с контекстом. Через наш протокол голистической оценки человеком с более чем 50 профессиональными оценщиками, Hunyuan-DiT устанавливает новый уровень качества в генерации изображений по китайскому языку по сравнению с другими моделями с открытым исходным кодом. Код и предварительно обученные модели доступны публично на github.com/Tencent/HunyuanDiT
Обучение с подкреплением на основе обратной связи от человека (RLHF) является канонической структурой для выравнивания больших языковых моделей. Однако растущая популярность алгоритмов офлайн-выравнивания вызывает сомнения в необходимости выборки по политике в RLHF. В контексте переоптимизации вознаграждения мы начинаем с серии экспериментов, которые демонстрируют явное преимущество онлайн-методов перед офлайн-методами. Это побуждает нас исследовать причины различий в производительности через серию тщательно разработанных экспериментальных абляций. Мы эмпирически показываем, что гипотезы, такие как покрытие офлайн-данных и их качество, самостоятельно не могут убедительно объяснить разницу в производительности. Мы также обнаруживаем, что в то время как офлайн-алгоритмы обучают политику становиться хорошей в парной классификации, они хуже в генерации; в то время как политики, обученные онлайн-алгоритмами, хороши в генерации, но хуже в парной классификации. Это намекает на уникальное взаимодействие между дискриминативными и генеративными способностями, которое сильно зависит от процесса выборки. Наконец, мы наблюдаем, что разница в производительности сохраняется как для контрастных, так и для неконтрастных функций потерь, и, кажется, не решается простым масштабированием сетей политики. В целом, наше исследование проливает свет на ключевую роль выборки по политике в выравнивании ИИ и намекает на определенные фундаментальные проблемы алгоритмов офлайн-выравнивания.
Большие языковые модели (LLM) продемонстрировали невероятную компетентность в выполнении задач, требующих семантического понимания естественных языковых инструкций. Недавно многие работы дополнили эту способность воспринимать мультимодальные аудио- и текстовые входы, однако их возможности часто ограничены конкретными задачами, такими как автоматическое распознавание речи и перевод. Поэтому мы разработали SpeechVerse, устойчивую многозадачную обучающуюся среду и карьерную систему, объединяющую предварительно обученные модели основ языка и речи через небольшой набор обучаемых параметров, при этом сохраняя замороженные предварительно обученные модели во время обучения. Модели настраиваются на инструкции с использованием непрерывных латентных представлений, извлеченных из модели основы речи, для достижения оптимальной производительности на разнообразных задачах обработки речи с использованием естественных языковых инструкций. Мы проводим обширное тестирование, включающее сравнение производительности нашей модели с традиционными базовыми уровнями на нескольких наборах данных и задачах. Более того, мы оцениваем способность модели к обобщенному следованию инструкциям, тестируя ее на данных вне области, новых подсказках и невидимых задачах. Наши эмпирические эксперименты показывают, что наша многозадачная модель SpeechVerse даже превосходит традиционные базовые уровни по 9 из 11 задач.
Существующие модели преобразования текста в изображение испытывают затруднения при выполнении сложных текстовых запросов, что подчеркивает необходимость дополнительных входных данных для улучшения управляемости. В данной работе мы предлагаем декомпозицию сцены на визуальные примитивы - обозначенные как плотные представления блобов - которые содержат мелкозернистые детали сцены, при этом являются модульными, интерпретируемыми человеком и легко конструируемыми. Основываясь на представлениях блобов, мы разрабатываем модель диффузии текста в изображение, связанную с блобами, названную BlobGEN, для композиционной генерации. В частности, мы вводим новый модуль маскированного кросс-внимания для разъединения слияния между представлениями блобов и визуальными признаками. Для использования композиционности больших языковых моделей (LLM) мы предлагаем новый подход к обучению в контексте для генерации представлений блобов из текстовых запросов. Наши обширные эксперименты показывают, что BlobGEN достигает превосходного качества генерации без обучения и лучшей управляемости с учетом макета на наборе данных MS-COCO. Когда модель дополняется LLM, наш метод проявляет превосходную числовую и пространственную корректность на бенчмарках композиционной генерации изображений. Страница проекта: https://blobgen-2d.github.io.
Существующие архитектуры для понимания видео в основном основаны на трехмерных сверточных блоках или двумерных свертках с дополнительными операциями для моделирования времени. Однако все эти методы рассматривают временную ось как отдельное измерение последовательности видео, что требует больших вычислительных и памятных ресурсов, и, таким образом, ограничивает их использование на мобильных устройствах. В данной статье мы предлагаем сжать временную ось последовательности видео в канальное измерение и представляем легковесную сеть для распознавания видео, названную SqueezeTime, для понимания видео на мобильных устройствах. Для улучшения возможностей моделирования времени предложенной сети мы разрабатываем блок обучения канал-время (CTL) для захвата временной динамики последовательности. Этот модуль имеет две взаимодополняющие ветви, в одной из которых происходит обучение временной важности, а другая ветвь с возможностью восстановления временной позиции направлена на улучшение способности моделирования объектов между временными интервалами. Предложенный метод SqueezeTime является более легковесным и быстрым с высокой точностью для понимания видео на мобильных устройствах. Обширные эксперименты на различных наборах данных по распознаванию видео и обнаружению действий, таких как Kinetics400, Kinetics600, HMDB51, AVA2.1 и THUMOS14, демонстрируют превосходство нашей модели. Например, наш метод SqueezeTime достигает +1.2% точности и +80% прироста производительности GPU на наборе данных Kinetics400 по сравнению с предыдущими методами. Коды доступны по следующим ссылкам: https://github.com/xinghaochen/SqueezeTime и https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.
Интегрированные модели речи и большие языковые модели (SLM), способные следовать инструкциям в речи и генерировать соответствующие текстовые ответы, недавно стали популярными. Однако безопасность и устойчивость этих моделей остаются в значительной степени неясными. В данной работе мы исследуем потенциальные уязвимости таких моделей языка, следующих за инструкциями, к атакам злоумышленников и обходу защиты. Конкретно, мы разрабатываем алгоритмы, способные генерировать вредоносные примеры для обхода защиты SLM как в настройках атаки "белого ящика", так и "черного ящика" без участия человека. Кроме того, мы предлагаем противодействие таким атакам на обход защиты. Наши модели, обученные на диалоговых данных с речевыми инструкциями, достигают передовых показателей производительности в задаче устного вопросно-ответного взаимодействия, набирая более 80% по метрикам безопасности и полезности. Несмотря на наличие механизмов безопасности, эксперименты по обходу защиты демонстрируют уязвимость SLM к вредоносным изменениям и атакам передачи, с средними показателями успешности атак в 90% и 10% соответственно при оценке на наборе данных из тщательно разработанных вредоносных вопросов, охватывающих 12 различных токсичных категорий. Тем не менее, мы демонстрируем, что наши предложенные противодействия существенно снижают успешность атак.