Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

За пределами законов масштабирования: Понимание производительности трансформера с Ассоциативной памятью
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

May 14, 2024

Xueyan Niu, Bo Bai, Lei Deng, Wei Han

330

Увеличение размера модели трансформера не всегда приводит к улучшению производительности. Этот феномен не может быть объяснен эмпирическими законами масштабирования. Более того, улучшенная обобщающая способность проявляется при запоминании моделью обучающих образцов. Мы представляем теоретическую основу, которая проливает свет на процесс запоминания и динамику производительности языковых моделей на основе трансформера. Мы моделируем поведение трансформеров с использованием ассоциативных памяти с помощью сетей Хопфилда, таким образом, что каждый блок трансформера эффективно осуществляет приблизительный поиск ближайшего соседа. На основе этого мы разрабатываем энергетическую функцию, аналогичную современной непрерывной сети Хопфилда, которая предоставляет содержательное объяснение механизма внимания. С использованием техники мажоризации-минимизации мы строим глобальную энергетическую функцию, которая учитывает слоистую архитектуру трансформера. При определенных условиях мы показываем, что минимальная достижимая потеря перекрестной энтропии ограничена снизу постоянной, приблизительно равной 1. Мы подтверждаем наши теоретические результаты, проводя эксперименты с GPT-2 на различных объемах данных, а также обучая обычные трансформеры на наборе данных из 2 миллионов токенов.

Coin3D: Управляемое и интерактивное создание 3D-активов с использованием условий, направляемых через прокси.
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning

May 13, 2024

Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui

260

Как люди, мы стремимся создавать медиа-контент, который был бы и свободно волен, и легко контролируем. Благодаря значительному развитию генеративных техник, мы теперь можем легко использовать 2D методы диффузии для синтеза изображений, контролируемых сырым наброском или заданными позами человека, а также постепенно редактировать/регенерировать локальные области с помощью маскированного заполнения. Однако аналогичные рабочие процессы в задачах 3D-моделирования до сих пор недоступны из-за недостаточной контролируемости и эффективности в 3D-генерации. В данной статье мы представляем новую контролируемую и интерактивную рамку моделирования 3D-активов, названную Coin3D. Coin3D позволяет пользователям контролировать генерацию 3D с помощью грубого геометрического прокси, собранного из базовых форм, и вводит интерактивный рабочий процесс генерации для поддержки плавного редактирования локальных частей, обеспечивая отзывчивый предпросмотр 3D-объекта всего за несколько секунд. Для этого мы разработали несколько техник, включая 3D-адаптер, который применяет объемное управление грубой формой к модели диффузии, стратегию редактирования с ограничением прокси для точного редактирования части, прогрессивный объемный кэш для поддержки отзывчивого предпросмотра и объемный SDS для обеспечения последовательной реконструкции сетки. Обширные эксперименты по интерактивной генерации и редактированию на различных формах прокси демонстрируют, что наш метод достигает превосходной контролируемости и гибкости в задаче генерации 3D-активов.

Hunyuan-DiT: Мощный многоуровневый диффузионный трансформер с тонкой китайской интерпретацией
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024

Zhimin Li, Jianwei Zhang, Qin Lin, Jiangfeng Xiong, Yanxin Long, Xinchi Deng, Yingfang Zhang, Xingchao Liu, Minbin Huang, Zedong Xiao, Dayou Chen, Jiajun He, Jiahao Li, Wenyue Li, Chen Zhang, Rongwei Quan, Jianxiang Lu, Jiabin Huang, Xiaoyan Yuan, Xiaoxiao Zheng, Yixuan Li, Jihong Zhang, Chao Zhang, Meng Chen, Jie Liu, Zheng Fang, Weiyan Wang, Jinbao Xue, Yangyu Tao, Jianchen Zhu, Kai Liu, Sihuan Lin, Yifu Sun, Yun Li, Dongdong Wang, Mingtao Chen, Zhichao Hu, Xiao Xiao, Yan Chen, Yuhong Liu, Wei Liu, Di Wang, Yong Yang, Jie Jiang, Qinglin Lu

252

Мы представляем Hunyuan-DiT, трансформер диффузии текста в изображение с тонким пониманием как английского, так и китайского языков. Для создания Hunyuan-DiT мы тщательно разрабатываем структуру трансформера, кодировщик текста и позиционное кодирование. Мы также с нуля создаем весь конвейер данных для обновления и оценки данных для итеративной оптимизации модели. Для тонкого понимания языка мы обучаем Мультимодельную Большую Языковую Модель для усовершенствования подписей к изображениям. Наконец, Hunyuan-DiT способен вести многоходовой мультимодальный диалог с пользователями, создавая и усовершенствуя изображения в соответствии с контекстом. Через наш протокол голистической оценки человеком с более чем 50 профессиональными оценщиками, Hunyuan-DiT устанавливает новый уровень качества в генерации изображений по китайскому языку по сравнению с другими моделями с открытым исходным кодом. Код и предварительно обученные модели доступны публично на github.com/Tencent/HunyuanDiT

Понимание разрыва в производительности между алгоритмами выравнивания онлайн и оффлайн.
Understanding the performance gap between online and offline alignment algorithms

May 14, 2024

Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney

200

Обучение с подкреплением на основе обратной связи от человека (RLHF) является канонической структурой для выравнивания больших языковых моделей. Однако растущая популярность алгоритмов офлайн-выравнивания вызывает сомнения в необходимости выборки по политике в RLHF. В контексте переоптимизации вознаграждения мы начинаем с серии экспериментов, которые демонстрируют явное преимущество онлайн-методов перед офлайн-методами. Это побуждает нас исследовать причины различий в производительности через серию тщательно разработанных экспериментальных абляций. Мы эмпирически показываем, что гипотезы, такие как покрытие офлайн-данных и их качество, самостоятельно не могут убедительно объяснить разницу в производительности. Мы также обнаруживаем, что в то время как офлайн-алгоритмы обучают политику становиться хорошей в парной классификации, они хуже в генерации; в то время как политики, обученные онлайн-алгоритмами, хороши в генерации, но хуже в парной классификации. Это намекает на уникальное взаимодействие между дискриминативными и генеративными способностями, которое сильно зависит от процесса выборки. Наконец, мы наблюдаем, что разница в производительности сохраняется как для контрастных, так и для неконтрастных функций потерь, и, кажется, не решается простым масштабированием сетей политики. В целом, наше исследование проливает свет на ключевую роль выборки по политике в выравнивании ИИ и намекает на определенные фундаментальные проблемы алгоритмов офлайн-выравнивания.

SpeechVerse: Большая обобщаемая аудиоязыковая модель
SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024

Nilaksh Das, Saket Dingliwal, Srikanth Ronanki, Rohit Paturi, David Huang, Prashant Mathur, Jie Yuan, Dhanush Bekal, Xing Niu, Sai Muralidhar Jayanthi, Xilai Li, Karel Mundnich, Monica Sunkara, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

200

Большие языковые модели (LLM) продемонстрировали невероятную компетентность в выполнении задач, требующих семантического понимания естественных языковых инструкций. Недавно многие работы дополнили эту способность воспринимать мультимодальные аудио- и текстовые входы, однако их возможности часто ограничены конкретными задачами, такими как автоматическое распознавание речи и перевод. Поэтому мы разработали SpeechVerse, устойчивую многозадачную обучающуюся среду и карьерную систему, объединяющую предварительно обученные модели основ языка и речи через небольшой набор обучаемых параметров, при этом сохраняя замороженные предварительно обученные модели во время обучения. Модели настраиваются на инструкции с использованием непрерывных латентных представлений, извлеченных из модели основы речи, для достижения оптимальной производительности на разнообразных задачах обработки речи с использованием естественных языковых инструкций. Мы проводим обширное тестирование, включающее сравнение производительности нашей модели с традиционными базовыми уровнями на нескольких наборах данных и задачах. Более того, мы оцениваем способность модели к обобщенному следованию инструкциям, тестируя ее на данных вне области, новых подсказках и невидимых задачах. Наши эмпирические эксперименты показывают, что наша многозадачная модель SpeechVerse даже превосходит традиционные базовые уровни по 9 из 11 задач.

Композиционная генерация текста в изображение с плотными представлениями блобов
Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024

Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat

181

Существующие модели преобразования текста в изображение испытывают затруднения при выполнении сложных текстовых запросов, что подчеркивает необходимость дополнительных входных данных для улучшения управляемости. В данной работе мы предлагаем декомпозицию сцены на визуальные примитивы - обозначенные как плотные представления блобов - которые содержат мелкозернистые детали сцены, при этом являются модульными, интерпретируемыми человеком и легко конструируемыми. Основываясь на представлениях блобов, мы разрабатываем модель диффузии текста в изображение, связанную с блобами, названную BlobGEN, для композиционной генерации. В частности, мы вводим новый модуль маскированного кросс-внимания для разъединения слияния между представлениями блобов и визуальными признаками. Для использования композиционности больших языковых моделей (LLM) мы предлагаем новый подход к обучению в контексте для генерации представлений блобов из текстовых запросов. Наши обширные эксперименты показывают, что BlobGEN достигает превосходного качества генерации без обучения и лучшей управляемости с учетом макета на наборе данных MS-COCO. Когда модель дополняется LLM, наш метод проявляет превосходную числовую и пространственную корректность на бенчмарках композиционной генерации изображений. Страница проекта: https://blobgen-2d.github.io.

Нет времени терять: сжать время в канал для мобильного видео Понимание
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14, 2024

Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang

160

Существующие архитектуры для понимания видео в основном основаны на трехмерных сверточных блоках или двумерных свертках с дополнительными операциями для моделирования времени. Однако все эти методы рассматривают временную ось как отдельное измерение последовательности видео, что требует больших вычислительных и памятных ресурсов, и, таким образом, ограничивает их использование на мобильных устройствах. В данной статье мы предлагаем сжать временную ось последовательности видео в канальное измерение и представляем легковесную сеть для распознавания видео, названную SqueezeTime, для понимания видео на мобильных устройствах. Для улучшения возможностей моделирования времени предложенной сети мы разрабатываем блок обучения канал-время (CTL) для захвата временной динамики последовательности. Этот модуль имеет две взаимодополняющие ветви, в одной из которых происходит обучение временной важности, а другая ветвь с возможностью восстановления временной позиции направлена на улучшение способности моделирования объектов между временными интервалами. Предложенный метод SqueezeTime является более легковесным и быстрым с высокой точностью для понимания видео на мобильных устройствах. Обширные эксперименты на различных наборах данных по распознаванию видео и обнаружению действий, таких как Kinetics400, Kinetics600, HMDB51, AVA2.1 и THUMOS14, демонстрируют превосходство нашей модели. Например, наш метод SqueezeTime достигает +1.2% точности и +80% прироста производительности GPU на наборе данных Kinetics400 по сравнению с предыдущими методами. Коды доступны по следующим ссылкам: https://github.com/xinghaochen/SqueezeTime и https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime.

SpeechGuard: Исследование адверсарной устойчивости мультимодальных крупных языковых моделей
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14, 2024

Raghuveer Peri, Sai Muralidhar Jayanthi, Srikanth Ronanki, Anshu Bhatia, Karel Mundnich, Saket Dingliwal, Nilaksh Das, Zejiang Hou, Goeric Huybrechts, Srikanth Vishnubhotla, Daniel Garcia-Romero, Sundararajan Srinivasan, Kyu J Han, Katrin Kirchhoff

130

Интегрированные модели речи и большие языковые модели (SLM), способные следовать инструкциям в речи и генерировать соответствующие текстовые ответы, недавно стали популярными. Однако безопасность и устойчивость этих моделей остаются в значительной степени неясными. В данной работе мы исследуем потенциальные уязвимости таких моделей языка, следующих за инструкциями, к атакам злоумышленников и обходу защиты. Конкретно, мы разрабатываем алгоритмы, способные генерировать вредоносные примеры для обхода защиты SLM как в настройках атаки "белого ящика", так и "черного ящика" без участия человека. Кроме того, мы предлагаем противодействие таким атакам на обход защиты. Наши модели, обученные на диалоговых данных с речевыми инструкциями, достигают передовых показателей производительности в задаче устного вопросно-ответного взаимодействия, набирая более 80% по метрикам безопасности и полезности. Несмотря на наличие механизмов безопасности, эксперименты по обходу защиты демонстрируют уязвимость SLM к вредоносным изменениям и атакам передачи, с средними показателями успешности атак в 90% и 10% соответственно при оценке на наборе данных из тщательно разработанных вредоносных вопросов, охватывающих 12 различных токсичных категорий. Тем не менее, мы демонстрируем, что наши предложенные противодействия существенно снижают успешность атак.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

За пределами законов масштабирования: Понимание производительности трансформера с Ассоциативной памятью
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory

May 14, 2024

Xueyan Niu, Bo Bai, Lei Deng, Wei Han

330

Coin3D: Управляемое и интерактивное создание 3D-активов с использованием условий, направляемых через прокси.
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning

May 13, 2024

Wenqi Dong, Bangbang Yang, Lin Ma, Xiao Liu, Liyuan Cui, Hujun Bao, Yuewen Ma, Zhaopeng Cui

260

Hunyuan-DiT: Мощный многоуровневый диффузионный трансформер с тонкой китайской интерпретацией
Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding

May 14, 2024

252

Понимание разрыва в производительности между алгоритмами выравнивания онлайн и оффлайн.
Understanding the performance gap between online and offline alignment algorithms

May 14, 2024

Yunhao Tang, Daniel Zhaohan Guo, Zeyu Zheng, Daniele Calandriello, Yuan Cao, Eugene Tarassov, Rémi Munos, Bernardo Ávila Pires, Michal Valko, Yong Cheng, Will Dabney

200

SpeechVerse: Большая обобщаемая аудиоязыковая модель
SpeechVerse: A Large-scale Generalizable Audio Language Model

May 14, 2024

200

Композиционная генерация текста в изображение с плотными представлениями блобов
Compositional Text-to-Image Generation with Dense Blob Representations

May 14, 2024

Weili Nie, Sifei Liu, Morteza Mardani, Chao Liu, Benjamin Eckart, Arash Vahdat

181

Нет времени терять: сжать время в канал для мобильного видео Понимание
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding

May 14, 2024

Yingjie Zhai, Wenshuo Li, Yehui Tang, Xinghao Chen, Yunhe Wang

160

SpeechGuard: Исследование адверсарной устойчивости мультимодальных крупных языковых моделей
SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models

May 14, 2024

130