Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье представлена архитектура Block Transformer, которая применяет иерархическое глобальное-локальное моделирование к авторегрессивным трансформерам для смягчения проблем вывода самовнимания. Для применения самовнимания необходимо извлекать ключевое-значение (KV) кэш всех предыдущих последовательностей из памяти на каждом шаге декодирования. Таким образом, этот KV кэш IO становится значительным узким местом в пакетном выводе. Мы замечаем, что эти издержки происходят от применения самовнимания к глобальному контексту, поэтому мы выделяем дорогостоящие узкие места глобального моделирования в нижние слои и применяем быстрое локальное моделирование в верхних слоях. Для смягчения оставшихся издержек в нижних слоях мы агрегируем входные токены в блоки фиксированного размера, а затем применяем самовнимание на этом грубом уровне. Информация о контексте агрегируется в одно встраивание, чтобы позволить верхним слоям декодировать следующий блок токенов без глобального внимания. Благодаря отсутствию узких мест глобального внимания верхние слои могут полностью использовать аппаратное обеспечение для максимизации производительности вывода. С помощью использования глобальных и локальных модулей архитектура Block Transformer демонстрирует увеличение производительности вывода на 10-20 раз по сравнению с обычными трансформерами с эквивалентной перплексией. Наша работа представляет новый подход к оптимизации вывода языковой модели через новаторское применение глобального-локального моделирования. Код доступен по ссылке https://github.com/itsnamgyu/block-transformer.
Быстрое развитие мультимодальных крупных языковых моделей (MLLM), таких как GPT-4V, сделало значительный шаг в направлении искусственного общего интеллекта. Существующие методы в основном сосредотачиваются на выравнивании визуальных кодировщиков с LLM через надзорное дообучение (SFT) для наделения LLM мультимодальными способностями, делая врожденную способность MLLM реагировать на несколько языков постепенно ухудшающейся по мере развития процесса обучения. Мы эмпирически обнаружили, что несбалансированные наборы данных SFT, в основном состоящие из англо-центричных пар изображений и текста, приводят к значительному снижению производительности на не-английских языках. Это происходит из-за неудачного выравнивания визуального кодировщика и LLM с мультиязычными токенами во время процесса SFT. В данной статье мы представляем Parrot, новый метод, который использует текстовое руководство для выравнивания визуальных токенов на уровне языка. Parrot делает визуальные токены зависимыми от разнообразных языковых входов и использует Множество Экспертов (MoE) для содействия выравниванию мультиязычных токенов. В частности, для улучшения выравнивания не-английских визуальных токенов мы вычисляем кросс-внимание с использованием начальных визуальных признаков и текстовых вложений, результат которого затем подается на маршрутизатор MoE для выбора наиболее релевантных экспертов. Выбранные эксперты впоследствии преобразуют начальные визуальные токены в языково-специфические визуальные токены. Более того, учитывая отсутствие текущих стандартов для оценки мультиязычных возможностей в данной области, мы собрали и предоставляем огромный мультиязычный мультимодальный бенчмарк, который включает 6 языков, 15 категорий и 12 000 вопросов, названный как MMMB. Наш метод не только демонстрирует передовую производительность на мультиязычном MMBench и MMMB, но также превосходит в широком спектре мультимодальных задач. Исходный код и набор данных для обучения Parrot будут общедоступными.
Задачи работы с мобильными устройствами все более популярны в качестве сценария мультимодального применения искусственного интеллекта. Нынешние многомодальные модели языка большого масштаба (MLLM), ограниченные своими данными обучения, не обладают способностью эффективно функционировать в качестве помощников по работе с устройствами. Вместо этого агенты на основе MLLM, улучшающие свои возможности через вызов инструментов, постепенно применяются в этом сценарии. Однако две основные проблемы навигации в работе с мобильными устройствами, навигация по ходу выполнения задачи и навигация по содержимому фокуса, значительно усложняются в рамках одноагентной архитектуры существующих работ. Это связано с чрезмерно длинными последовательностями токенов и переплетенным форматом данных текст-изображение, что ограничивает производительность. Для эффективного решения этих проблем навигации мы предлагаем Mobile-Agent-v2, многоагентную архитектуру для помощи в работе с мобильными устройствами. Архитектура включает три агента: планирующий агент, принимающий решения агент и отражающий агент. Планирующий агент генерирует ход выполнения задачи, что делает навигацию по истории операций более эффективной. Для сохранения фокуса на содержимом мы разрабатываем блок памяти, который обновляется вместе с ходом выполнения задачи. Кроме того, для исправления ошибочных операций отражающий агент наблюдает за результатами каждой операции и соответственно обрабатывает любые ошибки. Экспериментальные результаты показывают, что Mobile-Agent-v2 достигает более чем 30% улучшения в выполнении задач по сравнению с одноагентной архитектурой Mobile-Agent. Код доступен на GitHub по ссылке https://github.com/X-PLUG/MobileAgent.
Существующие методы создания трехмерных изображений из одного изображения обычно включают двухэтапный процесс, сначала генерируются многозрительные изображения, а затем используются эти изображения для трехмерной реконструкции. Однако обучение этих двух этапов отдельно приводит к значительному смещению данных на этапе вывода, что влияет на качество восстановленных результатов. Мы представляем объединенную 3D-структуру под названием Ouroboros3D, которая интегрирует диффузионную генерацию многозрительных изображений и трехмерную реконструкцию в рекурсивный процесс диффузии. В нашей структуре эти два модуля обучаются совместно через механизм самоусловия, позволяя им адаптироваться к особенностям друг друга для надежного вывода. Во время процесса шумоподавления многозрительных изображений модель диффузии многозрительных изображений использует карты, осведомленные о трехмерном пространстве, отрисованные модулем реконструкции на предыдущем временном шаге, в качестве дополнительных условий. Рекурсивная диффузионная структура с обратной связью, осведомленной о трехмерном пространстве, объединяет весь процесс и улучшает геометрическую согласованность. Эксперименты показывают, что наша структура превосходит разделение этих двух этапов и существующие методы, объединяющие их на этапе вывода. Страница проекта: https://costwen.github.io/Ouroboros3D/
Трансформеры быстро стали предпочтительным выбором для классификации звука, превосходя методы, основанные на сверточных нейронных сетях. Однако аудио спектральные трансформеры (AST) демонстрируют квадратичное масштабирование из-за самовнимания. Удаление этой квадратичной стоимости самовнимания представляет собой привлекательное направление. Недавно модели пространства состояний (SSM), такие как Mamba, продемонстрировали потенциал в языковых и зрительных задачах в этом отношении. В данном исследовании мы исследуем, необходимо ли использование самовнимания для задач классификации аудио. Представляя Audio Mamba (AuM), первую модель для классификации аудио, основанную исключительно на SSM и не содержащую самовнимания, мы стремимся ответить на этот вопрос. Мы оцениваем AuM на различных аудио наборах данных - включая шесть различных бенчмарков - где он достигает сравнимой или лучшей производительности по сравнению с хорошо установленной моделью AST.
Генерация макета является ключевым моментом в достижении автоматизированного графического дизайна, требующим упорядочивания положения и размера различных мультимодальных элементов дизайна в визуально приятном и соответствующем ограничениям способе. Предыдущие подходы либо неэффективны для крупномасштабных приложений, либо лишены гибкости для различных требований к дизайну. Наше исследование представляет единый каркас для автоматизированной генерации графического макета, используя мультимодельную крупномасштабную языковую модель (MLLM) для выполнения разнообразных задач дизайна. В отличие от этого, наш метод, основанный на данных, использует структурированный текст (формат JSON) и настройку визуальных инструкций для генерации макетов в соответствии с конкретными визуальными и текстовыми ограничениями, включая спецификации на естественном языке, заданные пользователем. Мы провели обширные эксперименты и достигли передовых показателей (SOTA) на общедоступных бенчмарках мультимодальной генерации макетов, продемонстрировав эффективность нашего метода. Более того, учитывая ограничения существующих наборов данных в отражении сложности графических дизайнов реального мира, мы предлагаем два новых набора данных для более сложных задач (генерация с учетом требований пользователя и сложный постер), дополнительно подтверждая полезность нашей модели в реальных условиях. Отличающийся своей высокой доступностью и адаптивностью, этот подход дополнительно автоматизирует крупномасштабные задачи графического дизайна. Код и наборы данных будут общедоступны на https://github.com/posterllava/PosterLLaVA.
Предыдущие работы продемонстрировали нулевое преобразование текста в речь с использованием генеративной языковой модели на звуковых токенах, полученных с помощью нейронного аудио кодека. Однако до сих пор остается сложной задачей их адаптация к сценариям с низкой задержкой. В данной статье мы представляем LiveSpeech - полностью авторегрессивный подход на основе языковой модели для нулевого преобразования текста в речь, обеспечивающий потоковую передачу выходного аудио с низкой задержкой. Для возможности предсказания нескольких токенов за один шаг декодирования мы предлагаем (1) использование адаптивных весов потерь кодового книжного вектора, учитывающих вклад кодового книжного вектора в каждом кадре и сосредотачивающихся на сложных случаях, и (2) группирование кодовых книг и обработку групп параллельно. Эксперименты показывают, что наши предложенные модели достигают конкурентоспособных результатов по сравнению с передовыми базовыми моделями в терминах точности содержания, сходства диктора, качества аудио и скорости вывода, при этом они подходят для приложений потоковой передачи с низкой задержкой.
Значительные достижения в моделях видеораспространения привели к существенному прогрессу в области синтеза текста в видео (T2V). Однако существующие модели синтеза T2V борются с точной генерацией сложной динамики движения, что приводит к снижению реализма видео. Один из возможных способов решения - собрать огромный объем данных и обучить модель на них, но это было бы чрезвычайно дорого. Для решения этой проблемы в данной статье мы переформулируем типичный процесс генерации T2V как процесс генерации на основе поиска. Вместо масштабирования обучения модели мы используем существующие видео в качестве базы данных движения. Конкретно, мы разделяем процесс генерации T2V на два этапа: (i) Для заданного ввода-подсказки мы ищем существующие наборы данных текст-видео, чтобы найти видео с текстовыми метками, близко соответствующими движениям подсказки. Мы предлагаем специализированный алгоритм поиска, который акцентируется на объектных движениях. (ii) Полученные видео обрабатываются и упрощаются в движущиеся априори для доводки предварительно обученной базовой модели T2V, за которой следует генерация желаемых видео с использованием вводной подсказки. Используя априори, полученные из найденных видео, мы улучшаем реализм движения сгенерированных видео. Все операции могут быть завершены на одном графическом процессоре NVIDIA RTX 4090. Мы проверяем наш метод на фоне современных моделей T2V на различных вводных подсказках. Код будет общедоступным.
Обучение с подкреплением на основе обратной связи от человека (RLHF) сыграло ключевую роль в недавних успехах крупных языковых моделей (LLM), однако часто является сложным и хрупким процессом. В классической структуре RLHF сначала обучается модель вознаграждения для представления предпочтений человека, которая затем используется онлайн-алгоритмом обучения с подкреплением (RL) для оптимизации LLM. Одной из основных проблем таких методов является переоптимизация вознаграждения или взлом вознаграждения, когда производительность, измеряемая обученной моделью прокси-вознаграждения, увеличивается, но истинное качество стагнирует или даже ухудшается. Прямые алгоритмы выравнивания (DDA), такие как прямая оптимизация предпочтений, появились как альтернативы классическому конвейеру RLHF путем обхода фазы моделирования вознаграждения. Однако, хотя DDA не используют отдельную модель прокси-вознаграждения, они все равно часто ухудшаются из-за переоптимизации. Хотя явление взлома вознаграждения для DDA не определено четко, мы все равно обнаруживаем аналогичные тенденции: при более высоких бюджетах KL алгоритмы DDA проявляют аналогичные паттерны деградации по сравнению с классическими аналогами RLHF. В частности, мы обнаруживаем, что методы DDA ухудшаются не только в широком диапазоне бюджетов KL, но часто даже до завершения даже одной эпохи набора данных. Через обширные эмпирические эксперименты в данной работе формулируется и формализуется проблема переоптимизации или взлома вознаграждения для DDA и исследуются ее последствия для целей, режимов обучения и масштабов моделей.
Большие языковые модели (LLM) оказались чрезвычайно успешными в задачах, таких как понимание сложных диалогов, рассуждения и кодирование благодаря их внезапно возникшим способностям. Эти внезапно возникшие способности были расширены с помощью мульти-модальности, чтобы включить возможности работы с изображениями, аудио и видео. Системы рекомендаций, с другой стороны, имели критическое значение для поиска информации и обнаружения элементов. Недавно были предприняты попытки применить LLM для рекомендаций. Одной из сложностей текущих попыток является то, что базовая LLM обычно не обучена на данных системы рекомендаций, которые в значительной степени содержат сигналы взаимодействия пользователя и часто не являются общедоступными. Другой сложностью является то, что сигналы взаимодействия пользователя часто имеют другой шаблон по сравнению с естественным языковым текстом, и в настоящее время неясно, может ли установка обучения LLM извлекать более нетривиальные знания из сигналов взаимодействия по сравнению с традиционными методами систем рекомендаций. Наконец, сложно обучать несколько LLM для различных случаев использования и сохранять исходные языковые и рассуждательные способности при обучении на данных системы рекомендаций. Для решения этих трех ограничений мы предлагаем модель элемент-язык (ILM), которая состоит из кодера элементов для создания текстово-выровненных представлений элементов, кодирующих сигналы взаимодействия пользователя, и замороженной LLM, которая может понимать эти представления элементов с сохраненными предварительно обученными знаниями. Мы проводим обширные эксперименты, которые демонстрируют как важность выравнивания языка, так и знания о взаимодействии пользователя в кодере элементов.
Большие языковые модели (LLM) проявили впечатляющие возможности в различных задачах, однако их огромный размер параметров ограничивает их применимость в условиях ограниченных ресурсов. Дистилляция знаний (KD) предлагает жизнеспособное решение путем передачи экспертизы от крупных учителей к компактным студенческим моделям. Однако традиционные методы KD сталкиваются с конкретными проблемами при применении к LLM, включая ограниченный доступ к выходам LLM, значительные разрывы в емкости учителя и студента, а также унаследованную проблему неправильной калибровки. В данной работе мы представляем PLaD, новую рамку дистилляции LLM на основе предпочтений. PLaD использует различие в емкости учителя и студента для генерации псевдопар предпочтений, где выходы учителя предпочтительнее выходов студента. Затем PLaD использует функцию потерь ранжирования для повторной калибровки оценки последовательности студента, направляя внимание студента на понимание относительного качества выходов, а не просто на подражание учителю. PLaD обходит необходимость доступа к внутренним состояниям LLM учителя, решает ограничения выразительности студента и уменьшает проблему неправильной калибровки студента. Через обширные эксперименты на двух задачах генерации последовательностей с различными LLM мы демонстрируем эффективность нашей предложенной рамки PLaD.
Мы представляем Xmodel-LM, компактную и эффективную языковую модель объемом 1,1 млрд параметров, предварительно обученную на более чем 2 трлн токенов. Обученная на нашем собственном наборе данных (Xdata), который балансирует китайские и английские корпуса на основе оптимизации для последующих задач, Xmodel-LM проявляет выдающуюся производительность несмотря на свой более небольшой размер. Она заметно превосходит существующие открытые языковые модели схожего масштаба. Наши контрольные точки модели и код общедоступны на GitHub по адресу https://github.com/XiaoduoAILab/XmodelLM.