Ежедневно отобранные исследовательские статьи по ИИ с переводами
Сложность проблемы выравнивания обусловлена тем, что существующие методы нестабильны. Исследователи постоянно придумывают различные хитрости, чтобы решить этот недостаток. Например, в фундаментальной технике обучения с подкреплением от обратной связи человека (RLHF) выравнивания языковой модели, помимо максимизации вознаграждения, минимизируется дивергенция Кульбака-Лейблера между обучаемой политикой и политикой SFT. Это дополнение предотвращает переобучение модели на модель вознаграждения (RM) и генерацию текстов, не относящихся к области RM. Метод оптимизации прямых предпочтений (DPO) переформулирует задачу оптимизации RLHF и устраняет модель вознаграждения, сохраняя неявное требование к тому, чтобы политика была близка к политике SFT. В нашей статье мы утверждаем, что это неявное ограничение в методе DPO приводит к неоптимальным результатам. Мы предлагаем новый метод, называемый методом доверительного интервала DPO (TR-DPO), который обновляет опорную политику во время обучения. С таким простым обновлением мы демонстрируем эффективность TR-DPO по сравнению с DPO на наборах данных Anthropic HH и TLDR. Мы показываем, что TR-DPO превосходит DPO до 19%, измеренное автоматической оценкой с помощью GPT-4. Новый подход к выравниванию, который мы предлагаем, позволяет нам улучшить качество моделей по нескольким параметрам одновременно, таким как связность, правильность, уровень деталей, полезность и безопасность.
Квадратичная сложность и недостаточная экстраполяция длины ограничивают способность Трансформеров масштабироваться до длинных последовательностей, и хотя существуют субквадратичные решения, такие как линейное внимание и модели пространства состояний, они эмпирически уступают Трансформерам в эффективности предварительного обучения и точности задач на выходе. Мы представляем Мегалодон, нейронную архитектуру для эффективного моделирования последовательностей с неограниченной длиной контекста. Мегалодон наследует архитектуру Меги (экспоненциальное скользящее среднее с воротным вниманием) и дополнительно вводит несколько технических компонентов для улучшения его способностей и стабильности, включая комплексное экспоненциальное скользящее среднее (CEMA), слой нормализации временных шагов, нормализованный механизм внимания и преднормализацию с конфигурацией двухшагового остатка. В контролируемом сравнении с Llama2 Мегалодон достигает лучшей эффективности, чем Трансформер с масштабом 7 миллиардов параметров и 2 триллиона обучающих токенов. Мегалодон достигает значения функции потерь на обучении 1.70, находясь посередине между Llama2-7B (1.75) и 13B (1.67). Код: https://github.com/XuezheMax/megalodon
Хотя Трансформеры революционизировали глубокое обучение, их квадратичная сложность внимания мешает им обрабатывать бесконечно длинные входы. Мы предлагаем модель Обратной Связи с Памятью (Feedback Attention Memory, FAM), новую архитектуру Трансформера, которая использует обратную связь для того, чтобы сеть могла обращаться к своим собственным латентным представлениям. Этот дизайн способствует появлению рабочей памяти в Трансформере, позволяя ему обрабатывать бесконечно длинные последовательности. ТрансформерFAM не требует дополнительных весов, обеспечивая беспрепятственную интеграцию с предварительно обученными моделями. Наши эксперименты показывают, что ТрансформерFAM значительно улучшает производительность Трансформера на задачах с длинным контекстом при различных размерах моделей (1B, 8B и 24B). Эти результаты демонстрируют потенциал для усиления Больших Языковых Моделей (Large Language Models, LLM) в обработке последовательностей неограниченной длины.
Создание высококачественных и интерактивных виртуальных сред, таких как игры и симуляторы, часто включает в себя сложные и затратные процессы ручного моделирования. В данной статье мы представляем Video2Game, новый подход, который автоматически преобразует видео реальных сцен в реалистичные и интерактивные игровые среды. В центре нашей системы находятся три основных компонента: (i) модуль нейронных радиантных полей (NeRF), который эффективно захватывает геометрию и визуальное восприятие сцены; (ii) модуль сетки, который концентрирует знания из NeRF для более быстрой отрисовки; и (iii) физический модуль, который моделирует взаимодействия и физическую динамику между объектами. Следуя тщательно разработанному пайплайну, можно создать взаимодействующую и действенную цифровую копию реального мира. Мы проводим бенчмаркинг нашей системы как на внутренних, так и на масштабных внешних сценах. Мы показываем, что мы можем не только производить высокореалистичные отрисовки в реальном времени, но и создавать интерактивные игры поверх них.
Существует мнение, что умение хорошо сжимать информацию приведет к развитию интеллекта. Недавно было показано, что моделирование языка эквивалентно сжатию, что предоставляет убедительное обоснование успеха больших моделей языка (LLM): развитие более продвинутых языковых моделей, по сути, улучшает сжатие, что способствует развитию интеллекта. Несмотря на такие привлекательные обсуждения, мало эмпирических доказательств о взаимосвязи между сжатием и интеллектом. В данной работе мы исследуем их взаимосвязь в контексте LLM, рассматривая LLM как сжиматели данных. Учитывая абстрактное понятие "интеллекта", мы принимаем средние оценки бенчмарков как замену, специально нацеленную на интеллект, связанный с знаниями и здравым смыслом, кодированием и математическим мышлением. В рамках 12 бенчмарков наше исследование объединяет 30 общедоступных LLM, происходящих из различных организаций. Замечательно, что мы обнаруживаем, что интеллект LLM, отраженный средними оценками бенчмарков, почти линейно коррелирует с их способностью сжимать внешние текстовые корпуса. Эти результаты предоставляют конкретные доказательства, подтверждающие мнение о том, что превосходное сжатие указывает на более высокий уровень интеллекта. Более того, наши результаты показывают, что эффективность сжатия, как неконтролируемая метрика, происходящая из исходных текстовых корпусов, служит надежной оценочной мерой, которая линейно связана с возможностями модели. Мы открываем наши наборы данных по сжатию, а также наши процессы сбора данных, чтобы облегчить будущим исследователям оценку сжатия в должной мере.
ControlNets широко используются для добавления пространственного контроля в генерации изображений с различными условиями, такими как карты глубины, края Канни и позы человека. Однако существует несколько проблем при использовании предварительно обученных изображений ControlNets для управляемой генерации видео. Во-первых, предварительно обученную ControlNet нельзя напрямую подключить к новым основным моделям из-за несоответствия пространств признаков, и стоимость обучения ControlNets для новых основных моделей является большим бременем. Во-вторых, признаки ControlNet для разных кадров могут неэффективно обрабатывать временную согласованность. Для решения этих проблем мы представляем Ctrl-Adapter, эффективную и универсальную структуру, которая добавляет разнообразные контроли к любым моделям диффузии изображений/видео, адаптируя предварительно обученные ControlNets (и улучшая временное выравнивание для видео). Ctrl-Adapter обеспечивает разнообразные возможности, включая управление изображениями, управление видео, управление видео с разреженными кадрами, управление множественными условиями, совместимость с различными основами, адаптацию к невидимым условиям управления и редактирование видео. В Ctrl-Adapter мы обучаем адаптерные слои, которые объединяют признаки предварительно обученных ControlNet с различными моделями диффузии изображений/видео, сохраняя параметры ControlNets и моделей диффузии замороженными. Ctrl-Adapter состоит из временных и пространственных модулей, чтобы эффективно обрабатывать временную согласованность видео. Мы также предлагаем скрытый пропуск и обратное выборочное сэмплирование временных шагов для надежной адаптации и разреженного контроля. Более того, Ctrl-Adapter позволяет управлять из различных условий, просто взяв (взвешенное) среднее значений выходов ControlNet. С разнообразными основами диффузии изображений/видео (SDXL, Hotshot-XL, I2VGen-XL и SVD), Ctrl-Adapter соответствует ControlNet для управления изображениями и превосходит все базовые значения для управления видео (достигая лучших показателей точности на наборе данных DAVIS 2017) с значительно более низкими вычислительными затратами (менее 10 часов на GPU).
Данное исследование представляет HQ-Edit, набор данных высокого качества для редактирования изображений на основе инструкций, содержащий около 200 000 правок. В отличие от предыдущих подходов, основанных на атрибутивном руководстве или обратной связи от людей при создании наборов данных, мы разработали масштабный процесс сбора данных, используя передовые базовые модели, а именно GPT-4V и DALL-E 3. Для обеспечения высокого качества сначала онлайн собираются разнообразные примеры, затем расширяются и используются для создания диптихов высокого качества с входными и выходными изображениями, сопровождаемыми подробными текстовыми подсказками, после чего обеспечивается точное выравнивание через последующую обработку. Кроме того, мы предлагаем две метрики оценки, Выравнивание и Согласованность, для количественной оценки качества пар редактирования изображений с использованием GPT-4V. Высококачественные изображения HQ-Edit, богатые деталями и сопровождаемые всесторонними инструкциями по редактированию, значительно расширяют возможности существующих моделей редактирования изображений. Например, HQ-Edit, донастроенный для InstructPix2Pix, может достичь современной производительности в редактировании изображений, даже превзойдя модели, донастроенные с использованием данных с аннотациями людей. Страница проекта: https://thefllood.github.io/HQEdit_web.
Вывод с мультимодальными большими языковыми моделями (MLLM) медленный из-за их основы на большой языковой модели, страдающей от узкого места памяти и генерации токенов авторегрессивно. В данной статье мы исследуем применение спекулятивного декодирования для повышения эффективности вывода MLLM, в частности модели LLaVA 7B. Мы показываем, что модель только с языковой информацией может служить хорошей черновой моделью для спекулятивного декодирования с LLaVA 7B, обходя необходимость в изображениях токенов и связанных с ними компонентах обработки из черновой модели. Наши эксперименты по трем различным задачам показывают, что спекулятивное декодирование может достичь ускорения, ограниченного памятью, до 2,37 раза с использованием 115M параметров языковой модели, которую мы обучили с нуля. Кроме того, мы представляем компактную черновую модель LLaVA с включенным адаптером изображения, которая показывает незначительный прирост производительности в подписывании изображений, сохраняя при этом сопоставимые результаты в других задачах.
Генеративный мультимодальный контент становится все более распространенным в области создания контента, поскольку он имеет потенциал позволить художникам и медийному персоналу создавать макеты предпроизводства, быстро воплощая свои идеи в жизнь. Генерация звука из текстовых подсказок является важным аспектом таких процессов в музыкальной и кинематографической индустрии. Многие из недавних моделей текст-в-аудио на основе диффузии фокусируются на обучении все более сложных моделей диффузии на большом наборе данных пар подсказка-аудио. Эти модели не фокусируются явно на наличии концепций или событий и их временном порядке в выходном аудио относительно входной подсказки. Наша гипотеза заключается в том, что фокусировка на том, как эти аспекты генерации аудио могут улучшить производительность генерации аудио в условиях ограниченных данных. Таким образом, в данной работе, используя существующую модель текст-в-аудио Tango, мы синтетически создаем набор данных предпочтений, где каждая подсказка имеет победный аудиовыход и несколько проигрышных аудиовыходов для обучения модели диффузии. Проигрышные выходы, теоретически, имеют некоторые концепции из подсказки, отсутствующие или в неправильном порядке. Мы донастраиваем общедоступную модель текст-в-аудио Tango, используя потерю диффузии-DPO (прямая оптимизация предпочтений) на нашем наборе данных предпочтений и показываем, что это приводит к улучшению аудиовыхода по сравнению с Tango и AudioLDM2, как по автоматическим, так и по ручным метрикам оценки.
Многомодельные модели на большом языке (MLLM) продемонстрировали впечатляющие результаты на различных многомодальных задачах. Однако большинство существующих MLLM плохо подходят для задач, ориентированных на документы, которые требуют точного восприятия изображений и сжатия информации. В данной статье мы представляем TextHawk, MLLM, специально разработанный для задач, ориентированных на документы, сохраняя при этом общие возможности MLLM. TextHawk направлен на исследование эффективного точного восприятия путем разработки четырех специализированных компонентов. Во-первых, предлагается модуль ReSampling and ReArrangement (ReSA) для уменьшения избыточности в текстах документов и снижения вычислительных затрат MLLM. Мы исследуем кодирование позиций каждой локальной особенности, представляя Масштабируемые Позиционные Вложения (SPE), которые могут сохранить масштабируемость различных размеров изображений. Затем принимается Сеть Предложений Запросов (QPN) для динамической инициализации запросов среди различных подизображений. Для дальнейшего улучшения точной визуальной восприимчивости MLLM мы разрабатываем механизм Многоуровневого Перекрестного Внимания (MLCA), который захватывает иерархическую структуру и семантические отношения документов. Кроме того, мы создаем новый набор данных для настройки инструкций для задач, ориентированных на документы, обогащая многомодальные данные документов с помощью Gemini Pro. Мы проводим обширные эксперименты как на общих, так и на ориентированных на документы бенчмарках MLLM и показываем, что TextHawk превосходит современные методы, демонстрируя его эффективность и превосходство в точном восприятии документов и общих способностях.
Нейронное поле радиантности (NeRF) представляет собой метод реконструкции трехмерных объектов по многовидовым изображениям. Несмотря на некоторые недавние исследования, продемонстрировавшие начальный успех в редактировании восстановленного NeRF с использованием диффузионного априорного распределения, они все еще сталкиваются с проблемой синтеза разумной геометрии в полностью незакрытых областях. Одной из основных причин является высокая разнообразность синтетических контентов из модели диффузии, что мешает радиантному полю сходиться к четкой и детерминированной геометрии. Более того, применение латентных моделей диффузии к реальным данным часто приводит к текстурному сдвигу, несогласованному с изображением из-за ошибок автоэнкодирования. Эти две проблемы дополнительно усугубляются использованием потерь на основе пикселей. Для решения этих проблем мы предлагаем уменьшить стохастичность модели диффузии с помощью настройки для каждой сцены и смягчить текстурный сдвиг с помощью обучения с маскировкой адверсариальных примеров. В ходе анализа мы также обнаружили, что широко используемые потери на основе пикселей и восприятия вредны для задачи заполнения пропусков в NeRF. В результате тщательных экспериментов наша методика демонстрирует лучшие результаты восстановления NeRF на различных сценах реального мира. Страница проекта: https://hubert0527.github.io/MALD-NeRF
Гауссово сглаживание, известное своим выдающимся качеством визуализации и эффективностью, стало одной из ведущих техник представления трехмерных сцен. Однако значительный объем данных, необходимый для Гауссова сглаживания, затрудняет его практическое использование в реальных приложениях. В данной работе мы предлагаем эффективное представление трехмерных сцен, названное Сжатое Гауссово сглаживание (CompGS), которое использует компактные гауссовы примитивы для точного моделирования трехмерных сцен с значительно уменьшенным объемом данных. Для обеспечения компактности гауссовых примитивов мы разрабатываем гибридную структуру примитивов, которая улавливает предсказательные отношения между ними. Затем мы используем небольшой набор опорных примитивов для прогнозирования, позволяя большинству примитивов быть включенными в высоко компактные остаточные формы. Более того, мы разрабатываем схему оптимизации с ограничением по битрейту для устранения избыточностей в таких гибридных примитивах, направляя наше CompGS к оптимальному балансу между потреблением битрейта и эффективностью представления. Экспериментальные результаты показывают, что предложенный CompGS значительно превосходит существующие методы, достигая превосходной компактности в представлении трехмерных сцен без ущерба точности модели и качества визуализации. Наш код будет опубликован на GitHub для дальнейших исследований.