Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Magicoder — серию полностью открытых (код, веса и данные) больших языковых моделей (LLM) для работы с кодом, которые значительно сокращают разрыв с ведущими моделями для кода, имея при этом не более 7 миллиардов параметров. Модели Magicoder обучаются на 75 тысячах синтетических инструкций с использованием OSS-Instruct — нового подхода, который позволяет LLM использовать фрагменты открытого исходного кода для генерации высококачественных инструкций для работы с кодом. Наша основная мотивация заключается в снижении присущего синтетическим данным, сгенерированным LLM, смещения за счет обогащения моделей множеством открытых источников для создания более разнообразных, реалистичных и контролируемых данных. Ортогональность OSS-Instruct и других методов генерации данных, таких как Evol-Instruct, позволяет нам создать улучшенную версию — MagicoderS. Как Magicoder, так и MagicoderS значительно превосходят современные модели для работы с кодом схожего или даже большего размера на широком спектре тестов, включая генерацию кода из текста на Python, многозадачное кодирование и завершение программ для работы с данными. Примечательно, что MagicoderS-CL-7B, основанная на CodeLlama, даже превосходит известный ChatGPT на тесте HumanEval+ (66.5 против 65.9 по метрике pass@1). В целом, OSS-Instruct открывает новое направление для настройки инструкций с низким уровнем смещения и высоким качеством, используя богатые открытые источники.
Модели диффузии для генерации видео из текста значительно продвинули создание видеоконтента. Однако настройка этих моделей для генерации видео с заданными движениями представляет собой серьезную проблему. В частности, они сталкиваются с трудностями в (а) точном воспроизведении движений из целевого видео и (б) создании разнообразных визуальных вариаций. Например, прямое применение методов настройки статических изображений к видео часто приводит к сложному переплетению данных о внешнем виде и движении. Для решения этой проблемы мы представляем фреймворк Video Motion Customization (VMC) — новый подход одноразовой настройки, разработанный для адаптации временных слоев внимания в моделях диффузии видео. Наш подход вводит новую цель дистилляции движения, используя векторы разницы между последовательными кадрами в качестве эталона движения. Процесс диффузии сохраняет низкочастотные траектории движения, одновременно уменьшая высокочастотный шум, не связанный с движением, в пространстве изображений. Мы проверяем наш метод на передовых моделях генерации видео в различных реальных движениях и контекстах. Наш код, данные и демонстрация проекта доступны по адресу https://video-motion-customization.github.io.
Процесс настройки согласованности (alignment) больших языковых моделей (LLM) обычно включает обучение на инструкциях с помощью контролируемой тонкой настройки (SFT) и настройку предпочтений через обучение с подкреплением на основе обратной связи от человека (RLHF). Недавнее исследование LIMA (Zhou et al., 2023) показывает, что использование всего 1 тыс. примеров для SFT также может достичь значительной производительности в согласованности, что позволяет предположить, что эффект настройки согласованности может быть "поверхностным". Это ставит под сомнение то, как именно настройка согласованности преобразует базовую LLM. Мы анализируем эффект настройки согласованности, изучая сдвиг распределения токенов между базовыми LLM и их согласованными версиями. Наши результаты показывают, что базовые LLM и их версии с настройкой согласованности работают почти идентично при декодировании на большинстве позиций токенов. Большинство сдвигов распределения происходит со стилистическими токенами. Эти прямые доказательства убедительно подтверждают Гипотезу Поверхностного Согласования, предложенную LIMA. На основе этих выводов мы переосмысливаем согласование LLM, задавая исследовательский вопрос: насколько эффективно мы можем согласовать базовые LLM без SFT или RLHF? Для решения этой задачи мы представляем простой метод согласования без настройки, URIAL. URIAL достигает эффективного согласования исключительно через обучение в контексте (ICL) с использованием базовых LLM, требуя всего три постоянных стилистических примера и системного промпта. Мы проводим детальную и интерпретируемую оценку на разнообразном наборе примеров, названном JUST-EVAL-INSTRUCT. Результаты показывают, что базовые LLM с URIAL могут соответствовать или даже превосходить производительность LLM, согласованных с помощью SFT или SFT+RLHF. Мы демонстрируем, что разрыв между методами согласования без настройки и с настройкой может быть значительно сокращен за счет стратегического промптинга и ICL. Наши выводы о поверхностной природе настройки согласованности и результаты с URIAL указывают на то, что более глубокий анализ и теоретическое понимание согласования имеют решающее значение для будущих исследований LLM.
Данное исследование посвящено синтезу изображений с сохранением идентичности — увлекательной задаче в области генерации изображений, которая направлена на сохранение личности субъекта при добавлении индивидуального стилистического оттенка. Традиционные методы, такие как Textual Inversion и DreamBooth, достигли значительных успехов в создании персонализированных изображений, однако они имеют существенные недостатки. К ним относятся необходимость значительных ресурсов и времени для тонкой настройки, а также требование наличия множества эталонных изображений. Чтобы преодолеть эти ограничения, наше исследование предлагает новый подход к синтезу с сохранением идентичности, с особым акцентом на изображения людей. Наша модель использует прямой механизм прямого распространения, что позволяет избежать трудоемкой тонкой настройки и обеспечивает быстрое и эффективное создание изображений. Ключевым элементом нашей инновации является гибридная система управления, которая объединяет стилизованные изображения, изображения лиц и текстовые подсказки для управления процессом генерации изображений. Такое уникальное сочетание позволяет нашей модели создавать разнообразные приложения, такие как художественные портреты и изображения с совмещением идентичностей. Результаты экспериментов, включая качественные и количественные оценки, демонстрируют превосходство нашего метода над существующими базовыми моделями и предыдущими работами, особенно в плане впечатляющей эффективности и способности сохранять идентичность субъекта с высокой точностью.
Диффузионные модели недавно получили беспрецедентное внимание в области синтеза изображений благодаря своим выдающимся генеративным возможностям. Однако, несмотря на их мощь, эти модели часто требуют значительных вычислительных ресурсов, что в основном связано с последовательным процессом удаления шума и большим размером модели. Традиционные методы сжатия диффузионных моделей обычно предполагают длительное переобучение, что создает проблемы с затратами и реализуемостью. В данной статье мы представляем DeepCache, новую парадигму, не требующую обучения, которая ускоряет диффузионные модели с точки зрения архитектуры модели. DeepCache использует присущую временную избыточность, наблюдаемую в последовательных шагах удаления шума в диффузионных моделях, кэшируя и извлекая признаки на соседних этапах удаления шума, тем самым сокращая избыточные вычисления. Используя свойства U-Net, мы повторно используем высокоуровневые признаки, обновляя низкоуровневые признаки с минимальными затратами. Эта инновационная стратегия позволяет ускорить Stable Diffusion v1.5 в 2.3 раза при снижении CLIP Score всего на 0.05 и LDM-4-G в 4.1 раза с небольшим ухудшением FID на ImageNet на 0.22. Наши эксперименты также демонстрируют превосходство DeepCache над существующими методами обрезки и дистилляции, которые требуют переобучения, и его совместимость с текущими методами сэмплирования. Более того, мы обнаружили, что при одинаковой пропускной способности DeepCache эффективно достигает сопоставимых или даже немного улучшенных результатов с DDIM или PLMS. Код доступен по адресу https://github.com/horseee/DeepCache.
Современные методы редактирования видео на основе диффузии в основном сосредоточены на редактировании с сохранением структуры, используя различные плотные соответствия для обеспечения временной согласованности и выравнивания движения. Однако эти подходы часто оказываются неэффективными, когда целевое редактирование предполагает изменение формы. Чтобы начать редактирование видео с изменением формы, в данной работе мы исследуем персонализированную замену объектов в видео, где мы стремимся заменить основной объект в исходном видео на целевой объект с другой идентичностью и, возможно, другой формой. В отличие от предыдущих методов, которые полагаются на плотные соответствия, мы представляем фреймворк VideoSwap, который использует семантические точечные соответствия, вдохновленные нашим наблюдением, что лишь небольшое количество семантических точек необходимо для выравнивания траектории движения объекта и изменения его формы. Мы также вводим различные взаимодействия с пользовательскими точками (например, удаление точек и перетаскивание точек) для решения различных задач семантического соответствия точек. Многочисленные эксперименты демонстрируют передовые результаты замены объектов в видео на различных реальных видеозаписях.
Мы предлагаем метод для эффективного оснащения модели Segment Anything Model (SAM) способностью генерировать региональные описания. SAM демонстрирует высокую обобщаемость для сегментации любых объектов, но ограничена в семантическом понимании. Введя легковесный механизм смешивания признаков на основе запросов, мы выравниваем региональные признаки с пространством встраивания языковых моделей для последующей генерации описаний. Поскольку количество обучаемых параметров невелико (обычно порядка десятков миллионов), это требует меньше вычислительных ресурсов, памяти и пропускной способности связи, что делает обучение быстрым и масштабируемым. Для решения проблемы недостатка данных с региональными описаниями мы предлагаем сначала предварительно обучать нашу модель на задачах обнаружения и сегментации объектов. Мы называем этот этап предварительным обучением со слабым контролем, поскольку данные для предварительного обучения содержат только названия категорий, а не полные текстовые описания. Такое предварительное обучение позволяет нам использовать множество общедоступных наборов данных для обнаружения и сегментации объектов. Мы проводим обширные эксперименты, чтобы продемонстрировать превосходство нашего метода и подтвердить каждое принятое решение. Эта работа служит шагом к масштабированию данных с региональными описаниями и открывает пути для исследования эффективных способов дополнения SAM региональной семантикой. Страница проекта, а также связанный с ним код доступны по следующей ссылке: https://xk-huang.github.io/segment-caption-anything/.
Несмотря на недавние успехи в генерации видео из текста, существующие исследования обычно упускают из виду тот факт, что в синтезированных видео контролируется только пространственное содержание, но не временные движения. Для решения этой проблемы в данной работе представлена практическая система под названием LivePhoto, которая позволяет пользователям анимировать интересующее их изображение с помощью текстовых описаний. Сначала мы создаем надежную базовую модель, которая позволяет хорошо обученному генератору изображений из текста (например, Stable Diffusion) принимать изображение в качестве дополнительного входного данных. Затем мы оснащаем улучшенный генератор модулем для временного моделирования движений и предлагаем тщательно разработанный процесс обучения, чтобы лучше связывать тексты и движения. В частности, учитывая, что (1) текст может описывать движения лишь приблизительно (например, без учета скорости движения) и (2) текст может включать как описание содержания, так и движений, мы вводим модуль оценки интенсивности движения, а также модуль перевешивания текста, чтобы снизить неоднозначность в отображении текста на движения. Эмпирические данные показывают, что наш подход способен эффективно преобразовывать текстовые инструкции, связанные с движением, в видео, такие как действия, движения камеры или даже создание нового содержимого "из ничего" (например, наливание воды в пустой стакан). Интересно, что благодаря предложенному механизму обучения интенсивности, наша система предоставляет пользователям дополнительный контрольный сигнал (например, интенсивность движения) помимо текста для настройки видео.
Обучение с подкреплением на основе человеческих предпочтений (RLHF) стало основной парадигмой для согласования больших языковых моделей (LLM) с человеческими предпочтениями. Обычно RLHF включает начальный этап обучения модели вознаграждения на основе человеческих предпочтений, которые часто выражаются в виде выбора между парами текстов, сгенерированных предварительно обученной LLM. Затем политика LLM дорабатывается путем её оптимизации для максимизации вознаграждения с использованием алгоритма обучения с подкреплением. Однако ключевое ограничение современных моделей вознаграждения заключается в их неспособности полностью отразить сложность человеческих предпочтений и их зависимости от распределения выборки. В данном исследовании мы предлагаем альтернативный подход для доработки LLM на основе парных человеческих предпочтений. Наш метод включает начальное обучение модели предпочтений, которая учитывает два входных текста при заданном промпте, а затем поиск политики, которая последовательно генерирует ответы, предпочитаемые по сравнению с ответами любой другой политики, что определяет равновесие Нэша для этой модели предпочтений. Мы называем этот подход обучением Нэша на основе человеческих предпочтений (NLHF). В контексте табличного представления политики мы представляем новый алгоритмический метод Nash-MD, основанный на принципах зеркального спуска. Этот алгоритм генерирует последовательность политик, причем последняя итерация сходится к регуляризованному равновесию Нэша. Кроме того, мы исследуем параметрические представления политик и предлагаем алгоритмы градиентного спуска для архитектур глубокого обучения. Чтобы продемонстрировать эффективность нашего подхода, мы представляем результаты экспериментов по доработке LLM для задачи суммирования текста. Мы считаем, что NLHF предлагает перспективное направление для обучения предпочтениям и оптимизации политик, способное продвинуть область согласования LLM с человеческими предпочтениями.
Чем отличаются два набора изображений? Определение различий на уровне наборов имеет решающее значение для понимания поведения моделей и анализа наборов данных, однако ручной просмотр тысяч изображений непрактичен. Чтобы облегчить этот процесс, мы исследуем задачу автоматического описания различий между двумя наборами изображений, которую мы называем "Описание различий наборов" (Set Difference Captioning). Эта задача принимает на вход наборы изображений D_A и D_B и выводит описание, которое чаще верно для D_A, чем для D_B. Мы предлагаем двухэтапный подход, который сначала генерирует кандидаты на описания различий из наборов изображений, а затем переупорядочивает их, проверяя, насколько хорошо они могут различать два набора. Мы представляем VisDiff, который сначала создает описания изображений и предлагает языковой модели сгенерировать кандидаты на описания, а затем переупорядочивает их с использованием CLIP. Для оценки VisDiff мы собираем VisDiffBench — набор данных, содержащий 187 пар наборов изображений с эталонными описаниями различий. Мы применяем VisDiff в различных областях, таких как сравнение наборов данных (например, ImageNet и ImageNetV2), сравнение моделей классификации (например, zero-shot CLIP и ResNet с обучением), обобщение режимов сбоев моделей (ResNet с обучением), характеристика различий между генеративными моделями (например, StableDiffusionV1 и V2) и выявление факторов, делающих изображения запоминающимися. С помощью VisDiff мы смогли обнаружить интересные и ранее неизвестные различия в наборах данных и моделях, что демонстрирует его полезность для выявления тонких инсайтов.
Диффузионные модели с их мощной выразительностью и высоким качеством генерации образцов открыли множество новых приложений и сценариев использования в различных областях. Для генерации образцов эти модели полагаются на нейронную сеть для удаления шума, которая создает изображения путем итеративного устранения шума. Однако роль архитектуры сети для удаления шума изучена недостаточно, и большинство усилий сосредоточено на сверточных остаточных U-Net. В данной статье мы исследуем эффективность трансформеров в генеративном обучении на основе диффузии. В частности, мы предлагаем новую модель, обозначенную как Diffusion Vision Transformers (DiffiT), которая состоит из гибридной иерархической архитектуры с U-образным кодировщиком и декодировщиком. Мы вводим новый временно-зависимый модуль самовнимания, который позволяет слоям внимания адаптировать свое поведение на разных этапах процесса удаления шума эффективным образом. Мы также представляем латентный DiffiT, который состоит из трансформера с предложенными слоями самовнимания, для генерации изображений с высоким разрешением. Наши результаты показывают, что DiffiT неожиданно эффективен в создании изображений с высокой точностью и достигает современных (SOTA) результатов на различных задачах условного и безусловного синтеза. В латентном пространстве DiffiT устанавливает новый рекорд SOTA с показателем FID 1.73 на наборе данных ImageNet-256. Репозиторий: https://github.com/NVlabs/DiffiT.
Модели для переранжирования списков, основанные на крупных языковых моделях (LLM), являются современным решением в режиме zero-shot. Однако текущие работы в этом направлении полностью зависят от моделей GPT, что создает единую точку отказа для научной воспроизводимости. Более того, это вызывает опасения, что текущие исследовательские результаты справедливы только для моделей GPT, но не для LLM в целом. В данной работе мы устраняем это предварительное условие и впервые создаем эффективные модели для переранжирования списков без какой-либо зависимости от GPT. Наши эксперименты с извлечением текстовых фрагментов показывают, что наша лучшая модель для переранжирования списков превосходит аналогичные модели, основанные на GPT-3.5, на 13% и достигает 97% эффективности моделей, построенных на GPT-4. Наши результаты также демонстрируют, что существующие наборы данных для обучения, которые были специально созданы для поточечного ранжирования, недостаточны для построения таких моделей переранжирования списков. Вместо этого необходимы и критически важны высококачественные данные для ранжирования списков, что требует дальнейшей работы по созданию аннотированных человеком ресурсов для спискового ранжирования.
С учетом недавних значительных достижений в области крупных мультимодальных моделей (LMMs), важность их способности к заземлению в визуальном чате становится все более очевидной. Несмотря на недавние усилия по обеспечению поддержки заземления в LMMs, их возможности для заземления и чата обычно разделены, и производительность чата резко снижается, когда требуется заземление. Проблема заключается в отсутствии набора данных для заземленного визуального чата (GVC). Существующие наборы данных для заземления содержат только короткие подписи. Для решения этой проблемы мы создали данные GVC, которые позволяют сочетать возможности заземления и чата. Для более точной оценки возможностей GVC мы представили эталонный тест под названием Grounding-Bench. Кроме того, мы предложили архитектуру модели, которая может поддерживать GVC и различные типы визуальных подсказок, соединяя модели сегментации с языковыми моделями. Экспериментальные результаты показывают, что наша модель превосходит другие LMMs на Grounding-Bench. Более того, наша модель демонстрирует конкурентоспособные результаты на классических эталонных тестах для заземления, таких как RefCOCO/+/g и Flickr30K Entities. Наш код будет доступен по адресу https://github.com/UX-Decoder/LLaVA-Grounding.
Мы представляем новый подход, названный GPS-Gaussian, для синтеза новых ракурсов персонажа в режиме реального времени. Предложенный метод позволяет осуществлять рендеринг с разрешением 2K в условиях скудного набора камер. В отличие от оригинального метода Gaussian Splatting или нейронных методов неявного рендеринга, которые требуют оптимизации для каждого объекта, мы вводим карты параметров Гаусса, определенные на исходных видах, и напрямую регрессируем свойства Gaussian Splatting для мгновенного синтеза новых ракурсов без необходимости тонкой настройки или оптимизации. Для этого мы обучаем наш модуль регрессии параметров Гаусса на большом объеме данных сканирования людей, совместно с модулем оценки глубины для преобразования 2D-карт параметров в 3D-пространство. Предложенная структура является полностью дифференцируемой, и эксперименты на нескольких наборах данных демонстрируют, что наш метод превосходит современные подходы, достигая при этом исключительной скорости рендеринга.
Мы представляем подход, который формулирует задачу распознавания объектов как предсказание следующего токена. Идея заключается в применении языкового декодера, который авторегрессивно предсказывает текстовые токены на основе эмбеддингов изображений для формирования меток. Чтобы обосновать этот процесс предсказания в рамках авторегрессии, мы настраиваем некаузальную маску внимания для декодера, включая две ключевые особенности: моделирование токенов из разных меток как независимых и рассмотрение токенов изображения как префикса. Этот механизм маскирования вдохновляет эффективный метод — однократное сэмплирование — для одновременного параллельного сэмплирования токенов нескольких меток и ранжирования сгенерированных меток по их вероятностям на этапе вывода. Для дальнейшего повышения эффективности мы предлагаем простую стратегию построения компактного декодера путем простого удаления промежуточных блоков предобученной языковой модели. Этот подход позволяет получить декодер, который соответствует производительности полной модели, но при этом значительно более эффективен. Код доступен по адресу https://github.com/kaiyuyue/nxtp.
Генерация видео по тексту демонстрирует многообещающие результаты. Однако, используя только естественный язык в качестве входных данных, пользователи часто сталкиваются с трудностями при предоставлении детальной информации для точного управления выходными данными модели. В данной работе мы предлагаем метод генерации видео с детализированным управлением (FACTOR), позволяющий достичь точного контроля. В частности, FACTOR направлен на управление внешним видом объектов и их контекстом, включая их местоположение и категорию, в сочетании с текстовым запросом. Для достижения детализированного контроля мы предлагаем унифицированную структуру, которая совместно внедряет управляющие сигналы в существующую модель генерации видео по тексту. Наша модель состоит из совместного кодировщика и адаптивных слоев кросс-внимания. Оптимизируя кодировщик и добавленные слои, мы адаптируем модель для генерации видео, которые соответствуют как текстовым запросам, так и детализированному управлению. В отличие от существующих методов, полагающихся на плотные управляющие сигналы, такие как карты границ, мы предоставляем более интуитивно понятный и удобный интерфейс, позволяющий осуществлять детализированный контроль на уровне объектов. Наш метод обеспечивает управляемость внешнего вида объектов без необходимости тонкой настройки, что снижает усилия пользователей по оптимизации для каждого объекта. Эксперименты на стандартных наборах данных и пользовательских входах подтверждают, что наша модель достигает улучшения на 70% по метрикам управляемости по сравнению с конкурирующими базовыми методами.
Мы представляем генеративные трансформеры с бесконечным словарём (GIVT), которые генерируют последовательности векторов с вещественными значениями вместо дискретных токенов из конечного словаря. Для этого мы предлагаем два удивительно простых изменения в архитектуре декодер-трансформеров: 1) на входе заменяем таблицу поиска для конечного словаря на линейную проекцию входных векторов; и 2) на выходе заменяем предсказание логитов (обычно преобразуемых в категориальное распределение) на параметры многомерной гауссовой смеси. Вдохновлённые парадигмой генерации изображений VQ-GAN и MaskGIT, где трансформеры используются для моделирования дискретных латентных последовательностей VQ-VAE, мы применяем GIVT для моделирования недискретизированных вещественных латентных последовательностей VAE. При использовании GIVT для условной генерации изображений с итеративным маскированным моделированием мы демонстрируем результаты, сопоставимые с MaskGIT, в то время как наш подход превосходит как VQ-GAN, так и MaskGIT при применении для причинного моделирования. Наконец, мы получаем конкурентоспособные результаты за пределами генерации изображений, применяя наш подход к панорамной сегментации и оценке глубины с использованием VAE-варианта фреймворка UViM.
Синтез новых ракурсов из видео, снятого в естественных условиях, является сложной задачей из-за таких проблем, как динамика сцены и отсутствие параллакса. Хотя существующие методы демонстрируют впечатляющие результаты с использованием неявных нейронных полей излучения, они требуют длительного времени для обучения и рендеринга. В данной работе мы возвращаемся к явным представлениям видео для эффективного синтеза высококачественных новых ракурсов из монохромного видео. Мы разделяем статическое и динамическое содержимое видео. В частности, мы строим глобальную модель статической сцены с использованием расширенного плоскостного представления сцены для синтеза временно согласованного нового видео. Наше плоскостное представление сцены дополнено сферическими гармониками и картами смещений для учета эффектов, зависящих от угла обзора, и моделирования сложной геометрии не плоских поверхностей. Для эффективности мы представляем динамическое содержимое в виде облаков точек для каждого кадра. Хотя такие представления склонны к временной несогласованности, незначительные временные несоответствия визуально маскируются из-за движения. Мы разрабатываем метод для быстрого оценивания такого гибридного представления видео и рендеринга новых ракурсов в реальном времени. Наши эксперименты показывают, что наш метод способен рендерить высококачественные новые ракурсы из видео, снятого в естественных условиях, с качеством, сопоставимым с современными методами, при этом он в 100 раз быстрее в обучении и позволяет выполнять рендеринг в реальном времени.
Крупномасштабные модели преобразования текста в изображение (Text-to-Image, T2I) быстро завоевали популярность в творческих областях, генерируя визуально привлекательные результаты на основе текстовых запросов. Однако управление этими моделями для обеспечения согласованности стиля остается сложной задачей, поскольку существующие методы требуют тонкой настройки и ручного вмешательства для разделения содержания и стиля. В данной статье мы представляем StyleAligned — новую методику, предназначенную для достижения стилевого выравнивания в серии генерируемых изображений. Используя минимальное «совместное использование внимания» в процессе диффузии, наш метод обеспечивает согласованность стиля между изображениями в рамках моделей T2I. Этот подход позволяет создавать изображения с единым стилем, используя эталонный стиль через простую операцию инверсии. Оценка нашего метода на различных стилях и текстовых запросах демонстрирует высокое качество синтеза и точность, подчеркивая его эффективность в достижении согласованности стиля для разнообразных входных данных.
Традиционные инструменты для создания 3D-контента позволяют пользователям воплощать свои идеи в жизнь, предоставляя им прямой контроль над геометрией сцены, её внешним видом, движением и траекторией камеры. Однако создание компьютерных видеороликов — это трудоёмкий ручной процесс, который можно автоматизировать с помощью современных моделей диффузии для генерации видео из текста. Несмотря на огромный потенциал, управление моделями диффузии для видео остаётся сложной задачей, что ограничивает возможность пользователей применять своё творчество, а не усиливать его. Чтобы решить эту проблему, мы предлагаем новый подход, который сочетает управляемость динамических 3D-сеток с выразительностью и редактируемостью современных моделей диффузии. Для этого наш метод использует анимированную, низкокачественную визуализацию сетки в качестве входных данных и внедряет информацию о соответствии, полученную из динамической сетки, на различных этапах предварительно обученной модели генерации изображений из текста, чтобы получить высококачественные и временно согласованные кадры. Мы демонстрируем наш подход на различных примерах, где движение может быть получено путём анимации риггированных объектов или изменения траектории камеры.
В области генерации 3D-моделей из текста использование 2D диффузионных моделей через метод сэмплирования с дистилляцией оценок (SDS) часто приводит к таким проблемам, как размытые текстуры и многоликая геометрия, что в основном обусловлено внутренне шумовой природой функции потерь SDS. Наш анализ выявляет, что корень этих проблем лежит во взаимодействии уровней шума в процессе 2D диффузии, архитектуре диффузионной сети и представлении 3D-модели. Чтобы преодолеть эти ограничения, мы представляем StableDreamer — методологию, включающую три ключевых улучшения. Во-первых, вдохновленные InstructNeRF2NeRF, мы формализуем эквивалентность генеративного априори SDS и простой функции потерь L2 для реконструкции. Это открытие предоставляет новый инструмент для отладки SDS, который мы используем для демонстрации влияния временного снижения уровней шума на уменьшение многоликой геометрии. Во-вторых, наш анализ показывает, что, хотя диффузия в пространстве изображений способствует точности геометрии, диффузия в латентном пространстве критически важна для яркой передачи цветов. На основе этого наблюдения StableDreamer вводит двухэтапную стратегию обучения, эффективно сочетающую эти аспекты, что приводит к созданию высококачественных 3D-моделей. В-третьих, мы применяем анизотропное представление 3D-гаусссиан, заменяя нейронные поля излучения (NeRF), чтобы улучшить общее качество, снизить использование памяти во время обучения, ускорить рендеринг и лучше воспроизводить полупрозрачные объекты. StableDreamer уменьшает многоликую геометрию, генерирует детализированные элементы и обеспечивает стабильную сходимость.
Интерактивная 3D-сегментация в полях излучения представляет собой важную задачу, учитывая её значимость для понимания и манипуляции 3D-сценами. Однако существующие методы сталкиваются с трудностями либо в достижении детальной, многоуровневой сегментации, либо в борьбе с существенными вычислительными затратами, что препятствует взаимодействию в реальном времени. В данной статье мы представляем Segment Any 3D GAussians (SAGA) — новый подход к интерактивной 3D-сегментации, который гармонично сочетает базовую модель 2D-сегментации с 3D Gaussian Splatting (3DGS), недавним прорывом в области полей излучения. SAGA эффективно встраивает многоуровневые результаты 2D-сегментации, сгенерированные базовой моделью, в признаки 3D-гауссовых точек с помощью тщательно разработанного контрастного обучения. Оценка на существующих бенчмарках показывает, что SAGA может достичь конкурентоспособной производительности по сравнению с передовыми методами. Более того, SAGA обеспечивает многоуровневую сегментацию и поддерживает различные типы подсказок, включая точки, штрихи и 2D-маски. Примечательно, что SAGA завершает 3D-сегментацию за миллисекунды, достигая ускорения почти в 1000 раз по сравнению с предыдущими SOTA. Страница проекта доступна по адресу https://jumpat.github.io/SAGA.
Крупные языковые модели (LLM) решают задачи более точно и интерпретируемо, когда им дают инструкцию работать над ответом шаг за шагом с использованием подсказки «цепочки рассуждений» (CoT). Производительность LLM на конкретной задаче также можно улучшить с помощью контролируемой тонкой настройки, то есть используя градиентный подъем для некоторых настраиваемых параметров с целью максимизации среднего логарифмического правдоподобия правильных ответов из размеченного обучающего набора. Наивное сочетание CoT с контролируемой настройкой требует не только указания правильных ответов, но и детальных обоснований, ведущих к этим ответам; такие обоснования дорого производить вручную. Вместо этого мы предлагаем стратегию тонкой настройки, которая стремится максимизировать маргинальное логарифмическое правдоподобие генерации правильного ответа с использованием CoT-подсказки, приближенно усредняя по всем возможным обоснованиям. Основная задача заключается в выборке из апостериорного распределения обоснований, обусловленных правильным ответом; мы решаем её с помощью простого алгоритма максимизации ожиданий (EM) на основе метода Монте-Карло с цепями Маркова (MCMC), вдохновленного самообучающимся рассуждателем (STaR), мемоизированным методом wake-sleep, марковским подъемом по оценкам и устойчивым контрастным расхождением. Этот алгоритм также допускает использование новой техники контрольных переменных, которая сводит дисперсию наших оценок градиента к нулю по мере улучшения модели. Применяя наш подход к GSM8K и задачам из BIG-Bench Hard, мы обнаруживаем, что техника тонкой настройки MCMC-EM обычно улучшает точность модели на тестовых примерах больше, чем STaR или настройка подсказок с использованием CoT или без него.
Мультимодальные крупные языковые модели (MLLMs) достигли значительных успехов в понимании и генерации двумерных изображений и текста, однако их понимание трехмерного мира остается недостаточным, что ограничивает прогресс в области понимания и генерации 3D-контента. Для решения этой проблемы мы представляем GPT4Point — инновационную модель, объединяющую обработку точечных данных и языка, специально разработанную для унифицированного понимания и генерации 3D-объектов в рамках MLLM. GPT4Point, как мощная 3D MLLM, способна выполнять разнообразные задачи, связанные с обработкой точечных данных и текста, такие как описание облаков точек и ответы на вопросы. Кроме того, GPT4Point оснащена передовыми возможностями для контролируемой 3D-генерации, позволяя получать высококачественные результаты даже при использовании низкокачественных точечно-текстовых характеристик, сохраняя при этом геометрические формы и цвета. Для поддержки масштабных потребностей в парных данных 3D-объектов и текста мы разработали Pyramid-XL — механизм аннотирования точечно-языковых данных. Он создает крупномасштабную базу данных, содержащую более 1 миллиона объектов с различными уровнями текстовой детализации, на основе набора данных Objaverse-XL, что является важным для обучения GPT4Point. Для оценки возможностей понимания точечно-языковых данных в 3D был предложен комплексный бенчмарк. В ходе обширных оценок GPT4Point продемонстрировала превосходные результаты в понимании и генерации.
Замечательные способности крупных языковых моделей (LLM), таких как GPT-4, частично обусловлены процессами пост-обучения, такими как обучение с подкреплением на основе человеческой обратной связи (RLHF), которое включает предпочтения людей, закодированные в модели вознаграждения. Однако эти модели вознаграждения (RM) часто не обладают прямым знанием о том, почему или на основе каких принципов были сделаны аннотации предпочтений. В данном исследовании мы определяем принципы, которые направляют RM для лучшего согласования с человеческими предпочтениями, а затем разрабатываем аксиоматическую структуру для генерации разнообразных сигналов предпочтений, чтобы поддерживать эти принципы. Мы используем эти аксиоматические сигналы для обучения модели, оценивающей ответы на развернутые вопросы. Наш подход позволяет создать модель предпочтений с примерно 220 миллионами параметров, которая согласуется с эталонными метками предпочтений, аннотированными людьми, чаще, чем GPT-4. Вклад этой работы включает: обучение автономной модели предпочтений, которая может оценивать ответы, созданные людьми и LLM, по одной шкале; разработку аксиоматической структуры для генерации пар обучающих данных, адаптированных к определенным принципам; и демонстрацию того, что небольшое количество аксиоматических сигналов может помочь небольшим моделям превзойти GPT-4 в оценке предпочтений. Мы публикуем нашу модель на huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
Обучение на множестве модальностей входных данных может расширить возможности языковой модели. В данной работе мы исследуем, может ли такой режим обучения также улучшить качество и эффективность этих систем. Мы сосредоточиваемся на текстово-аудиальных данных и представляем Whisbert, вдохновленный подходом к текстово-изображениям, предложенным в FLAVA (singh_flava_2022). В соответствии с рекомендациями Babylm (warstadt2023papers), мы предварительно обучаем Whisbert на наборе данных, состоящем всего из 100 миллионов слов и их соответствующих аудиозаписей из версии People's Speech с выравниванием по словам (galvez_peoples_2021). Чтобы оценить влияние мультимодальности, мы сравниваем версии модели, обученные только на тексте и одновременно на аудио и тексте. Мы обнаруживаем, что, хотя Whisbert демонстрирует хорошие результаты в мультимодальном маскированном моделировании и превосходит базовые показатели Babylm в большинстве тестовых задач, он испытывает трудности с оптимизацией своей сложной целевой функции и не превосходит свою текстовую версию Whisbert.
Нейронные поля излучения (NeRF) превосходно справляются с фотореалистичным рендерингом статичных сцен. Однако рендеринг динамических полей излучения длительной продолжительности на повсеместно используемых устройствах остается сложной задачей из-за ограничений по хранению данных и вычислительным ресурсам. В данной статье мы представляем VideoRF — первый подход, позволяющий осуществлять потоковую передачу и рендеринг динамических полей излучения в реальном времени на мобильных платформах. В основе лежит сериализованный поток 2D-изображений признаков, представляющий 4D-поле излучения в едином формате. Мы предлагаем специализированную схему обучения, применяемую непосредственно в этой 2D-области, чтобы учесть временную и пространственную избыточность потока изображений признаков. Используя эту избыточность, мы показываем, что поток изображений признаков может быть эффективно сжат с помощью 2D-видеокодеков, что позволяет задействовать аппаратные ускорители видео для достижения декодирования в реальном времени. С другой стороны, на основе потока изображений признаков мы предлагаем новый конвейер рендеринга для VideoRF, который использует специализированные пространственные отображения для эффективного запроса свойств излучения. В сочетании с моделью отложенного затенения VideoRF способен выполнять рендеринг в реальном времени на мобильных устройствах благодаря своей эффективности. Мы разработали интерактивный плеер, работающий в реальном времени, который позволяет осуществлять потоковую передачу и рендеринг динамических сцен, обеспечивая плавный и захватывающий опыт свободного обзора на различных устройствах — от настольных компьютеров до мобильных телефонов.
Мы представляем метод, который использует модель преобразования текста в изображение для генерации согласованного контента на нескольких масштабах изображения, что позволяет осуществлять экстремальные семантические увеличения сцены, например, от широкоугольного вида лесного пейзажа до макросъемки насекомого, сидящего на одной из ветвей дерева. Мы достигаем этого с помощью совместного подхода к многоуровневой диффузионной выборке, который способствует согласованности между различными масштабами, сохраняя при этом целостность каждого отдельного процесса выборки. Поскольку каждый генерируемый масштаб направляется различным текстовым запросом, наш метод позволяет достигать более глубоких уровней увеличения, чем традиционные методы супер-разрешения, которые могут испытывать трудности с созданием новой контекстуальной структуры на значительно разных масштабах. Мы качественно сравниваем наш метод с альтернативными техниками в области супер-разрешения и расширения изображений и показываем, что наш метод наиболее эффективен для генерации согласованного многоуровневого контента.
Недавно модель Segment Anything Model (SAM) продемонстрировала впечатляющие возможности в задаче сегментации с нулевым обучением, в то время как NeRF (Neural Radiance Fields) приобрела популярность как метод для решения различных 3D-задач, выходящих за рамки синтеза новых ракурсов. Хотя уже предпринимались попытки объединить эти два метода для 3D-сегментации, они сталкиваются с трудностями в точном и согласованном выделении объектов в сложных сценах. В данной работе мы представляем метод Segment Anything for NeRF in High Quality (SANeRF-HQ), предназначенный для высококачественной 3D-сегментации любого объекта в заданной сцене. SANeRF-HQ использует SAM для сегментации объектов в открытом мире на основе пользовательских подсказок, одновременно применяя NeRF для агрегации информации с различных точек зрения. Для преодоления упомянутых трудностей мы используем поле плотности и сходство RGB для повышения точности границ сегментации в процессе агрегации. Акцентируя внимание на точности сегментации, мы количественно оцениваем наш метод на нескольких наборах данных NeRF, где доступны высококачественные эталонные данные или они были вручную аннотированы. SANeRF-HQ демонстрирует значительное улучшение качества по сравнению с предыдущими передовыми методами в сегментации объектов NeRF, обеспечивает большую гибкость в локализации объектов и позволяет добиться более согласованной сегментации объектов на нескольких ракурсах. Дополнительная информация доступна по адресу https://lyclyc52.github.io/SANeRF-HQ/.
В данной работе улучшается модель image-GPT (iGPT), являющаяся одной из первых работ, в которых применяется авторегрессионное предобучение для предсказания следующих пикселей с целью обучения визуальных представлений. Вносятся два простых, но важных изменения. Во-первых, цель предсказания смещается с исходных пикселей на семантические токены, что позволяет достичь более высокого уровня понимания визуального содержания. Во-вторых, авторегрессионное моделирование дополняется инструкцией для модели предсказывать не только следующие токены, но и видимые токены. Этот подход особенно эффективен, когда семантические токены кодируются с использованием дискриминативно обученных моделей, таких как CLIP. Мы представляем этот новый подход как D-iGPT. Многочисленные эксперименты демонстрируют, что D-iGPT превосходно справляется с задачей обучения визуальных представлений: значительным достижением D-iGPT является её впечатляющая производительность на наборе данных ImageNet-1K — при обучении на общедоступных наборах данных D-iGPT достигает точности 89,5% в топ-1 с использованием стандартной модели ViT-Large. Эта модель также демонстрирует сильную обобщающую способность на последующих задачах и устойчивость к данным, выходящим за пределы распределения. Код доступен по адресу https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
В данной работе мы решаем задачу адаптивного редактирования 3D-сцен на основе исходных данных, предлагая модель CustomNeRF, которая объединяет текстовое описание или эталонное изображение в качестве подсказки для редактирования. Однако получение желаемых результатов редактирования, соответствующих подсказке, является нетривиальной задачей из-за двух значительных проблем: точного редактирования только областей переднего плана и обеспечения согласованности между несколькими видами при наличии эталонного изображения с одного ракурса. Для решения первой проблемы мы предлагаем схему обучения Local-Global Iterative Editing (LGIE), которая чередует редактирование областей переднего плана и полного изображения, направленное на манипуляции только с передним планом при сохранении фона. Для второй проблемы мы также разрабатываем регуляризацию, основанную на классах, которая использует априорные знания о классах внутри модели генерации для смягчения проблемы несогласованности между различными видами при редактировании на основе изображений. Многочисленные эксперименты показывают, что наша модель CustomNeRF обеспечивает точные результаты редактирования в различных реальных сценах как для текстовых, так и для изображений-подсказок.
Поиск способов ускорения ввода текста для людей с тяжелыми двигательными нарушениями остается давней областью исследований. Сокращение разрыва в скорости для устройств альтернативной и дополнительной коммуникации (AAC), таких как клавиатуры с отслеживанием взгляда, важно для улучшения качества жизни таких людей. Недавние достижения в области нейронных сетей для обработки естественного языка открывают новые возможности для переосмысления стратегий и пользовательских интерфейсов, направленных на улучшение ввода текста для пользователей AAC. В данной статье мы представляем SpeakFaster, который включает в себя крупные языковые модели (LLM) и совместно разработанный пользовательский интерфейс для ввода текста в сильно сокращенной форме, что позволяет сэкономить на 57% больше двигательных действий по сравнению с традиционными предиктивными клавиатурами в оффлайн-симуляции. Пилотное исследование с участием 19 участников, не использующих AAC, которые вводили текст на мобильном устройстве вручную, показало экономию двигательных усилий, соответствующую оффлайн-симуляции, при этом общая скорость набора текста изменилась незначительно. Лабораторные и полевые испытания с двумя пользователями, вводящими текст с помощью взгляда и страдающими боковым амиотрофическим склерозом (БАС), продемонстрировали скорость ввода текста на 29-60% выше, чем у традиционных базовых методов, благодаря значительной экономии дорогостоящих нажатий клавиш, достигнутой за счет предсказания фраз и слов с помощью контекстно-зависимых LLM. Эти результаты создают прочную основу для дальнейшего изучения существенно ускоренной текстовой коммуникации для пользователей с двигательными нарушениями и демонстрируют направление для применения LLM в текстовых пользовательских интерфейсах.
Крупные языковые модели (LLM) привлекают огромный интерес в практических приложениях благодаря их всё более точным ответам и способности к связному рассуждению. Учитывая их природу как "чёрных ящиков", использующих сложные процессы рассуждения на основе входных данных, неизбежно, что спрос на масштабируемые и достоверные объяснения для контента, генерируемого LLM, будет продолжать расти. За последнее десятилетие произошли значительные разработки в области объяснимости моделей нейронных сетей. Среди них постфактумные методы объяснимости, особенно значения Шепли, доказали свою эффективность для интерпретации моделей глубокого обучения. Однако существуют серьёзные проблемы в масштабировании значений Шепли для LLM, особенно при работе с длинными входными контекстами, содержащими тысячи токенов, и авторегрессивно сгенерированными выходными последовательностями. Кроме того, часто неясно, как эффективно использовать сгенерированные объяснения для улучшения производительности LLM. В данной статье мы представляем TextGenSHAP, эффективный постфактумный метод объяснения, включающий специфические для языковых моделей техники. Мы показываем, что это приводит к значительному увеличению скорости по сравнению с традиционными вычислениями значений Шепли, сокращая время обработки с часов до минут для объяснений на уровне токенов и до секунд для объяснений на уровне документов. Кроме того, мы демонстрируем, как значения Шепли в реальном времени могут быть использованы в двух важных сценариях: для лучшего понимания ответов на вопросы по длинным документам за счёт локализации важных слов и предложений; и для улучшения существующих систем поиска документов за счёт повышения точности выбранных фрагментов и, в конечном итоге, финальных ответов.