Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Kandinsky 3.0 — крупномасштабную модель генерации изображений из текста, основанную на латентной диффузии, продолжающую серию моделей Kandinsky для преобразования текста в изображения и отражающую наш прогресс в достижении более высокого качества и реалистичности генерации изображений. По сравнению с предыдущими версиями Kandinsky 2.x, Kandinsky 3.0 использует U-Net архитектуру, увеличенную в два раза, текстовый энкодер, увеличенный в десять раз, и исключает этап диффузионного маппинга. Мы описываем архитектуру модели, процедуру сбора данных, методику обучения и систему взаимодействия с пользователем. Основное внимание уделено ключевым компонентам, которые, как мы выяснили в результате многочисленных экспериментов, оказали наиболее значительное влияние на улучшение качества нашей модели по сравнению с другими. Наши сравнительные тесты показывают, что Kandinsky лучше понимает текст и эффективнее работает в специфических областях. Страница проекта: https://ai-forever.github.io/Kandinsky-3
В синтезе речи из текста (Text-to-Speech, TTS) диффузионные модели достигли впечатляющего качества генерации. Однако из-за предопределенного процесса диффузии от данных к шуму их априорное распределение ограничено зашумленным представлением, которое предоставляет мало информации о цели генерации. В данной работе мы представляем новую систему TTS, Bridge-TTS, впервые заменяющую зашумленное гауссово априорное распределение в существующих диффузионных методах TTS на чистое и детерминированное, которое предоставляет сильную структурную информацию о цели. В частности, мы используем латентное представление, полученное из текстового ввода, в качестве априорного распределения и строим полностью трактуемый мост Шрёдингера между ним и мель-спектрограммой, что приводит к процессу "данные-данные". Более того, трактуемость и гибкость нашей формулировки позволяют эмпирически исследовать пространства проектирования, такие как графики шума, а также разрабатывать стохастические и детерминированные сэмплеры. Экспериментальные результаты на наборе данных LJ-Speech демонстрируют эффективность нашего метода как с точки зрения качества синтеза, так и эффективности сэмплирования, значительно превосходя наш диффузионный аналог Grad-TTS в синтезе за 50/1000 шагов и сильные модели быстрого TTS в сценариях с малым количеством шагов. Страница проекта: https://bridge-tts.github.io/
Контрастное предобучение для языка и изображений (CLIP) играет ключевую роль в извлечении ценной информации из изображений для решения разнообразных задач. Оно согласует текстовые и визуальные модальности, чтобы охватить всё изображение целиком, включая все детали, даже те, которые не имеют отношения к конкретным задачам. Однако для более глубокого понимания и контролируемого редактирования изображений становится важным сосредоточиться на определённых областях интереса, которые могут быть обозначены точками, масками или рамками, заданными человеком или моделями восприятия. Для удовлетворения этих требований мы представляем Alpha-CLIP — улучшенную версию CLIP с дополнительным альфа-каналом, указывающим на внимательные области, и дообученную на миллионах созданных пар RGBA-регионов и текстов. Alpha-CLIP не только сохраняет способность CLIP к визуальному распознаванию, но и обеспечивает точный контроль над акцентированием содержимого изображений. Она демонстрирует эффективность в различных задачах, включая, но не ограничиваясь, распознаванием в открытом мире, мультимодальными большими языковыми моделями и условной 2D/3D генерацией. Alpha-CLIP обладает большим потенциалом для использования в качестве универсального инструмента для задач, связанных с изображениями.
Код предоставляет общую синтаксическую структуру для создания сложных программ и выполнения точных вычислений в сочетании с интерпретатором кода — мы предполагаем, что языковые модели (LMs) могут использовать написание кода для улучшения рассуждений в стиле "Цепочки Мысли" (Chain of Thought) не только для логических и арифметических задач, но и для лингвистических (и особенно для тех, которые представляют собой смесь обоих типов). Например, рассмотрим задачу, в которой LM предлагается написать код, подсчитывающий количество случаев сарказма в эссе: LM может столкнуться с трудностями при написании реализации функции "detect_sarcasm(string)", которая могла бы быть выполнена интерпретатором (обработка крайних случаев может оказаться непреодолимой). Однако LM всё же может предложить корректное решение, если использовать её не только для написания кода, но и для выборочной "эмуляции" интерпретатора, генерируя ожидаемый результат функции "detect_sarcasm(string)" и других строк кода (например, тех, которые интерпретатор не смог бы скомпилировать). В данной работе мы предлагаем "Цепочку Кода" (Chain of Code, CoT) — простое, но удивительно эффективное расширение, улучшающее рассуждения LM, основанные на коде. Основная идея заключается в том, чтобы побудить LM форматировать лингвистические подзадачи в программе в виде гибкого псевдокода, который компилятор может явно обрабатывать для выявления неопределённых поведений и передавать их на симуляцию с помощью LM (в качестве "LMулятора"). Эксперименты показывают, что "Цепочка Кода" превосходит "Цепочку Мысли" и другие базовые подходы на различных тестах; на BIG-Bench Hard "Цепочка Кода" достигает 84%, что на 12% выше, чем у "Цепочки Мысли". CoT хорошо масштабируется как для больших, так и для маленьких моделей и расширяет круг задач на рассуждение, которые LM могут корректно решать, "думая в коде". Веб-страница проекта: https://chain-of-code.github.io/.
Создание высококачественных 3D-аватаров головы всегда было важной областью исследований, однако остается серьезной проблемой в условиях ограниченного количества снимков. В данной работе мы предлагаем подход Gaussian Head Avatar, основанный на управляемых 3D-гауссоидах для моделирования высококачественных аватаров головы. Мы оптимизируем нейтральные 3D-гауссоиды и полностью обучаемое поле деформаций на основе MLP для захвата сложных выражений лица. Эти два компонента взаимно дополняют друг друга, что позволяет нашему методу моделировать тонкие динамические детали, обеспечивая при этом точность передачи выражений. Кроме того, мы разработали стратегию инициализации, основанную на геометрии и использующую неявные SDF и Deep Marching Tetrahedra, для повышения стабильности и сходимости процесса обучения. Эксперименты показывают, что наш подход превосходит другие современные методы, работающие с ограниченным количеством снимков, обеспечивая сверхвысокое качество рендеринга с разрешением 2K даже при экстремальных выражениях лица.
Движения в видео в основном состоят из движения камеры, вызванного перемещением самой камеры, и движения объектов, возникающего из-за их перемещения. Точный контроль как движения камеры, так и движения объектов является важным для генерации видео. Однако существующие работы либо сосредоточены преимущественно на одном типе движения, либо не проводят четкого разграничения между ними, что ограничивает их возможности управления и разнообразие. В связи с этим, в данной статье представлен MotionCtrl — унифицированный и гибкий контроллер движения для генерации видео, разработанный для эффективного и независимого управления движением камеры и объектов. Архитектура и стратегия обучения MotionCtrl тщательно продуманы с учетом inherent свойств движения камеры, движения объектов и неидеальных обучающих данных. По сравнению с предыдущими методами, MotionCtrl предлагает три основных преимущества: 1) Он эффективно и независимо управляет движением камеры и объектов, обеспечивая более детализированный контроль движения и способствуя гибким и разнообразным комбинациям обоих типов движения. 2) Его условия движения определяются позами и траекториями камеры, которые не зависят от внешнего вида и минимально влияют на внешний вид или форму объектов в генерируемых видео. 3) Это относительно универсальная модель, которая может адаптироваться к широкому спектру поз и траекторий камеры после обучения. Проведены обширные качественные и количественные эксперименты, демонстрирующие превосходство MotionCtrl над существующими методами.
В данной статье представлен углубленный анализ крупных языковых моделей (LLMs), с акцентом на LLaMA — известную открытую базовую модель в области обработки естественного языка. Вместо оценки LLaMA через её генеративные способности мы разработали задачи с множественным выбором, чтобы исследовать её внутреннее понимание в сложных задачах, таких как логическое рассуждение и вычисления. Мы анализируем модель как горизонтально, сравнивая различные размеры, так и вертикально, оценивая различные слои. На основе разработанных задач мы выявили несколько ключевых и необычных результатов: (1) Горизонтально, увеличение размеров модели почти не приводит к автоматическому приобретению дополнительных знаний или вычислительных способностей. Однако оно может улучшить способности к рассуждению, особенно в решении математических задач, и помогает снизить количество галлюцинаций, но только после достижения определённых пороговых размеров; (2) В вертикальном анализе нижние слои LLaMA демонстрируют недостаток арифметических и фактических знаний, проявляя логическое мышление, многоязычные и распознавательные способности, тогда как верхние слои содержат большую часть вычислительной мощности и знаний о реальном мире.
В последнее время мы наблюдаем значительный прогресс в области фотореалистичного моделирования и рендеринга человека. Однако эффективное воспроизведение реалистичных человеческих движений и их интеграция в конвейер растеризации остаются сложными задачами. В данной статье мы представляем HiFi4G — явный и компактный подход на основе гауссовых распределений для высококачественного рендеринга человеческих движений по плотным видеоданным. Основная идея заключается в объединении 3D-гауссового представления с нежестким трекингом, что позволяет получить компактное и удобное для сжатия представление. Сначала мы предлагаем механизм двойного графа для получения априорных данных о движении: грубый граф деформаций для эффективной инициализации и детализированный гауссов граф для наложения последующих ограничений. Затем мы используем схему оптимизации 4D-гауссовых распределений с адаптивными пространственно-временными регуляризаторами, чтобы эффективно сбалансировать априорные данные о нежестких деформациях и обновление гауссовых параметров. Мы также представляем сопутствующую схему сжатия с компенсацией остатков для обеспечения иммерсивного опыта на различных платформах. Этот подход достигает значительной степени сжатия — примерно в 25 раз, с использованием менее 2 МБ памяти на кадр. Многочисленные эксперименты демонстрируют эффективность нашего подхода, который значительно превосходит существующие методы по скорости оптимизации, качеству рендеринга и затратам на хранение данных.
Мы представляем Context Diffusion — основанную на диффузии архитектуру, которая позволяет моделям генерации изображений обучаться на визуальных примерах, представленных в контексте. В последних работах рассматривается подобное обучение в контексте для генерации изображений, где запрашиваемое изображение предоставляется вместе с контекстными примерами и текстовыми подсказками. Однако качество и точность генерируемых изображений ухудшаются, когда подсказка отсутствует, что свидетельствует о неспособности таких моделей действительно обучаться на основе визуального контекста. Чтобы решить эту проблему, мы предлагаем новую архитектуру, которая разделяет кодирование визуального контекста и сохранение структуры запрашиваемых изображений. Это позволяет модели обучаться как на визуальном контексте и текстовых подсказках, так и на каждом из них по отдельности. Кроме того, наша модель способна эффективно работать в условиях ограниченного количества примеров, что позволяет решать разнообразные сценарии обучения в контексте. Наши эксперименты и пользовательское исследование показывают, что Context Diffusion превосходит аналогичные модели как в рамках одной предметной области, так и за её пределами, что приводит к общему улучшению качества и точности генерируемых изображений.
Крупные языковые модели (LLM), такие как ChatGPT, вызвали огромный интерес благодаря своей способности к универсальному пониманию языка и, в частности, генерации высококачественного текста или компьютерного кода. Для многих профессий LLM представляют собой неоценимый инструмент, который может ускорить и улучшить качество работы. В этой заметке мы обсуждаем, в какой степени они могут помочь профессиональным математикам. Сначала мы даем математическое описание трансформерной модели, используемой во всех современных языковых моделях. Основываясь на последних исследованиях, мы затем описываем лучшие практики и потенциальные проблемы, а также сообщаем о математических способностях языковых моделей. Наконец, мы рассматриваем потенциал LLM для изменения того, как работают математики.
Редактирование видео на основе текста в последнее время привлекает значительный интерес в изменении стиля или замене объектов со схожей структурой. Помимо этого, мы демонстрируем, что такие свойства, как форма, размер, местоположение, движение и т.д., также могут быть отредактированы в видео. Наше ключевое наблюдение заключается в том, что преобразования ключевых кадров для конкретных внутренних признаков (например, карт границ объектов или позы человека) могут легко распространяться на другие кадры, предоставляя руководство для генерации. Таким образом, мы предлагаем MagicStick, управляемый метод редактирования видео, который изменяет свойства видео, используя преобразования извлеченных внутренних управляющих сигналов. В частности, для сохранения внешнего вида мы расширяем как предварительно обученную модель диффузии изображений, так и ControlNet до временного измерения и обучаем слои низкоранговой адаптации (LORA) для подгонки под конкретные сцены. Затем, в процессе редактирования, мы применяем фреймворк инверсии и редактирования. В отличие от других подходов, доработанный ControlNet используется как в инверсии, так и в генерации для управления вниманием с предложенным смешиванием внимания между пространственными картами внимания инверсии и редактирования. Несмотря на простоту, наш метод является первым, который демонстрирует возможность редактирования свойств видео на основе предварительно обученной текстово-изобразительной модели. Мы представляем эксперименты на множестве примеров в рамках нашего унифицированного фреймворка. Мы также сравниваем с редактированием на основе текста с учетом формы и генерацией видео с ручной проработкой движения, демонстрируя превосходство нашей временной согласованности и возможностей редактирования по сравнению с предыдущими работами. Код и модели будут опубликованы в открытом доступе.
Мы представляем новую задачу генерации иллюстрированных инструкций, то есть визуальных руководств, адаптированных под потребности пользователя. Мы выделяем уникальные требования для этой задачи и формализуем её с помощью набора автоматических и человеческих метрик оценки, предназначенных для измерения валидности, согласованности и эффективности генерируемых результатов. Мы объединяем возможности крупных языковых моделей (LLM) с мощными моделями генерации изображений на основе диффузии, чтобы предложить простой подход под названием StackedDiffusion, который генерирует такие иллюстрированные инструкции на основе текстового ввода. Полученная модель значительно превосходит базовые подходы и современные мультимодальные LLM; в 30% случаев пользователи даже предпочитают её статьям, созданным человеком. Наиболее примечательно то, что она открывает множество новых и увлекательных приложений, выходящих далеко за рамки возможностей статических статей в интернете, таких как персонализированные инструкции с промежуточными шагами и изображениями, адаптированными под индивидуальную ситуацию пользователя.
В данной статье представлен метод генерации изображений, основанный на условных представлениях (Representation-Conditioned image Generation, RCG), — простая, но эффективная структура, устанавливающая новый стандарт в области безусловной генерации изображений. RCG не использует аннотации, созданные человеком. Вместо этого он основывается на распределении самоконтролируемых представлений, которое отображается из распределения изображений с помощью предварительно обученного кодировщика. В процессе генерации RCG выбирает образцы из этого распределения представлений с использованием модели диффузии представлений (Representation Diffusion Model, RDM) и применяет генератор пикселей для создания изображений, обусловленных выбранными представлениями. Такая конструкция обеспечивает значительное руководство в процессе генерации, что приводит к созданию изображений высокого качества. Протестированный на наборе данных ImageNet 256×256, RCG достигает показателя Frechet Inception Distance (FID) 3.31 и Inception Score (IS) 253.4. Эти результаты не только существенно улучшают современные достижения в области безусловной генерации изображений, но также конкурируют с ведущими методами в условной генерации изображений, сокращая давний разрыв в производительности между этими двумя задачами. Код доступен по адресу https://github.com/LTH14/rcg.
Используя предобученные двумерные генеративные модели большого масштаба, последние работы способны генерировать высококачественные новые виды из одного изображения, сделанного в естественных условиях. Однако из-за отсутствия информации с нескольких ракурсов эти методы сталкиваются с трудностями в создании управляемых новых видов. В данной статье мы представляем DreamComposer — гибкую и масштабируемую структуру, которая может улучшить существующие диффузионные модели, учитывающие ракурс, путем внедрения условий с нескольких видов. В частности, DreamComposer сначала использует модуль трехмерного преобразования, учитывающий ракурс, для получения трехмерных представлений объекта с нескольких видов. Затем он визуализирует скрытые признаки целевого вида из трехмерных представлений с помощью модуля слияния признаков с нескольких видов. Наконец, признаки целевого вида, извлеченные из входных данных с нескольких ракурсов, внедряются в предобученную диффузионную модель. Эксперименты показывают, что DreamComposer совместим с современными диффузионными моделями для синтеза новых видов в режиме zero-shot, дополнительно улучшая их способность генерировать высококачественные изображения новых видов с условиями с нескольких ракурсов, что делает их готовыми для управляемой реконструкции трехмерных объектов и других приложений.
Мы представляем Efficient Monotonic Multihead Attention (EMMA) — современную модель синхронного перевода с численно устойчивой и несмещённой оценкой монотонных выравниваний. Кроме того, мы предлагаем улучшенные стратегии обучения и вывода, включая синхронную тонкую настройку на основе модели офлайн-перевода и снижение дисперсии монотонных выравниваний. Результаты экспериментов показывают, что предложенная модель достигает наилучших результатов в задаче синхронного перевода речи с испанского на английский язык.
Генерация обучающих изображений повседневных действий человека с эгоцентрической точки зрения представляет собой ключевой шаг на пути к эффективной передаче навыков. В данной работе мы вводим новую задачу — генерацию эгоцентрических кадров действий. Цель заключается в синтезе кадра действия на основе пользовательского текстового запроса и входного эгоцентрического изображения, которое фиксирует окружение пользователя. Примечательно, что существующие эгоцентрические наборы данных не содержат детальных аннотаций, описывающих выполнение действий. Кроме того, модели манипуляции изображениями на основе диффузии не способны контролировать изменение состояния действия в пределах соответствующего пиксельного пространства эгоцентрического изображения. Для решения этой проблемы мы дообучаем визуальную модель большого языка (VLLM) с помощью настройки на визуальные инструкции для создания обогащенных описаний действий. Более того, мы предлагаем метод Learn EGOcentric (LEGO) для генерации кадров действий, используя встраивания изображений и текста из VLLM в качестве дополнительных условий. Мы проверяем предложенную модель на двух эгоцентрических наборах данных — Ego4D и Epic-Kitchens. Наши эксперименты демонстрируют значительное улучшение по сравнению с предыдущими моделями манипуляции изображениями как в количественной, так и в качественной оценке. Мы также проводим детальные исследования и анализ, чтобы предоставить инсайты о нашем методе.
Нейронные поля излучения обеспечивают передовое качество синтеза изображений, но их рендеринг, как правило, занимает много времени. Одна из причин заключается в том, что они используют объемный рендеринг, что требует множества выборок (и запросов к модели) для каждого луча во время рендеринга. Хотя такое представление является гибким и легко оптимизируемым, большинство реальных объектов можно эффективнее моделировать с помощью поверхностей, а не объемов, что требует значительно меньшего количества выборок на луч. Это наблюдение стимулировало значительный прогресс в представлениях на основе поверхностей, таких как функции знаковых расстояний, однако такие методы могут испытывать трудности при моделировании полупрозрачных и тонких структур. Мы предлагаем метод HybridNeRF, который объединяет преимущества обоих подходов, рендеря большинство объектов как поверхности, в то время как сложные области (обычно небольшие) моделируются объемно. Мы оцениваем HybridNeRF на сложном наборе данных Eyeful Tower, а также на других часто используемых наборах для синтеза изображений. По сравнению с передовыми базовыми методами, включая недавние подходы на основе растеризации, мы снижаем уровень ошибок на 15-30%, достигая при этом реальной частоты кадров (не менее 36 FPS) для разрешений, используемых в виртуальной реальности (2Kx2K).