Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в моделях видеодиффузии показали исключительные способности в имитации динамики реального мира и поддержании трехмерной согласованности. Этот прогресс вдохновляет нас исследовать потенциал этих моделей для обеспечения динамической согласованности с различных точек зрения, что является весьма желательной особенностью для приложений, таких как виртуальная съемка. В отличие от существующих методов, сосредоточенных на многокамерной генерации отдельных объектов для реконструкции в 4D, наше внимание сосредоточено на создании видеороликов с открытым миром с произвольных точек зрения, включая позиции камеры с 6 степенями свободы. Для достижения этой цели мы предлагаем модуль "включи и играй", который улучшает предварительно обученную модель текст-видео для генерации многокамерных видеороликов, обеспечивая согласованное содержание с различных точек зрения. В частности, мы представляем модуль синхронизации многокамерного вида для поддержания согласованности внешнего вида и геометрии среди этих точек зрения. Учитывая недостаток высококачественных данных для обучения, мы разрабатываем гибридную схему обучения, которая использует изображения с несколькими камерами и монокулярные видеоролики для дополнения многокамерных видеороликов, созданных в Unreal Engine. Более того, наш метод позволяет интересные расширения, такие как повторная отрисовка видеоролика с новых точек зрения. Мы также выпустили набор данных видеороликов с синхронизацией многокамерного вида, названный SynCamVideo-Dataset. Страница проекта: https://jianhongbai.github.io/SynCamMaster/.
Недавние достижения в генерации изображений из текста (T2I) показали выдающийся успех в создании высококачественных изображений по тексту. Однако существующие модели T2I демонстрируют ухудшение производительности в генерации композиционных изображений, включающих в себя несколько объектов и сложные отношения. Мы связываем эту проблему с ограничениями существующих наборов данных изображений и текста, которые лишены точных аннотаций межобъектных отношений, представленных только подсказками. Для решения этой проблемы мы создаем LAION-SG, крупномасштабный набор данных с высококачественными структурными аннотациями сценарных графов (SG), которые точно описывают атрибуты и отношения между несколькими объектами, эффективно представляя семантическую структуру в сложных сценах. Основываясь на LAION-SG, мы обучаем новую базовую модель SDXL-SG, чтобы включить информацию структурной аннотации в процесс генерации. Обширные эксперименты показывают, что продвинутые модели, обученные на нашем наборе данных LAION-SG, демонстрируют значительное улучшение производительности в генерации сложных сцен по сравнению с моделями на существующих наборах данных. Мы также представляем CompSG-Bench, бенчмарк, который оценивает модели в генерации композиционных изображений, устанавливая новый стандарт для этой области.
Модели видео-языка в последнее время значительно продвинулись, демонстрируя превосходную производительность в различных задачах, например, в распознавании оптических символов и анализе сложных диаграмм. Продолжая эту тенденцию, мы представляем новую модель видео-языка, POINTS1.5, разработанную для превосходства в различных прикладных областях. POINTS1.5 является улучшением POINTS1.0 и включает в себя несколько ключевых инноваций: i) Мы заменяем исходный видео-кодер CLIP, имевший фиксированное разрешение изображения, на видео-кодер в стиле NaViT, поддерживающий нативное динамическое высокое разрешение. Это позволяет POINTS1.5 обрабатывать изображения любого разрешения без необходимости разбивать их на плитки. ii) Мы добавляем поддержку двуязычности в POINTS1.5, значительно расширяя его возможности на китайском языке. В связи с недостатком открытых китайских наборов данных для моделей видео-языка, мы собираем множество изображений из Интернета и аннотируем их с использованием комбинации ручных и автоматических методов. iii) Мы предлагаем набор строгих методов фильтрации для настройки визуальных инструкционных наборов данных. Мы всесторонне оцениваем все эти методы фильтрации и выбираем наиболее эффективные для получения окончательного набора данных для настройки визуальных инструкций. Благодаря этим инновациям, POINTS1.5 значительно превосходит POINTS1.0 и демонстрирует высокую производительность в различных прикладных областях. Следует отметить, что POINTS1.5-7B обучается на менее чем 4 миллиарда токенов и занимает первое место в рейтинге OpenCompass среди моделей с менее чем 10 миллиардами параметров.
Генерация изображения управляемого человека направлена на создание изображения человека на основе ссылочных изображений, обеспечивая точный контроль над внешностью или позой человека. Однако ранее использованные методы часто искажали мелкозернистые текстурные детали из ссылочного изображения, несмотря на достижение высокого общего качества изображения. Мы приписываем эти искажения недостаточному вниманию к соответствующим областям в ссылочном изображении. Для решения этой проблемы мы предлагаем метод обучения потоковых полей внимания (Leffa), который явно направляет целевой запрос на правильный ключ ссылки в слое внимания во время обучения. Конкретно, это достигается с помощью регуляризационной потери поверх карты внимания в рамках базового подхода на основе диффузии. Наши обширные эксперименты показывают, что Leffa достигает передового качества в контроле внешности (виртуальная примерка одежды) и позы (перенос позы), значительно снижая искажение мелкозернистых деталей, сохраняя при этом высокое качество изображения. Кроме того, мы показываем, что наша потеря не зависит от модели и может быть использована для улучшения производительности других моделей диффузии.
Экосистема BrowserGym решает растущую потребность в эффективной оценке и бенчмаркинге веб-агентов, особенно тех, которые используют автоматизацию и большие языковые модели (LLM) для задач взаимодействия с вебом. Многие существующие бенчмарки страдают от фрагментации и несогласованных методологий оценки, что затрудняет достижение надежных сравнений и воспроизводимых результатов. BrowserGym стремится решить эту проблему, предоставляя унифицированную среду, подобную тренажеру, с четко определенными пространствами наблюдения и действий, облегчая стандартизированную оценку на различных бенчмарках. В сочетании с AgentLab, дополнительным фреймворком, который помогает в создании, тестировании и анализе агентов, BrowserGym предлагает гибкость для интеграции новых бенчмарков, обеспечивая при этом последовательную оценку и полное управление экспериментами. Этот стандартизированный подход направлен на сокращение времени и сложности разработки веб-агентов, поддерживая более надежные сравнения и облегчая глубокий анализ поведения агентов, что может привести к более адаптивным и способным агентам, в конечном итоге ускоряя инновации в автоматизации на основе LLM. В качестве подтверждения этого, мы проводим первый крупномасштабный мульти-бенчмарксный эксперимент с веб-агентами и сравниваем производительность 6 передовых LLM на всех текущих бенчмарках, доступных в BrowserGym. Среди других результатов, наши исследования выявляют значительное расхождение между последними моделями OpenAI и Anthropic, при этом Claude-3.5-Sonnet лидирует почти на всех бенчмарках, за исключением задач, связанных с зрением, где GPT-4o превосходит. Несмотря на эти достижения, наши результаты подчеркивают, что создание надежных и эффективных веб-агентов остается значительной задачей из-за врожденной сложности реальных веб-сред и ограничений текущих моделей.
В то время как недавние основные видеогенераторы создают визуально насыщенный вывод, они все еще борются с дрейфом внешнего вида, когда объекты постепенно деградируют или изменяются несогласованно между кадрами, нарушая визуальную целостность. Мы предполагаем, что это происходит потому, что отсутствует явное руководство в терминах пространственного отслеживания на уровне признаков. Мы предлагаем Track4Gen, видеогенератор, осведомленный о пространстве, который объединяет потерю видеодиффузии с отслеживанием точек между кадрами, обеспечивая улучшенное пространственное руководство по признакам диффузии. Track4Gen объединяет задачи генерации видео и отслеживания точек в единую сеть, внесая минимальные изменения в существующие архитектуры генерации видео. Используя Stable Video Diffusion в качестве основы, Track4Gen демонстрирует, что возможно объединить генерацию видео и отслеживание точек, которые обычно рассматриваются как отдельные задачи. Наши обширные оценки показывают, что Track4Gen эффективно снижает дрейф внешнего вида, что приводит к временно стабильной и визуально согласованной генерации видео. Страница проекта: hyeonho99.github.io/track4gen
Стилевое управление стало популярным в моделях генерации видео. Существующие методы часто создают видео, значительно отличающиеся от заданного стиля, вызывают утечку контента и испытывают трудности при передаче одного видео в желаемый стиль. Наше первое наблюдение заключается в том, что важна стадия извлечения стиля, в то время как существующие методы акцентируют внимание на глобальном стиле, но игнорируют локальные текстуры. Для внесения текстурных особенностей и предотвращения утечки контента мы фильтруем связанные с контентом участки, сохраняя стильные на основе сходства между участками; для извлечения глобального стиля мы генерируем сопоставленный набор данных стилей через модельное иллюзионирование для облегчения контрастного обучения, что значительно улучшает абсолютную согласованность стиля. Более того, чтобы заполнить разрыв между изображением и видео, мы обучаем легкий адаптер движения на неподвижных видео, что неявно усиливает степень стилизации и позволяет нашей обученной на изображениях модели без проблем применяться к видео. Благодаря этим усилиям наш подход, StyleMaster, не только достигает значительного улучшения как в сходстве стиля, так и во временной согласованности, но также легко обобщается на передачу стиля видео с помощью ControlNet серого плита. Обширные эксперименты и визуализации демонстрируют, что StyleMaster значительно превосходит конкурентов, эффективно создавая высококачественные стилизованные видео, которые соответствуют текстовому контенту и тесно напоминают стиль исходных изображений. Наша страница проекта находится по адресу https://zixuan-ye.github.io/stylemaster
Обобщенные прямопропорциональные гауссовы модели достигли значительного прогресса в разреженной реконструкции 3D-изображений за счет использования априорных знаний из больших многозрительных наборов данных. Однако эти модели часто испытывают затруднения в представлении высокочастотных деталей из-за ограниченного количества гауссов. В то время как стратегия плотификации, используемая в оптимизации трехмерной гауссовой проекции (3D-GS) на основе сцены, может быть адаптирована к прямопропорциональным моделям, она может быть не оптимально подходящей для обобщенных сценариев. В данной статье мы предлагаем Генеративную Плотификацию, эффективный и обобщаемый метод для плотификации гауссов, сгенерированных прямопропорциональными моделями. В отличие от стратегии плотификации 3D-GS, которая итеративно разделяет и клонирует исходные параметры гауссов, наш метод повышает разрешение представлений признаков от прямопропорциональных моделей и генерирует соответствующие им детализированные гауссы за один проход, используя встроенные априорные знания для улучшенной обобщаемости. Экспериментальные результаты как на задачах восстановления объектов, так и сцен, показывают, что наш метод превосходит современные подходы с сравнимыми или меньшими размерами моделей, достигая значительных улучшений в представлении деталей.
В данной статье представлен StreamChat, новый подход, который улучшает возможности взаимодействия крупных мультимодальных моделей (LMM) с потоковым видеоконтентом. В сценариях потокового взаимодействия существующие методы полагаются исключительно на визуальную информацию, доступную на момент постановки вопроса, что приводит к значительным задержкам, поскольку модель остается неосведомленной о последующих изменениях в потоковом видео. StreamChat решает эту проблему, инновационно обновляя визуальный контекст на каждом шаге декодирования, обеспечивая использование моделью актуального видеоконтента на протяжении всего процесса декодирования. Кроме того, мы представляем гибкую и эффективную архитектуру на основе кросс-внимания для обработки динамических потоковых входов, сохраняя при этом эффективность вывода для потокового взаимодействия. Кроме того, мы создаем новый плотный набор данных инструкций для облегчения обучения моделей потокового взаимодействия, дополненный параллельным механизмом 3D-RoPE, который кодирует относительную временную информацию визуальных и текстовых токенов. Экспериментальные результаты показывают, что StreamChat достигает конкурентоспособной производительности на установленных бенчмарках изображений и видео и обладает превосходными возможностями в сценариях потокового взаимодействия по сравнению с передовыми видео LMM.
Редактирование реальных изображений с использованием предварительно обученной модели диффузии/потока текста в изображение (T2I) часто включает в себя преобразование изображения в соответствующую карту шума. Однако само по себе инвертирование обычно недостаточно для получения удовлетворительных результатов, поэтому многие методы дополнительно вмешиваются в процесс выборки. Такие методы достигают улучшенных результатов, но не могут без проблем переноситься между архитектурами моделей. В данной работе мы представляем метод FlowEdit, основанный на тексте, для предварительно обученных моделей потока T2I, который не требует инвертирования, оптимизации и не зависит от модели. Наш метод строит ОДУ, которое напрямую отображает исходное и целевое распределения (соответствующие исходным и целевым текстовым подсказкам) и достигает более низкой стоимости транспортировки, чем подход с инверсией. Это приводит к результатам на уровне современных достижений, как мы показываем на примере Stable Diffusion 3 и FLUX. Код и примеры доступны на веб-странице проекта.
Пространственное 3D-мышление - это способность анализировать и интерпретировать положения, ориентации и пространственные отношения объектов в трехмерном пространстве. Это позволяет моделям развивать всеобъемлющее понимание трехмерной сцены, обеспечивая их применимость в более широком спектре областей, таких как автономная навигация, робототехника и AR/VR. Хотя большие многомодальные модели (LMM) достигли значительного прогресса в широком спектре задач понимания изображений и видео, их способности выполнять пространственное 3D-мышление на разнообразных естественных изображениях изучены менее подробно. В данной работе мы представляем первый всесторонний бенчмарк пространственного 3D-мышления, 3DSRBench, с 2 772 вручную аннотированными вопросно-ответными парами изображений по 12 типам вопросов. Мы проводим надежную и тщательную оценку способностей пространственного 3D-мышления, сбалансировав распределение данных и применив новую стратегию FlipEval. Для дальнейшего изучения устойчивости пространственного 3D-мышления относительно трехмерных точек зрения камеры наш 3DSRBench включает два подмножества с вопросами пространственного 3D-мышления на сопоставленных изображениях с общими и необычными точками зрения. Мы проводим оценку широкого спектра открытых и закрытых LMM, выявляя их ограничения в различных аспектах трехмерного восприятия, таких как высота, ориентация, местоположение и многократное рассуждение о объектах, а также их ухудшенную производительность на изображениях с необычными точками зрения камеры. Наш 3DSRBench предоставляет ценные результаты и понимание для будущего развития LMM с сильными способностями к 3D-мышлению. Наша страница проекта и набор данных доступны по адресу https://3dsrbench.github.io.
В области генерации текста в движение модели типа Bert с маскировкой (MoMask, MMM) в настоящее время производят более качественные результаты по сравнению с авторегрессионными моделями типа GPT (T2M-GPT). Однако эти модели типа Bert часто лишены возможности потокового вывода, необходимой для приложений в видеоиграх и мультимедийных средах, функции, присущей моделям типа GPT. Кроме того, они демонстрируют более слабую производительность в генерации вне распределения. Для превзойти качество моделей типа BERT, используя структуру типа GPT, без добавления дополнительных моделей улучшения, усложняющих масштабирование данных, мы предлагаем новую архитектуру, Mogo (Motion Only Generate Once), которая генерирует высококачественные реалистичные трехмерные движения человека путем обучения единственной модели трансформера. Mogo состоит только из двух основных компонентов: 1) RVQ-VAE, иерархический вариационный автокодировщик с остаточным векторным квантованием, который дискретизирует непрерывные последовательности движения с высокой точностью; 2) Иерархический причинный трансформер, ответственный за генерацию базовых последовательностей движения авторегрессионным образом, одновременно выводя остатки на разных уровнях. Экспериментальные результаты показывают, что Mogo может генерировать непрерывные и циклические последовательности движения до 260 кадров (13 секунд), превосходя ограничение длины в 196 кадров (10 секунд) существующих наборов данных, таких как HumanML3D. На тестовом наборе данных HumanML3D Mogo достигает значения FID в 0.079, превосходя как модель типа GPT T2M-GPT (FID = 0.116), AttT2M (FID = 0.112), так и модель типа BERT MMM (FID = 0.080). Более того, наша модель достигает лучшей количественной производительности в генерации вне распределения.
Мы исследуем новый опыт создания видео, а именно Создание Видео по Демонстрации. Учитывая демонстрационное видео и контекстное изображение из другой сцены, мы генерируем физически правдоподобное видео, которое естественным образом продолжает изображение контекста и выполняет концепции действий из демонстрации. Для обеспечения этой возможности мы представляем delta-Diffusion, самообучающийся подход к обучению на неразмеченных видео путем условного предсказания будущего кадра. В отличие от большинства существующих контролов генерации видео, основанных на явных сигналах, мы принимаем форму неявного латентного контроля для максимальной гибкости и выразительности, необходимой для общих видео. Используя модель видеофундамента с дизайном узкого места во внешности сверху, мы извлекаем действия из демонстрационных видео для условием процесса генерации с минимальным утечками внешности. Эмпирически, delta-Diffusion превосходит связанные базовые уровни как по предпочтению человека, так и по масштабным оценкам машин, и демонстрирует потенциалы в направлении интерактивной симуляции мира. Примеры результатов генерации видео доступны на https://delta-diffusion.github.io/.
Большие языковые модели известны своей способностью улавливать знания о реальном мире, что позволяет им превосходно справляться с множеством последующих задач. Несмотря на недавние достижения, эти модели все еще подвержены так называемым галлюцинациям, из-за которых они могут выдавать нежелательный и фактически неверный текст. В данной работе мы предлагаем новый метод калибровки, который можно использовать для борьбы с галлюцинациями. Мы добавляем специальный токен [IDK] ("Я не знаю") в словарь модели и вводим целевую функцию, которая перераспределяет вероятностную массу на токен [IDK] для неверных предсказаний. Такой подход позволяет модели явно выражать неопределенность в своем выводе. Мы оцениваем предложенный метод на нескольких архитектурах моделей и фактических последующих задачах. Мы обнаружили, что модели, обученные с использованием нашего метода, способны выражать неопределенность в тех местах, где ранее допускали ошибки, при этом практически не теряя закодированных знаний. Мы также проводим обширные исследования абляции нескольких вариаций нашего подхода и предоставляем детальный анализ компромисса между точностью и полнотой нашего метода.
Увеличение размеров крупных моделей языков (LLMs) приводит к значительным вычислительным затратам и использованию памяти при адаптации этих моделей к конкретным задачам или областям. Были разработаны различные методы эффективной настройки параметров (PEFT), чтобы смягчить эти проблемы, обучая небольшой набор параметров для задачеспецифических обновлений весов модели. Среди методов PEFT выделяется LoRA своей простотой и эффективностью, вдохновляя разработку ряда вариантов. Однако LoRA и его преемники игнорируют знания, которые являются шумными или несущественными для целевой задачи, что негативно сказывается на производительности модели и приводит к субоптимальным результатам. Для преодоления этого ограничения мы представляем метод настройки параметров с учетом знаний (KaSA), который использует сингулярное разложение (SVD) с учетом знаний о сингулярных значениях для динамической активации знаний на основе их релевантности для текущей задачи. Мы проводим обширные эксперименты на различных LLMs по задачам в области понимания естественного языка (NLU), генерации (NLG), следования инструкциям и рассуждения на здравый смысл. Экспериментальные результаты показывают, что KaSA последовательно превосходит FFT и 14 популярных базовых методов PEFT на 16 бенчмарках и 4 синтетических наборах данных, подчеркивая эффективность и адаптивность нашего метода. Исходный код нашего метода доступен по адресу https://github.com/juyongjiang/KaSA.
Перенос стиля на основе текста направлен на объединение стиля референтного изображения с содержанием, описанным в текстовой подсказке. Недавние достижения в моделях текст-изображение улучшили тонкость трансформаций стиля, однако остаются значительные проблемы, особенно с переобучением на стили референсов, ограничивая стилистический контроль и расхождение с текстовым содержанием. В данной статье мы предлагаем три взаимодополняющие стратегии для решения этих проблем. Во-первых, мы представляем механизм кросс-модальной нормализации экземпляра с адаптивным инстансным (AdaIN) для лучшей интеграции стилевых и текстовых особенностей, улучшая их выравнивание. Во-вторых, мы разрабатываем подход Стилевое руководство без классификатора (SCFG), который позволяет селективный контроль над стилевыми элементами, уменьшая нерелевантные влияния. Наконец, мы включаем модель учителя на ранних этапах генерации для стабилизации пространственных макетов и смягчения артефактов. Наши обширные оценки демонстрируют значительные улучшения качества переноса стиля и выравнивание с текстовыми подсказками. Более того, наш подход может быть интегрирован в существующие рамки переноса стиля без донастройки.
Создание высококачественных данных для обучения надежных агентов, управляемых языком, является долговременной проблемой во воплощенном искусственном интеллекте. В данной статье мы представляем Self-Refining Data Flywheel (SRDF), который генерирует высококачественные и масштабные пары навигационных инструкций и траекторий путем итеративного улучшения пула данных через сотрудничество двух моделей: генератора инструкций и навигатора, без участия человека в процессе аннотации. Конкретно, SRDF начинает с использования базового генератора для создания начального пула данных для обучения базового навигатора, затем применяет обученного навигатора для фильтрации пула данных. Это приводит к данным более высокой достоверности для обучения лучшего генератора, который в свою очередь может создавать данные более высокого качества для обучения следующего навигатора. Такое вращающееся колесо устанавливает процесс самоулучшения данных, обеспечивая непрерывно улучшающийся и высокоэффективный набор данных для обучения масштабному языково-управляемому обучению навигации. Наши эксперименты показывают, что после нескольких раундов вращения колеса навигатор повышает границу производительности с 70% до 78% SPL на классическом наборе тестов R2R, превосходя производительность человека (76%) впервые. В то же время этот процесс приводит к улучшенному генератору, подтвержденному увеличением SPICE с 23,5 до 26,2, превосходя все предыдущие методы генерации инструкций VLN. Наконец, мы демонстрируем масштабируемость нашего метода через увеличение разнообразия окружения и инструкций, а также обобщающую способность нашего предварительно обученного навигатора на различных последующих задачах навигации, превосходя существующие методы с большим отрывом во всех случаях.
Перевод изображений (IT) обладает огромным потенциалом в различных областях, позволяя переводить текстовое содержимое на изображениях на различные языки. Однако существующие наборы данных часто страдают от ограничений в масштабе, разнообразии и качестве, что затрудняет разработку и оценку моделей IT. Для решения этой проблемы мы представляем MIT-10M, крупный параллельный корпус мультиязычного перевода изображений с более чем 10 млн пар изображений и текста, полученных из реальных данных, которые прошли обширную очистку данных и проверку мультиязычного перевода. Он содержит 840 тыс. изображений трех размеров, 28 категорий, задачи с тремя уровнями сложности и 14 пар изображений и текста на разных языках, что является значительным улучшением по сравнению с существующими наборами данных. Мы проводим обширные эксперименты для оценки и обучения моделей на MIT-10M. Экспериментальные результаты ясно показывают, что наш набор данных обладает более высокой адаптивностью при оценке производительности моделей в решении сложных и комплексных задач перевода изображений в реальном мире. Более того, производительность модели, донастроенной с использованием MIT-10M, увеличилась втрое по сравнению с базовой моделью, дополнительно подтверждая ее превосходство.