Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генеративное искусственное интеллекта в последние годы сделало быстрые прорывы, достигнув беспрецедентных возможностей в мультимодальном понимании и генерации кода. Это может способствовать новой парадигме разработки фронт-энда, в рамках которой мультимодальные LLM могут непосредственно преобразовывать визуальные дизайны в кодовые реализации. В данной работе мы формализуем это как задачу Design2Code и проводим комплексное бенчмаркинг. Конкретно, мы вручную составляем бенчмарк из 484 разнообразных веб-страниц в реальном мире в качестве тестовых случаев и разрабатываем набор автоматических метрик оценки, чтобы оценить, насколько хорошо текущие мультимодальные LLM могут генерировать кодовые реализации, которые непосредственно отображаются на заданных эталонных веб-страницах, учитывая скриншоты как входные данные. Мы также дополняем автоматические метрики комплексными оценками человека. Мы разрабатываем набор мультимодальных методов подсказок и демонстрируем их эффективность на моделях GPT-4V и Gemini Pro Vision. Мы также донастраиваем открытую модель Design2Code-18B, которая успешно соответствует производительности Gemini Pro Vision. Как человеческая оценка, так и автоматические метрики показывают, что GPT-4V лучше всего справляется с этой задачей по сравнению с другими моделями. Более того, аннотаторы считают, что сгенерированные веб-страницы GPT-4V могут заменить исходные эталонные веб-страницы в 49% случаев по внешнему виду и содержанию; и, возможно, удивительно, в 64% случаев сгенерированные веб-страницы GPT-4V считаются лучше исходных эталонных веб-страниц. Наши детальные метрики показывают, что открытые модели в основном отстают в воспроизведении визуальных элементов с входных веб-страниц и в генерации правильных макетов, в то время как аспекты, такие как текстовое содержание и цветовая гамма, могут значительно улучшиться при должном донастройке.
Модели диффузии создают данные из шума, инвертируя прямые пути данных к шуму, и стали мощной техникой генеративного моделирования для высокоразмерных восприимчивых данных, таких как изображения и видео. Прямой поток - недавняя формулировка генеративной модели, которая соединяет данные и шум прямой линией. Несмотря на лучшие теоретические свойства и концептуальную простоту, она пока не является стандартной практикой. В данной работе мы улучшаем существующие техники выборки шума для обучения моделей прямого потока, направляя их к перцептивно значимым масштабам. Через масштабное исследование мы демонстрируем превосходную производительность этого подхода по сравнению с установленными формулировками диффузии для синтеза текста в изображение высокого разрешения. Кроме того, мы представляем новую архитектуру на основе трансформера для генерации изображений по тексту, которая использует отдельные веса для двух модальностей и обеспечивает двунаправленный поток информации между изображением и текстовыми токенами, улучшая понимание текста, типографию и предпочтения человека. Мы демонстрируем, что эта архитектура следует предсказуемым тенденциям масштабирования и связывает более низкую потерю на валидации с улучшением синтеза текста в изображение, измеряемым различными метриками и оценками людей. Наши самые крупные модели превосходят современные модели, и мы сделаем наши экспериментальные данные, код и веса моделей общедоступными.
Виртуальная примерка на основе изображений (VTON), цель которой - создание изображения целевого человека, одетого в одежду из магазина, представляет собой сложную задачу синтеза изображений, требующую не только высокой достоверности изображения одетого человека, но и полного сохранения деталей одежды. Для решения этой проблемы мы предлагаем метод Outfitting over Try-on Diffusion (OOTDiffusion), использующий мощь предварительно обученных моделей диффузии и разрабатывающий новую архитектуру сети для реалистичной и управляемой виртуальной примерки. Без явного процесса искажения, мы предлагаем модель outfitting UNet для изучения особенностей деталей одежды и их слияния с телом целевого человека через наше предложенное объединение outfitting в процессе размытия моделей диффузии. Для дальнейшего улучшения управляемости нашей модели outfitting UNet мы вводим dropout для outfitting в процесс обучения, что позволяет нам регулировать силу особенностей одежды через руководство без классификатора. Наши всеобъемлющие эксперименты на наборах данных VITON-HD и Dress Code показывают, что OOTDiffusion эффективно создает изображения с высоким качеством одежды для произвольных изображений человека и одежды, превосходя другие методы VTON как по достоверности, так и по управляемости, что указывает на впечатляющий прорыв в виртуальной примерке. Наш исходный код доступен по ссылке https://github.com/levihsu/OOTDiffusion.
Развитие мультимодельных моделей стало значительным шагом вперед в понимании видео машинами. Эти модели показали перспективы в анализе коротких видеороликов. Однако, когда речь идет о более длинных форматах, таких как фильмы, они часто не справляются. Основные препятствия заключаются в отсутствии качественных и разнообразных видеоданных и интенсивной работе, необходимой для их сбора или аннотирования. Сталкиваясь с этими проблемами, мы предлагаем MovieLLM, новую концепцию, разработанную для создания синтетических высококачественных данных для длинных видеороликов. Эта концепция использует мощь GPT-4 и моделей текста-к-изображению для генерации подробных сценариев и соответствующих визуальных элементов. Наш подход выделяется своей гибкостью и масштабируемостью, что делает его превосходной альтернативой традиционным методам сбора данных. Наши обширные эксперименты подтверждают, что данные, созданные MovieLLM, значительно улучшают производительность мультимодельных моделей в понимании сложных видеорассказов, преодолевая ограничения существующих наборов данных в отношении их ограниченности и предвзятости.
В последнее время генерация видео достигла значительного быстрого развития на основе передовых техник генерации текста в изображение. В данной работе мы предлагаем высококачественную структуру для генерации изображения в видео, названную AtomoVideo. Основываясь на многогранной инъекции изображения, мы достигаем более высокой точности сгенерированного видео по сравнению с заданным изображением. Кроме того, благодаря качественным наборам данных и стратегиям обучения, мы добиваемся большей интенсивности движения, сохраняя при этом превосходную временную последовательность и стабильность. Наша архитектура гибко расширяется на задачу предсказания кадра видео, обеспечивая предсказание длинной последовательности через итеративную генерацию. Благодаря разработке адаптерного обучения, наш подход может хорошо сочетаться с существующими персонализированными моделями и управляемыми модулями. После количественной и качественной оценки AtomoVideo достигает превосходных результатов по сравнению с популярными методами, дополнительные примеры можно найти на нашем веб-сайте проекта: https://atomo-video.github.io/.
Большие языковые модели (LLM) сталкиваются с огромным вызовом из-за избыточных вычислительных и памятных требований, характерных для широко используемой архитектуры Трансформера. В то время как модель пространства состояний (SSM) представляет собой новый тип базовой сетевой архитектуры с более низкой вычислительной сложностью, ее производительность пока не полностью соответствует уровню Трансформеров. В данной статье представлен DenseSSM, новый подход для улучшения потока скрытой информации между слоями в SSM. Путем выборочного интегрирования скрытых состояний неглубоких слоев в более глубокие слои DenseSSM сохраняет детализированную информацию, критически важную для конечного результата. Плотные соединения, улучшающие DenseSSM, все еще сохраняют параллелизуемость обучения и эффективность вывода. Предложенный метод может быть широко применим к различным типам SSM, таким как RetNet и Mamba. При сходном размере модели DenseSSM достигает значительных улучшений, как показано на примере DenseRetNet, превосходящего оригинальный RetNet на общедоступных бенчмарках с улучшением точности до 5%.
Многомодельные модели с большим языковым объемом (MLLM) недавно получили значительные преимущества. Тем не менее, остаются вызовы в точном распознавании и понимании сложных деталей в изображениях высокого разрешения. Несмотря на то, что это неотъемлемо для развития надежных MLLM, данная область остается мало исследованной. Для решения этой проблемы наша работа представляет InfiMM-HD, новую архитектуру, специально разработанную для обработки изображений разного разрешения с низким вычислительным нагрузкой. Это новшество способствует расширению возможностей MLLM до изображений более высокого разрешения. InfiMM-HD включает в себя модуль кросс-внимания и визуальные окна для снижения вычислительных затрат. Интегрируя эту архитектурную конструкцию с четырехэтапным обучающим конвейером, наша модель достигает улучшенного визуального восприятия эффективно и экономично. Эмпирическое исследование подчеркивает надежность и эффективность InfiMM-HD, открывая новые возможности для исследований в смежных областях. Коды и модели можно найти по ссылке https://huggingface.co/Infi-MM/infimm-hd
Данный технический отчет представляет TripoSR, модель трехмерной реконструкции, использующую архитектуру трансформера для быстрой генерации трехмерных данных в прямом направлении, создающую трехмерную сетку из одного изображения менее чем за 0.5 секунды. На основе архитектуры сети LRM, TripoSR интегрирует существенные улучшения в обработке данных, дизайне модели и методах обучения. Оценки на общедоступных наборах данных показывают, что TripoSR демонстрирует превосходное качество работы как количественно, так и качественно, по сравнению с другими альтернативами с открытым исходным кодом. Выпущенный под лицензией MIT, TripoSR призван предоставить исследователям, разработчикам и творческим специалистам последние достижения в области трехмерного генеративного искусственного интеллекта.
Недавние достижения в моделях текст-в-изображение (например, Stable Diffusion) и соответствующих персонализированных технологиях (например, DreamBooth и LoRA) позволяют людям создавать качественные и креативные изображения. Однако они часто сталкиваются с ограничениями при создании изображений с разрешениями вне их обученной области. Для преодоления этого ограничения мы представляем Резольверный Адаптер (ResAdapter), доменно-согласованный адаптер, разработанный для моделей диффузии для генерации изображений с неограниченными разрешениями и соотношениями сторон. В отличие от других методов многоразрешенной генерации, которые обрабатывают изображения статического разрешения с помощью сложных операций постобработки, ResAdapter непосредственно генерирует изображения с динамическим разрешением. В частности, после изучения глубокого понимания чистых разрешений, ResAdapter, обученный на общем наборе данных, генерирует изображения без разрешения с персонализированными моделями диффузии, сохраняя их первоначальный стилевой домен. Комплексные эксперименты показывают, что ResAdapter с всего 0,5 млн. может обрабатывать изображения с гибкими разрешениями для произвольных моделей диффузии. Более расширенные эксперименты показывают, что ResAdapter совместим с другими модулями (например, ControlNet, IP-Adapter и LCM-LoRA) для генерации изображений по широкому спектру разрешений и может быть интегрирован в другую многоразрешенную модель (например, ElasticDiffusion) для эффективной генерации изображений более высокого разрешения. Ссылка на проект: https://res-adapter.github.io
Задачи генерации изображения в видео (I2V) всегда сталкиваются с проблемой поддержания высокой достоверности в открытых доменах. Традиционные техники анимации изображений в основном сосредотачиваются на конкретных доменах, таких как лица или позы людей, что делает их сложными для обобщения на открытые домены. Несколько недавних фреймворков I2V, основанных на моделях диффузии, могут генерировать динамический контент для изображений открытого домена, но не способны сохранить достоверность. Мы обнаружили, что два основных фактора низкой достоверности - это потеря деталей изображения и предвзятость прогнозирования шума в процессе денойзинга. Для решения этой проблемы мы предлагаем эффективный метод, который может быть применен к основным моделям диффузии видео. Этот метод достигает высокой достоверности на основе дополнения более точной информации об изображении и коррекции шума. Конкретно, учитывая указанное изображение, наш метод сначала добавляет шум к входному изображению в скрытом виде, чтобы сохранить больше деталей, затем устраняет шумный скрытый слой с правильной коррекцией для смягчения предвзятости прогнозирования шума. Наш метод не требует настройки и готов к использованию. Экспериментальные результаты демонстрируют эффективность нашего подхода в улучшении достоверности созданных видео. Для получения дополнительных результатов генерации изображения в видео обратитесь к веб-сайту проекта: https://noise-rectification.github.io.
Язык предоставляет способ декомпозиции сложных концепций на усваиваемые части. Недавние работы в области обучения имитации роботов используют языком обусловленные стратегии, которые предсказывают действия на основе визуальных наблюдений и высокоуровневой задачи, указанной в языке. Эти методы используют структуру естественного языка для обмена данными между семантически схожими задачами (например, "взять банку колы" и "взять яблоко") в многозадачных наборах данных. Однако, по мере увеличения семантического разнообразия задач (например, "взять банку колы" и "налить в чашку"), обмен данными между задачами становится сложнее, поэтому для обучения отображению высокоуровневых задач на действия требуется гораздо больше демонстрационных данных. Для связи задач и действий наша идея заключается в обучении робота языку действий, описывая низкоуровневые движения более детализированными фразами, такими как "двигать рукой вперед". Предсказание этих языковых движений в качестве промежуточного шага между задачами и действиями заставляет стратегию учиться общей структуре низкоуровневых движений по всей видимости различных задач. Более того, стратегия, обусловленная языковыми движениями, может легко корректироваться во время выполнения через явно указанные человеком языковые движения. Это открывает новую парадигму гибких стратегий, которые могут учиться на основе вмешательства человека в языке. Наш метод RT-H создает иерархию действий, используя языковые движения: сначала он учится предсказывать языковые движения, а при условии этого и высокоуровневой задачи предсказывает действия, используя визуальный контекст на всех этапах. Мы показываем, что RT-H использует эту языково-действенную иерархию для обучения стратегий, которые более устойчивы и гибки, эффективно используя многозадачные наборы данных. Мы демонстрируем, что эти стратегии не только позволяют реагировать на языковые вмешательства, но и могут учиться на таких вмешательствах и превосходить методы, которые учатся на телекомандных вмешательствах. Наш веб-сайт и видео доступны по адресу https://rt-hierarchy.github.io.
Генерация 3D-объектов привлекает огромное внимание, вдохновленная недавним успехом создания 2D-контента по текстовому описанию. Существующие методы преобразования текста в 3D используют предварительно обученные модели диффузии текста в изображение в задаче оптимизации или дообучают их на синтетических данных, что часто приводит к созданию нереалистичных 3D-объектов без фона. В данной статье мы представляем метод, который использует предварительно обученные модели преобразования текста в изображение в качестве априорного знания и обучается генерировать многозрительные изображения в единственном процессе денойзинга на основе данных реального мира. Конкретно, мы предлагаем интегрировать объемную визуализацию 3D и слои внимания между кадрами в каждый блок существующей сети U-Net модели преобразования текста в изображение. Более того, мы разрабатываем авторегрессивную генерацию, которая создает более согласованные с 3D изображения с любой точки зрения. Мы обучаем нашу модель на наборах данных объектов реального мира и демонстрируем ее способность генерировать экземпляры с разнообразными формами и текстурами высокого качества в аутентичных окружениях. По сравнению с существующими методами, результаты, полученные нашим методом, согласованы и обладают благоприятным визуальным качеством (-30% FID, -37% KID).
Управление объектами с помощью двух многопальцевых рук является длительной проблемой в робототехнике, обусловленной контактно насыщенным характером многих задач манипуляции и сложностью координации высокоразмерной бимануальной системы. В данной работе мы рассматриваем проблему закручивания крышек различных объектов в форме бутылок с помощью двух рук и демонстрируем, что стратегии, обученные в симуляции с использованием глубокого обучения с подкреплением, могут быть успешно перенесены в реальный мир. Благодаря новым инженерным идеям в области физического моделирования, перцепции в реальном времени и разработки вознаграждения, стратегия проявляет обобщающие способности на разнообразном наборе невидимых объектов, демонстрируя динамичное и ловкое поведение. Наши результаты служат убедительным доказательством того, что глубокое обучение с подкреплением в сочетании с переносом из симуляции в реальность остается многообещающим подходом для решения проблем манипуляции невиданной сложности.
Построение фотореалистичных видеороликов свободного обзора (FVV) динамических сцен из многокамерных видео остается сложной задачей. Несмотря на значительные достижения текущих методов нейронного рендеринга, эти методы обычно требуют полных видеопоследовательностей для офлайн-обучения и не способны к реальному временному рендерингу. Для преодоления этих ограничений мы представляем 3DGStream, метод, разработанный для эффективного потокового воспроизведения FVV реальных динамических сцен. Наш метод достигает быстрой реконструкции кадра на лету в течение 12 секунд и реального времени рендеринга со скоростью 200 кадров в секунду. В частности, мы используем 3D гауссианы (3DG) для представления сцены. Вместо наивного подхода прямой оптимизации 3DG на каждый кадр, мы используем компактный кэш нейронных преобразований (NTC) для моделирования трансляций и поворотов 3DG, что значительно сокращает время обучения и объем хранилища, необходимый для каждого кадра FVV. Кроме того, мы предлагаем стратегию адаптивного добавления 3DG для обработки появляющихся объектов в динамических сценах. Эксперименты показывают, что 3DGStream достигает конкурентоспособной производительности в плане скорости рендеринга, качества изображения, времени обучения и объема модели при сравнении с передовыми методами.