Ежедневно отобранные исследовательские статьи по ИИ с переводами
Замечательный прогресс Многомодельных Больших Языковых Моделей (MLLMs) привлек несравненное внимание благодаря их превосходной производительности в визуальных контекстах. Однако их способности в решении визуальных математических задач остаются недостаточно изученными и понятыми. Мы исследуем текущие бенчмарки для включения избыточного визуального контента в текстовые вопросы, что потенциально помогает MLLMs выводить ответы, не декодируя входные диаграммы. Для этого мы представляем MathVerse, всесторонний визуальный математический бенчмарк, разработанный для справедливой и глубокой оценки MLLMs. Мы тщательно собрали 2 612 высококачественных многотематических математических задач с диаграммами из общедоступных источников. Каждая задача затем преобразуется человеческими аннотаторами в шесть различных версий, каждая из которых предлагает различные уровни информационного содержания в многомодальности, что дает в общей сложности 15 тыс. тестовых примеров. Такой подход позволяет MathVerse всесторонне оценить, насколько MLLMs действительно могут понимать визуальные диаграммы для математического рассуждения. Кроме того, мы предлагаем стратегию оценки Цепочка Мысли (CoT) для тонкой оценки выходных ответов. Вместо наивного суждения Правда или Ложь, мы используем GPT-4(V) для адаптивного извлечения ключевых шагов рассуждения, а затем оцениваем каждый шаг с детальным анализом ошибок, который может раскрывать качество промежуточного рассуждения CoT MLLMs. Мы надеемся, что бенчмарк MathVerse может предоставить уникальные идеи для руководства будущим развитием MLLMs. Страница проекта: https://mathverse-cuhk.github.io
Создание 3D-контента по текстовым запросам недавно показало выдающиеся успехи. Однако текущие методы преобразования текста в 3D часто генерируют результаты, которые плохо соответствуют человеческим предпочтениям. В данной статье мы представляем комплексную методику, названную DreamReward, для обучения и улучшения моделей текста в 3D на основе обратной связи от человека. В начале мы собираем 25 тыс. экспертных сравнений на основе систематического аннотационного конвейера, включающего оценку и ранжирование. Затем мы создаем Reward3D - первую универсальную модель предпочтений человека для текста в 3D, способную эффективно кодировать человеческие предпочтения. Основываясь на модели награды в 3D, мы наконец проводим теоретический анализ и представляем DreamFL (Feedback Learning для Reward3D), алгоритм прямой настройки для оптимизации моделей многопросмотрового диффузионного процесса с переопределенным оценщиком. Основанный на теоретическом доказательстве и обширных сравнительных экспериментах, наш DreamReward успешно генерирует результаты высокой точности и согласованные в 3D с значительным улучшением соответствия запроса человеческому намерению. Наши результаты демонстрируют великий потенциал обучения на основе обратной связи от человека для улучшения моделей текста в 3D.
В последние годы применение мультимодальных крупных языковых моделей (MLLM) в различных областях достигло замечательных успехов. Однако в качестве базовой модели для многих последующих задач текущие MLLM состоят из хорошо известной сети Transformer, которая имеет менее эффективную квадратичную вычислительную сложность. Для улучшения эффективности таких базовых моделей мы предлагаем Cobra, MLLM с линейной вычислительной сложностью. Конкретно, Cobra интегрирует эффективную языковую модель Mamba в визуальную модальность. Более того, мы исследуем и изучаем различные схемы модального объединения для создания эффективной мультимодальной модели Mamba. Обширные эксперименты показывают, что (1) Cobra достигает чрезвычайно конкурентоспособных результатов с текущими вычислительно эффективными передовыми методами, например, LLaVA-Phi, TinyLLaVA и MobileVLM v2, и обладает более быстрой скоростью из-за линейного последовательного моделирования Cobra. (2) Интересно, результаты закрытых испытаний сложных прогностических бенчмарков показывают, что Cobra хорошо справляется с визуальными иллюзиями и оценками пространственных отношений. (3) Следует отметить, что Cobra даже достигает сопоставимых результатов с LLaVA приблизительно с 43% количества параметров. Мы сделаем все коды Cobra общедоступными и надеемся, что предложенный метод сможет способствовать будущим исследованиям проблем сложности в MLLM. Наша страница проекта доступна по адресу: https://sites.google.com/view/cobravlm.
Редактирование видео-на-видео включает в себя редактирование исходного видео вместе с дополнительным управлением (таким как текстовые подсказки, объекты или стили) для создания нового видео, соответствующего исходному видео и предоставленному управлению. Традиционные методы были ограничены определенными типами редактирования, что снижало их способность удовлетворять широкий спектр потребностей пользователей. В данной статье мы представляем AnyV2V, новую рамочную систему без обучения, разработанную для упрощения редактирования видео на два основных этапа: (1) использование готовой модели редактирования изображений (например, InstructPix2Pix, InstantID и т. д.) для изменения первого кадра, (2) использование существующей модели генерации изображений в видео (например, I2VGen-XL) для инверсии DDIM и внедрения признаков. На первом этапе AnyV2V может подключать любые существующие инструменты редактирования изображений для поддержки широкого спектра задач по редактированию видео. Помимо традиционных методов редактирования на основе подсказок, AnyV2V также может поддерживать новые задачи редактирования видео, включая передачу стиля на основе ссылок, редактирование по объектам и манипуляцию идентичностью, которые были недостижимы ранее. На втором этапе AnyV2V может подключать любые существующие модели изображений в видео для выполнения инверсии DDIM и внедрения промежуточных признаков для сохранения согласованности внешнего вида и движения с исходным видео. По редактированию на основе подсказок мы показываем, что AnyV2V может превзойти предыдущий лучший подход на 35\% по выравниванию подсказок и на 25\% по предпочтениям человека. По трем новым задачам мы показываем, что AnyV2V также достигает высокой успешности. Мы считаем, что AnyV2V будет продолжать развиваться благодаря его способности бесшовно интегрировать быстро развивающиеся методы редактирования изображений. Такая совместимость может помочь AnyV2V увеличить свою универсальность для удовлетворения разнообразных потребностей пользователей.
Недавние достижения в моделях диффузии, управляемых текстом, разблокировали мощные возможности манипулирования изображениями. Однако применение этих методов к реальным изображениям требует инверсии изображений в область предварительно обученной модели диффузии. Достижение точной инверсии остается вызовом, особенно для более новых моделей, обученных генерировать изображения с небольшим количеством шагов денойзинга. В данной работе мы представляем метод инверсии с высоким соотношением качества к операциям, улучшающий точность реконструкции без увеличения количества операций. Основываясь на обращении процесса диффузионной выборки, наш метод использует итеративный механизм повторного денойзинга на каждом шаге выборки инверсии. Этот механизм улучшает приближение предсказанной точки вдоль траектории прямой диффузии, путем итеративного применения предварительно обученной модели диффузии и усреднения этих предсказаний. Мы оцениваем производительность нашего метода ReNoise, используя различные алгоритмы выборки и модели, включая недавние ускоренные модели диффузии. Через комплексные оценки и сравнения мы демонстрируем его эффективность с точки зрения как точности, так и скорости. Более того, мы подтверждаем, что наш метод сохраняет возможность редактирования, демонстрируя редактирование изображений под управлением текста на реальных изображениях.
Модели диффузии видео в последнее время сделали большой прогресс в качестве генерации, однако по-прежнему ограничены высокими требованиями к памяти и вычислительным ресурсам. Это происходит потому, что текущие модели диффузии видео часто пытаются обрабатывать видео высокой размерности напрямую. Для решения этой проблемы мы предлагаем модель диффузии скрытых контентов и движения (CMD), новое эффективное расширение предварительно обученных моделей диффузии изображений для генерации видео. Конкретно, мы предлагаем автокодировщик, который лаконично кодирует видео как комбинацию контентного кадра (подобно изображению) и низкоразмерного скрытого представления движения. Первое представляет общий контент, а второе - подлежащее движение в видео. Мы генерируем контентный кадр, донастраивая предварительно обученную модель диффузии изображений, и генерируем скрытое представление движения, обучая новую легковесную модель диффузии. Ключевым новшеством здесь является разработка компактного скрытого пространства, которое может напрямую использовать предварительно обученную модель диффузии изображений, что ранее не делалось в моделях диффузии скрытого видео. Это приводит к значительно лучшему качеству генерации и снижению вычислительных затрат. Например, CMD может генерировать видео разрешением 512x1024 пикселя и длиной 16 кадров в 3,1 секунды, что в 7,7 раз быстрее, чем предыдущие подходы. Более того, CMD достигает значения FVD 212,7 на WebVid-10M, что на 27,3% лучше, чем предыдущий современный показатель 292,4.
Недавние модели видео-языкового масштаба (VLM) продемонстрировали выдающиеся способности в понимании и создании текстовых описаний для визуального контента. Однако эти модели лишены понимания концепций, специфичных для пользователя. В данной работе мы делаем первый шаг к персонализации моделей VLM, позволяя им изучать и рассуждать над концепциями, предоставленными пользователем. Например, мы исследуем, могут ли эти модели научиться распознавать вас на изображении и описывать ваши действия, настраивая модель для отражения ваших личных опытов и отношений. Для эффективного распознавания различных пользовательских концепций мы расширяем VLM внешними концепт-головами, которые функционируют как переключатели для модели, позволяя VLM определять наличие определенных целевых концепций на данном изображении. После распознавания концепции мы изучаем новое встраивание концепции в промежуточном пространстве признаков VLM. Это встраивание направлено на то, чтобы направлять языковую модель к естественной интеграции целевой концепции в ее созданный ответ. Мы применяем наш метод к BLIP-2 и LLaVA для персонализированного описания изображений и также показываем его применимость для персонализированного визуального вопросно-ответного взаимодействия. Наши эксперименты демонстрируют нашу способность к обобщению на невиденные изображения изученных концепций, сохраняя при этом поведение модели на несвязанных входах.
Мы представляем GRM, крупномасштабный реконструктор, способный восстанавливать 3D-объект из разреженных изображений за около 0.1 секунды. GRM - это модель на основе трансформера прямого распространения, которая эффективно интегрирует информацию с нескольких видов для преобразования входных пикселей в пиксель-выровненные гауссианы, которые затем проецируются для создания набора плотно распределенных 3D-гауссиан, представляющих сцену. Наша архитектура трансформера и использование 3D-гауссиан вместе открывают масштабируемую и эффективную среду реконструкции. Обширные экспериментальные результаты демонстрируют превосходство нашего метода над альтернативами как по качеству реконструкции, так и по эффективности. Мы также демонстрируем потенциал GRM в генеративных задачах, таких как текст-в-3D и изображение-в-3D, интегрируя его с существующими моделями диффузии с несколькими видами. Наш веб-сайт проекта находится по адресу: https://justimyhxu.github.io/projects/grm/.
Мы предлагаем метод Gaussian Frosting, новое сеточное представление для высококачественного визуализирования и редактирования сложных 3D-эффектов в реальном времени. Наш подход основан на недавнем каркасном методе 3D Gaussian Splatting, который оптимизирует набор 3D-гауссиан для приближенного воссоздания поля радиации изображений. Мы предлагаем сначала извлечение базовой сетки из гауссиан во время оптимизации, затем создание и улучшение адаптивного слоя гауссиан с переменной толщиной вокруг сетки для более точного воспроизведения мелких деталей и объемных эффектов у поверхности, таких как волосы или трава. Мы называем этот слой Gaussian Frosting, так как он напоминает покрытие торта глазурью. Чем более размытый материал, тем толще глазурь. Мы также представляем параметризацию гауссиан для их ограничения в пределах слоя глазури и автоматической настройки их параметров при деформации, масштабировании, редактировании или анимации сетки. Наше представление позволяет эффективно визуализировать с использованием Gaussian Splatting, а также редактировать и анимировать путем изменения базовой сетки. Мы демонстрируем эффективность нашего метода на различных синтетических и реальных сценах и показываем, что он превосходит существующие подходы на основе поверхности. Мы планируем выпустить наш код и веб-просмотрщик в качестве дополнительных вкладов. Наша страница проекта доступна по следующему адресу: https://anttwo.github.io/frosting/
Мы представляем ограниченную генерацию как обобщенную задачу для управления генерацией видео с целью синтеза произвольного движения камеры и объекта на основе только заданного начального и конечного кадра. Наша цель - полностью использовать врожденную способность к обобщению модели изображение-видео без дополнительного обучения или донастройки исходной модели. Это достигается благодаря предложенной новой стратегии выборки, которую мы называем "Слияние обратного времени", объединяющей временно прямые и обратные пути денойзинга, условные на начальный и конечный кадр соответственно. Объединенный путь приводит к видео, которое плавно соединяет два кадра, генерируя промежуточное движение верного объекта, новые виды статических сцен и плавное зацикливание видео, когда два граничных кадра идентичны. Мы составляем разнообразный набор данных для оценки изображений и сравниваем с ближайшими существующими методами. Мы обнаружили, что "Слияние обратного времени" превосходит сопоставимые работы во всех подзадачах, проявляя способность генерировать сложные движения и 3D-согласованные виды, управляемые граничными кадрами. См. страницу проекта по адресу https://time-reversal.github.io.
Мы предлагаем метод, который автоматически генерирует синемаграфы из неподвижного изображения ландшафта с использованием предварительно обученной StyleGAN. Вдохновленные успехом недавних методов безусловной генерации видео, мы используем мощный предварительно обученный генератор изображений для синтеза качественных синемаграфов. В отличие от предыдущих подходов, которые в основном используют латентное пространство предварительно обученной StyleGAN, наш метод использует ее глубокое пространство признаков как для инверсии GAN, так и для генерации синемаграфов. Конкретно, мы предлагаем многомасштабное искажение глубоких признаков (MSDFW), которое искажает промежуточные признаки предварительно обученной StyleGAN на разных разрешениях. Используя MSDFW, сгенерированные синемаграфы имеют высокое разрешение и демонстрируют правдоподобную циклическую анимацию. Мы демонстрируем превосходство нашего метода через пользовательские исследования и количественные сравнения с передовыми методами генерации синемаграфов и методом генерации видео, использующим предварительно обученную StyleGAN.
Исследователи и разработчики все чаще полагаются на оценку токсичности для умеренности выводов генеративных языковых моделей, в таких сферах, как обслуживание клиентов, поиск информации и генерация контента. Однако оценка токсичности может сделать соответствующую информацию недоступной, ужесточить или "заблокировать" культурные нормы и препятствовать процессам реабилитации языка, особенно для маргинализированных групп. В данной работе мы расширяем концепцию алгоритмического обращения к генеративным языковым моделям: мы предоставляем пользователям новый механизм для достижения желаемого прогноза путем динамической установки порогов для фильтрации токсичности. Пользователи таким образом обладают большим контролем по сравнению с взаимодействиями с базовой системой. Пилотное исследование (n = 30) подтверждает потенциал нашего предложенного механизма обращения, указывая на улучшения в удобстве использования по сравнению с фиксированной фильтрацией токсичности выводов модели. Будущие работы должны исследовать взаимосвязь оценки токсичности, управляемости модели, агентства пользователя и процессов реабилитации языка, особенно в отношении предвзятости, с которой сталкиваются многие сообщества при взаимодействии с генеративными языковыми моделями.