Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе представлен Depth Anything – высокоэффективное решение для надежного монохромного оценивания глубины. Не стремясь к разработке новых технических модулей, мы ставим цель создать простую, но мощную базовую модель, способную обрабатывать любые изображения в любых условиях. Для этого мы масштабируем набор данных, разработав механизм сбора и автоматической аннотации крупномасштабных немаркированных данных (~62 млн), что значительно расширяет охват данных и, как следствие, позволяет снизить ошибку обобщения. Мы исследуем две простые, но эффективные стратегии, которые делают масштабирование данных перспективным. Во-первых, создается более сложная оптимизационная цель за счет использования инструментов аугментации данных. Это заставляет модель активно искать дополнительные визуальные знания и приобретать устойчивые представления. Во-вторых, разработано вспомогательное обучение, которое заставляет модель наследовать богатые семантические априорные знания от предварительно обученных кодировщиков. Мы тщательно оцениваем ее возможности в условиях zero-shot, включая шесть публичных наборов данных и случайно сделанные фотографии. Модель демонстрирует впечатляющую способность к обобщению. Кроме того, путем тонкой настройки с использованием метрической информации о глубине из NYUv2 и KITTI устанавливаются новые рекорды (SOTA). Наша улучшенная модель глубины также приводит к созданию более качественного ControlNet, учитывающего глубину. Наши модели доступны по адресу https://github.com/LiheYoung/Depth-Anything.
Параллелизм конвейера является одним из ключевых компонентов для крупномасштабного распределенного обучения, однако его эффективность страдает от так называемых "пузырей конвейера", которые ранее считались неизбежными. В данной работе мы представляем стратегию планирования, которая, насколько нам известно, впервые успешно достигает нулевых пузырей конвейера при синхронной семантике обучения. Основная идея этого улучшения заключается в разделении обратного вычисления на две части: одну, которая вычисляет градиент для входных данных, и другую, которая вычисляет градиент для параметров. На основе этой идеи мы вручную разработали новые расписания конвейера, которые значительно превосходят базовые методы. Мы также разработали алгоритм, который автоматически находит оптимальное расписание в зависимости от конкретной конфигурации модели и ограничений памяти. Кроме того, для полного устранения пузырей мы вводим новую технику, позволяющую обходить синхронизации на этапе оптимизатора. Экспериментальные оценки показывают, что наш метод превосходит расписание 1F1B до 23% по пропускной способности при аналогичном ограничении памяти. Этот показатель может быть увеличен до 31% при ослаблении ограничений памяти. Мы считаем, что наши результаты знаменуют собой важный шаг вперед в раскрытии истинного потенциала параллелизма конвейера. Мы открыли исходный код нашей реализации на основе популярного репозитория Megatron-LM по адресу https://github.com/sail-sg/zero-bubble-pipeline-parallelism.
Создание видеоряда, который адаптируется к движению объекта на переднем плане, является важной задачей для киноиндустрии и сообщества визуальных эффектов. Эта задача включает синтез фона, который согласуется с движением и внешним видом объекта на переднем плане, а также соответствует творческому замыслу художника. Мы представляем ActAnywhere — генеративную модель, которая автоматизирует этот процесс, традиционно требующий трудоемких ручных усилий. Наша модель использует возможности крупномасштабных моделей диффузии видео и специально адаптирована для этой задачи. ActAnywhere принимает на вход последовательность сегментации объекта на переднем плане и изображение, описывающее желаемую сцену, в качестве условия, чтобы создать согласованное видео с реалистичным взаимодействием переднего плана и фона, при этом соблюдая заданное условие. Мы обучаем нашу модель на крупномасштабном наборе данных видео, демонстрирующих взаимодействие человека с окружением. Обширные оценки показывают превосходную производительность нашей модели, значительно превосходящую базовые подходы. Более того, мы демонстрируем, что ActAnywhere обобщает на разнообразные примеры, выходящие за пределы обучающего распределения, включая нечеловеческие объекты. Посетите страницу нашего проекта по адресу https://actanywhere.github.io.
В данной статье мы представляем основанный на диффузионной модели фреймворк для анимации людей из одного изображения с учетом заданной последовательности 3D движений. Наш подход состоит из двух ключевых компонентов: а) обучение априорных знаний о невидимых частях тела человека и одежды и б) рендеринг новых поз тела с корректной одеждой и текстурой. Для первой части мы обучаем диффузионную модель для заполнения, которая генерирует невидимые части человека на основе одного изображения. Мы обучаем эту модель в пространстве текстурных карт, что делает её более эффективной с точки зрения выборки, поскольку она инвариантна к позе и углу обзора. Во-вторых, мы разрабатываем диффузионный конвейер рендеринга, управляемый 3D позами человека. Это позволяет создавать реалистичные изображения новых поз человека, включая одежду, волосы и правдоподобное заполнение невидимых областей. Такой разделенный подход позволяет нашему методу генерировать последовательность изображений, которые соответствуют целевым движениям в 3D позе и визуально схожи с исходным изображением. Кроме того, управление в 3D позволяет использовать различные синтетические траектории камеры для рендеринга человека. Наши эксперименты показывают, что наш метод устойчив в генерации продолжительных движений и разнообразных сложных поз по сравнению с предыдущими методами. Подробности можно найти на нашем сайте: https://boyiliee.github.io/3DHM.github.io/.
Диктовка обеспечивает эффективный ввод текста на мобильных устройствах. Однако написание с помощью речи может приводить к созданию несвязного, многословного и нелогичного текста, что требует значительной постобработки. В данной статье представлен Rambler, графический интерфейс, основанный на языковой модели (LLM), который поддерживает манипуляции с продиктованным текстом на уровне смысла с помощью двух основных наборов функций: извлечение ключевых идей и макроредактирование. Извлечение ключевых идей генерирует ключевые слова и краткие содержания, которые служат опорными точками для проверки и взаимодействия с устным текстом. Макроредактирование с помощью LLM позволяет пользователям передиктовывать, разделять, объединять и преобразовывать продиктованный текст без необходимости указывать точные места редактирования. Вместе эти функции прокладывают путь для интерактивной диктовки и редактирования, которые помогают сократить разрыв между спонтанной устной речью и хорошо структурированным письменным текстом. В сравнительном исследовании с участием 12 человек, выполнявших задачи по устному составлению текста, Rambler превзошел базовый вариант, состоящий из редактора речи в текст + ChatGPT, так как он лучше способствует итеративному редактированию с усиленным контролем пользователя над содержанием, одновременно поддерживая удивительно разнообразные стратегии пользователей.
В данной работе исследуется проблема интерпретируемости на основе концепций для представлений трансформеров, применяемых к видео. Конкретно, мы стремимся объяснить процесс принятия решений видео-трансформерами на основе высокоуровневых пространственно-временных концепций, которые автоматически обнаруживаются. Предыдущие исследования в области интерпретируемости на основе концепций сосредотачивались исключительно на задачах уровня изображений. В отличие от этого, видео-модели работают с дополнительным временным измерением, что увеличивает сложность и создает трудности в идентификации динамических концепций во времени. В данной работе мы систематически решаем эти проблемы, представляя первый алгоритм Video Transformer Concept Discovery (VTCD). Для этого мы предлагаем эффективный подход для неконтролируемого выявления единиц представлений видео-трансформеров — концепций — и ранжирования их важности для выхода модели. Полученные концепции обладают высокой интерпретируемостью, раскрывая механизмы пространственно-временного рассуждения и объектно-ориентированные представления в неструктурированных видео-моделях. Проводя этот анализ совместно для разнообразного набора контролируемых и самоконтролируемых представлений, мы обнаруживаем, что некоторые из этих механизмов являются универсальными для видео-трансформеров. Наконец, мы демонстрируем, что VTCD может быть использован для улучшения производительности модели в задачах тонкой детализации.