Ежедневно отобранные исследовательские статьи по ИИ с переводами
Пространственно-временная согласованность является ключевой темой исследований в области генерации видео. Качественно сгенерированный видеосегмент должен обеспечивать правдоподобность и связность сюжета, сохраняя при этом визуальную согласованность объектов и сцен при изменении ракурсов. Предыдущие исследования, особенно в открытых проектах, в основном сосредоточены либо на временной, либо на пространственной согласованности, или их базовой комбинации, например, добавлении описания движения камеры после запроса без ограничения результатов этого движения. Однако движение камеры может вводить в сцену новые объекты или удалять существующие, тем самым накладываясь и влияя на предшествующий нарратив. Особенно в видео с многочисленными движениями камеры взаимодействие между несколькими сюжетными линиями становится всё более сложным. В данной статье представлено и исследовано понятие интегральной пространственно-временной согласованности, учитывающей синергию между развитием сюжета и техниками съёмки, а также долгосрочное влияние предшествующего контента на последующую генерацию. Наше исследование охватывает создание набора данных и разработку модели. Изначально мы создали набор данных DropletVideo-10M, который включает 10 миллионов видео с динамическим движением камеры и действиями объектов. Каждое видео аннотировано средним описанием из 206 слов, детализирующим различные движения камеры и развитие сюжета. Затем мы разработали и обучили модель DropletVideo, которая превосходно сохраняет пространственно-временную согласованность при генерации видео. Набор данных и модель DropletVideo доступны по адресу https://dropletx.github.io.
Создание автономных роботизированных агентов, способных достигать уровня производительности человека в реальных задачах, связанных с воплощением в физическом мире, является конечной целью исследований в области гуманоидных роботов. Последние достижения значительно продвинули разработку высокоуровневого познания с использованием фундаментальных моделей (Foundation Models, FMs) и развитие низкоуровневых навыков для гуманоидных роботов. Однако прямое объединение этих компонентов часто приводит к низкой устойчивости и эффективности из-за накопления ошибок в долгосрочных задачах и различной задержки работы модулей. Мы представляем Being-0, иерархическую агентскую структуру, которая интегрирует FM с модульной библиотекой навыков. FM отвечает за высокоуровневые когнитивные задачи, такие как понимание инструкций, планирование задач и рассуждение, в то время как библиотека навыков обеспечивает стабильную локомоцию и точное манипулирование для низкоуровневого управления. Для устранения разрыва между этими уровнями мы предлагаем новый модуль Connector, основанный на легковесной визуально-языковой модели (VLM). Connector расширяет воплощенные возможности FM, переводя языковые планы в исполняемые команды навыков и динамически координируя локомоцию и манипулирование для повышения успешности выполнения задач. Благодаря тому, что все компоненты, кроме FM, могут быть развернуты на недорогих бортовых вычислительных устройствах, Being-0 обеспечивает эффективную работу в реальном времени на полноразмерном гуманоидном роботе, оснащенном ловкими руками и активным зрением. Многочисленные эксперименты в крупных помещениях демонстрируют эффективность Being-0 в решении сложных долгосрочных задач, требующих выполнения трудных подзадач навигации и манипулирования. Для получения дополнительной информации и видеоматериалов посетите https://beingbeyond.github.io/being-0.
Методы генерации, основанные на изображениях, такие как подходы, использующие данные о глубине и границах (canny), продемонстрировали впечатляющие возможности для точного синтеза изображений. Однако существующие модели по-прежнему сталкиваются с трудностями в точном управлении содержимым нескольких экземпляров (или областей). Даже передовые модели, такие как FLUX и 3DIS, сталкиваются с проблемами, такими как утечка атрибутов между экземплярами, что ограничивает контроль со стороны пользователя. Для решения этих проблем мы представляем DreamRenderer, подход, не требующий обучения, построенный на основе модели FLUX. DreamRenderer позволяет пользователям управлять содержимым каждого экземпляра с помощью ограничивающих рамок или масок, обеспечивая при этом общую визуальную гармонию. Мы предлагаем два ключевых нововведения: 1) Мостовые токены изображений для жесткой привязки текстовых атрибутов, которые используют реплицированные токены изображений в качестве мостовых токенов, чтобы гарантировать, что текстовые эмбеддинги T5, предварительно обученные исключительно на текстовых данных, связывают правильные визуальные атрибуты для каждого экземпляра во время совместного внимания (Joint Attention); 2) Жесткая привязка атрибутов изображений, применяемая только к ключевым слоям. В результате анализа FLUX мы определили критические слои, ответственные за рендеринг атрибутов экземпляров, и применяем жесткую привязку атрибутов изображений только в этих слоях, используя мягкую привязку в остальных. Этот подход обеспечивает точный контроль при сохранении качества изображения. Оценки на бенчмарках COCO-POS и COCO-MIG показывают, что DreamRenderer улучшает коэффициент успешности изображений (Image Success Ratio) на 17,7% по сравнению с FLUX и повышает производительность моделей, преобразующих макет в изображение, таких как GLIGEN и 3DIS, до 26,8%. Страница проекта: https://limuloo.github.io/DreamRenderer/.
Персонализированная генерация изображений направлена на создание изображений, соответствующих заданным пользователем концепциям, с возможностью гибкого редактирования. Недавние подходы, не требующие обучения, хотя и демонстрируют более высокую вычислительную эффективность по сравнению с методами, основанными на обучении, сталкиваются с трудностями в сохранении идентичности, применимости и совместимости с диффузионными трансформерами (DiT). В данной работе мы раскрываем неиспользованный потенциал DiT, где простая замена токенов шумоподавления на токены референсного объекта позволяет достичь реконструкции объекта в режиме zero-shot. Этот простой, но эффективный метод инъекции признаков открывает разнообразные сценарии, от персонализации до редактирования изображений. На основе этого наблюдения мы предлагаем Personalize Anything — подход, не требующий обучения, который реализует персонализированную генерацию изображений в DiT за счет: 1) адаптивной замены токенов на каждом шаге, обеспечивающей согласованность объекта через инъекцию на ранних этапах и повышающей гибкость за счет регуляризации на поздних этапах, и 2) стратегий возмущения патчей для увеличения структурного разнообразия. Наш метод легко поддерживает генерацию с учетом композиции, персонализацию нескольких объектов и редактирование с использованием масок. Оценки демонстрируют передовые результаты в сохранении идентичности и универсальности. Наша работа устанавливает новые взгляды на DiT, предлагая практическую парадигму для эффективной персонализации.
Рассуждения и стратегическое поведение в социальных взаимодействиях являются ключевыми признаками интеллекта. Этот тип рассуждений значительно сложнее, чем изолированные задачи планирования или рассуждений в статических условиях (например, решение математических задач). В данной статье мы представляем SPIN-Bench (Strategic Planning, Interaction, and Negotiation) — новую многодоменную оценку, предназначенную для измерения интеллекта стратегического планирования и социального мышления. В то время как многие существующие бенчмарки сосредоточены на узком планировании или рассуждениях для одного агента, SPIN-Bench объединяет классические задачи PDDL, конкурентные настольные игры, кооперативные карточные игры и сценарии многоагентных переговоров в единую структуру. Эта структура включает как бенчмарк, так и арену для симуляции и оценки разнообразных социальных ситуаций, чтобы проверить рассуждения и стратегическое поведение ИИ-агентов. Мы формулируем бенчмарк SPIN-Bench, систематически варьируя пространства действий, сложность состояний и количество взаимодействующих агентов, чтобы смоделировать различные социальные ситуации, где успех зависит не только от методичного и пошагового принятия решений, но и от концептуального вывода о других участниках (оппонентах или партнерах). Наши эксперименты показывают, что, хотя современные языковые модели (LLM) справляются с базовым извлечением фактов и краткосрочным планированием достаточно хорошо, они сталкиваются с существенными ограничениями в задачах, требующих глубокого многошагового рассуждения в больших пространствах состояний и социально адаптивной координации в условиях неопределенности. Мы рассматриваем SPIN-Bench как катализатор для будущих исследований в области устойчивого многоагентного планирования, социального мышления и взаимодействия человека и ИИ.
Расширяя преимущества цепочечных рассуждений (CoT), имитирующих пошаговые процессы человеческого мышления, на мультимодальные контексты, мультимодальные цепочечные рассуждения (MCoT) недавно привлекли значительное внимание исследователей, особенно в интеграции с мультимодальными большими языковыми моделями (MLLM). Существующие исследования MCoT разрабатывают различные методологии и инновационные парадигмы рассуждений для решения уникальных задач, связанных с изображениями, видео, речью, аудио, 3D-данными и структурированными данными в различных модальностях, достигая значительных успехов в таких областях, как робототехника, здравоохранение, автономное вождение и мультимодальная генерация. Однако MCoT по-прежнему представляют собой уникальные вызовы и возможности, требующие дальнейшего внимания для обеспечения устойчивого развития в этой области, где, к сожалению, отсутствует актуальный обзор. Чтобы заполнить этот пробел, мы представляем первый систематический обзор MCoT, разъясняя соответствующие базовые концепции и определения. Мы предлагаем всеобъемлющую таксономию и глубокий анализ современных методологий с различных точек зрения в различных сценариях применения. Кроме того, мы предоставляем инсайты о существующих вызовах и будущих направлениях исследований, стремясь стимулировать инновации в направлении мультимодального искусственного общего интеллекта (AGI).
Мы представляем новую задачу, называемую Edit Transfer, в которой модель обучается преобразованию на основе всего одного примера "источник-цель" и применяет его к новому запрашиваемому изображению. В то время как текстовые методы превосходно справляются с семантическими изменениями через текстовые подсказки, они часто испытывают трудности с точными геометрическими деталями (например, изменениями поз и ракурсов). Редактирование на основе референсов, с другой стороны, обычно фокусируется на стиле или внешнем виде и не справляется с нежесткими преобразованиями. Явно обучаясь преобразованию редактирования на паре "источник-цель", Edit Transfer устраняет ограничения как текстовых, так и ориентированных на внешний вид подходов. Вдохновляясь контекстным обучением в больших языковых моделях, мы предлагаем парадигму визуального контекстного обучения, основанную на текстово-изобразительной модели на базе DiT. Мы объединяем редактируемый пример и запрашиваемое изображение в единый четырехпанельный композит, а затем применяем легковесную тонкую настройку LoRA для захвата сложных пространственных преобразований из минимального числа примеров. Несмотря на использование всего 42 обучающих образцов, Edit Transfer значительно превосходит современные методы TIE и RIE в разнообразных сценариях нежестких преобразований, демонстрируя эффективность обучения визуальным отношениям с малым количеством данных.
Недавние исследования, как правило, улучшают способности MLLM к рассуждению за счет контролируемого тонкого настройки на высококачественных данных, содержащих цепочки рассуждений, что часто приводит к тому, что модели просто имитируют успешные пути рассуждений, не понимая, какие из них являются ошибочными. В данной работе мы стремимся усилить способность MLLM к рассуждению, выходя за рамки пассивного подражания положительным путям рассуждений. Для этого мы разработали Step-wise Group Relative Policy Optimization (StepGRPO) — новую онлайн-среду обучения с подкреплением, которая позволяет MLLM самостоятельно улучшать способность к рассуждению с помощью простых, эффективных и плотных пошаговых вознаграждений. В частности, StepGRPO вводит два новых правила для вознаграждения рассуждений: Step-wise Reasoning Accuracy Reward (StepRAR) и Step-wise Reasoning Validity Reward (StepRVR). StepRAR вознаграждает пути рассуждений, содержащие необходимые промежуточные шаги, с помощью техники мягкого сопоставления ключевых шагов, в то время как StepRVR вознаграждает пути рассуждений, которые следуют хорошо структурированному и логически последовательному процессу, через стратегию оценки полноты и логики рассуждений. С использованием предложенного StepGRPO мы представляем R1-VL — серию MLLM с выдающимися способностями к пошаговому рассуждению. Многочисленные эксперименты на 8 бенчмарках демонстрируют превосходство наших методов.
Манипуляции на уровне элементов играют ключевую роль в создании цифрового контента, однако современные методы, основанные на диффузии, уступают в точности и гибкости традиционным инструментам. В данной работе мы представляем BlobCtrl — фреймворк, объединяющий генерацию и редактирование на уровне элементов с использованием вероятностного представления на основе blob-ов. Используя blob-ы как визуальные примитивы, наш подход эффективно разделяет и представляет пространственное расположение, семантическое содержание и информацию о идентичности, что позволяет осуществлять точные манипуляции на уровне элементов. Наши ключевые вклады включают: 1) двухветвевую архитектуру диффузии с иерархическим слиянием признаков для бесшовной интеграции переднего плана и фона; 2) самообучаемую парадигму с адаптированным увеличением данных и функциями оценки; и 3) управляемые стратегии dropout для баланса между точностью и разнообразием. Для поддержки дальнейших исследований мы представляем BlobData для масштабного обучения и BlobBench для систематической оценки. Эксперименты показывают, что BlobCtrl превосходит в различных задачах манипуляции на уровне элементов, сохраняя при этом вычислительную эффективность, предлагая практическое решение для точного и гибкого создания визуального контента. Страница проекта: https://liyaowei-stu.github.io/project/BlobCtrl/
Научные исследования требуют сложного анализа мультимодальных данных, что особенно актуально в биологии. Несмотря на недавние достижения в области мультимодальных больших языковых моделей (MLLMs) для исследований с использованием ИИ, существующие тесты на мультимодальное рассуждение охватывают лишь уровень сложности, соответствующий университетскому образованию, в то время как тесты для исследовательского уровня сосредоточены на базовом восприятии, что не соответствует сложному мультимодальному рассуждению, необходимому для научных открытий. Чтобы устранить этот пробел, мы представляем MicroVQA — тест визуального ответа на вопросы (VQA), разработанный для оценки трех ключевых способностей, важных в исследовательских процессах: экспертного понимания изображений, генерации гипотез и предложения экспериментов. MicroVQA состоит из 1042 вопросов с множественным выбором (MCQ), составленных экспертами в области биологии для различных методов микроскопии, что гарантирует, что примеры VQA отражают реальную научную практику. При создании теста мы обнаружили, что стандартные методы генерации MCQ приводят к языковым упрощениям, что побудило нас разработать новый двухэтапный процесс: оптимизированный запрос к LLM структурирует пары вопрос-ответ в MCQ, а затем агент `RefineBot` обновляет их, чтобы устранить упрощения. Тестирование на современных MLLMs показывает пиковую производительность в 53%; модели с меньшими LLM лишь немного уступают лучшим моделям, что указывает на то, что языковое рассуждение менее сложно, чем мультимодальное; а настройка с использованием научных статей улучшает результаты. Экспертный анализ цепочек рассуждений показывает, что ошибки восприятия встречаются чаще всего, за ними следуют ошибки знаний и затем ошибки чрезмерного обобщения. Эти выводы подчеркивают сложности мультимодального научного рассуждения, демонстрируя, что MicroVQA является ценным ресурсом для продвижения ИИ-ориентированных биомедицинских исследований. MicroVQA доступен по адресу https://huggingface.co/datasets/jmhb/microvqa, а страница проекта — по адресу https://jmhb0.github.io/microvqa.
С быстрым развитием технологий 3D-реконструкции исследования в области 4D-реконструкции также продвигаются вперед. Существующие методы 4D-реконструкции способны создавать высококачественные 4D-сцены. Однако из-за сложностей в получении многовидовых видеоданных текущие эталонные наборы для 4D-реконструкции в основном демонстрируют действия, выполняемые на месте, такие как танцы, в ограниченных сценариях. В реальных условиях многие сцены включают широкомасштабные пространственные перемещения, что подчеркивает ограниченность существующих наборов данных для 4D-реконструкции. Кроме того, существующие методы 4D-реконструкции полагаются на поля деформации для оценки динамики 3D-объектов, но поля деформации плохо справляются с широкомасштабными пространственными перемещениями, что ограничивает возможность достижения высококачественной 4D-реконструкции сцен с такими перемещениями. В данной статье мы сосредоточиваемся на 4D-реконструкции сцен с существенными пространственными перемещениями объектов и предлагаем новый эталонный набор данных для 4D-реконструкции, WideRange4D. Этот набор включает богатые данные 4D-сцен с большими пространственными вариациями, что позволяет более полно оценить возможности методов генерации 4D-сцен. Кроме того, мы представляем новый метод 4D-реконструкции, Progress4D, который обеспечивает стабильные и высококачественные результаты для различных сложных задач 4D-реконструкции. Мы проводим количественные и качественные сравнительные эксперименты на наборе WideRange4D, демонстрируя, что наш метод Progress4D превосходит существующие передовые методы 4D-реконструкции. Проект: https://github.com/Gen-Verse/WideRange4D
Видео, с их уникальным временным измерением, требуют точного обоснованного понимания, где ответы напрямую связаны с визуальными, интерпретируемыми доказательствами. Несмотря на значительные прорывы в способностях к рассуждению в крупных языковых моделях, мультимодальное рассуждение — особенно для видео — остается малоизученным. В данной работе мы представляем VideoMind, новый видео-языковой агент, разработанный для временно-обоснованного понимания видео. VideoMind включает два ключевых нововведения: (i) Мы определяем основные способности для временного рассуждения в видео и разрабатываем ролевой агентский рабочий процесс, включая планировщика для координации различных ролей, локализатора для временного позиционирования, верификатора для оценки точности временных интервалов и отвечающего для вопросно-ответных задач. (ii) Для эффективной интеграции этих разнообразных ролей мы предлагаем новую стратегию Chain-of-LoRA, обеспечивающую плавное переключение ролей с помощью легковесных адаптеров LoRA, избегая при этом накладных расходов на использование нескольких моделей, что позволяет сбалансировать эффективность и гибкость. Масштабные эксперименты на 14 публичных бенчмарках демонстрируют, что наш агент достигает наилучших результатов в различных задачах понимания видео, включая 3 задачи на обоснованное видео-вопросно-ответное взаимодействие, 6 задач на временное позиционирование в видео и 5 задач на общее видео-вопросно-ответное взаимодействие, подчеркивая его эффективность в продвижении видео-агентов и длительного временного рассуждения.
Модели вознаграждения стали неотъемлемой частью современной обработки естественного языка (NLP), выступая не только как масштабируемый инструмент для оценки текста, но и как важный компонент во многих подходах к согласованию и алгоритмах, используемых на этапе вывода. Однако, хотя современные модели вознаграждения демонстрируют улучшение производительности на стандартных бенчмарках, это может быть частично связано с эффектами переобучения, что затрудняет понимание их реальных возможностей. В данной работе мы тщательно исследуем устойчивость моделей вознаграждения и степень такого переобучения. Мы создаем **reWordBench**, который систематически преобразует входные данные моделей вознаграждения, сохраняя при этом смысл или ранжирование. Мы показываем, что современные модели вознаграждения подвержены значительному ухудшению производительности даже при незначительных преобразованиях входных данных, иногда опускаясь до уровня значительно ниже случайного, что указывает на их хрупкость. Для повышения устойчивости моделей вознаграждения мы предлагаем явно обучать их присваивать схожие оценки парафразам, и обнаруживаем, что этот подход также улучшает устойчивость к другим видам преобразований. Например, наша устойчивая модель вознаграждения снижает такое ухудшение примерно вдвое для подмножества Chat Hard в RewardBench. Более того, при использовании в задачах согласования наши устойчивые модели вознаграждения демонстрируют лучшую полезность и приводят к более качественным результатам, выигрывая в до 59% случаев по сравнению с моделью, обученной стандартным способом.
Человек обрабатывает видео, используя последовательную пространственно-временную логику рассуждений: сначала определяет релевантные кадры ("когда"), затем анализирует пространственные отношения ("где") между ключевыми объектами и, наконец, использует эти отношения для выводов ("что"). Однако способны ли крупные языковые модели для видео (Video-LLMs) также "рассуждать в рамках последовательной пространственно-временной логики" при работе с видео? Существующие бенчмарки для Video-LLM в основном сосредоточены на оценке наличия объектов, игнорируя реляционные рассуждения. В результате сложно определить, действительно ли модель понимает взаимодействия объектов (действия/события) в видео или просто полагается на предварительно обученную "память" о совместных встречах как на предубеждения при генерации ответов. В данной работе мы представляем бенчмарк Video Spatio-Temporal Reasoning (V-STaR), чтобы устранить эти недостатки. Ключевая идея заключается в декомпозиции понимания видео на задачу обратного пространственно-временного рассуждения (Reverse Spatio-Temporal Reasoning, RSTR), которая одновременно оценивает, какие объекты присутствуют, когда происходят события и где они расположены, при этом фиксируя лежащую в основе логику цепочки рассуждений (Chain-of-thought, CoT). Для поддержки этой оценки мы создаем набор данных, чтобы выявить пространственно-временные рассуждения Video-LLM. Он содержит вопросы с постепенным усложнением, сгенерированные полуавтоматическим конвейером на основе GPT-4, в которые встроены явные цепочки рассуждений, имитирующие человеческое познание. Эксперименты с 14 Video-LLM на нашем V-STaR выявили значительные разрывы между текущими возможностями Video-LLM и требованиями к надежному и последовательному пространственно-временному рассуждению.
Выполнение роботизированного захвата объектов из загруженного контейнера на основе человеческих инструкций представляет собой сложную задачу, так как требует понимания как нюансов свободного языка, так и пространственных отношений между объектами. Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), обученные на данных веб-масштаба, такие как GPT-4o, продемонстрировали впечатляющие способности к рассуждению как в тексте, так и в изображениях. Но можно ли их действительно использовать для этой задачи в условиях zero-shot? И каковы их ограничения? В данной статье мы исследуем эти вопросы с помощью задачи роботизированного захвата на основе свободного языка и предлагаем новый метод FreeGrasp, который использует предварительно обученные VLMs для анализа человеческих инструкций и пространственного расположения объектов. Наш метод обнаруживает все объекты как ключевые точки и использует эти точки для аннотирования изображений, что способствует пространственному рассуждению GPT-4o в условиях zero-shot. Это позволяет нашему методу определить, доступен ли запрошенный объект для непосредственного захвата или сначала необходимо захватить и убрать другие объекты. Поскольку ни один существующий набор данных не предназначен специально для этой задачи, мы представляем синтетический набор данных FreeGraspData, расширяя набор данных MetaGraspNetV2 аннотированными инструкциями и последовательностями захвата, созданными человеком. Мы проводим обширный анализ с использованием FreeGraspData и проверяем метод в реальных условиях с помощью роботизированной руки, оснащенной захватным устройством, демонстрируя передовые результаты в рассуждении и выполнении захвата. Сайт проекта: https://tev-fbk.github.io/FreeGrasp/.
Согласование генерируемых изображений со сложными текстовыми запросами и предпочтениями человека представляет собой ключевую задачу в области создания контента с использованием искусственного интеллекта (AIGC). С появлением подхода, основанного на диффузионной дистилляции с усилением вознаграждения, который повышает управляемость и точность моделей преобразования текста в изображения, мы наблюдаем фундаментальный сдвиг парадигмы: по мере того как условия становятся более специфичными, а сигналы вознаграждения — сильнее, сами вознаграждения становятся доминирующей силой в процессе генерации. В то же время диффузионные потери выступают в качестве чрезмерно затратной формы регуляризации. Для тщательной проверки нашей гипотезы мы представляем R0 — новый подход к условной генерации, основанный на максимизации вознаграждения с регуляризацией. Вместо использования сложных диффузионных потерь R0 предлагает новую перспективу, рассматривая генерацию изображений как задачу оптимизации в пространстве данных, направленную на поиск валидных изображений с высокими композиционными вознаграждениями. Благодаря инновационным подходам к параметризации генератора и применению соответствующих методов регуляризации, мы обучаем передовые модели генерации текста в изображения с малым количеством шагов с использованием R0 в масштабе. Наши результаты бросают вызов традиционным представлениям о пост-обучении диффузионных моделей и условной генерации, демонстрируя, что вознаграждения играют доминирующую роль в сценариях со сложными условиями. Мы надеемся, что наши выводы внесут вклад в дальнейшие исследования в области генерации, ориентированной на человека и вознаграждения, в более широком контексте AIGC. Код доступен по адресу https://github.com/Luo-Yihong/R0.
Видеоинпейнтинг предполагает модификацию локальных областей в видео с обеспечением пространственной и временной согласованности. Большинство существующих методов в основном сосредоточены на завершении сцены (т.е. заполнении отсутствующих областей) и не обладают возможностью контролируемого добавления новых объектов в сцену. К счастью, последние достижения в области моделей диффузии "текст-в-видео" (T2V) открывают путь к текстово-управляемому видеоинпейнтингу. Однако прямое применение T2V моделей для инпейнтинга остается ограниченным в объединении задач завершения и добавления, не обеспечивает достаточной управляемости входными данными и испытывает трудности с длинными видео, что ограничивает их применимость и гибкость. Для решения этих задач мы предлагаем MTV-Inpaint — унифицированную многозадачную структуру для видеоинпейнтинга, способную справляться как с традиционным завершением сцены, так и с добавлением новых объектов. Для объединения этих различных задач мы разработали механизм двойного ветвления пространственного внимания в U-Net модели T2V диффузии, что позволяет бесшовно интегрировать завершение сцены и добавление объектов в рамках единой структуры. Помимо текстового управления, MTV-Inpaint поддерживает мультимодальный контроль за счет интеграции различных моделей инпейнтинга изображений через наш предложенный режим "изображение-в-видео" (I2V). Кроме того, мы предлагаем двухэтапный процесс, сочетающий инпейнтинг ключевых кадров с распространением промежуточных кадров, что позволяет MTV-Inpaint эффективно обрабатывать длинные видео с сотнями кадров. Многочисленные эксперименты демонстрируют, что MTV-Inpaint достигает передовых результатов как в задачах завершения сцены, так и в добавлении объектов. Более того, он демонстрирует универсальность в производных приложениях, таких как мультимодальный инпейнтинг, редактирование объектов, удаление, кисть для объектов на изображении и возможность работы с длинными видео. Страница проекта: https://mtv-inpaint.github.io/.
Синтез аудио из видео, который генерирует синхронизированный звук для визуального контента, значительно повышает погружение зрителя и согласованность повествования в кино и интерактивных медиа. Однако озвучивание длинных видео остается нерешенной задачей из-за динамических семантических изменений, временного рассогласования и отсутствия специализированных наборов данных. Хотя существующие методы хорошо справляются с короткими видео, они терпят неудачу в длинных сценариях (например, в фильмах) из-за фрагментарного синтеза и недостаточной согласованности между сценами. Мы предлагаем LVAS-Agent, новый мультиагентный фреймворк, который имитирует профессиональные процессы озвучивания через специализацию ролей. Наш подход разбивает синтез длинных видео на четыре этапа: сегментация сцен, генерация сценария, звуковой дизайн и синтез аудио. Ключевые инновации включают механизм обсуждения и исправления для уточнения сцен и сценариев, а также цикл генерации и поиска для временно-семантического согласования. Для систематической оценки мы представляем LVAS-Bench, первый бенчмарк с 207 профессионально подготовленными длинными видео, охватывающими различные сценарии. Эксперименты демонстрируют превосходное аудиовизуальное согласование по сравнению с базовыми методами. Страница проекта: https://lvas-agent.github.io
Зачастую потребности и визуальные способности различаются между группой аннотаторов и конечными пользователями. Создание подробных описаний диаграмм для слепых и слабовидящих (BLV) пользователей представляет собой одну из таких сложных областей. Зрячие аннотаторы могут легко описывать визуальные элементы, однако существующие исследования показывают, что их прямые описания оказываются дорогостоящими, склонными к предвзятости и в некоторой степени не соответствующими стандартам BLV. В данном исследовании мы просим зрячих людей оценивать — а не создавать — описания диаграмм, сгенерированные моделями "визуальный язык" (VLM), которые были обучены с использованием скрытого надзора через многоэтапный вывод. Оценки зрячих оказываются эффективными и полезными для профессиональных педагогов, которые сами являются BLV и обучают людей с нарушениями зрения. Мы представляем Sightation — набор данных описаний диаграмм, охватывающий 5 тысяч диаграмм и 137 тысяч образцов для задач завершения, выбора предпочтений, поиска, ответов на вопросы и обучения логическому мышлению, и демонстрируем их потенциал для тонкой настройки в различных последующих задачах.
Видеофундаментальные модели (VFMs) недавно начали использоваться для симуляции реального мира с целью обучения физических ИИ-систем и создания креативных визуальных решений. Однако существуют значительные трудности в обучении крупномасштабных высококачественных VFMs, способных генерировать видео высокого качества. Мы представляем масштабируемый, открытый конвейер обучения VFM с использованием NVIDIA NeMo, который обеспечивает ускоренное формирование видеодатасетов, загрузку мультимодальных данных, а также параллелизованное обучение и вывод видео-диффузионных моделей. Также мы предоставляем всесторонний анализ производительности, выделяя лучшие практики для эффективного обучения и вывода VFM.
Различные авторегрессивные модели диффузии видео (ARVDM) достигли значительных успехов в генерации реалистичных длинных видеороликов. Однако теоретический анализ этих моделей остается недостаточно изученным. В данной работе мы разрабатываем теоретические основы для этих моделей и используем полученные инсайты для улучшения производительности существующих моделей. Сначала мы представляем Meta-ARVDM — унифицированную структуру ARVDM, которая охватывает большинство существующих методов. Используя Meta-ARVDM, мы анализируем расхождение Кульбака-Лейблера (KL-дивергенцию) между видео, сгенерированными Meta-ARVDM, и реальными видео. Наш анализ выявляет два важных явления, присущих ARVDM: накопление ошибок и узкое место в памяти. С помощью вывода информационно-теоретического результата о невозможности мы показываем, что явление узкого места в памяти невозможно избежать. Для смягчения узкого места в памяти мы разрабатываем различные структуры сетей, которые явно используют больше прошлых кадров. Мы также достигаем значительно улучшенного баланса между смягчением узкого места в памяти и эффективностью вывода путем сжатия кадров. Экспериментальные результаты на DMLab и Minecraft подтверждают эффективность наших методов. Наши эксперименты также демонстрируют Парето-границу между накоплением ошибок и узким местом в памяти для различных методов.
Стереоизображения играют ключевую роль в многочисленных приложениях, включая устройства расширенной реальности (XR), автономное вождение и робототехнику. К сожалению, получение высококачественных стереоизображений остается сложной задачей из-за требований к точной калибровке двухкамерных систем и сложности получения точных, плотных карт диспарантности. Существующие методы генерации стереоизображений обычно сосредоточены либо на визуальном качестве для просмотра, либо на геометрической точности для сопоставления, но не на обоих аспектах одновременно. Мы представляем GenStereo, подход на основе диффузии, который устраняет этот разрыв. Метод включает два основных нововведения: (1) условие диффузионного процесса на основе координатного встраивания, учитывающего диспарантность, и деформированного входного изображения, что позволяет достичь более точного стерео выравнивания по сравнению с предыдущими методами, и (2) адаптивный механизм слияния, который интеллектуально комбинирует изображение, сгенерированное диффузией, с деформированным изображением, улучшая как реалистичность, так и согласованность диспарантности. Благодаря обширному обучению на 11 разнообразных стерео наборах данных, GenStereo демонстрирует высокую способность к обобщению. GenStereo достигает наилучших результатов как в задачах генерации стереоизображений, так и в задачах неконтролируемого стерео сопоставления. Наш фреймворк устраняет необходимость в сложных аппаратных настройках, обеспечивая при этом генерацию высококачественных стереоизображений, что делает его ценным как для реальных приложений, так и для сценариев неконтролируемого обучения. Страница проекта доступна по адресу: https://qjizhi.github.io/genstereo.
В последних исследованиях предпринимались попытки количественно оценить неопределенность больших языковых моделей, чтобы облегчить управление моделями и регулировать доверие пользователей. Предыдущие работы сосредоточены на мерах неопределенности, которые теоретически обоснованы или отражают среднее наблюдаемое поведение модели. В данной работе мы исследуем различные меры неопределенности с целью выявления тех, которые коррелируют с неопределенностью на уровне человеческих групп. Мы обнаруживаем, что байесовские меры и вариация мер энтропии, топ-k энтропия, как правило, согласуются с поведением человека в зависимости от размера модели. Мы также выясняем, что некоторые сильные меры снижают сходство с человеческим поведением при увеличении размера модели, однако, с помощью множественной линейной регрессии, мы обнаруживаем, что комбинирование нескольких мер неопределенности обеспечивает сопоставимое соответствие человеческому поведению с уменьшенной зависимостью от размера модели.
Традиционные методы "белого ящика" для создания враждебных возмущений против крупных языковых моделей (LLM) обычно полагаются исключительно на вычисление градиентов целевой модели, игнорируя внутренние механизмы, ответственные за успех или неудачу атаки. С другой стороны, исследования интерпретируемости, анализирующие эти внутренние механизмы, не находят практического применения за пределами вмешательств в режиме реального времени. Мы устраняем этот разрыв, предлагая новый подход "белого ящика", который использует методы механистической интерпретируемости для создания практических враждебных входных данных. В частности, мы сначала идентифицируем подпространства принятия — наборы векторов признаков, которые не активируют механизмы отказа модели, — а затем используем градиентную оптимизацию для перенаправления эмбеддингов из подпространств отказа в подпространства принятия, эффективно достигая "взлома" модели. Этот целенаправленный подход значительно снижает вычислительные затраты, достигая успешности атак в 80-95% на современных моделях, включая Gemma2, Llama3.2 и Qwen2.5, за минуты или даже секунды, в отличие от существующих методов, которые часто терпят неудачу или требуют часов вычислений. Мы считаем, что этот подход открывает новое направление как для исследований атак, так и для разработки защитных механизмов. Более того, он демонстрирует практическое применение механистической интерпретируемости в тех случаях, где другие методы менее эффективны, что подчеркивает её полезность. Код и сгенерированные наборы данных доступны по адресу https://github.com/Sckathach/subspace-rerouting.
В области психологии давно признан базовый уровень категоризации, который люди используют при обозначении визуальных стимулов, термин, введенный Рош в 1976 году. Было установлено, что этот уровень категоризации используется наиболее часто, обладает более высокой информационной плотностью и способствует выполнению задач визуального языка с использованием прайминга у людей. В данной работе мы исследуем базовый уровень категоризации в двух недавно выпущенных открытых моделях визуального языка (VLMs). В статье показано, что Llama 3.2 Vision Instruct (11B) и Molmo 7B-D предпочитают базовый уровень категоризации, согласующийся с поведением человека. Более того, предпочтения моделей соответствуют тонким аспектам человеческого поведения, таким как эффекты биологического и небиологического базового уровня, а также хорошо известный сдвиг базового уровня у экспертов, что дополнительно свидетельствует о том, что VLMs приобретают когнитивные поведенческие паттерны категоризации из человеческих данных, на которых они обучаются.
Недавние быстрые достижения в области генерации текста в видео (T2V), такие как SoRA и Kling, продемонстрировали значительный потенциал для создания симуляторов мира. Однако современные модели T2V испытывают трудности с пониманием абстрактных физических принципов и созданием видео, соответствующих законам физики. Эта проблема возникает в основном из-за отсутствия четкого руководства по физической информации, что обусловлено значительным разрывом между абстрактными физическими принципами и моделями генерации. В связи с этим мы представляем World Simulator Assistant (WISA) — эффективную структуру для декомпозиции и интеграции физических принципов в модели T2V. В частности, WISA разбивает физические принципы на текстовые физические описания, качественные физические категории и количественные физические свойства. Для эффективного внедрения этих физических атрибутов в процесс генерации WISA включает несколько ключевых разработок, таких как внимание Mixture-of-Physical-Experts (MoPA) и Физический классификатор, что повышает осведомленность модели о физических законах. Кроме того, большинство существующих наборов данных содержат видео, где физические явления либо слабо представлены, либо переплетены с множеством одновременных процессов, что ограничивает их пригодность в качестве специализированных ресурсов для изучения явных физических принципов. Мы предлагаем новый набор видео WISA-32K, собранный на основе качественных физических категорий. Он состоит из 32 000 видео, представляющих 17 физических законов в трех областях физики: динамика, термодинамика и оптика. Экспериментальные результаты показывают, что WISA может эффективно повысить совместимость моделей T2V с реальными физическими законами, достигнув значительного улучшения на бенчмарке VideoPhy. Визуальные демонстрации WISA и WISA-32K доступны по адресу https://360cvgroup.github.io/WISA/.