Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем ComfyUI-Copilot — плагин, основанный на мощной языковой модели, предназначенный для повышения удобства и эффективности работы с ComfyUI, открытой платформой для создания искусственного интеллектом произведений искусства. Несмотря на свою гибкость и дружелюбный интерфейс, ComfyUI может вызывать трудности у новичков, включая ограниченную документацию, ошибки в настройке моделей и сложность проектирования рабочих процессов. ComfyUI-Copilot решает эти проблемы, предлагая интеллектуальные рекомендации по выбору узлов и моделей, а также автоматизированное создание рабочих процессов в один клик. В основе системы лежит иерархическая мультиагентная структура, включающая центрального агента-ассистента для распределения задач и специализированных агентов-исполнителей для различных задач, поддерживаемая нашими тщательно отобранными базами знаний ComfyUI для упрощения отладки и развертывания. Мы подтверждаем эффективность ComfyUI-Copilot с помощью как офлайн-количественных оценок, так и онлайн-отзывов пользователей, демонстрируя, что он точно рекомендует узлы и ускоряет разработку рабочих процессов. Кроме того, примеры использования показывают, что ComfyUI-Copilot снижает барьеры для начинающих и повышает эффективность рабочих процессов для опытных пользователей. Установочный пакет ComfyUI-Copilot и демонстрационное видео доступны по адресу https://github.com/AIDC-AI/ComfyUI-Copilot.
Последние достижения в области восстановления видео на основе диффузионных моделей (VR) демонстрируют значительное улучшение визуального качества, однако сопровождаются неприемлемо высокими вычислительными затратами на этапе вывода. Хотя несколько подходов, основанных на дистилляции, показали потенциал одношагового восстановления изображений, применение существующих методов к VR остается сложной и малоизученной задачей, особенно при работе с видео высокого разрешения в реальных условиях. В данной работе мы предлагаем одношаговую диффузионную модель для восстановления видео, названную SeedVR2, которая выполняет обучение с использованием состязательного подхода на реальных данных. Для решения задачи восстановления видео высокого разрешения в один шаг мы вводим несколько улучшений в архитектуру модели и процедуры обучения. В частности, предлагается механизм адаптивного оконного внимания, где размер окна динамически подстраивается под выходное разрешение, что позволяет избежать несоответствий, наблюдаемых при использовании оконного внимания с фиксированным размером окна в условиях высокого разрешения. Для стабилизации и улучшения состязательного пост-обучения в контексте VR мы дополнительно проверяем эффективность ряда функций потерь, включая предложенную функцию потерь на основе сопоставления признаков, без значительного ущерба для эффективности обучения. Многочисленные эксперименты показывают, что SeedVR2 может достичь сопоставимого или даже лучшего качества по сравнению с существующими подходами к VR всего за один шаг.
В данной работе мы представляем серию Qwen3 Embedding, которая представляет собой значительный прогресс по сравнению с предшественником, серией GTE-Qwen, в области текстового эмбеддинга и ранжирования, построенной на основе базовых моделей Qwen3. Используя мощные возможности языковых моделей Qwen3 в понимании и генерации многоязычного текста, наш инновационный многоэтапный процесс обучения сочетает масштабное неконтролируемое предварительное обучение с контролируемой тонкой настройкой на высококачественных наборах данных. Эффективные стратегии слияния моделей дополнительно обеспечивают устойчивость и адаптивность серии Qwen3 Embedding. В процессе обучения языковые модели Qwen3 выступают не только в качестве базовых моделей, но и играют ключевую роль в синтезе высококачественных, разнообразных и богатых обучающих данных, охватывающих множество доменов и языков, что улучшает процесс обучения. Серия Qwen3 Embedding предлагает спектр размеров моделей (0.6B, 4B, 8B) для задач эмбеддинга и ранжирования, охватывая различные сценарии развертывания, где пользователи могут оптимизировать либо эффективность, либо производительность. Эмпирические оценки показывают, что серия Qwen3 Embedding достигает передовых результатов на различных бенчмарках. Особенно она выделяется на многоязычном бенчмарке MTEB для текстового эмбеддинга, а также в различных задачах поиска, включая поиск кода, кросс-языковой поиск и многоязычный поиск. Для обеспечения воспроизводимости и поддержки исследований и разработок, проводимых сообществом, модели Qwen3 Embedding доступны публично под лицензией Apache 2.0.
Модели мира, основанные на авторегрессии, генерируют видеокадры в ответ на действия, такие как перемещения камеры и текстовые запросы, а также другие управляющие сигналы. Из-за ограниченного размера временного контекстного окна эти модели часто испытывают трудности с поддержанием согласованности сцены при повторных посещениях, что приводит к значительному забыванию ранее сгенерированных окружений. Вдохновленные механизмами человеческой памяти, мы предлагаем новый подход для повышения долгосрочной согласованности видеомоделей мира с использованием геометрически обоснованной долгосрочной пространственной памяти. Наш подход включает механизмы для хранения и извлечения информации из долгосрочной пространственной памяти, а также мы создаем специализированные наборы данных для обучения и оценки моделей мира с явно хранимыми механизмами 3D-памяти. Результаты нашей оценки демонстрируют улучшение качества, согласованности и длины контекста по сравнению с релевантными базовыми моделями, прокладывая путь к генерации мира с долгосрочной согласованностью.
Пространственное указание является фундаментальной способностью воплощенных роботов для взаимодействия с трехмерным физическим миром. Однако, даже с мощными предобученными моделями, объединяющими зрение и язык (VLMs), современные подходы все еще не способны точно понимать сложные 3D-сцены и динамически рассуждать о местах, указанных в инструкциях для взаимодействия. Для решения этой проблемы мы предлагаем RoboRefer, 3D-ориентированную VLM, которая сначала достигает точного пространственного понимания за счет интеграции специализированного декодера глубины через контролируемую тонкую настройку (SFT). Более того, RoboRefer продвигает обобщенное многошаговое пространственное рассуждение через тонкую настройку с подкреплением (RFT), используя функции вознаграждения, чувствительные к метрикам и адаптированные для задач пространственного указания. Для поддержки обучения SFT и RFT мы представляем RefSpatial, крупномасштабный набор данных из 20 миллионов пар вопросов и ответов (в 2 раза больше, чем ранее), охватывающий 31 пространственное отношение (по сравнению с 15 ранее) и поддерживающий сложные процессы рассуждения (до 5 шагов). Кроме того, мы представляем RefSpatial-Bench, сложный эталонный тест, заполняющий пробел в оценке пространственного указания с многошаговым рассуждением. Эксперименты показывают, что RoboRefer, обученная с помощью SFT, достигает передового уровня пространственного понимания с средним показателем успешности 89,6%. RoboRefer, обученная с помощью RFT, значительно превосходит все другие базовые модели, даже опережая Gemini-2.5-Pro на 17,4% по средней точности на RefSpatial-Bench. Примечательно, что RoboRefer может быть интегрирована с различными политиками управления для выполнения долгосрочных динамических задач на разнообразных роботах (например, UR5, гуманоид G1) в загроможденных реальных сценах.
Трансформерные модели сталкиваются с трудностями при работе с длинными контекстами из-за их квадратичной временной и линейной памяти сложности. Рекуррентные Трансформеры с Памятью (RMT) предлагают решение, снижая асимптотическую стоимость до линейного времени и постоянного использования памяти. Однако их механизм обновления памяти приводит к последовательному выполнению, создавая узкое место в производительности. Мы представляем Диагональное Батчирование — схему планирования, которая раскрывает параллелизм между сегментами в RMT, сохраняя точную рекуррентность. Этот подход устраняет последовательное ограничение, позволяя эффективное выполнение на GPU даже для одиночных длинных контекстов без сложных техник батчинга и конвейеризации. Поскольку этот метод представляет собой исключительно переупорядочивание вычислений во время выполнения, существующие модели RMT могут его использовать без необходимости переобучения. Примененное к модели LLaMA-1B ARMT, Диагональное Батчирование обеспечивает ускорение в 3.3 раза по сравнению со стандартной LLaMA-1B с полным вниманием и в 1.8 раза по сравнению с последовательной реализацией RMT на последовательностях из 131 072 токенов. Устраняя последовательное узкое место, Диагональное Батчирование снижает стоимость и задержку вывода, укрепляя RMT как практическое решение для реальных приложений с длинными контекстами.
Крупные языковые модели (LLM) обычно обучаются на огромных объемах текста, не имеющего лицензии, что вызывает вопросы из-за возможного нарушения прав интеллектуальной собственности и этических проблем. Обучение LLM на текстах с открытой лицензией представляет собой первый шаг к решению этих вопросов, однако предыдущие попытки сбора данных привели к созданию наборов, которые были либо слишком малы, либо недостаточно качественны для обучения эффективных LLM. Чтобы устранить этот пробел, мы собрали, обработали и опубликовали Common Pile v0.1 — коллекцию текстов объемом восемь терабайт с открытой лицензией, предназначенную для предварительного обучения LLM. Common Pile включает материалы из 30 источников, охватывающих различные области, такие как научные статьи, код, книги, энциклопедии, образовательные материалы, расшифровки аудио и многое другое. Важно отметить, что мы подтвердили эффективность нашего подхода, обучив две LLM с 7 миллиардами параметров на текстах из Common Pile: Comma v0.1-1T и Comma v0.1-2T, обученные на 1 и 2 триллионах токенов соответственно. Обе модели демонстрируют конкурентоспособные результаты по сравнению с LLM, обученными на нелицензированных текстах при аналогичных вычислительных затратах, такими как Llama 1 и 2 7B. В дополнение к публикации Common Pile v0.1, мы также выпускаем код, использованный для его создания, а также конфигурации обучения и контрольные точки для моделей Comma v0.1.
Мы представляем Surfer-H, экономичного веб-агента, который интегрирует модели "Визия-Язык" (VLM) для выполнения пользовательских задач в интернете. Мы сочетаем его с Holo1, новой открытой коллекцией моделей VLM, специализированных для навигации по веб-страницам и извлечения информации. Holo1 была обучена на тщательно отобранных данных, включая открытый веб-контент, синтетические примеры и данные, самостоятельно сгенерированные агентами. Holo1 демонстрирует наивысшие результаты как на общих тестах пользовательского интерфейса (UI), так и на нашем новом бенчмарке локализации веб-интерфейсов WebClick. При использовании Holo1, Surfer-H достигает 92,2% производительности на WebVoyager, устанавливая Парето-оптимальный баланс между точностью и экономичностью. Для ускорения прогресса в исследованиях агентных систем мы открываем исходные коды как нашего набора данных для оценки WebClick, так и весов модели Holo1.
Масштабирование на этапе вывода жертвует эффективностью ради повышения точности рассуждений за счет генерации более длинных или более параллельных последовательностей. Однако в трансформерных больших языковых моделях (LLM) стоимость генерации ограничивается размером кэша ключей-значений (KV), а не количеством сгенерированных токенов. Поэтому мы исследуем гипермасштабирование на этапе вывода: сжатие кэша KV позволяет генерировать больше токенов в рамках того же вычислительного бюджета и дополнительно повысить точность масштабированного вывода. Успех этого подхода, однако, зависит от способности методов сжатия сохранять точность даже при высоких коэффициентах сжатия. Чтобы сделать гипермасштабирование практичным, мы представляем Dynamic Memory Sparsification (DMS) — новый метод разрежения кэшей KV, который требует всего 1K шагов обучения для достижения 8-кратного сжатия, сохраняя при этом более высокую точность по сравнению с разреженным вниманием без обучения. Вместо преждевременного удаления кэшированных токенов DMS откладывает их вытеснение, неявно объединяя представления и сохраняя критически важную информацию. Мы демонстрируем эффективность гипермасштабирования на этапе вывода с использованием DMS на нескольких семействах LLM, показывая, что оно повышает точность при сопоставимом времени выполнения вывода и нагрузке на память. Например, мы улучшаем Qwen-R1 32B в среднем на 9.1 балла на AIME 24, на 7.6 на GPQA и на 9.6 на LiveCodeBench для различных вычислительных бюджетов.
В данной статье представлен новый подход для согласования обучаемых латентных пространств с произвольными целевыми распределениями с использованием потоковых генеративных моделей в качестве априорных. Наш метод сначала предварительно обучает потоковую модель на целевых признаках, чтобы захватить лежащее в основе распределение. Затем эта фиксированная потоковая модель регулирует латентное пространство с помощью функции потерь согласования, которая переформулирует задачу согласования потоков, рассматривая латентные переменные как цели оптимизации. Мы формально доказываем, что минимизация этой функции потерь согласования создает вычислительно эффективный суррогатный критерий для максимизации вариационной нижней границы логарифмического правдоподобия латентных переменных при целевом распределении. Важно отметить, что предложенный метод устраняет необходимость в вычислительно затратных оценках правдоподобия и избегает решения обыкновенных дифференциальных уравнений в процессе оптимизации. В качестве доказательства концепции мы демонстрируем в контролируемых условиях, что ландшафт функции потерь согласования близко аппроксимирует отрицательное логарифмическое правдоподобие целевого распределения. Мы также подтверждаем эффективность нашего подхода в крупномасштабных экспериментах по генерации изображений на наборе данных ImageNet с различными целевыми распределениями, сопровождая их подробными обсуждениями и исследованиями влияния параметров. Благодаря теоретическому и эмпирическому обоснованию, наш подход открывает новые возможности для согласования латентных пространств.
Математические рассуждения в реальных видеосценариях представляют собой принципиально иную задачу по сравнению со статичными изображениями или текстом. Они требуют интерпретации детальной визуальной информации, точного чтения рукописного или цифрового текста и интеграции устных подсказок, которые часто распределены нелинейно во времени. В таких мультимодальных контекстах успех зависит не только от восприятия, но и от избирательного выявления и интеграции правильных контекстуальных деталей из богатого и зашумленного потока контента. С этой целью мы представляем VideoMathQA — эталонный набор данных, предназначенный для оценки способности моделей выполнять такие временно протяженные кросс-модальные рассуждения на видео. Этот набор охватывает 10 разнообразных математических областей, включая видео продолжительностью от 10 секунд до более чем 1 часа. Он требует от моделей интерпретации структурированного визуального контента, понимания обучающих нарративов и совместного закрепления концепций в визуальной, аудио и текстовой модальностях. Мы привлекаем экспертов уровня выпускников для обеспечения высокого качества, что в сумме составляет более 920 человеко-часов аннотирования. Чтобы отразить реальные сценарии, вопросы разработаны вокруг трех основных задач рассуждения: прямое решение задач, где ответы основаны на представленном вопросе; концептуальный перенос, который требует применения изученных методов к новым задачам; и глубокое понимание инструкций, включающее многошаговые рассуждения на основе расширенных объяснений и частично решенных задач. Каждый вопрос сопровождается аннотациями многошаговых рассуждений, что позволяет проводить детальный анализ возможностей моделей. С помощью этого набора данных мы подчеркиваем ограничения существующих подходов и устанавливаем систематическую структуру оценки для моделей, которые должны рассуждать, а не просто воспринимать, в условиях временно протяженных и мультимодальных математических задач. Наш набор данных и код для оценки доступны по адресу: https://mbzuai-oryx.github.io/VideoMathQA.
Последние достижения в области моделей диффузии для преобразования текста в видео (T2V) позволили добиться синтеза видео с высокой точностью и реалистичностью. Однако современные модели T2V часто сталкиваются с трудностями при генерации физически правдоподобного контента из-за их ограниченной способности точно понимать физику. Мы обнаружили, что хотя представления внутри моделей T2V обладают некоторой способностью к пониманию физики, они значительно отстают от представлений, полученных с помощью современных методов самообучения на видео. В связи с этим мы предлагаем новую структуру под названием VideoREPA, которая переносит способность понимания физики из базовых моделей понимания видео в модели T2V путем выравнивания отношений на уровне токенов. Это устраняет разрыв в понимании физики и позволяет генерировать более физически правдоподобный контент. В частности, мы вводим функцию потерь для дистилляции отношений токенов (TRD), используя пространственно-временное выравнивание для предоставления мягкого руководства, подходящего для тонкой настройки мощных предварительно обученных моделей T2V, что является важным отличием от предыдущих методов выравнивания представлений (REPA). Насколько нам известно, VideoREPA является первым методом REPA, разработанным для тонкой настройки моделей T2V и специально для внедрения физических знаний. Эмпирические оценки показывают, что VideoREPA значительно улучшает физическую интуицию базового метода CogVideoX, демонстрируя существенное улучшение на соответствующих тестах и сильную способность генерировать видео, согласующиеся с интуитивной физикой. Дополнительные результаты видео доступны по адресу https://videorepa.github.io/.
Несмотря на прогресс в понимании видео, современные MLLM (многоязыковые языковые модели) испытывают трудности с задачами подсчета. Существующие бенчмарки ограничены короткими видео, закрытыми запросами, отсутствием аннотаций ключевых подсказок и слабым мультимодальным охватом. В данной статье мы представляем CG-AV-Counting — вручную аннотированный бенчмарк для подсчета, основанный на ключевых подсказках, содержащий 1 027 мультимодальных вопросов и 5 845 аннотированных подсказок для 497 длинных видео. Он поддерживает как черный, так и белый ящик для оценки, служа комплексной тестовой платформой для подсчета как в режиме end-to-end, так и на основе рассуждений. Чтобы изучить способы улучшения способности моделей к подсчету, мы предлагаем AV-Reasoner — модель, обученную с использованием GRPO и поэтапного обучения для обобщения способности к подсчету на основе связанных задач. AV-Reasoner достигает наилучших результатов на нескольких бенчмарках, демонстрируя эффективность обучения с подкреплением. Однако эксперименты показывают, что на бенчмарках вне домена рассуждения в языковом пространстве не приводят к улучшению производительности. Код и бенчмарк доступны на https://av-reasoner.github.io.
Модели рассуждений, представленные серией Deepseek-R1-Distill, получили широкое распространение в сообществе открытого исходного кода благодаря их высокой производительности в таких областях, как математика, естественные науки, программирование и других. Однако наше исследование показывает, что результаты их бенчмарк-оценок подвержены значительным колебаниям, вызванным различными факторами. Незначительные различия в условиях оценки могут приводить к существенным вариациям в результатах. Подобные явления наблюдаются и в других моделях вывода с открытым исходным кодом, доработанных на основе серии Deepseek-R1-Distill, а также в модели QwQ-32B, что делает заявленные улучшения производительности трудновоспроизводимыми. В связи с этим мы выступаем за создание более строгой парадигмы оценки производительности моделей и представляем наши эмпирические оценки моделей серии Deepseek-R1-Distill.
Пространственное познание является важнейшим аспектом человеческого интеллекта, позволяющим решать задачи через визуальное моделирование, а не только посредством вербального рассуждения. Однако существующие тесты для ИИ в основном оценивают вербальное мышление, игнорируя сложности невербального, многошагового визуального моделирования. Мы представляем STARE (Spatial Transformations and Reasoning Evaluation) — тестовый набор, разработанный для строгой оценки мультимодальных больших языковых моделей на задачах, которые лучше решаются через многошаговое визуальное моделирование. STARE включает 4 тысячи задач, охватывающих базовые геометрические преобразования (2D и 3D), интегрированное пространственное мышление (складывание разверток куба и головоломки танграм) и реальное пространственное мышление (перспектива и временное рассуждение), отражая практические когнитивные вызовы, такие как сборка объектов, интерпретация механических схем и повседневная навигация в пространстве. Наши оценки показывают, что модели преуспевают в решении более простых 2D-преобразований, но демонстрируют результаты, близкие к случайным, на более сложных задачах, таких как складывание 3D-разверток куба и танграм, требующих многошагового визуального моделирования. Люди достигают почти идеальной точности, но тратят значительное время (до 28,9 секунд) на сложные задачи, значительно ускоряясь (в среднем на 7,5 секунд) при использовании промежуточного визуального моделирования. В отличие от этого, модели демонстрируют неоднозначные улучшения от визуального моделирования: они показывают прогресс на большинстве задач, но ухудшают результаты в отдельных случаях, таких как танграм (GPT-4o, o1) и складывание разверток куба (Claude-3.5, Gemini-2.0 Flash), что указывает на то, что модели, возможно, не умеют эффективно использовать промежуточную визуальную информацию.
Языковые модели, дополненные поиском, объединяют веб-поиск с крупными языковыми моделями (LLM) для повышения обоснованности и актуальности ответов. Однако анализ таких систем остается сложной задачей: существующие наборы данных ограничены по масштабу и узки по охвату, часто сосредоточены на статических, одноходовых вопросах для проверки фактов. В данной работе мы представляем Search Arena — масштабный набор данных, собранный с участием людей, содержащий более 24 000 парных многоходовых взаимодействий пользователей с поисково-дополненными LLM. Набор данных охватывает разнообразные намерения и языки и включает полные системные трассировки с около 12 000 голосов, отражающих предпочтения пользователей. Наш анализ показывает, что предпочтения пользователей зависят от количества цитат, даже если цитируемый контент не напрямую поддерживает утверждения, что выявляет разрыв между воспринимаемой и фактической достоверностью. Кроме того, предпочтения пользователей различаются в зависимости от цитируемых источников, демонстрируя, что платформы, создаваемые сообществом, обычно предпочитаются, а статические энциклопедические источники не всегда являются подходящими и надежными. Для оценки производительности в различных условиях мы проводим кросс-аренные анализы, тестируя поисково-дополненные LLM в среде общего назначения для чата и традиционные LLM в условиях, требующих интенсивного поиска. Мы обнаруживаем, что веб-поиск не ухудшает, а может даже улучшить производительность в условиях, не связанных с поиском; однако качество в поисковых условиях значительно страдает, если полагаться исключительно на параметрические знания модели. Мы открыли доступ к набору данных для поддержки будущих исследований в этом направлении. Наш набор данных и код доступны по адресу: https://github.com/lmarena/search-arena.
Мультимодальные большие языковые модели (MLLMs) обычно создаются путем расширения предварительно обученных больших языковых моделей (LLMs) за счет добавления визуальных возможностей. В данной работе мы исследуем, как MLLMs обрабатывают визуальные входные данные, анализируя их механизмы внимания. Мы обнаруживаем удивительный феномен разреженности: лишь небольшое подмножество (примерно менее 5%) голов внимания в LLMs активно участвует в понимании визуальной информации, что мы называем визуальными головами. Для эффективного выявления этих голов мы разрабатываем не требующий обучения фреймворк, который количественно оценивает визуальную значимость на уровне голов с помощью целевого анализа откликов. Опираясь на это открытие, мы представляем SparseMM — стратегию оптимизации KV-Cache, которая распределяет асимметричные вычислительные ресурсы между головами в LLMs на основе их визуальных оценок, используя разреженность визуальных голов для ускорения вывода MLLMs. В отличие от предыдущих методов ускорения KV-Cache, которые игнорируют специфику визуальной информации, SparseMM уделяет приоритетное внимание сохранению визуальной семантики в процессе декодирования. Обширные оценки на основных мультимодальных бенчмарках демонстрируют, что SparseMM достигает превосходного баланса между точностью и эффективностью. В частности, SparseMM обеспечивает ускорение в реальном времени в 1,38 раза и сокращение использования памяти на 52% в процессе генерации, сохраняя при этом производительность на уровне тестов эффективности. Наш проект доступен в открытом исходном коде по адресу https://github.com/CR400AF-A/SparseMM.
Обучение языковых моделей на данных с длинными последовательностями является важным требованием для повышения их способности выполнять сложные задачи, такие как длинные цепочки рассуждений. Однако с увеличением длины последовательности затраты памяти на хранение значений активаций становятся огромными в процессе обратного распространения ошибки (Backpropagation, BP), даже при использовании техники градиентного чекпоинтинга. Для решения этой проблемы мы предлагаем эффективный по памяти и точный метод BP под названием StreamBP, который выполняет линейное разложение цепного правила вдоль последовательности послойно, значительно снижая затраты памяти на значения активаций и логиты. Предложенный метод применим к распространенным задачам, таким как SFT, GRPO и DPO. С точки зрения реализации, StreamBP достигает меньшего количества вычислительных операций (FLOPs) и более высокой скорости BP за счет использования причинной структуры языковой модели. По сравнению с градиентным чекпоинтингом, StreamBP увеличивает максимальную длину последовательности для BP в 2,8–5,5 раз, при этом используя сопоставимое или даже меньшее время BP. Отметим, что способность StreamBP масштабировать длину последовательности может быть напрямую перенесена на масштабирование размера батча для ускорения обучения. Мы также разработали коммуникационно-эффективную распределенную версию StreamBP, которая эффективно поддерживает обучение на нескольких GPU и расширяет область его применения. Наш код легко интегрируется в конвейер обучения любых трансформерных моделей и доступен по адресу https://github.com/Ledzy/StreamBP.
Появление мультимодальных больших языковых моделей (MLLMs) стимулировало прорывы в приложениях эгоцентрического зрения. Эти приложения требуют устойчивого, контекстно-зависимого понимания объектов, поскольку пользователи взаимодействуют с инструментами в динамичных и загроможденных средах. Однако существующие бенчмарки для воплощенных систем в основном сосредоточены на статическом исследовании сцен, акцентируя внимание на внешнем виде и пространственных атрибутах объектов, но упуская из виду оценку динамических изменений, возникающих в результате взаимодействия пользователей. Чтобы устранить этот пробел, мы представляем EOC-Bench — инновационный бенчмарк, разработанный для систематической оценки объектно-ориентированной воплощенной когниции в динамичных эгоцентрических сценариях. В частности, EOC-Bench включает 3 277 тщательно аннотированных пар вопросов и ответов, классифицированных по трем временным категориям: Прошлое, Настоящее и Будущее, охватывая 11 детализированных оценочных измерений и 3 типа визуального объектного референции. Для обеспечения всесторонней оценки мы разработали смешанный формат аннотирования с участием человека, включающий четыре типа вопросов, и предложили новую метрику точности на основе многоуровневого временного анализа для открытой временной оценки. На основе EOC-Bench мы провели комплексные оценки различных проприетарных, открытых и объектно-ориентированных MLLMs. EOC-Bench служит важным инструментом для развития воплощенных объектных когнитивных способностей MLLMs, закладывая прочную основу для разработки надежных базовых моделей для воплощенных систем.
Создание текстурных карт является важной частью 3D-моделирования и определяет качество рендеринга. В последнее время методы, основанные на диффузии, открыли новый путь для генерации текстур. Однако ограниченная гибкость управления и узкий набор модальностей подсказок могут препятствовать созданию желаемых результатов. Кроме того, несоответствия между сгенерированными изображениями с разных ракурсов часто приводят к низкому качеству генерации текстур. Для решения этих проблем мы представляем FlexPainter — новый конвейер генерации текстур, который обеспечивает гибкое многомодальное условное управление и достигает высокой согласованности в генерации текстур. Создается общее пространство условных вложений для гибкого объединения различных входных модальностей. Используя это пространство, мы предлагаем метод CFG на основе изображений для разделения структурной и стилевой информации, что позволяет достичь стилизации на основе эталонного изображения. Используя знания о 3D, заложенные в априорной диффузии изображений, мы сначала генерируем изображения с нескольких ракурсов одновременно, используя сеточное представление для улучшения глобального понимания. В то же время мы предлагаем модуль синхронизации ракурсов и адаптивного взвешивания в процессе выборки диффузии для дальнейшего обеспечения локальной согласованности. Наконец, модель завершения текстур с учетом 3D в сочетании с моделью улучшения текстур используется для создания бесшовных текстурных карт высокого разрешения. Комплексные эксперименты демонстрируют, что наш подход значительно превосходит современные методы как по гибкости, так и по качеству генерации.
Метод Chain-of-Thought (CoT) значительно улучшил математические рассуждения в больших языковых моделях (LLM), однако его применение в мультимодальных областях остается сложной задачей. Существующие подходы либо используют аналогичное текстовое рассуждение для обработки изображений, либо пытаются интегрировать визуальные сигналы в математический CoT. Однако они сталкиваются с тремя ключевыми ограничениями при решении математических задач: зависимость от грубо выделенных прямоугольных областей изображений, ограниченное восприятие математического контента визуальными кодировщиками и необходимость внешних возможностей для визуальной модификации. В данной работе мы предлагаем MINT-CoT, вводя Математические Интегрированные Токены (Mathematical INterleaved Tokens) для визуального рассуждения в рамках Chain-of-Thought. MINT-CoT адаптивно интегрирует релевантные визуальные токены в текстовые шаги рассуждения с помощью Токена Интеграции, который динамически выбирает области любой формы внутри математических изображений. Для реализации этой возможности мы создали набор данных MINT-CoT, содержащий 54 тыс. математических задач, где каждый шаг рассуждения связан с визуальными областями на уровне токенов, а также разработали строгий процесс генерации данных. Кроме того, мы представляем трехэтапную стратегию обучения MINT-CoT, постепенно объединяющую тонкую настройку (SFT) на текстовом CoT, SFT на интегрированном CoT и обучение с подкреплением (RL) на интегрированном CoT, что приводит к созданию модели MINT-CoT-7B. Эксперименты демонстрируют эффективность нашего метода для визуального интегрированного рассуждения в математических областях, где MINT-CoT-7B превосходит базовую модель на +34,08% на MathVista, +28,78% на GeoQA и +23,2% на MMStar соответственно. Наш код и данные доступны по адресу https://github.com/xinyan-cxy/MINT-CoT.
Карты глубины широко используются в прямых (feed-forward) конвейерах 3D Gaussian Splatting (3DGS) путем их обратного проецирования в 3D облака точек для синтеза новых видов. Этот подход предлагает такие преимущества, как эффективное обучение, использование известных поз камер и точное оценивание геометрии. Однако разрывы глубины на границах объектов часто приводят к фрагментированным или разреженным облакам точек, что ухудшает качество рендеринга — это известное ограничение представлений на основе глубины. Для решения этой проблемы мы представляем PM-Loss, новый регуляризационный штраф, основанный на карте точек, предсказанной предварительно обученным трансформером. Хотя сама карта точек может быть менее точной, чем карта глубины, она эффективно обеспечивает геометрическую гладкость, особенно на границах объектов. С улучшенной картой глубины наш метод значительно улучшает прямые 3DGS в различных архитектурах и сценах, обеспечивая стабильно лучшие результаты рендеринга. Наша страница проекта: https://aim-uofa.github.io/PMLoss.
В настоящее время наиболее распространённый подход к установлению согласованности между языком и изображением заключается в совместном предварительном обучении текстовых и визуальных кодировщиков с использованием контрастивного обучения, как в случае CLIP и его вариантов. В данной работе мы задаёмся вопросом, действительно ли такое затратное совместное обучение необходимо. В частности, мы исследуем, может ли предварительно обученная фиксированная большая языковая модель (LLM) служить достаточно хорошим текстовым кодировщиком для управления обучением визуальных представлений. Мы предлагаем метод обучения согласованности языка и изображения с фиксированным текстовым кодировщиком (LIFT) из LLM, обучая только визуальный кодировщик. Неожиданно, но в результате всестороннего тестирования и анализа мы обнаруживаем, что этот значительно упрощённый подход LIFT оказывается чрезвычайно эффективным. Он превосходит CLIP в большинстве сценариев, связанных с композиционным пониманием и длинными описаниями, одновременно обеспечивая значительный выигрыш в вычислительной эффективности. Наша работа делает первый шаг к систематическому изучению того, как текстовые эмбеддинги из LLM могут направлять визуальное обучение, и предлагает альтернативный вариант проектирования для обучения визуальных представлений, согласованных с языком.
Авторегрессионные (AR) модели генерации изображений привлекают всё больше внимания благодаря своим прорывам в качестве синтеза, что подчеркивает необходимость внедрения надежных методов водяных знаков для предотвращения злоупотреблений. Однако существующие методы встраивания водяных знаков в процессе генерации в основном разработаны для диффузионных моделей, где водяные знаки внедряются в латентные состояния диффузии. Такой подход создает значительные трудности для прямого применения к AR-моделям, которые генерируют изображения последовательно через предсказание токенов. Более того, атаки на основе диффузионной регенерации могут эффективно удалять такие водяные знаки, искажая латентные состояния диффузии. Для решения этих проблем мы предлагаем Lexical Bias Watermarking (LBW) — новый фреймворк, разработанный для AR-моделей, который устойчив к атакам регенерации. LBW внедряет водяные знаки непосредственно в карты токенов, смещая выбор токенов в сторону предопределенного "зеленого списка" в процессе генерации. Этот подход обеспечивает бесшовную интеграцию с существующими AR-моделями и естественным образом распространяется на постобработку водяных знаков. Для повышения безопасности против атак с белым ящиком вместо использования одного "зеленого списка" для каждого изображения случайным образом выбирается список из пула "зеленых списков". Обнаружение водяного знака выполняется с помощью квантования и статистического анализа распределения токенов. Многочисленные эксперименты демонстрируют, что LBW обеспечивает превосходную устойчивость водяных знаков, особенно к атакам регенерации.
Генерация и редактирование портретов, говорящих под управлением аудио, с использованием мультимодальных входных данных, включая текст, изображения и видео, остаются недостаточно изученными. В данной статье мы представляем SkyReels-Audio — унифицированную платформу для синтеза высококачественных и временно согласованных видео с говорящими портретами. Основанная на предобученных трансформерах для видео, наша платформа поддерживает генерацию и редактирование неограниченной длины, обеспечивая разнообразное и контролируемое управление через мультимодальные входные данные. Мы применяем гибридную стратегию обучения с постепенным выравниванием аудио с мимикой лица, что позволяет осуществлять детализированное мультимодальное управление длинными видео последовательностями. Для улучшения локальной согласованности мимики мы вводим функцию потерь на основе маски лица и механизм классификатор-свободного управления, ориентированный на аудио. Подход к денизингу с использованием скользящего окна дополнительно объединяет латентные представления между временными сегментами, обеспечивая визуальную точность и временную согласованность на протяжении длительных периодов и для различных идентичностей. Более того, мы создаем специализированный конвейер данных для подготовки высококачественных триплетов, состоящих из синхронизированных аудио, видео и текстовых описаний. Комплексные бенчмарк-оценки показывают, что SkyReels-Audio демонстрирует превосходные результаты в точности синхронизации губ, согласованности идентичности и реалистичности мимики, особенно в сложных и требовательных условиях.
В данной работе рассматривается задача реконструкции динамических 3D-сцен со сложными движениями. Некоторые недавние исследования определяют 3D-гауссовы примитивы в каноническом пространстве и используют поля деформации для отображения канонических примитивов в пространства наблюдений, достигая синтеза динамических видов в реальном времени. Однако эти методы часто сталкиваются с трудностями при обработке сцен со сложными движениями из-за сложности оптимизации полей деформации. Чтобы преодолеть эту проблему, мы предлагаем FreeTimeGS — новое 4D-представление, которое позволяет гауссовым примитивам появляться в произвольные моменты времени и в произвольных местах. В отличие от канонических гауссовых примитивов, наше представление обладает высокой гибкостью, что улучшает способность моделирования динамических 3D-сцен. Кроме того, мы наделяем каждый гауссов примитив функцией движения, позволяющей ему перемещаться в соседние области с течением времени, что снижает временную избыточность. Результаты экспериментов на нескольких наборах данных показывают, что качество визуализации нашего метода значительно превосходит недавние подходы.
Мы переосмысливаем законы масштабирования на этапе тестирования с точки зрения практической эффективности, показывая, что эффективность меньших моделей значительно переоценена. Предыдущие работы, основанные на оптимальности вычислений, упускают из виду критические узкие места, связанные с доступом к памяти, которые возникают из-за стратегий на этапе вывода (например, Best-of-N, длинные цепочки рассуждений). Наш всесторонний анализ, охватывающий модели от 0.6 до 32 миллиардов параметров, выявляет новый закон масштабирования — Кинетический Закон Масштабирования, который лучше направляет распределение ресурсов, учитывая как затраты на вычисления, так и на доступ к памяти. Кинетический Закон Масштабирования предполагает, что вычислительные ресурсы на этапе тестирования более эффективны при использовании моделей, превышающих определенный порог, чем меньших моделей. Ключевая причина заключается в том, что на этапе тестирования доминирующим фактором затрат становится внимание, а не количество параметров. Вдохновленные этим, мы предлагаем новую парадигму масштабирования, основанную на разреженном внимании, которая снижает затраты на обработку одного токена и позволяет генерировать более длинные последовательности и больше параллельных выборок в рамках того же бюджета ресурсов. Эмпирически мы показываем, что модели с разреженным вниманием стабильно превосходят модели с плотным вниманием, достигая улучшения более чем на 60 пунктов в режимах с низкими затратами и более чем на 5 пунктов в режимах с высокими затратами для точности решения задач на AIME, включая оценки на современных моделях смеси экспертов (MoE). Эти результаты свидетельствуют о том, что разреженное внимание необходимо для полного раскрытия потенциала масштабирования на этапе тестирования, поскольку, в отличие от обучения, где масштабирование параметров достигает насыщения, точность на этапе тестирования продолжает улучшаться за счет увеличения генерации. Код доступен по адресу https://github.com/Infini-AI-Lab/Kinetics.
Общая композиция объектов (GOC) стремится к бесшовной интеграции целевого объекта в фоновую сцену с заданными геометрическими свойствами, одновременно сохраняя его детализированные визуальные характеристики. Современные подходы извлекают семантические эмбеддинги и интегрируют их в продвинутые диффузионные модели для обеспечения генерации с возможностью редактирования геометрии. Однако такие высоко компактные эмбеддинги кодируют только высокоуровневые семантические признаки и неизбежно теряют детализированные визуальные характеристики. Мы представляем модель Disentangled Geometry-editable and Appearance-preserving Diffusion (DGAD), которая сначала использует семантические эмбеддинги для неявного захвата желаемых геометрических преобразований, а затем применяет механизм кросс-внимания для согласования детализированных визуальных признаков с геометрически отредактированным представлением, обеспечивая как точное редактирование геометрии, так и сохранение визуальной достоверности при композиции объектов. В частности, DGAD основывается на сетях, извлеченных из CLIP/DINO, и референсных сетях для получения семантических эмбеддингов и представлений, сохраняющих визуальные характеристики, которые затем интегрируются в процессы кодирования и декодирования в разъединенном виде. Сначала мы интегрируем семантические эмбеддинги в предобученные диффузионные модели, обладающие сильными способностями к пространственному анализу, чтобы неявно захватывать геометрию объекта, что способствует гибкому манипулированию объектами и обеспечивает эффективную редактируемость. Затем мы разрабатываем механизм плотного кросс-внимания, который использует неявно изученную геометрию объекта для извлечения и пространственного согласования визуальных признаков с соответствующими областями, гарантируя достоверное сохранение визуальной согласованности. Эксперименты на публичных бенчмарках демонстрируют эффективность предложенного фреймворка DGAD.
В исследованиях переносимого обучения масштабные законы получаются для различных важных базовых моделей с целью прогнозирования их свойств и производительности на больших масштабах. В данной работе мы показываем, как вывод масштабных законов может также использоваться для сравнения моделей и наборов данных, что позволяет определить, какой подход предпочтителен для предварительного обучения. Впервые полные масштабные законы, основанные на плотных измерениях в широком диапазоне масштабов моделей и количества просмотренных образцов, выводятся для двух важных процедур обучения на стыке языка и зрения — CLIP и MaMMUT, которые используют либо только контрастивные, либо контрастивные и генеративные потери на основе текстовых описаний. Обеспечивая достаточную точность прогнозирования для контрольных точек, мы используем выведенные масштабные законы для сравнения обеих моделей, получая доказательства более сильного улучшения MaMMUT с увеличением масштаба и лучшей эффективности использования данных по сравнению со стандартным CLIP. Для усиления валидности сравнения мы демонстрируем масштабные законы для различных задач, таких как классификация, поиск и сегментация, а также для разных открытых наборов данных — DataComp, DFN и Re-LAION, наблюдая одинаковые тенденции. Мы показываем, что сравнение также может быть выполнено при выводе масштабных законов с постоянным графиком скорости обучения, что снижает вычислительные затраты. Точный вывод масштабных законов предоставляет, таким образом, средства для сравнения моделей и наборов данных в различных масштабах, избегая вводящих в заблуждение выводов, основанных на измерениях только на отдельных эталонных масштабах, и прокладывая путь для систематического сравнения и улучшения открытых базовых моделей и наборов данных для их создания. Мы публикуем все предварительно обученные модели с их промежуточными контрольными точками, включая openMaMMUT-L/14, которая достигает точности 80,3% в задаче zero-shot на наборе данных ImageNet-1k, обученной на 12,8 миллиардах образцов из DataComp-1.4B. Код для воспроизведения экспериментов, описанных в статье, и исходные данные экспериментов доступны по адресу https://github.com/LAION-AI/scaling-laws-for-comparison.
Мы представляем MedAgentGYM — первую общедоступную обучающую среду, разработанную для улучшения способностей к медицинскому рассуждению на основе программирования у агентов на базе больших языковых моделей (LLM). MedAgentGYM включает 72 413 задач, распределенных по 129 категориям, основанным на реальных биомедицинских сценариях. Задачи инкапсулированы в исполняемые программные среды, каждая из которых содержит подробные описания задач, интерактивные механизмы обратной связи, проверяемые эталонные аннотации и масштабируемую генерацию обучающих траекторий. Обширное тестирование более 30 LLM выявило значительный разрыв в производительности между коммерческими моделями на основе API и их открытыми аналогами. Используя MedAgentGYM, модель Med-Copilot-7B демонстрирует существенное улучшение производительности благодаря контролируемому тонкому обучению (+36,44%) и продолженному обучению с подкреплением (+42,47%), становясь доступной и обеспечивающей конфиденциальность альтернативой, конкурентоспособной с gpt-4o. Предлагая как всеобъемлющий бенчмарк, так и доступные, расширяемые обучающие ресурсы в рамках унифицированных исполняемых сред, MedAgentGYM предоставляет интегрированную платформу для разработки LLM-ассистентов на основе программирования для передовых биомедицинских исследований и практики.
Большинство существующих визуальных кодировщиков преобразуют изображения в последовательность токенов фиксированной длины, игнорируя тот факт, что разные изображения содержат различное количество информации. Например, визуально сложное изображение (например, захламленная комната) по своей природе несет больше информации и, следовательно, заслуживает большего количества токенов, чем простое изображение (например, пустая стена). Чтобы устранить эту неэффективность, мы предлагаем DOVE — динамический визуальный кодировщик, который генерирует переменное количество визуальных токенов (т.е. векторов непрерывного представления) для реконструкции каждого изображения. Наши результаты показывают, что DOVE значительно сокращает среднее количество токенов, сохраняя при этом высокое качество реконструкции. В нескольких задачах линейного зондирования и многомодальных задач он превосходит существующие методы токенизации на основе автоэнкодеров, используя значительно меньше токенов и захватывая более выразительные семантические признаки по сравнению с кодированием фиксированной длины. Мы также расширяем DOVE с помощью токенизации, обусловленной запросом. Направляя модель на фокусирование на областях, релевантных запросу, достигается более эффективное и целенаправленное извлечение семантики. Наш код и контрольные точки доступны по адресу https://dove-encoder.github.io/dove-encoder.
3D Gaussian Splatting (3DGS) привлекла значительное внимание благодаря своей способности к фотореалистичному рендерингу в реальном времени для синтеза новых видов и 3D-моделирования. Однако существующие методы сталкиваются с трудностями при точном моделировании сцен, подверженных влиянию временных объектов, что приводит к артефактам в визуализированных изображениях. Мы выявили, что процесс уплотнения гауссовских распределений, хотя и улучшает захват деталей сцены, непреднамеренно способствует возникновению этих артефактов за счет добавления дополнительных гауссовских распределений, моделирующих временные помехи. Для решения этой проблемы мы предлагаем RobustSplat — надежное решение, основанное на двух ключевых подходах. Во-первых, мы вводим стратегию отсроченного роста гауссовских распределений, которая отдает приоритет оптимизации статической структуры сцены перед разрешением разделения/клонирования гауссовских распределений, что снижает переобучение на временных объектах на ранних этапах оптимизации. Во-вторых, мы разрабатываем подход масштабно-каскадной инициализации масок, который сначала использует обучение на основе сходства признаков с низким разрешением для получения надежной начальной оценки маски временных объектов, пользуясь его более сильной семантической согласованностью и устойчивостью к шуму, а затем переходит к обучению с высоким разрешением для достижения более точного предсказания маски. Многочисленные эксперименты на нескольких сложных наборах данных показывают, что наш метод превосходит существующие подходы, наглядно демонстрируя его надежность и эффективность. Страница проекта доступна по адресу: https://fcyycf.github.io/RobustSplat/.
С наступлением эры автономных агентов, принимающих решения от имени пользователей, обеспечение контекстной целостности (КЦ) — то есть определение, какую информацию уместно делиться при выполнении определённой задачи — становится ключевым вопросом в этой области. Мы утверждаем, что КЦ требует формы рассуждений, при которой агент должен учитывать контекст, в котором он действует. Чтобы проверить это, мы сначала предлагаем крупным языковым моделям (LLM) явно рассуждать о КЦ при принятии решений о раскрытии информации. Затем мы расширяем этот подход, разрабатывая фреймворк обучения с подкреплением (RL), который дополнительно прививает моделям необходимые рассуждения для достижения КЦ. Используя синтетический, автоматически созданный набор данных, состоящий всего из 700 примеров, но с разнообразными контекстами и нормами раскрытия информации, мы показываем, что наш метод значительно сокращает неадекватное раскрытие информации, сохраняя при этом производительность задач для моделей различных размеров и семейств. Важно отметить, что улучшения переносятся с этого синтетического набора данных на устоявшиеся бенчмарки КЦ, такие как PrivacyLens, который содержит аннотации, созданные людьми, и оценивает утечку приватности в действиях и вызовах инструментов ИИ-ассистентов.
Мы представляем Rectified Point Flow — унифицированную параметризацию, которая формулирует попарную регистрацию облаков точек и сборку многокомпонентных форм как единую задачу условной генерации. Для заданных невыровненных облаков точек наш метод изучает непрерывное поле точечных скоростей, которое перемещает зашумленные точки к их целевым позициям, из которых восстанавливаются положения частей. В отличие от предыдущих работ, которые регрессируют положения частей с использованием ad-hoc обработки симметрий, наш метод внутренне изучает симметрии сборки без использования меток симметрии. В сочетании с самообучаемым кодировщиком, ориентированным на перекрывающиеся точки, наш метод достигает нового уровня производительности на шести тестовых наборах, охватывающих попарную регистрацию и сборку форм. Примечательно, что наша унифицированная формулировка позволяет эффективно проводить совместное обучение на разнообразных наборах данных, способствуя изучению общих геометрических приоритетов и, как следствие, повышая точность. Страница проекта: https://rectified-pointflow.github.io/.
Системы генерации с использованием извлечения информации (Retrieval-Augmented Generation, RAG) часто сталкиваются с проблемой конфликтов знаний, когда извлеченные внешние данные противоречат внутренним параметрическим знаниям крупных языковых моделей (LLM). Это негативно сказывается на производительности в таких задачах, как ответы на вопросы (QA). Существующие подходы часто пытаются смягчить конфликты путем прямого сравнения двух источников знаний в параллельном режиме, однако это может перегружать LLM избыточными или длинными контекстами, что в конечном итоге затрудняет их способность выявлять и устранять противоречия. Для решения этой проблемы мы предлагаем Micro-Act — фреймворк с иерархическим пространством действий, который автоматически оценивает сложность контекста и адаптивно разбивает каждый источник знаний на последовательность детализированных сравнений. Эти сравнения представлены в виде выполняемых шагов, что позволяет выходить за рамки поверхностного контекста и проводить более глубокое рассуждение. В ходе обширных экспериментов на пяти эталонных наборах данных Micro-Act демонстрирует значительное повышение точности QA по сравнению с современными базовыми методами на всех пяти наборах данных и для трех типов конфликтов, особенно в случаях временных и семантических конфликтов, где все базовые методы показывают значительные провалы. Более того, Micro-Act одновременно демонстрирует устойчивую производительность на вопросах без конфликтов, что подчеркивает его практическую ценность в реальных приложениях RAG.
Синтез высококачественных динамических медицинских видеозаписей остается серьезной задачей из-за необходимости моделирования как пространственной согласованности, так и временной динамики. Существующие подходы на основе трансформеров сталкиваются с критическими ограничениями, включая недостаточное взаимодействие каналов, высокую вычислительную сложность из-за механизмов самовнимания и грубое шумоподавление, обусловленное встраиванием временных шагов при обработке различных уровней шума. В данной работе мы предлагаем FEAT — трансформер с эффективным вниманием во всех измерениях, который решает эти проблемы за счет трех ключевых инноваций: (1) унифицированная парадигма с последовательными механизмами внимания в пространственно-временных и канальных измерениях для захвата глобальных зависимостей во всех измерениях, (2) линейно-сложностная архитектура механизмов внимания в каждом измерении, использующая взвешенное внимание по ключевым значениям и глобальное внимание по каналам, и (3) модуль остаточного управления значениями, обеспечивающий детализированное управление на уровне пикселей для адаптации к различным уровням шума. Мы оцениваем FEAT на стандартных тестовых наборах и задачах, демонстрируя, что FEAT-S, имея всего 23% параметров от современной модели Endora, достигает сопоставимой или даже превосходящей производительности. Более того, FEAT-L превосходит все сравниваемые методы на нескольких наборах данных, демонстрируя как превосходную эффективность, так и масштабируемость. Код доступен по адресу https://github.com/Yaziwel/FEAT.
Редактирование материалов объектов на изображениях на основе примеров является активной областью исследований в компьютерном зрении и графике. Мы предлагаем метод MARBLE, который выполняет смешивание материалов и перекомпоновку детализированных свойств материалов путем поиска встраиваний материалов в пространстве CLIP и использования их для управления предварительно обученными моделями текста в изображение. Мы улучшаем редактирование материалов на основе примеров, находя блок в денойзинговом UNet, отвечающий за атрибуцию материалов. Для двух примеров изображений материалов мы находим направления в пространстве CLIP для их смешивания. Кроме того, мы можем достичь параметрического контроля над детализированными атрибутами материалов, такими как шероховатость, металличность, прозрачность и свечение, используя неглубокую сеть для предсказания направления желаемого изменения атрибута материала. Мы проводим качественный и количественный анализ, чтобы продемонстрировать эффективность нашего предложенного метода. Также мы представляем возможность нашего метода выполнять множественные правки за один прямой проход и применимость к рисованию. Страница проекта: https://marblecontrol.github.io/
Редактирование видео на основе текста направлено на изменение видеоконтента в соответствии с инструкциями на естественном языке. Хотя недавние подходы, не требующие обучения, достигли прогресса за счет использования предобученных диффузионных моделей, они обычно полагаются на методы, основанные на инверсии, которые отображают входные видео в латентное пространство, что часто приводит к временным несоответствиям и ухудшению структурной точности. Для решения этой проблемы мы предлагаем FlowDirector — новый фреймворк для редактирования видео без инверсии. Наш фреймворк моделирует процесс редактирования как прямое эволюционирование в пространстве данных, направляя видео через обыкновенное дифференциальное уравнение (ODE) для плавного перехода вдоль его внутреннего пространственно-временного многообразия, тем самым сохраняя временную согласованность и структурные детали. Для достижения локализованных и контролируемых изменений мы вводим механизм маскирования с управлением вниманием, который модулирует поле скорости ODE, сохраняя нетронутыми целевые области как в пространственном, так и во временном измерениях. Кроме того, для устранения неполных изменений и улучшения семантического соответствия инструкциям редактирования мы предлагаем стратегию улучшенного редактирования, вдохновленную методом Classifier-Free Guidance, которая использует дифференциальные сигналы между несколькими кандидатными потоками для направления траектории редактирования в сторону более сильного семантического соответствия без ущерба для структурной согласованности. Многочисленные эксперименты на различных бенчмарках демонстрируют, что FlowDirector достигает наилучших результатов в соблюдении инструкций, временной согласованности и сохранении фона, устанавливая новую парадигму для эффективного и согласованного редактирования видео без инверсии.
Недавние достижения в области медленно мыслящих языковых моделей (например, OpenAI-o1 и DeepSeek-R1) продемонстрировали впечатляющие способности в решении сложных задач рассуждения, имитируя рефлексивное познание, характерное для человека. Однако расширение таких возможностей на мультимодальные крупные языковые модели (MLLMs) остается сложной задачей из-за высокой стоимости повторного обучения выравнивания визуальных и языковых данных при обновлении базовых моделей рассуждения. Простое решение заключается в разделении восприятия и рассуждения, то есть преобразовании визуальных входных данных в языковые представления (например, подписи), которые затем передаются мощному текстовому модулю рассуждения. Однако такое разделение вводит критическую проблему: визуальный экстрактор должен генерировать описания, которые одновременно точно отражают изображение и достаточно информативны для поддержки точного последующего рассуждения. Для решения этой проблемы мы предлагаем метод Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) — стратегию обучения с подкреплением, ориентированную на рассуждения, которая согласует поведение экстрактора при создании подписей с целью рассуждения. Замыкая цикл восприятия-рассуждения через оптимизацию на основе вознаграждений, RACRO значительно улучшает визуальное заземление и извлекает представления, оптимизированные для рассуждений. Эксперименты на мультимодальных тестах по математике и естественным наукам показывают, что предложенный метод RACRO достигает наилучших средних показателей, обеспечивая превосходную масштабируемость и возможность адаптации "plug-and-play" к более продвинутым моделям рассуждения без необходимости дорогостоящего мультимодального повторного выравнивания.
Методы внедрения водяных знаков в крупные языковые модели (LLM) могут существенно влиять на качество их выходных данных, однако их воздействие на правдивость, безопасность и полезность остается недостаточно изученным. В данной статье представлен систематический анализ того, как два популярных подхода к внедрению водяных знаков — Gumbel и KGW — влияют на эти ключевые свойства согласованности в четырех согласованных LLM. Наши эксперименты выявили два различных паттерна деградации: ослабление защиты, при котором повышенная полезность подрывает безопасность модели, и усиление защиты, при котором излишняя осторожность снижает полезность модели. Эти паттерны возникают из-за изменений в распределении токенов, вызванных водяными знаками, что подчеркивает фундаментальное противоречие между целями согласованности. Для смягчения этих деградаций мы предлагаем метод повторной выборки для согласованности (Alignment Resampling, AR), который использует внешнюю модель вознаграждения для восстановления согласованности на этапе вывода. Мы устанавливаем теоретическую нижнюю границу улучшения ожидаемого показателя вознаграждения при увеличении размера выборки и эмпирически демонстрируем, что выборка всего 2-4 поколений с водяными знаками эффективно восстанавливает или превосходит базовые (без водяных знаков) показатели согласованности. Чтобы преодолеть ограниченное разнообразие ответов в стандартном методе Gumbel, наша модифицированная реализация жертвует строгой свободой от искажений, сохраняя при этом надежную обнаруживаемость, что обеспечивает совместимость с AR. Экспериментальные результаты подтверждают, что AR успешно восстанавливает базовую согласованность в обоих подходах к внедрению водяных знаков, сохраняя при этом высокую обнаруживаемость водяных знаков. Эта работа раскрывает критический баланс между силой водяных знаков и согласованностью модели, предлагая простое решение на этапе вывода для ответственного использования LLM с водяными знаками на практике.
Точная калибровка LiDAR и камеры является основополагающей для объединения мультимодального восприятия в системах автономного вождения и робототехники. Традиционные методы калибровки требуют обширного сбора данных в контролируемых условиях и не способны компенсировать изменения преобразований во время движения транспортного средства или робота. В данной статье мы предлагаем первую модель, использующую признаки вида с высоты птичьего полета (BEV) для выполнения калибровки LiDAR и камеры на основе исходных данных, названную BEVCALIB. Для этого мы отдельно извлекаем BEV-признаки камеры и LiDAR, а затем объединяем их в общее BEV-пространство признаков. Чтобы полностью использовать геометрическую информацию из BEV-признаков, мы вводим новый селектор признаков, который фильтрует наиболее важные признаки в декодере преобразований, что снижает потребление памяти и обеспечивает эффективное обучение. Обширные оценки на наборах данных KITTI, NuScenes и нашем собственном наборе данных демонстрируют, что BEVCALIB устанавливает новый уровень состояния искусства. При различных условиях шума BEVCALIB превосходит лучший базовый метод в литературе в среднем на (47,08%, 82,32%) на наборе данных KITTI и на (78,17%, 68,29%) на наборе данных NuScenes, в терминах (смещение, вращение), соответственно. В открытой области она улучшает лучший воспроизводимый базовый метод на порядок величины. Наш код и демонстрационные результаты доступны по адресу https://cisl.ucr.edu/BEVCalib.
Генерация взаимодействия руки с объектом (Hand-Object Interaction, HOI) обладает значительным прикладным потенциалом. Однако современные подходы к генерации 3D-движений HOI в значительной степени зависят от предопределенных 3D-моделей объектов и данных о движениях, полученных в лабораторных условиях, что ограничивает их способность к обобщению. В то же время методы генерации видео HOI сосредоточены на визуальной точности на уровне пикселей, часто жертвуя физической правдоподобностью. Учитывая, что визуальный вид и паттерны движения в реальном мире подчиняются фундаментальным физическим законам, мы предлагаем новый фреймворк, который объединяет визуальные априорные знания и динамические ограничения в рамках синхронизированного процесса диффузии для одновременной генерации видео и движений HOI. Для интеграции гетерогенных семантик, внешнего вида и характеристик движения наш метод реализует тримодальную адаптивную модуляцию для согласования признаков, дополненную 3D-полным вниманием для моделирования меж- и внутримодальных зависимостей. Кроме того, мы представляем визуально-осознанную 3D-модель диффузии взаимодействия, которая генерирует явные 3D-последовательности взаимодействий непосредственно из синхронизированных выходов диффузии, а затем возвращает их для создания замкнутого цикла обратной связи. Эта архитектура устраняет зависимость от предопределенных моделей объектов или явного руководства по позам, одновременно значительно повышая согласованность видео и движений. Результаты экспериментов демонстрируют превосходство нашего метода над современными подходами в генерации высококачественных, динамически правдоподобных последовательностей HOI с заметной способностью к обобщению в неизвестных реальных сценариях. Страница проекта доступна по адресу https://github.com/Droliven/SViMo\_project.
Точное предсказание трехмерных оккупационных сеток на основе визуальных данных имеет решающее значение для автономного вождения, однако современные дискриминативные методы сталкиваются с трудностями при работе с зашумленными данными, неполными наблюдениями и сложными структурами, присущими трехмерным сценам. В данной работе мы переосмысливаем задачу предсказания 3D-оккупации как задачу генеративного моделирования с использованием диффузионных моделей, которые изучают базовое распределение данных и учитывают априорные знания о 3D-сценах. Такой подход повышает согласованность предсказаний, устойчивость к шуму и лучше справляется со сложностями пространственных структур в 3D. Наши обширные эксперименты показывают, что генеративные модели на основе диффузии превосходят современные дискриминативные подходы, обеспечивая более реалистичные и точные предсказания оккупации, особенно в затененных или плохо видимых областях. Более того, улучшенные предсказания значительно повышают эффективность последующих задач планирования, что подчеркивает практические преимущества нашего метода для реальных приложений автономного вождения.
Автоматизированная оценка спортивных навыков требует захвата фундаментальных моделей движений, которые отличают мастерство от новичков, однако современные методы видеосэмплирования нарушают временную непрерывность, необходимую для оценки профессионализма. В связи с этим мы представляем Proficiency-Aware Temporal Sampling (PATS) — новую стратегию сэмплирования, которая сохраняет полные фундаментальные движения в рамках непрерывных временных сегментов для многоплановой оценки навыков. PATS адаптивно сегментирует видео, чтобы каждая анализируемая часть содержала полное выполнение критически важных компонентов производительности, повторяя этот процесс на нескольких сегментах для максимизации охвата информации при сохранении временной согласованности. Оцененная на бенчмарке EgoExo4D с использованием SkillFormer, PATS превосходит современные показатели точности во всех конфигурациях просмотра (+0,65% до +3,05%) и демонстрирует значительные улучшения в сложных областях (+26,22% в боулдеринге, +2,39% в музыке, +1,13% в баскетболе). Систематический анализ показывает, что PATS успешно адаптируется к разнообразным характеристикам активности — от высокочастотного сэмплирования для динамичных видов спорта до детализированной сегментации для последовательных навыков, — демонстрируя свою эффективность как адаптивный подход к временному сэмплированию, который продвигает автоматизированную оценку навыков для реальных приложений.
Автоматизированная интерпретация КТ-изображений, особенно локализация и описание патологических изменений на многоплоскостных и полнокупных сканах, остается значительной проблемой в клинической радиологии. Данная работа направлена на решение этой проблемы через четыре ключевых вклада: (i) В области таксономии мы сотрудничаем с опытными радиологами, чтобы предложить всеобъемлющую иерархическую систему классификации, включающую 404 типичных патологических изменения во всех областях тела; (ii) В области данных мы представляем набор данных, содержащий более 14,5 тыс. КТ-изображений из различных плоскостей и всех областей человеческого тела, с тщательно проработанными аннотациями для более чем 19 тыс. патологий, каждая из которых связана с подробным описанием и включена в таксономию; (iii) В области разработки моделей мы предлагаем OminiAbnorm-CT, который может автоматически локализовать и описывать патологические изменения на многоплоскостных и полнокупных КТ-изображениях на основе текстовых запросов, а также обеспечивает гибкое взаимодействие через визуальные подсказки; (iv) В области бенчмарков мы устанавливаем три репрезентативные задачи оценки, основанные на реальных клинических сценариях. Благодаря обширным экспериментам мы демонстрируем, что OminiAbnorm-CT значительно превосходит существующие методы по всем задачам и метрикам.
Насколько специфичны для языка речевые представления, изучаемые моделями с самоконтролем? Существующие исследования показали, что из моделей, обученных исключительно на речевых записях, можно успешно декодировать широкий спектр лингвистических признаков. Однако менее ясно, в какой степени предварительное обучение на конкретных языках улучшает языково-специфическую лингвистическую информацию. В данной работе мы исследуем кодирование голландской фонетической и лексической информации во внутренних представлениях моделей Wav2Vec2 с самоконтролем. Предварительное обучение исключительно на голландском языке улучшает представление голландских лингвистических признаков по сравнению с предварительным обучением на аналогичных объемах английского или больших объемах многоязычных данных. Это языково-специфическое преимущество хорошо обнаруживается с помощью обученных кластеризационных или классификационных проб и частично наблюдается с использованием метрик zero-shot. Кроме того, языково-специфическое преимущество в кодировании лингвистических признаков согласуется с производительностью на задачах автоматического распознавания речи.