Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя мультимодальные большие языковые модели (MLLMs) демонстрируют впечатляющие способности в работе со статичными изображениями, они часто оказываются недостаточно эффективными в понимании динамичных, насыщенных информацией коротких видеороликов, которые являются доминирующим форматом в современном цифровом ландшафте. Чтобы устранить этот разрыв, мы представляем Kwai Keye-VL — мультимодальную базовую модель с 8 миллиардами параметров, разработанную для достижения передовых результатов в понимании коротких видеороликов при сохранении надежных универсальных способностей в области обработки визуальной и текстовой информации. Разработка Keye-VL основывается на двух ключевых принципах: масштабном высококачественном наборе данных, превышающем 600 миллиардов токенов с акцентом на видео, и инновационной методике обучения. Эта методика включает четырехэтапный процесс предварительного обучения для обеспечения четкого согласования визуальной и текстовой информации, за которым следует тщательный двухэтапный процесс пост-обучения. Первый этап пост-обучения улучшает базовые способности, такие как выполнение инструкций, тогда как второй этап сосредоточен на стимулировании продвинутого мышления. На этом втором этапе ключевым нововведением является наша пятирежимная смесь данных «холодного старта», включающая режимы «мышление», «без мышления», «автоматическое мышление», «мышление с изображением» и высококачественные видеоданные. Эта смесь учит модель решать, когда и как применять логическое мышление. Последующие шаги обучения с подкреплением (RL) и согласования дополнительно улучшают эти способности к рассуждению и исправляют аномальное поведение модели, такое как повторяющиеся выводы. Для проверки нашего подхода мы проводим обширные оценки, которые показывают, что Keye-VL достигает наилучших результатов на публичных видеобенчмарках и остается высококонкурентоспособной в задачах, основанных на изображениях (Рисунок 1). Кроме того, мы разрабатываем и публикуем KC-MMBench — новый бенчмарк, адаптированный для реальных сценариев с короткими видеороликами, где Keye-VL демонстрирует значительное преимущество.
Колоризация анимации является важной частью производства в индустрии реальной анимации. Долгосрочная колоризация анимации связана с высокими затратами на рабочую силу. Поэтому автоматизированная долгосрочная колоризация анимации на основе моделей генерации видео имеет значительную научную ценность. Существующие исследования ограничиваются краткосрочной колоризацией. Эти исследования используют локальный подход, объединяя перекрывающиеся признаки для достижения плавных переходов между локальными сегментами. Однако локальный подход игнорирует глобальную информацию, что не позволяет поддерживать долгосрочную цветовую согласованность. В данном исследовании мы утверждаем, что идеальная долгосрочная цветовая согласованность может быть достигнута с помощью динамического глобально-локального подхода, то есть динамического извлечения глобальных цветосогласованных признаков, релевантных текущей генерации. В частности, мы предлагаем LongAnimation, новую структуру, которая включает SketchDiT, Динамическую Глобально-Локальную Память (DGLM) и Награду за Цветовую Согласованность. SketchDiT захватывает гибридные референсные признаки для поддержки модуля DGLM. Модуль DGLM использует модель понимания длинных видео для динамического сжатия глобальных исторических признаков и их адаптивного объединения с признаками текущей генерации. Для улучшения цветовой согласованности мы вводим Награду за Цветовую Согласованность. В процессе вывода мы предлагаем слияние цветовой согласованности для сглаживания перехода между сегментами видео. Многочисленные эксперименты на краткосрочных (14 кадров) и долгосрочных (в среднем 500 кадров) анимациях демонстрируют эффективность LongAnimation в поддержании краткосрочной и долгосрочной цветовой согласованности для задачи колоризации анимации в открытой области. Код доступен по адресу https://cn-makers.github.io/long_animation_web/.
Мы представляем Depth Anything at Any Condition (DepthAnything-AC) — базовую модель монохромного оценивания глубины (MDE), способную работать в разнообразных условиях окружающей среды. Предыдущие базовые модели MDE демонстрируют впечатляющие результаты в общих сценах, но не справляются с задачами в сложных открытых мирах, включающих сложные условия, такие как изменения освещения, неблагоприятные погодные условия и искажения, вызванные сенсорами. Для преодоления проблем недостатка данных и невозможности генерации высококачественных псевдометок из поврежденных изображений мы предлагаем парадигму тонкой настройки с использованием регуляризации на основе неподконтрольной согласованности, которая требует лишь относительно небольшого количества немаркированных данных. Кроме того, мы предлагаем ограничение на основе пространственного расстояния, чтобы явно заставить модель изучать относительные отношения на уровне патчей, что приводит к более четким семантическим границам и более точным деталям. Экспериментальные результаты демонстрируют возможности DepthAnything-AC в условиях нулевого обучения на различных тестовых наборах, включая наборы данных с неблагоприятными погодными условиями в реальном мире, синтетические наборы данных с искажениями и общие тестовые наборы. Страница проекта: https://ghost233lism.github.io/depthanything-AC-page Код: https://github.com/HVision-NKU/DepthAnythingAC
Заметные достижения в области базовых моделей для обработки зрения и языка в задачах мультимодального понимания, рассуждения и генерации стимулировали растущие усилия по расширению таких интеллектуальных возможностей на физический мир, что способствовало активному развитию моделей "зрение-язык-действие" (VLA). Несмотря на кажущееся разнообразие подходов, мы отмечаем, что современные VLA-модели могут быть объединены в рамках единой структуры: входные данные зрения и языка обрабатываются серией VLA-модулей, создавая цепочку токенов действий, которые постепенно кодируют более конкретную и применимую информацию, в конечном итоге генерируя исполняемые действия. Мы также определяем, что ключевым выбором при проектировании VLA-моделей является способ формулирования токенов действий, который можно классифицировать как языковое описание, код, аффорданс, траекторию, целевое состояние, латентное представление, сырое действие и рассуждение. Однако до сих пор отсутствует всестороннее понимание токенов действий, что существенно затрудняет эффективное развитие VLA и затемняет будущие направления. Таким образом, данный обзор ставит целью классифицировать и интерпретировать существующие исследования VLA через призму токенизации действий, выделить сильные и слабые стороны каждого типа токенов, а также определить области для улучшения. Благодаря систематическому обзору и анализу мы предлагаем синтезированный взгляд на более широкую эволюцию VLA-моделей, выделяем недостаточно изученные, но перспективные направления и вносим вклад в руководство для будущих исследований, надеясь приблизить область к созданию универсального искусственного интеллекта.
Мы представляем метод Locality-aware Parallel Decoding (LPD) для ускорения авторегрессивной генерации изображений. Традиционная авторегрессивная генерация изображений основана на предсказании следующего патча, что является процессом, ограниченным памятью, и приводит к высокой задержке. Существующие работы пытались распараллелить предсказание следующего патча, переходя к предсказанию нескольких патчей для ускорения процесса, но достигли лишь ограниченного уровня параллелизации. Для достижения высокой параллелизации при сохранении качества генерации мы вводим две ключевые техники: (1) Гибкое параллелизованное авторегрессивное моделирование — новая архитектура, которая позволяет произвольный порядок генерации и степень параллелизации. Она использует обучаемые токены запросов позиций для управления генерацией на целевых позициях, обеспечивая при этом взаимную видимость между одновременно генерируемыми токенами для согласованного параллельного декодирования. (2) Локализованный порядок генерации — новый подход к планированию, который формирует группы для минимизации зависимостей внутри групп и максимизации контекстной поддержки, улучшая качество генерации. Благодаря этим решениям мы сокращаем количество шагов генерации с 256 до 20 (для разрешения 256×256) и с 1024 до 48 (для разрешения 512×512) без ущерба для качества в задаче условной генерации на ImageNet, достигая как минимум 3.4-кратного снижения задержки по сравнению с предыдущими параллелизованными авторегрессивными моделями.
Мы представляем FreeMorph — первый метод морфинга изображений, не требующий тонкой настройки и способный работать с входными данными, имеющими различную семантику или компоновку. В отличие от существующих методов, которые полагаются на дообучение предварительно обученных диффузионных моделей и ограничены временными рамками и различиями в семантике/компоновке, FreeMorph обеспечивает высококачественный морфинг изображений без необходимости обучения для каждого отдельного случая. Несмотря на свою эффективность и потенциал, методы без тонкой настройки сталкиваются с трудностями в поддержании высокого качества результатов из-за нелинейной природы многошагового процесса удаления шума и предубеждений, унаследованных от предварительно обученной диффузионной модели. В данной статье мы представляем FreeMorph, который решает эти проблемы за счет интеграции двух ключевых инноваций. 1) Мы предлагаем дизайн сферической интерполяции, учитывающей управление, который включает явные указания от входных изображений путем модификации модулей самовнимания, тем самым устраняя потерю идентичности и обеспечивая направленные переходы на протяжении всей генерируемой последовательности. 2) Мы также вводим тенденцию вариации, ориентированную на шаги, которая смешивает модули самовнимания, полученные из каждого входного изображения, для достижения контролируемых и согласованных переходов, учитывающих оба входных изображения. Наши обширные оценки показывают, что FreeMorph превосходит существующие методы, будучи в 10–50 раз быстрее и устанавливая новый эталон в области морфинга изображений.
Автоматизированное создание радиологических отчетов (RRG) направлено на генерацию детальных текстовых отчетов на основе клинических изображений, таких как компьютерная томография (КТ), с целью повышения точности и эффективности диагностики и предоставления рекомендаций по лечению. RRG сталкивается с двумя ключевыми проблемами: (1) сложностью извлечения релевантной информации из данных визуализации при ограниченных ресурсах и (2) трудностями в объективной оценке расхождений между отчетами, созданными моделями, и отчетами, написанными экспертами. Для решения этих задач мы предлагаем mu^2LLM — **му**льтимасштабные **му**льтимодальные большие языковые модели для задач RRG. Новый {mu}^2Tokenizer, выступая в качестве промежуточного слоя, интегрирует мультимодальные признаки из мультимасштабного визуального токенизатора и текстового токенизатора, а затем улучшает качество генерации отчетов с помощью оптимизации прямых предпочтений (DPO), управляемой GREEN-RedLlama. Экспериментальные результаты на четырех крупных медицинских наборах данных с КТ-изображениями и отчетами демонстрируют, что наш метод превосходит существующие подходы, подчеркивая потенциал наших тонко настроенных mu^2LLM для задач RRG при ограниченных данных.
Научные применения машинного обучения часто опираются на небольшие специализированные модели, настроенные для конкретных областей. Такие модели часто демонстрируют превосходную производительность, но им не хватает гибкости. Фундаментальные модели предлагают универсальность, но обычно уступают специализированным подходам, особенно в нетрадиционных модальностях и нишевых областях. Мы предлагаем MARVIS (Modality Adaptive Reasoning over VISualizations) — метод, не требующий обучения, который позволяет даже небольшим моделям обработки визуальных и текстовых данных точно предсказывать любые модальности данных. MARVIS преобразует скрытые пространства вложений в визуальные представления, а затем использует пространственные и детализированные навыки рассуждения моделей обработки визуальных и текстовых данных для успешной интерпретации и использования этих представлений. MARVIS демонстрирует конкурентоспособные результаты в областях визуальных данных, аудио, биологии и табличных данных, используя одну модель с 3 миллиардами параметров, превосходя Gemini в среднем на 16% и приближаясь к специализированным методам, не раскрывая личной идентифицируемой информации (P.I.I.) и не требуя обучения для конкретной области. Мы открываем исходный код и наборы данных по адресу https://github.com/penfever/marvis.
Личное общение, как распространённая форма человеческой деятельности, стимулирует исследования в области генерации интерактивных движений головы. Виртуальный агент способен генерировать двигательные реакции, обладая как способностью слушать, так и говорить, на основе аудио- или двигательных сигналов другого пользователя и своих собственных. Однако предыдущие подходы, основанные на пофрагментной генерации или явном переключении между генераторами слушателя и говорящего, имеют ограничения в получении будущих сигналов, понимании контекстного поведения и плавности переключения, что затрудняет их использование в реальном времени и снижает реалистичность. В данной статье мы предлагаем основанную на авторегрессии (AR) пофреймовую структуру под названием ARIG, которая позволяет реализовать генерацию в реальном времени с повышенной реалистичностью взаимодействия. Для достижения генерации в реальном времени мы моделируем прогнозирование движений как невекторно-квантованный авторегрессионный процесс. В отличие от прогнозирования по индексам дискретного кодового пространства, мы представляем распределение движений с использованием процедуры диффузии, что позволяет достичь более точных прогнозов в непрерывном пространстве. Для повышения реалистичности взаимодействия мы акцентируем внимание на понимании интерактивного поведения (IBU) и детальном понимании состояния диалога (CSU). В рамках IBU, основываясь на двухканальных двухмодальных сигналах, мы суммируем краткосрочные поведенческие паттерны с помощью двунаправленного интегрированного обучения и осуществляем контекстное понимание на длинных временных интервалах. В CSU мы используем сигналы активности голоса и контекстные признаки IBU для понимания различных состояний (прерывание, обратная связь, пауза и т.д.), которые присутствуют в реальных диалогах. Эти данные служат условиями для финального прогрессивного прогнозирования движений. Многочисленные эксперименты подтвердили эффективность нашей модели.
Внутренняя связь между мимикой и речью часто упускается из виду в генеративном моделировании, где синтез говорящей головы и преобразование текста в речь (TTS) обычно рассматриваются как отдельные задачи. В данной статье представлен JAM-Flow — унифицированный фреймворк для одновременного синтеза и согласования как мимики, так и речи. Наш подход использует метод сопоставления потоков (flow matching) и новую архитектуру Multi-Modal Diffusion Transformer (MM-DiT), интегрирующую специализированные модули Motion-DiT и Audio-DiT. Эти модули связаны через слои избирательного совместного внимания и включают ключевые архитектурные решения, такие как временно выровненные позиционные эмбеддинги и локализованные маски совместного внимания, что позволяет эффективно взаимодействовать между модальностями, сохраняя при этом их специфические преимущества. Обучаемый с использованием задачи, аналогичной инпейнтингу, JAM-Flow поддерживает широкий спектр входных условий, включая текст, эталонный аудио- и эталонный модальный сигнал, что позволяет выполнять такие задачи, как синхронизированная генерация говорящей головы из текста, аудио-управляемая анимация и многое другое, в рамках единой согласованной модели. JAM-Flow значительно продвигает многомодальное генеративное моделирование, предлагая практическое решение для целостного аудиовизуального синтеза. Страница проекта: https://joonghyuk.com/jamflow-web
Тесты с множественным выбором долгое время были основным инструментом оценки языковых моделей, поскольку их проверка объективна и легко автоматизируется. Однако мы показываем, что вопросы с множественным выбором из популярных тестов часто можно ответить, даже не видя самого вопроса. Эти упрощения возникают из-за фундаментального ограничения дискриминативной оценки, которое отсутствует при оценке свободных, генеративных ответов модели. До недавнего времени не существовало жизнеспособной и масштабируемой альтернативы тестам с множественным выбором, но мы демонстрируем, что ситуация изменилась. Мы рассматриваем генеративную оценку через подход, который называем сопоставлением ответов: модель получает вопрос без вариантов ответа, генерирует свободный ответ, а затем современная языковая модель с использованием эталонного ответа определяет, соответствует ли ответ эталону. Чтобы сравнить достоверность различных стратегий оценки, мы аннотируем данные MMLU-Pro и GPQA-Diamond для получения оценок от людей и измеряем согласованность каждого подхода. Мы обнаруживаем, что сопоставление ответов с использованием современных моделей — даже небольших — достигает почти идеальной согласованности, сравнимой с согласованностью между аннотаторами. В то же время как оценка с множественным выбором, так и использование LLM-как-судьи без эталонных ответов плохо согласуются с человеческими оценками. Улучшение оценки через сопоставление ответов — это не просто концептуальная проблема: рейтинги нескольких моделей значительно меняются при оценке их свободных ответов с использованием этого подхода. Учитывая эти результаты, мы обсуждаем, как перевести экосистему оценки от тестов с множественным выбором к сопоставлению ответов.
Предыдущие методы редактирования видео на основе текста часто страдают от временной несогласованности, искажения движения и, что наиболее заметно, ограниченных преобразований доменов. Мы связываем эти ограничения с недостаточным моделированием пространственно-временной релевантности пикселей в процессе редактирования. Для решения этой проблемы мы предлагаем STR-Match, алгоритм редактирования видео, не требующий обучения, который создает визуально привлекательные и пространственно-временные согласованные видео с помощью латентной оптимизации, управляемой нашим новым показателем STR. Этот показатель учитывает пространственно-временную релевантность пикселей между соседними кадрами, используя 2D пространственное внимание и 1D временные модули в моделях диффузии текст-в-видео (T2V), без необходимости в вычислительно затратных механизмах 3D внимания. Интегрированный в латентную оптимизационную структуру с латентной маской, STR-Match генерирует временно согласованные и визуально точные видео, демонстрируя высокую производительность даже при значительных преобразованиях доменов, сохраняя ключевые визуальные атрибуты исходного материала. Многочисленные эксперименты показывают, что STR-Match стабильно превосходит существующие методы как по визуальному качеству, так и по пространственно-временной согласованности.