Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели диффузии изображений были адаптированы для суперразрешения видео в реальном мире с целью преодоления проблем слишком сглаженных изображений в методах, основанных на генеративно-состязательных сетях (GAN). Однако эти модели испытывают трудности с поддержанием временной согласованности, так как они обучаются на статических изображениях, что ограничивает их способность эффективно улавливать временную динамику. Интеграция моделей текст-в-видео (T2V) в суперразрешение видео для улучшения временного моделирования прямолинейна. Однако остаются две ключевые проблемы: артефакты, вносимые сложными деградациями в реальных сценариях, и ухудшенная достоверность из-за сильной генеративной способности мощных моделей T2V (например, CogVideoX-5B). Для улучшения пространственно-временного качества восстановленных видео мы представляем~\name (Пространственно-временное увеличение с использованием моделей T2V для суперразрешения видео в реальном мире), новый подход, который использует модели T2V для суперразрешения видео в реальном мире, достигая реалистичных пространственных деталей и надежной временной согласованности. Конкретно, мы предлагаем Модуль Увеличения Локальной Информации (LIEM) перед блоком глобального внимания для обогащения локальных деталей и смягчения артефактов деградации. Более того, мы предлагаем Динамическую Потерю Частоты (DF) для укрепления достоверности, направляя модель на фокусировку на различных частотных компонентах на протяжении шагов диффузии. Обширные эксперименты демонстрируют, что~\name~превосходит современные методы как на синтетических, так и на реальных наборах данных.
Замечательная производительность модели o1 в сложном рассуждении демонстрирует, что масштабирование вычислений во время тестирования может дополнительно раскрывать потенциал модели, обеспечивая мощное мышление системы-2. Однако до сих пор отсутствуют всеобъемлющие обзоры для масштабирования вычислений во время тестирования. Мы прослеживаем концепцию вычислений во время тестирования до моделей системы-1. В моделях системы-1 вычисления во время тестирования решают проблемы с распределением и улучшают устойчивость и обобщение через обновление параметров, модификацию входных данных, редактирование представления и калибровку вывода. В моделях системы-2 это улучшает способность модели к рассуждению для решения сложных проблем через повторное выборочное обучение, самокоррекцию и поиск по дереву. Мы организуем этот обзор в соответствии с тенденцией от мышления системы-1 к мышлению системы-2, выделяя ключевую роль вычислений во время тестирования в переходе от моделей системы-1 к слабым моделям системы-2, а затем к сильным моделям системы-2. Мы также указываем на несколько возможных направлений для будущих исследований.
Современные крупные языковые модели (LLM) демонстрируют многообещающую производительность в решении сложных математических задач с использованием конвейера разделения и путем использования примеров обучения в контексте (ICL). Однако их потенциал для улучшения ограничен двумя критическими проблемами в предоставленных примерах ICL: несоответствием масштабов и последующей проблемой шума отрицательного эффекта. В частности, LLM способны к процессу разделения, но чаще всего терпят неудачу из-за неточного рассуждения на нескольких шагах завоевания, в то время как примеры ICL, полученные на уровне вопроса, иногда не содержат соответствующих шагов для конкретного сложного рассуждения. Более того, это разобщение может помешать правильному рассуждению из-за его несоответствия. В этом контексте мы сосредотачиваемся на улучшении качества рассуждения на каждом шаге и представляем BoostStep. BoostStep выравнивает масштаб между извлечением и рассуждением на уровне шага и предоставляет тесно связанные примеры ICL для каждого шага рассуждения с новой стратегией "попробовать сначала". BoostStep предоставляет более соответствующие примеры, чем грубая стратегия на уровне вопроса, улучшая качество рассуждения модели на каждом шаге постепенно. BoostStep - это общий и надежный метод улучшения рассуждения, который не только повышает производительность автономного рассуждения, но также без проблем интегрируется с методами поиска по дереву Монте-Карло (MCTS) для уточнения как генерации кандидатов, так и принятия решений. Количественно он улучшает GPT-4o и Qwen2.5-Math-72B на 3.6\% и 2.0% соответственно на различных математических бенчмарках, а в сочетании с MCTS - на 7.5%.
Активное взаимодействие в реальном времени с видео LLMs представляет собой новую парадигму взаимодействия человека с компьютером, где модель не только понимает намерения пользователя, но и реагирует, продолжая обрабатывать потоковое видео на лету. В отличие от офлайн видео LLMs, которые анализируют всё видео перед ответом на вопросы, активное взаимодействие в реальном времени требует трех возможностей: 1) Восприятие: мониторинг видео в реальном времени и захват взаимодействия. 2) Принятие решений: инициирование проактивного взаимодействия в подходящих ситуациях. 3) Реакция: непрерывное взаимодействие с пользователями. Однако существуют внутренние конфликты между желаемыми возможностями. Принятие решений и Реакция требуют противоположного масштаба и детализации Восприятия, а авторегрессивное декодирование блокирует реальное Восприятие и Принятие решений во время Реакции. Для объединения конфликтующих возможностей в гармоничной системе мы представляем Dispider, систему, которая разъединяет Восприятие, Принятие решений и Реакцию. Dispider включает легковесный модуль потоковой обработки видео, который отслеживает видеопоток и определяет оптимальные моменты для взаимодействия. Как только взаимодействие инициируется, асинхронный модуль взаимодействия предоставляет детальные ответы, в то время как модуль обработки продолжает мониторинг видео. Наша разъединенная и асинхронная концепция обеспечивает своевременные, контекстно точные и вычислительно эффективные ответы, делая Dispider идеальным для активного взаимодействия в реальном времени с длительными видеопотоками. Эксперименты показывают, что Dispider не только поддерживает высокую производительность в традиционных задачах вопросов и ответов на видео, но и значительно превосходит предыдущие онлайн модели в ответах на сценарии потоковой передачи, тем самым подтверждая эффективность нашей архитектуры. Код и модель доступны по ссылке https://github.com/Mark12Ding/Dispider.
По мере развития больших языковых моделей (LLM) их способность предоставлять персонализированные и контекстно-ориентированные ответы предлагает трансформационный потенциал для улучшения пользовательских впечатлений. Однако существующие подходы к персонализации часто полагаются исключительно на историю пользователя для дополнения запроса, что ограничивает их эффективность в генерации настроенных выводов, особенно в сценариях холодного старта с ограниченными данными. Для преодоления этих ограничений мы предлагаем фреймворк Personalized Graph-based Retrieval-Augmented Generation (PGraphRAG), который использует графы знаний, ориентированные на пользователя, для обогащения персонализации. Путем прямого интегрирования структурированных знаний пользователя в процесс извлечения и дополнения запросов контекстом, релевантным для пользователя, PGraphRAG улучшает понимание контекста и качество вывода. Мы также представляем бенчмарк Personalized Graph-based для оценки задач генерации текста с учетом персонализации в реальных ситуациях, где история пользователя ограничена или недоступна. Экспериментальные результаты показывают, что PGraphRAG значительно превосходит современные методы персонализации на разнообразных задачах, демонстрируя уникальные преимущества графового извлечения для персонализации.
Модели генерации видео по тексту значительно продвинулись, обеспечивая разнообразные применения в развлечениях, рекламе и образовании. Однако создание видео формата RGBA, включающего альфа-каналы для прозрачности, остается вызовом из-за ограниченных наборов данных и сложности адаптации существующих моделей. Альфа-каналы имеют важное значение для визуальных эффектов (VFX), позволяя прозрачным элементам, таким как дым и отражения, плавно сливаться с сценами. Мы представляем TransPixar, метод расширения предварительно обученных видео-моделей для генерации RGBA, сохраняя при этом исходные возможности RGB. TransPixar использует архитектуру диффузионного трансформера (DiT), включая альфа-специфичные токены и применяя FeLoRA для совместной генерации RGB и альфа-каналов с высокой последовательностью. Оптимизируя механизмы внимания, TransPixar сохраняет преимущества исходной RGB модели и достигает сильного соответствия между RGB и альфа-каналами несмотря на ограниченные данные обучения. Наш подход эффективно генерирует разнообразные и последовательные видео формата RGBA, расширяя возможности для визуальных эффектов и создания интерактивного контента.
Обучение с низкой точностью считается эффективной стратегией для снижения как затрат на обучение, так и затрат на вывод на следующем этапе. Предыдущие законы масштабирования для точности в основном сосредотачиваются на целочисленной квантизации, которая меньше обращает внимания на составляющие в квантизации с плавающей запятой и поэтому не могут хорошо соответствовать потерям в LLM в этом сценарии. В отличие от этого, хотя обучение с квантизацией с плавающей запятой чаще всего реализуется в производстве, исследования по этому вопросу были относительно поверхностными. В данной статье мы тщательно исследуем влияние целей квантизации с плавающей запятой, битов показателя, битов мантиссы и гранулярности вычисления коэффициента масштабирования на производительность обучения моделей LLM с квантизацией с плавающей запятой. Представляя точный единый закон масштабирования для квантизации с плавающей запятой, мы также предлагаем ценные рекомендации для сообщества: (1) Биты показателя вносят незначительно больший вклад в производительность модели, чем биты мантиссы. Мы предоставляем оптимальное соотношение битов показателя-мантиссы для различного количества битов, которое доступно для будущего использования производителями аппаратного обеспечения; (2) Мы обнаруживаем формирование критического размера данных при обучении LLM с низкой точностью. Слишком много обучающих данных, превышающих критический размер данных, приведет к обратному ухудшению производительности LLM; (3) Оптимальная точность квантизации с плавающей запятой прямо пропорциональна вычислительной мощности, но в широком диапазоне вычислительной мощности мы оцениваем, что лучшая точность с точки зрения соотношения стоимости и производительности находится между 4 и 8 битами.
Мы рассматриваем задачу генерации изображения в видео (Image-to-Video, I2V), которая включает в себя преобразование статических изображений в реалистичные видеопоследовательности на основе текстового описания. В то время как недавние достижения производят фотореалистичные результаты, они часто испытывают затруднения в создании видео с точным и последовательным движением объектов, особенно в сценариях с несколькими объектами. Для решения этих ограничений мы предлагаем двухэтапную композиционную структуру, которая декомпозирует генерацию I2V на: (i) Этап генерации явного промежуточного представления, за которым следует (ii) Этап генерации видео, который зависит от этого представления. Нашим ключевым новшеством является введение траектории движения на основе маски в качестве промежуточного представления, которая захватывает как семантическую информацию об объекте, так и движение, обеспечивая выразительное, но компактное представление движения и семантики. Для интеграции изученного представления на втором этапе мы используем объектно-ориентированные цели внимания. Конкретно, мы рассматриваем пространственную, по объектам, маскированную кросс-внимательность, интегрируя объектно-специфические подсказки в соответствующие области латентного пространства, и маскированную пространственно-временную самовнимательность, обеспечивая последовательность кадра к кадру для каждого объекта. Мы оцениваем наш метод на сложных бенчмарках с сценариями множественных объектов и высоким движением и эмпирически демонстрируем, что предложенный метод достигает лучших результатов во временной согласованности, реализме движения и верности текстовой подсказке. Кроме того, мы представляем \benchmark, новый сложный бенчмарк для генерации I2V с одиночным объектом и множественными объектами, и демонстрируем превосходство нашего метода на этом бенчмарке. Страница проекта доступна по адресу https://guyyariv.github.io/TTM/.
Мы предварительно обучаем модель METAGENE-1, авторегрессивный трансформер с 7 миллиардами параметров, который мы называем метагеномной базовой моделью, на новом корпусе разнообразных метагеномных ДНК и РНК последовательностей, составляющих более 1,5 триллиона пар оснований. Этот набор данных взят из большой коллекции образцов человеческих сточных вод, обработанных и просеквенированных с использованием глубоких метагеномных (нового поколения) методов секвенирования. В отличие от геномных моделей, сосредотачивающихся на отдельных геномах или отобранных наборах конкретных видов, цель METAGENE-1 заключается в захвате полного распределения геномной информации, присутствующей в этих сточных водах, для помощи в задачах, связанных с мониторингом пандемий и обнаружением патогенов. Мы проводим токенизацию методом кодирования байт-пар (BPE) на нашем наборе данных, настроенную для метагеномных последовательностей, а затем предварительно обучаем нашу модель. В данной статье мы подробно описываем набор данных для предварительного обучения, стратегию токенизации и архитектуру модели, выделяя соображения и выборы дизайна, обеспечивающие эффективное моделирование метагеномных данных. Затем мы показываем результаты предварительного обучения этой модели на нашем метагеномном наборе данных, предоставляя детали наших потерь, метрик системы и стабильности обучения на протяжении предварительного обучения. Наконец, мы демонстрируем производительность METAGENE-1, достигающую передовых результатов на наборе геномных бенчмарков и новых оценок, сосредоточенных на обнаружении человека-патогена и встраивании геномных последовательностей, показывая ее потенциал для общественного здравоохранения в мониторинге пандемий, биосуравейлансе и раннем обнаружении новых угроз здоровью.
Автоматизированное красное тестирование стало ключевым подходом для выявления уязвимостей в больших языковых моделях (LLM). Однако большинство существующих методов сосредоточены на изолированных проблемах безопасности, что ограничивает их способность адаптироваться к динамическим защитам и эффективно выявлять сложные уязвимости. Для решения этой проблемы мы предлагаем Auto-RT, фреймворк обучения с подкреплением, который автоматически исследует и оптимизирует сложные стратегии атак для эффективного выявления уязвимостей безопасности через злонамеренные запросы. В частности, мы вводим два ключевых механизма для уменьшения сложности исследования и улучшения оптимизации стратегии: 1) Раннее прерывание исследования, ускоряющее исследование за счет фокусировки на стратегиях атак с высоким потенциалом; и 2) Алгоритм прогрессивного отслеживания вознаграждения с промежуточными моделями понижения, который динамически уточняет траекторию поиска к успешной эксплуатации уязвимости. Обширные эксперименты с различными LLM показывают, что благодаря значительному улучшению эффективности исследования и автоматической оптимизации стратегий атак, Auto-RT обнаруживает более широкий спектр уязвимостей, достигая более быстрой скорости обнаружения и на 16,63\% более высоких показателей успешности по сравнению с существующими методами.
Управление видео в 4D является неотъемлемым элементом в генерации видео, поскольку оно позволяет использовать сложные техники объективов, такие как съемка с нескольких камер и эффект долли-зум, которые в настоящее время не поддерживаются существующими методами. Обучение трансформера диффузии видео (DiT) напрямую для управления 4D контентом требует дорогостоящих видео с множественными видами. Вдохновленные методом монокулярного динамического синтеза нового вида (MDVS), который оптимизирует 4D представление и визуализирует видео в соответствии с различными 4D элементами, такими как поза камеры и редактирование движения объекта, мы вводим псевдо 4D гауссовы поля в генерацию видео. Конкретно, мы предлагаем новую структуру, которая создает псевдо 4D гауссово поле с плотным трекингом 3D точек и визуализирует гауссово поле для всех кадров видео. Затем мы дообучаем предварительно обученный DiT для генерации видео в соответствии с руководством визуализированного видео, названного GS-DiT. Для улучшения обучения GS-DiT мы также предлагаем эффективный метод плотного трекинга 3D точек (D3D-PT) для создания псевдо 4D гауссового поля. Наш D3D-PT превосходит SpatialTracker, передовой метод разреженного трекинга 3D точек, по точности и ускоряет скорость вывода на два порядка. Во время этапа вывода GS-DiT может генерировать видео с тем же динамическим контентом, соблюдая различные параметры камеры, что решает значительное ограничение текущих моделей генерации видео. GS-DiT демонстрирует сильные обобщающие способности и расширяет возможности управления 4D гауссовым сплэттингом в генерации видео за пределы просто поз камеры. Он поддерживает продвинутые кинематографические эффекты через манипуляции гауссовым полем и внутренностями камеры, что делает его мощным инструментом для творческого производства видео. Демонстрации доступны по ссылке https://wkbian.github.io/Projects/GS-DiT/.
Оценка монокулярной глубины в рамках парадигмы диффузионного шумоподавления демонстрирует впечатляющую способность к обобщению, но страдает от низкой скорости вывода. Недавние методы принимают одношаговую детерминированную парадигму для улучшения эффективности вывода, сохраняя при этом сопоставимую производительность. Однако они не учитывают разрыв между генеративными и дискриминативными признаками, что приводит к неоптимальным результатам. В данной работе мы предлагаем DepthMaster, одношаговую модель диффузии, разработанную для адаптации генеративных признаков для задачи дискриминативной оценки глубины. Во-первых, для смягчения переобучения на текстурные детали, внесенные генеративными признаками, мы предлагаем модуль выравнивания признаков, который включает высококачественные семантические признаки для улучшения способности сети шумоподавления к представлению. Во-вторых, для решения недостатка деталей с мелкой структурой в одношаговой детерминированной структуре мы предлагаем модуль улучшения Фурье для адаптивного балансирования низкочастотной структуры и высокочастотных деталей. Мы используем двухэтапную стратегию обучения для полного использования потенциала двух модулей. На первом этапе мы сосредотачиваемся на изучении глобальной структуры сцены с помощью модуля выравнивания признаков, а на втором этапе используем модуль улучшения Фурье для улучшения визуального качества. Благодаря этим усилиям наша модель достигает передовой производительности в плане обобщения и сохранения деталей, превосходя другие методы на основе диффузии на различных наборах данных. Нашу страницу проекта можно найти по адресу https://indu1ge.github.io/DepthMaster_page.
Модели вознаграждения на уровне процесса (PRM) являются ключевыми для выполнения сложных задач рассуждения и принятия решений, где каждый промежуточный шаг играет важную роль в процессе рассуждения. Поскольку языковые модели подвержены различным типам ошибок во время процесса рассуждения, PRM должны обладать тонкими способностями для обнаружения различных неявных типов ошибок в реальных сценариях. Однако текущие бенчмарки в основном сосредотачиваются на правильности шагов, не оценивая систематически производительность PRM. Для заполнения этого пробела мы представляем PRMBench, бенчмарк на уровне процесса, специально разработанный для оценки способностей обнаружения тонких ошибок PRM. PRMBench включает в себя 6 216 тщательно разработанных задач и 83 456 меток на уровне шага, оценивающих модели по нескольким измерениям, включая простоту, обоснованность и чувствительность. В наших экспериментах на 15 моделях, охватывающих как открытые PRM, так и закрытые большие языковые модели, представленные в качестве моделей-критиков, мы выявляем значительные слабые места в текущих PRM. Эти результаты подчеркивают сложности, присущие оценке на уровне процесса, и выделяют ключевые направления для будущих исследований. Мы надеемся, что PRMBench может стать надежным инструментом для продвижения исследований в области оценки и развития PRM.
Эффективная оценка использования многошаговых инструментов является критически важной для анализа понимания, рассуждений и возможностей вызова функций больших языковых моделей (БЯМ). Однако прогресс затрудняется из-за отсутствия надежных наборов данных для оценки. Для решения этой проблемы мы представляем ToolHop, набор данных, включающий 995 пользовательских запросов и 3 912 связанных инструментов, специально разработанный для строгой оценки использования многошаговых инструментов. ToolHop обеспечивает разнообразные запросы, значимые взаимосвязи, локально исполняемые инструменты, подробную обратную связь и проверяемые ответы благодаря новому подходу к построению данных на основе запросов, который включает создание инструментов, уточнение документов и генерацию кода. Мы оцениваем 14 БЯМ из пяти семейств моделей (т.е. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 и GPT), выявляя значительные вызовы в обработке сценариев использования многошаговых инструментов. Ведущая модель, GPT-4o, достигает точности 49,04%, подчеркивая значительное пространство для улучшений. Дальнейший анализ показывает различия в стратегиях использования инструментов для различных семейств, предлагая действенные идеи для направления разработки более эффективных подходов. Код и данные можно найти на https://huggingface.co/bytedance-research/ToolHop.
Мы предлагаем Samba ASR, первую передовую модель автоматического распознавания речи (ASR), использующую новую архитектуру Mamba как кодер и декодер, построенную на основе моделей пространства состояний (SSM). В отличие от моделей ASR на основе трансформеров, которые полагаются на механизмы самовнимания для улавливания зависимостей, Samba ASR эффективно моделирует как локальные, так и глобальные временные зависимости, используя эффективную динамику пространства состояний, достигая заметного повышения производительности. Решая ограничения трансформеров, такие как квадратичное масштабирование по длине ввода и сложности в обработке дальних зависимостей, Samba ASR достигает превосходной точности и эффективности. Экспериментальные результаты показывают, что Samba ASR превосходит существующие модели ASR на основе трансформеров с открытым исходным кодом по различным стандартным бенчмаркам, утверждаясь как новый золотой стандарт в области ASR. Обширные оценки на бенчмарках показывают значительное улучшение в показателях ошибок слов (WER), обеспечивая конкурентоспособную производительность даже в условиях ограниченных ресурсов. Более того, вычислительная эффективность и оптимизация параметров архитектуры Mamba делают Samba ASR масштабируемым и надежным решением для различных задач ASR. Наши вклады включают: новую архитектуру Samba ASR, демонстрирующую превосходство SSM над моделями на основе трансформеров для обработки речевых последовательностей. Комплексную оценку на общедоступных бенчмарках, демонстрирующую передовую производительность. Анализ вычислительной эффективности, устойчивости к шуму и обобщения последовательностей. Эта работа подчеркивает жизнеспособность Mamba SSM как альтернативы без трансформеров для эффективного и точного ASR. Используя преимущества моделирования пространства состояний, Samba ASR устанавливает новый стандарт производительности ASR и будущих исследований.
Данный доклад представляет мощную структуру для настройки создания видео путем интеграции нескольких конкретных фотографий идентификации (ID) с видео-трансформерами, называемыми Ингредиентами. В общем, наш метод состоит из трех основных модулей: (i) экстрактора лица, который захватывает универсальные и точные черты лица для каждого человеческого ID с глобальной и локальной перспективы; (ii) многомасштабного проектора, который отображает вложения лица в контекстное пространство запроса изображения в видео-трансформерах; (iii) маршрутизатора ID, который динамически объединяет и распределяет несколько вложений ID в соответствующие пространственно-временные области. Используя тщательно подготовленный набор данных текста-видео и многоступенчатый протокол обучения, Ингредиенты демонстрируют превосходную производительность в превращении пользовательских фотографий в динамичное и персонализированное видео-содержимое. Качественные оценки подчеркивают преимущества предложенного метода, позиционируя его как значительное достижение в направлении более эффективных инструментов управления генеративным видео на основе архитектуры на основе трансформеров по сравнению с существующими методами. Данные, код и веса модели доступны публично по ссылке: https://github.com/feizc/Ingredients.
Дизайн структурированных визуальных материалов, таких как слайды презентаций, является неотъемлемым элементом коммуникативных потребностей, требующим как навыков создания контента, так и визуального планирования. В данной работе мы решаем задачу автоматизированной генерации слайдов, где модели создают презентации на основе естественного языка (ЕЯ). Сначала мы представляем бенчмарк SlidesBench, первый бенчмарк для генерации слайдов с 7 тыс. обучающими и 585 тестовыми примерами, полученными из 310 коллекций слайдов по 10 областям. SlidesBench поддерживает оценку, которая (i) основана на референсах для измерения сходства с целевым слайдом, и (ii) без референсов для измерения качества дизайна сгенерированных слайдов самостоятельно. Мы проводим оценку методов генерации изображений и программ с использованием различных моделей и обнаруживаем, что программные методы создают слайды более высокого качества в форматах, с которыми пользователь может взаимодействовать. Основываясь на успехе генерации программ, мы создаем AutoPresent - модель на основе 8B Llama, обученную на 7 тыс. пар инструкций, сопоставленных с кодом для генерации слайдов, и достигаем результатов, сравнимых с закрытой моделью GPT-4o. Мы также исследуем итеративное улучшение дизайна, где модель обязана самостоятельно улучшать свой собственный вывод, и обнаруживаем, что этот процесс повышает качество слайда. Мы надеемся, что наша работа послужит основой для будущих исследований по созданию структурированных визуальных материалов.
Быстрое развитие моделей визуально-языкового восприятия (VLM) требует строгой и надежной оценки. Однако текущие бенчмарки визуального вопросно-ответного моделирования (VQA) часто зависят от открытых вопросов, что затрудняет точную оценку из-за изменчивости ответов на естественном языке. Для решения этой проблемы мы представляем AutoConverter, агентный фреймворк, который автоматически преобразует эти открытые вопросы в формат с выбором ответов, обеспечивая объективную оценку и сокращая затратный процесс создания вопросов. Наши эксперименты показывают, что AutoConverter способен генерировать правильные и сложные вопросы с выбором ответов, при этом VLM демонстрируют постоянно сходную или более низкую точность на этих вопросах по сравнению с вопросами, созданными людьми. Используя AutoConverter, мы создаем VMCBench, бенчмарк, созданный путем преобразования 20 существующих наборов данных VQA в унифицированный формат с выбором ответов, включающий 9 018 вопросов. Мы комплексно оцениваем 33 передовых моделей VLM на VMCBench, устанавливая новый стандарт для масштабной, последовательной и воспроизводимой оценки моделей VLM.
В данной статье мы предлагаем ProTracker, новую концепцию для надежного и точного долгосрочного плотного отслеживания произвольных точек на видео. Основная идея нашего метода заключается в интеграции вероятностного подхода для уточнения нескольких прогнозов как на основе оптического потока, так и семантических признаков для надежного отслеживания как в короткой, так и в долгосрочной перспективе. Конкретно, мы интегрируем оценки оптического потока вероятностным образом, что позволяет создавать плавные и точные траектории путем максимизации правдоподобия каждого прогноза. Для эффективной релокализации сложных точек, которые исчезают и появляются из-за заслонения, мы также включаем долгосрочную соответственность признаков в наши прогнозы оптического потока для непрерывной генерации траекторий. Обширные эксперименты показывают, что ProTracker достигает передовых показателей среди методов без учителя и методов с автономным обучением, и даже превосходит методы с учителем на нескольких тестовых наборах данных. Наш код и модель будут общедоступны после публикации.