Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

STAR: Пространственно-временное увеличение с помощью моделей текста-видео для суперразрешения видео в реальном мире.
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Jan 6

ByRui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai

Модели диффузии изображений были адаптированы для суперразрешения видео в реальном мире с целью преодоления проблем слишком сглаженных изображений в методах, основанных на генеративно-состязательных сетях (GAN). Однако эти модели испытывают трудности с поддержанием временной согласованности, так как они обучаются на статических изображениях, что ограничивает их способность эффективно улавливать временную динамику. Интеграция моделей текст-в-видео (T2V) в суперразрешение видео для улучшения временного моделирования прямолинейна. Однако остаются две ключевые проблемы: артефакты, вносимые сложными деградациями в реальных сценариях, и ухудшенная достоверность из-за сильной генеративной способности мощных моделей T2V (например, CogVideoX-5B). Для улучшения пространственно-временного качества восстановленных видео мы представляем~\name (Пространственно-временное увеличение с использованием моделей T2V для суперразрешения видео в реальном мире), новый подход, который использует модели T2V для суперразрешения видео в реальном мире, достигая реалистичных пространственных деталей и надежной временной согласованности. Конкретно, мы предлагаем Модуль Увеличения Локальной Информации (LIEM) перед блоком глобального внимания для обогащения локальных деталей и смягчения артефактов деградации. Более того, мы предлагаем Динамическую Потерю Частоты (DF) для укрепления достоверности, направляя модель на фокусировку на различных частотных компонентах на протяжении шагов диффузии. Обширные эксперименты демонстрируют, что~\name~превосходит современные методы как на синтетических, так и на реальных наборах данных.

Вычисления во время тестирования: от мышления системы-1 к мышлению системы-2
Test-time Computing: from System-1 Thinking to System-2 Thinking

Jan 5

ByYixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang

Замечательная производительность модели o1 в сложном рассуждении демонстрирует, что масштабирование вычислений во время тестирования может дополнительно раскрывать потенциал модели, обеспечивая мощное мышление системы-2. Однако до сих пор отсутствуют всеобъемлющие обзоры для масштабирования вычислений во время тестирования. Мы прослеживаем концепцию вычислений во время тестирования до моделей системы-1. В моделях системы-1 вычисления во время тестирования решают проблемы с распределением и улучшают устойчивость и обобщение через обновление параметров, модификацию входных данных, редактирование представления и калибровку вывода. В моделях системы-2 это улучшает способность модели к рассуждению для решения сложных проблем через повторное выборочное обучение, самокоррекцию и поиск по дереву. Мы организуем этот обзор в соответствии с тенденцией от мышления системы-1 к мышлению системы-2, выделяя ключевую роль вычислений во время тестирования в переходе от моделей системы-1 к слабым моделям системы-2, а затем к сильным моделям системы-2. Мы также указываем на несколько возможных направлений для будущих исследований.

BoostStep: Повышение математических возможностей больших языковых моделей с помощью улучшенного одношагового рассуждения
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Jan 6

ByBeichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang

Современные крупные языковые модели (LLM) демонстрируют многообещающую производительность в решении сложных математических задач с использованием конвейера разделения и путем использования примеров обучения в контексте (ICL). Однако их потенциал для улучшения ограничен двумя критическими проблемами в предоставленных примерах ICL: несоответствием масштабов и последующей проблемой шума отрицательного эффекта. В частности, LLM способны к процессу разделения, но чаще всего терпят неудачу из-за неточного рассуждения на нескольких шагах завоевания, в то время как примеры ICL, полученные на уровне вопроса, иногда не содержат соответствующих шагов для конкретного сложного рассуждения. Более того, это разобщение может помешать правильному рассуждению из-за его несоответствия. В этом контексте мы сосредотачиваемся на улучшении качества рассуждения на каждом шаге и представляем BoostStep. BoostStep выравнивает масштаб между извлечением и рассуждением на уровне шага и предоставляет тесно связанные примеры ICL для каждого шага рассуждения с новой стратегией "попробовать сначала". BoostStep предоставляет более соответствующие примеры, чем грубая стратегия на уровне вопроса, улучшая качество рассуждения модели на каждом шаге постепенно. BoostStep - это общий и надежный метод улучшения рассуждения, который не только повышает производительность автономного рассуждения, но также без проблем интегрируется с методами поиска по дереву Монте-Карло (MCTS) для уточнения как генерации кандидатов, так и принятия решений. Количественно он улучшает GPT-4o и Qwen2.5-Math-72B на 3.6\% и 2.0% соответственно на различных математических бенчмарках, а в сочетании с MCTS - на 7.5%.

Диспайдер: Обеспечение видео LLM с активным взаимодействием в реальном времени через декоррелированное восприятие, принятие решений и реакцию.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Jan 6

ByRui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Активное взаимодействие в реальном времени с видео LLMs представляет собой новую парадигму взаимодействия человека с компьютером, где модель не только понимает намерения пользователя, но и реагирует, продолжая обрабатывать потоковое видео на лету. В отличие от офлайн видео LLMs, которые анализируют всё видео перед ответом на вопросы, активное взаимодействие в реальном времени требует трех возможностей: 1) Восприятие: мониторинг видео в реальном времени и захват взаимодействия. 2) Принятие решений: инициирование проактивного взаимодействия в подходящих ситуациях. 3) Реакция: непрерывное взаимодействие с пользователями. Однако существуют внутренние конфликты между желаемыми возможностями. Принятие решений и Реакция требуют противоположного масштаба и детализации Восприятия, а авторегрессивное декодирование блокирует реальное Восприятие и Принятие решений во время Реакции. Для объединения конфликтующих возможностей в гармоничной системе мы представляем Dispider, систему, которая разъединяет Восприятие, Принятие решений и Реакцию. Dispider включает легковесный модуль потоковой обработки видео, который отслеживает видеопоток и определяет оптимальные моменты для взаимодействия. Как только взаимодействие инициируется, асинхронный модуль взаимодействия предоставляет детальные ответы, в то время как модуль обработки продолжает мониторинг видео. Наша разъединенная и асинхронная концепция обеспечивает своевременные, контекстно точные и вычислительно эффективные ответы, делая Dispider идеальным для активного взаимодействия в реальном времени с длительными видеопотоками. Эксперименты показывают, что Dispider не только поддерживает высокую производительность в традиционных задачах вопросов и ответов на видео, но и значительно превосходит предыдущие онлайн модели в ответах на сценарии потоковой передачи, тем самым подтверждая эффективность нашей архитектуры. Код и модель доступны по ссылке https://github.com/Mark12Ding/Dispider.

Персонализированный графовый поиск для больших языковых моделей
Personalized Graph-Based Retrieval for Large Language Models

Jan 4

BySteven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed

По мере развития больших языковых моделей (LLM) их способность предоставлять персонализированные и контекстно-ориентированные ответы предлагает трансформационный потенциал для улучшения пользовательских впечатлений. Однако существующие подходы к персонализации часто полагаются исключительно на историю пользователя для дополнения запроса, что ограничивает их эффективность в генерации настроенных выводов, особенно в сценариях холодного старта с ограниченными данными. Для преодоления этих ограничений мы предлагаем фреймворк Personalized Graph-based Retrieval-Augmented Generation (PGraphRAG), который использует графы знаний, ориентированные на пользователя, для обогащения персонализации. Путем прямого интегрирования структурированных знаний пользователя в процесс извлечения и дополнения запросов контекстом, релевантным для пользователя, PGraphRAG улучшает понимание контекста и качество вывода. Мы также представляем бенчмарк Personalized Graph-based для оценки задач генерации текста с учетом персонализации в реальных ситуациях, где история пользователя ограничена или недоступна. Экспериментальные результаты показывают, что PGraphRAG значительно превосходит современные методы персонализации на разнообразных задачах, демонстрируя уникальные преимущества графового извлечения для персонализации.

Законы масштабирования для обучения квантования с плавающей запятой
Scaling Laws for Floating Point Quantization Training

Jan 5

ByXingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang

Обучение с низкой точностью считается эффективной стратегией для снижения как затрат на обучение, так и затрат на вывод на следующем этапе. Предыдущие законы масштабирования для точности в основном сосредотачиваются на целочисленной квантизации, которая меньше обращает внимания на составляющие в квантизации с плавающей запятой и поэтому не могут хорошо соответствовать потерям в LLM в этом сценарии. В отличие от этого, хотя обучение с квантизацией с плавающей запятой чаще всего реализуется в производстве, исследования по этому вопросу были относительно поверхностными. В данной статье мы тщательно исследуем влияние целей квантизации с плавающей запятой, битов показателя, битов мантиссы и гранулярности вычисления коэффициента масштабирования на производительность обучения моделей LLM с квантизацией с плавающей запятой. Представляя точный единый закон масштабирования для квантизации с плавающей запятой, мы также предлагаем ценные рекомендации для сообщества: (1) Биты показателя вносят незначительно больший вклад в производительность модели, чем биты мантиссы. Мы предоставляем оптимальное соотношение битов показателя-мантиссы для различного количества битов, которое доступно для будущего использования производителями аппаратного обеспечения; (2) Мы обнаруживаем формирование критического размера данных при обучении LLM с низкой точностью. Слишком много обучающих данных, превышающих критический размер данных, приведет к обратному ухудшению производительности LLM; (3) Оптимальная точность квантизации с плавающей запятой прямо пропорциональна вычислительной мощности, но в широком диапазоне вычислительной мощности мы оцениваем, что лучшая точность с точки зрения соотношения стоимости и производительности находится между 4 и 8 битами.

TransPixar: Развитие генерации видео из текста с прозрачностью
TransPixar: Advancing Text-to-Video Generation with Transparency

Jan 6

ByLuozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen

Модели генерации видео по тексту значительно продвинулись, обеспечивая разнообразные применения в развлечениях, рекламе и образовании. Однако создание видео формата RGBA, включающего альфа-каналы для прозрачности, остается вызовом из-за ограниченных наборов данных и сложности адаптации существующих моделей. Альфа-каналы имеют важное значение для визуальных эффектов (VFX), позволяя прозрачным элементам, таким как дым и отражения, плавно сливаться с сценами. Мы представляем TransPixar, метод расширения предварительно обученных видео-моделей для генерации RGBA, сохраняя при этом исходные возможности RGB. TransPixar использует архитектуру диффузионного трансформера (DiT), включая альфа-специфичные токены и применяя FeLoRA для совместной генерации RGB и альфа-каналов с высокой последовательностью. Оптимизируя механизмы внимания, TransPixar сохраняет преимущества исходной RGB модели и достигает сильного соответствия между RGB и альфа-каналами несмотря на ограниченные данные обучения. Наш подход эффективно генерирует разнообразные и последовательные видео формата RGBA, расширяя возможности для визуальных эффектов и создания интерактивного контента.

МЕТАГЕН-1: Метагеномная модель основы для мониторинга пандемий
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Jan 3

ByOllie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger

Мы предварительно обучаем модель METAGENE-1, авторегрессивный трансформер с 7 миллиардами параметров, который мы называем метагеномной базовой моделью, на новом корпусе разнообразных метагеномных ДНК и РНК последовательностей, составляющих более 1,5 триллиона пар оснований. Этот набор данных взят из большой коллекции образцов человеческих сточных вод, обработанных и просеквенированных с использованием глубоких метагеномных (нового поколения) методов секвенирования. В отличие от геномных моделей, сосредотачивающихся на отдельных геномах или отобранных наборах конкретных видов, цель METAGENE-1 заключается в захвате полного распределения геномной информации, присутствующей в этих сточных водах, для помощи в задачах, связанных с мониторингом пандемий и обнаружением патогенов. Мы проводим токенизацию методом кодирования байт-пар (BPE) на нашем наборе данных, настроенную для метагеномных последовательностей, а затем предварительно обучаем нашу модель. В данной статье мы подробно описываем набор данных для предварительного обучения, стратегию токенизации и архитектуру модели, выделяя соображения и выборы дизайна, обеспечивающие эффективное моделирование метагеномных данных. Затем мы показываем результаты предварительного обучения этой модели на нашем метагеномном наборе данных, предоставляя детали наших потерь, метрик системы и стабильности обучения на протяжении предварительного обучения. Наконец, мы демонстрируем производительность METAGENE-1, достигающую передовых результатов на наборе геномных бенчмарков и новых оценок, сосредоточенных на обнаружении человека-патогена и встраивании геномных последовательностей, показывая ее потенциал для общественного здравоохранения в мониторинге пандемий, биосуравейлансе и раннем обнаружении новых угроз здоровью.

Через маску: траектории движения на основе маски для генерации изображения в видеоформат.
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Jan 6

ByGuy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak

Мы рассматриваем задачу генерации изображения в видео (Image-to-Video, I2V), которая включает в себя преобразование статических изображений в реалистичные видеопоследовательности на основе текстового описания. В то время как недавние достижения производят фотореалистичные результаты, они часто испытывают затруднения в создании видео с точным и последовательным движением объектов, особенно в сценариях с несколькими объектами. Для решения этих ограничений мы предлагаем двухэтапную композиционную структуру, которая декомпозирует генерацию I2V на: (i) Этап генерации явного промежуточного представления, за которым следует (ii) Этап генерации видео, который зависит от этого представления. Нашим ключевым новшеством является введение траектории движения на основе маски в качестве промежуточного представления, которая захватывает как семантическую информацию об объекте, так и движение, обеспечивая выразительное, но компактное представление движения и семантики. Для интеграции изученного представления на втором этапе мы используем объектно-ориентированные цели внимания. Конкретно, мы рассматриваем пространственную, по объектам, маскированную кросс-внимательность, интегрируя объектно-специфические подсказки в соответствующие области латентного пространства, и маскированную пространственно-временную самовнимательность, обеспечивая последовательность кадра к кадру для каждого объекта. Мы оцениваем наш метод на сложных бенчмарках с сценариями множественных объектов и высоким движением и эмпирически демонстрируем, что предложенный метод достигает лучших результатов во временной согласованности, реализме движения и верности текстовой подсказке. Кроме того, мы представляем \benchmark, новый сложный бенчмарк для генерации I2V с одиночным объектом и множественными объектами, и демонстрируем превосходство нашего метода на этом бенчмарке. Страница проекта доступна по адресу https://guyyariv.github.io/TTM/.

Auto-RT: Автоматическое исследование стратегий для взлома для красной команды больших языковых моделей
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Jan 3

ByYanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun

Автоматизированное красное тестирование стало ключевым подходом для выявления уязвимостей в больших языковых моделях (LLM). Однако большинство существующих методов сосредоточены на изолированных проблемах безопасности, что ограничивает их способность адаптироваться к динамическим защитам и эффективно выявлять сложные уязвимости. Для решения этой проблемы мы предлагаем Auto-RT, фреймворк обучения с подкреплением, который автоматически исследует и оптимизирует сложные стратегии атак для эффективного выявления уязвимостей безопасности через злонамеренные запросы. В частности, мы вводим два ключевых механизма для уменьшения сложности исследования и улучшения оптимизации стратегии: 1) Раннее прерывание исследования, ускоряющее исследование за счет фокусировки на стратегиях атак с высоким потенциалом; и 2) Алгоритм прогрессивного отслеживания вознаграждения с промежуточными моделями понижения, который динамически уточняет траекторию поиска к успешной эксплуатации уязвимости. Обширные эксперименты с различными LLM показывают, что благодаря значительному улучшению эффективности исследования и автоматической оптимизации стратегий атак, Auto-RT обнаруживает более широкий спектр уязвимостей, достигая более быстрой скорости обнаружения и на 16,63\% более высоких показателей успешности по сравнению с существующими методами.

GS-DiT: Развитие генерации видео с псевдо 4D гауссовыми полями через эффективное плотное трехмерное отслеживание точек.
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Jan 5

ByWeikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li

Управление видео в 4D является неотъемлемым элементом в генерации видео, поскольку оно позволяет использовать сложные техники объективов, такие как съемка с нескольких камер и эффект долли-зум, которые в настоящее время не поддерживаются существующими методами. Обучение трансформера диффузии видео (DiT) напрямую для управления 4D контентом требует дорогостоящих видео с множественными видами. Вдохновленные методом монокулярного динамического синтеза нового вида (MDVS), который оптимизирует 4D представление и визуализирует видео в соответствии с различными 4D элементами, такими как поза камеры и редактирование движения объекта, мы вводим псевдо 4D гауссовы поля в генерацию видео. Конкретно, мы предлагаем новую структуру, которая создает псевдо 4D гауссово поле с плотным трекингом 3D точек и визуализирует гауссово поле для всех кадров видео. Затем мы дообучаем предварительно обученный DiT для генерации видео в соответствии с руководством визуализированного видео, названного GS-DiT. Для улучшения обучения GS-DiT мы также предлагаем эффективный метод плотного трекинга 3D точек (D3D-PT) для создания псевдо 4D гауссового поля. Наш D3D-PT превосходит SpatialTracker, передовой метод разреженного трекинга 3D точек, по точности и ускоряет скорость вывода на два порядка. Во время этапа вывода GS-DiT может генерировать видео с тем же динамическим контентом, соблюдая различные параметры камеры, что решает значительное ограничение текущих моделей генерации видео. GS-DiT демонстрирует сильные обобщающие способности и расширяет возможности управления 4D гауссовым сплэттингом в генерации видео за пределы просто поз камеры. Он поддерживает продвинутые кинематографические эффекты через манипуляции гауссовым полем и внутренностями камеры, что делает его мощным инструментом для творческого производства видео. Демонстрации доступны по ссылке https://wkbian.github.io/Projects/GS-DiT/.

DepthMaster: Подчинение моделей диффузии для монокулярной оценки глубины
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Jan 5

ByZiyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

Оценка монокулярной глубины в рамках парадигмы диффузионного шумоподавления демонстрирует впечатляющую способность к обобщению, но страдает от низкой скорости вывода. Недавние методы принимают одношаговую детерминированную парадигму для улучшения эффективности вывода, сохраняя при этом сопоставимую производительность. Однако они не учитывают разрыв между генеративными и дискриминативными признаками, что приводит к неоптимальным результатам. В данной работе мы предлагаем DepthMaster, одношаговую модель диффузии, разработанную для адаптации генеративных признаков для задачи дискриминативной оценки глубины. Во-первых, для смягчения переобучения на текстурные детали, внесенные генеративными признаками, мы предлагаем модуль выравнивания признаков, который включает высококачественные семантические признаки для улучшения способности сети шумоподавления к представлению. Во-вторых, для решения недостатка деталей с мелкой структурой в одношаговой детерминированной структуре мы предлагаем модуль улучшения Фурье для адаптивного балансирования низкочастотной структуры и высокочастотных деталей. Мы используем двухэтапную стратегию обучения для полного использования потенциала двух модулей. На первом этапе мы сосредотачиваемся на изучении глобальной структуры сцены с помощью модуля выравнивания признаков, а на втором этапе используем модуль улучшения Фурье для улучшения визуального качества. Благодаря этим усилиям наша модель достигает передовой производительности в плане обобщения и сохранения деталей, превосходя другие методы на основе диффузии на различных наборах данных. Нашу страницу проекта можно найти по адресу https://indu1ge.github.io/DepthMaster_page.

PRMBench: Точный и сложный бенчмарк для моделей вознаграждения на уровне процесса
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Jan 6

ByMingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng

Модели вознаграждения на уровне процесса (PRM) являются ключевыми для выполнения сложных задач рассуждения и принятия решений, где каждый промежуточный шаг играет важную роль в процессе рассуждения. Поскольку языковые модели подвержены различным типам ошибок во время процесса рассуждения, PRM должны обладать тонкими способностями для обнаружения различных неявных типов ошибок в реальных сценариях. Однако текущие бенчмарки в основном сосредотачиваются на правильности шагов, не оценивая систематически производительность PRM. Для заполнения этого пробела мы представляем PRMBench, бенчмарк на уровне процесса, специально разработанный для оценки способностей обнаружения тонких ошибок PRM. PRMBench включает в себя 6 216 тщательно разработанных задач и 83 456 меток на уровне шага, оценивающих модели по нескольким измерениям, включая простоту, обоснованность и чувствительность. В наших экспериментах на 15 моделях, охватывающих как открытые PRM, так и закрытые большие языковые модели, представленные в качестве моделей-критиков, мы выявляем значительные слабые места в текущих PRM. Эти результаты подчеркивают сложности, присущие оценке на уровне процесса, и выделяют ключевые направления для будущих исследований. Мы надеемся, что PRMBench может стать надежным инструментом для продвижения исследований в области оценки и развития PRM.

ToolHop: Запросоориентированная метрика для оценки крупных языковых моделей в использовании инструментов с множественными шагами.
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Jan 5

ByJunjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen

Эффективная оценка использования многошаговых инструментов является критически важной для анализа понимания, рассуждений и возможностей вызова функций больших языковых моделей (БЯМ). Однако прогресс затрудняется из-за отсутствия надежных наборов данных для оценки. Для решения этой проблемы мы представляем ToolHop, набор данных, включающий 995 пользовательских запросов и 3 912 связанных инструментов, специально разработанный для строгой оценки использования многошаговых инструментов. ToolHop обеспечивает разнообразные запросы, значимые взаимосвязи, локально исполняемые инструменты, подробную обратную связь и проверяемые ответы благодаря новому подходу к построению данных на основе запросов, который включает создание инструментов, уточнение документов и генерацию кода. Мы оцениваем 14 БЯМ из пяти семейств моделей (т.е. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 и GPT), выявляя значительные вызовы в обработке сценариев использования многошаговых инструментов. Ведущая модель, GPT-4o, достигает точности 49,04%, подчеркивая значительное пространство для улучшений. Дальнейший анализ показывает различия в стратегиях использования инструментов для различных семейств, предлагая действенные идеи для направления разработки более эффективных подходов. Код и данные можно найти на https://huggingface.co/bytedance-research/ToolHop.

AutoPresent: Создание структурированных визуальных элементов с нуля
AutoPresent: Designing Structured Visuals from Scratch

Jan 1

ByJiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell

Дизайн структурированных визуальных материалов, таких как слайды презентаций, является неотъемлемым элементом коммуникативных потребностей, требующим как навыков создания контента, так и визуального планирования. В данной работе мы решаем задачу автоматизированной генерации слайдов, где модели создают презентации на основе естественного языка (ЕЯ). Сначала мы представляем бенчмарк SlidesBench, первый бенчмарк для генерации слайдов с 7 тыс. обучающими и 585 тестовыми примерами, полученными из 310 коллекций слайдов по 10 областям. SlidesBench поддерживает оценку, которая (i) основана на референсах для измерения сходства с целевым слайдом, и (ii) без референсов для измерения качества дизайна сгенерированных слайдов самостоятельно. Мы проводим оценку методов генерации изображений и программ с использованием различных моделей и обнаруживаем, что программные методы создают слайды более высокого качества в форматах, с которыми пользователь может взаимодействовать. Основываясь на успехе генерации программ, мы создаем AutoPresent - модель на основе 8B Llama, обученную на 7 тыс. пар инструкций, сопоставленных с кодом для генерации слайдов, и достигаем результатов, сравнимых с закрытой моделью GPT-4o. Мы также исследуем итеративное улучшение дизайна, где модель обязана самостоятельно улучшать свой собственный вывод, и обнаруживаем, что этот процесс повышает качество слайда. Мы надеемся, что наша работа послужит основой для будущих исследований по созданию структурированных визуальных материалов.

Samba-asr - это передовая система распознавания речи, использующая структурированные модели пространства состояний.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Jan 6

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Мы предлагаем Samba ASR, первую передовую модель автоматического распознавания речи (ASR), использующую новую архитектуру Mamba как кодер и декодер, построенную на основе моделей пространства состояний (SSM). В отличие от моделей ASR на основе трансформеров, которые полагаются на механизмы самовнимания для улавливания зависимостей, Samba ASR эффективно моделирует как локальные, так и глобальные временные зависимости, используя эффективную динамику пространства состояний, достигая заметного повышения производительности. Решая ограничения трансформеров, такие как квадратичное масштабирование по длине ввода и сложности в обработке дальних зависимостей, Samba ASR достигает превосходной точности и эффективности. Экспериментальные результаты показывают, что Samba ASR превосходит существующие модели ASR на основе трансформеров с открытым исходным кодом по различным стандартным бенчмаркам, утверждаясь как новый золотой стандарт в области ASR. Обширные оценки на бенчмарках показывают значительное улучшение в показателях ошибок слов (WER), обеспечивая конкурентоспособную производительность даже в условиях ограниченных ресурсов. Более того, вычислительная эффективность и оптимизация параметров архитектуры Mamba делают Samba ASR масштабируемым и надежным решением для различных задач ASR. Наши вклады включают: новую архитектуру Samba ASR, демонстрирующую превосходство SSM над моделями на основе трансформеров для обработки речевых последовательностей. Комплексную оценку на общедоступных бенчмарках, демонстрирующую передовую производительность. Анализ вычислительной эффективности, устойчивости к шуму и обобщения последовательностей. Эта работа подчеркивает жизнеспособность Mamba SSM как альтернативы без трансформеров для эффективного и точного ASR. Используя преимущества моделирования пространства состояний, Samba ASR устанавливает новый стандарт производительности ASR и будущих исследований.

Ингредиенты: Смешивание индивидуальных фотографий с видео трансформерами диффузии.
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Jan 3

ByZhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan

Данный доклад представляет мощную структуру для настройки создания видео путем интеграции нескольких конкретных фотографий идентификации (ID) с видео-трансформерами, называемыми Ингредиентами. В общем, наш метод состоит из трех основных модулей: (i) экстрактора лица, который захватывает универсальные и точные черты лица для каждого человеческого ID с глобальной и локальной перспективы; (ii) многомасштабного проектора, который отображает вложения лица в контекстное пространство запроса изображения в видео-трансформерах; (iii) маршрутизатора ID, который динамически объединяет и распределяет несколько вложений ID в соответствующие пространственно-временные области. Используя тщательно подготовленный набор данных текста-видео и многоступенчатый протокол обучения, Ингредиенты демонстрируют превосходную производительность в превращении пользовательских фотографий в динамичное и персонализированное видео-содержимое. Качественные оценки подчеркивают преимущества предложенного метода, позиционируя его как значительное достижение в направлении более эффективных инструментов управления генеративным видео на основе архитектуры на основе трансформеров по сравнению с существующими методами. Данные, код и веса модели доступны публично по ссылке: https://github.com/feizc/Ingredients.

Автоматическое создание сложных тестовых вопросов с выбором ответа для оценки моделей обработки зрительной информации и языка.
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Jan 6

ByYuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy

Быстрое развитие моделей визуально-языкового восприятия (VLM) требует строгой и надежной оценки. Однако текущие бенчмарки визуального вопросно-ответного моделирования (VQA) часто зависят от открытых вопросов, что затрудняет точную оценку из-за изменчивости ответов на естественном языке. Для решения этой проблемы мы представляем AutoConverter, агентный фреймворк, который автоматически преобразует эти открытые вопросы в формат с выбором ответов, обеспечивая объективную оценку и сокращая затратный процесс создания вопросов. Наши эксперименты показывают, что AutoConverter способен генерировать правильные и сложные вопросы с выбором ответов, при этом VLM демонстрируют постоянно сходную или более низкую точность на этих вопросах по сравнению с вопросами, созданными людьми. Используя AutoConverter, мы создаем VMCBench, бенчмарк, созданный путем преобразования 20 существующих наборов данных VQA в унифицированный формат с выбором ответов, включающий 9 018 вопросов. Мы комплексно оцениваем 33 передовых моделей VLM на VMCBench, устанавливая новый стандарт для масштабной, последовательной и воспроизводимой оценки моделей VLM.

ProTracker: Вероятностное интегрирование для надежного и точного отслеживания точек
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Jan 6

ByTingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu

В данной статье мы предлагаем ProTracker, новую концепцию для надежного и точного долгосрочного плотного отслеживания произвольных точек на видео. Основная идея нашего метода заключается в интеграции вероятностного подхода для уточнения нескольких прогнозов как на основе оптического потока, так и семантических признаков для надежного отслеживания как в короткой, так и в долгосрочной перспективе. Конкретно, мы интегрируем оценки оптического потока вероятностным образом, что позволяет создавать плавные и точные траектории путем максимизации правдоподобия каждого прогноза. Для эффективной релокализации сложных точек, которые исчезают и появляются из-за заслонения, мы также включаем долгосрочную соответственность признаков в наши прогнозы оптического потока для непрерывной генерации траекторий. Обширные эксперименты показывают, что ProTracker достигает передовых показателей среди методов без учителя и методов с автономным обучением, и даже превосходит методы с учителем на нескольких тестовых наборах данных. Наш код и модель будут общедоступны после публикации.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

STAR: Пространственно-временное увеличение с помощью моделей текста-видео для суперразрешения видео в реальном мире.
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Jan 6

ByRui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai

Вычисления во время тестирования: от мышления системы-1 к мышлению системы-2
Test-time Computing: from System-1 Thinking to System-2 Thinking

Jan 5

ByYixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang

BoostStep: Повышение математических возможностей больших языковых моделей с помощью улучшенного одношагового рассуждения
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Jan 6

ByBeichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang

Диспайдер: Обеспечение видео LLM с активным взаимодействием в реальном времени через декоррелированное восприятие, принятие решений и реакцию.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Jan 6

ByRui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Персонализированный графовый поиск для больших языковых моделей
Personalized Graph-Based Retrieval for Large Language Models

Jan 4

BySteven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed

Законы масштабирования для обучения квантования с плавающей запятой
Scaling Laws for Floating Point Quantization Training

Jan 5

ByXingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang

TransPixar: Развитие генерации видео из текста с прозрачностью
TransPixar: Advancing Text-to-Video Generation with Transparency

Jan 6

ByLuozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen

МЕТАГЕН-1: Метагеномная модель основы для мониторинга пандемий
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Jan 3

ByOllie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger

Через маску: траектории движения на основе маски для генерации изображения в видеоформат.
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Jan 6

ByGuy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak

Auto-RT: Автоматическое исследование стратегий для взлома для красной команды больших языковых моделей
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Jan 3

ByYanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun

GS-DiT: Развитие генерации видео с псевдо 4D гауссовыми полями через эффективное плотное трехмерное отслеживание точек.
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Jan 5

ByWeikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li

DepthMaster: Подчинение моделей диффузии для монокулярной оценки глубины
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Jan 5

ByZiyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

PRMBench: Точный и сложный бенчмарк для моделей вознаграждения на уровне процесса
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Jan 6

ByMingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng

ToolHop: Запросоориентированная метрика для оценки крупных языковых моделей в использовании инструментов с множественными шагами.
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Jan 5

ByJunjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen

AutoPresent: Создание структурированных визуальных элементов с нуля
AutoPresent: Designing Structured Visuals from Scratch

Jan 1

ByJiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell

Samba-asr - это передовая система распознавания речи, использующая структурированные модели пространства состояний.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Jan 6

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Ингредиенты: Смешивание индивидуальных фотографий с видео трансформерами диффузии.
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Jan 3

ByZhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan

Автоматическое создание сложных тестовых вопросов с выбором ответа для оценки моделей обработки зрительной информации и языка.
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Jan 6

ByYuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy

ProTracker: Вероятностное интегрирование для надежного и точного отслеживания точек
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Jan 6

ByTingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu