Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет SageAttention2: Точное внимание на 4 бита для ускорения вывода "включи и играй".
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

Nov 17

ByJintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen

Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц 8-битным способом, умножение матриц 16 бит с 16-битным аккумулятором и методы увеличения точности, реализуя точное и ускоренное ядро в 2 раза по сравнению с FlashAttention2. Для дальнейшего увеличения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц 4 бит (Matmul) вместе с дополнительными методами увеличения точности. Во-первых, мы предлагаем квантовать матрицы (Q, K) в INT4 с гранулярностью на уровне warp и квантовать матрицы (widetilde P, V) в FP8. Во-вторых, мы предлагаем метод сглаживания Q и V, улучшая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно в 3 и 5 раз соответственно на RTX4090. Обширные эксперименты подтверждают, что наш подход вызывает незначительные потери метрик от начала до конца по различным моделям, включая модели для обработки больших объемов языковых данных, генерации изображений и видео. Коды доступны по адресу https://github.com/thu-ml/SageAttention.

VBench++: Обширный и универсальный набор тестов для видео генеративных моделей.
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models

Nov 20

ByZiqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu

Генерация видео пережила значительные прорывы, однако оценка этих моделей остается вызовом. Комплексный бенчмарк для оценки генерации видео необходим по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна предоставлять понимание для будущего развития генерации видео. В этом контексте мы представляем VBench, комплексный набор бенчмарков, который разбивает "качество генерации видео" на конкретные, иерархические и разделенные измерения, каждое с индивидуальными подсказками и методами оценки. VBench обладает несколькими привлекательными свойствами: 1) Комплексные Измерения: VBench включает 16 измерений в генерации видео (например, несоответствие идентификации объекта, плавность движения, временные мерцания и пространственные отношения и т. д.). Метрики оценки с детализированными уровнями раскрывают сильные и слабые стороны отдельных моделей. 2) Соответствие Человеку: Мы также предоставляем набор данных аннотаций предпочтений людей для проверки соответствия наших бенчмарков человеческому восприятию для каждого измерения оценки соответственно. 3) Ценные Инсайты: Мы изучаем способности текущих моделей по различным измерениям оценки и различным типам контента. Мы также исследуем разрывы между моделями генерации видео и изображений. 4) Универсальное Тестирование: VBench++ поддерживает оценку текста-видео и изображения-видео. Мы представляем высококачественный Набор Изображений с адаптивным соотношением сторон для обеспечения справедливых оценок в различных настройках генерации изображения в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более глобальное представление о производительности модели. 5) Полное Открытие: Мы полностью открываем исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинговый список для продвижения области генерации видео.

VideoAutoArena: Автоматизированная арена для оценки больших мультимодальных моделей в анализе видео через симуляцию пользователей
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

Nov 20

ByZiyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li

Большие мультимодальные модели (LMM) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок полагаются на традиционные методы, такие как вопросы с множественным выбором в бенчмарках, таких как VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для улавливания сложных требований реальных пользователей. Для преодоления этого ограничения, а также из-за высокой стоимости и медленного темпа человеческой аннотации для видео задач, мы представляем VideoAutoArena - бенчмарк в стиле арены, вдохновленный фреймворком LMSYS Chatbot Arena, разработанный для автоматической оценки способностей LMM в анализе видео. VideoAutoArena использует симуляцию пользователей для генерации открытых, адаптивных вопросов, которые строго оценивают производительность модели в понимании видео. Бенчмарк представляет собой автоматизированный, масштабируемый фреймворк оценки, включающий модифицированную систему рейтинга ELO для справедливого и непрерывного сравнения между несколькими LMM. Для проверки нашей автоматизированной системы судейства мы создаем "золотой стандарт", используя тщательно отобранный поднабор человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению, сохраняя при этом масштабируемость. Кроме того, мы представляем стратегию эволюции, основанную на ошибках, постепенно увеличивая сложность вопросов, чтобы стимулировать модели к обработке более сложных сценариев анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает среди современных LMM, предоставляя понимание сильных сторон модели и областей для улучшения. Для дальнейшего упрощения нашей оценки мы представляем VideoAutoBench как вспомогательный бенчмарк, где человеческие аннотаторы помечают победителей в подмножестве битв VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими подтвержденными человеком ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономичный и масштабируемый фреймворк для оценки LMM в анализе видео, ориентированном на пользователя.

SAMURAI: Адаптация модели Segment Anything для нулевой визуальной трекинговой системы с учетом движения-зависимой памяти.
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Nov 18

ByCheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang

Модель Segment Anything Model 2 (SAM 2) продемонстрировала высокую производительность в задачах сегментации объектов, но столкнулась с вызовами в визуальном отслеживании объектов, особенно при работе с переполненными сценами с быстро движущимися или само-закрывающимися объектами. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для условия признаков изображения для следующего кадра, что приводит к распространению ошибок в видеороликах. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Путем интеграции временных признаков движения с предложенным механизмом выбора памяти, учитывающим движение, SAMURAI эффективно предсказывает движение объекта и улучшает выбор маски, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность на нулевом обучении на различных наборах данных, показывая свою способность к обобщению без настройки. В оценках SAMURAI достигает значительного улучшения в показателях успешности и точности по сравнению с существующими трекерами, с приростом AUC на 7.1% на LaSOT_{ext} и AO на 3.5% на GOT-10k. Более того, он достигает конкурентоспособных результатов по сравнению с полностью надзираемыми методами на LaSOT, подчеркивая его устойчивость в сложных сценариях отслеживания и потенциал для применения в реальных условиях в динамичных средах. Код и результаты доступны по ссылке https://github.com/yangchris11/samurai.

Когда точность встречает позицию: BFloat16 разрушает RoPE в обучении с длинным контекстом.
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Nov 20

ByHaonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang

Увеличение размеров окна контекста позволяет крупным языковым моделям (LLM) обрабатывать более длинные последовательности и решать более сложные задачи. Поворотное позиционное вложение (RoPE) стало фактическим стандартом благодаря своим относительным свойствам кодирования позиций, которые полезны для обучения на длинных контекстах. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, вызывая отклонение от заданного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается с увеличением длины контекста, причем первый токен значительно способствует этой проблеме. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention снижает ненужные вычисления внимания, сохраняет семантическую связность и повышает вычислительную эффективность, рассматривая первый токен как общий якорь с постоянным идентификатором позиции, делая его видимым для всех документов в пределах обучающего контекста. Эксперименты на трех типах LLM показывают, что AnchorAttention значительно улучшает производительность на длинных контекстах и сокращает время обучения более чем на 50\% по сравнению со стандартными механизмами полного внимания, сохраняя при этом возможности исходной LLM по общим задачам. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.

Является ли ваш LLM тайным мировой моделью Интернета? Модельное планирование для веб-агентов.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Nov 10

ByYu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su

Языковые агенты продемонстрировали многообещающие возможности в автоматизации задач веб-ориентированных, однако их текущие реактивные подходы все еще значительно уступают по сравнению с людьми. Внедрение передовых алгоритмов планирования, в частности методов поиска дерева, может улучшить производительность этих агентов, однако прямая реализация поиска дерева на живых веб-сайтах представляет существенные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В данной статье мы представляем новую парадигму, которая дополняет языковых агентов модельным планированием, открывая инновационное применение больших языковых моделей (LLM) в качестве моделей мира в сложных веб-средах. Наш метод, WebDreamer, основан на ключевом умозаключении, что LLM интегрируют в себе всесторонние знания о структурах и функциональности веб-сайтов. Конкретно, WebDreamer использует LLM для моделирования результатов для каждого кандидатского действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, а затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух представительных бенчмарках веб-агентов с онлайн-взаимодействием - VisualWebArena и Mind2Web-live - показывают, что WebDreamer достигает существенных улучшений по сравнению с реактивными базовыми значениями. Установив жизнеспособность LLM в качестве моделей мира в веб-средах, данная работа заложила основу для парадигмального изменения в автоматизированном взаимодействии с веб-сайтами. Более широко, наши результаты открывают захватывающие новые перспективы для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) модельного спекулятивного планирования для языковых агентов.

Стилькоды: Кодирование стилевой информации для генерации изображений
Stylecodes: Encoding Stylistic Information For Image Generation

Nov 19

ByCiara Rowles

Диффузионные модели отлично справляются с генерацией изображений, но их управление остается вызовом. Мы сосредотачиваемся на проблеме генерации изображений с учетом стиля. Хотя примеры изображений работают, они неудобны: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в коротком числовом коде. Они получили широкое распространение в социальных сетях благодаря легкости обмена и возможности использования изображения для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут создавать srefs из своих собственных изображений, и процедура обучения не является общедоступной. Мы предлагаем StyleCodes: архитектуру кодировщика стиля и процедуру обучения с открытым исходным кодом и исследованиями для выражения стиля изображения в виде кода base64 из 20 символов. Наши эксперименты показывают, что наше кодирование приводит к минимальным потерям качества по сравнению с традиционными техниками преобразования изображения в стиль.

ViBe: Набор данных Text-to-Video для оценки галлюцинаций в крупных мультимодальных моделях
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Nov 16

ByVipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das

Последние достижения в области крупных мультимодальных моделей (LMM) расширили их возможности, включая понимание видео. В частности, модели текста-к-видео (T2V) значительно продвинулись в качестве, понимании и продолжительности, превосходя в создании видео из простых текстовых подсказок. Однако они по-прежнему часто производят галлюцинационный контент, который явно указывает на то, что видео создано искусственным интеллектом. Мы представляем ViBe: крупномасштабный бенчмарк текста-к-видео для галлюцинационных видео от моделей T2V. Мы выделяем пять основных типов галлюцинаций: Исчезающий Субъект, Числовая Вариабельность, Временная Дисморфия, Ошибка Пропуска и Физическая Несоответственность. Используя 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных галлюцинационных видео, включающий 3 782 видео, размеченных людьми по этим пяти категориям. ViBe предлагает уникальный ресурс для оценки надежности моделей T2V и является основой для улучшения обнаружения и уменьшения галлюцинаций в генерации видео. Мы устанавливаем классификацию как базовую и представляем различные конфигурации ансамблевых классификаторов, с комбинацией TimeSFormer + CNN, обеспечивающей лучшую производительность, достигая точности 0,345 и F1-меры 0,342. Этот бенчмарк направлен на развитие надежных моделей T2V, которые создают видео более точно соответствующие входным подсказкам.

Прогнозирование потерь-по-потерям: законы масштабирования для всех наборов данных
Loss-to-Loss Prediction: Scaling Laws for All Datasets

Nov 19

ByDavid Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade

Хотя законы масштабирования обеспечивают надежную методологию для прогнозирования потерь обучения при изменении масштабов вычислений для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию прогнозирования одной потери на основе другой и применяем ее для прогнозирования при использовании различных наборов данных для предварительного обучения и от предварительного обучения к данным для последующих задач. Наши прогнозы хорошо экстраполируются даже при бюджете FLOP, превышающем в 20 раз самый большой использованный для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные закономерности между (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели объединены по вычислительным ресурсам (обучение-обучение), (2) потерей обучения и потерей на тесте на любом последующем распределении для одной модели (обучение-тест), и (3) потерями на тесте двух моделей, обученных на двух разных наборах данных для обучения (тест-тест). Полученные результаты подтверждаются для наборов данных для предварительного обучения, значительно отличающихся друг от друга (некоторые состоят исключительно из кода, а другие вообще не содержат кода), а также для различных последующих задач. Наконец, мы обнаружили, что в некоторых случаях эти сдвинутые степенные закономерности могут обеспечить более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.

Генерация композиционных сцен с помощью текстово-изображенной генерации экземпляров RGBA.
Generating Compositional Scenes via Text-to-image RGBA Instance Generation

Nov 16

ByAlessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot

Модели генерации изображений на основе диффузии могут создавать изображения высокого качества за счет тщательной инженерии подсказок. Управляемость можно улучшить, внедрив условие компоновки, однако существующие методы лишены возможности редактирования компоновки и тонкой настройки атрибутов объектов. Концепция многослойной генерации имеет большой потенциал для преодоления этих ограничений, однако одновременная генерация изображений и композиция сцены ограничивает контроль над тонкой настройкой атрибутов объектов, их относительным расположением в 3D-пространстве и возможностями манипулирования сценой. В данной работе мы предлагаем новую парадигму многоэтапной генерации, разработанную для тонкого контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров мы разрабатываем новую парадигму обучения для адаптации модели диффузии к генерации изолированных компонентов сцены в виде изображений RGBA с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и внедряем процесс многослойной композитной генерации, который плавно собирает компоненты в реалистичных сценах. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями из очень сложных подсказок с тонким контролем над внешним видом и расположением объектов, обеспечивая более высокий уровень контроля по сравнению с конкурирующими методами.

ORID: Органо-региональная информационно-ориентированная структура для создания радиологических отчетов
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation

Nov 20

ByTiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai

Цель создания отчетов в радиологии (Radiology Report Generation, RRG) заключается в автоматическом формировании связных текстовых анализов заболеваний на основе радиологических изображений, тем самым снижая нагрузку на радиологов. Существующие методы RRG на основе искусственного интеллекта в основном сосредотачиваются на модификациях архитектуры модели кодера-декодера. Для продвижения этих подходов в данной статье представляется фреймворк Органно-Регионально-Информационно-Ориентированный (Organ-Regional Information Driven, ORID), который эффективно может интегрировать мультимодальную информацию и уменьшить влияние шума от несвязанных органов. Конкретно, на основе LLaVA-Med мы сначала создаем набор данных с инструкциями, связанными с RRG, для улучшения способности описания диагностики органов и регионов и получаем LLaVA-Med-RRG. Затем мы предлагаем модуль фьюжн мультимодальной информации на основе органов для эффективного объединения информации из описания диагностики органов и регионов и радиологического изображения. Для дальнейшего уменьшения влияния шума от несвязанных органов на генерацию радиологического отчета мы представляем модуль анализа коэффициента важности органов, который использует Графовую Нейронную Сеть (Graph Neural Network, GNN) для изучения взаимосвязей мультимодальной информации каждого органа. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходное качество работы нашего предложенного метода.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет SageAttention2: Точное внимание на 4 бита для ускорения вывода "включи и играй".
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

Nov 17

ByJintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen

VBench++: Обширный и универсальный набор тестов для видео генеративных моделей.
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models

Nov 20

VideoAutoArena: Автоматизированная арена для оценки больших мультимодальных моделей в анализе видео через симуляцию пользователей
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

Nov 20

ByZiyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li

SAMURAI: Адаптация модели Segment Anything для нулевой визуальной трекинговой системы с учетом движения-зависимой памяти.
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Nov 18

ByCheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang

Когда точность встречает позицию: BFloat16 разрушает RoPE в обучении с длинным контекстом.
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Nov 20

ByHaonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang

Является ли ваш LLM тайным мировой моделью Интернета? Модельное планирование для веб-агентов.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Nov 10

ByYu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su

Стилькоды: Кодирование стилевой информации для генерации изображений
Stylecodes: Encoding Stylistic Information For Image Generation

Nov 19

ByCiara Rowles

ViBe: Набор данных Text-to-Video для оценки галлюцинаций в крупных мультимодальных моделях
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Nov 16

ByVipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das

Прогнозирование потерь-по-потерям: законы масштабирования для всех наборов данных
Loss-to-Loss Prediction: Scaling Laws for All Datasets

Nov 19

ByDavid Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade

Генерация композиционных сцен с помощью текстово-изображенной генерации экземпляров RGBA.
Generating Compositional Scenes via Text-to-image RGBA Instance Generation

Nov 16

ByAlessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot

ORID: Органо-региональная информационно-ориентированная структура для создания радиологических отчетов
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation

Nov 20

ByTiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai