Ежедневно отобранные исследовательские статьи по ИИ с переводами
По мере масштабирования языковых моделей, Большие Языковые Модели (LLM) проявляют возрастающие возможности в Обучении в Контексте (ICL), что позволяет им решать языковые задачи, добавляя несколько демонстраций в контексте (ICD) в качестве контекста. Вдохновленные этими достижениями, исследователи расширили эти техники для разработки Больших Мультимодальных Моделей (LMM) с возможностями ICL. Однако существующие LMM сталкиваются с критической проблемой: они часто не могут эффективно использовать визуальный контекст в мультимодальных демонстрациях и вместо этого просто следуют текстовым шаблонам. Это указывает на то, что LMM не достигают эффективного соответствия между мультимодальными демонстрациями и выходами модели. Для решения этой проблемы мы предлагаем Оптимизацию Прямого Предпочтения Символов в Демонстрациях (SymDPO). Конкретно, SymDPO нацелено на изменение традиционной парадигмы построения мультимодальных демонстраций путем замены текстовых ответов в примерах случайными символами. Это заставляет модель внимательно понимать изображения демонстрации и устанавливать связь между изображениями и символами для правильного ответа на вопросы. Мы подтверждаем эффективность этого метода на нескольких бенчмарках, показывая, что с SymDPO LMM могут более эффективно понимать мультимодальный контекст в примерах и использовать это знание для лучшего ответа на вопросы.
Хотя квантование для линейных слоев широко используется, его применение для ускорения процесса внимания остается ограниченным. SageAttention использует умножение матриц 8-битным способом, умножение матриц 16 бит с 16-битным аккумулятором и методы увеличения точности, реализуя точное и ускоренное ядро в 2 раза по сравнению с FlashAttention2. Для дальнейшего увеличения эффективности вычислений внимания при сохранении точности мы предлагаем SageAttention2, который использует значительно более быстрое умножение матриц 4 бит (Matmul) вместе с дополнительными методами увеличения точности. Во-первых, мы предлагаем квантовать матрицы (Q, K) в INT4 с гранулярностью на уровне warp и квантовать матрицы (widetilde P, V) в FP8. Во-вторых, мы предлагаем метод сглаживания Q и V, улучшая точность внимания с INT4 QK и FP8 PV. В-третьих, мы анализируем точность квантования по временным шагам и слоям, затем предлагаем адаптивный метод квантования для обеспечения метрик от начала до конца по различным моделям. Операции в секунду (OPS) SageAttention2 превосходят FlashAttention2 и xformers примерно в 3 и 5 раз соответственно на RTX4090. Обширные эксперименты подтверждают, что наш подход вызывает незначительные потери метрик от начала до конца по различным моделям, включая модели для обработки больших объемов языковых данных, генерации изображений и видео. Коды доступны по адресу https://github.com/thu-ml/SageAttention.
Генерация видео пережила значительные прорывы, однако оценка этих моделей остается вызовом. Комплексный бенчмарк для оценки генерации видео необходим по двум причинам: 1) Существующие метрики не полностью соответствуют человеческому восприятию; 2) Идеальная система оценки должна предоставлять понимание для будущего развития генерации видео. В этом контексте мы представляем VBench, комплексный набор бенчмарков, который разбивает "качество генерации видео" на конкретные, иерархические и разделенные измерения, каждое с индивидуальными подсказками и методами оценки. VBench обладает несколькими привлекательными свойствами: 1) Комплексные Измерения: VBench включает 16 измерений в генерации видео (например, несоответствие идентификации объекта, плавность движения, временные мерцания и пространственные отношения и т. д.). Метрики оценки с детализированными уровнями раскрывают сильные и слабые стороны отдельных моделей. 2) Соответствие Человеку: Мы также предоставляем набор данных аннотаций предпочтений людей для проверки соответствия наших бенчмарков человеческому восприятию для каждого измерения оценки соответственно. 3) Ценные Инсайты: Мы изучаем способности текущих моделей по различным измерениям оценки и различным типам контента. Мы также исследуем разрывы между моделями генерации видео и изображений. 4) Универсальное Тестирование: VBench++ поддерживает оценку текста-видео и изображения-видео. Мы представляем высококачественный Набор Изображений с адаптивным соотношением сторон для обеспечения справедливых оценок в различных настройках генерации изображения в видео. Помимо оценки технического качества, VBench++ оценивает надежность моделей генерации видео, предоставляя более глобальное представление о производительности модели. 5) Полное Открытие: Мы полностью открываем исходный код VBench++ и постоянно добавляем новые модели генерации видео в наш рейтинговый список для продвижения области генерации видео.
Большие мультимодальные модели (LMM) с продвинутыми возможностями анализа видео недавно привлекли значительное внимание. Однако большинство оценок полагаются на традиционные методы, такие как вопросы с множественным выбором в бенчмарках, таких как VideoMME и LongVideoBench, которые часто не обладают достаточной глубиной для улавливания сложных требований реальных пользователей. Для преодоления этого ограничения, а также из-за высокой стоимости и медленного темпа человеческой аннотации для видео задач, мы представляем VideoAutoArena - бенчмарк в стиле арены, вдохновленный фреймворком LMSYS Chatbot Arena, разработанный для автоматической оценки способностей LMM в анализе видео. VideoAutoArena использует симуляцию пользователей для генерации открытых, адаптивных вопросов, которые строго оценивают производительность модели в понимании видео. Бенчмарк представляет собой автоматизированный, масштабируемый фреймворк оценки, включающий модифицированную систему рейтинга ELO для справедливого и непрерывного сравнения между несколькими LMM. Для проверки нашей автоматизированной системы судейства мы создаем "золотой стандарт", используя тщательно отобранный поднабор человеческих аннотаций, демонстрируя, что наша арена тесно соответствует человеческому суждению, сохраняя при этом масштабируемость. Кроме того, мы представляем стратегию эволюции, основанную на ошибках, постепенно увеличивая сложность вопросов, чтобы стимулировать модели к обработке более сложных сценариев анализа видео. Экспериментальные результаты показывают, что VideoAutoArena эффективно различает среди современных LMM, предоставляя понимание сильных сторон модели и областей для улучшения. Для дальнейшего упрощения нашей оценки мы представляем VideoAutoBench как вспомогательный бенчмарк, где человеческие аннотаторы помечают победителей в подмножестве битв VideoAutoArena. Мы используем GPT-4o в качестве судьи для сравнения ответов с этими подтвержденными человеком ответами. Вместе VideoAutoArena и VideoAutoBench предлагают экономичный и масштабируемый фреймворк для оценки LMM в анализе видео, ориентированном на пользователя.
Модель Segment Anything Model 2 (SAM 2) продемонстрировала высокую производительность в задачах сегментации объектов, но столкнулась с вызовами в визуальном отслеживании объектов, особенно при работе с переполненными сценами с быстро движущимися или само-закрывающимися объектами. Более того, подход с фиксированным окном памяти в оригинальной модели не учитывает качество выбранных воспоминаний для условия признаков изображения для следующего кадра, что приводит к распространению ошибок в видеороликах. В данной статье представлен SAMURAI, улучшенная адаптация SAM 2, специально разработанная для визуального отслеживания объектов. Путем интеграции временных признаков движения с предложенным механизмом выбора памяти, учитывающим движение, SAMURAI эффективно предсказывает движение объекта и улучшает выбор маски, достигая надежного и точного отслеживания без необходимости повторного обучения или настройки. SAMURAI работает в реальном времени и демонстрирует высокую производительность на нулевом обучении на различных наборах данных, показывая свою способность к обобщению без настройки. В оценках SAMURAI достигает значительного улучшения в показателях успешности и точности по сравнению с существующими трекерами, с приростом AUC на 7.1% на LaSOT_{ext} и AO на 3.5% на GOT-10k. Более того, он достигает конкурентоспособных результатов по сравнению с полностью надзираемыми методами на LaSOT, подчеркивая его устойчивость в сложных сценариях отслеживания и потенциал для применения в реальных условиях в динамичных средах. Код и результаты доступны по ссылке https://github.com/yangchris11/samurai.
Увеличение размеров окна контекста позволяет крупным языковым моделям (LLM) обрабатывать более длинные последовательности и решать более сложные задачи. Поворотное позиционное вложение (RoPE) стало фактическим стандартом благодаря своим относительным свойствам кодирования позиций, которые полезны для обучения на длинных контекстах. Однако мы замечаем, что использование RoPE с форматом BFloat16 приводит к числовым проблемам, вызывая отклонение от заданного относительного позиционного кодирования, особенно в сценариях с длинным контекстом. Эта проблема возникает из-за ограниченной точности BFloat16 и накапливается с увеличением длины контекста, причем первый токен значительно способствует этой проблеме. Для решения этой проблемы мы разработали AnchorAttention, метод внимания, который смягчает числовые проблемы, вызванные BFloat16, улучшает возможности работы с длинным контекстом и ускоряет обучение. AnchorAttention снижает ненужные вычисления внимания, сохраняет семантическую связность и повышает вычислительную эффективность, рассматривая первый токен как общий якорь с постоянным идентификатором позиции, делая его видимым для всех документов в пределах обучающего контекста. Эксперименты на трех типах LLM показывают, что AnchorAttention значительно улучшает производительность на длинных контекстах и сокращает время обучения более чем на 50\% по сравнению со стандартными механизмами полного внимания, сохраняя при этом возможности исходной LLM по общим задачам. Наш код доступен по адресу https://github.com/haonan3/AnchorContext.
Языковые агенты продемонстрировали многообещающие возможности в автоматизации задач веб-ориентированных, однако их текущие реактивные подходы все еще значительно уступают по сравнению с людьми. Внедрение передовых алгоритмов планирования, в частности методов поиска дерева, может улучшить производительность этих агентов, однако прямая реализация поиска дерева на живых веб-сайтах представляет существенные риски безопасности и практические ограничения из-за необратимых действий, таких как подтверждение покупки. В данной статье мы представляем новую парадигму, которая дополняет языковых агентов модельным планированием, открывая инновационное применение больших языковых моделей (LLM) в качестве моделей мира в сложных веб-средах. Наш метод, WebDreamer, основан на ключевом умозаключении, что LLM интегрируют в себе всесторонние знания о структурах и функциональности веб-сайтов. Конкретно, WebDreamer использует LLM для моделирования результатов для каждого кандидатского действия (например, "что произойдет, если я нажму эту кнопку?") с использованием описаний на естественном языке, а затем оценивает эти воображаемые результаты для определения оптимального действия на каждом шаге. Эмпирические результаты на двух представительных бенчмарках веб-агентов с онлайн-взаимодействием - VisualWebArena и Mind2Web-live - показывают, что WebDreamer достигает существенных улучшений по сравнению с реактивными базовыми значениями. Установив жизнеспособность LLM в качестве моделей мира в веб-средах, данная работа заложила основу для парадигмального изменения в автоматизированном взаимодействии с веб-сайтами. Более широко, наши результаты открывают захватывающие новые перспективы для будущих исследований в области 1) оптимизации LLM специально для моделирования мира в сложных, динамических средах и 2) модельного спекулятивного планирования для языковых агентов.
Диффузионные модели отлично справляются с генерацией изображений, но их управление остается вызовом. Мы сосредотачиваемся на проблеме генерации изображений с учетом стиля. Хотя примеры изображений работают, они неудобны: srefs (коды стилевых ссылок) от MidJourney решают эту проблему, выражая определенный стиль изображения в коротком числовом коде. Они получили широкое распространение в социальных сетях благодаря легкости обмена и возможности использования изображения для управления стилем, не публикуя сами исходные изображения. Однако пользователи не могут создавать srefs из своих собственных изображений, и процедура обучения не является общедоступной. Мы предлагаем StyleCodes: архитектуру кодировщика стиля и процедуру обучения с открытым исходным кодом и исследованиями для выражения стиля изображения в виде кода base64 из 20 символов. Наши эксперименты показывают, что наше кодирование приводит к минимальным потерям качества по сравнению с традиционными техниками преобразования изображения в стиль.
Последние достижения в области крупных мультимодальных моделей (LMM) расширили их возможности, включая понимание видео. В частности, модели текста-к-видео (T2V) значительно продвинулись в качестве, понимании и продолжительности, превосходя в создании видео из простых текстовых подсказок. Однако они по-прежнему часто производят галлюцинационный контент, который явно указывает на то, что видео создано искусственным интеллектом. Мы представляем ViBe: крупномасштабный бенчмарк текста-к-видео для галлюцинационных видео от моделей T2V. Мы выделяем пять основных типов галлюцинаций: Исчезающий Субъект, Числовая Вариабельность, Временная Дисморфия, Ошибка Пропуска и Физическая Несоответственность. Используя 10 открытых моделей T2V, мы разработали первый крупномасштабный набор данных галлюцинационных видео, включающий 3 782 видео, размеченных людьми по этим пяти категориям. ViBe предлагает уникальный ресурс для оценки надежности моделей T2V и является основой для улучшения обнаружения и уменьшения галлюцинаций в генерации видео. Мы устанавливаем классификацию как базовую и представляем различные конфигурации ансамблевых классификаторов, с комбинацией TimeSFormer + CNN, обеспечивающей лучшую производительность, достигая точности 0,345 и F1-меры 0,342. Этот бенчмарк направлен на развитие надежных моделей T2V, которые создают видео более точно соответствующие входным подсказкам.
Хотя законы масштабирования обеспечивают надежную методологию для прогнозирования потерь обучения при изменении масштабов вычислений для одного распределения данных, меньше известно о том, как эти прогнозы должны изменяться при изменении распределения. В данной статье мы разрабатываем стратегию прогнозирования одной потери на основе другой и применяем ее для прогнозирования при использовании различных наборов данных для предварительного обучения и от предварительного обучения к данным для последующих задач. Наши прогнозы хорошо экстраполируются даже при бюджете FLOP, превышающем в 20 раз самый большой использованный для подгонки кривых. Более точно, мы обнаружили, что существуют простые сдвинутые степенные закономерности между (1) потерями обучения двух моделей, обученных на двух разных наборах данных, когда модели объединены по вычислительным ресурсам (обучение-обучение), (2) потерей обучения и потерей на тесте на любом последующем распределении для одной модели (обучение-тест), и (3) потерями на тесте двух моделей, обученных на двух разных наборах данных для обучения (тест-тест). Полученные результаты подтверждаются для наборов данных для предварительного обучения, значительно отличающихся друг от друга (некоторые состоят исключительно из кода, а другие вообще не содержат кода), а также для различных последующих задач. Наконец, мы обнаружили, что в некоторых случаях эти сдвинутые степенные закономерности могут обеспечить более точные прогнозы, чем экстраполяция законов масштабирования для одного набора данных.
Модели генерации изображений на основе диффузии могут создавать изображения высокого качества за счет тщательной инженерии подсказок. Управляемость можно улучшить, внедрив условие компоновки, однако существующие методы лишены возможности редактирования компоновки и тонкой настройки атрибутов объектов. Концепция многослойной генерации имеет большой потенциал для преодоления этих ограничений, однако одновременная генерация изображений и композиция сцены ограничивает контроль над тонкой настройкой атрибутов объектов, их относительным расположением в 3D-пространстве и возможностями манипулирования сценой. В данной работе мы предлагаем новую парадигму многоэтапной генерации, разработанную для тонкого контроля, гибкости и интерактивности. Для обеспечения контроля над атрибутами экземпляров мы разрабатываем новую парадигму обучения для адаптации модели диффузии к генерации изолированных компонентов сцены в виде изображений RGBA с информацией о прозрачности. Для создания сложных изображений мы используем эти предварительно сгенерированные экземпляры и внедряем процесс многослойной композитной генерации, который плавно собирает компоненты в реалистичных сценах. Наши эксперименты показывают, что наша модель диффузии RGBA способна генерировать разнообразные и высококачественные экземпляры с точным контролем над атрибутами объектов. Через многослойную композицию мы демонстрируем, что наш подход позволяет создавать и манипулировать изображениями из очень сложных подсказок с тонким контролем над внешним видом и расположением объектов, обеспечивая более высокий уровень контроля по сравнению с конкурирующими методами.
Цель создания отчетов в радиологии (Radiology Report Generation, RRG) заключается в автоматическом формировании связных текстовых анализов заболеваний на основе радиологических изображений, тем самым снижая нагрузку на радиологов. Существующие методы RRG на основе искусственного интеллекта в основном сосредотачиваются на модификациях архитектуры модели кодера-декодера. Для продвижения этих подходов в данной статье представляется фреймворк Органно-Регионально-Информационно-Ориентированный (Organ-Regional Information Driven, ORID), который эффективно может интегрировать мультимодальную информацию и уменьшить влияние шума от несвязанных органов. Конкретно, на основе LLaVA-Med мы сначала создаем набор данных с инструкциями, связанными с RRG, для улучшения способности описания диагностики органов и регионов и получаем LLaVA-Med-RRG. Затем мы предлагаем модуль фьюжн мультимодальной информации на основе органов для эффективного объединения информации из описания диагностики органов и регионов и радиологического изображения. Для дальнейшего уменьшения влияния шума от несвязанных органов на генерацию радиологического отчета мы представляем модуль анализа коэффициента важности органов, который использует Графовую Нейронную Сеть (Graph Neural Network, GNN) для изучения взаимосвязей мультимодальной информации каждого органа. Обширные эксперименты и сравнения с передовыми методами по различным метрикам оценки демонстрируют превосходное качество работы нашего предложенного метода.