Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем модель Segment Anything Model 2 (SAM 2), базовую модель для решения задачи сегментации объектов на изображениях и видео по запросу. Мы создали движок для данных, который улучшает модель и данные с помощью взаимодействия с пользователем, чтобы собрать к настоящему времени самый крупный набор данных для сегментации видео. Наша модель представляет собой простую архитектуру трансформера с потоковой памятью для обработки видео в реальном времени. SAM 2, обученная на наших данных, демонстрирует высокую производительность в широком спектре задач. В задаче сегментации видео мы наблюдаем более высокую точность при использовании в 3 раза меньшего количества взаимодействий по сравнению с предыдущими подходами. В задаче сегментации изображений наша модель более точна и работает в 6 раз быстрее, чем модель Segment Anything Model (SAM). Мы убеждены, что наши данные, модель и исследования станут значительным этапом в области сегментации видео и смежных задач восприятия. Мы выпускаем версию нашей модели, набор данных и интерактивное демо.
В данной работе мы представляем Gemma 2, новое дополнение к семейству легких передовых открытых моделей Gemma, варьирующихся по размеру от 2 миллиардов до 27 миллиардов параметров. В этой новой версии мы применяем несколько известных технических модификаций к архитектуре Трансформера, таких как чередование локального и глобального внимания (Beltagy и др., 2020a) и внимание с группировкой запросов (Ainslie и др., 2023). Мы также обучаем модели 2B и 9B с использованием дистилляции знаний (Хинтон и др., 2015) вместо предсказания следующего токена. Полученные модели обеспечивают лучшую производительность для своего размера и даже предлагают конкурентоспособные альтернативы моделям, которые в 2-3 раза больше. Мы предоставляем все наши модели сообществу.
Мы представляем SF3D, новый метод быстрой и качественной реконструкции текстурированных объектов из одного изображения всего за 0.5 секунды. В отличие от большинства существующих подходов, SF3D явно обучен для генерации сетки, включая быструю технику распаковки UV, которая обеспечивает быструю генерацию текстуры, вместо использования цветов вершин. Метод также изучает предсказание параметров материала и нормалей для улучшения визуального качества восстановленных 3D-сеток. Кроме того, SF3D интегрирует шаг освещения для эффективного удаления низкочастотных эффектов освещения, обеспечивая возможность легкого использования восстановленных сеток в новых условиях освещения. Эксперименты демонстрируют превосходную производительность SF3D по сравнению с существующими техниками. Страница проекта: https://stable-fast-3d.github.io
Хотя большие языковые модели демонстрируют выдающуюся производительность в понимании естественного языка, их ресурсоемкость делает их менее доступными. В отличие от этого, более маленькие языковые модели, такие как MiniCPM, предлагают более устойчивую масштабируемость, но часто показывают менее высокую производительность без специализированной оптимизации. В данной статье мы исследуем улучшение более маленьких языковых моделей путем совершенствования их текстовых вложений. Мы выбираем три языковых модели, MiniCPM, Phi-2 и Gemma, для проведения контрастного донастройки на наборе данных NLI. Наши результаты показывают, что этот метод донастройки улучшает качество текстовых вложений для всех трех моделей на различных бенчмарках, причем MiniCPM показывает наиболее значительные улучшения среднего прироста производительности в 56.33\%. Код контрастной донастройки доступен публично по адресу https://github.com/trapoom555/Language-Model-STS-CFT.
Недавний успех крупных моделей языка и зрения показывает большой потенциал в развитии систем агентов, работающих на пользовательских интерфейсах. Однако мы утверждаем, что мощь мультимодельных моделей, таких как GPT-4V в качестве общего агента на различных операционных системах и в различных приложениях, в значительной степени недооценена из-за отсутствия надежной техники разбора экрана, способной: 1) надежно идентифицировать взаимодействующие иконки в пользовательском интерфейсе, и 2) понимать семантику различных элементов на скриншоте и точно ассоциировать предполагаемое действие с соответствующей областью на экране. Для заполнения этих пробелов мы представляем OmniParser, комплексный метод разбора скриншотов пользовательского интерфейса на структурированные элементы, что значительно улучшает способность GPT-4V генерировать действия, которые могут быть точно связаны с соответствующими областями интерфейса. Сначала мы составили набор данных для обнаружения взаимодействующих иконок, используя популярные веб-страницы и набор данных описаний иконок. Эти наборы данных были использованы для донастройки специализированных моделей: модели обнаружения для разбора взаимодействующих областей на экране и модели подписей для извлечения функциональной семантики обнаруженных элементов. OmniParser значительно повышает производительность GPT-4V на бенчмарке ScreenSpot. И на бенчмарках Mind2Web и AITW, OmniParser с входными данными только из скриншота превосходит базовые значения GPT-4V, требующие дополнительной информации помимо скриншота.
Мультимодельные языковые модели (MLLM) все чаще внедряются в реальные среды, что требует от них способности интерпретировать трехмерные пространства и понимать временную динамику. Несмотря на их потенциал, текущие лучшие модели в нашем сообществе все еще недостаточно хорошо понимают пространственные и временные измерения. Мы представляем метод Грубой Корреспонденции - простой, не требующий обучения, эффективный и универсальный визуальный метод подсказки для вызова понимания трехмерных и временных аспектов в мультимодельных LLM. Наш метод использует легкую модель отслеживания для нахождения соответствий объектов между кадрами видео или между наборами точек зрения изображений. Он выбирает наиболее часто встречающиеся экземпляры объектов и визуализирует их с помощью маркеров с уникальными идентификаторами на изображении. С помощью этого простого подхода мы достигаем лучших результатов на бенчмарках понимания трехмерного пространства, включая ScanQA (+20.5\%) и подмножество OpenEQA (+9.7\%), а также на бенчмарках длинных видео, таких как EgoSchema (+6.0\%). Мы также создали небольшой диагностический набор данных для оценки способности MLLM рассуждать о пространстве с описанной точки зрения, отличной от точки зрения камеры. Опять же, Грубая Корреспонденция улучшает способности перспективного восприятия пространства, но мы отмечаем, что MLLM имеют трудности с этой задачей. Вместе мы демонстрируем, что наш простой метод подсказки может значительно помочь в задачах, требующих трехмерного или временного рассуждения.
Недавние приложения больших языковых моделей, такие как "Получение с увеличением памяти" и чат-боты, привели к увеличенной необходимости обработки более длинных входных контекстов. Однако это требование затрудняется внутренними ограничениями. С точки зрения архитектуры модели ограничены окном контекста, определенным во время обучения. Кроме того, обработка обширных текстов требует значительной памяти GPU. Мы предлагаем новый подход, Finch, для сжатия входного контекста путем использования весов предварительно обученной модели самовнимания. Учитывая подсказку и длинный текст, Finch итеративно определяет наиболее релевантные пары Ключ (K) и Значение (V) по частям текста, зависящим от подсказки. Только такие пары хранятся в кэше KV, который, в пределах пространства, ограниченного окном контекста, в конечном итоге содержит сжатую версию длинного текста. Наше предложение позволяет моделям обрабатывать большие входы даже с высокой степенью сжатия (до 93 раз) при сохранении семантической целостности без необходимости тонкой настройки.
Модели диффузии открыли путь к широкому спектру фреймворков редактирования изображений на основе текста. Однако они обычно основаны на многоэтапном характере обратного процесса диффузии, и их адаптация к упрощенным, быстрым методам выборки оказалась удивительно сложной. Здесь мы сосредотачиваемся на популярной линии фреймворков редактирования на основе текста - подходе DDPM-инверсия шума, дружественном к редактированию. Мы анализируем его применение к быстрым методам выборки и классифицируем его неудачи на два класса: появление визуальных артефактов и недостаточная сила редактирования. Мы прослеживаем артефакты до несоответствия статистики шума между инвертированными шумами и ожидаемым графиком шума и предлагаем сдвинутый график шума, который корректирует этот сдвиг. Для увеличения силы редактирования мы предлагаем подход с псевдо-направлением, который эффективно увеличивает величину изменений без введения новых артефактов. В целом, наш метод позволяет редактирование изображений на основе текста с использованием всего трех шагов диффузии, предоставляя новые идеи о механизмах популярных подходов к редактированию на основе текста.
MM-Vet, с открытыми вопросами на языке зрения, направленными на оценку интегрированных возможностей, стал одним из самых популярных бенчмарков для оценки крупных мультимодальных моделей. MM-Vet оценивает шесть основных возможностей визуально-языковых (VL) моделей: распознавание, знание, пространственное восприятие, генерация языка, OCR и математика. Однако его формат вопросов ограничен одиночными парами изображение-текст, лишенными переплетенных последовательностей изображений и текста, характерных для реальных сценариев. Для преодоления этого ограничения мы представляем MM-Vet v2, который включает новую возможность VL под названием "понимание последовательности изображений и текста", оценивающую способность моделей обрабатывать последовательности VL. Более того, мы сохраняем высокое качество образцов оценки, дополнительно расширяя размер набора оценки. Используя MM-Vet v2 для оценки крупных мультимодальных моделей, мы обнаружили, что модель Claude 3.5 Sonnet является лучшей с результатом 71.8, незначительно превосходя GPT-4o, который набрал 71.0. Среди моделей с открытым весом InternVL2-Llama3-76B лидирует с результатом 68.4.
В последние годы наблюдается огромное улучшение качества подходов к генерации и редактированию видео. В то время как несколько техник сосредотачиваются на редактировании внешнего вида, мало из них затрагивают движение. Существующие подходы, использующие текст, траектории или ограничивающие рамки, ограничены простыми движениями, поэтому мы определяем движения с помощью одного видеоролика в качестве эталонного для движения. Мы также предлагаем использовать предварительно обученную модель изображение-видео вместо модели текст-видео. Этот подход позволяет сохранить точный внешний вид и позицию целевого объекта или сцены, а также помогает разделять внешний вид и движение. Наш метод, названный инверсией движения-текста, основан на нашем наблюдении, что модели изображение-видео извлекают внешний вид в основном из (латентного) входа изображения, в то время как внедренное текстовое/изображенческое представление через кросс-внимание в основном контролирует движение. Мы представляем движение с помощью токенов текстового/изображенческого представления. Работая с увеличенным движением-текстовым представлением, содержащим несколько токенов текстового/изображенческого представления на каждый кадр, мы достигаем высокой временной детализации движения. После оптимизации на эталонном видео для движения, это представление можно применить к различным целевым изображениям для генерации видео с семантически схожими движениями. Наш подход не требует пространственного выравнивания между эталонным видео для движения и целевым изображением, обобщается на различные области и может быть применен к различным задачам, таким как реактирование полного тела и лица, а также управление движением неживых объектов и камеры. Мы эмпирически демонстрируем эффективность нашего метода в задаче семантического переноса движения видео, значительно превосходя существующие методы в данном контексте.
Анимация лица в 3D по аудио направлена на отображение входного аудио в реалистичное движение лица. Несмотря на значительный прогресс, ограничения возникают из-за несогласованных 3D аннотаций, ограничивая предыдущие модели обучением на конкретных аннотациях и тем самым ограничивая масштаб обучения. В данной работе мы представляем UniTalker, унифицированную модель с многоголовой архитектурой, разработанную для эффективного использования наборов данных с различными аннотациями. Для улучшения стабильности обучения и обеспечения согласованности между многоголовыми выходами мы используем три стратегии обучения, а именно, PCA, предварительное обучение модели и встраивание идентичности-переключателя. Для расширения масштаба и разнообразия обучения мы собираем A2F-Bench, включающий пять общедоступных наборов данных и три новых набора данных. Эти наборы данных содержат широкий спектр аудио-доменов, охватывая многоязычные речевые голоса и песни, тем самым увеличивая объем обучающих данных с обычно используемых наборов данных, обычно менее 1 часа, до 18,5 часов. С помощью одной обученной модели UniTalker мы достигаем значительного снижения ошибки вершин губ на 9,2% для набора данных BIWI и 13,7% для Vocaset. Кроме того, предварительно обученный UniTalker обещает быть базовой моделью для задач аудио-управляемой анимации лица. Донастройка предварительно обученного UniTalker на видимых наборах данных дополнительно улучшает производительность на каждом наборе данных, среднее снижение ошибки на A2F-Bench составляет 6,3%. Более того, донастройка UniTalker на невидимом наборе данных с использованием только половины данных превосходит предыдущие передовые модели, обученные на полном наборе данных. Код и набор данных доступны на странице проекта https://github.com/X-niper/UniTalker.
Обеспечение доступа к манге для лиц с нарушениями зрения представляет собой значительное испытание из-за ее визуальной природы. С целью повышения доступности настоящая статья нацелена на создание транскрипта диалогов полной главы манги полностью автоматически с особым акцентом на обеспечение согласованности повествования. Это включает в себя определение (i) сказанного, т.е. обнаружение текстов на каждой странице и классификацию их на существенные и несущественные, и (ii) кто это сказал, т.е. присвоение каждому диалогу его говорящего, обеспечивая одинаковое именование персонажей на протяжении главы. Для этого мы представляем: (i) модель Magiv2, способную генерировать высококачественные транскрипты манги на уровне главы с именованными персонажами и значительно более высокой точностью в диаризации говорящих по сравнению с предыдущими работами; (ii) расширение набора данных для оценки PopManga, который теперь включает аннотации для хвостовых областей облаков речи, ассоциации текста с соответствующими хвостами, классификации текста как существенного или несущественного и идентификации каждого блока персонажа; и (iii) новый набор данных о персонажах, включающий более 11 тыс. персонажей из 76 серий манги, с общим числом 11,5 тыс. образцов изображений персонажей, а также список глав, в которых они появляются. Код, обученная модель и оба набора данных можно найти по ссылке: https://github.com/ragavsachdeva/magi
Условные модели диффузии показали выдающийся успех в генерации визуального контента, создавая высококачественные образцы в различных областях, в значительной степени благодаря руководству без классификатора (CFG). Недавние попытки расширить руководство на безусловные модели полагались на эвристические методы, что привело к неоптимальному качеству генерации и непредвиденным эффектам. В данной работе мы предлагаем метод Сглаженного Энергетического Руководства (SEG), новый подход к обучению без условий, который использует энергетическую перспективу механизма самовнимания для улучшения генерации изображений. Определяя энергию самовнимания, мы представляем метод для уменьшения кривизны энергетического ландшафта внимания и используем вывод в качестве безусловного предсказания. Практически мы контролируем кривизну энергетического ландшафта путем настройки параметра гауссовского ядра, оставляя параметр масштаба руководства неизменным. Кроме того, мы представляем метод размытия запроса, эквивалентный размытию всех весов внимания без квадратичной сложности по числу токенов. В наших экспериментах SEG достигает улучшения Парето как по качеству, так и по снижению побочных эффектов. Код доступен по ссылке https://github.com/SusungHong/SEG-SDXL.
Ребусы - это головоломки, требующие ограниченного многоэтапного рассуждения для выявления скрытой фразы из набора изображений и букв. В данной работе мы представляем большую коллекцию вербализованных ребусов для итальянского языка и используем ее для оценки способностей к решению ребусов современных крупных языковых моделей. В то время как универсальные системы, такие как LLaMA-3 и GPT-4o, показывают плохие результаты на этой задаче, специализированная донастройка, кажется, улучшает производительность моделей. Однако мы обнаруживаем, что улучшения производительности от обучения в значительной степени обусловлены запоминанием. Наши результаты свидетельствуют о том, что решение ребусов остается сложным тестовым полигоном для оценки лингвистической грамотности и навыков последовательного следования инструкциям крупных языковых моделей.
Обнаружение образцов вне распределения (OOD) критически важно для обеспечения безопасности систем машинного обучения и сформировало область обнаружения OOD. Тем временем, несколько других проблем тесно связаны с обнаружением OOD, включая обнаружение аномалий (AD), обнаружение новизны (ND), распознавание открытого множества (OSR) и обнаружение выбросов (OD). Для объединения этих проблем была предложена обобщенная методология обнаружения OOD, таксономически классифицирующая эти пять проблем. Однако модели видео-языка (VLM), такие как CLIP, значительно изменили парадигму и размыли границы между этими областями, снова сбивая с толку исследователей. В этом обзоре мы вначале представляем обобщенную методологию обнаружения OOD v2, охватывающую эволюцию AD, ND, OSR, обнаружения OOD и OD в эпоху VLM. Наша методология показывает, что с некоторой неактивностью и интеграцией в области, наиболее сложными вызовами стали обнаружение OOD и AD. Кроме того, мы также выделяем значительное изменение в определении, настройках проблемы и бенчмарках; таким образом, мы представляем всесторонний обзор методологии обнаружения OOD, включая обсуждение других связанных задач для уточнения их отношения к обнаружению OOD. Наконец, мы исследуем прогресс в эпоху возникновения крупных моделей видео-языка (LVLM), таких как GPT-4V. Мы завершаем этот обзор открытыми вызовами и перспективами.
Эта статья представляет новый подход, называемый суммированием речи по предложениям (Sen-SSum), который генерирует текстовые резюме из устного документа по предложениям. Sen-SSum объединяет обработку реального времени автоматического распознавания речи (ASR) с краткостью суммирования речи. Для изучения этого подхода мы представляем два набора данных для Sen-SSum: Mega-SSum и CSJ-SSum. Используя эти наборы данных, наше исследование оценивает два типа моделей на основе Transformer: 1) каскадные модели, которые объединяют ASR и сильные модели текстового суммирования, и 2) модели конечного к конечному (E2E), которые непосредственно преобразуют речь в текстовое резюме. Хотя модели E2E привлекательны для разработки вычислительно эффективных моделей, они показывают худшие результаты, чем каскадные модели. Поэтому мы предлагаем дистилляцию знаний для моделей E2E с использованием псевдо-резюме, сгенерированных каскадными моделями. Наши эксперименты показывают, что предложенная дистилляция знаний эффективно улучшает производительность модели E2E на обоих наборах данных.
Данная работа представляет новую методику обучения вложенных моделей для арабского языка с помощью обучения вложенных моделей Матрешка, используя мультиязычные, специфические для арабского и англоязычные модели, чтобы продемонстрировать мощь вложенных моделей в различных задачах обработки естественного языка на арабском языке. Наш инновационный вклад включает перевод различных наборов данных по сходству предложений на арабский язык, обеспечивая комплексную систему оценки для сравнения этих моделей по различным аспектам. Мы обучили несколько вложенных моделей на наборе данных троек для арабского языка и оценили их производительность с использованием нескольких метрик оценки, включая корреляции Пирсона и Спирмена для косинусного сходства, манхэттенского расстояния, евклидова расстояния и скалярного произведения. Результаты демонстрируют превосходную производительность моделей вложения Матрешка, особенно в улавливании семантических нюансов, характерных для арабского языка. Результаты показали, что арабские вложенные модели Матрешка обладают превосходной производительностью в улавливании семантических нюансов, уникальных для арабского языка, значительно превосходя традиционные модели на 20-25\% по различным метрикам сходства. Эти результаты подчеркивают эффективность обучения, специфичного для языка, и выделяют потенциал моделей Матрешка в улучшении задач семантического сходства текста для арабского обработки естественного языка.