Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SAM 2: Сегментация любых объектов на изображениях и видео
SAM 2: Segment Anything in Images and Videos

Aug 1

ByNikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

120

Мы представляем модель Segment Anything Model 2 (SAM 2), базовую модель для решения задачи сегментации объектов на изображениях и видео по запросу. Мы создали движок для данных, который улучшает модель и данные с помощью взаимодействия с пользователем, чтобы собрать к настоящему времени самый крупный набор данных для сегментации видео. Наша модель представляет собой простую архитектуру трансформера с потоковой памятью для обработки видео в реальном времени. SAM 2, обученная на наших данных, демонстрирует высокую производительность в широком спектре задач. В задаче сегментации видео мы наблюдаем более высокую точность при использовании в 3 раза меньшего количества взаимодействий по сравнению с предыдущими подходами. В задаче сегментации изображений наша модель более точна и работает в 6 раз быстрее, чем модель Segment Anything Model (SAM). Мы убеждены, что наши данные, модель и исследования станут значительным этапом в области сегментации видео и смежных задач восприятия. Мы выпускаем версию нашей модели, набор данных и интерактивное демо.

Gemma 2: Улучшение открытых языковых моделей при практическом размере
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

ByGemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev

В данной работе мы представляем Gemma 2, новое дополнение к семейству легких передовых открытых моделей Gemma, варьирующихся по размеру от 2 миллиардов до 27 миллиардов параметров. В этой новой версии мы применяем несколько известных технических модификаций к архитектуре Трансформера, таких как чередование локального и глобального внимания (Beltagy и др., 2020a) и внимание с группировкой запросов (Ainslie и др., 2023). Мы также обучаем модели 2B и 9B с использованием дистилляции знаний (Хинтон и др., 2015) вместо предсказания следующего токена. Полученные модели обеспечивают лучшую производительность для своего размера и даже предлагают конкурентоспособные альтернативы моделям, которые в 2-3 раза больше. Мы предоставляем все наши модели сообществу.

SF3D: Устойчивая быстрая реконструкция 3D-сетки с разверткой UV и разделением освещения
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Мы представляем SF3D, новый метод быстрой и качественной реконструкции текстурированных объектов из одного изображения всего за 0.5 секунды. В отличие от большинства существующих подходов, SF3D явно обучен для генерации сетки, включая быструю технику распаковки UV, которая обеспечивает быструю генерацию текстуры, вместо использования цветов вершин. Метод также изучает предсказание параметров материала и нормалей для улучшения визуального качества восстановленных 3D-сеток. Кроме того, SF3D интегрирует шаг освещения для эффективного удаления низкочастотных эффектов освещения, обеспечивая возможность легкого использования восстановленных сеток в новых условиях освещения. Эксперименты демонстрируют превосходную производительность SF3D по сравнению с существующими техниками. Страница проекта: https://stable-fast-3d.github.io

Улучшение встраивания текста для небольших языковых моделей с помощью контрастного донастройки.
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

Хотя большие языковые модели демонстрируют выдающуюся производительность в понимании естественного языка, их ресурсоемкость делает их менее доступными. В отличие от этого, более маленькие языковые модели, такие как MiniCPM, предлагают более устойчивую масштабируемость, но часто показывают менее высокую производительность без специализированной оптимизации. В данной статье мы исследуем улучшение более маленьких языковых моделей путем совершенствования их текстовых вложений. Мы выбираем три языковых модели, MiniCPM, Phi-2 и Gemma, для проведения контрастного донастройки на наборе данных NLI. Наши результаты показывают, что этот метод донастройки улучшает качество текстовых вложений для всех трех моделей на различных бенчмарках, причем MiniCPM показывает наиболее значительные улучшения среднего прироста производительности в 56.33\%. Код контрастной донастройки доступен публично по адресу https://github.com/trapoom555/Language-Model-STS-CFT.

OmniParser для агента GUI на основе чистого зрительного восприятия
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

Недавний успех крупных моделей языка и зрения показывает большой потенциал в развитии систем агентов, работающих на пользовательских интерфейсах. Однако мы утверждаем, что мощь мультимодельных моделей, таких как GPT-4V в качестве общего агента на различных операционных системах и в различных приложениях, в значительной степени недооценена из-за отсутствия надежной техники разбора экрана, способной: 1) надежно идентифицировать взаимодействующие иконки в пользовательском интерфейсе, и 2) понимать семантику различных элементов на скриншоте и точно ассоциировать предполагаемое действие с соответствующей областью на экране. Для заполнения этих пробелов мы представляем OmniParser, комплексный метод разбора скриншотов пользовательского интерфейса на структурированные элементы, что значительно улучшает способность GPT-4V генерировать действия, которые могут быть точно связаны с соответствующими областями интерфейса. Сначала мы составили набор данных для обнаружения взаимодействующих иконок, используя популярные веб-страницы и набор данных описаний иконок. Эти наборы данных были использованы для донастройки специализированных моделей: модели обнаружения для разбора взаимодействующих областей на экране и модели подписей для извлечения функциональной семантики обнаруженных элементов. OmniParser значительно повышает производительность GPT-4V на бенчмарке ScreenSpot. И на бенчмарках Mind2Web и AITW, OmniParser с входными данными только из скриншота превосходит базовые значения GPT-4V, требующие дополнительной информации помимо скриншота.

Грубая соответственность вызывает понимание трехмерного пространства-времени в мультимодельной языковой модели.
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Мультимодельные языковые модели (MLLM) все чаще внедряются в реальные среды, что требует от них способности интерпретировать трехмерные пространства и понимать временную динамику. Несмотря на их потенциал, текущие лучшие модели в нашем сообществе все еще недостаточно хорошо понимают пространственные и временные измерения. Мы представляем метод Грубой Корреспонденции - простой, не требующий обучения, эффективный и универсальный визуальный метод подсказки для вызова понимания трехмерных и временных аспектов в мультимодельных LLM. Наш метод использует легкую модель отслеживания для нахождения соответствий объектов между кадрами видео или между наборами точек зрения изображений. Он выбирает наиболее часто встречающиеся экземпляры объектов и визуализирует их с помощью маркеров с уникальными идентификаторами на изображении. С помощью этого простого подхода мы достигаем лучших результатов на бенчмарках понимания трехмерного пространства, включая ScanQA (+20.5\%) и подмножество OpenEQA (+9.7\%), а также на бенчмарках длинных видео, таких как EgoSchema (+6.0\%). Мы также создали небольшой диагностический набор данных для оценки способности MLLM рассуждать о пространстве с описанной точки зрения, отличной от точки зрения камеры. Опять же, Грубая Корреспонденция улучшает способности перспективного восприятия пространства, но мы отмечаем, что MLLM имеют трудности с этой задачей. Вместе мы демонстрируем, что наш простой метод подсказки может значительно помочь в задачах, требующих трехмерного или временного рассуждения.

Финч: сжатие кеша ключ-значение под управлением подсказок
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

Недавние приложения больших языковых моделей, такие как "Получение с увеличением памяти" и чат-боты, привели к увеличенной необходимости обработки более длинных входных контекстов. Однако это требование затрудняется внутренними ограничениями. С точки зрения архитектуры модели ограничены окном контекста, определенным во время обучения. Кроме того, обработка обширных текстов требует значительной памяти GPU. Мы предлагаем новый подход, Finch, для сжатия входного контекста путем использования весов предварительно обученной модели самовнимания. Учитывая подсказку и длинный текст, Finch итеративно определяет наиболее релевантные пары Ключ (K) и Значение (V) по частям текста, зависящим от подсказки. Только такие пары хранятся в кэше KV, который, в пределах пространства, ограниченного окном контекста, в конечном итоге содержит сжатую версию длинного текста. Наше предложение позволяет моделям обрабатывать большие входы даже с высокой степенью сжатия (до 93 раз) при сохранении семантической целостности без необходимости тонкой настройки.

TurboEdit: Редактирование изображений на основе текста с использованием моделей диффузии с небольшим количеством шагов.
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

Модели диффузии открыли путь к широкому спектру фреймворков редактирования изображений на основе текста. Однако они обычно основаны на многоэтапном характере обратного процесса диффузии, и их адаптация к упрощенным, быстрым методам выборки оказалась удивительно сложной. Здесь мы сосредотачиваемся на популярной линии фреймворков редактирования на основе текста - подходе DDPM-инверсия шума, дружественном к редактированию. Мы анализируем его применение к быстрым методам выборки и классифицируем его неудачи на два класса: появление визуальных артефактов и недостаточная сила редактирования. Мы прослеживаем артефакты до несоответствия статистики шума между инвертированными шумами и ожидаемым графиком шума и предлагаем сдвинутый график шума, который корректирует этот сдвиг. Для увеличения силы редактирования мы предлагаем подход с псевдо-направлением, который эффективно увеличивает величину изменений без введения новых артефактов. В целом, наш метод позволяет редактирование изображений на основе текста с использованием всего трех шагов диффузии, предоставляя новые идеи о механизмах популярных подходов к редактированию на основе текста.

MM-Vet v2: Сложный бенчмарк для оценки больших мультимодальных моделей для интегрированных возможностей
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

MM-Vet, с открытыми вопросами на языке зрения, направленными на оценку интегрированных возможностей, стал одним из самых популярных бенчмарков для оценки крупных мультимодальных моделей. MM-Vet оценивает шесть основных возможностей визуально-языковых (VL) моделей: распознавание, знание, пространственное восприятие, генерация языка, OCR и математика. Однако его формат вопросов ограничен одиночными парами изображение-текст, лишенными переплетенных последовательностей изображений и текста, характерных для реальных сценариев. Для преодоления этого ограничения мы представляем MM-Vet v2, который включает новую возможность VL под названием "понимание последовательности изображений и текста", оценивающую способность моделей обрабатывать последовательности VL. Более того, мы сохраняем высокое качество образцов оценки, дополнительно расширяя размер набора оценки. Используя MM-Vet v2 для оценки крупных мультимодальных моделей, мы обнаружили, что модель Claude 3.5 Sonnet является лучшей с результатом 71.8, незначительно превосходя GPT-4o, который набрал 71.0. Среди моделей с открытым весом InternVL2-Llama3-76B лидирует с результатом 68.4.

Воссоздание любого: семантический перенос движения видео с использованием инверсии движения-текста
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

В последние годы наблюдается огромное улучшение качества подходов к генерации и редактированию видео. В то время как несколько техник сосредотачиваются на редактировании внешнего вида, мало из них затрагивают движение. Существующие подходы, использующие текст, траектории или ограничивающие рамки, ограничены простыми движениями, поэтому мы определяем движения с помощью одного видеоролика в качестве эталонного для движения. Мы также предлагаем использовать предварительно обученную модель изображение-видео вместо модели текст-видео. Этот подход позволяет сохранить точный внешний вид и позицию целевого объекта или сцены, а также помогает разделять внешний вид и движение. Наш метод, названный инверсией движения-текста, основан на нашем наблюдении, что модели изображение-видео извлекают внешний вид в основном из (латентного) входа изображения, в то время как внедренное текстовое/изображенческое представление через кросс-внимание в основном контролирует движение. Мы представляем движение с помощью токенов текстового/изображенческого представления. Работая с увеличенным движением-текстовым представлением, содержащим несколько токенов текстового/изображенческого представления на каждый кадр, мы достигаем высокой временной детализации движения. После оптимизации на эталонном видео для движения, это представление можно применить к различным целевым изображениям для генерации видео с семантически схожими движениями. Наш подход не требует пространственного выравнивания между эталонным видео для движения и целевым изображением, обобщается на различные области и может быть применен к различным задачам, таким как реактирование полного тела и лица, а также управление движением неживых объектов и камеры. Мы эмпирически демонстрируем эффективность нашего метода в задаче семантического переноса движения видео, значительно превосходя существующие методы в данном контексте.

UniTalker: Масштабирование анимации трехмерного лица по аудио с помощью объединенной модели
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

Анимация лица в 3D по аудио направлена на отображение входного аудио в реалистичное движение лица. Несмотря на значительный прогресс, ограничения возникают из-за несогласованных 3D аннотаций, ограничивая предыдущие модели обучением на конкретных аннотациях и тем самым ограничивая масштаб обучения. В данной работе мы представляем UniTalker, унифицированную модель с многоголовой архитектурой, разработанную для эффективного использования наборов данных с различными аннотациями. Для улучшения стабильности обучения и обеспечения согласованности между многоголовыми выходами мы используем три стратегии обучения, а именно, PCA, предварительное обучение модели и встраивание идентичности-переключателя. Для расширения масштаба и разнообразия обучения мы собираем A2F-Bench, включающий пять общедоступных наборов данных и три новых набора данных. Эти наборы данных содержат широкий спектр аудио-доменов, охватывая многоязычные речевые голоса и песни, тем самым увеличивая объем обучающих данных с обычно используемых наборов данных, обычно менее 1 часа, до 18,5 часов. С помощью одной обученной модели UniTalker мы достигаем значительного снижения ошибки вершин губ на 9,2% для набора данных BIWI и 13,7% для Vocaset. Кроме того, предварительно обученный UniTalker обещает быть базовой моделью для задач аудио-управляемой анимации лица. Донастройка предварительно обученного UniTalker на видимых наборах данных дополнительно улучшает производительность на каждом наборе данных, среднее снижение ошибки на A2F-Bench составляет 6,3%. Более того, донастройка UniTalker на невидимом наборе данных с использованием только половины данных превосходит предыдущие передовые модели, обученные на полном наборе данных. Код и набор данных доступны на странице проекта https://github.com/X-niper/UniTalker.

Хвосты Рассказывают Истории: Транскрипции Манги на Уровне Глав с Именами Персонажей
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Обеспечение доступа к манге для лиц с нарушениями зрения представляет собой значительное испытание из-за ее визуальной природы. С целью повышения доступности настоящая статья нацелена на создание транскрипта диалогов полной главы манги полностью автоматически с особым акцентом на обеспечение согласованности повествования. Это включает в себя определение (i) сказанного, т.е. обнаружение текстов на каждой странице и классификацию их на существенные и несущественные, и (ii) кто это сказал, т.е. присвоение каждому диалогу его говорящего, обеспечивая одинаковое именование персонажей на протяжении главы. Для этого мы представляем: (i) модель Magiv2, способную генерировать высококачественные транскрипты манги на уровне главы с именованными персонажами и значительно более высокой точностью в диаризации говорящих по сравнению с предыдущими работами; (ii) расширение набора данных для оценки PopManga, который теперь включает аннотации для хвостовых областей облаков речи, ассоциации текста с соответствующими хвостами, классификации текста как существенного или несущественного и идентификации каждого блока персонажа; и (iii) новый набор данных о персонажах, включающий более 11 тыс. персонажей из 76 серий манги, с общим числом 11,5 тыс. образцов изображений персонажей, а также список глав, в которых они появляются. Код, обученная модель и оба набора данных можно найти по ссылке: https://github.com/ragavsachdeva/magi

Улучшение понимания семантической близости в арабской обработке естественного языка с помощью обучения вложенных векторов.
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Данная работа представляет новую методику обучения вложенных моделей для арабского языка с помощью обучения вложенных моделей Матрешка, используя мультиязычные, специфические для арабского и англоязычные модели, чтобы продемонстрировать мощь вложенных моделей в различных задачах обработки естественного языка на арабском языке. Наш инновационный вклад включает перевод различных наборов данных по сходству предложений на арабский язык, обеспечивая комплексную систему оценки для сравнения этих моделей по различным аспектам. Мы обучили несколько вложенных моделей на наборе данных троек для арабского языка и оценили их производительность с использованием нескольких метрик оценки, включая корреляции Пирсона и Спирмена для косинусного сходства, манхэттенского расстояния, евклидова расстояния и скалярного произведения. Результаты демонстрируют превосходную производительность моделей вложения Матрешка, особенно в улавливании семантических нюансов, характерных для арабского языка. Результаты показали, что арабские вложенные модели Матрешка обладают превосходной производительностью в улавливании семантических нюансов, уникальных для арабского языка, значительно превосходя традиционные модели на 20-25\% по различным метрикам сходства. Эти результаты подчеркивают эффективность обучения, специфичного для языка, и выделяют потенциал моделей Матрешка в улучшении задач семантического сходства текста для арабского обработки естественного языка.

Сглаженное энергетическое руководство: Управление моделями диффузии с сниженной энергетической кривизной внимания
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

Условные модели диффузии показали выдающийся успех в генерации визуального контента, создавая высококачественные образцы в различных областях, в значительной степени благодаря руководству без классификатора (CFG). Недавние попытки расширить руководство на безусловные модели полагались на эвристические методы, что привело к неоптимальному качеству генерации и непредвиденным эффектам. В данной работе мы предлагаем метод Сглаженного Энергетического Руководства (SEG), новый подход к обучению без условий, который использует энергетическую перспективу механизма самовнимания для улучшения генерации изображений. Определяя энергию самовнимания, мы представляем метод для уменьшения кривизны энергетического ландшафта внимания и используем вывод в качестве безусловного предсказания. Практически мы контролируем кривизну энергетического ландшафта путем настройки параметра гауссовского ядра, оставляя параметр масштаба руководства неизменным. Кроме того, мы представляем метод размытия запроса, эквивалентный размытию всех весов внимания без квадратичной сложности по числу токенов. В наших экспериментах SEG достигает улучшения Парето как по качеству, так и по снижению побочных эффектов. Код доступен по ссылке https://github.com/SusungHong/SEG-SDXL.

Не словами, а делами: большие языковые модели являются слабыми решателями итальянских ребусов.
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Ребусы - это головоломки, требующие ограниченного многоэтапного рассуждения для выявления скрытой фразы из набора изображений и букв. В данной работе мы представляем большую коллекцию вербализованных ребусов для итальянского языка и используем ее для оценки способностей к решению ребусов современных крупных языковых моделей. В то время как универсальные системы, такие как LLaMA-3 и GPT-4o, показывают плохие результаты на этой задаче, специализированная донастройка, кажется, улучшает производительность моделей. Однако мы обнаруживаем, что улучшения производительности от обучения в значительной степени обусловлены запоминанием. Наши результаты свидетельствуют о том, что решение ребусов остается сложным тестовым полигоном для оценки лингвистической грамотности и навыков последовательного следования инструкциям крупных языковых моделей.

Обобщенное обнаружение внедоменных данных и за его пределами в моделях видео-языка: обзорный анализ времени моделей
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Обнаружение образцов вне распределения (OOD) критически важно для обеспечения безопасности систем машинного обучения и сформировало область обнаружения OOD. Тем временем, несколько других проблем тесно связаны с обнаружением OOD, включая обнаружение аномалий (AD), обнаружение новизны (ND), распознавание открытого множества (OSR) и обнаружение выбросов (OD). Для объединения этих проблем была предложена обобщенная методология обнаружения OOD, таксономически классифицирующая эти пять проблем. Однако модели видео-языка (VLM), такие как CLIP, значительно изменили парадигму и размыли границы между этими областями, снова сбивая с толку исследователей. В этом обзоре мы вначале представляем обобщенную методологию обнаружения OOD v2, охватывающую эволюцию AD, ND, OSR, обнаружения OOD и OD в эпоху VLM. Наша методология показывает, что с некоторой неактивностью и интеграцией в области, наиболее сложными вызовами стали обнаружение OOD и AD. Кроме того, мы также выделяем значительное изменение в определении, настройках проблемы и бенчмарках; таким образом, мы представляем всесторонний обзор методологии обнаружения OOD, включая обсуждение других связанных задач для уточнения их отношения к обнаружению OOD. Наконец, мы исследуем прогресс в эпоху возникновения крупных моделей видео-языка (LVLM), таких как GPT-4V. Мы завершаем этот обзор открытыми вызовами и перспективами.

Сжатие высказывания по предложениям: задача, наборы данных и моделирование end-to-end с дистилляцией знаний языковой модели
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

Эта статья представляет новый подход, называемый суммированием речи по предложениям (Sen-SSum), который генерирует текстовые резюме из устного документа по предложениям. Sen-SSum объединяет обработку реального времени автоматического распознавания речи (ASR) с краткостью суммирования речи. Для изучения этого подхода мы представляем два набора данных для Sen-SSum: Mega-SSum и CSJ-SSum. Используя эти наборы данных, наше исследование оценивает два типа моделей на основе Transformer: 1) каскадные модели, которые объединяют ASR и сильные модели текстового суммирования, и 2) модели конечного к конечному (E2E), которые непосредственно преобразуют речь в текстовое резюме. Хотя модели E2E привлекательны для разработки вычислительно эффективных моделей, они показывают худшие результаты, чем каскадные модели. Поэтому мы предлагаем дистилляцию знаний для моделей E2E с использованием псевдо-резюме, сгенерированных каскадными моделями. Наши эксперименты показывают, что предложенная дистилляция знаний эффективно улучшает производительность модели E2E на обоих наборах данных.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SAM 2: Сегментация любых объектов на изображениях и видео
SAM 2: Segment Anything in Images and Videos

Aug 1

120

Gemma 2: Улучшение открытых языковых моделей при практическом размере
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

SF3D: Устойчивая быстрая реконструкция 3D-сетки с разверткой UV и разделением освещения
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Улучшение встраивания текста для небольших языковых моделей с помощью контрастного донастройки.
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

OmniParser для агента GUI на основе чистого зрительного восприятия
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

Грубая соответственность вызывает понимание трехмерного пространства-времени в мультимодельной языковой модели.
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

Финч: сжатие кеша ключ-значение под управлением подсказок
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

TurboEdit: Редактирование изображений на основе текста с использованием моделей диффузии с небольшим количеством шагов.
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

MM-Vet v2: Сложный бенчмарк для оценки больших мультимодальных моделей для интегрированных возможностей
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

Воссоздание любого: семантический перенос движения видео с использованием инверсии движения-текста
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

UniTalker: Масштабирование анимации трехмерного лица по аудио с помощью объединенной модели
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

Хвосты Рассказывают Истории: Транскрипции Манги на Уровне Глав с Именами Персонажей
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Улучшение понимания семантической близости в арабской обработке естественного языка с помощью обучения вложенных векторов.
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Сглаженное энергетическое руководство: Управление моделями диффузии с сниженной энергетической кривизной внимания
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

Не словами, а делами: большие языковые модели являются слабыми решателями итальянских ребусов.
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

Обобщенное обнаружение внедоменных данных и за его пределами в моделях видео-языка: обзорный анализ времени моделей
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Сжатие высказывания по предложениям: задача, наборы данных и моделирование end-to-end с дистилляцией знаний языковой модели
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix