HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

15 papers found

Обучение языковых моделей самокоррекции с использованием обучения с подкреплением
Training Language Models to Self-Correct via Reinforcement Learning

Sep 19

ByAviral Kumar, Vincent Zhuang, Rishabh Agarwal, Yi Su, John D Co-Reyes, Avi Singh, Kate Baumli, Shariq Iqbal, Colton Bishop, Rebecca Roelofs, Lei M Zhang, Kay McKinney, Disha Shrivastava, Cosmin Paduraru, George Tucker, Doina Precup, Feryal Behbahani, Aleksandra Faust

140

Способность к самокоррекции является весьма желательной характеристикой больших языковых моделей (LLM), однако она постоянно оказывается в значительной степени неэффективной в современных LLM. Существующие подходы к обучению самокоррекции требуют либо нескольких моделей, либо опираются на более способную модель или другие формы надзора. В этой связи мы разрабатываем многоходовой онлайн-подход к обучению с подкреплением (RL), SCoRe, который значительно улучшает способность LLM к самокоррекции, используя исключительно самогенерируемые данные. Для создания SCoRe мы сначала показываем, что варианты надзорного дообучения (SFT) на офлайн-следах коррекции, сгенерированных моделью, недостаточны для внедрения поведения самокоррекции. В частности, мы наблюдаем, что обучение через SFT страдает от несоответствия распределения между обучающими данными и собственными ответами модели или неявно предпочитает только определенный режим поведения коррекции, который часто неэффективен на этапе тестирования. SCoRe решает эти проблемы, обучаясь на собственном распределении самогенерируемых следов коррекции и используя соответствующую регуляризацию для направления процесса обучения на изучение стратегии самокоррекции, эффективной на этапе тестирования, вместо простого подгонки высокооцененных ответов для заданного запроса. Эта регуляризация предписывает выполнение первой фазы RL на базовой модели для создания инициализации политики, менее подверженной коллапсу, а затем использование бонуса вознаграждения для усиления самокоррекции во время обучения. Примененный к моделям Gemini 1.0 Pro и 1.5 Flash, мы обнаружили, что SCoRe достигает передовой производительности самокоррекции, улучшая самокоррекцию базовых моделей на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.

InfiMM-WebMath-40B: Развитие мультимодального предварительного обучения для улучшения математического мышления
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

Sep 19

ByXiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You

Предварительное обучение на масштабных высококачественных наборах данных является ключевым для улучшения способностей рассуждения крупных языковых моделей (LLM), особенно в специализированных областях, таких как математика. Несмотря на признанное значение, в области мультимодальных LLM в настоящее время отсутствует всеобъемлющий набор данных для предварительного обучения с открытым исходным кодом, специально разработанный для математического рассуждения. Для заполнения этой пробела мы представляем InfiMM-WebMath-40B, высококачественный набор данных с переплетенными изображениями и текстовыми документами. Он включает 24 миллиона веб-страниц, 85 миллионов связанных URL-адресов изображений и 40 миллиардов токенов текста, все тщательно извлеченных и отфильтрованных из CommonCrawl. Мы предоставляем подробный обзор нашего процесса сбора и обработки данных. Для демонстрации надежности InfiMM-WebMath-40B мы провели оценку как в настройках только текста, так и в мультимодальных настройках. Наши оценки на текстовых бенчмарках показывают, что, несмотря на использование всего 40 миллиардов токенов, наш набор данных значительно улучшает производительность нашей модели 1.3B, достигая результатов, сравнимых с DeepSeekMath-1.3B, который использует 120 миллиардов токенов для той же размерности модели. Тем не менее, с введением нашего мультимодального математического набора данных для предварительного обучения, наши модели устанавливают новый уровень качества среди моделей с открытым исходным кодом на мультимодальных математических бенчмарках, таких как MathVerse и We-Math. Мы предоставляем наши данные по ссылке https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

MMSearch: Оценка потенциала крупных моделей в качестве мультимодальных поисковых систем
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

Sep 19

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li

Появление больших языковых моделей (LLM) открыло путь для искусственных интеллектуальных поисковых систем, например, SearchGPT, демонстрируя новую парадигму взаимодействия человека с интернетом. Однако большинство существующих искусственных интеллектуальных поисковых систем ограничены текстовыми настройками, игнорируя мультимодальные запросы пользователей и тексто-изображенческую природу информации на веб-сайтах. Недавно большие мультимодальные модели (LMM) сделали впечатляющие успехи. Тем не менее, остается недостаточно исследованным, могут ли они функционировать как искусственные интеллектуальные поисковые системы, что оставляет открытым вопрос о потенциале LMM в мультимодальном поиске. Для этой цели мы сначала разрабатываем тонкую конвейерную систему, MMSearch-Engine, чтобы предоставить любым LMM возможности мультимодального поиска. Помимо этого, мы представляем MMSearch, комплексный бенчмарк для оценки производительности мультимодального поиска LMM. Составленный набор данных содержит 300 вручную собранных примеров, охватывающих 14 подобластей, которые не пересекаются с данными обучения текущих LMM, обеспечивая возможность получить правильный ответ только при поиске. С использованием MMSearch-Engine LMM оцениваются путем выполнения трех отдельных задач (повторный запрос, переранжирование и суммирование) и одной сложной задачи end-to-end с полным процессом поиска. Мы проводим обширные эксперименты на закрытых и открытых LMM. Среди всех протестированных моделей GPT-4o с MMSearch-Engine достигает лучших результатов, превосходя коммерческий продукт Perplexity Pro в задаче end-to-end, демонстрируя эффективность нашей предложенной конвейерной системы. Мы также представляем анализ ошибок, чтобы раскрыть, что текущие LMM все еще сталкиваются с трудностями в полном понимании мультимодальных поисковых задач, и проводим исследование абляции, чтобы указать на потенциал масштабирования вычислений во время тестирования для искусственной интеллектуальной поисковой системы. Мы надеемся, что MMSearch может предоставить уникальные идеи для направления будущего развития мультимодальных искусственных интеллектуальных поисковых систем. Страница проекта: https://mmsearch.github.io

B4: К Оптимальной Оценке Правдоподобных Решений Кода с Правдоподобными Тестами
B4: Towards Optimal Assessment of Plausible Code Solutions with Plausible Tests

Sep 13

ByMouxiang Chen, Zhongxin Liu, He Tao, Yusu Hong, David Lo, Xin Xia, Jianling Sun

Выбор наилучшего кодового решения из нескольких сгенерированных является важной задачей в генерации кода, которую можно выполнить, используя надежные валидаторы (например, тестовые случаи, написанные разработчиком) для помощи. Поскольку надежные тестовые случаи не всегда доступны и могут быть дорогими в построении на практике, исследователи предлагают автоматически генерировать тестовые случаи для оценки кодовых решений. Однако, когда и кодовые решения, и тестовые случаи являются правдоподобными и ненадежными, выбор наилучшего решения становится сложной задачей. Хотя некоторые эвристические стратегии были предложены для решения этой проблемы, они лишены крепкой теоретической гарантии, и остается открытым вопрос о существовании оптимальной стратегии выбора. Наша работа вносит два вклада. Во-первых, мы показываем, что в рамках байесовского подхода оптимальная стратегия выбора может быть определена на основе апостериорной вероятности наблюдаемых прохождений состояний между решениями и тестами. Проблема определения наилучшего решения затем формулируется как задача целочисленного программирования. Во-вторых, мы предлагаем эффективный подход для приближения этой оптимальной (но невычислимой) стратегии, где ошибка приближения ограничена правильностью предварительных знаний. Затем мы внедряем эффективные предварительные знания для настройки задач генерации кода. Как теоретические, так и эмпирические исследования подтверждают, что существующие эвристики ограничены в выборе наилучших решений с правдоподобными тестовыми случаями. Наша предложенная приближенная оптимальная стратегия B4 значительно превосходит существующие эвристики в выборе кодовых решений, сгенерированных крупными языковыми моделями (LLM) с тестами, сгенерированными LLM, достигая относительного улучшения производительности до 50% по сравнению с самой сильной эвристикой и до 246% по сравнению с случайным выбором в наиболее сложных сценариях. Наш код общедоступен по адресу https://github.com/ZJU-CTAG/B4.

Oryx MLLM: Понимание пространственно-временных данных по требованию при произвольном разрешении
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

Sep 19

ByZuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao

Визуальные данные поступают в различных формах, начиная от небольших иконок всего нескольких пикселей до длинных видеороликов, охватывающих часы. Существующие мультимодальные LLM-модели обычно стандартизируют эти разнообразные визуальные входы до фиксированного разрешения для визуальных кодировщиков и выдают схожее количество токенов для LLM. Этот подход неоптимален для мультимодального понимания и неэффективен для обработки входов с длинным и коротким визуальным содержанием. Для решения проблемы мы предлагаем Oryx, унифицированную мультимодальную архитектуру для пространственно-временного понимания изображений, видеороликов и многозрительных 3D сцен. Oryx предлагает решение по запросу для плавной и эффективной обработки визуальных входов с произвольными пространственными размерами и временными длинами благодаря двум основным инновациям: 1) предварительно обученная модель OryxViT, способная кодировать изображения любого разрешения в LLM-совместимые визуальные представления; 2) динамический модуль сжатия, поддерживающий сжатие визуальных токенов от 1x до 16x по запросу. Эти конструктивные особенности позволяют Oryx обрабатывать крайне длинные визуальные контексты, такие как видеоролики, с низким разрешением и высоким сжатием, сохраняя при этом высокую точность распознавания для задач, таких как понимание документов с исходным разрешением и без сжатия. Помимо архитектурных улучшений, улучшенная кураторская работа с данными и специализированное обучение по извлечению длинных контекстов и пространственно-осведомленных данных помогают Oryx одновременно достичь сильных возможностей в понимании изображений, видеороликов и 3D-мультимодальности. Наша работа доступна в открытом доступе на https://github.com/Oryx-mllm/Oryx.

LVCD: Цветизация видео по контуру с использованием ссылок и моделей диффузии
LVCD: Reference-based Lineart Video Colorization with Diffusion Models

Sep 19

ByZhitong Huang, Mohan Zhang, Jing Liao

Мы предлагаем первую структуру видео-диффузии для цветизации видео с линейными чертами с использованием ссылочных данных. В отличие от предыдущих работ, основанных исключительно на моделях генерации изображений для раскрашивания кадр за кадром, наш подход использует масштабную предварительно обученную модель видео-диффузии для создания цветных анимационных видео. Этот подход обеспечивает более временно согласованные результаты и лучше справляется с большими движениями. Во-первых, мы представляем Sketch-guided ControlNet, который обеспечивает дополнительное управление для настройки модели диффузии изображения в видео для управляемого синтеза видео, позволяя создавать анимационные видео на основе линейных черт. Затем мы предлагаем Reference Attention для упрощения передачи цветов из опорного кадра в другие кадры с быстрыми и обширными движениями. Наконец, мы представляем новую схему последовательной выборки, включающую модуль наложенного смешивания и Prev-Reference Attention, для расширения модели видео-диффузии за пределы ее исходного фиксированного ограничения длины для длительной цветизации видео. Как качественные, так и количественные результаты демонстрируют, что наш метод значительно превосходит современные техники по качеству кадра и видео, а также временной согласованности. Более того, наш метод способен создавать высококачественные, длительные временно согласованные анимационные видео с большими движениями, что недостижимо в предыдущих работах. Наш код и модель доступны по адресу https://luckyhzt.github.io/lvcd.

Масштабирование умных моделей: ускорение предварительного обучения больших языковых моделей с инициализацией малых моделей.
Scaling Smart: Accelerating Large Language Model Pre-training with Small Model Initialization

Sep 19

ByMohammad Samragh, Iman Mirzadeh, Keivan Alizadeh Vahid, Fartash Faghri, Minsik Cho, Moin Nabi, Devang Naik, Mehrdad Farajtabar

Фаза предварительного обучения языковых моделей часто начинается с параметров, инициализированных случайным образом. С учетом текущих тенденций в масштабировании моделей обучение их большого количества параметров может быть чрезвычайно медленным и затратным. В отличие от этого, небольшие языковые модели дешевле обучать, но часто не могут достичь точности больших моделей. В данной статье мы исследуем увлекательную идею объединения этих двух различных режимов: можем ли мы разработать метод инициализации больших языковых моделей с использованием меньших предварительно обученных моделей? Принесет ли такая инициализация какие-либо преимущества в плане времени обучения и конечной точности? В данной статье мы представляем HyperCloning, метод, который может расширить параметры предварительно обученной языковой модели до параметров более крупной модели с увеличенными скрытыми измерениями. Наш метод гарантирует, что более крупная модель сохраняет функциональность меньшей модели. В результате более крупная модель уже наследует предсказательную силу и точность меньшей модели до начала обучения. Мы демонстрируем, что обучение такой инициализированной модели приводит к значительной экономии в плане часов GPU, необходимых для предварительного обучения больших языковых моделей.

3DTopia-XL: Масштабирование генерации высококачественных 3D-объектов с помощью диффузии примитивов
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

Sep 19

ByZhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu

Растущий спрос на высококачественные 3D-ресурсы в различных отраслях требует эффективного и автоматизированного создания 3D-контента. Несмотря на недавние достижения в области 3D-генеративных моделей, существующие методы все еще сталкиваются с проблемами скорости оптимизации, геометрической точности и нехваткой ресурсов для физически основанного рендеринга (PBR). В данной статье мы представляем 3DTopia-XL, масштабную собственную 3D-генеративную модель, разработанную для преодоления этих ограничений. 3DTopia-XL использует новаторское примитивное трехмерное представление, PrimX, которое кодирует детальную форму, альбедо и материальное поле в компактном тензорном формате, облегчая моделирование геометрии высокого разрешения с ресурсами PBR. На основе нового представления мы предлагаем генеративную структуру на основе Диффузионного Трансформера (DiT), которая включает в себя 1) Сжатие Примитивного Патча и 2) Латентную Диффузию Примитивов. 3DTopia-XL учится генерировать высококачественные 3D-ресурсы из текстовых или визуальных входных данных. Мы проводим обширные качественные и количественные эксперименты, чтобы продемонстрировать, что 3DTopia-XL значительно превосходит существующие методы в создании высококачественных 3D-ресурсов с мелкозернистыми текстурами и материалами, эффективно сокращая разрыв в качестве между генеративными моделями и прикладными задачами в реальном мире.

StoryMaker: К голистическим и последовательным персонажам в генерации текста в изображение
StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation

Sep 19

ByZhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang

Методы генерации персонализированных изображений без настройки достигли значительного успеха в поддержании согласованности лиц, то есть идентичности, даже при наличии нескольких персонажей. Однако отсутствие целостной согласованности в сценах с несколькими персонажами затрудняет способность этих методов создавать связное повествование. В данной статье мы представляем StoryMaker, решение по персонализации, которое сохраняет не только согласованность лиц, но также одежды, причесок и фигур, тем самым облегчая создание истории через серию изображений. StoryMaker включает условия на основе идентичности лиц и обрезанных изображений персонажей, включая одежду, прически и фигуры. Конкретно, мы интегрируем информацию об идентичности лиц с обрезанными изображениями персонажей, используя Ресэмплер с учетом позиции воспринимающего (PPR), чтобы получить отличительные черты персонажей. Для предотвращения смешивания нескольких персонажей и фона мы отдельно ограничиваем области влияния кросс-внимания различных персонажей и фона с использованием потерь MSE с масками сегментации. Кроме того, мы обучаем сеть генерации с учетом поз, чтобы способствовать разделению от поз. Также используется LoRA для улучшения достоверности и качества. Эксперименты подчеркивают эффективность нашего подхода. StoryMaker поддерживает множество приложений и совместим с другими общественными плагинами. Наши исходные коды и веса модели доступны по адресу https://github.com/RedAIGC/StoryMaker.

FlexiTex: Улучшение генерации текстур с визуальным руководством
FlexiTex: Enhancing Texture Generation with Visual Guidance

Sep 19

ByDaDong Jiang, Xianghui Yang, Zibo Zhao, Sheng Zhang, Jiaao Yu, Zeqiang Lai, Shaoxiong Yang, Chunchao Guo, Xiaobo Zhou, Zhihui Ke

Недавние методы генерации текстур достигают впечатляющих результатов благодаря мощным генеративным априорным знаниям, которые они используют из масштабных моделей диффузии текст-изображение. Однако абстрактные текстовые подсказки ограничены в предоставлении глобальной текстурной или формовой информации, что приводит к появлению размытых или несогласованных узоров при генерации текстуры. Для решения этой проблемы мы представляем FlexiTex, встраивая богатую информацию с помощью визуального руководства для создания текстуры высокого качества. Основу FlexiTex составляет модуль улучшения визуального руководства, который интегрирует более конкретную информацию из визуального руководства для уменьшения неоднозначности в текстовой подсказке и сохранения высокочастотных деталей. Для дальнейшего улучшения визуального руководства мы представляем модуль адаптации с учетом направления, который автоматически разрабатывает направленные подсказки на основе различных ракурсов камеры, избегая проблемы Януса и сохраняя семантическую глобальную согласованность. Благодаря визуальному руководству FlexiTex производит количественно и качественно достоверные результаты, демонстрируя свой потенциал для продвижения генерации текстур для прикладных задач в реальном мире.

Языковые модели учатся вводить людей в заблуждение с помощью обучения с подкреплением на основе функции вознаграждения, ориентированной на человека.
Language Models Learn to Mislead Humans via RLHF

Sep 19

ByJiaxin Wen, Ruiqi Zhong, Akbir Khan, Ethan Perez, Jacob Steinhardt, Minlie Huang, Samuel R. Boman, He He, Shi Feng

Языковые модели (LMs) могут допускать ошибки, которые сложно обнаружить для людей, особенно когда задача сложная. RLHF, наиболее популярный метод после обучения, может усугубить эту проблему: для достижения более высоких наград LMs могут становиться лучше в убеждении людей в своей правоте даже тогда, когда они ошибаются. Мы изучаем это явление в рамках стандартного конвейера RLHF, называя его "U-SOPHISTRY", поскольку оно не предназначено разработчиками модели. Конкретно, мы просим ограниченных по времени (например, 3-10 минут) человеческих испытуемых оценить правильность выводов модели и рассчитать точность людей по сравнению с эталонными метками. В задаче вопрос-ответ (QuALITY) и задаче программирования (APPS) RLHF делает LMs лучше в убеждении наших испытуемых, но не в выполнении задачи правильно. RLHF также делает модель более сложной для оценки: ложноположительная оценка наших испытуемых увеличивается на 24,1% в QuALITY и на 18,3% в APPS. Наконец, мы показываем, что метод проникновения, передовой подход для обнаружения преднамеренной софистики (например, моделей с задними дверями), не обобщается на U-SOPHISTRY. Наши результаты подчеркивают важный режим отказа RLHF и призывают к дальнейшему исследованию в помощи людям в их выравнивании.

MURI: Наборы данных для настройки инструкций высокого качества для языков с ограниченными ресурсами с использованием обратных инструкций
MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions

Sep 19

ByAbdullatif Köksal, Marion Thaler, Ayyoob Imani, Ahmet Üstün, Anna Korhonen, Hinrich Schütze

Настройка инструкций улучшает крупные языковые модели (LLM), выстраивая их в соответствии с предпочтениями людей в различных задачах. Традиционные подходы к созданию наборов данных для настройки инструкций сталкиваются с серьезными проблемами для языков с ограниченными ресурсами из-за зависимости от аннотации данных. В данной работе представлен новый метод, мультиязычные обратные инструкции (MURI), который генерирует высококачественные наборы данных для настройки инструкций для языков с ограниченными ресурсами без необходимости участия человеческих аннотаторов или существующих мультиязычных моделей. Используя обратные инструкции и трансляционный конвейер, MURI создает пары инструкция-вывод из существующих текстов, написанных на языках с ограниченными ресурсами. Этот метод обеспечивает культурную актуальность и разнообразие, используя тексты из различных родных областей и применяя фильтры для исключения неприемлемого контента. Наш набор данных, MURI-IT, включает более 2 миллионов пар инструкция-вывод на 200 языках. Оценка со стороны носителей языка и эксперименты по настройке с моделями mT5 демонстрируют эффективность подхода как для понимания естественного языка, так и для генерации открытого текста. Мы публично выпустили наборы данных и модели на https://github.com/akoksal/muri.

3DGS-LM: Ускоренная оптимизация гауссовского сглаживания с помощью метода Левенберга-Марквардта
3DGS-LM: Faster Gaussian-Splatting Optimization with Levenberg-Marquardt

Sep 19

ByLukas Höllein, Aljaž Božič, Michael Zollhöfer, Matthias Nießner

Мы представляем 3DGS-LM, новый метод, ускоряющий восстановление трехмерного гауссовского сплетения (3DGS) путем замены его оптимизатора ADAM на настроенный метод Левенберга-Марквардта (LM). Существующие методы сокращают время оптимизации путем уменьшения количества гауссов или улучшения реализации дифференцируемого растеризатора. Однако они все еще полагаются на оптимизатор ADAM для подгонки параметров гаусса сцены за тысячи итераций, что может занять до часа. Для этого мы заменяем оптимизатор на LM, который работает с дифференцируемым растеризатором 3DGS. Для эффективной параллелизации на GPU мы предлагаем структуру кэширования данных для промежуточных градиентов, позволяющую нам эффективно вычислять произведения Якоби-вектор в пользовательских ядрах CUDA. На каждой итерации LM мы вычисляем направления обновления из нескольких подмножеств изображений с использованием этих ядер и комбинируем их в взвешенное среднее. В целом, наш метод на 30% быстрее оригинального 3DGS при сохранении того же качества восстановления. Наша оптимизация также не зависит от других методов, ускоряющих 3DGS, что позволяет даже более быстрое ускорение по сравнению с обычным 3DGS.

Удаление шума с повторным использованием: использование согласованности движения между кадрами для эффективной генерации скрытого видео.
Denoising Reuse: Exploiting Inter-frame Motion Consistency for Efficient Video Latent Generation

Sep 19

ByChenyu Wang, Shuo Yan, Yixuan Chen, Yujiang Wang, Mingzhi Dong, Xiaochen Yang, Dongsheng Li, Robert P. Dick, Qin Lv, Fan Yang, Tun Lu, Ning Gu, Li Shang

Генерация видео с использованием моделей на основе диффузии ограничена высокими вычислительными затратами из-за итеративного процесса диффузии по кадрам. В данной работе представлена сеть Diffusion Reuse MOtion (Dr. Mo) для ускорения генерации латентного видео. Нашим ключевым открытием является то, что крупнозернистые шумы на ранних этапах денойзинга продемонстрировали высокую согласованность движения между последовательными кадрами видео. Исходя из этого наблюдения, Dr. Mo передает эти крупнозернистые шумы на следующий кадр, интегрируя тщательно разработанные, легкие межкадровые движения, устраняя массовую вычислительную избыточность в моделях диффузии по кадрам. Более чувствительные и мелкозернистые шумы все еще получаются на более поздних этапах денойзинга, что может быть важным для сохранения визуального качества. Таким образом, определение того, на каком промежуточном этапе следует переключиться с передачи на основе движения на денойзинг, может быть ключевой проблемой и важным компромиссом между эффективностью и качеством. Dr. Mo использует мета-сеть под названием Denoising Step Selector (DSS) для динамического определения желательных промежуточных этапов на протяжении кадров видео. Обширные оценки на задачах генерации и редактирования видео показали, что Dr. Mo может существенно ускорить модели диффузии в видеозадачах с улучшенным визуальным качеством.

CLAIR-A: Использование больших языковых моделей для оценки аудио-подписей
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

Sep 19

ByTsung-Han Wu, Joseph E. Gonzalez, Trevor Darrell, David M. Chan

Задача автоматической транскрипции аудио (Automated Audio Captioning, AAC) заключается в запросе моделей на генерацию естественноязыковых описаний аудиовхода. Оценка этих машинно-сгенерированных аудиоописаний является сложной задачей, требующей учета различных факторов, среди которых понимание аудиосцены, вывод звуковых объектов, временная согласованность и окружающий контекст сцены. В то время как текущие методы фокусируются на конкретных аспектах, они часто не способны обеспечить общую оценку, которая хорошо коррелирует с человеческим суждением. В данной работе мы предлагаем CLAIR-A, простой и гибкий метод, который использует возможности нулевой настройки крупных языковых моделей (Large Language Models, LLMs) для оценки кандидатских аудиоописаний, обращаясь напрямую к LLMs за оценкой семантического расстояния. В наших оценках CLAIR-A лучше предсказывает человеческие суждения о качестве по сравнению с традиционными метриками, с улучшением относительной точности на 5,8% по сравнению с метрикой, специфичной для области FENSE, и до 11% по сравнению с лучшей универсальной мерой на наборе данных Clotho-Eval. Более того, CLAIR-A предлагает большую прозрачность, позволяя языковой модели объяснить рассуждения за свои оценки, и данные объяснения оцениваются человеческими оценщиками на 30% лучше, чем те, которые предоставлены базовыми методами. CLAIR-A доступен публично по адресу https://github.com/DavidMChan/clair-a.

MMSearch: Оценка потенциала крупных моделей в качестве мультимодальных поисковых систем
MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

Sep 19

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li