Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

VisionZip: Чем длиннее, тем лучше, но необязательно в моделях видеоязыкового восприятия.
VisionZip: Longer is Better but Not Necessary in Vision Language Models

Dec 5

BySenqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia

118

Недавние достижения в моделях видео-языка улучшили производительность за счёт увеличения длины визуальных токенов, делая их значительно длиннее текстовых токенов и существенно увеличивая вычислительные затраты. Однако мы наблюдаем, что визуальные токены, сгенерированные популярными визуальными кодировщиками, такими как CLIP и SigLIP, содержат значительную избыточность. Для решения этой проблемы мы представляем VisionZip, простой, но эффективный метод, который выбирает набор информативных токенов для ввода в языковую модель, уменьшая избыточность визуальных токенов и повышая эффективность при сохранении производительности модели. Предложенный VisionZip может быть широко применен к задачам понимания изображений и видео и хорошо подходит для многоразовых диалогов в реальных сценариях, где предыдущие методы часто показывают низкую производительность. Экспериментальные результаты показывают, что VisionZip превосходит предыдущий метод, признанный лучшим в данной области, как минимум на 5% во всех настройках. Более того, наш метод значительно увеличивает скорость вывода модели, улучшая время предварительной обработки в 8 раз и позволяя модели LLaVA-Next 13B выводить результаты быстрее, чем модель LLaVA-Next 7B, при этом достигая лучших результатов. Кроме того, мы анализируем причины этой избыточности и призываем сообщество сосредоточиться на извлечении лучших визуальных признаков, а не просто увеличивать длину токенов. Наш код доступен по ссылке https://github.com/dvlab-research/VisionZip.

Структурированные 3D латенты для масштабируемого и универсального создания 3D моделей.
Structured 3D Latents for Scalable and Versatile 3D Generation

Dec 2

ByJianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang

Мы представляем новый метод генерации 3D-изображений для создания универсальных и высококачественных 3D-ресурсов. Основой является объединенное структурированное латентное (SLAT) представление, которое позволяет декодировать в различные выходные форматы, такие как радиационные поля, 3D-гауссианы и сетки. Это достигается путем интеграции разреженной 3D-сетки с плотными многовидовыми визуальными признаками, извлеченными из мощной модели базового зрения, всесторонне захватывающей как структурную (геометрическую), так и текстурную (внешнюю) информацию, сохраняя гибкость во время декодирования. Мы используем преобразователи прямого потока, настроенные для SLAT, в качестве наших моделей генерации 3D и обучаем модели с до 2 миллиардами параметров на большом наборе данных 3D-ресурсов из 500 тыс. разнообразных объектов. Наша модель генерирует высококачественные результаты с условиями текста или изображения, значительно превосходящие существующие методы, включая недавние на сходных масштабах. Мы демонстрируем гибкий выбор формата вывода и возможности локального редактирования 3D, которые не предлагались предыдущими моделями. Код, модель и данные будут опубликованы.

Aguvis: Единые агенты чистого зрения для автономного взаимодействия с графическим интерфейсом пользователя
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Dec 5

ByYiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong

Графические пользовательские интерфейсы (GUI) критически важны для взаимодействия человека с компьютером, однако автоматизация задач GUI остается сложной из-за сложности и изменчивости визуальных сред. Существующие подходы часто полагаются на текстовые представления GUI, что вводит ограничения в обобщении, эффективности и масштабируемости. В данной статье мы представляем Aguvis, унифицированный чисто видеоориентированный фреймворк для автономных агентов GUI, работающий на различных платформах. Наш подход использует наблюдения на основе изображений, привязывает инструкции к естественному языку к визуальным элементам и использует единое пространство действий для обеспечения обобщения между платформами. Для преодоления ограничений предыдущих работ мы интегрируем явное планирование и рассуждения в модель, улучшая ее способность автономно перемещаться и взаимодействовать с комплексными цифровыми средами. Мы создаем крупномасштабный набор данных траекторий агентов GUI, включающий мультимодальное рассуждение и привязку, и используем двухэтапный процесс обучения, сначала сосредотачиваясь на общей привязке GUI, а затем на планировании и рассуждениях. Через комплексные эксперименты мы демонстрируем, что Aguvis превосходит предыдущие методы, как в офлайн, так и в реальных онлайн сценариях, достигая, насколько нам известно, первого полностью автономного чисто видеоориентированного агента GUI, способного выполнять задачи независимо без сотрудничества с внешними закрытыми моделями. Мы опубликовали все наборы данных, модели и инструкции по обучению на https://aguvis-project.github.io/.

Florence-VL: Улучшение моделей видео-языка с помощью генеративного видео-кодера и объединения глубины и ширины.
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

Dec 5

ByJiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao

Мы представляем Florence-VL, новое семейство мультимодальных крупных языковых моделей (MLLM) с обогащенными визуальными представлениями, созданными Florence-2, моделью генеративного визионного фундамента. В отличие от широко используемой модели CLIP-стиля визионного трансформера, обученной методом контрастного обучения, Florence-2 способен захватывать различные уровни и аспекты визуальных особенностей, которые более универсальны для адаптации к различным задачам. Мы предлагаем новую архитектуру объединения признаков и инновационный метод обучения, который эффективно интегрирует визуальные особенности Florence-2 в предварительно обученные LLM, такие как Phi 3.5 и LLama 3. В частности, мы предлагаем "объединение глубины и ширины (DBFusion)" для объединения визуальных особенностей, извлеченных из разных глубин и под различными подсказками. Наше обучение модели состоит из предварительного обучения всей модели end-to-end, за которым следует донастройка слоя проекции и LLM на тщательно разработанном наборе разнообразных наборов данных с открытым исходным кодом, включающих подписи к изображениям высокого качества и пары настройки инструкций. Наше количественное анализ и визуализация визуальных особенностей Florence-VL показывают ее преимущества по сравнению с популярными визионными кодировщиками в области выравнивания визуальных и языковых данных, где обогащенная глубина и ширина играют важную роль. Florence-VL достигает значительных улучшений по сравнению с существующими передовыми MLLM на различных мультимодальных и визионно-центричных бенчмарках, охватывающих общие VQA, восприятие, галлюцинации, OCR, графики, понимание, основанное на знаниях и т. д. Для облегчения будущих исследований наши модели и полный метод обучения доступны в открытом доступе. https://github.com/JiuhaiChen/Florence-VL

NVILA: Эффективные модели визуального языка Frontier
NVILA: Efficient Frontier Visual Language Models

Dec 5

ByZhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu

Визуальные языковые модели (VLM) в последние годы значительно продвинулись в точности. Однако их эффективность получила гораздо меньше внимания. В данной статье представлена NVILA, семейство открытых VLM, разработанных для оптимизации как эффективности, так и точности. На основе VILA мы улучшаем его архитектуру модели, сначала увеличивая пространственное и временное разрешение, а затем сжимая визуальные токены. Этот подход "увеличить-затем-сжать" позволяет NVILA эффективно обрабатывать изображения высокого разрешения и длинные видео. Мы также проводим систематическое исследование для улучшения эффективности NVILA на протяжении всего ее жизненного цикла, начиная с обучения и до настройки. NVILA соответствует или превосходит точность многих ведущих открытых и закрытых VLM на широком спектре бенчмарков изображений и видео. В то же время она снижает затраты на обучение в 4,5 раза, использование памяти при настройке в 3,4 раза, задержку предварительной загрузки в 1,6-2,2 раза и задержку декодирования в 1,2-2,8 раза. Мы скоро опубликуем наш код и модели для обеспечения воспроизводимости.

Оценка языковых моделей в качестве генераторов синтетических данных
Evaluating Language Models as Synthetic Data Generators

Dec 4

BySeungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig

С увеличением использования синтетических данных в языковых моделях (LM) после обучения способность LM генерировать данные высокого качества стала почти так же важной, как его способность непосредственно решать проблемы. В то время как предыдущие работы сосредотачивались на разработке эффективных методов генерации данных, им не хватало систематического сравнения различных LM в качестве генераторов данных в единой среде. Для заполнения этого пробела мы предлагаем AgoraBench, бенчмарк, который предоставляет стандартизированные настройки и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона обучающих примеров с использованием 6 LM и обучения 99 студенческих моделей мы выявляем ключевые идеи о способностях LM к генерации данных. Во-первых, мы замечаем, что LM обладают различными сильными сторонами. Например, GPT-4o отличается в генерации новых проблем, в то время как Claude-3.5-Sonnet лучше справляется с улучшением существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого несколько внутренних характеристик качества данных, включая качество ответа, перплексию и сложность инструкций, вместе служат лучшими показателями. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и экономичный выбор модели значительно влияют на эффективность генерации данных.

Code-as-Monitor: Программирование на визуальном языке с учетом ограничений для реактивного и проактивного обнаружения отказов роботов
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Dec 5

ByEnshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang

Автоматическое обнаружение и предотвращение открытых сбоев являются критически важными в замкнутых робототехнических системах. Недавние исследования часто сталкиваются с трудностями в одновременной идентификации неожиданных сбоев реактивно после их возникновения и предотвращении предсказуемых сбоев проактивно. В этой связи мы предлагаем метод Code-as-Monitor (CaM), новую парадигму, использующую модель видения-языка (VLM) для обнаружения открытых сбоев как реактивно, так и проактивно. Основой нашего метода является формулирование обеих задач как объединенного набора проблем удовлетворения пространственно-временных ограничений и использование сгенерированного VLM кода для их оценки в реальном времени. Для улучшения точности и эффективности мониторинга мы дополнительно вводим элементы ограничений, которые абстрагируют сущности, связанные с ограничениями или их части, в компактные геометрические элементы. Этот подход предлагает большую общность, упрощает отслеживание и облегчает визуальное программирование с учетом ограничений, используя эти элементы в качестве визуальных подсказок. Эксперименты показывают, что CaM достигает более высокий процент успешных результатов на 28,7% и сокращает время выполнения на 31,8% при сильных помехах по сравнению с базовыми показателями на трех симуляторах и в реальной среде. Более того, CaM может быть интегрирован с политиками управления с открытым контуром для формирования замкнутых систем, обеспечивая выполнение задач с длительным горизонтом в перегруженных сценах с динамическими окружениями.

Шум стоит руководства диффузией.
A Noise is Worth Diffusion Guidance

Dec 5

ByDonghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim

Модели диффузии отличаются в создании изображений высокого качества. Однако текущие модели диффузии испытывают затруднения в создании надежных изображений без методов руководства, таких как метод руководства без классификатора (CFG). Но действительно ли необходимы методы руководства? Наблюдая, что шум, полученный путем инверсии диффузии, может восстанавливать изображения высокого качества без руководства, мы фокусируемся на начальном шуме конвейера денойзинга. Путем отображения гауссовского шума в "шум без руководства" мы обнаруживаем, что небольшие низкочастотные компоненты малой амплитуды значительно улучшают процесс денойзинга, устраняя необходимость в руководстве и тем самым улучшая как производительность вывода, так и использование памяти. Развивая эту идею, мы предлагаем \ours, новый метод, который заменяет методы руководства одним улучшением начального шума. Этот улучшенный шум позволяет создавать изображения высокого качества без руководства в рамках того же конвейера диффузии. Наша модель улучшения шума использует эффективное обучение в пространстве шума, достигая быстрой сходимости и высокой производительности всего с 50 тыс. пар текст-изображение. Мы подтверждаем ее эффективность по различным метрикам и анализируем, как улучшенный шум может устранить необходимость в руководстве. См. нашу страницу проекта: https://cvlab-kaist.github.io/NoiseRefine/.

MV-Адаптер: Создание изображений с согласованными представлениями из нескольких видов источников данных сделано просто
MV-Adapter: Multi-view Consistent Image Generation Made Easy

Dec 4

ByZehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng

Существующие методы генерации многозрительных изображений часто вносят инвазивные изменения в предварительно обученные модели текст-к-изображению (T2I) и требуют полной донастройки, что приводит к (1) высоким вычислительным затратам, особенно с большими базовыми моделями и изображениями высокого разрешения, и (2) ухудшению качества изображения из-за сложностей оптимизации и недостатка высококачественных 3D данных. В данной статье мы предлагаем первое решение на основе адаптеров для генерации многозрительных изображений и представляем MV-Adapter, универсальный адаптер plug-and-play, который улучшает модели T2I и их производные, не изменяя оригинальную структуру сети или пространство признаков. Обновляя меньшее количество параметров, MV-Adapter обеспечивает эффективное обучение и сохраняет встроенные в предварительно обученные модели знания, снижая риски переобучения. Для эффективного моделирования геометрических знаний 3D внутри адаптера мы предлагаем инновационные конструкции, включающие дублированные слои самовнимания и параллельную архитектуру внимания, позволяющие адаптеру наследовать мощные априорные знания предварительно обученных моделей для моделирования новых 3D знаний. Более того, мы представляем объединенный кодер условий, который плавно интегрирует параметры камеры и геометрическую информацию, облегчая приложения, такие как генерация 3D на основе текста и изображений и текстурирование. MV-Adapter достигает генерации многозрительных изображений с разрешением 768 на Stable Diffusion XL (SDXL) и демонстрирует адаптивность и универсальность. Он также может быть расширен до генерации произвольных видов, обеспечивая более широкие применения. Мы показываем, что MV-Adapter устанавливает новый стандарт качества для генерации многозрительных изображений и открывает новые возможности благодаря своей эффективности, адаптивности и универсальности.

Объединение негативных токенов: Направление атаки на признаки на основе изображений
Negative Token Merging: Image-based Adversarial Feature Guidance

Dec 2

ByJaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer

Руководство по атакам на основе текста с использованием отрицательного подсказывания стало широко применяемым подходом для отталкивания выходных характеристик от нежелательных концепций. Хотя это полезно, выполнение атак на основе текста одними лишь текстовыми данными может быть недостаточным для улавливания сложных визуальных концепций и избегания нежелательных визуальных элементов, таких как защищенные авторским правом персонажи. В данной статье мы впервые исследуем альтернативную модальность в этом направлении, выполняя атаки напрямую с использованием визуальных характеристик из исходного изображения или других изображений в пакете. В частности, мы представляем метод объединения отрицательных токенов (NegToMe), простой, но эффективный подход без обучения, который осуществляет атаки путем выборочного отталкивания соответствующих семантических характеристик (между исходным и сгенерированным изображениями) во время процесса обратного диффузии. При использовании относительно других изображений в одном пакете мы наблюдаем, что NegToMe значительно увеличивает разнообразие выходных данных (расовое, гендерное, визуальное), не жертвуя качеством выходного изображения. Аналогично, при использовании относительно защищенного авторским правом актива NegToMe помогает уменьшить визуальную схожесть с защищенным контентом на 34.57%. NegToMe легок в реализации с помощью всего нескольких строк кода, требует лишь незначительно большего времени вывода (<4%) и обобщается на различные архитектуры диффузии, такие как Flux, которые не поддерживают использование отдельного отрицательного подсказывания. Код доступен по адресу https://negtome.github.io

AnyDressing: Настроенное многокомпонентное виртуальное примерочное помещение с использованием моделей латентной диффузии
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

Dec 5

ByXinghui Li, Qichao Sun, Pengze Zhang, Fulong Ye, Zhichao Liao, Wanquan Feng, Songtao Zhao, Qian He

Недавние достижения в генерации изображений, сосредоточенных на одежде, на основе текстовых и изображенческих подсказок с использованием моделей диффузии впечатляют. Однако существующие методы не поддерживают различные комбинации одежды и испытывают трудности в сохранении деталей одежды при соблюдении верности текстовым подсказкам, что ограничивает их производительность в различных сценариях. В данной статье мы сосредотачиваемся на новой задаче, а именно, на многокомпонентном виртуальном одевании, и предлагаем новый метод AnyDressing для настройки персонажей в зависимости от любой комбинации одежды и любых персонализированных текстовых подсказок. AnyDressing включает две основные сети, названные GarmentsNet и DressingNet, которые посвящены извлечению подробных характеристик одежды и генерации настраиваемых изображений. В частности, мы предлагаем эффективный и масштабируемый модуль, названный Извлекатель Характеристик, специфичных для Одежды, в GarmentsNet для индивидуального кодирования текстур одежды параллельно. Этот дизайн предотвращает путаницу с одеждой, обеспечивая при этом эффективность сети. Тем временем, мы разрабатываем адаптивный механизм Внимания к Одеванию и новую стратегию Обучения Локализации Одежды на Уровне Экземпляра в DressingNet для точного внедрения многокомпонентных характеристик в соответствующие области. Этот подход эффективно интегрирует текстурные подсказки многокомпонентной одежды в созданные изображения и дополнительно улучшает согласованность текста и изображения. Кроме того, мы вводим стратегию Обучения Текстуры, Улучшенной Одеждой для улучшения деталей текстуры одежды. Благодаря нашему хорошо продуманному дизайну, AnyDressing может служить в качестве подключаемого модуля для легкой интеграции с любыми расширениями управления сообществом для моделей диффузии, улучшая разнообразие и управляемость синтезированных изображений. Обширные эксперименты показывают, что AnyDressing достигает лучших результатов в своем классе.

Глобальный MMLU: Понимание и устранение культурных и языковых предвзятостей в многоязычной оценке
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

Dec 4

ByShivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker

Культурные предвзятости в многоязычных наборах данных представляют существенные вызовы для их эффективности в качестве глобальных бенчмарков. Эти предвзятости происходят не только из языка, но и из культурных знаний, необходимых для интерпретации вопросов, что снижает практическую полезность переведенных наборов данных, таких как MMLU. Более того, перевод часто вносит артефакты, которые могут исказить значение или ясность вопросов на целевом языке. Распространенной практикой в многоязычной оценке является использование машинных переведенных наборов данных для оценки, но простое переведение набора данных недостаточно для решения этих проблем. В данной работе мы отслеживаем влияние обеих этих проблем на многоязычные оценки и последующие результаты моделей. Наша масштабная оценка современных открытых и закрытых моделей показывает, что прогресс в MMLU в значительной степени зависит от изучения западно-центричных концепций, причем 28% всех вопросов требуют культурно чувствительных знаний. Более того, для вопросов, требующих географических знаний, удивительные 84,9% сосредоточены либо на североамериканском, либо на европейском регионах. Рейтинги оценок моделей меняются в зависимости от того, оцениваются ли они на полной части или на подмножестве вопросов, помеченных как культурно чувствительные, что показывает искажение рейтингов моделей при слепом полагании на переведенный MMLU. Мы выпускаем Global-MMLU, улучшенный MMLU с охватом оценки на 42 языках -- с улучшенным общим качеством путем взаимодействия с компенсированными профессиональными и сообщественными аннотаторами для проверки качества перевода, а также тщательной оценки культурных предвзятостей, присутствующих в исходном наборе данных. Этот всесторонний набор Global-MMLU также включает обозначенные подмножества, помеченные как культурно чувствительные и культурно агностические, чтобы обеспечить более глубокую, полную оценку.

Закон сгущения для LLM-моделей
Densing Law of LLMs

Dec 5

ByChaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun

Большие языковые модели (LLM) стали вехой в искусственном интеллекте, и их производительность может улучшаться по мере увеличения размера модели. Однако это масштабирование создает большие вызовы для эффективности обучения и вывода, особенно при развертывании LLM в ресурсоемких средах, и тенденция масштабирования становится все более непосильной. В данной статье представлен концепт "плотности емкости" в качестве новой метрики для оценки качества LLM на различных масштабах и описывается тенденция LLM с точки зрения как эффективности, так и эффективности. Для расчета плотности емкости данной целевой LLM мы сначала вводим набор эталонных моделей и разрабатываем закон масштабирования для прогнозирования последующей производительности этих эталонных моделей на основе их размеров параметров. Затем мы определяем эффективный размер параметра целевой LLM как размер параметра, необходимый эталонной модели для достижения эквивалентной производительности, и формализуем плотность емкости как отношение эффективного размера параметра к фактическому размеру параметра целевой LLM. Плотность емкости предоставляет единый каркас для оценки как эффективности модели, так и эффективности. Наше дальнейшее анализ недавно опубликованных базовых LLM с открытым исходным кодом раскрывает эмпирический закон (закон уплотнения), согласно которому плотность емкости LLM экспоненциально растет со временем. Более конкретно, используя некоторые широко используемые бенчмарки для оценки, плотность емкости LLM удваивается примерно каждые три месяца. Этот закон предоставляет новые перспективы для руководства будущим развитием LLM, подчеркивая важность улучшения плотности емкости для достижения оптимальных результатов с минимальными вычислительными затратами.

Бесконечность: Масштабирование побитового авторегрессионного моделирования для синтеза изображений высокого разрешения
Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

Dec 5

ByJian Han, Jinlai Liu, Yi Jiang, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu

Мы представляем Infinity, побитовую визуальную авторегрессионную модель, способную генерировать изображения высокого разрешения с фотореалистичным качеством в соответствии с языковым инструктажем. Infinity переопределяет модель визуальной авторегрессии в рамках битового прогнозирования токенов с использованием токенизатора и классификатора с бесконечным словарем и механизмом битовой самокоррекции, что значительно улучшает емкость и детализацию генерации. Путем теоретического масштабирования размера словаря токенизатора к бесконечности и параллельного масштабирования размера трансформера наш метод значительно раскрывает мощные возможности масштабирования по сравнению с обычной VAR. Infinity устанавливает новый рекорд для моделей текст-в-изображение с авторегрессией, превосходя лучшие модели диффузии, такие как SD3-Medium и SDXL. Заметно, что Infinity превосходит SD3-Medium, улучшая показатель бенчмарка GenEval с 0.62 до 0.73 и показатель бенчмарка ImageReward с 0.87 до 0.96, достигая победный результат в 66%. Без дополнительной оптимизации Infinity генерирует изображение размером 1024x1024 пикселя за 0.8 секунды, что в 2.6 раза быстрее, чем SD3-Medium, и утверждает себя как самая быстрая модель текст-в-изображение. Модели и коды будут опубликованы для поощрения дальнейшего исследования Infinity в области визуальной генерации и унифицированного моделирования токенизатора.

HumanEdit: Высококачественный набор данных Human-Rewarded для редактирования изображений на основе инструкций
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing

Dec 5

ByJinbin Bai, Wei Chow, Ling Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Shuicheng Yan

Мы представляем HumanEdit - высококачественный набор данных, вознаграждаемый людьми, специально разработанный для редактирования изображений по инструкциям, обеспечивая точные и разнообразные манипуляции изображениями через инструкции на естественном языке. Предыдущие масштабные наборы данных для редактирования часто включают минимальную обратную связь от людей, что приводит к трудностям в выравнивании наборов данных с предпочтениями людей. HumanEdit устраняет этот разрыв, привлекая человеческих аннотаторов для создания пар данных и администраторов для предоставления обратной связи. Благодаря тщательной кураторской работе, HumanEdit включает 5 751 изображение и требует более 2 500 часов человеческого труда на четырех этапах, обеспечивая как точность, так и надежность для широкого спектра задач по редактированию изображений. Набор данных включает шесть различных типов инструкций для редактирования: Действие, Добавить, Подсчет, Отношение, Удалить и Заменить, охватывая широкий спектр реальных сценариев. Все изображения в наборе данных сопровождаются масками, и для подмножества данных мы обеспечиваем достаточно детальные инструкции для поддержки редактирования без маски. Более того, HumanEdit предлагает обширное разнообразие и высокоразрешающий контент 1024 на 1024 пикселя из различных областей, устанавливая новый универсальный стандарт для наборов данных по инструкционному редактированию изображений. С целью продвижения будущих исследований и установления оценочных стандартов в области редактирования изображений мы выпускаем HumanEdit по адресу https://huggingface.co/datasets/BryanW/HumanEdit.

Персонализированные мультимодальные модели больших языков: обзор
Personalized Multimodal Large Language Models: A Survey

Dec 3

ByJunda Wu, Hanjia Lyu, Yu Xia, Zhehao Zhang, Joe Barrow, Ishita Kumar, Mehrnoosh Mirtaheri, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K. Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Namyong Park, Sungchul Kim, Huanrui Yang, Subrata Mitra, Zhengmian Hu, Nedim Lipka, Dang Nguyen, Yue Zhao, Jiebo Luo, Julian McAuley

Многомодельные крупные языковые модели (MLLM) становятся все более важными благодаря своим передовым характеристикам и способности интегрировать несколько модальностей данных, таких как текст, изображения и звук, для выполнения сложных задач с высокой точностью. В данной статье представлен обширный обзор персонализированных многомодельных крупных языковых моделей, сосредоточенный на их архитектуре, методах обучения и применениях. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLM для отдельных пользователей, и обсуждаем эти техники соответственно. Кроме того, мы обсуждаем, как такие техники могут быть объединены или адаптированы при необходимости, выделяя их преимущества и основные принципы. Мы также предоставляем краткое изложение задач персонализации, исследуемых в существующих исследованиях, вместе с общеиспользуемыми метриками оценки. Кроме того, мы подводим итоги наборам данных, которые полезны для оценки персонализированных MLLM. Наконец, мы обрисовываем основные открытые проблемы. Целью данного обзора является служить ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных многомодельных крупных языковых моделей.

Monet: Смесь моносемантических экспертов для трансформеров
Monet: Mixture of Monosemantic Experts for Transformers

Dec 5

ByJungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang

Понимание внутренних вычислений больших языковых моделей (LLM) критически важно для их согласования с человеческими ценностями и предотвращения нежелательных поведенческих аспектов, таких как генерация токсичного контента. Однако механистическая интерпретируемость затруднена полисемией, когда отдельные нейроны реагируют на несколько несвязанных концепций. В то время как разреженные автокодировщики (SAE) пытались разделить эти характеристики через разреженное обучение словаря, они компрометировали производительность LLM из-за зависимости от постобработки функции потерь восстановления. Для решения этой проблемы мы представляем архитектуру Mixture of Monosemantic Experts for Transformers (Monet), которая интегрирует разреженное обучение словаря непосредственно в предварительное обучение Mixture-of-Experts end-to-end. Наш новый метод декомпозиции экспертов позволяет масштабировать количество экспертов до 262 144 на слой, в то время как общее количество параметров масштабируется пропорционально квадратному корню от количества экспертов. Наши анализы демонстрируют взаимоисключающую природу знаний между экспертами и показывают параметрическое знание, заключенное в отдельных экспертах. Более того, Monet позволяет манипулировать знаниями в различных областях, языках и смягчать токсичность без ухудшения общей производительности. Наша работа по созданию прозрачных LLM подчеркивает потенциал увеличения количества экспертов для улучшения механистической интерпретируемости и прямого изменения внутренних знаний для фундаментальной коррекции поведения модели. Исходный код и предварительно обученные контрольные точки доступны по адресу https://github.com/dmis-lab/Monet.

К универсальному пониманию видео матчей по футболу
Towards Universal Soccer Video Understanding

Dec 2

ByJiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie

Футбол, как всемирно популярный вид спорта, привлекает широкий интерес болельщиков со всех уголков мира. Цель данной статьи - разработать комплексную мультимодальную систему для анализа видео матчей по футболу. В частности, в данной работе мы вносим следующие вклады: (i) мы представляем SoccerReplay-1988, самый крупный мультимодальный набор данных по футболу на сегодняшний день, включающий видео и подробные аннотации с 1,988 полных матчей, с использованием автоматизированного процесса аннотирования; (ii) мы представляем первую модель фундаментального визуально-языкового анализа в области футбола, MatchVision, которая использует пространственно-временную информацию по видео матчей и успешно справляется с различными задачами; (iii) мы проводим обширные эксперименты и исследования по классификации событий, генерации комментариев и распознаванию нарушений с разных ракурсов. MatchVision демонстрирует передовую производительность во всех этих задачах, значительно превосходя существующие модели, что подчеркивает превосходство наших предложенных данных и модели. Мы считаем, что данная работа установит стандартный парадигму для исследований в области понимания спорта.

OmniFlow: Генерация от любого к любому с много-модальными прямыми потоками
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows

Dec 2

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover

Мы представляем OmniFlow, новую генеративную модель, разработанную для задач генерации любого к любому, таких как текст в изображение, текст в аудио и аудио в изображение. OmniFlow развивает рамки исправленного потока (RF), используемые в моделях текст в изображение, для работы с совместным распределением нескольких модальностей. Он превосходит предыдущие модели любого к любому на широком спектре задач, таких как синтез текста в изображение и текста в аудио. Наша работа предлагает три ключевых вклада: Во-первых, мы расширяем RF до мультимодальной среды и представляем новый механизм управления, позволяющий пользователям гибко контролировать соответствие между различными модальностями в сгенерированных выходных данных. Во-вторых, мы предлагаем новую архитектуру, которая расширяет архитектуру текст в изображение MMDiT Stable Diffusion 3 и позволяет генерацию аудио и текста. Расширенные модули могут быть эффективно предварительно обучены индивидуально и объединены с обычным текстом в изображение MMDiT для настройки. Наконец, мы проводим всестороннее исследование дизайнерских решений для преобразователей исправленного потока для генерации аудио и текста в масштабе, предоставляя ценные идеи для оптимизации производительности в различных модальностях. Код будет доступен по адресу https://github.com/jacklishufan/OmniFlows.

Дискриминативная настройка LVLMs
Discriminative Fine-tuning of LVLMs

Dec 5

ByYassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez

Контрастно-обучаемые модели видео-языка (VLM), такие как CLIP, стали фактическим подходом к обучению дискриминативного представления видео-языка. Однако эти модели имеют ограниченное понимание языка, часто проявляя "мешок слов" поведение. В то же время большие модели видео-языка (LVLM), которые объединяют кодировщики видео с LLM, показали способность к детальному видео-языковому рассуждению, однако их авторегрессивная природа делает их менее подходящими для дискриминативных задач. В данной работе мы предлагаем объединить "лучшее из обоих миров": новый подход к обучению дискриминативной донастройки LVLM, который приводит к сильным дискриминативным и композиционным возможностям. По сути, наш подход преобразует генеративную LVLM в дискриминативную, разблокируя ее способность к мощной дискриминации изображений и текста в сочетании с улучшенным пониманием языка. Наши вклады включают: (1) Тщательно разработанную структуру обучения/оптимизации, которая использует пары изображений и текста переменной длины и структуры для обучения модели с использованием как контрастных, так и потерь предсказания следующего токена. Это сопровождается исследованиями абляции, которые обосновывают необходимость компонентов нашей структуры. (2) Метод адаптации с эффективными параметрами с использованием комбинации мягкого подсказывания и адаптеров LoRA. (3) Значительные улучшения по сравнению с современными моделями, подобными CLIP, схожего размера, включая стандартные бенчмарки поиска изображений и текста и заметные приросты в композициональности.

Marco-LLM: Соединение языков с помощью массового мультиязычного обучения для кросс-языкового улучшения
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

Dec 5

ByLingfeng Ming, Bo Zeng, Chenyang Lyu, Tianqi Shi, Yu Zhao, Xue Yang, Yefeng Liu, Yiyu Wang, Linlong Xu, Yangyang Liu, Xiaohu Zhao, Hao Wang, Heng Liu, Hao Zhou, Huifeng Yin, Zifu Shang, Haijun Li, Longyue Wang, Weihua Luo, Kaifu Zhang

Большие языковые модели (LLM) достигли значительного прогресса в последние годы; однако их отличные показатели производительности по-прежнему в основном ограничены крупными мировыми языками, в основном английским. Многие LLM продолжают сталкиваться с проблемами в многоязычных задачах, особенно когда речь идет о языках с ограниченными ресурсами. Для решения этой проблемы мы представили Marco-LLM: Массовое многоязычное обучение для улучшения кросс-языковых LLM. Мы собрали значительное количество многоязычных данных для нескольких языков с ограниченными ресурсами и провели обширное непрерывное предварительное обучение с использованием моделей Qwen2. Эти усилия привели к созданию многоязычной LLM под названием Marco-LLM. После комплексной оценки на различных многоязычных бенчмарках, включая MMMLU, AGIEval, Belebele, Flores-200, XCOPA и многие другие, Marco-LLM продемонстрировал значительные улучшения по сравнению с современными LLM. Более того, Marco-LLM достиг значительных улучшений в задачах машинного перевода любого-на-любой, показывая эффективность нашей многоязычной LLM. Marco-LLM является передовой многоязычной LLM, разработанной не только для выдающихся результатов в многоязычных задачах, включая языки с ограниченными ресурсами, но и для поддержания высоких показателей производительности на английском и других крупных языках, сокращая разрыв в производительности между возможностями языков с высоким и ограниченным количеством ресурсов. Связывая языки, эти усилия демонстрируют наше стремление к обеспечению точной работы LLM в различных языках.

ЗАМЕТКА: Память-управляемая диффузия для генерации выразительного видео с речью.
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

Dec 5

ByLongtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan

Недавние достижения в моделях видеодиффузии открыли новые возможности для реалистичной генерации аудио-управляемых видеороликов с разговорами. Однако достижение плавной синхронизации аудио и губ, поддержание долгосрочной согласованности личности и создание естественных, аудио-выравненных выражений в созданных видеороликах с разговорами остаются значительными вызовами. Для решения этих проблем мы предлагаем модель Memory-guided EMOtion-aware diffusion (MEMO), подход к генерации аудио-управляемой анимации портрета с учетом эмоций для создания согласованных личностей и выразительных видеороликов с разговорами. Наш подход построен вокруг двух ключевых модулей: (1) модуль временной памяти с управлением, который улучшает долгосрочную согласованность личности и плавность движения путем развития памятных состояний для хранения информации из более длительного контекста прошлого для направления временного моделирования с помощью линейного внимания; и (2) эмоциональный аудио-модуль, который заменяет традиционное кросс-внимание многомодальным вниманием для улучшения взаимодействия аудио-видео, одновременно обнаруживая эмоции из аудио для уточнения лицевых выражений через эмоционально-адаптивное слоенормирование. Обширные количественные и качественные результаты показывают, что MEMO генерирует более реалистичные видеоролики с разговорами по различным типам изображений и аудио, превосходя современные методы по общему качеству, синхронизации аудио и губ, согласованности личности и соответствию выражений и эмоций.

ZipAR: Ускорение авторегрессивной генерации изображений через пространственную локальность
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

Dec 5

ByYefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

В данной статье мы предлагаем ZipAR - фреймворк параллельного декодирования, не требующий обучения, для ускорения авторегрессивной (AR) визуальной генерации. Мотивация возникла из наблюдения, что изображения обладают локальными структурами, и пространственно удаленные области обычно имеют минимальную взаимосвязь. Учитывая частично декодированный набор визуальных токенов, помимо оригинальной схемы предсказания следующего токена в строковом измерении, токены, соответствующие пространственно смежным областям в столбцовом измерении, могут быть декодированы параллельно, обеспечивая парадигму "предсказания следующего набора". Путем одновременного декодирования нескольких токенов за один проход уменьшается количество проходов, необходимых для генерации изображения, что приводит к существенному повышению эффективности генерации. Эксперименты показывают, что ZipAR может сократить количество проходов модели до 91% на модели Emu3-Gen без необходимости дополнительного переобучения.

Сдвиг внимания КВ улучшает языковое моделирование.
KV Shifting Attention Enhances Language Modeling

Nov 29

ByMingyu Xu, Wei Cheng, Bingning Wang, Weipeng Chen

Современные крупные языковые модели в основном основаны на структуре трансформеров только для декодирования, которые обладают отличными возможностями контекстного обучения (ICL). Общепризнано, что важным основанием для их способности к контекстному обучению является механизм индукционных головок, требующий как минимум двух слоев внимания. Для более эффективной реализации способности модели к индукции мы пересмотрели механизм индукционных головок и предложили внимание с сдвигом KV. Мы теоретически доказываем, что внимание с сдвигом KV снижает требования модели к глубине и ширине механизма индукционных головок. Наши экспериментальные результаты показывают, что внимание с сдвигом KV положительно влияет на обучение индукционных головок и языковое моделирование, что приводит к лучшей производительности или быстрее сходимости от игрушечных моделей к моделям предварительного обучения с более чем 10 млрд параметров.

4Real-Video: Обучение обобщаемой фотореалистичной диффузии 4D-видео
4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

Dec 5

ByChaoyang Wang, Peiye Zhuang, Tuan Duc Ngo, Willi Menapace, Aliaksandr Siarohin, Michael Vasilkovsky, Ivan Skorokhodov, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee

Мы предлагаем 4Real-Video, новую концепцию для создания 4D видео, организованных в виде сетки видеокадров с временной и точки зрения осями. В этой сетке каждая строка содержит кадры, совпадающие по времени, в то время как каждый столбец содержит кадры с одной и той же точки зрения. Мы предлагаем новую двухпоточную архитектуру. Один поток выполняет обновления точки зрения по столбцам, а другой поток выполняет временные обновления по строкам. После каждого слоя диффузионного трансформатора слой синхронизации обменивается информацией между двумя потоками токенов. Мы предлагаем две реализации слоя синхронизации, используя либо жесткую, либо мягкую синхронизацию. Эта прямая архитектура улучшает предыдущие работы тремя способами: более высокая скорость вывода, улучшенное качество изображения (измеряемое по FVD, CLIP и VideoScore) и улучшенная временная и точечная согласованность (измеряемая по VideoScore и Dust3R-Confidence).

p-MoD: Построение смеси моделей многоуровневых языковых моделей с помощью прогрессивного уменьшения коэффициента.
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay

Dec 5

ByJun Zhang, Desen Meng, Ji Qi, Zhenpeng Huang, Tao Wu, Limin Wang

Несмотря на выдающуюся производительность мультимодальных крупных языковых моделей (MLLMs) в различных задачах, значительные затраты на обучение и вывод затрудняют их развитие. Большая часть вычислений происходит из-за огромного объема визионных токенов, обрабатываемых декодером трансформера. В данной статье мы предлагаем создать эффективные MLLMs, используя механизм Смеси Глубин (MoD), где каждый слой декодера трансформера выбирает важные визионные токены для обработки, пропуская избыточные. Однако интеграция MoD в MLLMs является нетривиальной. Для решения проблем стабильности обучения и вывода, а также ограниченности обучающих данных, мы адаптируем модуль MoD с двумя новыми дизайнами: тангенсальной нормализацией весов (TanhNorm) и симметричным перевзвешиванием токенов (STRing). Более того, мы замечаем, что визионные токены проявляют более высокую избыточность в более глубоких слоях, и поэтому разрабатываем стратегию прогрессивного уменьшения коэффициента удержания токенов (PRD), которая постепенно уменьшает соотношение удержания токенов слой за слоем, используя сдвинутое косинусное расписание. Этот ключевой дизайн полностью раскрывает потенциал MoD, значительно повышая эффективность и производительность наших моделей. Для проверки эффективности нашего подхода мы проводим обширные эксперименты с двумя базовыми моделями на 14 бенчмарках. Наша модель, p-MoD, соответствует или даже превосходит производительность базовых моделей, используя всего 55.6% TFLOPs и 53.8% кэш-памяти KV во время вывода, и 77.7% часов GPU во время обучения.

Масштабирование поиска во время вывода с моделью видения значимости для улучшенного визуального понимания
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

Dec 4

ByWang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan

Несмотря на значительные достижения в моделях видео-языкового взаимодействия (VLM), отсутствуют эффективные подходы к улучшению качества ответов путем масштабирования вычислений во время вывода. Эта способность считается ключевым шагом к самоулучшающимся моделям в недавних исследованиях больших языковых моделей. В данной статье мы представляем модель видео-значений (VisVM), которая может направлять поиск во время вывода VLM для генерации ответов с лучшим визуальным пониманием. Конкретно, VisVM не только оценивает качество сгенерированного предложения на текущем этапе поиска, но и предвидит качество последующих предложений, которые могут возникнуть на основе текущего этапа, обеспечивая долгосрочную ценность. Таким образом, VisVM направляет VLM от генерации предложений, склонных к галлюцинациям или недостаточной детализации, что приводит к более качественным ответам. Экспериментальные результаты показывают, что поиск под управлением VisVM значительно улучшает способность VLM генерировать описательные подписи с более богатыми визуальными деталями и меньшим количеством галлюцинаций, по сравнению с жадным декодированием и методами поиска с другими визуальными сигналами вознаграждения. Более того, мы обнаружили, что самообучение модели с подписями, направляемыми VisVM, улучшает производительность VLM на широком спектре мультимодальных бенчмарков, указывая на потенциал развития самоулучшающихся VLM. Наша модель значений и код доступны по ссылке https://github.com/si0wang/VisVM.

MRGen: Диффузионный управляемый движок данных для сегментации МРТ на основе диффузии в направлении немаркированных модальностей
MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities

Dec 4

ByHaoning Wu, Ziheng Zhao, Ya Zhang, Weidi Xie, Yanfeng Wang

Сегментация медицинских изображений недавно продемонстрировала впечатляющий прогресс с использованием глубоких нейронных сетей, однако гетерогенность модальностей и недостаток масок аннотаций ограничивают развитие моделей сегментации на неаннотированных модальностях. В данной статье исследуется новая парадигма использования генеративных моделей в медицинских приложениях: контролируемое синтезирование данных для неаннотированных модальностей без необходимости зарегистрированных пар данных. Конкретно, в данной статье мы вносим следующие вклады: (i) мы собираем и курируем крупномасштабный набор данных изображений и текстов радиологии, MedGen-1M, включающий метки модальности, атрибуты, информацию о регионе и органе, а также подмножество аннотаций масок органов для поддержки исследований в области контролируемой генерации медицинских изображений; (ii) мы предлагаем движок данных на основе диффузии, названный MRGen, который позволяет генерировать данные на основе текстовых подсказок и масок, синтезируя МР-изображения для различных модальностей, лишенных аннотаций масок, для обучения моделей сегментации на неаннотированных модальностях; (iii) мы проводим обширные эксперименты по различным модальностям, демонстрируя, что наш движок данных может эффективно синтезировать обучающие выборки и расширять сегментацию МРТ в сторону неаннотированных модальностей.

SynFinTabs: Набор данных синтетических финансовых таблиц для извлечения информации и таблиц.
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

Dec 5

ByEthan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux

Извлечение таблиц из изображений документов представляет собой сложную проблему искусственного интеллекта, и размеченные данные для многих областей контента трудно найти. Существующие наборы данных для извлечения таблиц часто сосредоточены на научных таблицах из-за огромного количества доступных научных статей, а также их исходного кода. Однако существуют значительные различия в макете и типографике между таблицами, встречающимися в научных, финансовых и других областях. Текущие наборы данных часто не содержат слов и их позиции, находящихся в таблицах, вместо этого они полагаются на ненадежное оптическое распознавание символов для извлечения этих функций для обучения современных моделей машинного обучения на задачах обработки естественного языка. Поэтому существует необходимость в более общем методе получения размеченных данных. Мы представляем SynFinTabs, крупномасштабный размеченный набор данных синтетических финансовых таблиц. Надеемся, что наш метод генерации этих синтетических таблиц может быть применен и в других областях. Для демонстрации эффективности нашего набора данных в обучении моделей извлечения информации из изображений таблиц мы создаем FinTabQA, крупномасштабную языковую модель, обученную на задаче извлекающего вопросно-ответного взаимодействия. Мы тестируем нашу модель, используя реальные финансовые таблицы, сравниваем ее с передовой генеративной моделью и обсуждаем результаты. Мы предоставляем набор данных, модель и код генерации набора данных общественности.

Проблемы надежной человеческой оценки ботов для чата
Challenges in Trustworthy Human Evaluation of Chatbots

Dec 5

ByWenting Zhao, Alexander M. Rush, Tanya Goyal

Открытые платформы, управляемые сообществом, такие как Chatbot Arena, которые собирают данные о предпочтениях пользователей среди посетителей сайта, завоевали репутацию одного из наиболее надежных публично доступных бенчмарков для оценки производительности LLM. Хотя сейчас это стандартная практика, сложно реализовать эффективные меры безопасности для сбора аннотаций высокого качества от людей. В данной статье мы демонстрируем, что три источника плохих аннотаций, как злонамеренных, так и других, могут исказить надежность рейтингов открытого лидерборда. В частности, мы показываем, что всего лишь 10\% голосов низкого качества от апатичных (посетители сайта, которым не было должным образом предоставлено стимул для выдачи правильных голосов) или агрессивных (злоумышленники, стремящиеся завысить рейтинг целевой модели) аннотаторов могут изменить рейтинги моделей до 5 мест на лидерборде. Наконец, мы обсуждаем открытые проблемы обеспечения аннотаций высокого качества со стороны людей.

Установление законов масштабирования задач с помощью эффективных с точки зрения вычислений модельных лестниц.
Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Dec 5

ByAkshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi

Мы разрабатываем законы масштабирования задач и модели лестниц для прогнозирования индивидуальной производительности задач предварительно обученных языковых моделей (ЯМ) в условиях переобучения. Стандартные степенные законы для потерь языкового моделирования не могут точно моделировать производительность задач. Поэтому мы используем двухэтапный подход к прогнозированию: сначала используем модель и размер данных для прогнозирования задачи-специфичных потерь, а затем используем эти потери для прогнозирования производительности задачи. Мы обучаем набор маломасштабных "лестничных" моделей, собираем данные для подгонки параметризованных функций двух этапов прогнозирования и делаем прогнозы для двух целевых моделей: модели 7B, обученной на 4T токенах, и модели 13B, обученной на 5T токенах. Обучение лестничных моделей стоит всего 1% от вычислительных ресурсов, использованных для целевых моделей. На четырех задачах с выбором из нескольких вариантов ответов, представленных в формате ранжированной классификации, мы можем предсказать точность обеих целевых моделей с погрешностью не более 2 пунктов. У нас есть более высокая погрешность прогнозирования на четырех других задачах (средняя абсолютная погрешность 6,9) и мы обнаружили, что это часто задачи с более высокой дисперсией метрик задачи. Мы также обнаружили, что использование меньшего количества вычислительных ресурсов для обучения меньшего количества лестничных моделей обычно ухудшает прогнозы. Наконец, мы эмпирически показываем, что наши выборы дизайна и двухэтапный подход приводят к более высокой производительности в установлении законов масштабирования.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

VisionZip: Чем длиннее, тем лучше, но необязательно в моделях видеоязыкового восприятия.
VisionZip: Longer is Better but Not Necessary in Vision Language Models

Dec 5

BySenqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia

118

Структурированные 3D латенты для масштабируемого и универсального создания 3D моделей.
Structured 3D Latents for Scalable and Versatile 3D Generation

Dec 2

ByJianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang

Aguvis: Единые агенты чистого зрения для автономного взаимодействия с графическим интерфейсом пользователя
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction

Dec 5

ByYiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong

Florence-VL: Улучшение моделей видео-языка с помощью генеративного видео-кодера и объединения глубины и ширины.
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

Dec 5

ByJiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao

NVILA: Эффективные модели визуального языка Frontier
NVILA: Efficient Frontier Visual Language Models

Dec 5

Оценка языковых моделей в качестве генераторов синтетических данных
Evaluating Language Models as Synthetic Data Generators

Dec 4

BySeungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig

Code-as-Monitor: Программирование на визуальном языке с учетом ограничений для реактивного и проактивного обнаружения отказов роботов
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Dec 5

ByEnshen Zhou, Qi Su, Cheng Chi, Zhizheng Zhang, Zhongyuan Wang, Tiejun Huang, Lu Sheng, He Wang

Шум стоит руководства диффузией.
A Noise is Worth Diffusion Guidance

Dec 5

ByDonghoon Ahn, Jiwon Kang, Sanghyun Lee, Jaewon Min, Minjae Kim, Wooseok Jang, Hyoungwon Cho, Sayak Paul, SeonHwa Kim, Eunju Cha, Kyong Hwan Jin, Seungryong Kim

MV-Адаптер: Создание изображений с согласованными представлениями из нескольких видов источников данных сделано просто
MV-Adapter: Multi-view Consistent Image Generation Made Easy

Dec 4

ByZehuan Huang, Yuan-Chen Guo, Haoran Wang, Ran Yi, Lizhuang Ma, Yan-Pei Cao, Lu Sheng

Объединение негативных токенов: Направление атаки на признаки на основе изображений
Negative Token Merging: Image-based Adversarial Feature Guidance

Dec 2

ByJaskirat Singh, Lindsey Li, Weijia Shi, Ranjay Krishna, Yejin Choi, Pang Wei Koh, Michael F. Cohen, Stephen Gould, Liang Zheng, Luke Zettlemoyer

AnyDressing: Настроенное многокомпонентное виртуальное примерочное помещение с использованием моделей латентной диффузии
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models

Dec 5

ByXinghui Li, Qichao Sun, Pengze Zhang, Fulong Ye, Zhichao Liao, Wanquan Feng, Songtao Zhao, Qian He

Глобальный MMLU: Понимание и устранение культурных и языковых предвзятостей в многоязычной оценке
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation

Dec 4

Закон сгущения для LLM-моделей
Densing Law of LLMs

Dec 5

ByChaojun Xiao, Jie Cai, Weilin Zhao, Guoyang Zeng, Xu Han, Zhiyuan Liu, Maosong Sun

Бесконечность: Масштабирование побитового авторегрессионного моделирования для синтеза изображений высокого разрешения
Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

Dec 5

ByJian Han, Jinlai Liu, Yi Jiang, Bin Yan, Yuqi Zhang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu

HumanEdit: Высококачественный набор данных Human-Rewarded для редактирования изображений на основе инструкций
HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing

Dec 5

ByJinbin Bai, Wei Chow, Ling Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Shuicheng Yan

Персонализированные мультимодальные модели больших языков: обзор
Personalized Multimodal Large Language Models: A Survey

Dec 3

Monet: Смесь моносемантических экспертов для трансформеров
Monet: Mixture of Monosemantic Experts for Transformers

Dec 5

ByJungwoo Park, Young Jin Ahn, Kee-Eung Kim, Jaewoo Kang

К универсальному пониманию видео матчей по футболу
Towards Universal Soccer Video Understanding

Dec 2

ByJiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie

OmniFlow: Генерация от любого к любому с много-модальными прямыми потоками
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows

Dec 2

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Zichun Liao, Yusuke Kato, Kazuki Kozuka, Aditya Grover

Дискриминативная настройка LVLMs
Discriminative Fine-tuning of LVLMs

Dec 5

ByYassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Georgios Tzimiropoulos, Brais Martinez

Marco-LLM: Соединение языков с помощью массового мультиязычного обучения для кросс-языкового улучшения
Marco-LLM: Bridging Languages via Massive Multilingual Training for Cross-Lingual Enhancement

Dec 5

ЗАМЕТКА: Память-управляемая диффузия для генерации выразительного видео с речью.
MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

Dec 5

ByLongtao Zheng, Yifan Zhang, Hanzhong Guo, Jiachun Pan, Zhenxiong Tan, Jiahao Lu, Chuanxin Tang, Bo An, Shuicheng Yan

ZipAR: Ускорение авторегрессивной генерации изображений через пространственную локальность
ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

Dec 5

ByYefei He, Feng Chen, Yuanyu He, Shaoxuan He, Hong Zhou, Kaipeng Zhang, Bohan Zhuang

Сдвиг внимания КВ улучшает языковое моделирование.
KV Shifting Attention Enhances Language Modeling

Nov 29

ByMingyu Xu, Wei Cheng, Bingning Wang, Weipeng Chen

4Real-Video: Обучение обобщаемой фотореалистичной диффузии 4D-видео
4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion

Dec 5

ByChaoyang Wang, Peiye Zhuang, Tuan Duc Ngo, Willi Menapace, Aliaksandr Siarohin, Michael Vasilkovsky, Ivan Skorokhodov, Sergey Tulyakov, Peter Wonka, Hsin-Ying Lee

p-MoD: Построение смеси моделей многоуровневых языковых моделей с помощью прогрессивного уменьшения коэффициента.
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay

Dec 5

ByJun Zhang, Desen Meng, Ji Qi, Zhenpeng Huang, Tao Wu, Limin Wang

Масштабирование поиска во время вывода с моделью видения значимости для улучшенного визуального понимания
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

Dec 4

ByWang Xiyao, Yang Zhengyuan, Li Linjie, Lu Hongjin, Xu Yuancheng, Lin Chung-Ching Lin, Lin Kevin, Huang Furong, Wang Lijuan

MRGen: Диффузионный управляемый движок данных для сегментации МРТ на основе диффузии в направлении немаркированных модальностей
MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities

Dec 4

ByHaoning Wu, Ziheng Zhao, Ya Zhang, Weidi Xie, Yanfeng Wang

SynFinTabs: Набор данных синтетических финансовых таблиц для извлечения информации и таблиц.
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction

Dec 5

ByEthan Bradley, Muhammad Roman, Karen Rafferty, Barry Devereux

Проблемы надежной человеческой оценки ботов для чата
Challenges in Trustworthy Human Evaluation of Chatbots

Dec 5

ByWenting Zhao, Alexander M. Rush, Tanya Goyal

Установление законов масштабирования задач с помощью эффективных с точки зрения вычислений модельных лестниц.
Establishing Task Scaling Laws via Compute-Efficient Model Ladders

Dec 5

ByAkshita Bhagia, Jiacheng Liu, Alexander Wettig, David Heineman, Oyvind Tafjord, Ananya Harsh Jha, Luca Soldaini, Noah A. Smith, Dirk Groeneveld, Pang Wei Koh, Jesse Dodge, Hannaneh Hajishirzi