Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет по Qwen2-Audio
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

Мы представляем последние достижения Qwen-Audio - крупномасштабную аудио-языковую модель под названием Qwen2-Audio, способную принимать различные аудиосигналы и выполнять аудиоанализ или непосредственные текстовые ответы по отношению к речевым инструкциям. В отличие от сложных иерархических тегов, мы упростили процесс предварительного обучения, используя естественноязыковые подсказки для различных данных и задач, а также дополнительно расширили объем данных. Мы улучшили способность Qwen2-Audio следовать инструкциям и реализовали два различных режима аудиовзаимодействия для голосового чата и аудиоанализа. В режиме голосового чата пользователи могут свободно общаться с Qwen2-Audio голосом без ввода текста. В режиме аудиоанализа пользователи могут предоставлять аудио- и текстовые инструкции для анализа во время взаимодействия. Следует отметить, что мы не используем системные подсказки для переключения между режимами голосового чата и аудиоанализа. Qwen2-Audio способен интеллектуально понимать содержимое аудио и следовать голосовым командам для соответствующего ответа. Например, в аудиофрагменте, содержащем одновременно звуки, разговоры нескольких дикторов и голосовую команду, Qwen2-Audio может непосредственно понять команду и предоставить интерпретацию и ответ на аудио. Кроме того, DPO оптимизировал производительность модели с точки зрения фактичности и соблюдения желаемого поведения. Согласно результатам оценки от AIR-Bench, Qwen2-Audio превзошел предыдущие SOTA, такие как Gemini-1.5-pro, в тестах, сосредоточенных на способностях следования инструкциям, ориентированным на аудио. Qwen2-Audio предоставляется в открытом доступе с целью содействия развитию мульти-модального языкового сообщества.

NeedleBench: Могут ли языковые модели с ограниченной памятью выполнять поиск и рассуждения в окне из 1 миллиона контекстов?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

При оценке возможностей длинного контекста больших языковых моделей (LLM) выявление содержания, соответствующего запросу пользователя, из оригинальных длинных документов является ключевым предварительным условием для того, чтобы любая LLM могла отвечать на вопросы на основе длинного текста. Мы представляем NeedleBench, фреймворк, состоящий из серии постепенно усложняющихся задач для оценки двуязычных возможностей длинного контекста, охватывающий несколько интервалов длины (4k, 8k, 32k, 128k, 200k, 1000k и далее) и различные диапазоны глубины, позволяющий стратегически вставлять критические данные в различные зоны глубины текста для тщательного тестирования возможностей извлечения и рассуждения моделей в различных контекстах. Мы используем фреймворк NeedleBench для оценки того, насколько хорошо ведущие модели с открытым исходным кодом могут идентифицировать ключевую информацию, соответствующую вопросу, и применять эту информацию для рассуждений в двуязычных длинных текстах. Более того, мы предлагаем вызов Ancestral Trace Challenge (ATC) для имитации сложности логических задач, которые, вероятно, присутствуют в задачах реального длинного контекста, предоставляя простой метод оценки LLM в работе с сложными ситуациями длинного контекста. Наши результаты показывают, что у текущих LLM есть значительное пространство для улучшения в практических приложениях длинного контекста, поскольку они испытывают трудности с сложностью логических задач, которые, вероятно, присутствуют в задачах реального длинного контекста. Все коды и ресурсы доступны на OpenCompass: https://github.com/open-compass/opencompass.

Масштабирование трансформеров диффузии до 16 миллиардов параметров
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

В данной статье мы представляем DiT-MoE, разреженную версию диффузионного трансформера, которая масштабируема и конкурентоспособна по сравнению с плотными сетями, обладая высокооптимизированным выводом. DiT-MoE включает два простых дизайна: общую маршрутизацию экспертов и потерю баланса на уровне экспертов, тем самым захватывая общие знания и уменьшая избыточность среди различных маршрутизированных экспертов. При применении к условному созданию изображений глубокий анализ специализации экспертов приводит к нескольким интересным наблюдениям: (i) Выбор эксперта проявляет предпочтение к пространственному положению и шагу времени шумоподавления, при этом нечувствителен к различной классовой условной информации; (ii) По мере углубления слоев MoE, выбор экспертов постепенно смещается от конкретного пространственного положения к дисперсии и балансу. (iii) Специализация экспертов имеет тенденцию быть более сосредоточенной на раннем временном шаге, а затем постепенно становится равномерной после середины. Мы связываем это с процессом диффузии, который сначала моделирует низкочастотную пространственную информацию, а затем высокочастотную сложную информацию. Основываясь на вышеуказанных рекомендациях, ряд экспериментов с DiT-MoE экспериментально достигает производительности на уровне плотных сетей, требуя при этом значительно меньше вычислительной нагрузки во время вывода. Более того, мы продемонстрировали потенциал DiT-MoE на синтезированных изображениях, масштабируя модель диффузии на 16,5 млрд параметров, что дает новый показатель FID-50K в размере 1,80 в настройках разрешения 512х512. Страница проекта: https://github.com/feizc/DiT-MoE.

Ref-AVS: Ссылка и сегментация объектов в аудиовизуальных сценах
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

Традиционные задачи сегментации по ссылке в основном сосредоточены на тихих визуальных сценах, игнорируя важную роль мультимодального восприятия и взаимодействия в человеческом опыте. В данной работе мы представляем новую задачу, называемую Сегментация по ссылке аудиовизуальных данных (Ref-AVS), которая направлена на сегментацию объектов в визуальной области на основе выражений, содержащих мультимодальные подсказки. Такие выражения формулируются на естественных языках, но обогащены мультимодальными подсказками, включая аудио- и визуальные описания. Для упрощения этого исследования мы создаем первый бенчмарк Ref-AVS, который предоставляет аннотации на уровне пикселей для объектов, описанных в соответствующих мультимодальных выражениях. Для решения задачи Ref-AVS мы предлагаем новый метод, который должным образом использует мультимодальные подсказки для точного руководства сегментацией. Наконец, мы проводим количественные и качественные эксперименты на трех тестовых подмножествах для сравнения нашего подхода с существующими методами из смежных задач. Результаты демонстрируют эффективность нашего метода, подчеркивая его способность точно сегментировать объекты с использованием мультимодальных подсказок. Набор данных доступен по ссылке https://gewu-lab.github.io/Ref-AVS.

Сибил: простая, но эффективная агентская платформа для сложного реального мирового рассуждения
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

Существующие агенты на основе больших языковых моделей (БЯМ) демонстрируют устойчивые возможности решения проблем путем интеграции врожденных знаний БЯМ, сильного обучения в контексте и возможностей нулевого шота, а также использования инструментов в сочетании с тщательно разработанными рабочими процессами вызова БЯМ людьми. Однако эти агенты все еще проявляют недостатки в долгосрочном рассуждении и недостаточно используют потенциал существующих инструментов, что приводит к заметным недостаткам в сложных сценариях рассуждения в реальном мире. Для преодоления этих ограничений мы представляем Sibyl - простую, но мощную архитектуру агента на основе БЯМ, разработанную для решения сложных задач рассуждения путем эффективного использования минимального набора инструментов. Вдохновленная теорией глобального рабочего пространства, Sibyl включает глобальное рабочее пространство для улучшения управления и обмена знаниями и историей разговоров по всей системе. Более того, руководствуясь теорией общества разума, Sibyl реализует многозадачный дебатный жюри на основе агентов для самоусовершенствования окончательных ответов, обеспечивая всеобъемлющий и сбалансированный подход. Этот подход направлен на уменьшение сложности системы, расширение круга решаемых проблем - от вопросов, обычно решаемых людьми за минуты, до тех, требующих часов или даже дней, тем самым облегчая переход от мышления системы-1 к мышлению системы-2. Sibyl разработана с упором на масштабируемость и удобство отладки, включая концепцию реентрансности из функционального программирования с самого начала, с целью легкой и низкозатратной интеграции в другие приложения БЯМ для улучшения возможностей. Наши экспериментальные результаты на тестовом наборе данных GAIA показывают, что агент Sibyl, созданный с использованием GPT-4, достигает современной производительности со средним показателем 34,55%, по сравнению с другими агентами на основе GPT-4. Мы надеемся, что Sibyl может вдохновить на создание более надежных и многократно используемых решений агентов на основе БЯМ для решения сложных задач рассуждения в реальном мире.

VLMEvalKit: Открытый набор инструментов для оценки крупных многомодальных моделей.
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

Мы представляем VLMEvalKit: открытый набор инструментов для оценки крупных многомодальных моделей на основе PyTorch. Цель набора инструментов - предоставить удобную и всестороннюю платформу для исследователей и разработчиков для оценки существующих многомодальных моделей и публикации воспроизводимых результатов оценки. В VLMEvalKit мы реализуем более 70 различных крупных многомодальных моделей, включая как проприетарные API, так и открытые модели, а также более чем 20 различных многомодальных бенчмарков. Путем реализации единого интерфейса новые модели могут легко добавляться в набор инструментов, в то время как сам набор инструментов автоматически обрабатывает остальные рабочие нагрузки, включая подготовку данных, распределенный вывод, постобработку прогнозов и расчет метрик. Хотя в настоящее время набор инструментов в основном используется для оценки крупных моделей видео-языка, его дизайн совместим с будущими обновлениями, которые включат дополнительные модальности, такие как аудио и видео. На основе результатов оценки, полученных с помощью набора инструментов, мы создали OpenVLM Leaderboard - всесторонний рейтинг для отслеживания прогресса исследований по многомодальному обучению. Набор инструментов доступен по адресу https://github.com/open-compass/VLMEvalKit и активно поддерживается.

DreamCatalyst: Быстрое и качественное редактирование 3D-моделей с помощью управления редактируемостью и сохранением идентичности.
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

Метод сжатия оценок (Score distillation sampling, SDS) стал эффективной рамкой в задачах редактирования 3D-моделей на основе текста благодаря своей врожденной 3D-согласованности. Однако существующие методы редактирования 3D на основе SDS страдают от длительного времени обучения и приводят к низкокачественным результатам, в основном потому, что эти методы отклоняются от динамики выборки моделей диффузии. В данной статье мы предлагаем DreamCatalyst, новую рамку, которая интерпретирует редактирование на основе SDS как обратный процесс диффузии. Наша целевая функция учитывает динамику выборки, что делает процесс оптимизации DreamCatalyst приближением обратного процесса диффузии в задачах редактирования. DreamCatalyst нацелен на сокращение времени обучения и улучшение качества редактирования. DreamCatalyst представляет два режима: (1) более быстрый режим, который редактирует сцену NeRF всего за около 25 минут, и (2) режим высокого качества, который производит превосходные результаты менее чем за 70 минут. В частности, наш режим высокого качества превосходит текущие передовые методы редактирования NeRF как по скорости, так и по качеству. Более подробные результаты доступны на нашей странице проекта: https://dream-catalyst.github.io.

YouTube-SL-25: Большой открытый многоязычный параллельный корпус жестового языка
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Даже для лучше изученных языков жестов, таких как Американский язык жестов (ASL), данные являются узким местом для исследований машинного обучения. Ситуация еще хуже для многих других языков жестов, используемых глухими/слабослышащими сообществами по всему миру. В данной статье мы представляем YouTube-SL-25, крупномасштабный, открытый многоязычный корпус видеороликов на языке жестов с видимо хорошо согласованными субтитрами, взятыми с YouTube. С более чем 3000 часами видео на более чем 25 языках жестов, YouTube-SL-25 является а) более чем в 3 раза больше по размеру, чем YouTube-ASL, б) крупнейшим параллельным набором данных на языке жестов на сегодняшний день и в) первым или крупнейшим параллельным набором данных для многих из его составных языков. Мы предоставляем базовые показатели для задач перевода с языка жестов на текст с использованием унифицированной мультиязычной модели многозадачности на основе T5 и сообщаем о результатах на испытательных наборах данных по 4 языкам жестов. Результаты показывают, что мультиязычный перенос приносит пользу как более ресурсным, так и менее ресурсным языкам жестов в рамках YouTube-SL-25.

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.

EfficientQAT: Эффективное обучение с учетом квантования для больших языковых моделей
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

Большие языковые модели (LLM) являются неотъемлемой частью современной обработки естественного языка и искусственного интеллекта. Тем не менее, они сталкиваются с проблемами управления значительными требованиями к памяти. Хотя обучение с учетом квантования (QAT) предлагает решение путем снижения потребления памяти за счет низкобитовых представлений с минимальной потерей точности, это требует значительных ресурсов для оптимизации весов модели и параметров квантования. Для решения этой проблемы мы предлагаем эффективное обучение с учетом квантования (EfficientQAT), новую технику квантования для сжатия LLM. EfficientQAT включает две последовательные фазы: блочное обучение всех параметров (Block-AP) и обучение параметров квантования от начала до конца (E2E-QP). Block-AP последовательно проводит обучение с учетом квантования для всех параметров в каждом блоке трансформера с блочной реконструкцией, обеспечивая эффективность путем избегания обучения всей LLM. Инициализированный квантованной моделью, E2E-QP затем обучает только параметры квантования (шаги) от начала до конца, улучшая эффективность с фиксированным квантованным основанием и сокращенным количеством обучаемых параметров. Обширные эксперименты показывают, что EfficientQAT превосходит предыдущие методы квантования на ряде моделей, включая базовые LLM, LLM, настроенные на инструкции, и мультимодальные LLM, с масштабами от 7B до 70B параметров при различных битах квантования. Например, EfficientQAT получает модель Llama-2-70B с 2 битами на одном графическом процессоре A100-80GB за 41 час, с менее чем 3\% деградацией точности по сравнению с полной точностью (69.48 против 72.41). Следует отметить, что эта квантованная модель 70B INT2 дает прирост точности на 1.67 по сравнению с моделью Llama-2-13B (69.48 против 67.81), требуя при этом меньше памяти (19.2GB против 24.2GB). Код доступен по адресу https://github.com/OpenGVLab/EfficientQAT.

FIRE: Набор данных для оценки интеграции обратной связи и уточнения мультимодельных моделей.
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

Языковые модели зрительного восприятия (VLM) достигли впечатляющего прогресса в различных приложениях, став популярным направлением исследований. В данной статье мы создаем набор данных FIRE (Feedback-Refinement), состоящий из 1,1 млн многоходовых разговоров, полученных из 27 исходных наборов данных, что позволяет языковым моделям зрительного восприятия самостоятельно улучшать свои ответы на основе обратной связи пользователей в различных задачах. Для масштабирования сбора данных FIRE собирается в двух компонентах: FIRE-100K и FIRE-1M, где FIRE-100K создан с помощью GPT-4V, а FIRE-1M генерируется моделями, обученными на FIRE-100K. Затем мы создаем набор данных FIRE-Bench, бенчмарк для всесторонней оценки способности языковых моделей зрительного восприятия к улучшению на основе обратной связи, который содержит 11 тыс. разговоров с обратной связью в качестве тестовых данных, два варианта оценки и модель для предоставления обратной связи для языковых моделей зрительного восприятия. Мы разрабатываем модель FIRE-LLaVA, донастраивая LLaVA на данных FIRE-100K и FIRE-1M, которая демонстрирует выдающуюся способность к улучшению на основе обратной связи на наборе данных FIRE-Bench и превосходит необученные языковые модели зрительного восприятия на 50%, обеспечивая более эффективное взаимодействие пользователь-агент и подчеркивая важность набора данных FIRE.

Эффективное обучение с очищенными нейронными весами.
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

Хорошая инициализация весов служит эффективным средством снижения стоимости обучения модели глубокой нейронной сети (DNN). Выбор способа инициализации параметров представляет собой сложную задачу и может потребовать ручной настройки, что может быть затратным по времени и подвержено человеческим ошибкам. Для преодоления таких ограничений в данной работе предпринимается новый шаг к созданию генератора весов для синтеза нейронных весов для инициализации. Мы используем задачу перевода изображения в изображение с использованием генеративно-состязательных сетей (GAN) в качестве примера из-за простоты сбора модельных весов, охватывающих широкий диапазон. Конкретно, мы сначала собираем набор данных с различными концепциями редактирования изображений и соответствующими обученными весами, которые затем используются для обучения генератора весов. Для учета различных характеристик между слоями и значительного количества весов, которые необходимо предсказать, мы разделяем веса на блоки одинакового размера и присваиваем каждому блоку индекс. Затем диффузионная модель обучается на таком наборе данных с использованием как текстовых условий концепции, так и индексов блоков. Путем инициализации модели перевода изображения денежными весами, предсказанными нашей диффузионной моделью, обучение требует всего 43,3 секунды. По сравнению с обучением с нуля (т.е. Pix2pix), мы достигаем ускорения обучения в 15 раз для новой концепции, при этом получая даже более высокое качество генерации изображений.

От GaLore к WeLore: Как низкоранговые веса неравномерно возникают из низкоранговых градиентов
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

Современные модели больших языков (LLM) состоят из матриц с миллиардами элементов, что делает их хранение и обработку довольно требовательными в терминах вычислительных ресурсов и использования памяти. Будучи значительно большими, такие матрицы часто могут быть выражены в формате низкого ранга с потенциалом снижения требований к ресурсам. В отличие от предыдущих работ, сосредоточенных на разработке новых алгоритмов декомпозиции матриц, в данной работе мы в первую очередь изучаем появление структур низкого ранга в матрицах различных слоев LLM и устанавливаем причинно-следственную связь между динамикой градиента и возникающей выразительностью матриц низкого ранга. Наши результаты показывают, что различные слои проявляют различные уровни сходной структуры низкого ранга, что требует неоднородного снижения ранга для минимизации потерь производительности из-за сжатия. С учетом этого мы представляем проекцию весов низкого ранга (WeLore), которая объединяет сжатие весов и эффективное использование памяти при донастройке как ОДНО целое, способом, не зависящим от данных и одним махом. WeLore использует распределение сингулярных значений для определения подходящего коэффициента снижения ранга для матриц в LLM. Превосходя роль просто техники сжатия, WeLore категоризирует весовые матрицы на компоненты низкого ранга (LRC) и компоненты не низкого ранга (N-LRC) на основе их способности выражаться в виде низкого ранга. Наша перспектива градиента и обширные эксперименты показывают, что LRC обладают лучшими возможностями для донастройки и могут тесно имитировать (иногда превосходить) траекторию обучения и производительность полной донастройки с значительным сокращением памяти и вычислительных ресурсов. Например, донастройка модели LLaMa-27B с сжатием на 50\% с использованием только части параметров в LRC (WeLore) может превзойти полную донастройку с увеличением производительности в ~3 раза и снижением требований к GPU в ~0.6 раза. Наш код доступен по адресу https://github.com/VITA-Group/welore

OmniBind: Масштабное представление Omni мультимодальности через пространства связывания
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

Недавно взаимодействие человека с компьютером с использованием различных модальностей показало многообещающие приложения, такие как GPT-4o и Gemini. Учитывая фундаментальную роль мультимодального совместного представления в конвейерах понимания и генерации, высококачественные общие представления Omni были бы шагом к совместной обработке более разнообразной мультимодальной информации. В данной работе мы представляем модели OmniBind - масштабные мультимодальные общие представления, варьирующиеся по размеру от 7 миллиардов до 30 миллиардов параметров, которые поддерживают ввод 3D, аудио, изображений и языка. Из-за недостатка пар данных по всем модальностям, вместо обучения больших моделей с нуля мы предлагаем переназначение и объединение пространств различных предварительно обученных специализированных моделей. Этот подход позволяет "масштабироваться", косвенно увеличивая количество параметров модели и объем виденных данных. Для эффективного интегрирования различных пространств мы динамически назначаем веса различным пространствам, обучая маршрутизаторы с двумя целями: общая выравнивание между модальностями и разделение представления языка. Следует отметить, что поскольку для объединения и маршрутизации пространств требуются только легкие сети, OmniBind является чрезвычайно эффективной в обучении. Обучение самой большой модели на 30 миллиардов параметров требует лишь непарных унимодальных данных и приблизительно 3 дней на одном узле 8-4090. Обширные эксперименты демонстрируют универсальность и превосходство OmniBind в качестве модели общего представления, подчеркивая ее большой потенциал для различных приложений, таких как любой запрос и композиционное мультимодальное понимание.

Захват разнообразных объектов с помощью симулированных гуманоидов
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Мы представляем метод управления имитационным гуманоидом для захвата объекта и перемещения его по траектории объекта. Из-за сложностей управления гуманоидом с ловкими руками предыдущие методы часто используют отсоединенную руку и рассматривают только вертикальные подъемы или короткие траектории. Этот ограниченный подход снижает их применимость для манипулирования объектами, необходимого для анимации и моделирования. Для устранения этого недостатка мы обучаем контроллер, который может поднимать большое количество (>1200) объектов и перемещать их по случайно сгенерированным траекториям. Наш ключевой принцип заключается в использовании представления движения гуманоида, обеспечивающего навыки движения, сходные с человеческими, и значительно ускоряющего обучение. Используя только упрощенные награды, состояния и представления объектов, наш метод демонстрирует благоприятную масштабируемость на различных объектах и траекториях. Для обучения нам не требуется набор данных с сопоставленными полными движениями тела и траекториями объектов. На этапе тестирования нам нужно только сетчатку объекта и желаемые траектории для захвата и перемещения. Для демонстрации возможностей нашего метода мы показываем лидирующие показатели успешности в следовании за траекториями объектов и обобщении на невидимые объекты. Код и модели будут опубликованы.

Песочница Data-Juicer: Комплексный набор инструментов для совместной разработки мультимодальных данных и моделей.
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

Появление масштабных мультимодальных генеративных моделей резко продвинуло искусственный интеллект, вводя беспрецедентные уровни производительности и функциональности. Однако оптимизация этих моделей остается сложной из-за исторически изолированных путей развития, ориентированных на модель и данные, что приводит к неоптимальным результатам и неэффективному использованию ресурсов. В ответ на это мы представляем новый набор инструментов, разработанный для интегрированного совместного развития данных и моделей. Этот набор инструментов предоставляет комплексную экспериментальную платформу, обеспечивая быструю итерацию и улучшение как данных, так и моделей на основе полученных инсайтов. Наш предложенный рабочий процесс "Исследование-Анализ-Улучшение", подтвержденный приложениями на современных моделях типа LLaVA и DiT, приводит к значительному увеличению производительности, включая лидерство в рейтинге VBench. Мы также обнаружили ценные идеи, полученные из исчерпывающих тестов, проливающие свет на важное взаимодействие между качеством данных, их разнообразием и поведением модели. В надежде на углубленное понимание и будущий прогресс в области мультимодальных данных и генеративного моделирования наши коды, наборы данных и модели поддерживаются и доступны по адресу https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

Vibravox: Набор данных французской речи, записанной с помощью аудиосенсоров на теле.
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Датасет Vibravox соответствует Общему регламенту по защите данных (GDPR) и содержит аудиозаписи, полученные с помощью пяти различных датчиков аудио с использованием технологии телесной проводимости: два внутриканальных микрофона, два датчика вибрации черепа и ларингофон. В датасете также присутствуют аудиоданные от воздушного микрофона, используемого в качестве эталона. Корпус Vibravox содержит 38 часов речевых образцов и физиологических звуков, записанных 188 участниками в различных акустических условиях, созданных высокоуровневым амбисоническим 3D пространственным модулятором. В корпус также включены аннотации о условиях записи и лингвистические транскрипции. Мы провели серию экспериментов по различным задачам, связанным с речью, включая распознавание речи, улучшение речи и верификацию диктора. Эти эксперименты были проведены с использованием передовых моделей для оценки и сравнения их производительности на сигналах, полученных различными аудиодатчиками, предоставленными датасетом Vibravox, с целью лучшего понимания их индивидуальных характеристик.

Click-Gaussian: Интерактивная сегментация для любых трехмерных гауссовых функций
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

Интерактивная сегментация 3D гауссиан открывает большие возможности для манипулирования 3D сценами в реальном времени благодаря возможности реального времени рендеринга 3D гауссовского сплэттинга. Однако текущие методы страдают от длительной постобработки для работы с шумным выходом сегментации. Кроме того, они испытывают трудности в обеспечении детальной сегментации, что важно для тонкой манипуляции 3D сценами. В данном исследовании мы предлагаем Click-Gaussian, который изучает различимые признаковые поля двухуровневой детализации, облегчая сегментацию без длительной постобработки. Мы рассматриваем проблемы, вытекающие из несогласованных изученных признаковых полей, возникающих из 2D сегментации, полученной независимо от 3D сцены. Точность 3D сегментации ухудшается, когда результаты 2D сегментации по видам, основные подсказки для 3D сегментации, противоречат друг другу. Для преодоления этих проблем мы предлагаем Глобальное Функционально-Управляемое Обучение (Global Feature-guided Learning, GFL). GFL формирует кластеры глобальных кандидатов в признаки из шумных 2D сегментов по видам, что сглаживает шумы при обучении признаков 3D гауссиан. Наш метод работает за 10 мс на клик, в 15-130 раз быстрее, чем предыдущие методы, при этом значительно улучшая точность сегментации. Наша страница проекта доступна по адресу https://seokhunchoi.github.io/Click-Gaussian

Неопределенность хрупкая: управление неопределенностью в больших языковых моделях.
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang

Большие языковые модели (LLM) применяются в различных областях с высокими ставками, где надежность их результатов критически важна. Одним из широко используемых методов оценки надежности ответов LLM является оценка неопределенности, которая измеряет вероятность правильности их ответов. В то время как многие исследования сосредотачиваются на улучшении точности оценок неопределенности для LLM, наше исследование исследует хрупкость оценки неопределенности и исследует потенциальные атаки. Мы демонстрируем, что злоумышленник может внедрить тыловой портал в LLM, который, активируемый определенным триггером во входных данных, манипулирует неопределенностью модели, не влияя на конечный результат. Конкретно, предложенный метод атаки с тыловым порталом может изменить распределение вероятностей вывода LLM, заставляя распределение вероятностей сходиться к заранее определенному злоумышленником распределению, обеспечивая при этом неизменность лучшего предсказания. Наши экспериментальные результаты показывают, что эта атака эффективно подрывает надежность самооценки модели в многовариантных вопросах. Например, мы достигли 100% успешности атаки (ASR) при использовании трех различных стратегий триггеров в четырех моделях. Кроме того, мы исследуем, обобщается ли эта манипуляция на различные подсказки и области. Эта работа подчеркивает значительную угрозу для надежности LLM и подчеркивает необходимость будущих защитных мер против таких атак. Код доступен по ссылке https://github.com/qcznlp/uncertainty_attack.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет по Qwen2-Audio
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

NeedleBench: Могут ли языковые модели с ограниченной памятью выполнять поиск и рассуждения в окне из 1 миллиона контекстов?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

Масштабирование трансформеров диффузии до 16 миллиардов параметров
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

Ref-AVS: Ссылка и сегментация объектов в аудиовизуальных сценах
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

Сибил: простая, но эффективная агентская платформа для сложного реального мирового рассуждения
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

VLMEvalKit: Открытый набор инструментов для оценки крупных многомодальных моделей.
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

DreamCatalyst: Быстрое и качественное редактирование 3D-моделей с помощью управления редактируемостью и сохранением идентичности.
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

YouTube-SL-25: Большой открытый многоязычный параллельный корпус жестового языка
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

EfficientQAT: Эффективное обучение с учетом квантования для больших языковых моделей
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

FIRE: Набор данных для оценки интеграции обратной связи и уточнения мультимодельных моделей.
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

Эффективное обучение с очищенными нейронными весами.
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

От GaLore к WeLore: Как низкоранговые веса неравномерно возникают из низкоранговых градиентов
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

OmniBind: Масштабное представление Omni мультимодальности через пространства связывания
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

Захват разнообразных объектов с помощью симулированных гуманоидов
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Песочница Data-Juicer: Комплексный набор инструментов для совместной разработки мультимодальных данных и моделей.
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

Vibravox: Набор данных французской речи, записанной с помощью аудиосенсоров на теле.
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Click-Gaussian: Интерактивная сегментация для любых трехмерных гауссовых функций
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

Неопределенность хрупкая: управление неопределенностью в больших языковых моделях.
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang