Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Skywork-Math: Законы масштабирования данных для математического рассуждения в больших языковых моделях -- История продолжается
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On

Jul 11

ByLiang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou

В данной статье мы исследуем основные факторы, которые потенциально улучшают математические рассуждения крупных языковых моделей (LLM). Мы утверждаем, что закон масштабирования данных для математических рассуждений в современных LLM далек от насыщения, подчеркивая, как качество модели улучшается с увеличением объема данных. Для подтверждения этого утверждения мы представляем серию моделей Skywork-Math, обученных с учителем (SFT) на общих 7B LLM с использованием нашего предложенного набора данных Skywork-MathQA с 2.5 млн экземпляров. Skywork-Math 7B достиг впечатляющей точности 51.2% на соревновательном бенчмарке MATH и 83.9% на бенчмарке GSM8K, используя только данные SFT, превзойдя раннюю версию GPT-4 по MATH. Превосходная производительность моделей Skywork-Math обусловлена нашими новыми двухэтапными процессами синтеза данных и обучения моделей SFT, которые включают три различных метода аугментации и разнообразный набор исходных задач, обеспечивая как количество, так и качество набора данных Skywork-MathQA на различных уровнях сложности. Наиболее важно, мы предоставляем несколько практических выводов для улучшения математических рассуждений в LLM как для исследовательских, так и для промышленных приложений.

Выравнивание видео-потоков с помощью градиентов вознаграждения
Video Diffusion Alignment via Reward Gradients

Jul 11

ByMihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak

Мы сделали значительные успехи в создании основных моделей распространения видео. Поскольку эти модели обучаются с использованием масштабных неконтролируемых данных, стало критически важным адаптировать их к конкретным задачам. Адаптация этих моделей с помощью контролируемой донастройки требует сбора целевых наборов данных видео, что является сложным и утомительным процессом. В данной работе мы используем предварительно обученные модели вознаграждения, которые обучаются на основе предпочтений поверх мощных видов дискриминационных моделей для адаптации моделей распространения видео. Эти модели содержат плотную информацию о градиентах относительно созданных RGB пикселей, что критически важно для эффективного обучения в сложных пространствах поиска, таких как видео. Мы показываем, что обратное распространение градиентов от этих моделей вознаграждения к модели распространения видео может обеспечить вычислительно и временно эффективное выравнивание модели распространения видео. Мы демонстрируем результаты на различных моделях вознаграждения и моделях распространения видео, показывая, что наш подход может учиться намного эффективнее в терминах запросов вознаграждения и вычислений, чем предыдущие подходы без градиентов. Наш код, веса моделей и дополнительные визуализации доступны по ссылке https://vader-vid.github.io.

Мультимодальное самообучение: синтетическое абстрактное изображение и визуальный рассуждения Инструктирование с использованием языковой модели
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Jul 9

ByWenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang

Хотя большинство современных крупных мультимодальных моделей (LMMs) уже могут понимать фотографии природных сцен и портретов, их понимание абстрактных изображений, например, диаграмм, карт или макетов, а также возможности визуального рассуждения остаются довольно примитивными. Они часто испытывают трудности с простыми повседневными задачами, такими как определение времени по часам, понимание блок-схемы или планирование маршрута с использованием дорожной карты. В свете этого мы разрабатываем мультимодальное самоинструктирование, используя крупные языковые модели и их возможности кодирования для синтеза массовых абстрактных изображений и визуальных инструкций по повседневным сценариям. Наш подход легко создает мультимодальный бенчмарк с 11 193 инструкциями для восьми визуальных сценариев: диаграммы, таблицы, симулированные карты, панели управления, блок-схемы, графики отношений, планы этажей и визуальные головоломки. Этот бенчмарк, созданный с помощью простых линий и геометрических элементов, выявляет недостатки большинства передовых LMMs, таких как Claude-3.5-Sonnet и GPT-4o, в понимании абстрактных изображений, рассуждениях о пространственных отношениях и выводе визуальных элементов. Кроме того, для проверки качества наших синтетических данных мы донастраиваем LMM, используя 62 476 синтетических инструкций для диаграмм, таблиц и дорожных карт. Результаты показывают улучшение понимания диаграмм и производительности навигации по карте, а также демонстрируют потенциальные преимущества для других задач визуального рассуждения. Наш код доступен по ссылке: https://github.com/zwq2018/Multi-modal-Self-instruct.

Q-GaLore: Квантованный GaLore с проекцией INT4 и слоями, адаптивными к низкоранговым градиентам.
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

Jul 11

ByZhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

Обучение больших языковых моделей (LLM) требует больших объемов памяти из-за большого количества параметров и связанных состояний оптимизации. GaLore, недавний метод, снижает использование памяти путем проецирования градиентов весов в подпространство низкого ранга без ущерба производительности. Однако GaLore зависит от затратных операций сингулярного разложения (SVD) для определения подпространства, и частые обновления подпространства приводят к значительным накладным расходам на время обучения. Более того, по сравнению с LoRA в более доступных сценариях настройки, GaLore предлагает минимальные улучшения в точности и эффективности. Для преодоления этих ограничений мы представляем Q-Galore, новый подход, который существенно снижает использование памяти путем комбинирования квантования и проекции низкого ранга, превосходя преимущества GaLore. Наш метод основан на двух ключевых наблюдениях: (i) градиентное подпространство обладает разнообразными свойствами, где некоторые слои сходятся рано в процессе обучения, в то время как другие подвержены частым изменениям; (ii) матрицы проекции чрезвычайно устойчивы к квантованию низкого разряда. Используя эти идеи, Q-GaLore адаптивно обновляет градиентное подпространство на основе его статистики сходимости, достигая сравнимой производительности при значительном снижении количества операций SVD. Мы храним матрицы проекции в формате INT4 и веса в формате INT8, включая стохастическое округление для учета накопленной информации о градиенте. Этот подход обеспечивает траекторию обучения высокой точности, используя только веса низкой точности. Мы демонстрируем, что Q-GaLore достигает высокой конкурентоспособной производительности с исключительной эффективностью памяти. На этапе предварительного обучения Q-GaLore облегчает обучение модели LLaMA-7B с нуля на одном графическом процессоре NVIDIA RTX 4060 Ti с всего 16 ГБ памяти. При настройке Q-GaLore снижает потребление памяти до 50% по сравнению с LoRA и GaLore, превосходя QLoRA при том же объеме памяти.

MAVIS: Математическая Визуальная Настройка Инструкций
MAVIS: Mathematical Visual Instruction Tuning

Jul 11

ByRenrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li

Многомодальные крупные языковые модели (MLLM) недавно стали значительным объектом внимания в академической и промышленной сферах. Несмотря на их профессионализм в общих многомодальных сценариях, математические способности в визуальных контекстах остаются недостаточно исследованными. Мы выделяем три ключевые области в MLLM, которые требуют улучшения: визуальное кодирование математических диаграмм, согласование диаграмм и языка, а также математические навыки рассуждения. Это подчеркивает наличие настоятельной потребности в масштабных, высококачественных данных и процессах обучения в области визуальной математики. В данной статье мы предлагаем MAVIS, первую парадигму настройки математического визуального обучения для MLLM, включающую серию математических визуальных наборов данных и специализированные MLLM. Направленная на решение трех проблем, MAVIS включает три последовательных этапа обучения с нуля. Вначале мы составляем MAVIS-Caption, включающий 558 тыс. пар диаграмм-подписей, для тонкой настройки математического видео-кодера (CLIP-Math) с помощью контрастного обучения, специально разработанного для улучшения визуального кодирования диаграмм. Затем мы используем MAVIS-Caption для согласования CLIP-Math с крупной языковой моделью (LLM) с помощью слоя проекции, улучшая согласование визуального и языкового контента в математических областях. Наконец, мы вводим MAVIS-Instruct, включающий 900 тыс. тщательно собранных и аннотированных визуальных математических задач, которые используются для окончательной настройки MLLM на навыки устойчивого математического рассуждения. В MAVIS-Instruct мы включаем полные цепочки рассуждений (CoT) для каждой задачи и минимизируем текстовую избыточность, тем самым сосредотачивая модель на визуальных элементах. Данные и модели доступны по ссылке https://github.com/ZrrSkywalker/MAVIS

MambaVision: Гибридный зрительный каркас Mamba-Transformer
MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Jul 10

ByAli Hatamizadeh, Jan Kautz

Мы предлагаем новую гибридную основу Mamba-Transformer, обозначенную как MambaVision, специально разработанную для приложений в области зрения. Наш основной вклад включает переработку формулировки Mamba для улучшения ее способности к эффективному моделированию визуальных особенностей. Кроме того, мы проводим всестороннее исследование по возможности интеграции Vision Transformers (ViT) с Mamba. Наши результаты показывают, что добавление нескольких блоков самовнимания в архитектуру Mamba в конечных слоях значительно улучшает способность моделирования для улавливания пространственных зависимостей на длинные дистанции. Основываясь на наших выводах, мы представляем семейство моделей MambaVision с иерархической архитектурой, соответствующей различным критериям проектирования. Для классификации изображений на наборе данных ImageNet-1K, варианты модели MambaVision достигают нового рекорда в точности Top-1 и пропускной способности изображения. В задачах наследования, таких как обнаружение объектов, сегментация экземпляров и семантическая сегментация на наборах данных MS COCO и ADE20K, MambaVision превосходит аналогичные основы сопоставимого размера и демонстрирует более благоприятные результаты. Код: https://github.com/NVlabs/MambaVision.

Самоопределение в языковых моделях
Self-Recognition in Language Models

Jul 9

ByTim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre

Быстро растущее количество приложений зависит от небольшого набора закрытых языковых моделей (LM). Эта зависимость может привести к появлению новых угроз безопасности, если LM приобретут способность к самоидентификации. Вдохновленные методами верификации личности человека, мы предлагаем новый подход для оценки самоидентификации в LM с использованием созданных моделью "контрольных вопросов по безопасности". Наш тест может быть внешне проведен для отслеживания передовых моделей, поскольку он не требует доступа к внутренним параметрам модели или вероятностям вывода. Мы используем наш тест для изучения самоидентификации в десяти из самых продвинутых открытых и закрытых языковых моделях, в настоящее время общедоступных. Наши обширные эксперименты не выявили эмпирических доказательств общей или последовательной самоидентификации в любой из исследуемых LM. Вместо этого наши результаты указывают на то, что, имея набор альтернатив, LM стремятся выбрать "лучший" ответ, независимо от его происхождения. Более того, мы обнаружили признаки того, что предпочтения относительно того, какие модели дают лучшие ответы, согласованы между LM. Мы также выявили новые аспекты учета позиционного смещения для LM в множественных вариантах ответов.

SEED-Story: Мультимодальная генерация длинных историй с помощью большой языковой модели
SEED-Story: Multimodal Long Story Generation with Large Language Model

Jul 11

ByShuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen

С замечательными достижениями в области генерации изображений и генерации текста в открытой форме создание переплетенного контента изображений и текста стало все более увлекательной областью. Мультимодальная генерация историй, характеризующаяся созданием повествовательных текстов и ярких изображений в переплетенной форме, вышла на первый план как ценная и практичная задача с широким спектром применений. Однако эта задача представляет существенные вызовы, поскольку требует понимания сложного взаимодействия между текстами и изображениями, а также способности генерировать длинные последовательности согласованных, контекстуально значимых текстов и визуальных элементов. В данной работе мы предлагаем SEED-Story, новый метод, использующий Мультимодельную Большую Языковую Модель (MLLM) для генерации расширенных мультимодальных историй. Наша модель, основанная на мощной способности понимания MLLM, предсказывает текстовые токены, а также визуальные токены, которые впоследствии обрабатываются с помощью адаптированного визуального де-токенизатора для создания изображений с согласованными персонажами и стилями. Мы также предлагаем механизм мультимодального внимания для обеспечения генерации историй с до 25 последовательностями (только 10 для обучения) в высокоэффективном авторегрессивном режиме. Кроме того, мы представляем крупномасштабный и высокоразрешенный набор данных под названием StoryStream для обучения нашей модели и количественной оценки задачи мультимодальной генерации историй в различных аспектах.

Действительно ли ваша модель является хорошим математическим рассудителем? Оценка математического рассуждения с помощью чек-листа
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

Jul 11

ByZihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

Исключительная математическая способность рассуждения является одной из ключевых особенностей, демонстрирующих мощь больших языковых моделей (LLM). Как всесторонне определить и оценить математические способности LLM, а также отразить опыт пользователя в реальных сценариях, стало критической проблемой. Существующие бенчмарки в основном сосредотачиваются на способностях к решению проблем, что представляет существенный риск переобучения модели и не позволяет точно представить истинные математические способности рассуждения. В данной статье мы утверждаем, что если модель действительно понимает проблему, она должна надежно и легко применяться в разнообразных задачах. Вдохновленные этим, мы представляем MATHCHECK, хорошо спроектированный чеклист для тестирования обобщения задач и устойчивости рассуждений, а также автоматическое средство для эффективной генерации чеклистов. MATHCHECK включает в себя несколько математических задач рассуждения и типов тестов на устойчивость для облегчения всесторонней оценки как математических способностей рассуждения, так и тестирования поведения. Используя MATHCHECK, мы разрабатываем MATHCHECK-GSM и MATHCHECK-GEO для оценки математического текстового рассуждения и мультимодальных способностей рассуждения соответственно, выступая в качестве улучшенных версий бенчмарков, включая GSM8k, GeoQA, UniGeo и Geometry3K. Мы применяем MATHCHECK-GSM и MATHCHECK-GEO для оценки более чем 20 LLM и 11 MLLM, оценивая их всесторонние математические способности рассуждения. Наши результаты показывают, что в то время как передовые LLM, такие как GPT-4o, продолжают превосходить в различных способностях по чеклисту, многие другие семейства моделей демонстрируют значительное снижение. Дополнительные эксперименты показывают, что, в сравнении с традиционными математическими бенчмарками, MATHCHECK лучше отражает истинные математические способности и более линейно представляет математическое интеллект, тем самым поддерживая наш дизайн. На нашем MATHCHECK мы легко можем проводить детальный анализ поведения для глубокого изучения моделей.

DenseFusion-1M: Слияние экспертов по зрительному восприятию для комплексного мультимодального восприятия
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

Jul 11

ByXiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan

Существующие мультимодальные модели языка больших размеров (MLLM) все более акцентируют сложное понимание различных визуальных элементов, включая множественные объекты, текстовую информацию и пространственные отношения. Их развитие для комплексного визуального восприятия зависит от наличия высококачественных наборов данных изображений и текста, предлагающих разнообразные визуальные элементы и полные описания изображений. Однако дефицит таких гипердетализированных наборов данных в настоящее время затрудняет прогресс в сообществе MLLM. Узкое место происходит из ограниченных перцептивных возможностей текущих модулей подписей, которые не могут обеспечить полные и точные аннотации. Для облегчения передовых исследований MLLM по комплексному визионному восприятию мы предлагаем Перцептивное Слияние, используя недорогой, но высокоэффективный модуль подписей для полных и точных описаний изображений. Конкретно, Перцептивное Слияние интегрирует разнообразных экспертов по восприятию в качестве изображений-приоритетов для предоставления явной информации о визуальных элементах и принимает эффективную модель MLLM в качестве центральной опоры для имитации способностей восприятия передовых моделей MLLM. Мы тщательно выбрали 1 миллион высоко репрезентативных изображений из некурированного набора данных LAION и сгенерировали плотные описания с использованием нашего модуля, названного DenseFusion-1M. Обширные эксперименты подтверждают, что наш модуль превосходит своих аналогов, где полученный набор данных значительно улучшает способности восприятия и когнитивные способности существующих моделей MLLM по различным бенчмаркам визио-языкового восприятия, особенно с изображениями высокого разрешения в качестве входных данных. Набор данных и код общедоступны по адресу https://github.com/baaivision/DenseFusion.

Синтез речи с авторегрессией без векторного квантования.
Autoregressive Speech Synthesis without Vector Quantization

Jul 11

ByLingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei

Мы представляем MELLE, новый подход к языковому моделированию на основе непрерывных токенов для синтеза речи из текста (TTS). MELLE авторегрессивно генерирует непрерывные кадры мел-спектрограммы непосредственно из текстового условия, обходя необходимость векторного квантования, которое изначально предназначено для аудио-сжатия и жертвует достоверностью по сравнению с мел-спектрограммами. В частности, (i) вместо потерь кросс-энтропии мы применяем потери регрессии с предложенной функцией потерь потока спектрограммы для моделирования вероятностного распределения непрерывных токенов. (ii) мы внедрили вариационное вывод в MELLE для облегчения механизмов выборки, тем самым улучшая разнообразие выходных данных и устойчивость модели. Эксперименты показывают, что по сравнению с языковыми моделями кодека двухэтапного VALL-E и его вариантами, одноэтапный MELLE уменьшает проблемы устойчивости, избегая врожденных недостатков выборки дискретных кодов, достигает превосходной производительности по нескольким метрикам и, что самое важное, предлагает более упрощенную парадигму. См. https://aka.ms/melle для демонстраций нашей работы.

GTA: Бенчмарк для агентов общего назначения
GTA: A Benchmark for General Tool Agents

Jul 11

ByJize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

Значительное внимание уделяется интеграции больших языковых моделей (LLM) с различными инструментами для разработки универсальных агентов. Это представляет собой вызов для возможностей использования инструментов LLM. Однако существуют явные разрывы между существующими оценками использования инструментов и реальными сценариями. На текущий момент оценки часто используют искусственно созданные запросы, задачи с одним шагом, фиктивные инструменты и взаимодействие только с текстом, что не позволяет эффективно выявить способности агентов к решению проблем в реальном мире. Для решения этой проблемы мы предлагаем GTA, бенчмарк для агентов общего назначения, включающий три основных аспекта: (i) Запросы реальных пользователей: запросы, написанные людьми, с простыми целями в реальном мире, но с неявным использованием инструментов, требующие от LLM обосновать подходящие инструменты и спланировать шаги решения. (ii) Реальные инструменты: платформа оценки, оснащенная инструментами по категориям восприятия, операций, логики и креативности для оценки фактической производительности агентов при выполнении задач. (iii) Реальные мультимодальные входы: аутентичные изображения, такие как пространственные сцены, снимки веб-страниц, таблицы, фрагменты кода и печатные/рукописные материалы, используемые в качестве контекста запроса для близкого соответствия реальным сценариям. Мы разработали 229 задач реального мира и исполнимые цепочки инструментов для оценки основных LLM. Наши результаты показывают, что запросы пользователей из реального мира представляют собой вызов для существующих LLM, с GPT-4 выполняющим менее 50% задач, а большинство LLM достигают результатов ниже 25%. Эта оценка выявляет узкие места в возможностях использования инструментов текущих LLM в реальных сценариях, что определяет направление для развития агентов универсальных инструментов. Код и набор данных доступны по ссылке https://github.com/open-compass/GTA.

Синергия между данными и много-модальными крупными языковыми моделями: обзор с позиции совместного развития
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Jul 11

ByZhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng

В последние годы наблюдается быстрое развитие крупных языковых моделей (LLM). На основе мощных LLM мультимодальные LLM (MLLM) расширяют модальность с текста на более широкий спектр областей, привлекая широкое внимание из-за более широкого спектра сценариев применения. Поскольку LLM и MLLM полагаются на огромное количество параметров модели и данных для достижения важных возможностей, важность данных получает все более широкое внимание и признание. Изучая и анализируя недавние работы, ориентированные на данные для MLLM, мы обнаруживаем, что развитие моделей и данных не является двумя отдельными путями, а взаимосвязанными. С одной стороны, более обширные и высококачественные данные способствуют лучшей производительности MLLM, с другой стороны, MLLM могут способствовать развитию данных. Совместное развитие мультимодальных данных и MLLM требует четкого понимания 1) на какой стадии развития MLLM могут быть применены конкретные подходы к данным для улучшения каких возможностей и 2) какие возможности и роли моделей могут способствовать мультимодальным данным. Для поощрения совместного развития данных и моделей для сообщества MLLM мы систематически рассматриваем существующие работы, связанные с MLLM с точки зрения совместного развития данных и моделей. Регулярно обновляемый проект, связанный с этим обзором, доступен по адресу https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.

Усиленное обучение с градиентным бустингом
Gradient Boosting Reinforcement Learning

Jul 11

ByBenjamin Fuhrer, Chen Tessler, Gal Dalal

Нейронные сети (НС) достигают выдающихся результатов в различных задачах, но лишены ключевых характеристик: интерпретируемости, поддержки категориальных признаков и легковесных реализаций, подходящих для периферийных устройств. В то время как текущие усилия направлены на решение этих проблем, Градиентный Бустинг Деревьев (GBT) по своей природе удовлетворяет этим требованиям. В результате GBT стали основным методом для задач обучения с учителем во многих прикладных областях и соревнованиях. Однако их применение в сценариях онлайн-обучения, особенно в обучении с подкреплением (RL), ограничено. В данной работе мы сокращаем этот разрыв, представляя Градиентное Бустинговое RL (GBRL), фреймворк, который расширяет преимущества GBT на область RL. Используя фреймворк GBRL, мы реализуем различные алгоритмы актор-критик и сравниваем их производительность с их аналогами на НС. Вдохновленные общими основами в НС, мы предлагаем подход к совместному использованию деревьев для функций политики и ценности с различными скоростями обучения, улучшая эффективность обучения на миллионах взаимодействий. GBRL достигает конкурентоспособной производительности в разнообразных задачах, преуспевая в областях со структурированными или категориальными признаками. Кроме того, мы представляем высокопроизводительную, ускоренную с помощью GPU реализацию, которая интегрируется без проблем с широко используемыми библиотеками RL (доступно на https://github.com/NVlabs/gbrl). GBRL расширяет набор инструментов для практиков RL, демонстрируя жизнеспособность и перспективы GBT в рамках парадигмы RL, особенно в областях, характеризующихся структурированными или категориальными признаками.

Live2Diff: Перевод потокового видео с помощью однонаправленного внимания в моделях диффузии видео
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

Jul 11

ByZhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen

Большие языковые модели продемонстрировали выдающуюся эффективность в генерации потоковых данных, таких как текст и аудио, благодаря своему временно однонаправленному механизму внимания, который моделирует корреляции между текущим токеном и предыдущими токенами. Однако видеопоток остается гораздо менее исследованным, несмотря на растущую потребность в обработке прямых видео. Современные модели диффузии видео используют двунаправленное временное внимание для моделирования корреляций между текущим кадром и всеми окружающими (включая будущие) кадрами, что мешает им обрабатывать потоковые видео. Для решения этой проблемы мы представляем Live2Diff, первую попытку разработки модели диффузии видео с однонаправленным временным вниманием, специально нацеленную на живой потоковый видеоперевод. По сравнению с предыдущими работами, наш подход обеспечивает временную согласованность и плавность, коррелируя текущий кадр с его предшественниками и несколькими начальными кадрами для разогрева, без учета будущих кадров. Кроме того, мы используем высокоэффективную схему подавления шума, включающую механизм KV-кэша и конвейеризацию, для облегчения потокового видеоперевода с интерактивными частотами кадров. Обширные эксперименты демонстрируют эффективность предложенного механизма внимания и конвейера, превосходя предыдущие методы по показателям временной плавности и/или эффективности.

Обобщенное неявное моделирование движения для интерполяции кадров видео.
Generalizable Implicit Motion Modeling for Video Frame Interpolation

Jul 11

ByZujin Guo, Wei Li, Chen Change Loy

Моделирование движения имеет ключевое значение в интерполяции видеокадров на основе потока (Video Frame Interpolation, VFI). Существующие парадигмы либо рассматривают линейные комбинации двунаправленных потоков, либо непосредственно предсказывают двусторонние потоки для заданных меток времени, не исследуя благоприятные движения заранее, что приводит к недостаточной способности эффективно моделировать пространственно-временные динамики в видеороликах реального мира. Для преодоления этого ограничения в данном исследовании мы представляем Обобщенное Неявное Моделирование Движения (Generalizable Implicit Motion Modeling, GIMM), новый и эффективный подход к моделированию движения для VFI. Конкретно, чтобы сделать GIMM эффективной парадигмой моделирования движения, мы разрабатываем конвейер кодирования движения для моделирования пространственно-временного движения, скрытого в двунаправленных потоках, извлеченных из предварительно обученных оценщиков потока, эффективно представляя движения, специфичные для ввода. Затем мы неявно предсказываем оптические потоки произвольного временного шага между двумя смежными входными кадрами с помощью адаптивной нейронной сети на основе координат, с пространственно-временными координатами и скрытым движением в качестве входных данных. Наш GIMM может быть легко интегрирован с существующими работами по VFI на основе потока без дополнительных модификаций. Мы показываем, что GIMM работает лучше, чем текущее состояние искусства на бенчмарках VFI.

К построению специализированного общего искусственного интеллекта с объединением Системы 1 и Системы 2.
Towards Building Specialized Generalist AI with System 1 and System 2 Fusion

Jul 11

ByKaiyan Zhang, Biqing Qi, Bowen Zhou

В данной перспективной статье мы представляем концепцию Специализированного Генералистического Искусственного Интеллекта (СГИ или просто СГИ), как важного этапа на пути к Искусственному Общему Интеллекту (ИОИ). В отличие от прямого масштабирования общих способностей, СГИ определяется как ИИ, специализирующийся хотя бы в одной задаче, превосходящий человеческих экспертов, сохраняя при этом общие способности. Этот путь слияния позволяет СГИ быстро достигать областей высокой ценности. Мы классифицируем СГИ на три этапа на основе уровня мастерства в профессиональных навыках и общей производительности. Кроме того, мы обсуждаем необходимость СГИ в решении проблем, связанных с большими языковыми моделями, такими как их недостаточная общность, специализированные возможности, неопределенность в инновациях и практические применения. Более того, мы предлагаем концептуальную структуру для развития СГИ, интегрирующую сильные стороны когнитивной обработки Системы 1 и Системы 2. Эта структура включает три уровня и четыре ключевых компонента, которые сосредотачиваются на улучшении индивидуальных способностей и облегчении совместной эволюции. Мы заключаем, подводя итог потенциальным вызовам и предлагая направления для будущего развития. Мы надеемся, что предложенный СГИ принесет понимание для дальнейших исследований и приложений на пути к достижению ИОИ.

Картирование взгляда сверху (MIA): Усиление создания карт с использованием общедоступных данных большого масштаба
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

Jul 11

ByCherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer

Карты сверху вниз (Bird's Eye View, BEV) являются популярным представлением для навигации наземных роботов благодаря их информативности и гибкости для последующих задач. В то время как недавние методы показали потенциал в предсказании карт BEV по изображениям от первого лица (First-Person View, FPV), их обобщаемость ограничена маленькими регионами, охваченными текущими наборами данных автономных транспортных средств. В этом контексте мы показываем, что более масштабный подход к обобщаемому предсказанию карт может быть реализован с использованием двух крупномасштабных платформ с картографическими данными, Mapillary для изображений FPV и OpenStreetMap для семантических карт BEV. Мы представляем Map It Anywhere (MIA), движок данных, который обеспечивает безупречную кураторскую работу и моделирование помеченных данных предсказания карт из существующих открытых картографических платформ. Используя наш движок данных MIA, мы демонстрируем легкость автоматического сбора набора данных из 1,2 миллиона пар изображений FPV и карт BEV, охватывающих разнообразные географии, ландшафты, окружающие факторы, модели камер и сценарии съемки. Мы также обучаем простую модель, не зависящую от модели камеры, на этих данных для предсказания карт BEV. Обширные оценки с использованием установленных бенчмарков и нашего набора данных показывают, что данные, собранные MIA, обеспечивают эффективное предварительное обучение для обобщаемого предсказания карт BEV, с производительностью "нулевого сэмпла", превосходящей базовые показатели, обученные на существующих наборах данных, на 35%. Наш анализ подчеркивает потенциал использования крупномасштабных общедоступных карт для разработки и тестирования обобщаемого восприятия BEV, что открывает путь к более надежной автономной навигации.

Дикие гауссианы: трехмерное гауссово сглаживание в дикой природе
WildGaussians: 3D Gaussian Splatting in the Wild

Jul 11

ByJonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler

Хотя область восстановления трехмерных сцен в основном контролируется моделями NeRF из-за их фотореалистичного качества, недавно появился метод трехмерного гауссова сплетения (3DGS), предлагающий схожее качество с возможностью реального времени рендеринга. Однако оба метода преимущественно проявляют себя в хорошо контролируемых трехмерных сценах, в то время как данные "на воле" - характеризующиеся заслонениями, динамическими объектами и изменяющимся освещением - остаются вызовом. NeRF легко адаптируется к таким условиям благодаря векторам внедрения на изображение, в то время как 3DGS испытывает затруднения из-за явного представления и отсутствия общих параметров. Для решения этой проблемы мы представляем WildGaussians, новый подход к обработке заслонений и изменений внешнего вида с помощью 3DGS. Используя надежные функции DINO и интегрируя модуль моделирования внешнего вида в 3DGS, наш метод достигает передовых результатов. Мы демонстрируем, что WildGaussians соответствует скорости реального времени рендеринга 3DGS, превосходя как 3DGS, так и базовые модели NeRF в обработке данных "на воле", все это в рамках простой архитектурной структуры.

OmniNOCS: Объединенный набор данных и модель NOCS для трехмерного поднятия двумерных объектов.
OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects

Jul 11

ByAkshay Krishnan, Abhijit Kundu, Kevis-Kokitsi Maninis, James Hays, Matthew Brown

Мы предлагаем OmniNOCS, крупномасштабный монокулярный набор данных с картами 3D нормализованного объектного координатного пространства (NOCS), масками объектов и аннотациями ограничивающих рамок 3D для внутренних и внешних сцен. OmniNOCS содержит в 20 раз больше классов объектов и в 200 раз больше экземпляров, чем существующие наборы данных NOCS (NOCS-Real275, Wild6D). Мы используем OmniNOCS для обучения новой модели прогнозирования монокулярного NOCS на основе трансформера (NOCSformer), которая может предсказывать точные NOCS, маски экземпляров и позы из 2D обнаруженных объектов различных классов. Это первая модель NOCS, которая способна обобщаться на широкий спектр классов при подаче 2D рамок. Мы оцениваем нашу модель на задаче прогнозирования 3D ориентированных ограничивающих рамок, где она достигает сравнимых результатов с передовыми методами обнаружения 3D, такими как Cube R-CNN. В отличие от других методов обнаружения 3D, наша модель также предоставляет детальную и точную форму и сегментацию 3D объектов. Мы предлагаем новый показатель для задачи прогнозирования NOCS на основе OmniNOCS, который, надеемся, послужит полезным базовым уровнем для будущих работ в этой области. Наш набор данных и код будут доступны на веб-сайте проекта: https://omninocs.github.io.

Масштабирование персонализированной оценки эстетики через настройку вектора задачи.
Scaling Up Personalized Aesthetic Assessment via Task Vector Customization

Jul 9

ByJooyeol Yun, Jaegul Choo

Задача персонализированной оценки эстетики изображений направлена на создание моделей прогнозирования оценок эстетики, соответствующих индивидуальным предпочтениям с помощью небольшого количества предоставленных пользователем входных данных. Однако масштабируемость и обобщающие возможности текущих подходов значительно ограничены из-за зависимости от дорогостоящей кураторской базы данных. Для преодоления этой давней проблемы масштабируемости мы представляем уникальный подход, который использует легко доступные базы данных для общей оценки эстетики изображений и оценки качества изображений. Конкретно, мы рассматриваем каждую базу данных как отдельную задачу регрессии оценки изображения, проявляющую различные уровни потенциала персонализации. Путем определения оптимальных комбинаций векторов задач, известных как представляющие определенные характеристики каждой базы данных, мы успешно создаем персонализированные модели для отдельных лиц. Этот подход интеграции нескольких моделей позволяет нам использовать значительное количество данных. Наши обширные эксперименты демонстрируют эффективность нашего подхода в обобщении на ранее не виденные области - задача, с которой предыдущие подходы боролись, что делает его крайне применимым к реальным сценариям. Наш новаторский подход значительно продвигает область, предлагая масштабируемые решения для персонализированной оценки эстетики и устанавливая высокие стандарты для будущих исследований.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Skywork-Math: Законы масштабирования данных для математического рассуждения в больших языковых моделях -- История продолжается
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On

Jul 11

ByLiang Zeng, Liangjun Zhong, Liang Zhao, Tianwen Wei, Liu Yang, Jujie He, Cheng Cheng, Rui Hu, Yang Liu, Shuicheng Yan, Han Fang, Yahui Zhou

Выравнивание видео-потоков с помощью градиентов вознаграждения
Video Diffusion Alignment via Reward Gradients

Jul 11

ByMihir Prabhudesai, Russell Mendonca, Zheyang Qin, Katerina Fragkiadaki, Deepak Pathak

Мультимодальное самообучение: синтетическое абстрактное изображение и визуальный рассуждения Инструктирование с использованием языковой модели
Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Jul 9

ByWenqi Zhang, Zhenglin Cheng, Yuanyu He, Mengna Wang, Yongliang Shen, Zeqi Tan, Guiyang Hou, Mingqian He, Yanna Ma, Weiming Lu, Yueting Zhuang

Q-GaLore: Квантованный GaLore с проекцией INT4 и слоями, адаптивными к низкоранговым градиентам.
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients

Jul 11

ByZhenyu Zhang, Ajay Jaiswal, Lu Yin, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

MAVIS: Математическая Визуальная Настройка Инструкций
MAVIS: Mathematical Visual Instruction Tuning

Jul 11

ByRenrui Zhang, Xinyu Wei, Dongzhi Jiang, Yichi Zhang, Ziyu Guo, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Bin Wei, Shanghang Zhang, Peng Gao, Hongsheng Li

MambaVision: Гибридный зрительный каркас Mamba-Transformer
MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Jul 10

ByAli Hatamizadeh, Jan Kautz

Самоопределение в языковых моделях
Self-Recognition in Language Models

Jul 9

ByTim R. Davidson, Viacheslav Surkov, Veniamin Veselovsky, Giuseppe Russo, Robert West, Caglar Gulcehre

SEED-Story: Мультимодальная генерация длинных историй с помощью большой языковой модели
SEED-Story: Multimodal Long Story Generation with Large Language Model

Jul 11

ByShuai Yang, Yuying Ge, Yang Li, Yukang Chen, Yixiao Ge, Ying Shan, Yingcong Chen

Действительно ли ваша модель является хорошим математическим рассудителем? Оценка математического рассуждения с помощью чек-листа
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

Jul 11

ByZihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang

DenseFusion-1M: Слияние экспертов по зрительному восприятию для комплексного мультимодального восприятия
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

Jul 11

ByXiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan

Синтез речи с авторегрессией без векторного квантования.
Autoregressive Speech Synthesis without Vector Quantization

Jul 11

ByLingwei Meng, Long Zhou, Shujie Liu, Sanyuan Chen, Bing Han, Shujie Hu, Yanqing Liu, Jinyu Li, Sheng Zhao, Xixin Wu, Helen Meng, Furu Wei

GTA: Бенчмарк для агентов общего назначения
GTA: A Benchmark for General Tool Agents

Jul 11

ByJize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

Синергия между данными и много-модальными крупными языковыми моделями: обзор с позиции совместного развития
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Jul 11

ByZhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng

Усиленное обучение с градиентным бустингом
Gradient Boosting Reinforcement Learning

Jul 11

ByBenjamin Fuhrer, Chen Tessler, Gal Dalal

Live2Diff: Перевод потокового видео с помощью однонаправленного внимания в моделях диффузии видео
Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

Jul 11

ByZhening Xing, Gereon Fox, Yanhong Zeng, Xingang Pan, Mohamed Elgharib, Christian Theobalt, Kai Chen

Обобщенное неявное моделирование движения для интерполяции кадров видео.
Generalizable Implicit Motion Modeling for Video Frame Interpolation

Jul 11

ByZujin Guo, Wei Li, Chen Change Loy

К построению специализированного общего искусственного интеллекта с объединением Системы 1 и Системы 2.
Towards Building Specialized Generalist AI with System 1 and System 2 Fusion

Jul 11

ByKaiyan Zhang, Biqing Qi, Bowen Zhou

Картирование взгляда сверху (MIA): Усиление создания карт с использованием общедоступных данных большого масштаба
Map It Anywhere (MIA): Empowering Bird's Eye View Mapping using Large-scale Public Data

Jul 11

ByCherie Ho, Jiaye Zou, Omar Alama, Sai Mitheran Jagadesh Kumar, Benjamin Chiang, Taneesh Gupta, Chen Wang, Nikhil Keetha, Katia Sycara, Sebastian Scherer

Дикие гауссианы: трехмерное гауссово сглаживание в дикой природе
WildGaussians: 3D Gaussian Splatting in the Wild

Jul 11

ByJonas Kulhanek, Songyou Peng, Zuzana Kukelova, Marc Pollefeys, Torsten Sattler

OmniNOCS: Объединенный набор данных и модель NOCS для трехмерного поднятия двумерных объектов.
OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects

Jul 11

ByAkshay Krishnan, Abhijit Kundu, Kevis-Kokitsi Maninis, James Hays, Matthew Brown

Масштабирование персонализированной оценки эстетики через настройку вектора задачи.
Scaling Up Personalized Aesthetic Assessment via Task Vector Customization

Jul 9

ByJooyeol Yun, Jaegul Choo