HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

34 papers found

Кино Ген: Ансамбль Моделей Основы Медиа
Movie Gen: A Cast of Media Foundation Models

Oct 17

ByAdam Polyak, Amit Zohar, Andrew Brown, Andros Tjandra, Animesh Sinha, Ann Lee, Apoorv Vyas, Bowen Shi, Chih-Yao Ma, Ching-Yao Chuang, David Yan, Dhruv Choudhary, Dingkang Wang, Geet Sethi, Guan Pang, Haoyu Ma, Ishan Misra, Ji Hou, Jialiang Wang, Kiran Jagadeesh, Kunpeng Li, Luxin Zhang, Mannat Singh, Mary Williamson, Matt Le, Matthew Yu, Mitesh Kumar Singh, Peizhao Zhang, Peter Vajda, Quentin Duval, Rohit Girdhar, Roshan Sumbaly, Sai Saketh Rambhatla, Sam Tsai, Samaneh Azadi, Samyak Datta, Sanyuan Chen, Sean Bell, Sharadh Ramaswamy, Shelly Sheynin, Siddharth Bhattacharya, Simran Motwani, Tao Xu, Tianhe Li, Tingbo Hou, Wei-Ning Hsu, Xi Yin, Xiaoliang Dai, Yaniv Taigman, Yaqiao Luo, Yen-Cheng Liu, Yi-Chiao Wu, Yue Zhao, Yuval Kirstain, Zecheng He, Zijian He, Albert Pumarola, Ali Thabet, Artsiom Sanakoyeu, Arun Mallya, Baishan Guo, Boris Araya, Breena Kerr, Carleigh Wood, Ce Liu, Cen Peng, Dimitry Vengertsev, Edgar Schonfeld, Elliot Blanchard, Felix Juefei-Xu, Fraylie Nord, Jeff Liang, John Hoffman, Jonas Kohler, Kaolin Fire, Karthik Sivakumar, Lawrence Chen, Licheng Yu, Luya Gao, Markos Georgopoulos, Rashel Moritz, Sara K. Sampson, Shikai Li, Simone Parmeggiani, Steve Fine, Tara Fowler, Vladan Petrovic, Yuming Du

Мы представляем Movie Gen - набор базовых моделей, способных генерировать видеоролики высокого качества разрешением 1080p с различными соотношениями сторон и синхронизированным аудио. Мы также демонстрируем дополнительные возможности, такие как точное редактирование видео на основе инструкций и создание персонализированных видеороликов на основе изображения пользователя. Наши модели устанавливают новый уровень качества в нескольких задачах: синтез видео по тексту, персонализация видео, редактирование видео, генерация аудио из видео и генерация аудио по тексту. Наша самая крупная модель для генерации видео имеет 30 миллиардов параметров трансформера, обученного с максимальной длиной контекста 73 тыс. видео-токенов, что соответствует созданию видео длительностью 16 секунд при частоте кадров 16 кадров в секунду. Мы представляем несколько технических инноваций и упрощений в архитектуре, латентных пространствах, целях обучения и рецептах, курировании данных, протоколах оценки, техниках параллелизации и оптимизации вывода, которые позволяют нам получить преимущества масштабирования предварительного обучения данных, размера модели и вычислительных ресурсов для обучения моделей генерации медиаконтента большого масштаба. Мы надеемся, что данная статья поможет научному сообществу ускорить прогресс и инновации в области моделей генерации медиаконтента. Все видеоролики из этой статьи доступны по ссылке https://go.fb.me/MovieGenResearchVideos.

MixEval-X: Оценки от любого к любому на основе смесей данных из реального мира
MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Oct 17

ByJinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

Восприятие и генерация разнообразных модальностей являются ключевыми для моделей искусственного интеллекта для эффективного обучения на реальных сигналах и взаимодействия с ними, что требует надежной оценки для их развития. Мы выявляем две основные проблемы в текущих оценках: (1) несогласованные стандарты, формируемые различными сообществами с разными протоколами и уровнями зрелости; и (2) значительные искажения запросов, оценок и обобщений. Для решения этих проблем мы представляем MixEval-X, первый в мире бенчмарк для оценки реального мира, разработанный для оптимизации и стандартизации оценок по входным и выходным модальностям. Мы предлагаем мультимодальные смеси бенчмарков и конвейеры адаптации-коррекции для восстановления распределений задач реального мира, обеспечивая эффективное обобщение оценок на реальные сценарии использования. Обширные метаоценки показывают, что наш подход эффективно выравнивает образцы бенчмарков с распределениями задач реального мира, и ранжирование моделей коррелирует с рейтингами реальных оценок, полученных от широкой публики (до 0.98). Мы предоставляем подробные таблицы лидеров для переранжирования существующих моделей и организаций, а также предлагаем идеи для улучшения понимания мультимодальных оценок и информирования будущих исследований.

JudgeBench: набор тестов для оценки судей на основе LLM.
JudgeBench: A Benchmark for Evaluating LLM-based Judges

Oct 16

BySijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica

Судьи на основе LLM стали масштабируемой альтернативой оценке человеком и все чаще используются для оценки, сравнения и улучшения моделей. Однако надежность самих судей на основе LLM редко подвергается критическому анализу. По мере усовершенствования LLM их ответы становятся более сложными, требуя более сильных судей для оценки. Существующие бенчмарки в основном сосредотачиваются на соответствии с предпочтениями человека, но часто не учитывают более сложные задачи, где предпочтения, собранные от людей, являются плохим показателем фактической и логической правильности. Для решения этой проблемы мы предлагаем новую систему оценки для объективной оценки судей на основе LLM. На основе этой системы мы предлагаем JudgeBench, бенчмарк для оценки судей на основе LLM на сложных парах ответов, охватывающих знания, рассуждения, математику и кодирование. JudgeBench использует новый конвейер для преобразования существующих сложных наборов данных в сложные пары ответов с метками предпочтения, отражающими объективную правильность. Наше всестороннее исследование на коллекции вызванных судей, настроенных судей, мультиагентных судей и моделей вознаграждения показывает, что JudgeBench представляет собой значительно более сложное испытание, чем предыдущие бенчмарки, причем многие сильные модели (например, GPT-4o) проявляют лишь незначительное превосходство над случайным угадыванием. В целом, JudgeBench предлагает надежную платформу для оценки все более усовершенствованных судей на основе LLM. Данные и код доступны по ссылке https://github.com/ScalerLab/JudgeBench.

Жидкость: Масштабирование авторегрессивных генеративных моделей текста-изображения с непрерывными токенами
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens

Oct 17

ByLijie Fan, Tianhong Li, Siyang Qin, Yuanzhen Li, Chen Sun, Michael Rubinstein, Deqing Sun, Kaiming He, Yonglong Tian

Масштабирование авторегрессионных моделей в области зрения не оказалось таким же выгодным, как в случае крупных языковых моделей. В данной работе мы исследуем эту проблему масштабирования в контексте генерации текста в изображения, сосредотачиваясь на двух критических факторах: используют ли модели дискретные или непрерывные токены, и генерируются ли токены в случайном или фиксированном растре с использованием трансформерных архитектур BERT или GPT-подобных. Наши эмпирические результаты показывают, что, хотя все модели эффективно масштабируются с точки зрения потерь на валидации, их оценочная производительность - измеряемая по FID, оценке GenEval и качеству изображения - следует различным тенденциям. Модели на основе непрерывных токенов достигают значительно лучшего качества изображения, чем те, которые используют дискретные токены. Более того, порядок генерации и механизмы внимания значительно влияют на оценку GenEval: модели со случайным порядком достигают заметно лучших оценок GenEval по сравнению с моделями в растре. Вдохновленные этими результатами, мы обучаем модель Fluid с порядком генерации в случайном порядке на непрерывных токенах. Модель Fluid 10.5B достигает нового рекорда нулевой оценки FID в 6.16 на MS-COCO 30K и общей оценки 0.69 на бенчмарке GenEval. Мы надеемся, что наши выводы и результаты будут стимулировать будущие усилия по преодолению разрыва в масштабировании между моделями зрения и языка.

Янус: Разделение визуального кодирования для объединенного мультимодального понимания и генерации
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Oct 17

ByChengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

В данной статье мы представляем Janus - авторегрессивную структуру, объединяющую мультимодальное понимание и генерацию. Предыдущие исследования часто полагались на один визуальный кодировщик для обеих задач, например, Chameleon. Однако из-за различного уровня детализации информации, необходимой для мультимодального понимания и генерации, такой подход может привести к субоптимальной производительности, особенно в мультимодальном понимании. Для решения этой проблемы мы разделяем визуальное кодирование на отдельные пути, сохраняя при этом единую трансформерную архитектуру для обработки. Разделение не только устраняет конфликт между ролями визуального кодировщика в понимании и генерации, но и повышает гибкость структуры. Например, компоненты мультимодального понимания и генерации могут независимо выбирать наиболее подходящие методы кодирования. Эксперименты показывают, что Janus превосходит предыдущую унифицированную модель и соответствует или превосходит производительность моделей, ориентированных на конкретные задачи. Простота, высокая гибкость и эффективность Janus делают его перспективным кандидатом для унифицированных мультимодальных моделей следующего поколения.

План действий по достижению сверхчеловеческого понимания речи с использованием больших языковых моделей
Roadmap towards Superhuman Speech Understanding using Large Language Models

Oct 17

ByFan Bu, Yuhao Zhang, Xidong Wang, Benyou Wang, Qun Liu, Haizhou Li

Успех крупных языковых моделей (KYM) побудил усилия по интеграции речевых и аудио данных с целью создания общих базовых моделей, способных обрабатывать как текстовые, так и нетекстовые входные данные. Недавние достижения, такие как GPT-4o, подчеркивают потенциал для конечных речевых KYM, сохраняющих несемантическую информацию и мировые знания для более глубокого понимания речи. Для направления развития речевых KYM мы предлагаем пятиуровневую дорожную карту, начиная от базового автоматического распознавания речи (ASR) до продвинутых сверхчеловеческих моделей, способных интегрировать несемантическую информацию с абстрактными акустическими знаниями для выполнения сложных задач. Более того, мы разрабатываем бенчмарк, SAGI Bechmark, который стандартизирует критические аспекты на разных уровнях в этих пяти уровнях, выявляя проблемы в использовании абстрактных акустических знаний и полноте возможностей. Наши результаты показывают пробелы в обработке паралингвистических подсказок и абстрактных акустических знаний, и мы предлагаем направления для будущих исследований. В данной статье изложена дорожная карта для продвижения речевых KYM, представлен бенчмарк для оценки и предоставлены ключевые идеи о их текущих ограничениях и потенциале.

MobA: Двухуровневая система агентов для эффективной автоматизации задач на мобильных устройствах.
MobA: A Two-Level Agent System for Efficient Mobile Task Automation

Oct 17

ByZichen Zhu, Hao Tang, Yansi Li, Kunyao Lan, Yixuan Jiang, Hao Zhou, Yixiao Wang, Situo Zhang, Liangtai Sun, Lu Chen, Kai Yu

Существующие мобильные ассистенты ограничены зависимостью от API системы или сталкиваются с сложными инструкциями пользователей и разнообразными интерфейсами из-за ограниченных способностей в понимании и принятии решений. Для решения этих проблем мы предлагаем MobA, новейшего агента для мобильного телефона, основанного на мультимодальных крупномасштабных языковых моделях, который улучшает способности в понимании и планировании благодаря сложной двухуровневой архитектуре агента. Высокоуровневый Глобальный Агент (ГА) отвечает за понимание команд пользователя, отслеживание истории и планирование задач. Низкоуровневый Локальный Агент (ЛА) предсказывает детальные действия в форме вызовов функций, руководствуясь подзадачами и памятью от ГА. Интеграция Рефлексивного Модуля позволяет эффективно завершать задачи и позволяет системе обрабатывать ранее не встречавшиеся сложные задачи. MobA продемонстрировал значительное улучшение эффективности выполнения задач и процентов завершения в реальных оценках, подчеркивая потенциал мобильных ассистентов, усиленных MLLM.

WorldCuisines: масштабный бенчмарк для многоязычного и мультикультурного визуального вопросно-ответного обучения на глобальных кухнях
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines

Oct 16

ByGenta Indra Winata, Frederikus Hudi, Patrick Amadeus Irawan, David Anugraha, Rifki Afina Putri, Yutong Wang, Adam Nohejl, Ubaidillah Ariq Prathama, Nedjma Ousidhoum, Afifa Amriani, Anar Rzayev, Anirban Das, Ashmari Pramodya, Aulia Adila, Bryan Wilie, Candy Olivia Mawalim, Ching Lam Cheng, Daud Abolade, Emmanuele Chersoni, Enrico Santus, Fariz Ikhwantri, Garry Kuwanto, Hanyang Zhao, Haryo Akbarianto Wibowo, Holy Lovenia, Jan Christian Blaise Cruz, Jan Wira Gotama Putra, Junho Myung, Lucky Susanto, Maria Angelica Riera Machin, Marina Zhukova, Michael Anugraha, Muhammad Farid Adilazuarda, Natasha Santosa, Peerat Limkonchotiwat, Raj Dabre, Rio Alexander Audino, Samuel Cahyawijaya, Shi-Xiong Zhang, Stephanie Yulia Salim, Yi Zhou, Yinxuan Gui, David Ifeoluwa Adelani, En-Shiun Annie Lee, Shogo Okada, Ayu Purwarianti, Alham Fikri Aji, Taro Watanabe, Derry Tanti Wijaya, Alice Oh, Chong-Wah Ngo

Модели языка для зрительного восприятия (VLM) часто испытывают трудности с культурно-специфическими знаниями, особенно в языках, отличных от английского, и в недостаточно представленных культурных контекстах. Для оценки их понимания таких знаний мы представляем WorldCuisines - масштабный бенчмарк для мультиязычного и мультикультурного понимания, основанного на визуальных данных. Этот бенчмарк включает набор данных для визуального вопросно-ответного моделирования (VQA) с парами текст-изображение на 30 языках и диалектах, охватывающих 9 языковых семей и содержащих более 1 миллиона данных, что делает его крупнейшим мультикультурным бенчмарком VQA на сегодняшний день. В нем предусмотрены задачи по идентификации названий блюд и их происхождения. Мы предоставляем наборы данных для оценки в двух размерах (12 тыс. и 60 тыс. примеров) наряду с обучающим набором данных (1 миллион примеров). Наши результаты показывают, что хотя VLM показывают лучшие результаты с правильным контекстом местоположения, они испытывают трудности с адверсальными контекстами, предсказанием конкретных региональных кухонь и языков. Для поддержки будущих исследований мы выпускаем базу знаний с аннотированными записями о еде и изображениями наряду с данными VQA.

Использование пользовательских интерфейсов веб-страниц для визуального понимания текста
Harnessing Webpage UIs for Text-Rich Visual Understanding

Oct 17

ByJunpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

Понимание визуальной информации с богатым текстовым контентом - способность обрабатывать среды, где плотный текст интегрирован с визуальными элементами - является ключевой для мультимодальных крупных языковых моделей (MLLMs) для эффективного взаимодействия со структурированными средами. Для улучшения этой возможности мы предлагаем синтез общих мультимодальных инструкций из пользовательских интерфейсов веб-страниц с использованием крупных языковых моделей на основе текста (LLMs). Несмотря на отсутствие прямого визуального ввода, LLMs на основе текста способны обрабатывать структурированные текстовые представления из деревьев доступности веб-страниц. Эти инструкции затем сопоставляются с скриншотами пользовательского интерфейса для обучения мультимодальных моделей. Мы представляем MultiUI, набор данных, содержащий 7,3 миллиона образцов с 1 миллиона веб-сайтов, охватывающий разнообразные мультимодальные задачи и макеты пользовательского интерфейса. Модели, обученные на MultiUI, не только превосходят в задачах веб-интерфейса - достигая до 48% улучшения на VisualWebBench и увеличения точности действий на 19,1% на наборе данных веб-агента Mind2Web, - но также удивительно хорошо обобщаются на задачи вне веб-интерфейса и даже на области без интерфейса, такие как понимание документов, OCR и интерпретация графиков. Эти результаты подчеркивают широкие возможности применения данных веб-интерфейса для продвижения понимания визуальной информации с богатым текстовым контентом в различных сценариях.

DreamVideo-2: Настройка видео под управлением объекта без обучающих данных с точным управлением движением.
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control

Oct 17

ByYujie Wei, Shiwei Zhang, Hangjie Yuan, Xiang Wang, Haonan Qiu, Rui Zhao, Yutong Feng, Feng Liu, Zhizhong Huang, Jiaxin Ye, Yingya Zhang, Hongming Shan

Недавние достижения в области индивидуализированной генерации видео позволили пользователям создавать видеоролики, адаптированные под конкретные объекты и траектории движения. Однако существующие методы часто требуют сложной настройки во время тестирования и испытывают затруднения с балансировкой обучения объектов и управления движением, что ограничивает их применение в реальном мире. В данной статье мы представляем DreamVideo-2, фреймворк для настройки видео без обучения на этапе тестирования, способный генерировать видеоролики с определенным объектом и траекторией движения, управляемый одним изображением и последовательностью ограничивающих рамок соответственно. В частности, мы вводим механизм внимания к эталону, который использует встроенные возможности модели для обучения объектов, и разрабатываем модуль управления движением по маске для достижения точного управления движением путем полного использования надежного сигнала движения масок, полученных из ограничивающих рамок. В то время как эти два компонента выполняют свои предназначенные функции, мы эмпирически наблюдаем, что управление движением часто доминирует над обучением объектов. Для решения этой проблемы мы предлагаем два ключевых решения: 1) маскированное внимание к эталону, которое интегрирует смешанную схему моделирования латентной маски во внимание к эталону для улучшения представлений объектов в желаемых позициях, и 2) перевзвешенную потерю диффузии, которая различает вклады областей внутри и снаружи ограничивающих рамок для обеспечения баланса между объектом и управлением движением. Обширные экспериментальные результаты на вновь составленном наборе данных показывают, что DreamVideo-2 превосходит существующие методы как в настройке объектов, так и в управлении движением. Набор данных, код и модели будут общедоступны.

MMed-RAG: Универсальная мультимодальная система RAG для медицинского видеоязыковых моделей
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

Oct 16

ByPeng Xia, Kangyu Zhu, Haoran Li, Tianze Wang, Weijia Shi, Sheng Wang, Linjun Zhang, James Zou, Huaxiu Yao

Искусственный интеллект (ИИ) продемонстрировал значительный потенциал в области здравоохранения, особенно в диагностике заболеваний и планировании лечения. Недавние успехи в области Медицинских Больших Моделей Видео-Языка (Med-LVLMs) открыли новые возможности для интерактивных диагностических инструментов. Однако эти модели часто страдают от фактического галлюцинирования, что может привести к неправильным диагнозам. Как методы решения этих проблем выделяются настройка и генерация с увеличением поиска (RAG). Однако количество высококачественных данных и расхождения между обучающими данными и данными внедрения ограничивают применение методов настройки. Хотя RAG является легким и эффективным, существующие подходы на основе RAG недостаточно общие для различных медицинских областей и могут потенциально вызывать проблемы несоответствия как между модальностями, так и между моделью и истиной. В данной статье мы предлагаем универсальную мультимодальную систему RAG, MMed-RAG, разработанную для улучшения фактичности Med-LVLMs. Наш подход включает механизм извлечения, адаптивный метод выбора контекстов и стратегию настройки предпочтений на основе RAG с доказуемой эффективностью. Эти инновации делают процесс RAG достаточно общим и надежным, значительно улучшая соответствие при введении извлеченных контекстов. Экспериментальные результаты на пяти медицинских наборах данных (включая радиологию, офтальмологию, патологию) по медицинскому VQA и генерации отчетов показывают, что MMed-RAG может достичь среднего улучшения фактической точности Med-LVLMs на 43,8%. Наши данные и код доступны по ссылке https://github.com/richard-peng-xia/MMed-RAG.

MoH: Многоголовое внимание как смесь многоголового внимания
MoH: Multi-Head Attention as Mixture-of-Head Attention

Oct 15

ByPeng Jin, Bo Zhu, Li Yuan, Shuicheng Yan

В данной работе мы улучшаем механизм внимания с несколькими головами, являющийся основой модели Transformer, с целью повышения эффективности при сохранении или превосходстве предыдущего уровня точности. Мы показываем, что механизм внимания с несколькими головами можно выразить в форме суммирования. Основываясь на понимании того, что не все головы внимания имеют одинаковое значение, мы предлагаем механизм внимания Mixture-of-Head (MoH), новую архитектуру, которая рассматривает головы внимания как экспертов в механизме Mixture-of-Experts (MoE). MoH имеет два значительных преимущества: Во-первых, MoH позволяет каждому токену выбирать соответствующие головы внимания, улучшая эффективность вывода без ущерба точности или увеличения количества параметров. Во-вторых, MoH заменяет стандартное суммирование в механизме внимания с несколькими головами на взвешенное суммирование, вводя гибкость в механизм внимания и раскрывая дополнительный потенциал производительности. Обширные эксперименты на моделях ViT, DiT и LLMs показывают, что MoH превосходит механизм внимания с несколькими головами, используя всего 50%-90% голов внимания. Более того, мы демонстрируем, что предварительно обученные модели механизма внимания с несколькими головами, такие как LLaMA3-8B, могут быть дополнительно донастроены наши MoH модели. Заметно, что MoH-LLaMA3-8B достигает средней точности 64,0% по 14 показателям, превосходя LLaMA3-8B на 2,4% при использовании всего 75% голов внимания. Мы считаем, что предложенный MoH является многообещающей альтернативой механизму внимания с несколькими головами и обеспечивает прочное основание для разработки передовых и эффективных моделей на основе внимания.

BenTo: Снижение задач бенчмарков с возможностью передачи в контексте
BenTo: Benchmark Task Reduction with In-Context Transferability

Oct 17

ByHongyu Zhao, Ming Li, Lichao Sun, Tianyi Zhou

Оценка больших языковых моделей (LLM) затратна: это требует генерации и изучения выводов LLM на крупномасштабном наборе задач. В данной статье исследуется, как эффективно сократить задачи, используемые для оценки LLM, не влияя на качество оценки. Наше исследование показывает, что переносимость и актуальность задач предоставляют критическую информацию для выявления наиболее репрезентативного подмножества задач путем оптимизации функции расположения объектов. Мы предлагаем практически эффективную метрику для оценки переносимости между двумя задачами с помощью обучения в контексте (ICL). Анализируя парную переносимость, мы можем сократить задачи в современном наборе задач LLM (например, MMLU или FLAN) до 5%, при этом вызывая лишь <4% разницу в оценке на исходном наборе задач. По сравнению с предыдущими работами, наш метод не требует обучения, градиентов и является высокоэффективным, требуя только ICL.

Сравнительное исследование образцов рассуждений модели o1 от OpenAI
A Comparative Study on Reasoning Patterns of OpenAI's o1 Model

Oct 17

BySiwei Wu, Zhongyuan Peng, Xinrun Du, Tuney Zheng, Minghao Liu, Jialong Wu, Jiachen Ma, Yizhi Li, Jian Yang, Wangchunshu Zhou, Qunshu Lin, Junbo Zhao, Zhaoxiang Zhang, Wenhao Huang, Ge Zhang, Chenghua Lin, J. H. Liu

Повышение возможностей больших языковых моделей (LLM) для решения более широкого круга сложных задач (например, программирование, математика) привлекло большое внимание многих исследователей. По мере развития LLM увеличение только количества параметров модели приводит к уменьшению улучшений производительности и значительным вычислительным затратам. Недавно модель o1 от OpenAI показала, что стратегии вывода (т.е. методы вычисления во время тестирования) также значительно улучшают способности рассуждения LLM. Однако механизмы этих методов до сих пор остаются неизученными. В нашей работе для изучения образцов рассуждений o1 мы сравниваем o1 с существующими методами вычисления во время тестирования (BoN, пошаговый BoN, рабочий процесс агента и самосовершенствование), используя GPT-4o от OpenAI в качестве основы на общих бенчмарках рассуждений в трех областях (математика, программирование, здравый смысл). В частности, наши эксперименты показывают, что модель o1 достигла лучшей производительности на большинстве наборов данных. Что касается методов поиска разнообразных ответов (например, BoN), мы обнаружили, что способности моделей вознаграждения и пространство поиска оба ограничивают верхнюю границу этих методов. Что касается методов, разбивающих проблему на множество подпроблем, рабочий процесс агента показал лучшую производительность по сравнению с пошаговым BoN благодаря доменно-специфическому системному запросу для планирования лучших процессов рассуждения. Следует отметить, что мы суммировали шесть образцов рассуждений o1 и предоставили подробный анализ нескольких бенчмарков рассуждений.

PopAlign: Разнообразие контрастных шаблонов для более полного выравнивания
PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

Oct 17

ByZekun Moore Wang, Shawn Wang, Kang Zhu, Jiaheng Liu, Ke Xu, Jie Fu, Wangchunshu Zhou, Wenhao Huang

Выравнивание больших языковых моделей (LLM) включает в себя обучение моделей на парах предпочтений-контрастных выводов для корректировки их ответов в соответствии с человеческими предпочтениями. Для получения таких контрастных пар традиционные методы, такие как RLHF и RLAIF, полагаются на ограниченные контрастные шаблоны, такие как изменение вариантов модели или температур декодирования. Эта однообразность приводит к двум проблемам: (1) выравнивание не является всеохватывающим; и, следовательно, (2) модели подвержены атакам на разблокировку. Для решения этих проблем мы исследуем, как построить более всеохватывающие и разнообразные контрастные шаблоны для улучшения данных о предпочтениях (RQ1) и проверяем влияние диверсификации контрастных шаблонов на выравнивание модели (RQ2). Для RQ1 мы предлагаем PopAlign, фреймворк, который интегрирует разнообразные контрастные шаблоны на уровнях подсказки, модели и конвейера, вводя шесть стратегий контрастирования, не требующих дополнительных процедур разметки обратной связи. Что касается RQ2, мы проводим тщательные эксперименты, демонстрирующие, что PopAlign значительно превосходит существующие методы, приводя к более всеохватывающему выравниванию.

Объединенный взгляд на редактирование параметров дельта в пост-тренировочных моделях большого масштаба.
A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models

Oct 17

ByQiaoyu Tang, Le Yu, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun

Пост-тренировка стала ключевым парадигмой для адаптации крупномасштабных предварительно обученных моделей к различным задачам, чьи эффекты полностью отражаются дельта-параметрами (т.е. различием между параметрами после обучения и предварительного обучения). В то время как множество исследований исследовали свойства дельта-параметров через операции, такие как обрезка, квантизация, аппроксимация низкого ранга и экстраполяция, единая структура для систематического изучения этих характеристик отсутствовала. В данной статье мы предлагаем новую перспективу на основе аппроксимации суммы Римана функции потерь для прояснения операций редактирования дельта-параметров. Наш анализ классифицирует существующие методы на три класса на основе их производительности после редактирования: конкурентоспособные, уменьшенные и улучшенные, объясняя, как они выражаются термином аппроксимации суммы Римана и как они изменяют производительность модели. Обширные эксперименты как с визуальными, так и с языковыми моделями, включая ViT, LLaMA 3, Qwen 2 и Mistral, подтверждают наши теоретические выводы. Более того, мы представляем расширения существующих техник, таких как DARE и BitDelta, выделяя их ограничения в использовании свойств дельта-параметров и переорганизуя их в общие выражения для улучшения применимости и эффективности редактирования дельта-параметров в пост-тренировочных моделях.

FlatQuant: плоскость имеет значение для квантования LLM
FlatQuant: Flatness Matters for LLM Quantization

Oct 12

ByYuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao

В последнее время квантование широко используется для сжатия и ускорения больших языковых моделей~(LLM). Из-за выбросов в LLM крайне важно выравнивать веса и активации для минимизации ошибки квантования с равномерно распределенными точками квантования. Предыдущие исследования исследуют различные преобразования перед квантованием для подавления выбросов, такие как масштабирование по каналам и преобразование Хадамара. Однако мы замечаем, что преобразованные веса и активации все еще могут оставаться крутыми и распространенными. В данной статье мы предлагаем FlatQuant (Быстрое и Обучаемое Аффинное Преобразование), новый подход к посттренировочному квантованию для улучшения плоскости весов и активаций. Наш подход определяет оптимальные аффинные преобразования, настроенные для каждого линейного слоя, калибруемые за несколько часов с помощью легкой целевой функции. Для снижения накладных расходов времени выполнения мы применяем декомпозицию Кронекера к матрицам преобразования и объединяем все операции в FlatQuant в одно ядро. Обширные эксперименты показывают, что FlatQuant устанавливает новый стандартный показатель квантования. Например, он достигает менее 1% падения точности для квантования W4A4 на модели LLaMA-3-70B, превосходя SpinQuant на 7.5%. Для задержки вывода FlatQuant снижает замедление, вызванное преобразованием перед квантованием, с 0.26x у QuaRot до всего лишь 0.07x, обеспечивая ускорение до 2.3x для предварительной загрузки и до 1.7x для декодирования соответственно. Код доступен по ссылке: https://github.com/ruikangliu/FlatQuant.

Имеют ли LLM-модели политическую корректность? Анализ этических предвзятостей и уязвимостей в системах искусственного интеллекта.
Do LLMs Have Political Correctness? Analyzing Ethical Biases and Jailbreak Vulnerabilities in AI Systems

Oct 17

ByIsack Lee, Haebin Seong

Хотя крупные языковые модели (LLM) демонстрируют впечатляющую профессиональную компетентность в различных задачах, они представляют потенциальные риски безопасности, такие как "побег из тюрьмы", когда злонамеренные входные данные могут заставить LLM генерировать вредный контент. Для решения этих проблем многие разработчики LLM внедрили различные меры безопасности для выравнивания этих моделей. Это выравнивание включает в себя несколько техник, включая фильтрацию данных во время предварительного обучения, надзорное дообучение, обучение с подкреплением на основе обратной связи от людей и упражнения по проверке на проникновение. Эти методы часто вводят намеренные и целенаправленные предвзятости, аналогичные политической корректности (PC), чтобы гарантировать этическое поведение LLM. В данной статье мы углубляемся в намеренные предвзятости, внедренные в LLM для целей безопасности, и рассматриваем методы обхода этих техник выравнивания безопасности. Особенно эти намеренные предвзятости приводят к успешной атаке на безопасность в моделях GPT-4o, отличие составляет 20% между не-бинарными и кисгендерными ключевыми словами и 16% между белыми и черными ключевыми словами, даже когда другие части запросов идентичны. Мы представляем концепцию PCJailbreak, выделяя встроенные риски, вызванные этими предвзятостями, обусловленными безопасностью. Кроме того, мы предлагаем эффективный метод защиты PCDefense, который предотвращает попытки побега из тюрьмы путем внедрения оборонительных запросов перед генерацией. PCDefense является привлекательной альтернативой для моделей-стражей, таких как Llama-Guard, которые требуют дополнительных затрат на вывод после генерации текста. Наши результаты подчеркивают настоятельную необходимость для разработчиков LLM принять более ответственный подход при разработке и внедрении мер безопасности.

VidPanos: Генеративные панорамные видео из обычных видео с панорамированием.
VidPanos: Generative Panoramic Videos from Casual Panning Videos

Oct 17

ByJingwei Ma, Erika Lu, Roni Paiss, Shiran Zada, Aleksander Holynski, Tali Dekel, Brian Curless, Michael Rubinstein, Forrester Cole

Сшивка панорамного изображения обеспечивает объединенный широкоугольный вид сцены, выходящий за пределы поля зрения камеры. Сшивка кадров панорамного видео в панорамное фото — хорошо изученная проблема для неподвижных сцен, но когда объекты движутся, статическая панорама не может зафиксировать сцену. Мы представляем метод синтеза панорамного видео из случайно снятого панорамного видео, как если бы оригинальное видео было снято широкоугольной камерой. Мы формулируем синтез панорамы как проблему пространственно-временного восстановления, где наша цель — создать полное панорамное видео той же продолжительности, что и входное видео. Согласованное заполнение пространственно-временного объема требует мощного, реалистичного априорного знания о содержании видео и движении, для чего мы адаптируем генеративные модели видео. Однако существующие генеративные модели не могут немедленно расшириться на завершение панорамы, как мы показываем. Вместо этого мы применяем генерацию видео как компонент нашей системы синтеза панорамы и демонстрируем, как использовать преимущества моделей, минимизируя их ограничения. Наша система способна создавать видео-панорамы для различных сцен "в дикой природе", включая людей, транспортные средства, текущую воду, а также неподвижные фоновые объекты.

Могут ли многослойные языковые модели понять глубокое содержание китайских изображений?
Can MLLMs Understand the Deep Implication Behind Chinese Images?

Oct 17

ByChenhao Zhang, Xi Feng, Yuelin Bai, Xinrun Du, Jinchang Hou, Kaixin Deng, Guangzeng Han, Qinrui Li, Bingli Wang, Jiaheng Liu, Xingwei Qu, Yifei Zhang, Qixuan Zhao, Yiming Liang, Ziqiang Liu, Feiteng Fang, Min Yang, Wenhao Huang, Chenghua Lin, Ge Zhang, Shiwen Ni

Поскольку возможности Многомодельных Больших Языковых Моделей (МБЯМ) продолжают улучшаться, возрастает потребность в оценке способностей более высокого порядка МБЯМ. Однако существует недостаток работ, оценивающих МБЯМ на более высоком уровне восприятия и понимания китайского визуального контента. Для заполнения этого пробела мы представляем **К**итайский **И**зображение **И**мпликация понимания **Бенч**марк, **КИИ-Бенч**, который направлен на оценку способностей МБЯМ к более высокому уровню восприятия и понимания китайских изображений. КИИ-Бенч выделяется несколькими способами по сравнению с существующими бенчмарками. Во-первых, для обеспечения подлинности китайского контекста изображения в КИИ-Бенч берутся из китайского Интернета и проходят ручную проверку, а соответствующие ответы также создаются вручную. Кроме того, КИИ-Бенч включает изображения, представляющие китайскую традиционную культуру, такие как известные китайские традиционные картины, которые могут глубоко отражать понимание моделью китайской традиционной культуры. Проведя обширные эксперименты на КИИ-Бенч с участием нескольких МБЯМ, мы сделали значительные открытия. Во-первых, наблюдается существенный разрыв между производительностью МБЯМ и людей на КИИ-Бенч. Наивысшая точность МБЯМ достигает 64,4%, в то время как средняя точность у людей составляет 78,2%, достигая впечатляющих 81,0%. Затем МБЯМ показывают более низкую производительность на изображениях китайской традиционной культуры, указывая на ограничения в их способности понимать семантику высокого уровня и отсутствие глубоких знаний о китайской традиционной культуре. Наконец, отмечается, что большинство моделей демонстрируют улучшенную точность, когда в подсказки включаются подсказки об эмоциях на изображениях. Мы считаем, что КИИ-Бенч позволит МБЯМ лучше понять китайскую семантику и китайские специфические изображения, продвигаясь вперед по пути к экспертному искусственному общему интеллекту (AGI). Наш проект доступен публично по адресу https://cii-bench.github.io/.

Продвижение вперед, несмотря на неудачи: улучшение генеративной коррекции ошибок для ASR с использованием синтетических данных и увеличения поиска.
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Oct 17

BySreyan Ghosh, Mohammad Sadegh Rasooli, Michael Levit, Peidong Wang, Jian Xue, Dinesh Manocha, Jinyu Li

Генеративная коррекция ошибок (GEC) стала мощным методом постобработки для улучшения производительности систем автоматического распознавания речи (ASR). Однако мы показываем, что модели GEC испытывают трудности с обобщением за пределы конкретных типов ошибок, с которыми они сталкиваются во время обучения, что ограничивает их способность исправлять новые, невидимые ошибки на этапе тестирования, особенно в сценариях вне области (OOD). Этот феномен усиливается с именованными сущностями (NE), где, помимо недостаточной контекстуальной информации или знаний о NE, появляются новые NE. Для решения этих проблем мы предлагаем DARAG (Data- and Retrieval-Augmented Generative Error Correction), новый подход, разработанный для улучшения GEC для ASR в сценариях как внутри области (ID), так и вне ее (OOD). Мы дополняем обучающий набор данных GEC синтетическими данными, сгенерированными путем подачи LLMs и моделей текст в речь, тем самым имитируя дополнительные ошибки, на которых модель может учиться. Для сценариев вне области мы аналогично и без участия учителя имитируем ошибки на этапе тестирования из новых областей. Кроме того, для более эффективной работы с именованными сущностями мы вводим коррекцию с учетом извлечения путем дополнения ввода сущностями, извлеченными из базы данных. Наш подход прост, масштабируем и не зависит от области и языка. Мы проводим эксперименты на нескольких наборах данных и настройках, показывая, что DARAG превосходит все наши базовые варианты, достигая улучшений относительно WER на уровне 8\% -- 30\% в сценариях ID и на уровне 10\% -- 33\% в сценариях OOD.

Обучение на основе взаимодействия: ретроспективный подход
Retrospective Learning from Interactions

Oct 17

ByZizhao Chen, Mustafa Omer Gul, Yiwei Chen, Gloria Geng, Anne Wu, Yoav Artzi

Многоходовое взаимодействие между большими языковыми моделями (LLM) и пользователями естественным образом включает неявные сигналы обратной связи. Если LLM отвечает неожиданным образом на инструкцию, пользователь, вероятно, даст об этом знать, перефразируя запрос, выражая фрустрацию или переключаясь на альтернативную задачу. Такие сигналы являются независимыми от задачи и занимают относительно ограниченное подпространство языка, что позволяет LLM идентифицировать их даже в случае неудачи на самой задаче. Это создает возможность непрерывного обучения на основе взаимодействий без дополнительных аннотаций. Мы представляем ReSpect, метод обучения на основе таких сигналов в прошлых взаимодействиях через ретроспекцию. Мы применяем ReSpect в новом сценарии мультимодального взаимодействия, где люди инструктируют LLM решать абстрактную задачу рассуждения с комбинаторным пространством решений. Через тысячи взаимодействий с людьми мы показываем, как ReSpect постепенно повышает процент завершения задачи с 31% до 82%, все это без каких-либо внешних аннотаций.

Запоминание, извлечение и генерация: понимание бесконечных визуальных концепций как ваш персонализированный помощник
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Oct 17

ByHaoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue

Разработка больших языковых моделей (LLM) значительно улучшила возможности мультимодальных LLM (MLLM) в качестве общих помощников. Однако отсутствие знаний, специфичных для пользователя, по-прежнему ограничивает их применение в повседневной жизни человека. В данной статье мы представляем фреймворк Retrieval Augmented Personalization (RAP) для персонализации MLLM. Начиная с общего MLLM, мы превращаем его в персонализированного помощника в три этапа. (a) Remember: Мы разрабатываем базу данных ключ-значение для хранения информации, связанной с пользователем, например, имя пользователя, аватар и другие атрибуты. (b) Retrieve: Когда пользователь начинает разговор, RAP извлечет соответствующую информацию из базы данных с помощью мультимодального извлекателя. (c) Generate: Входной запрос и информация, извлеченная из понятий, подаются в MLLM для генерации персонализированных, знанием насыщенных ответов. В отличие от предыдущих методов, RAP позволяет редактировать концепции в реальном времени путем обновления внешней базы данных. Для дальнейшего улучшения качества генерации и соответствия информации, специфичной для пользователя, мы разрабатываем конвейер для сбора данных и создаем специализированный набор данных для персонализированного обучения MLLM. На основе этого набора данных мы обучаем серию MLLM в качестве персонализированных мультимодальных помощников. Предварительное обучение на масштабном наборе данных позволяет RAP-MLLM обобщать бесконечные визуальные концепции без дополнительной донастройки. Наши модели демонстрируют выдающуюся гибкость и качество генерации в различных задачах, таких как персонализированное описание изображений, вопросно-ответные системы и визуальное распознавание. Код, данные и модели доступны по адресу https://github.com/Hoar012/RAP-MLLM.

MedMobile: Мобильная модель языка с экспертными клиническими возможностями.
MedMobile: A mobile-sized language model with expert-level clinical capabilities

Oct 11

ByKrithik Vishwanath, Jaden Stryker, Anton Alaykin, Daniel Alexander Alber, Eric Karl Oermann

Языковые модели (LMs) продемонстрировали уровень эксперта в рассуждениях и способности к воспоминаниям в медицине. Однако вычислительные затраты и проблемы конфиденциальности становятся препятствиями для широкомасштабной реализации. Мы представляем экономичную адаптацию phi-3-mini, MedMobile, языковой модели с 3,8 миллиарда параметров, способной работать на мобильном устройстве, для медицинских приложений. Мы демонстрируем, что MedMobile набирает 75,7% в MedQA (USMLE), превосходя проходной балл для врачей (~60%) и приближаясь к результатам моделей в 100 раз большего размера. Затем мы проводим тщательный набор абляций и показываем, что цепочка мыслей, ансамблирование и тонкая настройка приводят к наибольшему увеличению производительности, в то время как неожиданно усиление генерации через извлечение не приводит к значительным улучшениям.

MuVi: Генерация музыки по видео с семантическим выравниванием и ритмической синхронизацией
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

Oct 16

ByRuiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao

Генерация музыки, соответствующей визуальному содержимому видео, является сложной задачей, поскольку требуется глубокое понимание визуальной семантики и включает в себя создание музыки, чей мелодия, ритм и динамика гармонично сочетаются с визуальными повествованиями. В данной статье представлена MuVi, новый фреймворк, который эффективно решает эти проблемы для улучшения связности и погружающего опыта аудиовизуального контента. MuVi анализирует видеоконтент с помощью специально разработанного визуального адаптера для извлечения контекстуально и временно значимых особенностей. Эти особенности используются для создания музыки, которая не только соответствует настроению и теме видео, но также его ритму и темпу. Мы также представляем контрастную схему предварительного обучения музыкально-визуального сопоставления для обеспечения синхронизации на основе периодичности музыкальных фраз. Кроме того, мы демонстрируем, что наш генератор музыки на основе сопоставления потоков обладает способностью к контекстному обучению, что позволяет нам контролировать стиль и жанр создаваемой музыки. Экспериментальные результаты показывают, что MuVi демонстрирует превосходную производительность как по качеству звука, так и по временной синхронизации. Сгенерированные образцы музыкальных видеороликов доступны по адресу https://muvi-v2m.github.io.

γ-MoD: Исследование адаптации смеси глубин для мультимодальных крупных языковых моделей
γ-MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

Oct 17

ByYaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji

Несмотря на значительный прогресс в мультимодальных моделях больших языков (MLLM), их высокая вычислительная стоимость остается барьером для внедрения в реальный мир. Вдохновленные смешением глубин (MoDs) в обработке естественного языка, мы стремимся решить это ограничение с точки зрения "активированных токенов". Наш ключевой инсайт заключается в том, что если большинство токенов избыточны для вычисления слоя, их можно пропустить непосредственно через слой MoD. Однако прямое преобразование плотных слоев MLLM в слои MoD приводит к существенному снижению производительности. Для решения этой проблемы мы предлагаем инновационную стратегию адаптации MoD для существующих MLLM под названием gamma-MoD. В gamma-MoD предлагается новая метрика для направления развертывания MoD в MLLM, а именно ранг карт внимания (ARank). Через ARank мы можем эффективно определить, какой слой избыточен и должен быть заменен слоем MoD. Основываясь на ARank, мы далее предлагаем два новых дизайна для максимизации вычислительной разреженности MLLM, сохраняя при этом его производительность, а именно общий маршрутизатор видения-языка и обучение маскированной маршрутизации. С помощью этих дизайнов более 90% плотных слоев MLLM могут быть эффективно преобразованы в слои MoD. Для проверки нашего метода мы применяем его к трем популярным MLLM и проводим обширные эксперименты на 9 наборах данных для тестирования. Экспериментальные результаты не только подтверждают значительную выгоду в эффективности gamma-MoD для существующих MLLM, но также подтверждают его способность к обобщению на различные MLLM. Например, с незначительным снижением производительности, т.е. -1,5%, gamma-MoD может сократить время обучения и вывода LLaVA-HR на 31,0% и 53,2% соответственно.

LoLDU: Адаптация низкого ранга с помощью разложения на нижнюю диагональ и верхнюю диагональ для эффективного донастройки параметров.
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning

Oct 17

ByYiming Shi, Jiwei Wei, Yujia Wu, Ran Ran, Chengwei Sun, Shiyuan He, Yang Yang

Быстрый рост масштаба моделей требует значительных вычислительных ресурсов для тонкой настройки. Существующий подход, такой как Адаптация с Низким Рангом (LoRA), стремится решить проблему обработки большого количества обновленных параметров при полной тонкой настройке. Однако LoRA использует случайную инициализацию и оптимизацию матриц низкого ранга для приближения обновленных весов, что может привести к неоптимальной сходимости и разрыву в точности по сравнению с полной тонкой настройкой. Для решения этих проблем мы предлагаем LoLDU, подход к Тонкой Настройке с Эффективными Параметрами (PEFT), который значительно уменьшает количество обучаемых параметров в 2600 раз по сравнению с обычными методами PEFT, сохраняя при этом сопоставимую производительность. LoLDU использует Декомпозицию на Нижнюю-Диагональную-Верхнюю (LDU) для инициализации матриц низкого ранга для более быстрой сходимости и ортогональности. Мы сосредотачиваемся на оптимизации диагональной матрицы для масштабирующих преобразований. На наш взгляд, LoLDU имеет наименьшее количество параметров среди всех подходов PEFT. Мы провели обширные эксперименты на 4 наборах данных по следованию инструкциям, 6 наборах данных по пониманию естественного языка (NLU), 8 наборах данных по классификации изображений и наборах данных по генерации изображений с несколькими типами моделей (LLaMA2, RoBERTa, ViT и Stable Diffusion), предоставив всесторонний и детальный анализ. Наш исходный код с открытым исходным кодом доступен по адресу https://github.com/SKDDJ/LoLDU.

Набор данных и модели неорганических материалов Open Materials 2024 (OMat24)
Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models

Oct 16

ByLuis Barroso-Luque, Muhammed Shuaibi, Xiang Fu, Brandon M. Wood, Misko Dzamba, Meng Gao, Ammar Rizvi, C. Lawrence Zitnick, Zachary W. Ulissi

Способность открывать новые материалы с желаемыми свойствами критически важна для многих областей, начиная от помощи в смягчении изменения климата до прогресса в аппаратных средствах вычислительной техники следующего поколения. Искусственный интеллект имеет потенциал ускорить открытие и разработку материалов путем более эффективного исследования химического пространства по сравнению с другими вычислительными методами или методом проб и ошибок. Хотя был достигнут значительный прогресс в области использования искусственного интеллекта для данных, бенчмарков и моделей материалов, возникла проблема в виде отсутствия общедоступных обучающих данных и открытых предварительно обученных моделей. Для решения этой проблемы мы представляем мета-релиз Meta FAIR набора данных Open Materials 2024 (OMat24) крупного масштаба и сопутствующий набор предварительно обученных моделей. OMat24 содержит более 110 миллионов расчетов методом плотностного функционала (DFT), сосредоточенных на структурном и композиционном разнообразии. Наши модели EquiformerV2 достигают передовых результатов на доске лидеров Matbench Discovery и способны предсказывать устойчивость основного состояния и энергии образования с F1-оценкой выше 0,9 и точностью 20 мэВ/атом соответственно. Мы исследуем влияние размера модели, вспомогательных целей денойзинга и донастройки на результативность на различных наборах данных, включая OMat24, MPtraj и Alexandria. Открытый релиз набора данных OMat24 и моделей позволяет научному сообществу продолжить нашу работу и продвигать дальнейшие достижения в области искусственного интеллекта в материаловедении.

Модель длинной последовательности большой реконструкции для широкопокрытия гауссовых пятен
Long-LRM: Long-sequence Large Reconstruction Model for Wide-coverage Gaussian Splats

Oct 16

ByChen Ziwen, Hao Tan, Kai Zhang, Sai Bi, Fujun Luan, Yicong Hong, Li Fuxin, Zexiang Xu

Мы предлагаем Long-LRM, обобщенную модель трехмерной гауссовой реконструкции, способную восстанавливать большую сцену из длинной последовательности входных изображений. Конкретно, наша модель может обрабатывать 32 исходных изображения разрешением 960x540 за всего лишь 1.3 секунды на одном графическом процессоре A100 80G. Наша архитектура включает в себя смесь недавних блоков Mamba2 и классических блоков трансформера, что позволило обрабатывать гораздо больше токенов, чем в предыдущих работах, улучшенных эффективным объединением токенов и этапами обрезки гауссова распределения, которые обеспечивают баланс между качеством и эффективностью. В отличие от предыдущих моделей прямого распространения, ограниченных обработкой 1-4 входных изображений и способных восстанавливать лишь небольшую часть большой сцены, Long-LRM восстанавливает всю сцену за один шаг прямого распространения. На крупных наборах данных сцен, таких как DL3DV-140 и Tanks and Temples, наш метод достигает производительности, сравнимой с подходами на основе оптимизации, при этом он эффективнее на два порядка. Страница проекта: https://arthurhero.github.io/projects/llrm

Минимальная настройка для разблокировки длинного вывода от LLM с высококачественными данными в качестве ключа.
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

Oct 14

ByYingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao

Поскольку большие языковые модели быстро развиваются для поддержки более длинного контекста, имеется заметное расхождение в их способности генерировать вывод большей длины. Недавнее исследование предполагает, что основная причина этого дисбаланса может возникать из-за недостатка данных с длинным выводом во время выравнивания обучения. С учетом этого наблюдения предпринимаются попытки повторного выравнивания базовых моделей с данными, которые заполняют этот пробел, что приводит к моделям способным генерировать длинный вывод по инструкции. В данной статье мы исследуем влияние качества данных на настройку модели для длинного вывода, а также возможность сделать это с точки зрения начальных точек моделей, выравненных с человеком (инструкциями или чатом). С тщательной кураторской работой с данными мы показываем, что возможно достичь аналогичного улучшения производительности в наших настроенных моделях, используя лишь небольшую часть обучающих данных и вычислений. Кроме того, мы оцениваем обобщаемость таких подходов, применяя наши методы настройки к нескольким моделям. Наши результаты подтверждают, что, хотя возможности генерации длинного вывода различаются у разных моделей изначально, наш подход к настройке их с использованием качественных данных с небольшими вычислениями последовательно приводит к значительному улучшению на всех моделях, на которых мы экспериментировали. Мы опубликовали нашу отобранную базу данных для настройки возможности длинного письма, реализации настройки и оценки модели, а также настроенные модели, к которым можно свободно получить доступ.

К Направленной Генерации Визуальных AR без Руководства через Условное Контрастное Выравнивание
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment

Oct 12

ByHuayu Chen, Hang Su, Peize Sun, Jun Zhu

Метод руководства без классификатора (CFG) является критической техникой для улучшения качества выборки визуальных генеративных моделей. Однако в авторегрессивной (AR) мультимодальной генерации CFG вносит дизайнерские несоответствия между языком и визуальным контентом, противоречащие философии объединения различных модальностей для визуальной AR. Вдохновленные методами выравнивания моделей языка, мы предлагаем Метод условного контрастного выравнивания (CCA) для облегчения руководства-бесплатной AR визуальной генерации с высокой производительностью и анализируем его теоретическую связь с методами руководимой выборки. В отличие от методов руководства, изменяющих процесс выборки для достижения идеального распределения выборки, CCA напрямую донастраивает предварительно обученные модели для соответствия тому же целевому распределению. Экспериментальные результаты показывают, что CCA значительно улучшает производительность руководства-бесплатной всех протестированных моделей всего за одну эпоху донастройки (примерно 1\% от эпох предварительного обучения) на наборе данных предварительного обучения, наравне с методами руководимой выборки. Это в значительной степени устраняет необходимость в руководимой выборке в AR визуальной генерации и сокращает стоимость выборки практически вдвое. Более того, путем настройки параметров обучения CCA может достигать компромиссов между разнообразием выборки и достоверностью, аналогично CFG. Это экспериментально подтверждает сильную теоретическую связь между методами выравнивания, ориентированными на язык, и методами руководства, ориентированными на визуальное содержимое, объединяя две ранее независимые исследовательские области. Код и веса модели: https://github.com/thu-ml/CCA.

TransAgent: Перенос видео-языковых базовых моделей с гетерогенным сотрудничеством агентов
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration

Oct 16

ByYiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang

Модели основанные на визуально-языковых основах (такие как CLIP) недавно продемонстрировали свою мощь в обучении передачи, благодаря предварительному обучению изображений и текста в большом масштабе. Однако данные целевой области в последующих задачах могут значительно отличаться от этапа предварительного обучения, что затрудняет обобщение такой единственной модели. В качестве альтернативы существует широкий спектр экспертных моделей, содержащих разнообразные знания о визуальном и/или языковом уровнях, предварительно обученные на различных модальностях, задачах, сетях и наборах данных. К сожалению, эти модели являются "изолированными агентами" с гетерогенными структурами, и как интегрировать их знания для обобщения моделей, подобных CLIP, пока не было полностью исследовано. Для преодоления этого разрыва мы предлагаем общую и лаконичную структуру TransAgent, которая передает знания изолированных агентов единым образом и эффективно направляет CLIP на обобщение с помощью дистилляции знаний из нескольких источников. С помощью такой отличной структуры мы гибко сотрудничаем с 11 гетерогенными агентами для усиления моделей основанных на визуально-языковых основах, без дополнительных затрат на фазе вывода. Наконец, наш TransAgent достигает передовой производительности на 11 наборах данных по визуальному распознаванию. При том же низком уровне обучения он превосходит популярный CoOp в среднем на 10%, и на 20% на наборе данных EuroSAT, который содержит большие изменения области.

AERO: LLM с использованием только функции Softmax для эффективного приватного вывода
AERO: Softmax-Only LLMs for Efficient Private Inference

Oct 16

ByNandan Kumar Jha, Brandon Reagen

Всеобщее распространение собственных языковых моделей вызвало опасения по поводу конфиденциальности чувствительных данных пользователей, подчеркивая необходимость частного вывода (PI), при котором вывод выполняется непосредственно на зашифрованных входных данных. Однако текущие методы PI сталкиваются с чрезмерно высокими накладными расходами на коммуникацию и задержку, в основном из-за нелинейных операций. В данной статье мы представляем комплексный анализ для понимания роли нелинейностей в языковых моделях только декодера на основе трансформера. Мы представляем AERO, четырехэтапную архитектурную оптимизацию, которая улучшает существующую архитектуру LLM для эффективного PI путем систематического удаления нелинейностей, таких как LayerNorm и GELU, а также уменьшения количества операций с плавающей запятой. Впервые мы предлагаем архитектуру только с Softmax с значительно меньшим количеством операций с плавающей запятой, созданную для эффективного PI. Более того, мы разработали новую технику регуляризации энтропии для улучшения производительности моделей только с Softmax. AERO достигает снижения накладных расходов на коммуникацию до 4,23 раз и задержки до 1,94 раза. Мы подтверждаем эффективность AERO, сравнивая ее с передовыми методами.

SBI-RAG: Улучшение решения математических задач на слова для студентов через инструктаж на основе схем и увеличение поколения через извлечение.
SBI-RAG: Enhancing Math Word Problem Solving for Students through Schema-Based Instruction and Retrieval-Augmented Generation

Oct 17

ByPrakhar Dixit, Tim Oates

Многие студенты испытывают трудности с математическими текстовыми задачами (МТЗ), часто находя сложности в выделении ключевой информации и выборе соответствующих математических операций. Инструкция на основе схемы (SBI) - это стратегия, подтвержденная доказательствами, которая помогает студентам категоризировать задачи на основе их структуры, улучшая точность решения проблем. На основе этого мы предлагаем фреймворк Инструкции на основе схемы с извлечением и дополнением (SBI-RAG), который включает в себя большую языковую модель (LLM). Наш подход акцентируется на пошаговом рассуждении, используя схемы для направления генерации решения. Мы оцениваем его производительность на наборе данных GSM8K, сравнивая его с GPT-4 и GPT-3.5 Turbo, и представляем метрику "оценки рассуждений" для оценки качества решения. Наши результаты показывают, что SBI-RAG улучшает ясность рассуждений и точность решения проблем, что потенциально приносит образовательные выгоды для студентов.