Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Phi-3: Высококвалифицированная языковая модель локально на вашем телефоне
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Apr 22

ByMarah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, Jyoti Aneja, Ahmed Awadallah, Hany Awadalla, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Harkirat Behl, Alon Benhaim, Misha Bilenko, Johan Bjorck, Sébastien Bubeck, Martin Cai, Caio César Teodoro Mendes, Weizhu Chen, Vishrav Chaudhary, Parul Chopra, Allie Del Giorno, Gustavo de Rosa, Matthew Dixon, Ronen Eldan, Dan Iter, Abhishek Goswami, Suriya Gunasekar, Emman Haider, Junheng Hao, Russell J. Hewett, Jamie Huynh, Mojan Javaheripi, Xin Jin, Piero Kauffmann, Nikos Karampatziakis, Dongwoo Kim, Mahoud Khademi, Lev Kurilenko, James R. Lee, Yin Tat Lee, Yuanzhi Li, Chen Liang, Weishung Liu, Eric Lin, Zeqi Lin, Piyush Madan, Arindam Mitra, Hardik Modi, Anh Nguyen, Brandon Norick, Barun Patra, Daniel Perez-Becker, Thomas Portet, Reid Pryzant, Heyang Qin, Marko Radmilac, Corby Rosset, Sambudha Roy, Olli Saarikivi, Amin Saied, Adil Salim, Michael Santacroce, Shital Shah, Ning Shang, Hiteshi Sharma, Xia Song, Olatunji Ruwase, Xin Wang, Rachel Ward, Guanhua Wang, Philipp Witte, Michael Wyatt, Can Xu, Jiahang Xu, Sonali Yadav, Fan Yang, Ziyi Yang, Donghan Yu, Chengruidong Zhang, Cyril Zhang, Jianwen Zhang, Li Lyna Zhang, Yi Zhang, Yunan Zhang, Xiren Zhou

259

Мы представляем phi-3-mini, языковую модель с 3,8 миллиарда параметров, обученную на 3,3 триллиона токенов, общая производительность которой, измеренная как академическими бенчмарками, так и внутренними тестами, не уступает моделям, таким как Mixtral 8x7B и GPT-3.5 (например, phi-3-mini достигает 69% на MMLU и 8,38 на MT-bench), несмотря на то, что достаточно компактна для установки на телефон. Инновация заключается полностью в нашем наборе данных для обучения, увеличенной версии того, что использовалось для phi-2, состоящего из тщательно отфильтрованных веб-данных и синтетических данных. Модель также дополнительно настроена на устойчивость, безопасность и формат чата. Мы также предоставляем некоторые начальные результаты масштабирования параметров с 7B и 14B моделями, обученными на 4,8T токенов, названными phi-3-small и phi-3-medium, обе значительно более производительные, чем phi-3-mini (например, соответственно 75% и 78% на MMLU, и 8,7 и 8,9 на MT-bench).

Насколько хороши низкобитовые квантованные модели LLaMA3? Эмпирическое исследование
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

Apr 22

ByWei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno

Семейство LLaMA компании Meta стало одним из самых мощных серий открытых больших языковых моделей (LLM). Особенно стоит отметить, что недавно были выпущены модели LLaMA3, которые достигли впечатляющей производительности на различных задачах благодаря масштабному предварительному обучению на более чем 15 трлн токенов данных. Учитывая широкое применение квантизации низкого разрешения для LLM в ситуациях с ограниченными ресурсами, мы исследуем возможности LLaMA3 при квантизации до низкой разрядности. Это исследование может раскрывать новые идеи и вызовы для квантизации низкого разрешения LLaMA3 и других предстоящих LLM, особенно в решении проблем деградации производительности, с которыми сталкиваются при сжатии LLM. В частности, мы оцениваем 10 существующих методов квантизации после обучения и донастройки LoRA LLaMA3 на 1-8 битах и различных наборах данных, чтобы всесторонне выявить производительность квантизации низкой разрядности LLaMA3. Результаты наших экспериментов показывают, что LLaMA3 все еще страдает от незначительной деградации в этих сценариях, особенно при ультранизкой разрядности. Это подчеркивает значительный разрыв в производительности при низкой разрядности, который необходимо преодолеть в будущих разработках. Мы ожидаем, что это эмпирическое исследование окажется ценным для продвижения будущих моделей, смещая LLM к более низкой разрядности с повышенной точностью для практического использования. Наш проект доступен по ссылке https://github.com/Macaronlin/LLaMA3-Quantization, а квантизированные модели LLaMA3 доступны по ссылке https://huggingface.co/LLMQ.

Иерархия инструкций: обучение LLM для приоритизации привилегированных инструкций
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Apr 19

ByEric Wallace, Kai Xiao, Reimar Leike, Lilian Weng, Johannes Heidecke, Alex Beutel

Современные LLM-модели подвержены инъекциям запросов, побегам из "тюрьмы" и другим атакам, позволяющим злоумышленникам перезаписывать исходные инструкции модели своими зловредными запросами. В данной работе мы утверждаем, что одной из основных уязвимостей, лежащих в основе этих атак, является то, что LLM-модели часто рассматривают системные запросы (например, текст от разработчика приложения) наравне с текстом от недоверенных пользователей и сторонних лиц. Для решения этой проблемы мы предлагаем иерархию инструкций, которая явно определяет, как модели должны вести себя при конфликте инструкций различных приоритетов. Затем мы предлагаем метод генерации данных для демонстрации такого иерархического следования инструкциям, который обучает LLM-модели выборочно игнорировать инструкции с более низким приоритетом. Мы применяем этот метод к GPT-3.5, показывая, что он значительно повышает устойчивость - даже к типам атак, не наблюдавшимся во время обучения - при минимальном ухудшении стандартных возможностей.

FlowMind: Автоматическое создание рабочего процесса с помощью LLM.
FlowMind: Automatic Workflow Generation with LLMs

Mar 17

ByZhen Zeng, William Watson, Nicole Cho, Saba Rahimi, Shayleen Reynolds, Tucker Balch, Manuela Veloso

Быстро развивающаяся область роботизированной автоматизации процессов (RPA) сделала значительные шаги в автоматизации повторяющихся процессов, однако ее эффективность уменьшается в сценариях, требующих спонтанных или непредсказуемых задач, предъявляемых пользователями. В данной статье представлен новый подход, FlowMind, использующий возможности больших языковых моделей (LLM), таких как Генеративно-Предобученный Трансформер (GPT), для преодоления этого ограничения и создания системы автоматической генерации рабочего процесса. В рамках FlowMind мы предлагаем общий рецепт подсказки для лекции, который помогает укоренить рассуждения LLM с надежными интерфейсами прикладного программирования (API). С помощью этого FlowMind не только смягчает распространенную проблему галлюцинаций в LLM, но также устраняет прямое взаимодействие между LLM и собственными данными или кодом, обеспечивая тем самым целостность и конфиденциальность информации - основополагающий принцип в финансовых услугах. FlowMind дополнительно упрощает взаимодействие с пользователем, представляя высокоуровневые описания автоматически сгенерированных рабочих процессов, позволяя пользователям эффективно их проверять и давать обратную связь. Мы также представляем NCEN-QA, новый набор данных в финансах для оценки задач по ответам на вопросы из отчетов N-CEN о фондах. Мы использовали NCEN-QA для оценки производительности рабочих процессов, сгенерированных FlowMind, по сравнению с базовыми и вариантами абляции FlowMind. Мы демонстрируем успех FlowMind, важность каждого компонента в предложенном рецепте лекции и эффективность взаимодействия и обратной связи с пользователем в FlowMind.

Hyper-SD: Модель согласованности сегментированных траекторий для эффективного синтеза изображений
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

Apr 21

ByYuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao

В последнее время появился ряд алгоритмов дистилляции, учитывающих диффузию, чтобы снизить вычислительную нагрузку, связанную с многоэтапным процессом вывода моделей диффузии (DMs). Существующие техники дистилляции часто разделяются на два отличных аспекта: i) Сохранение траектории ОДУ; и ii) Реформулирование траектории ОДУ. Однако эти подходы страдают от серьезного снижения производительности или сдвигов доменов. Для преодоления этих ограничений мы предлагаем Hyper-SD, новую структуру, которая синергетически объединяет преимущества сохранения и реформулирования траектории ОДУ, сохраняя при этом почти беспроигрышную производительность во время сжатия шагов. Во-первых, мы вводим Дистилляцию Согласованности Сегментированной Траектории для постепенного выполнения согласованной дистилляции в предопределенных сегментах временных шагов, что способствует сохранению оригинальной траектории ОДУ с более высокоуровневой перспективы. Во-вторых, мы внедряем обучение на основе обратной связи человека для улучшения производительности модели в режиме низкого количества шагов и смягчения потери производительности, вызванной процессом дистилляции. В-третьих, мы интегрируем дистилляцию оценок для дальнейшего улучшения способности модели к генерации на низком количестве шагов и предлагаем первую попытку использовать унифицированный LoRA для поддержки процесса вывода на всех шагах. Обширные эксперименты и пользовательские исследования показывают, что Hyper-SD достигает лучшей производительности от 1 до 8 шагов вывода как для SDXL, так и для SD1.5. Например, Hyper-SDXL превосходит SDXL-Lightning на +0.68 в CLIP Score и +0.51 в Aes Score при выводе на 1 шаге.

Мультимодальный автоматизированный агент интерпретируемости
A Multimodal Automated Interpretability Agent

Apr 22

ByTamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba

В данной статье описывается MAIA, мультимодальный автоматизированный агент интерпретируемости. MAIA - это система, которая использует нейронные модели для автоматизации задач понимания нейронных моделей, таких как интерпретация признаков и обнаружение режимов отказа. Она оснащает предварительно обученную модель видео-языка набором инструментов, которые поддерживают итеративные эксперименты по подкомпонентам других моделей для объяснения их поведения. Среди этих инструментов находятся инструменты, обычно используемые исследователями интерпретируемости: для синтеза и редактирования входных данных, вычисления максимально активирующих образцов из реальных наборов данных и подведения и описания экспериментальных результатов. Эксперименты по интерпретируемости, предложенные MAIA, объединяют эти инструменты для описания и объяснения поведения системы. Мы оцениваем применение MAIA к моделям компьютерного зрения. Сначала мы характеризуем способность MAIA описывать (на уровне нейронов) признаки в изученных представлениях изображений. На нескольких обученных моделях и новом наборе данных синтетических нейронов зрения с сопоставленными описаниями истинных значений, MAIA производит описания, сравнимые с теми, которые генерируются опытными человеческими испытателями. Затем мы показываем, что MAIA может помочь в двух дополнительных задачах интерпретируемости: уменьшении чувствительности к ложным признакам и автоматическом определении входных данных, склонных к ошибочной классификации.

SEED-X: Мультимодельные модели с объединенным многоуровневым пониманием и генерацией
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation

Apr 22

ByYuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, Ying Shan

Быстрое развитие мультимодельной основной модели продемонстрировало значительные успехи в понимании и генерации изображений на языке, например, в нашей предыдущей работе SEED-LLaMA. Однако остается разрыв между ее возможностями и применимостью в реальном мире, в основном из-за ограниченной способности модели эффективно реагировать на различные инструкции пользователей и взаимодействовать с разнообразными визуальными данными. В данной работе мы сосредотачиваемся на устранении этого разрыва путем интеграции двух улучшенных функций: (1) понимание изображений произвольных размеров и пропорций и (2) обеспечение многозначной генерации изображений. Мы представляем объединенную и универсальную основную модель, названную SEED-X, способную моделировать многозначную визуальную семантику для задач понимания и генерации. Помимо конкурентоспособных результатов на общедоступных показателях, SEED-X демонстрирует свою эффективность в работе с приложениями в реальном мире в различных областях после настройки инструкций. Мы надеемся, что наша работа вдохновит будущие исследования в области того, что может быть достигнуто с помощью универсальных мультимодельных основных моделей в реальных приложениях. Модели, коды и наборы данных будут опубликованы на https://github.com/AILab-CVC/SEED-X.

Модели Согласованности Музыки
Music Consistency Models

Apr 20

ByZhengcong Fei, Mingyuan Fan, Junshi Huang

Модели согласованности проявили выдающиеся возможности в облегчении эффективной генерации изображений/видео, обеспечивая синтез с минимальным количеством этапов выборки. Они доказали свою выгодность в смягчении вычислительных нагрузок, связанных с моделями диффузии. Тем не менее, применение моделей согласованности в области генерации музыки остается в значительной степени неисследованным. Для заполнения этого пробела мы представляем Модели Согласованности Музыки (MusicCM), которые используют концепцию моделей согласованности для эффективного синтеза мел-спектрограмм для музыкальных отрывков, сохраняя высокое качество при минимизации количества этапов выборки. Развивая существующие модели диффузии текста в музыку, модель MusicCM включает в себя дистилляцию согласованности и обучение дискриминатора методом адверсариального обучения. Более того, мы обнаружили, что полезно генерировать продолжительную согласованную музыку, включая несколько процессов диффузии с общими ограничениями. Экспериментальные результаты показывают эффективность нашей модели с точки зрения вычислительной эффективности, достоверности и естественности. Заметно, что MusicCM достигает плавного синтеза музыки всего за четыре этапа выборки, например, всего одну секунду в минуту музыкального отрывка, демонстрируя потенциал для применения в реальном времени.

MultiBooth: к генерации всех ваших концепций на изображении из текста
MultiBooth: Towards Generating All Your Concepts in an Image from Text

Apr 22

ByChenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu

Эта статья представляет MultiBooth, новую и эффективную технику для многоконцептуальной настройки в генерации изображений по тексту. Несмотря на значительные достижения в методах настраиваемой генерации, особенно с успехом моделей диффузии, существующие методы часто сталкиваются с трудностями в сценариях с несколькими концепциями из-за низкой точности концепции и высокой стоимости вывода. MultiBooth решает эти проблемы, разделяя процесс многоконцептуальной генерации на две фазы: фазу обучения одноконцептуальной и фазу интеграции многоконцептуальной. Во время фазы обучения одноконцептуальной мы используем мультимодальный кодировщик изображений и эффективную технику кодирования концепции для изучения краткого и дискриминативного представления для каждой концепции. В фазе интеграции многоконцептуальной мы используем ограничивающие рамки для определения области генерации для каждой концепции внутри карты взаимного внимания. Этот метод позволяет создавать отдельные концепции в их определенных областях, тем самым облегчая формирование многоконцептуальных изображений. Эта стратегия не только улучшает точность концепции, но и снижает дополнительные затраты на вывод. MultiBooth превосходит различные базовые уровни как в качественной, так и в количественной оценках, демонстрируя свою выдающуюся производительность и вычислительную эффективность. Страница проекта: https://multibooth.github.io/

Обучение управлению локомоцией методом H-бесконечность.
Learning H-Infinity Locomotion Control

Apr 22

ByJunfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang

Стабильное передвижение в крутых средах является важной способностью четырехногих роботов, требующей способности сопротивляться различным внешним воздействиям. Однако недавние политики, основанные на обучении, используют только базовую доменную рандомизацию для улучшения устойчивости выученных политик, что не может гарантировать, что робот обладает достаточными способностями к сопротивлению воздействиям. В данной статье мы предлагаем моделировать процесс обучения как адверсарное взаимодействие между актером и вновь введенным нарушителем и обеспечивать их оптимизацию с ограничением H_{infty}. В отличие от актера, который максимизирует дисконтированное общее вознаграждение, нарушитель отвечает за генерацию эффективных внешних сил и оптимизируется путем максимизации ошибки между заданием вознаграждения и его оракулом, т.е. "стоимостью" на каждой итерации. Для поддержания совместной оптимизации между актером и нарушителем стабильной, наше ограничение H_{infty} предписывает ограничение соотношения между стоимостью и интенсивностью внешних сил. Через взаимодействие на протяжении фазы обучения актер может приобрести способность справляться с все более сложными физическими воздействиями. Мы проверяем устойчивость нашего подхода на задачах четырехногого передвижения с роботом Unitree Aliengo, а также на более сложной задаче с роботом Unitree A1, где от четырехногого робота ожидается выполнение передвижения исключительно на задних ногах, как если бы он был двуногим роботом. Симулированные количественные результаты показывают улучшение по сравнению с базовыми показателями, демонстрируя эффективность метода и каждого выбора дизайна. С другой стороны, реальные эксперименты с роботом качественно показывают, насколько устойчива политика при воздействии различных воздействий на различных участках, включая лестницы, высокие платформы, склоны и скользкие поверхности. Весь код, контрольные точки и руководство по развертыванию в реальном мире будут опубликованы.

Восстановление координат сцены: позирование коллекций изображений через Инкрементное обучение релокализатора
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer

Apr 22

ByEric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu

Мы рассматриваем задачу оценки параметров камеры по набору изображений, изображающих сцену. Популярные инструменты структуры движения изображения на основе особенностей (SfM) решают эту задачу путем инкрементальной реконструкции: они повторяют триангуляцию разреженных 3D точек и регистрацию дополнительных видов камер к разреженному облаку точек. Мы переосмысливаем инкрементальную структуру движения изображения как итеративное применение и уточнение визуального релокализатора, то есть метода, который регистрирует новые виды на текущее состояние реконструкции. Эта перспектива позволяет нам исследовать альтернативные визуальные релокализаторы, не основанные на локальном сопоставлении особенностей. Мы показываем, что регрессия координат сцены, подход к релокализации на основе обучения, позволяет нам создавать неявные, нейронные представления сцены из непозированных изображений. В отличие от других методов реконструкции на основе обучения, нам не требуются априорные данные о позе или последовательные входы, и мы эффективно оптимизируем более тысячи изображений. Наш метод, ACE0 (ACE Zero), оценивает позы камер с точностью, сравнимой с SfM на основе особенностей, как продемонстрировано новым синтезом видов. Страница проекта: https://nianticlabs.github.io/acezero/

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Phi-3: Высококвалифицированная языковая модель локально на вашем телефоне
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Apr 22

259

Насколько хороши низкобитовые квантованные модели LLaMA3? Эмпирическое исследование
How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

Apr 22

ByWei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno

Иерархия инструкций: обучение LLM для приоритизации привилегированных инструкций
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Apr 19

ByEric Wallace, Kai Xiao, Reimar Leike, Lilian Weng, Johannes Heidecke, Alex Beutel

FlowMind: Автоматическое создание рабочего процесса с помощью LLM.
FlowMind: Automatic Workflow Generation with LLMs

Mar 17

ByZhen Zeng, William Watson, Nicole Cho, Saba Rahimi, Shayleen Reynolds, Tucker Balch, Manuela Veloso

Hyper-SD: Модель согласованности сегментированных траекторий для эффективного синтеза изображений
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis

Apr 21

ByYuxi Ren, Xin Xia, Yanzuo Lu, Jiacheng Zhang, Jie Wu, Pan Xie, Xing Wang, Xuefeng Xiao

Мультимодальный автоматизированный агент интерпретируемости
A Multimodal Automated Interpretability Agent

Apr 22

ByTamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba

SEED-X: Мультимодельные модели с объединенным многоуровневым пониманием и генерацией
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation

Apr 22

ByYuying Ge, Sijie Zhao, Jinguo Zhu, Yixiao Ge, Kun Yi, Lin Song, Chen Li, Xiaohan Ding, Ying Shan

Модели Согласованности Музыки
Music Consistency Models

Apr 20

ByZhengcong Fei, Mingyuan Fan, Junshi Huang

MultiBooth: к генерации всех ваших концепций на изображении из текста
MultiBooth: Towards Generating All Your Concepts in an Image from Text

Apr 22

ByChenyang Zhu, Kai Li, Yue Ma, Chunming He, Li Xiu

Обучение управлению локомоцией методом H-бесконечность.
Learning H-Infinity Locomotion Control

Apr 22

ByJunfeng Long, Wenye Yu, Quanyi Li, Zirui Wang, Dahua Lin, Jiangmiao Pang

Восстановление координат сцены: позирование коллекций изображений через Инкрементное обучение релокализатора
Scene Coordinate Reconstruction: Posing of Image Collections via Incremental Learning of a Relocalizer

Apr 22

ByEric Brachmann, Jamie Wynn, Shuai Chen, Tommaso Cavallari, Áron Monszpart, Daniyar Turmukhambetov, Victor Adrian Prisacariu