Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем phi-3-mini, языковую модель с 3,8 миллиарда параметров, обученную на 3,3 триллиона токенов, общая производительность которой, измеренная как академическими бенчмарками, так и внутренними тестами, не уступает моделям, таким как Mixtral 8x7B и GPT-3.5 (например, phi-3-mini достигает 69% на MMLU и 8,38 на MT-bench), несмотря на то, что достаточно компактна для установки на телефон. Инновация заключается полностью в нашем наборе данных для обучения, увеличенной версии того, что использовалось для phi-2, состоящего из тщательно отфильтрованных веб-данных и синтетических данных. Модель также дополнительно настроена на устойчивость, безопасность и формат чата. Мы также предоставляем некоторые начальные результаты масштабирования параметров с 7B и 14B моделями, обученными на 4,8T токенов, названными phi-3-small и phi-3-medium, обе значительно более производительные, чем phi-3-mini (например, соответственно 75% и 78% на MMLU, и 8,7 и 8,9 на MT-bench).
Семейство LLaMA компании Meta стало одним из самых мощных серий открытых больших языковых моделей (LLM). Особенно стоит отметить, что недавно были выпущены модели LLaMA3, которые достигли впечатляющей производительности на различных задачах благодаря масштабному предварительному обучению на более чем 15 трлн токенов данных. Учитывая широкое применение квантизации низкого разрешения для LLM в ситуациях с ограниченными ресурсами, мы исследуем возможности LLaMA3 при квантизации до низкой разрядности. Это исследование может раскрывать новые идеи и вызовы для квантизации низкого разрешения LLaMA3 и других предстоящих LLM, особенно в решении проблем деградации производительности, с которыми сталкиваются при сжатии LLM. В частности, мы оцениваем 10 существующих методов квантизации после обучения и донастройки LoRA LLaMA3 на 1-8 битах и различных наборах данных, чтобы всесторонне выявить производительность квантизации низкой разрядности LLaMA3. Результаты наших экспериментов показывают, что LLaMA3 все еще страдает от незначительной деградации в этих сценариях, особенно при ультранизкой разрядности. Это подчеркивает значительный разрыв в производительности при низкой разрядности, который необходимо преодолеть в будущих разработках. Мы ожидаем, что это эмпирическое исследование окажется ценным для продвижения будущих моделей, смещая LLM к более низкой разрядности с повышенной точностью для практического использования. Наш проект доступен по ссылке https://github.com/Macaronlin/LLaMA3-Quantization, а квантизированные модели LLaMA3 доступны по ссылке https://huggingface.co/LLMQ.
Современные LLM-модели подвержены инъекциям запросов, побегам из "тюрьмы" и другим атакам, позволяющим злоумышленникам перезаписывать исходные инструкции модели своими зловредными запросами. В данной работе мы утверждаем, что одной из основных уязвимостей, лежащих в основе этих атак, является то, что LLM-модели часто рассматривают системные запросы (например, текст от разработчика приложения) наравне с текстом от недоверенных пользователей и сторонних лиц. Для решения этой проблемы мы предлагаем иерархию инструкций, которая явно определяет, как модели должны вести себя при конфликте инструкций различных приоритетов. Затем мы предлагаем метод генерации данных для демонстрации такого иерархического следования инструкциям, который обучает LLM-модели выборочно игнорировать инструкции с более низким приоритетом. Мы применяем этот метод к GPT-3.5, показывая, что он значительно повышает устойчивость - даже к типам атак, не наблюдавшимся во время обучения - при минимальном ухудшении стандартных возможностей.
Быстро развивающаяся область роботизированной автоматизации процессов (RPA) сделала значительные шаги в автоматизации повторяющихся процессов, однако ее эффективность уменьшается в сценариях, требующих спонтанных или непредсказуемых задач, предъявляемых пользователями. В данной статье представлен новый подход, FlowMind, использующий возможности больших языковых моделей (LLM), таких как Генеративно-Предобученный Трансформер (GPT), для преодоления этого ограничения и создания системы автоматической генерации рабочего процесса. В рамках FlowMind мы предлагаем общий рецепт подсказки для лекции, который помогает укоренить рассуждения LLM с надежными интерфейсами прикладного программирования (API). С помощью этого FlowMind не только смягчает распространенную проблему галлюцинаций в LLM, но также устраняет прямое взаимодействие между LLM и собственными данными или кодом, обеспечивая тем самым целостность и конфиденциальность информации - основополагающий принцип в финансовых услугах. FlowMind дополнительно упрощает взаимодействие с пользователем, представляя высокоуровневые описания автоматически сгенерированных рабочих процессов, позволяя пользователям эффективно их проверять и давать обратную связь. Мы также представляем NCEN-QA, новый набор данных в финансах для оценки задач по ответам на вопросы из отчетов N-CEN о фондах. Мы использовали NCEN-QA для оценки производительности рабочих процессов, сгенерированных FlowMind, по сравнению с базовыми и вариантами абляции FlowMind. Мы демонстрируем успех FlowMind, важность каждого компонента в предложенном рецепте лекции и эффективность взаимодействия и обратной связи с пользователем в FlowMind.
В последнее время появился ряд алгоритмов дистилляции, учитывающих диффузию, чтобы снизить вычислительную нагрузку, связанную с многоэтапным процессом вывода моделей диффузии (DMs). Существующие техники дистилляции часто разделяются на два отличных аспекта: i) Сохранение траектории ОДУ; и ii) Реформулирование траектории ОДУ. Однако эти подходы страдают от серьезного снижения производительности или сдвигов доменов. Для преодоления этих ограничений мы предлагаем Hyper-SD, новую структуру, которая синергетически объединяет преимущества сохранения и реформулирования траектории ОДУ, сохраняя при этом почти беспроигрышную производительность во время сжатия шагов. Во-первых, мы вводим Дистилляцию Согласованности Сегментированной Траектории для постепенного выполнения согласованной дистилляции в предопределенных сегментах временных шагов, что способствует сохранению оригинальной траектории ОДУ с более высокоуровневой перспективы. Во-вторых, мы внедряем обучение на основе обратной связи человека для улучшения производительности модели в режиме низкого количества шагов и смягчения потери производительности, вызванной процессом дистилляции. В-третьих, мы интегрируем дистилляцию оценок для дальнейшего улучшения способности модели к генерации на низком количестве шагов и предлагаем первую попытку использовать унифицированный LoRA для поддержки процесса вывода на всех шагах. Обширные эксперименты и пользовательские исследования показывают, что Hyper-SD достигает лучшей производительности от 1 до 8 шагов вывода как для SDXL, так и для SD1.5. Например, Hyper-SDXL превосходит SDXL-Lightning на +0.68 в CLIP Score и +0.51 в Aes Score при выводе на 1 шаге.
В данной статье описывается MAIA, мультимодальный автоматизированный агент интерпретируемости. MAIA - это система, которая использует нейронные модели для автоматизации задач понимания нейронных моделей, таких как интерпретация признаков и обнаружение режимов отказа. Она оснащает предварительно обученную модель видео-языка набором инструментов, которые поддерживают итеративные эксперименты по подкомпонентам других моделей для объяснения их поведения. Среди этих инструментов находятся инструменты, обычно используемые исследователями интерпретируемости: для синтеза и редактирования входных данных, вычисления максимально активирующих образцов из реальных наборов данных и подведения и описания экспериментальных результатов. Эксперименты по интерпретируемости, предложенные MAIA, объединяют эти инструменты для описания и объяснения поведения системы. Мы оцениваем применение MAIA к моделям компьютерного зрения. Сначала мы характеризуем способность MAIA описывать (на уровне нейронов) признаки в изученных представлениях изображений. На нескольких обученных моделях и новом наборе данных синтетических нейронов зрения с сопоставленными описаниями истинных значений, MAIA производит описания, сравнимые с теми, которые генерируются опытными человеческими испытателями. Затем мы показываем, что MAIA может помочь в двух дополнительных задачах интерпретируемости: уменьшении чувствительности к ложным признакам и автоматическом определении входных данных, склонных к ошибочной классификации.
Быстрое развитие мультимодельной основной модели продемонстрировало значительные успехи в понимании и генерации изображений на языке, например, в нашей предыдущей работе SEED-LLaMA. Однако остается разрыв между ее возможностями и применимостью в реальном мире, в основном из-за ограниченной способности модели эффективно реагировать на различные инструкции пользователей и взаимодействовать с разнообразными визуальными данными. В данной работе мы сосредотачиваемся на устранении этого разрыва путем интеграции двух улучшенных функций: (1) понимание изображений произвольных размеров и пропорций и (2) обеспечение многозначной генерации изображений. Мы представляем объединенную и универсальную основную модель, названную SEED-X, способную моделировать многозначную визуальную семантику для задач понимания и генерации. Помимо конкурентоспособных результатов на общедоступных показателях, SEED-X демонстрирует свою эффективность в работе с приложениями в реальном мире в различных областях после настройки инструкций. Мы надеемся, что наша работа вдохновит будущие исследования в области того, что может быть достигнуто с помощью универсальных мультимодельных основных моделей в реальных приложениях. Модели, коды и наборы данных будут опубликованы на https://github.com/AILab-CVC/SEED-X.
Модели согласованности проявили выдающиеся возможности в облегчении эффективной генерации изображений/видео, обеспечивая синтез с минимальным количеством этапов выборки. Они доказали свою выгодность в смягчении вычислительных нагрузок, связанных с моделями диффузии. Тем не менее, применение моделей согласованности в области генерации музыки остается в значительной степени неисследованным. Для заполнения этого пробела мы представляем Модели Согласованности Музыки (MusicCM), которые используют концепцию моделей согласованности для эффективного синтеза мел-спектрограмм для музыкальных отрывков, сохраняя высокое качество при минимизации количества этапов выборки. Развивая существующие модели диффузии текста в музыку, модель MusicCM включает в себя дистилляцию согласованности и обучение дискриминатора методом адверсариального обучения. Более того, мы обнаружили, что полезно генерировать продолжительную согласованную музыку, включая несколько процессов диффузии с общими ограничениями. Экспериментальные результаты показывают эффективность нашей модели с точки зрения вычислительной эффективности, достоверности и естественности. Заметно, что MusicCM достигает плавного синтеза музыки всего за четыре этапа выборки, например, всего одну секунду в минуту музыкального отрывка, демонстрируя потенциал для применения в реальном времени.
Эта статья представляет MultiBooth, новую и эффективную технику для многоконцептуальной настройки в генерации изображений по тексту. Несмотря на значительные достижения в методах настраиваемой генерации, особенно с успехом моделей диффузии, существующие методы часто сталкиваются с трудностями в сценариях с несколькими концепциями из-за низкой точности концепции и высокой стоимости вывода. MultiBooth решает эти проблемы, разделяя процесс многоконцептуальной генерации на две фазы: фазу обучения одноконцептуальной и фазу интеграции многоконцептуальной. Во время фазы обучения одноконцептуальной мы используем мультимодальный кодировщик изображений и эффективную технику кодирования концепции для изучения краткого и дискриминативного представления для каждой концепции. В фазе интеграции многоконцептуальной мы используем ограничивающие рамки для определения области генерации для каждой концепции внутри карты взаимного внимания. Этот метод позволяет создавать отдельные концепции в их определенных областях, тем самым облегчая формирование многоконцептуальных изображений. Эта стратегия не только улучшает точность концепции, но и снижает дополнительные затраты на вывод. MultiBooth превосходит различные базовые уровни как в качественной, так и в количественной оценках, демонстрируя свою выдающуюся производительность и вычислительную эффективность. Страница проекта: https://multibooth.github.io/
Стабильное передвижение в крутых средах является важной способностью четырехногих роботов, требующей способности сопротивляться различным внешним воздействиям. Однако недавние политики, основанные на обучении, используют только базовую доменную рандомизацию для улучшения устойчивости выученных политик, что не может гарантировать, что робот обладает достаточными способностями к сопротивлению воздействиям. В данной статье мы предлагаем моделировать процесс обучения как адверсарное взаимодействие между актером и вновь введенным нарушителем и обеспечивать их оптимизацию с ограничением H_{infty}. В отличие от актера, который максимизирует дисконтированное общее вознаграждение, нарушитель отвечает за генерацию эффективных внешних сил и оптимизируется путем максимизации ошибки между заданием вознаграждения и его оракулом, т.е. "стоимостью" на каждой итерации. Для поддержания совместной оптимизации между актером и нарушителем стабильной, наше ограничение H_{infty} предписывает ограничение соотношения между стоимостью и интенсивностью внешних сил. Через взаимодействие на протяжении фазы обучения актер может приобрести способность справляться с все более сложными физическими воздействиями. Мы проверяем устойчивость нашего подхода на задачах четырехногого передвижения с роботом Unitree Aliengo, а также на более сложной задаче с роботом Unitree A1, где от четырехногого робота ожидается выполнение передвижения исключительно на задних ногах, как если бы он был двуногим роботом. Симулированные количественные результаты показывают улучшение по сравнению с базовыми показателями, демонстрируя эффективность метода и каждого выбора дизайна. С другой стороны, реальные эксперименты с роботом качественно показывают, насколько устойчива политика при воздействии различных воздействий на различных участках, включая лестницы, высокие платформы, склоны и скользкие поверхности. Весь код, контрольные точки и руководство по развертыванию в реальном мире будут опубликованы.
Мы рассматриваем задачу оценки параметров камеры по набору изображений, изображающих сцену. Популярные инструменты структуры движения изображения на основе особенностей (SfM) решают эту задачу путем инкрементальной реконструкции: они повторяют триангуляцию разреженных 3D точек и регистрацию дополнительных видов камер к разреженному облаку точек. Мы переосмысливаем инкрементальную структуру движения изображения как итеративное применение и уточнение визуального релокализатора, то есть метода, который регистрирует новые виды на текущее состояние реконструкции. Эта перспектива позволяет нам исследовать альтернативные визуальные релокализаторы, не основанные на локальном сопоставлении особенностей. Мы показываем, что регрессия координат сцены, подход к релокализации на основе обучения, позволяет нам создавать неявные, нейронные представления сцены из непозированных изображений. В отличие от других методов реконструкции на основе обучения, нам не требуются априорные данные о позе или последовательные входы, и мы эффективно оптимизируем более тысячи изображений. Наш метод, ACE0 (ACE Zero), оценивает позы камер с точностью, сравнимой с SfM на основе особенностей, как продемонстрировано новым синтезом видов. Страница проекта: https://nianticlabs.github.io/acezero/