Ежедневно отобранные исследовательские статьи по ИИ с переводами
Методы эффективной настройки параметров (PEFT) стремятся адаптировать большие модели путем обновления небольшого количества весов. Однако множество предыдущих работ по интерпретируемости показали, что представления кодируют богатую семантическую информацию, что подразумевает, что редактирование представлений может быть более мощной альтернативой. Здесь мы проверяем эту гипотезу, разрабатывая семейство методов Файн-тюнинга Представлений (ReFT). Методы ReFT работают с замороженной базовой моделью и обучают задаче-специфичные вмешательства в скрытые представления. Мы определяем сильный представитель семейства ReFT, Линейное Подпространство Малого Ранга ReFT (LoReFT). LoReFT является заменой для существующих PEFT и обучает вмешательства, которые в 10-50 раз более эффективны по параметрам, чем предыдущие передовые PEFT. Мы продемонстрировали LoReFT на восьми задачах здравого смысла, четырех задачах арифметического рассуждения, Alpaca-Eval v1.0 и GLUE. Во всех этих оценках LoReFT обеспечивает лучший баланс эффективности и производительности и почти всегда превосходит передовые PEFT. Мы публично выпустили общедоступную библиотеку обучения ReFT по адресу https://github.com/stanfordnlp/pyreft.
Модели диффузии продемонстрировали большой успех в области генерации текста по изображению. Однако уменьшение несоответствия между текстовыми подсказками и изображениями по-прежнему представляет собой сложную задачу. Коренная причина этого несоответствия не была достаточно изучена. Мы замечаем, что несоответствие вызвано недостаточной активацией внимания к токенам. Мы далее приписываем это явление недостаточному использованию условий модели диффузии, вызванному ее парадигмой обучения. Для решения проблемы мы предлагаем CoMat, стратегию донастройки модели диффузии "end-to-end" с механизмом сопоставления концепций изображения и текста. Мы используем модель подписывания изображений для измерения соответствия изображения и текста и направляем модель диффузии на пересмотр игнорируемых токенов. Также предлагается новый модуль концентрации атрибутов для решения проблемы привязки атрибутов. Без каких-либо данных об изображениях или предпочтениях людей мы используем только 20 тыс. текстовых подсказок для донастройки SDXL и получаем CoMat-SDXL. Обширные эксперименты показывают, что CoMat-SDXL значительно превосходит базовую модель SDXL на двух бенчмарках выравнивания текста и изображения и достигает передовых показателей.
Эта статья представляет MiniGPT4-Video, мультимодельную большую языковую модель (LLM), разработанную специально для понимания видео. Модель способна обрабатывать как временные визуальные, так и текстовые данные, что делает ее способной понимать сложности видео. На основе успеха MiniGPT-v2, которая отлично справлялась с преобразованием визуальных признаков в пространство LLM для отдельных изображений и достигла впечатляющих результатов на различных бенчмарках изображений и текста, в данной статье расширяются возможности модели для обработки последовательности кадров, что позволяет ей понимать видео. MiniGPT4-Video не только учитывает визуальное содержание, но также включает текстовые диалоги, что позволяет модели эффективно отвечать на запросы, включающие как визуальные, так и текстовые компоненты. Предложенная модель превосходит существующие передовые методы, показывая улучшения на 4,22%, 1,13%, 20,82% и 13,1% на бенчмарках MSVD, MSRVTT, TGIF и TVQA соответственно. Наши модели и код были опубликованы здесь: https://vision-cair.github.io/MiniGPT4-video/
В быстро развивающемся мире искусственного интеллекта мульти-модальные крупные языковые модели становятся значительной областью интереса. Эти модели, объединяющие различные формы входных данных, становятся все более популярными. Однако понимание их внутренних механизмов остается сложной задачей. В области инструментов и механизмов объяснимости были сделаны многочисленные усовершенствования, однако еще многое предстоит исследовать. В данной работе мы представляем новое интерактивное приложение, направленное на понимание внутренних механизмов крупных моделей видео-языка. Наш интерфейс разработан для повышения интерпретируемости фрагментов изображения, которые являются ключевыми для генерации ответа, и оценки эффективности языковой модели в привязке ее вывода к изображению. С помощью нашего приложения пользователь может систематически исследовать модель и выявить ограничения системы, что открывает путь к улучшению возможностей системы. Наконец, мы представляем кейс-исследование того, как наше приложение может помочь в понимании механизмов сбоя в популярной крупной мульти-модальной модели: LLaVA.
В данной статье мы исследуем идею обучения больших языковых моделей (LLM) на высококомпрессированных текстах. В то время как стандартные токенизаторы на основе подслов сжимают текст на небольшой коэффициент, нейронные текстовые компрессоры могут достичь гораздо более высоких уровней сжатия. Если бы было возможно обучать LLM напрямую на нейронно сжатых текстах, это принесло бы преимущества в эффективности обучения и обслуживания, а также упростило бы обработку длинных текстовых отрывков. Основным препятствием для достижения этой цели является то, что сильное сжатие обычно приводит к неясным результатам, которые плохо подходят для обучения. В частности, мы обнаружили, что текст, наивно сжатый с использованием арифметического кодирования, не является легко обучаемым для LLM. Для преодоления этого мы предлагаем Equal-Info Windows, новую технику сжатия, при которой текст разбивается на блоки, каждый из которых сжимается до одинаковой длины в битах. Используя этот метод, мы демонстрируем эффективное обучение на нейронно сжатых текстах, которое улучшается с увеличением масштаба и значительно превосходит базовые уровни байтов по показателям перплексии и скорости вывода. Хотя наш метод демонстрирует более высокую перплексию по сравнению с токенизаторами на основе подслов для моделей, обученных с одинаковым количеством параметров, он имеет преимущество в более коротких длинах последовательностей. Более короткие длины последовательностей требуют меньшего количества шагов авторегрессивной генерации и снижают задержку. Наконец, мы предоставляем обширный анализ свойств, способствующих обучаемости, и предлагаем конкретные рекомендации по дальнейшему улучшению производительности токенизаторов с высоким уровнем сжатия.
Большие языковые модели (LLM) для кода стремительно развиваются, причем редактирование кода становится ключевой возможностью. Мы представляем CodeEditorBench, фреймворк оценки, разработанный для тщательной оценки производительности LLM в задачах редактирования кода, включая отладку, перевод, доработку и изменение требований. В отличие от существующих бенчмарков, сосредоточенных исключительно на генерации кода, CodeEditorBench акцентирует внимание на реальные сценарии и практические аспекты разработки программного обеспечения. Мы подбираем разнообразные задачи и сценарии кодирования из пяти источников, охватывающие различные языки программирования, уровни сложности и задачи редактирования. Оценка 19 LLM показывает, что модели с закрытым исходным кодом (особенно Gemini-Ultra и GPT-4) превосходят модели с открытым исходным кодом в CodeEditorBench, выявляя различия в производительности моделей на основе типов задач и чувствительности к запросам. CodeEditorBench нацелен на стимулирование прогресса в области LLM, предоставляя надежную платформу для оценки возможностей редактирования кода. Мы выпустим все запросы и наборы данных, чтобы сообщество могло расширить набор данных и провести оценку новых LLM. Представляя CodeEditorBench, мы вносим вклад в развитие LLM в редактировании кода и предоставляем ценный ресурс для исследователей и практиков.
Мы представляем PointInfinity, эффективное семейство моделей диффузии облаков точек. Наша основная идея заключается в использовании архитектуры на основе трансформера с постоянным размером латентного представления, инвариантного к разрешению. Это обеспечивает эффективное обучение с низким разрешением облаков точек, позволяя при этом генерировать высокоразрешенные облака точек во время вывода. Более того, мы показываем, что увеличение разрешения во время тестирования за пределы разрешения обучения улучшает достоверность сгенерированных облаков точек и поверхностей. Мы анализируем это явление и устанавливаем связь с руководством без классификатора, часто используемым в моделях диффузии, демонстрируя, что оба подхода позволяют настраивать достоверность и изменчивость во время вывода. Эксперименты на CO3D показывают, что PointInfinity может эффективно генерировать высокоразрешенные облака точек (до 131 тыс. точек, в 31 раз больше, чем у Point-E) с качеством на уровне современных стандартов.
Были предложены различные атаки на снятие ограничений для крупных языковых моделей (LLM), которые выявили уязвимые механизмы защиты LLM. Кроме того, некоторые методы не ограничиваются текстовой модальностью и расширяют атаку на снятие ограничений на Мультимодальные крупные языковые модели (MLLM), исказив визуальный ввод. Однако отсутствие универсальной оценочной базы затрудняет воспроизведение производительности и справедливое сравнение. Кроме того, отсутствует комплексная оценка закрытых современных моделей (SOTA), особенно MLLM, таких как GPT-4V. Для решения этих проблем данная работа сначала создает обширный набор данных для оценки атак на снятие ограничений с 1445 вредоносными вопросами, охватывающими 11 различных политик безопасности. На основе этого набора данных проводятся обширные эксперименты по атакам на снятие ограничений на 11 различных LLM и MLLM, включая как закрытые модели SOTA, так и открытые модели. Затем проводится глубокий анализ оцененных результатов, и выясняется, что (1) GPT-4 и GPT-4V демонстрируют лучшую устойчивость к атакам на снятие ограничений по сравнению с открытыми LLM и MLLM. (2) Llama2 и Qwen-VL-Chat более устойчивы по сравнению с другими открытыми моделями. (3) Переносимость визуальных методов атак на снятие ограничений относительно ограничена по сравнению с текстовыми методами атак на снятие ограничений. Набор данных и код можно найти здесь: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
Мы представляем RALL-E, метод моделирования языка для синтеза речи из текста. В то время как предыдущие работы, основанные на больших языковых моделях (LLM), показывают впечатляющую производительность в нулевом режиме TTS, такие методы часто страдают от недостаточной устойчивости, такой как нестабильная прозодия (странный тон и ритм/длительность) и высокий уровень ошибок слов (WER), из-за авторегрессионного стиля предсказания языковых моделей. Основная идея за RALL-E - это подсказка цепочки мыслей (CoT), которая декомпозирует задачу на более простые шаги для улучшения устойчивости TTS на основе LLM. Для реализации этой идеи RALL-E сначала предсказывает характеристики прозодии (тон и длительность) входного текста и использует их в качестве промежуточных условий для предсказания речевых токенов в стиле CoT. Во-вторых, RALL-E использует предсказанную подсказку длительности для направления вычисления весов самовнимания в трансформере, чтобы заставить модель сосредоточиться на соответствующих фонемах и характеристиках прозодии при предсказании речевых токенов. Результаты обширных объективных и субъективных оценок демонстрируют, что по сравнению с мощным базовым методом VALL-E, RALL-E значительно улучшает WER в нулевом режиме TTS с 6.3% (без переранжирования) и 2.1% (с переранжированием) до 2.8% и 1.0% соответственно. Более того, мы показываем, что RALL-E правильно синтезирует предложения, которые сложны для VALL-E, и снижает уровень ошибок с 68% до 4%.