Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем MM1.5, новое семейство мультимодальных крупных языковых моделей (MLLMs), разработанных для расширения возможностей в понимании изображений с текстом, визуальной ссылки и привязки, а также многократного рассуждения на основе изображений. Основываясь на архитектуре MM1, MM1.5 принимает подход, основанный на данных, к обучению модели, систематически исследуя влияние разнообразных комбинаций данных на протяжении всего жизненного цикла обучения модели. Это включает данные высокого качества OCR и синтетические подписи для непрерывного предварительного обучения, а также оптимизированную комбинацию данных для настройки визуальных инструкций для контролируемого дообучения. Наши модели варьируются от 1B до 30B параметров, охватывая как плотные, так и варианты смеси экспертов (MoE), и демонстрируют, что тщательная кураторская работа с данными и стратегии обучения могут обеспечить высокую производительность даже на небольших масштабах (1B и 3B). Кроме того, мы представляем два специализированных варианта: MM1.5-Video, разработанный для понимания видео, и MM1.5-UI, нацеленный на понимание мобильного пользовательского интерфейса. Через обширные эмпирические исследования и абляции мы предоставляем подробные исследования процессов обучения и принятия решений, лежащих в основе наших конечных конструкций, предлагая ценные рекомендации для будущих исследований в области развития MLLM.
Способность к следованию инструкциям у больших языковых моделей позволяет людям взаимодействовать с искусственными интеллектуальными агентами естественным образом. Однако, когда требуется генерировать ответы определенной длины, большие языковые модели часто испытывают затруднения в удовлетворении потребностей пользователей из-за своей врожденной сложности в точном восприятии числовых ограничений. Для изучения способности больших языковых моделей контролировать длину генерируемых ответов мы предлагаем Задачу Генерации Целевой Длины (TLG) и разрабатываем две метрики, Точное Соответствие (PM) и Гибкое Соответствие (FM) для оценки производительности модели в соблюдении указанных длин ответов. Более того, мы представляем новый, не зависящий от модели подход под названием Ruler, который использует Мета-Токены Длины (MLTs) для улучшения способности больших языковых моделей следовать инструкциям с ограничениями по длине. Конкретно, Ruler оснащает LLMs способностью генерировать ответы определенной длины на основе ограничений по длине в инструкциях. Более того, Ruler может автоматически генерировать соответствующий MLT, когда ограничения по длине не указаны явно, демонстрируя отличную универсальность и обобщение. Комплексные эксперименты показывают эффективность Ruler на различных LLMs в Задаче Генерации Целевой Длины, например, на уровне All Level 27.97 средний прирост по PM, 29.57 средний прирост по FM. Кроме того, мы проводим обширные абляционные эксперименты для дальнейшего подтверждения эффективности и обобщаемости Ruler. Наш код и данные доступны по ссылке https://github.com/Geaming2002/Ruler.
Мы представляем гипер-соединения, простой, но эффективный метод, который может служить альтернативой остаточным соединениям. Этот подход специально решает общие недостатки, наблюдаемые в вариантах остаточных соединений, такие как эффект взаимного исчезновения градиента и коллапс представления. Теоретически гипер-соединения позволяют сети регулировать силу соединений между признаками на разных уровнях и динамически перестраивать слои. Мы проводим эксперименты, сосредотачиваясь на предварительном обучении больших языковых моделей, включая плотные и разреженные модели, где гипер-соединения показывают значительное улучшение производительности по сравнению с остаточными соединениями. Дополнительные эксперименты, проведенные на задачах зрения, также демонстрируют аналогичные улучшения. Мы предполагаем, что этот метод будет широко применим и полезен в широком спектре проблем искусственного интеллекта.
Недостаток наборов данных для диалогов в различных областях, начиная от академических тем до повседневных разговоров, ограничивает развитие систем диалога для различных приложений. Существующие исследования часто ограничены как слишком общими наборами данных для диалогов, так и нишевыми наборами данных для диалогов в конкретной области, масштаб которых не соответствует требуемому масштабу для обучения систем диалога. Для устранения этого разрыва мы представляем DiaSynth - синтетическую систему генерации диалогов, способную создавать диалоги высокого качества, контекстно насыщенные в различных областях. Наш подход отличается от существующих систем тем, что динамически генерирует диалоги, включающие симулированные персоны, подтемы и разнообразные характеристики разговора, используя Большую Языковую Модель (LLM) с Цепочкой Мысли (CoT) для создания контекстно насыщенных, областно-специфичных диалогов, которые тесно имитируют естественное человеческое взаимодействие. DiaSynth создает настроенные диалоги, эмулирующие реалистичные разговоры. Мы проводим эксперименты, генерируя синтетические данные с использованием различных LLM и примеров с небольшим числом шагов из DialogSum и SAMSum. Предварительно обученные языковые модели, настроенные на синтетических данных, превосходят базовые модели на 16,47%, в то время как сравнение между моделями, настроенными на данных внутри области и синтетическими данными, показывает, что синтетические данные способны охватить 90,48% распределения данных внутри области. Качество сгенерированных данных также масштабируется с размером LLM. Эти результаты подтверждают потенциал DiaSynth как надежной альтернативы традиционным методам сбора данных.
Механизмы внимания, особенно механизм внимания softmax, сыграли ключевую роль в успехе моделей на основе трансформера, таких как GPT. Однако квадратичная сложность памяти механизма внимания softmax относительно длины последовательности представляет существенные вызовы для обработки более длинных последовательностей. Мы представляем Cottention, новый механизм внимания, который заменяет операцию softmax на косинусное сходство. Используя свойства косинусного сходства и переставляя уравнение внимания, Cottention достигает линейной сложности памяти относительно длины последовательности, что делает его более эффективным с точки зрения памяти, чем механизм внимания softmax. Мы показываем, что Cottention может быть переформулирован как рекуррентная нейронная сеть (RNN) с конечным скрытым состоянием, позволяющим использовать постоянный объем памяти во время вывода. Мы оцениваем Cottention на задачах как двунаправленного BERT, так и причинного GPT, демонстрируя сравнимую производительность с механизмом внимания softmax при значительном снижении требований к памяти. Для обеспечения эффективных вычислений мы разрабатываем специальное ядро CUDA для Cottention. Наши результаты показывают, что Cottention является многообещающей альтернативой механизму внимания softmax, позволяя обрабатывать более длинные последовательности без ущерба производительности благодаря линейной сложности памяти и способности поддерживать постоянный объем памяти во время вывода.
Предыдущие исследования по робототехническому манипулированию основаны на ограниченном понимании основных ограничений и возможностей трехмерного движения. Для решения этих проблем мы предлагаем комплексную парадигму, названную UniAff, которая интегрирует трехмерное объектно-центрическое манипулирование и понимание задачи в единой формулировке. В частности, мы создали набор данных, помеченный ключевыми атрибутами, связанными с манипулированием, включающий 900 артикулированных объектов из 19 категорий и 600 инструментов из 12 категорий. Кроме того, мы используем MLLM для вывода объектно-центрических представлений для задач манипулирования, включая распознавание возможностей и рассуждения о трехмерных ограничениях движения. Обширные эксперименты как в симуляции, так и в реальных условиях показывают, что UniAff значительно улучшает обобщение робототехнического манипулирования для инструментов и артикулированных объектов. Мы надеемся, что UniAff послужит общим базовым уровнем для объединенных задач робототехнического манипулирования в будущем. Изображения, видео, набор данных и код опубликованы на веб-сайте проекта по адресу: https://sites.google.com/view/uni-aff/home
Одним из препятствий для обучения универсальных робототехнических моделей сегодня является гетерогенность. Предыдущие методы обучения роботов часто собирали данные для обучения с одним конкретным воплощением для одной задачи, что является дорогостоящим и подверженным переобучению. В данной работе изучается проблема обучения представлений политики через гетерогенное предварительное обучение на данных роботов различных воплощений и задач в масштабе. Мы предлагаем Гетерогенные Предварительно Обученные Трансформеры (HPT), которые предварительно обучают большой, общий ствол нейронной сети политики для изучения общего представления задачи и воплощения. Эта общая архитектура выравнивает конкретные входы проприоцепции и зрения из различных воплощений на короткую последовательность токенов, а затем обрабатывает такие токены для отображения управления роботами для различных задач. Используя недавние масштабные мультивоплощенческие реальные наборы данных роботов, а также симуляцию, развернутых роботов и наборы данных видео с участием людей, мы исследуем предварительное обучение политик в условиях гетерогенности. Мы проводим эксперименты для изучения поведения масштабирования целевых функций на 52 наборах данных. HPT превосходят несколько базовых вариантов и улучшают производительность настроенной политики более чем на 20% на невидимых задачах в нескольких бенчмарках симуляторов и реальных условиях. См. веб-сайт проекта (https://liruiw.github.io/hpt/) для кода и видео.
Изображения, созданные моделями диффузии, становятся все более популярными в цифровом искусстве и визуальном маркетинге. Однако такие сгенерированные изображения могут повторять контент существующих и представлять вызов оригинальности контента. Существующие модели обнаружения копий изображений (ICD), хотя и точны в обнаружении ручных реплик, не учитывают вызов, представляемый моделями диффузии. Это мотивирует нас представить ICDiff, первую модель ICD, специализированную на моделях диффузии. Для этого мы создаем набор данных Диффузионной-Репликации (D-Rep) и предлагаем новый метод глубокого вложения. D-Rep использует передовую модель диффузии (Стабильная Диффузия V1.5) для генерации 40 000 пар изображение-реплика, которые вручную аннотируются на 6 уровнях репликации от 0 (нет репликации) до 5 (полная репликация). Наш метод, PDF-Вложение, преобразует уровень репликации каждой пары изображение-реплика в функцию плотности вероятности (PDF) в качестве сигнала надзора. Интуиция заключается в том, что вероятность соседних уровней репликации должна быть непрерывной и плавной. Экспериментальные результаты показывают, что PDF-Вложение превосходит методы, основанные на протоколах, и выборы без PDF на тестовом наборе D-Rep. Более того, используя PDF-Вложение, мы обнаруживаем, что коэффициенты репликации известных моделей диффузии по сравнению с галереей с открытым исходным кодом колеблются от 10% до 20%.
В данной статье представлен Coffee-Gym, обширная среда обучения с подкреплением для обучения моделей, предоставляющих обратную связь по редактированию кода. Coffee-Gym включает два основных компонента: (1) Coffee, набор данных, содержащий следы редактирования кода людьми для программных вопросов и машинно-созданную обратную связь для редактирования ошибочного кода; (2) CoffeeEval, функция вознаграждения, которая точно отражает полезность обратной связи, оценивая производительность отредактированного кода в модульных тестах. С их помощью Coffee-Gym решает проблему отсутствия высококачественных наборов данных для обучения моделей обратной связи с подкреплением и предоставляет более точные вознаграждения, чем передовая модель вознаграждения (т.е. GPT-4). Применяя Coffee-Gym, мы получаем модели обратной связи, которые превосходят базовые показатели в улучшении редактирования кода моделей языковых моделей с открытым исходным кодом, делая их сопоставимыми с моделями языковых моделей с закрытым исходным кодом. Мы предоставляем набор данных и контрольную точку модели общественному доступу.
По мере усовершенствования крупных языковых моделей (LLM) их способность проявлять композиционную обобщаемость - способность комбинировать выученные навыки способами, не встреченными во время обучения - привлекла значительное внимание. Этот тип обобщения, особенно в сценариях вне обучающих данных, также представляет большой интерес в изучении безопасности и соответствия искусственного интеллекта. В недавнем исследовании была представлена оценка SKILL-MIX, где модели должны были составить короткий параграф, демонстрирующий использование определенного k-кортежа языковых навыков. В то время как маленькие модели испытывали трудности с составлением даже при k=3, более крупные модели, такие как GPT-4, показали хорошие результаты при k=5 и 6. В данной статье мы используем настройку, аналогичную SKILL-MIX, для оценки способности более маленьких моделей к изучению композиционной обобщаемости на примерах. Используя разнообразный набор языковых навыков - включая риторику, литературу, рассуждения, теорию разума и здравый смысл - GPT-4 использовалась для генерации текстов, демонстрирующих случайные подмножества k навыков. Последующее донастройка моделей с параметрами 7B и 13B на этих объединенных текстах навыков, для увеличения значений k, позволило выявить следующие результаты: (1) Обучение на комбинациях навыков k=2 и 3 приводит к заметным улучшениям в способности составлять тексты с навыками k=4 и 5, несмотря на то, что модели никогда не видели таких примеров во время обучения. (2) Когда категории навыков разделены на группы обучения и тестирования, модели значительно улучшаются в составлении текстов с навыками тестирования, несмотря на то, что видели только обучающие навыки во время донастройки, что иллюстрирует эффективность подхода к обучению даже с ранее не виденными навыками. Это исследование также показывает, что включение навыками насыщенного (возможно, синтетического) текста в обучение может значительно улучшить композиционные способности моделей.
Декомпозиция вопросов стала эффективной стратегией для стимулирования больших языковых моделей (LLM) при ответе на сложные вопросы. Однако существующие методы в основном сосредотачиваются на унимодальных языковых моделях, и способность к декомпозиции вопросов в мультимодальных больших языковых моделях (MLLM) еще не исследовалась. В данной работе исследуется визуальная декомпозиция вопросов в MLLM. В частности, мы представляем систематическую оценочную схему, включающую набор данных и несколько критериев оценки для оценки качества декомпозированных подвопросов, выявляя, что существующие MLLM испытывают трудности с производством высококачественных подвопросов. Для преодоления этого ограничения мы предлагаем конкретный набор данных для донастройки, DecoVQA+, для улучшения способности модели к декомпозиции вопросов. С целью обеспечения моделям возможности выполнять соответствующую селективную декомпозицию, мы предлагаем эффективный процесс донастройки. Процесс донастройки включает наш предложенный набор данных и целевую функцию обучения для селективной декомпозиции. Донастроенные MLLM демонстрируют значительное улучшение качества подвопросов и стратегии селективной декомпозиции вопросов. Кроме того, модели также достигают более высокой точности при селективной декомпозиции на базовых наборах данных VQA.
Техника аудиоводяных знаков внедряет сообщения в аудио и точно извлекает сообщения из аудиоводяных знаков. Традиционные методы разрабатывают алгоритмы на основе опыта экспертов для встраивания водяных знаков во временной домен или преобразованный домен сигналов. С развитием глубоких нейронных сетей появилось нейросетевое аудиоводяное водяное знакование. По сравнению с традиционными алгоритмами, нейросетевое аудиоводяное водяное знакование достигает лучшей устойчивости, учитывая различные атаки во время обучения. Однако текущие методы нейросетевого водяного знакования страдают от низкой емкости и неудовлетворительной незаметности. Кроме того, проблема локализации водяного знака, которая является чрезвычайно важной и еще более заметной в нейросетевом аудиоводяном водяном знаковании, не была должным образом изучена. В данной статье мы разрабатываем модель двойного встраивания водяного знака для эффективной локализации. Мы также рассматриваем влияние слоя атаки на обратимую нейронную сеть в процессе обучения устойчивости, улучшая модель для усиления как ее обоснованности, так и стабильности. Эксперименты показывают, что предложенная модель, IDEAW, способна выдерживать различные атаки с более высокой емкостью и более эффективной способностью локализации по сравнению с существующими методами.