Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье мы представляем OtterHD-8B — инновационную мультимодальную модель, развившуюся из Fuyu-8B, специально разработанную для интерпретации высококачественных визуальных данных с высокой степенью детализации. В отличие от традиционных моделей, ограниченных фиксированными размерами визуальных энкодеров, OtterHD-8B способна обрабатывать входные данные переменного размера, что обеспечивает её универсальность для различных задач вывода. Вместе с этой моделью мы представляем MagnifierBench — оценочную платформу, предназначенную для анализа способности моделей распознавать мелкие детали и пространственные отношения небольших объектов. Наш сравнительный анализ показывает, что, хотя современные ведущие модели демонстрируют слабые результаты на этом тесте, OtterHD-8B, особенно при непосредственной обработке высококачественных входных данных, значительно превосходит своих конкурентов. Результаты исследования подчеркивают структурные различия в обработке визуальной информации между различными моделями, а также влияние различий в разрешении предварительного обучения визуальных энкодеров на эффективность моделей в таких тестах. Наше исследование акцентирует важность гибкости и способности работы с высококачественными входными данными в крупных мультимодальных моделях, а также демонстрирует потенциал, заложенный в простоте архитектуры Fuyu для обработки сложных визуальных данных.
Мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие способности к выполнению инструкций в различных открытых задачах. Однако предыдущие методы в основном сосредоточены на улучшении мультимодальных возможностей. В данной работе мы представляем универсальную мультимодальную большую языковую модель mPLUG-Owl2, которая эффективно использует взаимодействие модальностей для повышения производительности как в текстовых, так и в мультимодальных задачах. mPLUG-Owl2 использует модульную архитектуру сети, где языковой декодер выступает в качестве универсального интерфейса для управления различными модальностями. В частности, mPLUG-Owl2 включает общие функциональные модули для облегчения взаимодействия модальностей и вводит модуль, адаптирующийся к модальностям, который сохраняет специфические особенности каждой модальности. Многочисленные эксперименты показывают, что mPLUG-Owl2 способна обобщать как текстовые, так и мультимодальные задачи и достигать передовых результатов с использованием единой универсальной модели. Примечательно, что mPLUG-Owl2 является первой моделью MLLM, демонстрирующей феномен взаимодействия модальностей как в чисто текстовых, так и в мультимодальных сценариях, прокладывая новаторский путь в разработке будущих мультимодальных базовых моделей.
Последние достижения в области больших языковых моделей (LLM) произвели революцию в принятии решений, разбивая сложные задачи на более управляемые языковые последовательности, называемые «мыслями». Эффективный дизайн мыслей должен учитывать три ключевых аспекта: производительность, эффективность и гибкость. Однако существующие подходы к мыслям могут демонстрировать максимум два из этих атрибутов. Чтобы преодолеть эти ограничения, мы представляем новый подход к генерации мыслей под названием «Всеобъемлющие Мысли» (XoT), который бросает вызов закону «треугольника Пенроуза» существующих парадигм мышления. XoT использует предобученное обучение с подкреплением и метод поиска по дереву Монте-Карло (MCTS) для интеграции внешних знаний предметной области в мысли, тем самым расширяя возможности LLM и позволяя им эффективно обобщать решения для ранее не встречавшихся задач. Благодаря использованию совместного фреймворка пересмотра мыслей MCTS-LLM, этот подход автономно создает высококачественные когнитивные отображения с минимальным взаимодействием с LLM. Кроме того, XoT позволяет LLM осуществлять неограниченное мышление, обеспечивая гибкие когнитивные отображения для задач с множеством решений.
Акустические свойства помещения являются результатом его геометрии, объектов внутри помещения и их конкретного расположения. Акустические свойства помещения могут быть охарактеризованы его импульсной характеристикой (RIR) между источником и точкой прослушивания или приблизительно выведены из записей естественных сигналов, присутствующих в помещении. Изменения в расположении объектов в помещении могут вызывать измеримые изменения в акустических свойствах помещения, что характеризуется RIR. Существующие наборы данных RIR либо не систематически изменяют положения объектов в среде, либо состоят только из смоделированных RIR. Мы представляем SoundCam — крупнейший на сегодняшний день публично доступный набор данных уникальных RIR из реальных помещений. Он включает 5000 10-канальных измерений импульсных характеристик помещений в реальных условиях и 2000 10-канальных записей музыки в трех различных помещениях, включая контролируемую акустическую лабораторию, жилую комнату в реальных условиях и конференц-зал, с разными людьми, находящимися в различных позициях в каждом помещении. Мы показываем, что эти измерения могут быть использованы для решения интересных задач, таких как обнаружение и идентификация людей, а также отслеживание их позиций.
По мере того как крупные языковые модели (LLMs) начинают выполнять всё больше реальных задач, становится важным возможность надёжно задавать и ограничивать поведение этих систем. Разработчики моделей могут устанавливать явные правила, такие как "не генерировать оскорбительный контент", но эти правила могут быть обойдены с помощью техник взлома (jailbreaking). Оценка того, насколько хорошо LLMs следуют правилам, заданным разработчиками, в условиях враждебных входных данных, обычно требует ручной проверки, что замедляет мониторинг и разработку методов. Чтобы решить эту проблему, мы предлагаем Rule-following Language Evaluation Scenarios (RuLES) — программный фреймворк для измерения способности LLMs следовать правилам. RuLES состоит из 15 простых текстовых сценариев, в которых модель получает инструкции соблюдать набор правил на естественном языке во время взаимодействия с пользователем. Каждый сценарий включает краткую программу оценки, чтобы определить, нарушила ли модель какие-либо правила в ходе диалога. В результате ручного исследования поведения моделей в наших сценариях мы выделили 6 категорий стратегий атак и собрали два набора тестовых случаев: один состоит из уникальных диалогов, полученных в ходе ручного тестирования, а другой систематически реализует стратегии из 6 категорий. На примере различных популярных проприетарных и открытых моделей, таких как GPT-4 и Llama 2, мы обнаружили, что все модели уязвимы к широкому спектру враждебных, вручную созданных пользовательских запросов, хотя GPT-4 показала наилучшие результаты. Кроме того, мы оценили открытые модели в условиях градиентных атак и обнаружили значительные уязвимости. Мы предлагаем RuLES как новую сложную задачу для исследований, направленных на изучение и защиту от как ручных, так и автоматических атак на LLMs.
Neural MMO 2.0 — это масштабная среда с множеством агентов для исследований в области обучения с подкреплением. Ключевой особенностью этой новой версии является гибкая система задач, которая позволяет пользователям определять широкий спектр целей и сигналов вознаграждения. Мы предлагаем исследователям обучить агентов, способных обобщать знания для задач, карт и противников, не встречавшихся во время обучения. Neural MMO включает процедурно генерируемые карты с 128 агентами в стандартной конфигурации и поддержку большего количества. Версия 2.0 представляет собой полную переработку предыдущей версии с трехкратным улучшением производительности и совместимостью с CleanRL. Мы выпускаем платформу как бесплатное и открытое программное обеспечение с подробной документацией, доступной на сайте neuralmmo.github.io, и активным сообществом в Discord. Для стимулирования начальных исследований на этой новой платформе мы одновременно проводим соревнование на конференции NeurIPS 2023.
Традиционное видео-маттирование выводит одну альфа-маску для всех объектов, присутствующих в кадре видео, что не позволяет различать отдельные объекты. Хотя сегментация видео по экземплярам обеспечивает временно-согласованные маски объектов, результаты оказываются неудовлетворительными для задач маттирования, особенно из-за применяемой бинаризации. Чтобы устранить этот недостаток, мы предлагаем Video Instance Matting (VIM) — метод оценки альфа-масок для каждого объекта в каждом кадре видеопоследовательности. Для решения этой сложной задачи мы представляем MSG-VIM, нейронную сеть для видео-маттирования по экземплярам с использованием последовательностей масок, как новую базовую модель для VIM. MSG-VIM использует комбинацию аугментаций масок, чтобы сделать предсказания устойчивыми к неточным и несогласованным маскам. Она включает временное руководство по маскам и временное руководство по признакам для улучшения временной согласованности предсказаний альфа-масок. Кроме того, мы создаем новый эталонный набор данных для VIM, называемый VIM50, который включает 50 видеоклипов с несколькими человеческими объектами на переднем плане. Для оценки производительности на задаче VIM мы вводим подходящую метрику, называемую Video Instance-aware Matting Quality (VIMQ). Наша предложенная модель MSG-VIM устанавливает сильный базовый уровень на эталоне VIM50 и значительно превосходит существующие методы. Проект доступен в открытом доступе по адресу https://github.com/SHI-Labs/VIM.
По мере того как крупные языковые модели становятся все более распространенными, их потенциально вредные или неуместные ответы вызывают обеспокоенность. В данной статье представлен уникальный набор данных, содержащий адверсарные примеры в форме вопросов, который мы называем AttaQ, разработанный для провоцирования таких вредных или неуместных ответов. Мы оцениваем эффективность нашего набора данных, анализируя уязвимости различных моделей при его использовании. Кроме того, мы предлагаем новый автоматизированный подход для выявления и обозначения уязвимых семантических областей — областей входных данных, для которых модель с высокой вероятностью генерирует вредоносные ответы. Это достигается с помощью специализированных методов кластеризации, учитывающих как семантическое сходство входных атак, так и степень вредоносности ответов модели. Автоматическое выявление уязвимых семантических областей улучшает оценку слабых мест модели, способствуя целенаправленному улучшению ее механизмов безопасности и общей надежности.
Самообучение представлений в значительной степени зависит от аугментации данных для задания инвариантностей, закодированных в представлениях. Предыдущие исследования показали, что применение разнообразных аугментаций данных критически важно для производительности на последующих задачах, однако методы аугментации остаются недостаточно изученными. В данной работе мы предлагаем новое семейство локальных преобразований на основе гауссовских случайных полей для генерации аугментаций изображений в задачах самообучения представлений. Эти преобразования обобщают хорошо известные аффинные и цветовые преобразования (сдвиг, поворот, изменение цвета и т.д.) и значительно расширяют пространство аугментаций, позволяя значениям параметров преобразований варьироваться от пикселя к пикселю. Параметры рассматриваются как непрерывные функции пространственных координат и моделируются как независимые гауссовские случайные поля. Эмпирические результаты демонстрируют эффективность новых преобразований для самообучения представлений. В частности, мы достигаем улучшения точности top-1 на 1,7% по сравнению с базовым подходом на задаче классификации ImageNet и улучшения на 3,6% на задаче классификации out-of-distribution на наборе данных iNaturalist. Однако из-за гибкости новых преобразований обученные представления чувствительны к гиперпараметрам. В то время как умеренные преобразования улучшают представления, мы наблюдаем, что сильные преобразования могут разрушать структуру изображения, что указывает на важность баланса между разнообразием и силой аугментаций для улучшения обобщающей способности обученных представлений.
Формальная верификация может гарантировать корректность критически важного системного программного обеспечения, однако высокая сложность доказательств долгое время препятствовала её широкому внедрению. В последнее время крупные языковые модели (LLM) продемонстрировали успехи в анализе и синтезе кода. В данной статье мы представляем комбинацию LLM и статического анализа для синтеза инвариантов, утверждений и других структур доказательств в рамках системы формальной верификации на основе Rust под названием Verus. В условиях few-shot LLM демонстрируют впечатляющие логические способности в генерации постусловий и инвариантов циклов, особенно при анализе коротких фрагментов кода. Однако LLM не способны сохранять и распространять контекстную информацию, что является сильной стороной традиционного статического анализа. На основе этих наблюдений мы разработали прототип, использующий модель GPT-4 от OpenAI. Наш прототип разбивает задачу верификации на несколько более мелких, итеративно запрашивает GPT-4 и объединяет её вывод с лёгким статическим анализом. Мы оценили прототип с участием разработчика в цикле автоматизации на 20 программах, манипулирующих векторами. Результаты показывают, что он значительно сокращает усилия человека при написании базового кода доказательств.