Ежедневно отобранные исследовательские статьи по ИИ с переводами
Благодаря предварительному обучению на больших объемах данных, модель Segment Anything Model (SAM) продемонстрировала себя как мощный и управляемый подсказками фреймворк, революционизирующий подходы к сегментации. Несмотря на универсальность, адаптация SAM для конкретных визуальных концепций без ручного ввода подсказок остается малоизученной, например, автоматическая сегментация вашего домашнего питомца на различных изображениях. В данной статье мы предлагаем подход к персонализации SAM без необходимости обучения, названный PerSAM. Имея только одно изображение с эталонной маской, PerSAM сначала локализует целевую концепцию с помощью приоритета местоположения, а затем сегментирует её на других изображениях или видео с использованием трех техник: целеориентированного внимания, семантических подсказок и каскадного пост-уточнения. Таким образом, мы эффективно адаптируем SAM для частного использования без какого-либо обучения. Для дальнейшего устранения неоднозначности масок мы представляем эффективный вариант одношаговой тонкой настройки, PerSAM-F. Замораживая всю модель SAM, мы вводим два обучаемых параметра для масок на разных масштабах, обучая всего 2 параметра за 10 секунд для улучшения производительности. Чтобы продемонстрировать эффективность нашего подхода, мы создали новый набор данных для сегментации, PerSeg, для персонализированной оценки, и протестировали наши методы на сегментации объектов в видео с конкурентоспособными результатами. Кроме того, наш подход также может улучшить DreamBooth для персонализации Stable Diffusion в задаче генерации изображений из текста, устраняя фоновые помехи для лучшего изучения внешнего вида целевого объекта. Код доступен по адресу https://github.com/ZrrSkywalker/Personalize-SAM.
Настройка выходных данных крупных языковых моделей, таких как ChatGPT, под конкретные потребности пользователей остается сложной задачей, несмотря на их впечатляющее качество генерации. В данной работе мы предлагаем трехэтапный процесс генерации, состоящий из генератора, инструктора и редактора, чтобы повысить степень кастомизации создаваемых результатов. Генератор создает начальный вывод, пользовательский инструктор формирует указания для редактирования, а редактор генерирует переработанный результат, соответствующий предпочтениям пользователя. Крупная языковая модель, работающая только в режиме вывода (ChatGPT), выступает в роли как генератора, так и редактора, в то время как меньшая модель выполняет функцию пользовательского инструктора, направляя процесс генерации в соответствии с потребностями пользователя. Инструктор обучается с использованием обучения с подкреплением, управляемого редактором, где обратная связь от крупномасштабной модели редактора используется для оптимизации генерации инструкций. Экспериментальные результаты на двух наборах данных для абстрактного суммирования демонстрируют эффективность нашего подхода в создании результатов, которые лучше соответствуют ожиданиям пользователей.
Мы представляем Shap-E, условную генеративную модель для создания 3D-объектов. В отличие от недавних работ по генеративным моделям для 3D, которые производят единое выходное представление, Shap-E напрямую генерирует параметры неявных функций, которые могут быть визуализированы как текстурированные сетки и нейронные поля излучения. Мы обучаем Shap-E в два этапа: сначала мы обучаем кодировщик, который детерминированно отображает 3D-объекты в параметры неявной функции; затем мы обучаем условную диффузионную модель на выходах этого кодировщика. При обучении на большом наборе данных, содержащем пары 3D-объектов и текстов, наши модели способны генерировать сложные и разнообразные 3D-объекты за считанные секунды. По сравнению с Point-E, явной генеративной моделью для облаков точек, Shap-E сходится быстрее и достигает сопоставимого или лучшего качества образцов, несмотря на моделирование более высокоразмерного пространства выходных данных с множественными представлениями. Мы публикуем веса модели, код для вывода и примеры на https://github.com/openai/shap-e.
Современные агенты с ИИ-ассистентами, такие как ChatGPT, в основном полагаются на тонкую настройку с учителем (SFT) с использованием аннотаций, созданных человеком, и обучение с подкреплением на основе обратной связи от человека (RLHF) для согласования выходных данных крупных языковых моделей (LLM) с человеческими намерениями, обеспечивая их полезность, этичность и надежность. Однако такая зависимость может существенно ограничивать истинный потенциал ИИ-ассистентов из-за высокой стоимости получения человеческого надзора и связанных с этим проблем качества, надежности, разнообразия, самосогласованности и нежелательных предубеждений. Для решения этих задач мы предлагаем новый подход под названием SELF-ALIGN, который сочетает принципно-ориентированное рассуждение и генеративные возможности LLM для самонастройки ИИ-агентов с минимальным участием человека. Наш подход включает четыре этапа: во-первых, мы используем LLM для генерации синтетических запросов и метод, ориентированный на темы, для увеличения разнообразия запросов; во-вторых, мы используем небольшой набор принципов, написанных человеком, которым должны следовать модели ИИ, и направляем LLM через обучение в контексте на примерах (применения принципов) для создания полезных, этичных и надежных ответов на запросы пользователей; в-третьих, мы тонко настраиваем исходную LLM с использованием высококачественных самонастроенных ответов, чтобы итоговая модель могла генерировать желаемые ответы на каждый запрос напрямую, без необходимости в наборе принципов и примерах; и, наконец, мы предлагаем этап уточнения для решения проблем излишне кратких или косвенных ответов. Применив SELF-ALIGN к базовой языковой модели LLaMA-65b, мы разработали ИИ-ассистента под названием Dromedary. С использованием менее 300 строк человеческих аннотаций (включая < 200 начальных запросов, 16 общих принципов и 5 примеров для обучения в контексте), Dromedary значительно превосходит производительность нескольких современных ИИ-систем, включая Text-Davinci-003 и Alpaca, на эталонных наборах данных в различных условиях.