Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Персонализация модели Segment Anything с помощью одного примера
Personalize Segment Anything Model with One Shot

May 4, 2023

Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li

Благодаря предварительному обучению на больших объемах данных, модель Segment Anything Model (SAM) продемонстрировала себя как мощный и управляемый подсказками фреймворк, революционизирующий подходы к сегментации. Несмотря на универсальность, адаптация SAM для конкретных визуальных концепций без ручного ввода подсказок остается малоизученной, например, автоматическая сегментация вашего домашнего питомца на различных изображениях. В данной статье мы предлагаем подход к персонализации SAM без необходимости обучения, названный PerSAM. Имея только одно изображение с эталонной маской, PerSAM сначала локализует целевую концепцию с помощью приоритета местоположения, а затем сегментирует её на других изображениях или видео с использованием трех техник: целеориентированного внимания, семантических подсказок и каскадного пост-уточнения. Таким образом, мы эффективно адаптируем SAM для частного использования без какого-либо обучения. Для дальнейшего устранения неоднозначности масок мы представляем эффективный вариант одношаговой тонкой настройки, PerSAM-F. Замораживая всю модель SAM, мы вводим два обучаемых параметра для масок на разных масштабах, обучая всего 2 параметра за 10 секунд для улучшения производительности. Чтобы продемонстрировать эффективность нашего подхода, мы создали новый набор данных для сегментации, PerSeg, для персонализированной оценки, и протестировали наши методы на сегментации объектов в видео с конкурентоспособными результатами. Кроме того, наш подход также может улучшить DreamBooth для персонализации Stable Diffusion в задаче генерации изображений из текста, устраняя фоновые помехи для лучшего изучения внешнего вида целевого объекта. Код доступен по адресу https://github.com/ZrrSkywalker/Personalize-SAM.

Инструктор редактирования, управляемый ChatGPT, для настройки абстрактного суммирования
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization

May 4, 2023

Wen Xiao, Yujia Xie, Giuseppe Carenini, Pengcheng He

Настройка выходных данных крупных языковых моделей, таких как ChatGPT, под конкретные потребности пользователей остается сложной задачей, несмотря на их впечатляющее качество генерации. В данной работе мы предлагаем трехэтапный процесс генерации, состоящий из генератора, инструктора и редактора, чтобы повысить степень кастомизации создаваемых результатов. Генератор создает начальный вывод, пользовательский инструктор формирует указания для редактирования, а редактор генерирует переработанный результат, соответствующий предпочтениям пользователя. Крупная языковая модель, работающая только в режиме вывода (ChatGPT), выступает в роли как генератора, так и редактора, в то время как меньшая модель выполняет функцию пользовательского инструктора, направляя процесс генерации в соответствии с потребностями пользователя. Инструктор обучается с использованием обучения с подкреплением, управляемого редактором, где обратная связь от крупномасштабной модели редактора используется для оптимизации генерации инструкций. Экспериментальные результаты на двух наборах данных для абстрактного суммирования демонстрируют эффективность нашего подхода в создании результатов, которые лучше соответствуют ожиданиям пользователей.

Shap-E: Генерация условных 3D неявных функций
Shap-E: Generating Conditional 3D Implicit Functions

May 3, 2023

Heewoo Jun, Alex Nichol

Мы представляем Shap-E, условную генеративную модель для создания 3D-объектов. В отличие от недавних работ по генеративным моделям для 3D, которые производят единое выходное представление, Shap-E напрямую генерирует параметры неявных функций, которые могут быть визуализированы как текстурированные сетки и нейронные поля излучения. Мы обучаем Shap-E в два этапа: сначала мы обучаем кодировщик, который детерминированно отображает 3D-объекты в параметры неявной функции; затем мы обучаем условную диффузионную модель на выходах этого кодировщика. При обучении на большом наборе данных, содержащем пары 3D-объектов и текстов, наши модели способны генерировать сложные и разнообразные 3D-объекты за считанные секунды. По сравнению с Point-E, явной генеративной моделью для облаков точек, Shap-E сходится быстрее и достигает сопоставимого или лучшего качества образцов, несмотря на моделирование более высокоразмерного пространства выходных данных с множественными представлениями. Мы публикуем веса модели, код для вывода и примеры на https://github.com/openai/shap-e.

Принципиально-ориентированное самонастраивание языковых моделей с нуля при минимальном участии человека
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

May 4, 2023

Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan

Современные агенты с ИИ-ассистентами, такие как ChatGPT, в основном полагаются на тонкую настройку с учителем (SFT) с использованием аннотаций, созданных человеком, и обучение с подкреплением на основе обратной связи от человека (RLHF) для согласования выходных данных крупных языковых моделей (LLM) с человеческими намерениями, обеспечивая их полезность, этичность и надежность. Однако такая зависимость может существенно ограничивать истинный потенциал ИИ-ассистентов из-за высокой стоимости получения человеческого надзора и связанных с этим проблем качества, надежности, разнообразия, самосогласованности и нежелательных предубеждений. Для решения этих задач мы предлагаем новый подход под названием SELF-ALIGN, который сочетает принципно-ориентированное рассуждение и генеративные возможности LLM для самонастройки ИИ-агентов с минимальным участием человека. Наш подход включает четыре этапа: во-первых, мы используем LLM для генерации синтетических запросов и метод, ориентированный на темы, для увеличения разнообразия запросов; во-вторых, мы используем небольшой набор принципов, написанных человеком, которым должны следовать модели ИИ, и направляем LLM через обучение в контексте на примерах (применения принципов) для создания полезных, этичных и надежных ответов на запросы пользователей; в-третьих, мы тонко настраиваем исходную LLM с использованием высококачественных самонастроенных ответов, чтобы итоговая модель могла генерировать желаемые ответы на каждый запрос напрямую, без необходимости в наборе принципов и примерах; и, наконец, мы предлагаем этап уточнения для решения проблем излишне кратких или косвенных ответов. Применив SELF-ALIGN к базовой языковой модели LLaMA-65b, мы разработали ИИ-ассистента под названием Dromedary. С использованием менее 300 строк человеческих аннотаций (включая < 200 начальных запросов, 16 общих принципов и 5 примеров для обучения в контексте), Dromedary значительно превосходит производительность нескольких современных ИИ-систем, включая Text-Davinci-003 и Alpaca, на эталонных наборах данных в различных условиях.

Принципиально-ориентированное самонастраивание языковых моделей с нуля при минимальном участии человека
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

May 4, 2023

Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan

Ежедневные статьи

Персонализация модели Segment Anything с помощью одного примера
Personalize Segment Anything Model with One Shot

Инструктор редактирования, управляемый ChatGPT, для настройки абстрактного суммирования
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization

Shap-E: Генерация условных 3D неявных функций
Shap-E: Generating Conditional 3D Implicit Functions

Принципиально-ориентированное самонастраивание языковых моделей с нуля при минимальном участии человека
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

Support

Support

Ежедневные статьи

Персонализация модели Segment Anything с помощью одного примера
Personalize Segment Anything Model with One Shot

Инструктор редактирования, управляемый ChatGPT, для настройки абстрактного суммирования
ChatGPT-steered Editing Instructor for Customization of Abstractive Summarization

Shap-E: Генерация условных 3D неявных функций
Shap-E: Generating Conditional 3D Implicit Functions

Принципиально-ориентированное самонастраивание языковых моделей с нуля при минимальном участии человека
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision