Ежедневно отобранные исследовательские статьи по ИИ с переводами
Редактирование локальной области или конкретного объекта в 3D-сцене, представленной с помощью NeRF, является сложной задачей, главным образом из-за неявного характера представления сцены. Последовательное встраивание нового реалистичного объекта в сцену добавляет дополнительный уровень сложности. Мы представляем Blended-NeRF — надежный и гибкий фреймворк для редактирования конкретной области интереса в существующей NeRF-сцене на основе текстовых запросов или изображений, а также 3D-бокса области интереса (ROI). Наш метод использует предобученную языково-изобразительную модель для направления синтеза в соответствии с предоставленным пользователем текстовым запросом или изображением, а также 3D-модель MLP, инициализированную на существующей NeRF-сцене, для генерации объекта и его встраивания в указанную область исходной сцены. Мы позволяем выполнять локальное редактирование, локализуя 3D-бокс ROI во входной сцене, и бесшовно объединяем содержимое, синтезированное внутри ROI, с существующей сценой с использованием новой техники объемного смешивания. Для получения естественных и согласованных по виду результатов мы используем существующие и новые геометрические априорные данные, а также 3D-аугментации для повышения визуальной достоверности конечного результата. Мы тестируем наш фреймворк как качественно, так и количественно на различных реальных 3D-сценах и текстовых запросах, демонстрируя реалистичные и согласованные по множеству видов результаты с большей гибкостью и разнообразием по сравнению с базовыми методами. Наконец, мы показываем применимость нашего фреймворка для нескольких задач 3D-редактирования, включая добавление новых объектов в сцену, удаление/замену/изменение существующих объектов и преобразование текстур.
Успех систем распознавания лиц на основе глубокого обучения вызвал серьезные опасения относительно конфиденциальности из-за их способности обеспечивать несанкционированное отслеживание пользователей в цифровом мире. Существующие методы повышения конфиденциальности не способны генерировать реалистичные изображения, которые могли бы защитить личную информацию, не ухудшая при этом пользовательский опыт. Мы предлагаем новый двухэтапный подход для защиты конфиденциальности лица, который основан на поиске состязательных латентных кодов в низкоразмерном многообразии предварительно обученной генеративной модели. На первом этапе изображение лица инвертируется в латентное пространство, а генеративная модель дообучается для достижения точной реконструкции исходного изображения из его латентного кода. Этот этап обеспечивает хорошую инициализацию, способствуя генерации высококачественных лиц, похожих на заданную идентичность. Затем текстовые подсказки, заданные пользователем для макияжа, и регуляризация, сохраняющая идентичность, используются для поиска состязательных кодов в латентном пространстве. Многочисленные эксперименты показывают, что лица, сгенерированные нашим подходом, обладают более высокой способностью к переносу в условиях "черного ящика" с абсолютным приростом на 12,06% по сравнению с современным методом защиты конфиденциальности лица в задаче верификации лиц. Наконец, мы демонстрируем эффективность предложенного подхода для коммерческих систем распознавания лиц. Наш код доступен по адресу https://github.com/fahadshamshad/Clip2Protect.