Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавно крупные языковые модели (Large Language Models, LLMs) достигли значительных успехов, однако они уязвимы к определенным атакам на обход защиты, которые приводят к созданию неприемлемого или вредоносного контента. Ручное тестирование на проникновение требует обнаружения атакующих подсказок, вызывающих такие атаки на обход защиты, например, путем добавления суффикса к данной инструкции, что является неэффективным и затратным по времени. С другой стороны, автоматическое создание атакующих подсказок часто приводит к семантически бессмысленным атакам, которые легко обнаруживаются фильтрами на основе перплексии, могут потребовать информацию о градиенте от целевой LLM или плохо масштабируются из-за затратных по времени дискретных оптимизационных процессов в пространстве токенов. В данной статье мы представляем новый метод, который использует другую LLM, называемую AdvPrompter, для генерации читаемых человеком атакующих подсказок за секунды, что в 800 раз быстрее, чем существующие подходы на основе оптимизации. Мы обучаем AdvPrompter с использованием нового алгоритма, который не требует доступа к градиентам TargetLLM. Этот процесс чередует два шага: (1) генерация высококачественных целевых атакующих суффиксов путем оптимизации прогнозов AdvPrompter и (2) низкоранговая донастройка AdvPrompter сгенерированными атакующими суффиксами. Обученный AdvPrompter генерирует суффиксы, скрывающие входную инструкцию, не изменяя ее смысла, таким образом, TargetLLM соблазняется дать вредоносный ответ. Экспериментальные результаты на популярных открытых TargetLLMs показывают передовые результаты на наборе данных AdvBench, которые также переносятся на закрытые черные ящики API LLM. Кроме того, мы демонстрируем, что путем донастройки на синтетическом наборе данных, сгенерированном AdvPrompter, LLM могут быть сделаны более устойчивыми к атакам на обход защиты, сохраняя при этом производительность, т.е. высокие показатели MMLU.
Цель данной статьи - создание материалов для 3D-сеток на основе текстовых описаний. В отличие от существующих методов, синтезирующих текстурные карты, мы предлагаем создание графов материалов по сегментам в качестве представления внешнего вида, что обеспечивает высококачественный рендеринг и значительную гибкость при редактировании. Вместо использования обширных сопоставленных данных, таких как 3D-сетки с графами материалов и соответствующими текстовыми описаниями, для обучения генеративной модели графов материалов, мы предлагаем использовать предварительно обученную 2D модель диффузии в качестве связующего звена между текстом и графами материалов. Конкретно, наш подход декомпозирует форму на набор сегментов и разрабатывает модель диффузии, управляемую сегментами, для синтеза 2D изображений, выровненных с частями сетки. На основе сгенерированных изображений мы инициализируем параметры графов материалов и настраиваем их через модуль дифференцируемого рендеринга для создания материалов в соответствии с текстовым описанием. Обширные эксперименты демонстрируют превосходную производительность нашей структуры в фотореализме, разрешении и возможности редактирования по сравнению с существующими методами. Страница проекта: https://zhanghe3z.github.io/MaPa/