Ежедневно отобранные исследовательские статьи по ИИ с переводами
Пост-тренировочная квантизация является ведущим методом решения проблем, связанных с памятью, в выводе LLM, но, к сожалению, она страдает от значительного снижения производительности при точности ниже 4 бит. Альтернативный подход заключается в обучении сжатых моделей напрямую при низкой разрядности (например, бинарные или тернарные модели). Однако производительность, динамика обучения и тенденции масштабирования таких моделей пока не до конца поняты. Для решения этой проблемы мы обучаем и открыто выпускаем набор моделей Spectra LLM, состоящий из 54 языковых моделей с числом параметров от 99 млн до 3,9 млрд, обученных на 300 млрд токенов. Spectra включает FloatLM, пост-тренировочно квантованные QuantLM (3, 4, 6 и 8 бит), а также тернарные LLM (TriLM) - нашу улучшенную архитектуру для тернарного языкового моделирования, которая значительно превосходит ранее предложенные тернарные модели данного размера (в битах), соответствуя моделям половинной точности при масштабировании. Например, TriLM 3,9 млрд (побитово) меньше, чем модель половинной точности FloatLM 830 млн, но соответствует модели половинной точности FloatLM 3,9 млрд в задачах здравого смысла и знаниевых бенчмарках. Однако TriLM 3,9 млрд также ядовит и стереотипен, как и FloatLM 3,9 млрд, модель в шесть раз большего размера. Кроме того, TriLM 3,9 млрд отстает от FloatLM по перплексии на валидационных разбиениях и веб-корпусах, но показывает лучшие результаты на менее шумных наборах данных, таких как Lambada и PennTreeBank. Для улучшения понимания моделей с низкой разрядностью мы выпускаем более 500 промежуточных контрольных точек набора Spectra по ссылке https://github.com/NolanoOrg/SpectraSuite.
Мы представляем GoldFinch, гибридную модель последовательности с использованием линейного внимания/трансформера, которая использует новую технику для эффективной генерации высококомпрессионного и многократно используемого KV-кэша за линейное время и пространство относительно длины последовательности. GoldFinch ставит наш новый трансформер GOLD поверх улучшенной версии архитектуры Finch (RWKV-6). Мы обучаем до 1.5 млрд классовых моделей параметров архитектур Finch, Llama и GoldFinch и обнаруживаем драматически улучшенную производительность модели по сравнению с Finch и Llama. Наши экономии размера кэша увеличиваются линейно с количеством слоев модели, варьируя от 756 до 2550 раз меньше, чем у традиционного кэша трансформера для обычных размеров, обеспечивая вывод крайне больших длин контекста даже на ограниченном оборудовании. Хотя авторегрессионная генерация имеет временную сложность O(n) на токен из-за внимания, предварительное вычисление всего начального состояния кэша для представленного контекста стоит только O(1) времени на токен из-за использования рекуррентной нейронной сети (RNN) для генерации этого кэша. Мы выпускаем наши обученные веса и код обучения под лицензией Apache 2.0 для использования сообществом.
Агенты LLM продемонстрировали выдающуюся производительность в различных приложениях, в основном благодаря их продвинутым возможностям в рассуждениях, использовании внешних знаний и инструментов, вызове API и выполнении действий для взаимодействия с окружающей средой. Текущие агенты обычно используют модуль памяти или механизм извлечения с увеличением поиска (RAG), извлекая прошлые знания и экземпляры с похожими вложениями из баз знаний для информирования планирования и выполнения задач. Однако зависимость от непроверенных баз знаний вызывает значительные опасения относительно их безопасности и надежности. Для выявления таких уязвимостей мы предлагаем новый подход к командной работе AgentPoison, первую атаку с тыловым доступом, нацеленную на общие и основанные на RAG агенты LLM путем отравления их долговременной памяти или базы знаний RAG. В частности, мы формируем процесс генерации триггера как ограниченную оптимизацию для оптимизации триггеров с тыловым доступом путем сопоставления вызванных экземпляров с уникальным пространством вложений, чтобы гарантировать, что при наличии оптимизированного триггера с тыловым доступом в инструкции пользователя злонамеренные демонстрации извлекаются из отравленной памяти или базы знаний с высокой вероятностью. Тем временем добросовестные инструкции без триггера по-прежнему будут поддерживать нормальную производительность. В отличие от обычных атак с тыловым доступом, AgentPoison не требует дополнительного обучения модели или настройки, и оптимизированный триггер с тыловым доступом обладает превосходной передачей, согласованностью в контексте и скрытностью. Обширные эксперименты демонстрируют эффективность AgentPoison в атаке на три типа агентов LLM в реальном мире: автономный агент на основе RAG, агент для ответов на вопросы с интенсивным использованием знаний и агент здравоохранения EHRAgent. На каждом агенте AgentPoison достигает средней успешной атаки более 80% с минимальным воздействием на добросовестную производительность (менее 1%) при уровне отравления менее 0,1%.
Многомодельные модели языка большого масштаба (MLLM) показали многообещающие достижения в области общего понимания визуальной и языковой информации. Однако представление многомодальной информации с использованием MLLM остается в значительной степени не исследованным. В данной работе мы представляем новую структуру, E5-V, разработанную для адаптации MLLM с целью достижения универсальных многомодальных вложений. Наши результаты подчеркивают значительный потенциал MLLM в представлении многомодальных входных данных по сравнению с предыдущими подходами. Используя MLLM с подсказками, E5-V эффективно преодолевает разрыв между модальностями различных типов входных данных, демонстрируя высокую производительность в многомодальных вложениях даже без донастройки. Мы предлагаем подход к обучению с использованием одной модальности для E5-V, где модель обучается исключительно на парах текстов. Этот метод демонстрирует значительное улучшение по сравнению с традиционным многомодальным обучением на парах изображение-текст, сокращая затраты на обучение примерно на 95%. Кроме того, этот подход устраняет необходимость в дорогостоящем сборе данных для многомодального обучения. Обширные эксперименты по четырем типам задач демонстрируют эффективность E5-V. Как универсальная многомодальная модель, E5-V не только достигает, но часто превосходит современные достижения в каждой задаче, несмотря на то, что обучена на одной модальности.
Продвижение крупных базовых моделей требует широкопокрывающих, недорогих и нулевых контаминированных бенчмарков. Несмотря на постоянное изучение оценок языковых моделей, обширные исследования оценки Больших Мультимодальных Моделей (LMMs) остаются ограниченными. В данной работе мы представляем LMMS-EVAL, унифицированную и стандартизированную мультимодальную бенчмарк-систему с более чем 50 задачами и более чем 10 моделями для содействия прозрачным и воспроизводимым оценкам. Хотя LMMS-EVAL обеспечивает всестороннее покрытие, мы обнаружили, что ему все еще не хватает для достижения низкой стоимости и нулевой контаминации. Для решения этой оценочной трилеммы мы дополнительно представляем LMMS-EVAL LITE, обрезанный набор инструментов для оценки, который акцентирует как покрытие, так и эффективность. Кроме того, мы представляем Multimodal LIVEBENCH, который использует постоянно обновляемые новости и онлайн-форумы для оценки способностей моделей к обобщению в реальных условиях, предлагая подход к оценке низкой стоимости и нулевой контаминации. В заключение, наша работа подчеркивает важность учета оценочной трилеммы и предоставляет практические решения для нахождения компромиссов при оценке больших мультимодальных моделей, что открывает путь к более эффективному и надежному бенчмаркингу LMMs. Мы публикуем наш код и поддерживаем таблицу лидеров LIVEBENCH по адресам https://github.com/EvolvingLMMs-Lab/lmms-eval и https://huggingface.co/spaces/lmms-lab/LiveBench.
Поскольку большие языковые модели (Large Language Models, LLMs) достигают значительного прогресса в понимании и генерации языка, их эффективность обучения стала критической проблемой. Традиционно LLM обучаются предсказывать следующий токен в последовательности. Несмотря на успех обучения на уровне токенов, это страдает от значительных вычислительных затрат из-за необходимости обработки большого количества токенов. Для устранения этой проблемы в данной статье предлагается обучение на уровне патчей для LLM, которое сокращает длину последовательности, сжимая несколько токенов в один патч. Во время обучения на уровне патчей мы подаем языковой модели более короткие последовательности патчей и обучаем ее предсказывать следующий патч, обрабатывая большую часть обучающих данных при значительно сниженных вычислительных затратах. Затем модель продолжает обучение на уровне токенов на оставшихся обучающих данных для соответствия режиму вывода. Эксперименты на различных моделях (от 370 млн до 2,7 млрд параметров) показывают, что обучение на уровне патчей может снизить общие вычислительные затраты в 0,5 раза, не ухудшая производительность модели по сравнению с обучением на уровне токенов. Исходный код: https://github.com/shaochenze/PatchTrain.
Современные модели синтеза текста в видео демонстрируют последовательную, фотореалистичную генерацию сложных видеороликов по текстовому описанию. Однако большинство существующих моделей лишены детализированного контроля над движением камеры, что критично для последующих приложений, связанных с созданием контента, визуальными эффектами и 3D-видением. Недавно были представлены новые методы, демонстрирующие способность генерировать видеоролики с управляемыми позами камеры. Эти техники используют предварительно обученные модели диффузии на основе U-Net, которые явно разделяют пространственную и временную генерацию. Тем не менее, ни один из существующих подходов не обеспечивает управление камерой для новых моделей диффузии видео на основе трансформеров, которые обрабатывают пространственную и временную информацию совместно. Здесь мы предлагаем обуздать видео-трансформеры для управления 3D-камерой с использованием механизма условий, подобного ControlNet, который включает пространственные и временные вложения камеры на основе координат Плюккера. Подход демонстрирует передовые результаты в контролируемой генерации видео после донастройки на наборе данных RealEstate10K. На наш взгляд, наша работа первой обеспечивает управление камерой для моделей диффузии видео на основе трансформеров.
Современные достижения позволили достичь реалистичной виртуальной примерки одежды (VTON) через локализованное восстановление пропавших участков одежды с использованием моделей латентного диффузии, значительно улучшая онлайн-покупательский опыт потребителей. Однако существующие технологии VTON не учитывают потребность торговцев в полном представлении одежды, включая гибкий контроль над одеждой, опциональные лица, позы и сцены. Для решения этой проблемы мы определяем задачу виртуального облачения (VD), сосредоточенную на создании свободно редактируемых изображений людей с фиксированной одеждой и опциональными условиями. Также мы разрабатываем комплексный индекс метрики сходства (CAMI) для оценки согласованности между созданными изображениями и эталонной одеждой. Затем мы предлагаем IMAGDressing-v1, который включает в себя сеть UNet для одежды, захватывающую семантические особенности из CLIP и текстурные особенности из VAE. Мы представляем гибридный модуль внимания, включающий замороженное самовнимание и обучаемое кросс-внимание, для интеграции особенностей одежды из сети UNet для одежды в замороженную сеть UNet для устранения шума, обеспечивая возможность пользователям контролировать различные сцены через текст. IMAGDressing-v1 может быть объединен с другими расширениями, такими как ControlNet и IP-Adapter, для улучшения разнообразия и управляемости созданных изображений. Кроме того, для решения недостатка данных, мы выпускаем интерактивный набор данных пар одежды (IGPair), содержащий более 300 000 пар одежды и одетых изображений, и устанавливаем стандартный конвейер для сборки данных. Обширные эксперименты демонстрируют, что наш IMAGDressing-v1 достигает передового уровня производительности синтеза изображений людей в различных контролируемых условиях. Код и модель будут доступны по адресу https://github.com/muzishen/IMAGDressing.
Большинство существующих моделей на основе LLM для понимания видео могут обрабатывать видео в течение нескольких минут. Однако они испытывают трудности с длинными видео из-за вызовов, таких как "шум и избыточность", а также ограничений "памяти и вычислений". В данной статье мы представляем методологию Goldfish, разработанную для понимания видео произвольной длины. Мы также представляем бенчмарк TVQA-long, специально созданный для оценки способностей моделей в понимании длинных видео с вопросами как визуального, так и текстового содержания. Goldfish решает эти проблемы с помощью эффективного механизма извлечения, который сначала собирает топ-k видеороликов, соответствующих инструкции, перед тем как предоставить желаемый ответ. Такое построение механизма извлечения позволяет Goldfish эффективно обрабатывать произвольно длинные видеоряды, облегчая его применение в контекстах, таких как фильмы или телесериалы. Для упрощения процесса извлечения мы разработали MiniGPT4-Video, который генерирует подробные описания для видеороликов. Для решения проблемы недостатка бенчмарков для оценки длинных видео мы адаптировали бенчмарк TVQA short video для анализа расширенного контента, агрегируя вопросы из целых эпизодов, тем самым переводя оценку с частичного на полное понимание эпизода. Мы достигли точности 41.78% на бенчмарке TVQA-long, превзойдя предыдущие методы на 14.94%. Наш MiniGPT4-Video также показывает выдающуюся производительность в понимании коротких видео, превосходя существующие передовые методы на 3.23%, 2.03%, 16.5% и 23.59% на бенчмарках MSVD, MSRVTT, TGIF и TVQA short video соответственно. Эти результаты указывают на значительные улучшения наших моделей в понимании как длинных, так и коротких видео. Наши модели и код были опубликованы на общественном доступе по адресу https://vision-cair.github.io/Goldfish_website/
Сложное рассуждение - впечатляющая способность, проявляемая крупными языковыми моделями (LLM). Большинство LLM умело применяют дедуктивное мышление, такое как цепочка логических рассуждений или итеративное использование инструментов для пошагового решения сложных задач. В данной статье мы надеемся сосредоточиться на оценке и обучении LLM проведению индуктивного рассуждения, то есть LLM должны уметь делать выводы о скрытых правилах, наблюдая примеры или последовательные преобразования. Однако сбор крупномасштабных и разнообразных данных, созданных людьми для индукции, представляет определенные трудности. Мы фокусируемся на синтезе данных в области кода и предлагаем задачу Case2Code, используя выразительность и корректность программ. Конкретно, мы собираем разнообразный набор исполняемых программ, синтезируем преобразования ввода-вывода для каждой программы и заставляем LLM делать выводы о скрытых реализациях кода на основе синтетических случаев ввода-вывода. Сначала мы оцениваем представительные LLM на синтезированной задаче Case2Code и демонстрируем, что индукция от случая к коду является сложной для LLM. Затем мы синтезируем крупномасштабные обучающие выборки Case2Code для обучения LLM проведению индуктивного рассуждения. Экспериментальные результаты показывают, что такое обучение индукции положительно сказывается не только на производительности Case2Code в распределении, но также улучшает различные навыки программирования обученных LLM, демонстрируя большой потенциал обучения индуктивному рассуждению с использованием синтетических данных.
В то время как большинство моделей генерации музыки используют текстовое или параметрическое условие (например, темп, гармония, музыкальный жанр), мы предлагаем условие модели языка на основе аудиовхода для системы генерации музыки. Наше исследование включает в себя две различные стратегии. Первая стратегия, называемая текстовой инверсией, использует предварительно обученную модель текст-музыка для отображения аудиовхода на соответствующие "псевдослова" в пространстве текстовых вложений. Для второй модели мы обучаем языковую модель музыки с нуля совместно с текстовым условием и квантованным извлекателем аудиофункций. На этапе вывода мы можем смешивать текстовое и аудиоусловие и балансировать их благодаря новому методу двойного классификатора для свободного руководства. Мы проводим автоматические и человеческие исследования, которые подтверждают наш подход. Мы выпустим код, и предоставим образцы музыки на https://musicgenstyle.github.io, чтобы продемонстрировать качество нашей модели.
Синтез нового вида из неограниченных коллекций изображений "на природе" остается значительной, но сложной задачей из-за фотометрических изменений и временных заслонителей, которые затрудняют точную реконструкцию сцены. Предыдущие методы решали эти проблемы, интегрируя встраивания признаков внешнего вида на изображении в нейронные поля радиации (NeRF). Хотя трехмерное гауссовское сплетение (3DGS) обеспечивает более быстрое обучение и реальном времени рендеринг, его адаптация для неограниченных коллекций изображений является нетривиальной из-за существенно отличающейся архитектуры. В данной статье мы представляем подход Splatfacto-W, который интегрирует нейронные цветовые признаки Гаусса и встраивания внешнего вида на изображении в процесс растеризации, а также модель фона на основе сферических гармоник для представления изменяющихся фотометрических внешностей и более точного изображения фонов. Наши ключевые вклады включают моделирование латентного вида, эффективную обработку временных объектов и точное моделирование фона. Splatfacto-W обеспечивает высококачественный синтез нового вида в реальном времени с улучшенной согласованностью сцены в "природных" сценариях. Наш метод улучшает отношение сигнал-шум на пике (PSNR) в среднем на 5,3 дБ по сравнению с 3DGS, увеличивает скорость обучения в 150 раз по сравнению с методами на основе NeRF и достигает аналогичной скорости рендеринга по сравнению с 3DGS. Дополнительные видеорезультаты и код, интегрированный в Nerfstudio, доступны по ссылке https://kevinxu02.github.io/splatfactow/.
Роботизированный захват в загроможденных средах остается значительным вызовом из-за заслонений и сложных расстановок объектов. Мы разработали ThinkGrasp, систему захвата на основе видения и языка, которая использует передовое контекстное рассуждение GPT-4o для стратегий захвата в условиях высокой загруженности. ThinkGrasp способен эффективно определять и генерировать позы захвата для целевых объектов, даже если они сильно закрыты или почти невидимы, используя целевой язык для направления удаления препятствующих объектов. Этот подход постепенно обнаруживает целевой объект и в конечном итоге захватывает его за несколько шагов с высокой успешностью. В как в симуляциях, так и в реальных экспериментах ThinkGrasp достиг высокой успешности и значительно превзошел методы новейших достижений в сильно загроможденных средах или с разнообразными невидимыми объектами, демонстрируя сильные обобщающие способности.
Графический пользовательский интерфейс (GUI) - это то, как пользователи взаимодействуют с мобильными приложениями. Чтобы гарантировать его правильную работу, инженеры по тестированию должны убедиться, что он функционирует как задумано, основываясь на тестовых требованиях, которые обычно записаны на естественном языке. Хотя широко применяемые методы ручного тестирования и основанные на скриптах эффективны, они требуют значительных усилий из-за огромного количества страниц GUI и быстрых итераций в современных мобильных приложениях. В данной статье представлен AUITestAgent - первый автоматический инструмент для тестирования GUI мобильных приложений, управляемый естественным языком, способный полностью автоматизировать весь процесс взаимодействия с GUI и верификации функций. Поскольку тестовые требования обычно содержат команды взаимодействия и проверочные оракулы, AUITestAgent может извлекать взаимодействия с GUI из тестовых требований с помощью динамически организованных агентов. Затем AUITestAgent использует стратегию многомерного извлечения данных для получения данных, относящихся к тестовым требованиям, из следа взаимодействия и выполняет верификацию. Эксперименты на настроенных бенчмарках показывают, что AUITestAgent превосходит существующие инструменты по качеству сгенерированных взаимодействий с GUI и достигает точности верификации на уровне 94%. Более того, полевое применение в Meituan показало практическую применимость AUITestAgent, обнаружив 4 новых функциональных ошибки в ходе 10 регрессионных тестов за два месяца.
Воспользовавшись замечательными достижениями в области крупных языковых моделей (LLM), существует нарастающая инициатива использования LLM для навигации роботов по инструкциям. Такая тенденция подчеркивает потенциал LLM в обобщении навигационного мышления и понимания разнообразного языка. Однако наблюдается значительное расхождение в производительности агента при интеграции LLM в задачи навигации на основе видео и языка (VLN) по сравнению с предыдущими специализированными моделями. Более того, в этих интеграциях часто недооценивается врожденная способность языка к интерпретации и облегчению коммуникации во взаимодействиях агента. В данной работе мы стремимся сократить разрыв между специализированными моделями для VLN и парадигмами навигации на основе LLM, сохраняя интерпретационные способности LLM в создании лингвистического навигационного мышления. Путем выравнивания визуального контента в замороженной LLM мы охватываем понимание визуальных наблюдений для LLM и используем способ интеграции LLM и сетей политики навигации для эффективного предсказания действий и навигационного мышления. Мы демонстрируем эффективность предложенных методов по использованию данных и устраняем разрыв между агентами на основе LM и современными специалистами по VLN.
Хотя LLM продемонстрировали впечатляющую производительность в различных областях и задачах, их проблемы безопасности стали все более серьезными. Машинное разучивание (MU) возникло как многообещающее решение для решения этих проблем путем устранения влияния нежелательных данных на целевую модель без ущерба ее полезности в других аспектах. MU обычно предполагает полный доступ к исходным данным обучения для сохранения полезности, что трудно достичь в процессе разучивания LLM. Существующие методы разучивания LLM часто предполагают доступ к данным, наиболее затронутым процессом разучивания нежелательных данных. Однако это предположение недооценивает взаимосвязь между различными возможностями LLM и игнорирует ограничения доступа к данным из-за различных проблем. Более того, эти методы разучивания LLM недостаточно учитывают тот факт, что запросы на разучивание в реальных сценариях постоянно возникают. Для преодоления этих проблем и достижения практического разучивания LLM мы предлагаем фреймворк O3. Фреймворк O3 включает детектор внедрения (OOD), чтобы измерить сходство между входными и данными разучивания, и ортогональный адаптер низкого ранга (LoRA) для непрерывного разучивания запрошенных данных. Детектор OOD обучается с использованием новой потери контрастной энтропии и использует механизм оценки слоев на основе локальных и глобальных данных. Ортогональный LoRA достигает разделения параметров среди непрерывных запросов на разучивание. Во время вывода наш фреймворк O3 может умно решить, загружать ли и в какой степени разучивающийся LoRA на основе прогнозов детектора OOD. Следует отметить, что эффективность O3 не зависит от сохраненных данных. Мы провели обширные эксперименты с O3 и передовыми методами разучивания LLM по трем задачам и семи наборам данных. Результаты показывают, что O3 последовательно достигает лучшего баланса между эффективностью разучивания и сохранением полезности, особенно при столкновении с непрерывными запросами на разучивание.
Языковые модели на основе чатов разрабатываются для оказания помощи, однако они не должны удовлетворять каждый запрос пользователя. В то время как большинство существующих работ в основном сосредотачиваются на отказе от "небезопасных" запросов, мы полагаем, что область невыполнения запросов следует расширить. Мы представляем обширную таксономию контекстного невыполнения, описывающую когда и как модели не должны удовлетворять запросы пользователей. Наша таксономия охватывает широкий спектр категорий, включая неполные, неподдерживаемые, неопределенные и гуманизирующие запросы (помимо небезопасных запросов). Для проверки возможностей невыполнения языковых моделей мы используем эту таксономию для разработки нового набора оценочных данных из 1000 запросов на невыполнение. Мы обнаружили, что большинство существующих моделей показывают значительно высокие уровни выполнения в определенных ранее недостаточно изученных категориях, причем модели, такие как GPT-4, неправильно удовлетворяют до 30% запросов. Для устранения этих пробелов мы исследуем различные стратегии обучения, используя синтетически созданный набор данных для обучения запросов и ожидаемых невыполненных ответов. Наши эксперименты показывают, что хотя прямое донастройка моделей, настроенных на инструкции, может привести как к избыточному отказу, так и к снижению общих возможностей, использование эффективных методов, таких как низкоранговые адаптеры, помогает найти баланс между соответствующим невыполнением запросов и другими возможностями.
Методы обнаружения грамматических ошибок (GED) сильно зависят от аннотированных человеком корпусов ошибок. Однако такие аннотации недоступны во многих языках с ограниченными ресурсами. В данной статье мы исследуем GED в этом контексте. Используя возможности нулевой переносимости между языками мультиязычных предварительно обученных языковых моделей, мы обучаем модель, используя данные из разнообразного набора языков, для создания синтетических ошибок на других языках. Эти синтетические корпуса ошибок затем используются для обучения модели GED. Конкретно, мы предлагаем двухэтапную процедуру дообучения, где модель GED сначала дообучается на мультиязычных синтетических данных из целевых языков, а затем на данных с аннотациями ошибок GED из исходных языков. Этот подход превосходит текущие передовые методы GED без аннотаций. Мы также анализируем ошибки, порожденные нашим методом и другими сильными базовыми моделями, обнаруживая, что наш подход порождает ошибки, которые более разнообразны и более похожи на человеческие ошибки.
Модели генерации видео (VGM) продемонстрировали способность синтезировать высококачественный контент. Важно понять их потенциал в создании небезопасного контента, такого как насильственные или пугающие видеоролики. В данной работе мы предоставляем всестороннее понимание генерации небезопасных видео. Сначала, чтобы подтвердить возможность этих моделей создавать небезопасные видео, мы выбрали наборы данных для генерации небезопасного контента, собранные с 4chan и Lexica, а также три передовые модели VGM с открытым исходным кодом. После удаления дубликатов и плохо сгенерированного контента, мы создали начальный набор из 2112 небезопасных видеороликов из оригинального пула из 5607 видео. Проведя кластерный и тематический анализ кодирования этих созданных видеороликов, мы выявили 5 категорий небезопасных видео: Искаженные/Странные, Пугающие, Порнографические, Насильственные/Кровавые и Политические. С согласия комитета по этике, мы затем привлекли онлайн-участников для пометки созданных видео. Основываясь на аннотациях, предоставленных 403 участниками, мы выявили 937 небезопасных видеороликов из начального набора. Используя помеченную информацию и соответствующие запросы, мы создали первый набор данных небезопасных видеороликов, созданных с помощью VGM. Затем мы изучаем возможные механизмы защиты для предотвращения создания небезопасных видеороликов. Существующие методы защиты в генерации изображений фокусируются на фильтрации либо входного запроса, либо результатов вывода. Мы предлагаем новый подход, называемый Защита Латентных Переменных (LVD), который работает внутри процесса внутренней выборки модели. LVD может достичь точности защиты 0.90, снизив время и вычислительные ресурсы в 10 раз при выборке большого количества небезопасных запросов.