Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на быструю интеграцию возможностей видеоперцепции в Большие Мультимодальные Модели (BMM), основные механизмы, определяющие их понимание видео, остаются плохо понятыми. В результате многие проектные решения в этой области принимаются без должного обоснования или анализа. Высокая вычислительная стоимость обучения и оценки таких моделей, в сочетании с ограниченными открытыми исследованиями, затрудняет развитие видео-БММ. Для решения этой проблемы мы представляем комплексное исследование, которое помогает выявить, что эффективно определяет понимание видео в БММ. Мы начинаем с критического рассмотрения основных факторов, влияющих на высокие вычислительные требования, связанные с исследованиями видео-БММ, и обнаруживаем Согласованность Масштабирования, при которой проектные и обучающие решения, принятые на более маленьких моделях и наборах данных (до критического размера), эффективно переносятся на более крупные модели. Используя эти умозаключения, мы исследовали многие видеоспецифические аспекты видео-БММ, включая выборку видео, архитектуры, состав данных, графики обучения и многое другое. Например, мы продемонстрировали, что выборка кадров во время обучения с частотой кадров в секунду (fps) является значительно предпочтительнее равномерной выборки кадров и какие видеоэнкодеры лучше всего подходят для представления видео. Ориентируясь на эти результаты, мы представляем Apollo, современное семейство БММ, которые достигают превосходной производительности на различных размерах моделей. Наши модели могут эффективно воспринимать видео длительностью в час, причем Apollo-3B превосходит большинство существующих моделей 7B с впечатляющим показателем 55.1 на LongVideoBench. Apollo-7B является современным по сравнению с моделями 7B БММ с 70.9 на MLVU и 63.3 на Video-MME.
Понимание, навигация и исследование трехмерного физического реального мира давно являются центральным вызовом в развитии искусственного интеллекта. В данной работе мы делаем шаг в направлении этой цели, представляя GenEx, систему способную планировать сложное исследование мира с помощью воплощенного воображения, формирующего априорные представления о окружающей среде. GenEx создает целое трехмерное согласованное воображаемое окружение даже по одному RGB изображению, оживляя его через панорамные видеопотоки. Используя масштабируемые трехмерные данные мира, собранные из Unreal Engine, наша генеративная модель основана на физическом мире. Она охватывает непрерывную 360-градусную среду с минимальными усилиями, предлагая бескрайний ландшафт для исследования и взаимодействия искусственного интеллекта. GenEx достигает высококачественной генерации мира, устойчивой цикличности на длинных траекториях и демонстрирует сильные трехмерные возможности, такие как согласованность и активное трехмерное картографирование. Благодаря генеративному воображению мира, агенты, поддерживаемые GPT, способны выполнять сложные задачи воплощенного интеллекта, включая как бесцельное исследование, так и целенаправленную навигацию. Эти агенты используют предсказательные ожидания относительно невидимых частей физического мира для уточнения своих убеждений, симулируют различные результаты на основе потенциальных решений и принимают более обоснованные выборы. В итоге, мы демонстрируем, что GenEx предоставляет трансформационную платформу для продвижения воплощенного искусственного интеллекта в воображаемых пространствах и открывает потенциал для расширения этих возможностей на исследование реального мира.
Замечательный успех Large Language Models (LLMs) распространился на мультимодальную область, достигая выдающихся результатов в понимании и генерации изображений. Недавние усилия по разработке объединенных Multimodal Large Language Models (MLLMs), интегрирующих эти возможности, показали многообещающие результаты. Однако существующие подходы часто включают сложные конструкции в архитектуре модели или процессе обучения, что увеличивает сложность обучения модели и масштабирования. В данной статье мы предлагаем SynerGen-VL, простую, но мощную модель MLLM без энкодера, способную как к пониманию, так и к генерации изображений. Для решения выявленных проблем в существующих объединенных MLLM без энкодера мы вводим механизм складывания токенов и стратегию предварительного обучения с постепенным выравниванием на основе экспертов по видению, которые эффективно поддерживают понимание изображений высокого разрешения и снижают сложность обучения. После обучения на масштабных смешанных данных изображений и текста с объединенной целью предсказания следующего токена SynerGen-VL достигает или превосходит производительность существующих объединенных MLLM без энкодера с сравнимым или меньшим размером параметров и сокращает разрыв с моделями последнего поколения, специфичными для задач, что подчеркивает многообещающий путь к будущим объединенным MLLM. Наш код и модели будут опубликованы.
По мере развития искусственного интеллекта возрастает потребность в системах, способных выходить за рамки языковой помощи и двигаться в направлении интеллектуальных агентов, способных выполнять действия в реальном мире. Это развитие требует перехода от традиционных моделей больших языковых моделей (Large Language Models, LLM), которые отлично справляются с генерацией текстовых ответов, к моделям больших действий (Large Action Models, LAM), предназначенным для генерации и выполнения действий в динамических средах. Благодаря агентным системам LAM имеют потенциал преобразить искусственный интеллект с пассивного понимания языка к активному выполнению задач, что является значительным этапом на пути к искусственному общему интеллекту. В данной статье мы представляем комплексную методику разработки LAM, предлагая систематический подход к их созданию, начиная с зарождения и заканчивая внедрением. Мы начинаем с обзора LAM, выделяя их уникальные характеристики и разграничивая их от LLM. Используя агента на основе операционной системы Windows в качестве кейс-стади, мы предоставляем подробное пошаговое руководство по ключевым этапам разработки LAM, включая сбор данных, обучение модели, интеграцию с окружением, обоснование и оценку. Этот обобщенный рабочий процесс может служить основой для создания функциональных LAM в различных областях применения. Мы завершаем статью, выявляя текущие ограничения LAM и обсуждая направления для будущих исследований и промышленного внедрения, акцентируя внимание на вызовах и возможностях, которые лежат впереди для реализации полного потенциала LAM в реальных приложениях. Код для процесса сбора данных, использованный в данной статье, доступен публично по адресу: https://github.com/microsoft/UFO/tree/main/dataflow, и полная документация доступна по ссылке https://microsoft.github.io/UFO/dataflow/overview/.
Данный документ представляет BiMediX2, двуязычную (арабско-английскую) Био-Медицинскую Экспертную Большую Мультимодальную Модель (LMM) с единой архитектурой, объединяющую текстовые и визуальные модальности, обеспечивая продвинутое понимание изображений и медицинские приложения. BiMediX2 использует архитектуру Llama3.1 и интегрирует текстовые и визуальные возможности для обеспечения бесшовного взаимодействия как на английском, так и на арабском языках, поддерживая текстовые вводы и многоходовые разговоры, включающие медицинские изображения. Модель обучается на обширном двуязычном наборе данных в области здравоохранения, состоящем из 1,6 миллиона образцов разнообразных медицинских взаимодействий для текстовых и визуальных модальностей, смешанных на арабском и английском языках. Мы также предлагаем первый двуязычный бенчмарк медицинской LMM на основе GPT-4o под названием BiMed-MBench. BiMediX2 протестирован на задачах как на основе текста, так и на основе изображений, достигая современных результатов на нескольких медицинских бенчмарках. Он превосходит недавние современные модели в оценочных бенчмарках медицинских LLM. Наша модель также устанавливает новый стандарт в мультимодальных медицинских оценках с более чем 9% улучшением на английском и более чем 20% на арабском языке. Кроме того, он превосходит GPT-4 примерно на 9% в оценках фактической точности UPHILL и превосходит в различных задачах медицинского визуального вопросно-ответного, генерации отчетов и суммирования отчетов. Страница проекта, включая исходный код и обученную модель, доступна по адресу https://github.com/mbzuai-oryx/BiMediX2.
Визуальные модели диффузии достигают значительного прогресса, однако обычно обучаются на ограниченных разрешениях из-за отсутствия данных высокого разрешения и ограниченных вычислительных ресурсов, что снижает их способность генерировать изображения или видео высокого качества на более высоких разрешениях. Недавние усилия исследовали стратегии без настройки для проявления неиспользованного потенциала генерации изображений высокого разрешения предварительно обученными моделями. Однако эти методы все еще склонны к созданию визуального контента низкого качества с повторяющимися узорами. Основная проблема заключается в неизбежном увеличении высокочастотной информации, когда модель генерирует визуальный контент, превышающий разрешение обучения, что приводит к нежелательным повторяющимся узорам, происходящим от накопленных ошибок. Для решения этой проблемы мы предлагаем FreeScale, парадигму вывода без настройки для обеспечения генерации визуального контента высокого разрешения через слияние масштабов. Конкретно, FreeScale обрабатывает информацию с различных рецептивных масштабов, а затем объединяет ее, извлекая желаемые частотные компоненты. Обширные эксперименты подтверждают превосходство нашей парадигмы в расширении возможностей генерации визуального контента высокого разрешения как для моделей изображений, так и для видео. Значительно, по сравнению с предыдущим лучшим методом, FreeScale впервые открывает возможность генерации изображений разрешением 8k.
Мы исследуем применение остаточного векторного квантования (RVQ) для создания высококачественных данных в векторно-квантовых генеративных моделях. Эта техника квантования обеспечивает более высокую достоверность данных за счет использования более глубоких токенов. Однако увеличение количества токенов в генеративных моделях приводит к замедлению скорости вывода. В этой связи мы представляем ResGen, эффективную дискретную модель диффузии на основе RVQ, которая генерирует образцы высокого качества без ущерба скорости выборки. Наш ключевой идеей является прямое предсказание векторного вложения коллективных токенов, а не индивидуальных. Более того, мы демонстрируем, что наш метод маскирования токенов и множественного предсказания токенов может быть сформулирован в рамках принципиального вероятностного подхода с использованием дискретного процесса диффузии и вариационного вывода. Мы подтверждаем эффективность и обобщаемость предложенного метода на двух сложных задачах различных модальностей: условная генерация изображений на ImageNet 256x256 и синтез речи по тексту без обучения. Экспериментальные результаты показывают, что ResGen превосходит авторегрессионные аналоги в обеих задачах, обеспечивая превосходное качество работы без ущерба скорости выборки. Более того, по мере увеличения глубины RVQ наши генеративные модели демонстрируют улучшенную достоверность генерации или более быстрые скорости выборки по сравнению с моделями базового уровня того же размера. Страницу проекта можно найти по адресу https://resgen-genai.github.io
Генерация видео по тексту быстро развивается в последние годы, достигая замечательных результатов. Обычно обучение основано на данных, где видео и подписи сцен сопоставлены, что играет ключевую роль в улучшении производительности генерации. Однако текущие подписи к видео часто страдают от недостаточных деталей, галлюцинаций и неточного изображения движения, что влияет на достоверность и последовательность создаваемых видео. В данной работе мы предлагаем новую структурированную каркасную модель с учетом экземпляров, названную InstanceCap, чтобы впервые достичь описания видео на уровне экземпляра и с мелкой детализацией. Основываясь на этой схеме, мы разрабатываем кластер вспомогательных моделей для преобразования исходного видео в экземпляры для улучшения достоверности экземпляра. Экземпляры видео затем используются для уточнения плотных подсказок в структурированные фразы, достигая кратких, но точных описаний. Кроме того, для обучения создан набор данных InstanceVid на 22 тыс. экземпляров, и предложена улучшенная конвейерная система, адаптированная к структуре InstanceCap, для вывода результатов. Экспериментальные результаты показывают, что наша предложенная модель InstanceCap значительно превосходит предыдущие модели, обеспечивая высокую достоверность между подписями и видео, при этом уменьшая галлюцинации.
Данный доклад представляет метод без настройки как для вставки объекта, так и для генерации, управляемой субъектом. Задача заключается в составлении объекта, учитывая несколько видов, в сцену, заданную либо изображением, либо текстом. Существующие методы испытывают затруднения в полном выполнении сложных целей задачи: (i) бесшовное включение объекта в сцену с фотореалистичной позой и освещением, и (ii) сохранение идентичности объекта. Мы предполагаем, что достижение этих целей требует обширного надзора, но ручное сбор достаточных данных просто слишком дорог. Ключевое наблюдение в данном докладе заключается в том, что многие серийно производимые объекты повторяются в нескольких изображениях больших неразмеченных наборов данных, в различных сценах, позах и условиях освещения. Мы используем это наблюдение для создания обширного надзора путем извлечения наборов разнообразных видов одного и того же объекта. Этот мощный парный набор данных позволяет нам обучить простую архитектуру диффузии текста в изображение для сопоставления описаний объекта и сцены с составленным изображением. Мы сравниваем наш метод, ObjectMate, с передовыми методами для вставки объекта и генерации, управляемой субъектом, с использованием одного или нескольких ссылочных объектов. Эмпирически ObjectMate достигает превосходного сохранения идентичности и более фотореалистичной композиции. В отличие от многих других методов с множественными ссылками, ObjectMate не требует медленной настройки во время тестирования.
Хотя исправленные потоки (ReFlows) с дистилляцией предлагают многообещающий способ быстрого сэмплирования, их быстрое инвертирование преобразует изображения обратно в структурированный шум для восстановления, и проблема последующего редактирования остается нерешенной. В данной статье представлен FireFlow, простой, но эффективный нулевой метод, который наследует поразительные возможности моделей на основе ReFlow (таких как FLUX) в генерации, расширяя их возможности до точного инвертирования и редактирования в 8 шагах. Во-первых, мы демонстрируем, что тщательно разработанный численный солвер является ключевым для инвертирования ReFlow, обеспечивая точное инвертирование и восстановление с точностью солвера второго порядка, сохраняя при этом практическую эффективность метода Эйлера первого порядка. Этот солвер достигает ускорения времени выполнения в 3 раза по сравнению с передовыми техниками инвертирования и редактирования ReFlow, обеспечивая при этом более низкие ошибки реконструкции и превосходные результаты редактирования в режиме обучения. Код доступен по адресу https://github.com/HolmesShuan/FireFlow{this URL}.
Долгие контекстные LLM позволили реализовать множество прикладных приложений, но также привнесли значительные вызовы, связанные с вычислительной и памятью эффективностью. Для решения этих проблем были разработаны оптимизации для вывода долгого контекста, сосредоточенные вокруг кэша KV. Однако существующие бенчмарки часто оцениваются в рамках одного запроса, игнорируя полный жизненный цикл кэша KV в реальном использовании. Этот недочет особенно критичен, поскольку повторное использование кэша KV стало широко применяемым в фреймворках вывода LLM, таких как vLLM и SGLang, а также у поставщиков LLM, включая OpenAI, Microsoft, Google и Anthropic. Для устранения этого пробела мы представляем SCBench (SharedContextBench), комплексный бенчмарк для оценки методов долгого контекста с точки зрения кэша KV: 1) генерация кэша KV, 2) сжатие кэша KV, 3) извлечение кэша KV, 4) загрузка кэша KV. В частности, SCBench использует тестовые примеры с общим контекстом, охватывающие 12 задач с двумя режимами общего контекста, охватывающие четыре категории возможностей долгого контекста: извлечение строк, семантическое извлечение, глобальная информация и многозадачность. С его помощью мы предоставляем обширный анализ методов долгого контекста с учетом кэша KV в восемь категорий решений, включая воротные линейные RNN, гибриды Mamba-Attention и эффективные методы, такие как разреженное внимание, отбрасывание кэша KV, квантование, извлечение, загрузка и сжатие запросов. Оценка проводится на 8 долгих контекстных LLM. Наши результаты показывают, что методы с использованием памяти меньше, чем O(n), страдают в сценариях с многократными обращениями, в то время как разреженное кодирование с памятью O(n) и предварительным заполнением с памятью меньше, чем O(n^2), демонстрируют устойчивую производительность. Динамическая разреженность обеспечивает более выразительные кэши KV, чем статические шаблоны, а разреженность на уровне слоя в гибридных архитектурах снижает использование памяти при высокой производительности. Кроме того, мы выявляем проблемы смещения распределения внимания в сценариях долгого поколения. https://aka.ms/SCBench.
Генерация видео по тексту улучшает процесс создания контента, но требует значительных вычислительных ресурсов: вычислительные затраты Диффузионных Трансформеров (DiTs) масштабируются квадратично от количества пикселей. Это делает генерацию видео длительностью в минуту чрезвычайно дорогостоящей, ограничивая большинство существующих моделей генерацией видео длительностью всего 10-20 секунд. Мы предлагаем рамочную модель Генерации видео по тексту с линейной сложностью (LinGen), затраты которой масштабируются линейно от количества пикселей. Впервые LinGen позволяет генерировать видео высокого разрешения длительностью в минуту на одном графическом процессоре без ущерба качеству. Она заменяет вычислительно доминирующий и квадратично сложный блок самовнимания на линейно сложный блок под названием MATE, который состоит из MA-ветви и TE-ветви. MA-ветвь нацелена на короткие и длинные корреляции, объединяя двунаправленный блок Mamba2 с нашим методом перестановки токенов, Rotary Major Scan, и нашими токенами обзора, разработанными для генерации длинных видео. TE-ветвь представляет собой новый блок внимания TEmporal Swin, который фокусируется на временных корреляциях между смежными токенами и токенами среднего диапазона. Блок MATE решает проблему сохранения смежности Mamba и значительно улучшает последовательность сгенерированных видео. Экспериментальные результаты показывают, что LinGen превосходит DiT (с победным процентом 75,6%) по качеству видео с сокращением числа операций с плавающей запятой (задержки) до 15 раз (11,5 раз). Кроме того, как автоматические метрики, так и оценка людей демонстрируют, что наш LinGen-4B обеспечивает сопоставимое качество видео с передовыми моделями (с победным процентом 50,5%, 52,1%, 49,1% по отношению к Gen-3, LumaLabs и Kling соответственно). Это открывает путь к созданию фильмов длительностью в час и генерации видео в реальном времени. Мы предоставляем результаты генерации видео продолжительностью 68 секунд и больше примеров на нашем веб-сайте проекта: https://lineargen.github.io/.
Модели потока с исправлением стали доминирующим подходом в генерации изображений, продемонстрировав впечатляющие возможности в синтезе изображений высокого качества. Однако, несмотря на их эффективность в визуальной генерации, модели потока с исправлением часто сталкиваются с проблемами в разделении редактирования изображений. Это ограничение мешает выполнять точные, атрибутивно-специфичные модификации без влияния на несвязанные аспекты изображения. В данной работе мы представляем FluxSpace, метод редактирования изображений, не зависящий от домена, использующий пространство представлений с возможностью управления семантикой изображений, созданных трансформаторами потока с исправлением, такими как Flux. Используя представления, изученные блоками трансформаторов в моделях потока с исправлением, мы предлагаем набор семантически интерпретируемых представлений, позволяющих широкий спектр задач по редактированию изображений, от тонкой настройки изображений до художественного творчества. Эта работа предлагает масштабируемый и эффективный подход к редактированию изображений, а также его возможности разделения.
Мультимодальная генерация музыки направлена на создание музыки из разнообразных модальностей ввода, включая текст, видео и изображения. Существующие методы используют общее пространство вложений для мультимодального объединения. Несмотря на их эффективность в других модальностях, их применение в мультимодальной генерации музыки сталкивается с проблемами недостатка данных, слабой кросс-модальной выравниваемости и ограниченной управляемости. В данной статье эти проблемы решаются с использованием явных мостов между текстом и музыкой для мультимодального выравнивания. Мы представляем новый метод под названием Мост Визуалов и Музыки (VMB). Конкретно, Модель Описания Мультимодальной Музыки преобразует визуальные входы в подробные текстовые описания для предоставления текстового моста; модуль Двухтрекового Поиска Музыки, который объединяет широкие и целевые стратегии поиска для предоставления моста музыки и обеспечения контроля пользователем. Наконец, мы разрабатываем рамочную модель Явно Условной Генерации Музыки для создания музыки на основе двух мостов. Мы проводим эксперименты по задачам преобразования видео в музыку, изображений в музыку, текста в музыку и управляемой генерации музыки, а также эксперименты по управляемости. Результаты показывают, что VMB значительно улучшает качество музыки, модальность и выравнивание настройки по сравнению с предыдущими методами. VMB устанавливает новый стандарт для интерпретируемой и выразительной мультимодальной генерации музыки с применением в различных мультимедийных областях. Демонстрации и код доступны на https://github.com/wbs2788/VMB.
Эффективность крупных языковых моделей (LLM) тесно связана с конструкцией подсказок, что делает оптимизацию подсказок необходимой для улучшения их производительности в широком спектре задач. Многие существующие подходы к автоматизации создания подсказок полагаются исключительно на текстовую обратную связь, улучшая подсказки исключительно на основе ошибок вывода, выявленных крупными, вычислительно затратными LLM. К сожалению, более маленькие модели испытывают трудности в генерации обратной связи высокого качества, что приводит к полной зависимости от суждения крупных LLM. Более того, эти методы не используют более прямую и более детализированную информацию, такую как градиенты, из-за того, что они работают исключительно в текстовом пространстве. В этой связи мы представляем GReaTer, новую технику оптимизации подсказок, которая непосредственно включает информацию о градиентах по потерям задачи. Используя градиенты потерь задачи, GReaTer позволяет самооптимизацию подсказок для легких языковых моделей с открытым исходным кодом без необходимости дорогих закрытых LLM. Это позволяет проводить высокопроизводительную оптимизацию подсказок без зависимости от массивных LLM, сокращая разрыв между более маленькими моделями и сложным рассуждением, часто необходимым для улучшения подсказок. Обширные оценки по различным задачам рассуждения, включая BBH, GSM8k и FOLIO, показывают, что GReaTer последовательно превосходит предыдущие передовые методы оптимизации подсказок, даже те, которые полагаются на мощные LLM. Кроме того, подсказки, оптимизированные с помощью GReaTer, часто обладают лучшей переносимостью и, в некоторых случаях, повышают производительность задач до уровня, сравнимого или превосходящего результаты, достигнутые более крупными языковыми моделями, подчеркивая эффективность оптимизации подсказок, направляемой градиентами по рассуждениям. Код GReaTer доступен по адресу https://github.com/psunlpgroup/GreaTer.
Мы представляем SmolTulu-1.7b-Instruct, упомянутую в данном отчете как SmolTulu-DPO-1130, модель языка, настроенную на инструкции, которая адаптирует пост-тренировочный конвейер Tulu 3 от AllenAI для улучшения базовой модели SmolLM2-1.7B от Huggingface. Через комплексный эмпирический анализ с использованием модели с 135 миллионами параметров мы демонстрируем, что взаимосвязь между скоростью обучения и размером пакета значительно влияет на производительность модели в зависимости от задачи. Наши результаты показывают четкое разделение: задачи рассуждения, такие как ARC и GSM8K, получают выгоду от более высоких отношений скорости обучения к размеру пакета, в то время как задачи распознавания образцов, такие как HellaSwag и IFEval, показывают оптимальную производительность с более низкими отношениями. Эти умозаключения послужили основой для разработки SmolTulu, которая достигает передовой производительности среди моделей с количеством параметров менее 2 миллиардов в задаче следования инструкциям, набирая 67.7% на IFEval (Delta11%), и математического рассуждения с 51.6% на GSM8K (Delta3.4%), альтернативная версия достигает 57.1% на ARC (Delta5.4%). Мы предоставляем нашу модель, рецепты обучения и исследования абляции для содействия дальнейшим исследованиям в области эффективного выравнивания модели, демонстрируя, что тщательная адаптация динамики оптимизации может помочь сократить разрыв в возможностях между малыми и большими языковыми моделями.
Хотя крупные модели видео-языкового-действия (VLA), предобученные на обширных робототехнических наборах данных, предлагают многообещающие общие политики для обучения роботов, они все еще испытывают трудности с пространственно-временной динамикой в интерактивной робототехнике, что делает их менее эффективными в решении сложных задач, таких как манипуляции. В данной работе мы представляем метод визуального подсказывания следа, простой, но эффективный подход для повышения пространственно-временного осознания моделей VLA для прогнозирования действий путем визуального кодирования траекторий состояний-действий. Мы разработали новую модель TraceVLA, донастраивая OpenVLA на нашем собственном собранном наборе данных из 150 тыс. траекторий манипуляций роботов с использованием визуального подсказывания следа. Оценки TraceVLA на 137 конфигурациях в SimplerEnv и 4 задачах на физическом роботе WidowX демонстрируют передовую производительность, превосходя OpenVLA на 10% в SimplerEnv и в 3,5 раза в задачах на реальном роботе, проявляя устойчивую обобщаемость на различные воплощения и сценарии. Для дальнейшей проверки эффективности и общности нашего метода мы представляем компактную модель VLA на основе 4B Phi-3-Vision, предобученную на Open-X-Embodiment и донастроенную на нашем наборе данных, которая не уступает базовой модели OpenVLA на 7B, при этом значительно повышая эффективность вывода.
Глубокие нейронные сети (DNN) обладают значительным потенциалом для улучшения диагностики рака молочной железы в медицинском изображении. Однако эти модели чрезвычайно уязвимы к атакам злоумышленников - небольшим, незаметным изменениям, способным ввести в заблуждение классификаторы, что вызывает серьезные опасения относительно их надежности и безопасности. Традиционные атаки основаны на фиксированных нормах возмущений, не соответствующих человеческому восприятию. В отличие от этого, атаки на основе диффузии требуют предварительно обученных моделей, что требует значительного объема данных в случае их отсутствия, ограничивая практическое использование в сценариях с ограниченным объемом данных. Однако в медицинском изображении это часто невозможно из-за ограниченной доступности наборов данных. Основываясь на последних достижениях в области обучаемых подсказок, мы предлагаем метод атаки Prompt2Perturb (P2P), способный генерировать содержательные примеры атак, управляемые текстовыми инструкциями. Во время фазы обучения подсказок наш подход использует обучаемые подсказки внутри текстового кодировщика для создания тонких, но существенных возмущений, оставаясь незаметными, в то время направляя модель к целевым результатам. В отличие от текущих подходов к обучению подсказок, наш P2P выделяется тем, что напрямую обновляет текстовые вложения, избегая необходимости повторного обучения моделей диффузии. Кроме того, мы используем результат, показывающий, что оптимизация только начальных обратных шагов диффузии повышает эффективность, обеспечивая включение тонкого шума в созданные атакующие примеры, сохраняя качество ультразвукового изображения без введения заметных артефактов. Мы показываем, что наш метод превосходит современные техники атаки на трех наборах данных ультразвукового изображения молочной железы по FID и LPIPS. Более того, сгенерированные изображения как по внешнему виду, так и по эффективности превосходят существующие атаки. Наш код будет общедоступен по ссылке https://github.com/yasamin-med/P2P.