Ежедневно отобранные исследовательские статьи по ИИ с переводами
Выдающиеся мультимодальные возможности и интерактивный опыт GPT-4o подчеркивают его критическую роль в практических приложениях, однако ему не хватает высокопроизводительного аналога с открытым исходным кодом. В данной статье мы представляем Baichuan-Omni, первую открытую 7B Мультимодальную Большую Языковую Модель (MLLM), способную одновременно обрабатывать и анализировать модальности изображений, видео, аудио и текста, обеспечивая продвинутый мультимодальный интерактивный опыт и высокую производительность. Мы предлагаем эффективную схему мультимодального обучения, начиная с 7B модели и проходя через два этапа мультимодальной согласованности и многозадачную донастройку по аудио, изображениям, видео и тексту. Такой подход дает языковой модели возможность эффективно обрабатывать визуальные и аудио данные. Продемонстрировав высокую производительность на различных омни-модальных и мультимодальных бенчмарках, мы стремимся, чтобы наш вклад послужил конкурентоспособным базовым уровнем для сообщества с открытым исходным кодом в продвижении понимания мультимодальности и взаимодействия в реальном времени.
Модели диффузии, такие как Устойчивая Диффузия, сделали значительные успехи в области визуальной генерации, однако их парадигма остается фундаментально отличной от авторегрессионных языковых моделей, что затрудняет разработку объединенных моделей языка и зрения. Недавние усилия, такие как LlamaGen, предприняли попытку авторегрессионной генерации изображений с использованием дискретных токенов VQVAE, однако большое количество токенов делает этот подход неэффективным и медленным. В данной работе мы представляем Meissonic, который поднимает моделирование изображений с маскировкой без авторегрессии (MIM) текст-в-изображение на уровень, сопоставимый с передовыми моделями диффузии, такими как SDXL. Путем внедрения обширного набора архитектурных инноваций, продвинутых стратегий позиционного кодирования и оптимизированных условий выборки, Meissonic существенно улучшает производительность и эффективность MIM. Кроме того, мы используем высококачественные обучающие данные, интегрируем микро-условия, основанные на оценках предпочтений человека, и применяем слои сжатия признаков для дальнейшего улучшения достоверности и разрешения изображений. Наша модель не только соответствует, но часто превосходит производительность существующих моделей, таких как SDXL, в генерации высококачественных изображений высокого разрешения. Обширные эксперименты подтверждают возможности Meissonic, демонстрируя его потенциал как нового стандарта в синтезе текста в изображение. Мы выпускаем контрольную точку модели, способную создавать изображения разрешением 1024 на 1024 пикселя.
Расширенная генерация с использованием поиска (RAG) является ключевым средством эффективного улучшения больших языковых моделей (LLM) во многих задачах, основанных на знаниях. Однако существующие методы RAG испытывают затруднения с задачами, требующими интенсивного использования знаний, поскольку полезная информация для этих задач плохо структурирована. Эта характеристика затрудняет точную идентификацию ключевой информации существующими методами RAG и выполнение глобального рассуждения с таким шумным расширением. В данной статье, вдохновленные когнитивными теориями, согласно которым люди преобразуют сырую информацию в различные структурированные знания при решении задач, требующих интенсивного использования знаний, мы предлагаем новую концепцию, StructRAG, которая способна определить оптимальный тип структуры для конкретной задачи, перестроить исходные документы в этот структурированный формат и делать выводы на основе полученной структуры. Обширные эксперименты по различным задачам, требующим интенсивного использования знаний, показывают, что StructRAG достигает передовых результатов, особенно выделяясь в сложных сценариях, демонстрируя свой потенциал как эффективное решение для улучшения LLM в сложных прикладных задачах реального мира.
Большие модели языкового видения (VLM) объединяют в себе большие языковые модели с визионными кодировщиками, демонстрируя потенциал в различных задачах. Однако они часто показывают недостаточную производительность в задачах из-за разрывов в домене между предварительным обучением и настройкой под конкретную задачу. Мы представляем VITask, новую структуру, которая улучшает адаптивность к задаче у VLM путем интеграции моделей, специфичных для задачи (TSM). VITask использует три ключевые стратегии: примерное подсказывание (EP), выравнивание распределения ответов (RDA) и контрастная настройка ответов (CRT) для улучшения задачной производительности VLM путем корректировки их распределений ответов. EP позволяет признакам TSM направлять VLM, в то время как RDA позволяет VLM адаптироваться без TSM во время вывода, обучаясь на моделях, подсказанных примерами. CRT дополнительно оптимизирует ранжирование правильных пар изображение-ответ, тем самым снижая риск генерации нежелательных ответов. Эксперименты на 12 наборах данных по медицинской диагностике по 9 модальностям изображений показывают, что VITask превосходит как обычные VLM, настроенные по инструкции, так и TSM, демонстрируя его способность эффективно интегрировать дополняющие признаки обеих моделей. Кроме того, VITask предлагает практические преимущества, такие как гибкая интеграция TSM и устойчивость к неполным инструкциям, делая его универсальным и эффективным решением для настройки VLM под конкретную задачу. Наш код доступен по адресу https://github.com/baiyang4/VITask.
Эффективный выбор данных критичен для ускорения предварительного обучения больших языковых моделей (БЯМ). Хотя были предложены различные методы для улучшения эффективности данных, ограниченное исследование затрагивало врожденные конфликты между этими подходами для достижения оптимального выбора данных для предварительного обучения БЯМ. Для решения этой проблемы мы предлагаем новый механизм коллаборативного выбора данных с множеством агентов. В этой структуре каждый метод выбора данных выступает в качестве независимого агента, и консоль агента разработана для динамической интеграции информации от всех агентов на протяжении процесса обучения БЯМ. Мы проводим обширные эмпирические исследования для оценки нашей многоагентной структуры. Экспериментальные результаты показывают, что наш подход значительно улучшает эффективность данных, ускоряет сходимость в обучении БЯМ и достигает среднего прироста производительности на 10,5% по сравнению с передовыми методами на нескольких языковых модельных бенчмарках.
Понимание того, как признаки эволюционируют через слои в глубоких нейронных сетях, является фундаментальным вызовом в механистической интерпретации, особенно из-за полисемантики и наложения признаков. В то время как Разреженные автокодировщики (SAE) использовались для извлечения интерпретируемых признаков из отдельных слоев, выравнивание этих признаков через слои оставалось открытой проблемой. В данной статье мы представляем SAE Match, новый метод без использования данных для выравнивания признаков SAE через различные слои нейронной сети. Наш подход включает сопоставление признаков путем минимизации среднеквадратичной ошибки между сложенными параметрами SAE, техника, которая включает пороги активации в веса энкодера и декодера для учета различий в масштабах признаков. Через обширные эксперименты на языковой модели Gemma 2 мы демонстрируем, что наш метод эффективно улавливает эволюцию признаков через слои, улучшая качество сопоставления признаков. Мы также показываем, что признаки сохраняются на протяжении нескольких слоев и что наш подход может приближать скрытые состояния через слои. Наша работа продвигает понимание динамики признаков в нейронных сетях и предоставляет новый инструмент для исследований механистической интерпретируемости.
Недавние достижения в моделях генерации продемонстрировали выдающиеся возможности в создании фантастического контента. Однако большинство из них обучаются на собственных высококачественных данных, и некоторые модели удерживают свои параметры, предоставляя только доступные программные интерфейсы приложений (API), ограничивая тем самым их преимущества для последующих задач. Для изучения возможности обучения модели генерации текста в изображение, сравнимой с передовыми моделями, используя общедоступные ресурсы, мы представляем EvolveDirector. Этот фреймворк взаимодействует с передовыми моделями через их общедоступные API для получения пар данных текст-изображение для обучения базовой модели. Наши эксперименты с обширными данными показывают, что модель, обученная на сгенерированных данных передовой модели, способна приблизиться к ее возможностям в генерации. Однако для этого требуется обширный объем выборки в 10 миллионов и более. Это влечет значительные расходы по времени, вычислительным ресурсам и особенно затратам, связанным с вызовом платных API. Для решения этой проблемы мы используем предварительно обученные крупные модели видение-язык (VLM), чтобы направлять эволюцию базовой модели. VLM непрерывно оценивает базовую модель во время обучения и динамически обновляет и уточняет набор данных обучения с помощью операций дискриминации, расширения, удаления и мутации. Экспериментальные результаты показывают, что такая парадигма значительно сокращает необходимый объем данных. Более того, при приближении к нескольким передовым моделям EvolveDirector может выбирать лучшие образцы, сгенерированные ими, для изучения мощных и сбалансированных способностей. Финальная обученная модель Edgen продемонстрировала превосходство над этими передовыми моделями. Код и веса модели доступны по ссылке https://github.com/showlab/EvolveDirector.
Большие языковые модели (LLM), такие как GPT-4, PaLM и LLaMA, показали значительные улучшения в различных задачах рассуждения. Однако более маленькие модели, такие как Llama-3-8B и DeepSeekMath-Base, все еще испытывают трудности с сложным математическим рассуждением, поскольку они не могут эффективно идентифицировать и исправлять ошибки рассуждения. Недавние методы на основе рефлексии стремятся решить эти проблемы, позволяя саморефлексии и самокоррекции, однако они все еще сталкиваются с проблемами в независимом обнаружении ошибок в своих шагах рассуждения. Для преодоления этих ограничений мы предлагаем SuperCorrect, новую двухэтапную структуру, которая использует большую учительскую модель для надзора и коррекции как процессов рассуждения, так и рефлексии более маленькой студенческой модели. На первом этапе мы извлекаем иерархические высокоуровневые и детальные шаблоны мыслей из учительской модели, чтобы направлять студенческую модель на выявление более детализированных мыслей рассуждения. На втором этапе мы вводим кросс-модельную коллаборативную оптимизацию прямых предпочтений (DPO), чтобы улучшить способности к самокоррекции студенческой модели, следуя за следами коррекции учителя во время обучения. Этот подход к кросс-модельной DPO обучает студенческую модель эффективно находить и исправлять ошибочные мысли с помощью ошибочных идей, полученных от учителя, преодолевая узкие места своих мыслей и приобретая новые навыки и знания для решения сложных проблем. Обширные эксперименты последовательно демонстрируют наше превосходство над предыдущими методами. Заметно, что наша модель SuperCorrect-7B значительно превосходит мощную модель DeepSeekMath-7B на 7,8%/5,3% и Qwen2.5-Math-7B на 15,1%/6,3% на бенчмарках MATH/GSM8K, достигая нового результата SOTA среди всех моделей 7B. Код: https://github.com/YangLing0818/SuperCorrect-llm
Большие языковые модели (LLM) демонстрируют впечатляющие возможности в различных областях, включая ролевые игры, творческое письмо, математическое рассуждение и кодирование. Несмотря на эти достижения, LLM по-прежнему сталкиваются с проблемами контроля длины, часто не соблюдая конкретные ограничения на длину из-за своих операций на уровне токенов и недостаточного обучения на данных с жесткими ограничениями на длину. Мы выявляем эту проблему как обусловленную отсутствием позиционного осознания и предлагаем новые подходы - Позиционный Подсказывающий Идентификатор (PositionID Prompting) и Позиционная Идентификация Тонкой Настройки (PositionID Fine-Tuning) - для ее решения. Эти методы улучшают способность модели непрерывно контролировать и управлять длиной текста во время генерации. Кроме того, мы представляем Позиционный Подсказывающий Идентификатор Копирования и Вставки (PositionID CP Prompting), чтобы позволить LLM точно выполнять операции копирования и вставки. Более того, мы разрабатываем два показателя для оценки контроля длины и способностей копирования и вставки. Наши эксперименты показывают, что наши методы значительно улучшают соблюдение моделью ограничений на длину и точность копирования и вставки без ущерба для качества ответа.
Генерация высококачественных 3D-объектов по текстовым описаниям остается ключевой задачей в исследованиях по компьютерной графике и компьютерному зрению. Из-за недостатка 3D-данных современные подходы используют предварительно обученные 2D диффузионные априори, оптимизированные с помощью метода выборочного дистилляционного сэмплирования (SDS). Несмотря на прогресс, создание сложных 3D-сцен с несколькими объектами или сложными взаимодействиями остается сложной задачей. Для решения этой проблемы недавние методы включают направляющие рамки или макеты. Однако эти методы композиционного моделирования, основанные на макетах, часто испытывают трудности в обеспечении детального контроля, поскольку они обычно грубы и не выразительны. Для преодоления этих препятствий мы представляем новый подход SDS, названный Семантическое Дистилляционное Сэмплирование Оценок (SemanticSDS), разработанный для эффективного улучшения выразительности и точности композиционной генерации 3D по тексту. Наш подход интегрирует новые семантические вложения, которые обеспечивают согласованность между различными видами рендеринга и четкое различие между различными объектами и их частями. Эти вложения преобразуются в семантическую карту, которая направляет процесс SDS для конкретной области, обеспечивая точную оптимизацию и композиционную генерацию. Используя явное семантическое руководство, наш метод разблокирует композиционные возможности существующих предварительно обученных диффузионных моделей, тем самым достигая превосходного качества в генерации 3D-контента, особенно для сложных объектов и сцен. Экспериментальные результаты демонстрируют, что наша структура SemanticSDS эффективна для генерации современного сложного 3D-контента. Код: https://github.com/YangLing0818/SemanticSDS-3D
Вывод с моделями языка на основе трансформеров начинается с этапа обработки подсказки. На этом этапе модель генерирует первый токен вывода и сохраняет кэш KV, необходимый для будущих шагов генерации. Этот этап обработки подсказки может быть вычислительно затратным, занимая 10 секунд или более для моделей с миллиардом параметров на периферийных устройствах при увеличении длины подсказки или размеров пакетов. Это снижает пользовательский опыт за счет введения значительной задержки в выходные данные модели. Для сокращения времени, затраченного на создание первого вывода (известного как "время до первого токена", или TTFT) предварительно обученной модели, мы предлагаем новый метод, называемый Прогнозирование KV. В нашем методе используется небольшая вспомогательная модель для обработки подсказки и создания приближения кэша KV, используемого базовой моделью. Этот приближенный кэш KV затем используется с базовой моделью для авторегрессивной генерации без необходимости повторного запроса к вспомогательной модели. Мы демонстрируем, что наш метод обеспечивает оптимальный компромисс между эффективностью и точностью по сравнению с базовыми показателями. На наборе данных TriviaQA мы показываем относительное улучшение точности в диапазоне от 15% до 50% при различных бюджетах TTFT FLOPs. Мы также демонстрируем улучшение точности до 30% при заведомо заданных бюджетах TTFT FLOPs для завершения кода на Python в HumanEval. Кроме того, мы проводим бенчмаркинг моделей на процессоре Apple M2 Pro и демонстрируем, что наше улучшение в FLOPs приводит к ускорению TTFT на аппаратном обеспечении. Мы выкладываем наш код по адресу https://github.com/apple/corenet/tree/main/projects/kv-prediction.
Дискретная диффузия достигла передовых результатов, превосходя или приближаясь к авторегрессионным моделям на стандартных бенчмарках. В данной работе мы представляем Дискретную Диффузию с Плановым Денойзингом (DDPD), новую концепцию, которая разделяет процесс генерации на две модели: планировщик и денойзер. На этапе вывода планировщик выбирает позиции для следующего денойзинга, определяя наиболее поврежденные позиции, требующие денойзинга, включая как изначально поврежденные, так и те, которые требуют дополнительной доработки. Этот подход планирования и денойзинга обеспечивает более эффективную реконструкцию во время генерации путем итеративного определения и денойзинга повреждений в оптимальном порядке. DDPD превосходит традиционные методы диффузии маски только с денойзером, достигая превосходных результатов на бенчмарках языкового моделирования, таких как text8, OpenWebText и генерация на основе токенов на ImageNet 256 на 256. Заметно, что в языковом моделировании DDPD значительно уменьшает разрыв в производительности между методами на основе диффузии и авторегрессионными методами в терминах генеративной перплексии. Код доступен по ссылке https://github.com/liusulin/DDPD.
Мы представляем ZeroComp - эффективный подход к нулевой композиции 3D объектов, который не требует парных изображений сцен с композицией во время обучения. Наш метод использует ControlNet для условной генерации из внутренних изображений и объединяет его с моделью Stable Diffusion для использования сценических априорных знаний, действуя вместе как эффективный рендеринговый движок. Во время обучения ZeroComp использует внутренние изображения на основе геометрии, альбедо и маскированного затенения, все это без необходимости парных изображений сцен с и без композитных объектов. После обучения он бесшовно интегрирует виртуальные 3D объекты в сцены, корректируя затенение для создания реалистичных композиций. Мы разработали качественный набор данных для оценки и показали, что ZeroComp превосходит методы, использующие явные оценки освещения и генеративные техники, в количественных и оценочных бенчмарках человеческого восприятия. Кроме того, ZeroComp расширяется на реальную и наружную композицию изображений, даже если обучен только на синтетических внутренних данных, демонстрируя свою эффективность в композиции изображений.
Преобразователи прямого потока (RFT) обеспечивают превосходную эффективность обучения и вывода, что делает их, вероятно, наиболее перспективным направлением для масштабирования моделей диффузии. Однако прогресс в разрешении генерации был относительно медленным из-за качества данных и затрат на обучение. Экстраполяция разрешения без настройки представляет собой альтернативу, однако текущие методы часто снижают стабильность генерации, ограничивая практическое применение. В данной статье мы рассматриваем существующие методы экстраполяции разрешения и представляем фреймворк I-Max для максимизации потенциала разрешения RFT для текста-к-изображению. I-Max включает: (i) новую стратегию Проекционного Потока для стабильной экстраполяции и (ii) передовой инструментарий вывода для обобщения знаний модели на более высокие разрешения. Эксперименты с Lumina-Next-2K и Flux.1-dev демонстрируют способность I-Max улучшать стабильность в экстраполяции разрешения и показывают, что он способен приносить появление деталей изображения и коррекцию артефактов, подтверждая практическую ценность экстраполяции разрешения без настройки.
Мы представляем DA-Code, бенчмарк по генерации кода, специально разработанный для оценки LLM на задачах по агентно-ориентированной науке о данных. Этот бенчмарк включает три основных элемента: Во-первых, задачи в DA-Code по своей природе сложны, что отличает их от традиционных задач генерации кода и требует продвинутых навыков кодирования в области основ и планирования. Во-вторых, примеры в DA-Code основаны на реальных и разнообразных данных, охватывающих широкий спектр сложных задач обработки данных и аналитики. В-третьих, для решения задач модели должны использовать сложные языки программирования в области науки о данных, чтобы выполнять сложную обработку данных и выводить ответы. Мы создали бенчмарк в контролируемой и исполнимой среде, соответствующей сценариям анализа данных в реальном мире и масштабируемой. Аннотаторы тщательно разрабатывают набор оценочных средств для обеспечения точности и надежности оценки. Мы разработали базовую модель DA-Agent. Эксперименты показывают, что хотя базовая модель работает лучше, чем другие существующие фреймворки, использование текущих лучших LLM обеспечивает лишь 30.5% точности, что оставляет много места для улучшения. Мы предоставляем наш бенчмарк по адресу https://da-code-bench.github.io.
Распространение воспалительных или вводящих в заблуждение «фейковых» новостей стало все более распространенным в последние годы. Одновременно использование инструментов искусственного интеллекта для создания фотореалистичных изображений любых сцен стало проще простого. Комбинирование этих двух аспектов — фейковых новостей, созданных с помощью искусственного интеллекта — особенно мощно и опасно. Для борьбы с распространением фейковых новостей, созданных с помощью искусственного интеллекта, мы предлагаем набор данных MiRAGeNews, содержащий 12 500 высококачественных реальных и сгенерированных с помощью искусственного интеллекта пар изображение-подпись от передовых генераторов. Мы обнаружили, что наш набор данных представляет существенное испытание для людей (60% F-1) и мультимодальных LLMs последнего поколения (< 24% F-1). Используя наш набор данных, мы обучили мультимодальный детектор (MiRAGe), который улучшает показатель F-1 на 5,1% по сравнению с передовыми базовыми уровнями на парах изображение-подпись от генераторов изображений и новостных изданий вне области их применения. Мы предоставляем наш код и данные для помощи в будущих исследованиях по обнаружению контента, созданного с помощью искусственного интеллекта.
Генерация разнообразных ответов с помощью больших языковых моделей (LLM) критически важна для приложений, таких как планирование/поиск и генерация синтетических данных, где разнообразие обеспечивает различные ответы в разных поколениях. Предыдущие подходы полагались на увеличение температуры для повышения разнообразия. Однако, вопреки распространенному мнению, мы показываем, что этот подход не только приводит к уменьшению качества отдельных поколений при увеличении температуры, но и зависит от того, насколько вероятности следующего токена модели схожи с истинным распределением ответов. Мы предлагаем альтернативный подход, который использует саму языковую модель для разбиения пространства на страты. При выводе выбирается случайный страт и из него извлекается образец. Для измерения разнообразия мы представляем набор данных CoverageQA, содержащий недостаточно определенные вопросы с несколькими одинаково вероятными ответами, и оцениваем разнообразие, измеряя дивергенцию Кульбака-Лейблера между распределением вывода и равномерным распределением по допустимым правильным ответам. Поскольку вычисление вероятности для каждого ответа/решения для собственных моделей невозможно, мы измеряем полноту по правильным решениям. Наша оценка показывает, что использование SimpleStrat обеспечивает более высокую полноту на 0.05 по сравнению с GPT-4o и в среднем на 0.36 уменьшает дивергенцию Кульбака-Лейблера по сравнению с Llama 3.
Большие языковые модели (LLM) продемонстрировали выдающиеся результаты в различных сложных задачах, используя метод Chain-of-Thought (CoT) для подсказок. Недавние исследования предложили подход к Дистилляции Знаний (KD), называемый дистилляцией рассуждений, который передает такую способность к рассуждениям от LLM через донастройку языковых моделей на основе многошаговых обоснований, созданных учителями LLM. Однако они недостаточно учли две проблемы, касающиеся недостаточных наборов дистилляции от модели-учителя LLM, в терминах 1) качества данных и 2) предоставления мягких меток. В данной статье мы предлагаем Mentor-KD, который эффективно дистиллирует способность к многошаговым рассуждениям у LLM в более маленькие LMs, решая упомянутые проблемы. Конкретно, мы используем наставника, промежуточную модель, настроенную на задачу определенного размера, для дополнительного обогащения аннотаций CoT и предоставления мягких меток для модели-ученика во время дистилляции рассуждений. Мы проводим обширные эксперименты и подтверждаем эффективность Mentor-KD в различных моделях и сложных задачах рассуждения.
Большие языковые модели (LLM) обладают впечатляющими возможностями, но требуют тщательного согласования с предпочтениями человека. Традиционные методы обучения настраивают LLM с использованием наборов данных предпочтений людей, но при этом возникают значительные затраты на обучение и требуется повторное обучение для учета разнообразных пользовательских предпочтений. Методы выравнивания на этапе тестирования решают эту проблему, используя модели вознаграждения (RMs) для направления замороженных LLM без повторного обучения. Однако существующие подходы на этапе тестирования опираются на модели вознаграждения на уровне траектории, которые предназначены для оценки полных ответов, что делает их непригодными для авторегрессивной генерации текста, требующей вычисления вознаграждений за следующий токен из частичных ответов. Для решения этой проблемы мы представляем GenARM, подход к выравниванию на этапе тестирования, который использует Авторегрессивную Модель Вознаграждения - новую параметризацию вознаграждения, разработанную для прогнозирования вознаграждений за следующий токен для эффективной авторегрессивной генерации. Теоретически мы демонстрируем, что эта параметризация может доказуемо направлять замороженные LLM к любому распределению, достижимому с использованием традиционных RMs в рамках обучения с подкреплением с регуляризацией KL. Экспериментальные результаты показывают, что GenARM значительно превосходит предыдущие базовые линии выравнивания на этапе тестирования и соответствует результатам методов обучения на этапе обучения. Кроме того, GenARM обеспечивает эффективное руководство от слабого к сильному, выравнивая более крупные LLM с более маленькими RMs без высоких затрат на обучение более крупных моделей. Более того, GenARM поддерживает многокритериальное выравнивание, позволяя в реальном времени находить компромиссы между измерениями предпочтений и учитывая разнообразные пользовательские предпочтения без повторного обучения.
Синтез изображений с помощью сонара имеет важное значение для развития приложений в области подводного исследования, морской биологии и обороны. Традиционные методы часто полагаются на обширную и дорогостоящую сборку данных с использованием гидролокационных датчиков, подвергая качество и разнообразие данных риску. Для преодоления этих ограничений в данном исследовании предлагается новая структура синтеза изображений с помощью сонара, Synth-SONAR, использующая модели диффузии и подсказки GPT. Основные новшества Synth-SONAR тройные: Во-первых, путем интеграции техник внедрения стиля на основе генеративного искусственного интеллекта с использованием публично доступных реальных/симулированных данных, что позволяет создать один из крупнейших корпусов данных по сонару для исследований в области сонара. Во-вторых, иерархия двойной текстовой кондиционированной модели диффузии сонара синтезирует грубые и мелкозернистые изображения сонара с улучшенным качеством и разнообразием. В-третьих, методы генерации сонара на основе текста высокого уровня (грубые) и низкого уровня (детализированные) используют передовую семантическую информацию, доступную визуальным языковым моделям (VLM) и подсказки GPT. В процессе вывода метод генерирует разнообразные и реалистичные изображения сонара из текстовых подсказок, сокращая разрыв между текстовыми описаниями и генерацией изображений сонара. Это является первым, насколько нам известно, применением подсказок GPT в области изображений сонара. Synth-SONAR достигает передовых результатов в создании высококачественных синтетических наборов данных по сонару, значительно улучшая их разнообразие и реализм.