Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Story2Board — обучение-независимый фреймворк для создания выразительных сторибордов на основе естественного языка. Существующие методы узко фокусируются на идентичности объектов, упуская ключевые аспекты визуального повествования, такие как пространственная композиция, эволюция фона и темп повествования. Для решения этой проблемы мы вводим легковесный фреймворк согласованности, состоящий из двух компонентов: Latent Panel Anchoring, который сохраняет общую ссылку на персонажа между панелями, и Reciprocal Attention Value Mixing, который мягко смешивает визуальные признаки между парами токенов с сильной взаимной внимательностью. Вместе эти механизмы повышают согласованность без изменения архитектуры или тонкой настройки, позволяя современным диффузионным моделям генерировать визуально разнообразные, но согласованные сториборды. Для структурирования генерации мы используем готовую языковую модель для преобразования свободных историй в конкретные подсказки на уровне панелей. Для оценки мы предлагаем Rich Storyboard Benchmark — набор открытых нарративов, предназначенных для оценки разнообразия компоновки и повествования, основанного на фоне, в дополнение к согласованности. Мы также вводим новую метрику Scene Diversity, которая количественно оценивает пространственное и позовое разнообразие в сторибордах. Наши качественные и количественные результаты, а также пользовательское исследование показывают, что Story2Board создает более динамичные, согласованные и нарративно увлекательные сториборды, чем существующие базовые методы.
Крупные языковые модели (LLM), особенно модели с явным длинным цепочкообразным рассуждением (Explicit Long Chain-of-Thought, CoT), такие как DeepSeek-R1 и QWQ, продемонстрировали мощные способности к рассуждению, достигнув впечатляющих результатов в задачах здравого смысла и математического вывода. Несмотря на их эффективность, модели с длинным CoT часто критикуют за ограниченные возможности и низкую эффективность в областях, требующих глубоких знаний, таких как открытие молекул. Успех в этой области требует точного понимания предметных знаний, включая молекулярные структуры и химические принципы, что является сложной задачей из-за присущей молекулярным данным сложности и недостатка высококачественных экспертных аннотаций. Чтобы устранить этот разрыв, мы представляем Mol-R1 — новый фреймворк, разработанный для повышения объяснимости и производительности рассуждений в моделях, подобных R1, с явным длинным CoT, в задачах генерации молекул на основе текста. Наш подход начинается с создания высококачественного набора данных для рассуждений, подготовленного с помощью стратегии Prior Regulation via In-context Distillation (PRID), которая эффективно генерирует парные траектории рассуждений, руководствуясь предварительными правилами. На основе этого мы представляем MoIA (Molecular Iterative Adaptation) — сложную стратегию обучения, которая итеративно сочетает контролируемую тонкую настройку (Supervised Fine-tuning, SFT) с оптимизацией политики с подкреплением (Reinforced Policy Optimization, RPO), адаптированную для повышения производительности рассуждений в моделях, подобных R1, в задачах открытия молекул. Наконец, мы оцениваем производительность Mol-R1 в задаче генерации молекул на основе текстовых рассуждений, демонстрируя превосходные результаты по сравнению с существующими базовыми методами.
Создание высококачественных видео с людьми, соответствующих заданным пользователем идентичностям, является важной, но сложной задачей в области генеративного ИИ. Существующие методы часто требуют чрезмерного количества обучаемых параметров и несовместимы с другими инструментами AIGC. В данной работе мы предлагаем Stand-In — легковесный и подключаемый фреймворк для сохранения идентичности в генерации видео. В частности, мы добавляем условный ветвь изображения в предварительно обученную модель генерации видео. Управление идентичностью достигается за счет ограниченных механизмов самовнимания с условным позиционным отображением и может быть быстро обучено всего на 2000 пар данных. Несмотря на добавление и обучение всего ~1% дополнительных параметров, наш фреймворк демонстрирует превосходные результаты по качеству видео и сохранению идентичности, превосходя методы с полным обучением параметров. Более того, наш фреймворк может быть легко интегрирован для других задач, таких как генерация видео на основе объекта, генерация видео с учетом позы, стилизация и замена лиц.
Диффузионные большие языковые модели (dLLMs) появились как перспективная альтернатива авторегрессивным (AR) LLM для генерации текста, обладая потенциалом декодирования нескольких токенов за одну итерацию. Однако ни одна из существующих открытых dLLM не достигла превосходной скорости вывода по сравнению с AR LLM аналогичного размера. В данной статье этот барьер преодолевается с помощью простой и эффективной стратегии, названной дискретным диффузионным принуждением (D2F). D2F наделяет dLLM двумя ключевыми возможностями: (1) блочная авторегрессивная генерация для использования кэша ключей и значений (KV cache); (2) предсказание последующих токенов без необходимости завершения предыдущих блоков для параллельного декодирования между блоками. Таким образом, стандартные dLLM преобразуются в гибридную AR-диффузионную парадигму для эффективного вывода. D2F может быть реализован с помощью асимметричного процесса дистилляции на основе предварительно обученных dLLM. Мы также предлагаем алгоритм конвейерного параллельного декодирования, который позволяет достичь компромисса между эффективностью и качеством. Эмпирически dLLM с D2F достигают более чем 2,5-кратного ускорения вывода по сравнению с LLaMA3 и Qwen2.5 на наборе данных GSM8K. По сравнению с базовыми dLLM, такими как LLaDA и Dream, ускорение может превышать 50 раз при сохранении сопоставимого качества вывода. Код доступен по адресу https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
Быстрое развитие крупных языковых моделей (LLM) позволило интеллектуальным агентам использовать разнообразные внешние инструменты для решения сложных задач в реальном мире. Однако по мере того, как агенты всё больше зависят от множества инструментов, они сталкиваются с новыми вызовами: расширенные контексты из различных источников, а также зашумлённые или нерелевантные выходные данные инструментов могут подрывать надёжность и точность системы. Эти вызовы подчеркивают необходимость повышения стабильности в системах на основе агентов. Для решения этой проблемы мы предлагаем механизмы динамического контроля и управления, создавая устойчивую и динамичную архитектуру многоагентной системы (MAS) в рамках платформы AWorld. В нашем подходе Исполнительный Агент вызывает Контролирующего Агента на ключевых этапах для проверки и корректировки процесса рассуждений, что эффективно снижает ошибки, вызванные шумом, и повышает устойчивость решения задач. Многочисленные эксперименты на тестовом наборе данных GAIA показывают, что наш механизм динамического управления значительно улучшает как эффективность, так и стабильность решений, превосходя одноагентные системы (SAS) и стандартные системы с использованием инструментов. В результате наша динамическая MAS система заняла первое место среди проектов с открытым исходным кодом на престижном рейтинге GAIA. Эти результаты подчеркивают практическую ценность совместных ролей агентов в разработке более надёжных и доверенных интеллектуальных систем.
Мы представляем M3-Agent — новую мультимодальную агентскую платформу, оснащённую долговременной памятью. Подобно человеку, M3-Agent способен обрабатывать визуальные и аудиовходы в реальном времени для построения и обновления своей долговременной памяти. Помимо эпизодической памяти, он также развивает семантическую память, что позволяет ему накапливать знания о мире с течением времени. Его память организована в объектно-ориентированном мультимодальном формате, что обеспечивает более глубокое и последовательное понимание окружающей среды. Получив инструкцию, M3-Agent автономно выполняет многошаговое итеративное рассуждение и извлекает релевантную информацию из памяти для выполнения задачи. Для оценки эффективности памяти и рассуждений на основе памяти у мультимодальных агентов мы разработали M3-Bench — новый бенчмарк для ответов на вопросы по длинным видео. M3-Bench включает 100 новых записей реальных видео, снятых с перспективы робота (M3-Bench-robot), и 929 веб-видео из различных сценариев (M3-Bench-web). Мы аннотировали пары вопросов и ответов, предназначенные для проверки ключевых способностей, необходимых для приложений агентов, таких как понимание человека, извлечение общих знаний и кросс-модальное рассуждение. Результаты экспериментов показывают, что M3-Agent, обученный с использованием обучения с подкреплением, превосходит самый сильный базовый подход — агент с подсказками, использующий Gemini-1.5-pro и GPT-4o, достигая на 6,7%, 7,7% и 5,3% более высокой точности на M3-Bench-robot, M3-Bench-web и VideoMME-long соответственно. Наша работа продвигает мультимодальных агентов в сторону более человеко-подобной долговременной памяти и предоставляет инсайты для их практического проектирования. Модель, код и данные доступны по адресу https://github.com/bytedance-seed/m3-agent.
Недавно GPT-4o привлек значительное внимание благодаря своей высокой производительности в генерации изображений, хотя модели с открытым исходным кодом все еще отстают. Несколько исследований изучили возможность дистилляции данных изображений из GPT-4o для улучшения моделей с открытым исходным кодом, достигнув заметного прогресса. Однако остается ключевой вопрос: учитывая, что реальные наборы данных изображений уже представляют собой естественный источник высококачественных данных, зачем использовать синтетические данные, сгенерированные GPT-4o? В этой работе мы выделяем два ключевых преимущества синтетических изображений. Во-первых, они могут дополнять редкие сценарии в реальных наборах данных, такие как сюрреалистичные фантазии или генерация изображений с множеством ссылок, которые часто встречаются в пользовательских запросах. Во-вторых, они обеспечивают чистый и контролируемый надзор. Реальные данные часто содержат сложный фоновый шум и несоответствия между текстовыми описаниями и содержимым изображений, тогда как синтетические изображения предлагают чистые фоны и долгосрочные сигналы надзора, способствуя более точному соответствию текста и изображения. На основе этих инсайтов мы представляем Echo-4o-Image, синтетический набор данных объемом 180K, сгенерированный GPT-4o, который использует силу синтетических данных изображений для устранения пробелов в реальном покрытии. Используя этот набор данных, мы донастраиваем базовую модель унифицированной мультимодальной генерации Bagel, чтобы получить Echo-4o. Кроме того, мы предлагаем два новых эталонных теста для более точной и сложной оценки возможностей генерации изображений: GenEval++, который увеличивает сложность инструкций для снижения насыщения оценок, и Imagine-Bench, который фокусируется на оценке как понимания, так и генерации креативного контента. Echo-4o демонстрирует высокую производительность на стандартных тестах. Более того, применение Echo-4o-Image к другим базовым моделям (например, OmniGen2, BLIP3-o) приводит к стабильному улучшению производительности по множеству метрик, подчеркивая сильную трансферабельность набора данных.
Методологии согласования стали ключевым направлением для повышения возможностей согласования языковых моделей. Хотя SFT (supervised fine-tuning, контролируемая тонкая настройка) ускоряет сходимость за счет прямого вмешательства на уровне потерь токенов, её эффективность ограничена оффлайн-траекторией политики. В отличие от этого, RL (reinforcement learning, обучение с подкреплением) способствует исследовательской оптимизации политики, но страдает от низкой эффективности использования данных и строгой зависимости от высококачественных базовых моделей. Для решения этих двойных проблем мы предлагаем GRAO (Group Relative Alignment Optimization, оптимизация группового относительного согласования) — унифицированную структуру, которая объединяет сильные стороны SFT и RL через три ключевых инновации: 1) стратегию генерации множества образцов, позволяющую сравнительную оценку качества через обратную связь по вознаграждению; 2) новую формулировку Group Direct Alignment Loss, использующую взвешивание относительных преимуществ внутри группы; 3) обновление параметров с учетом референсов, управляемое динамикой парных предпочтений. Наш теоретический анализ подтверждает гарантии сходимости GRAO и её преимущества в эффективности использования данных по сравнению с традиционными подходами. Комплексные оценки в сложных задачах согласования с человеческими предпочтениями демонстрируют превосходство GRAO, показывая относительные улучшения на 57,70%, 17,65%, 7,95% и 5,18% по сравнению с базовыми методами SFT, DPO, PPO и GRPO соответственно. Эта работа предоставляет как теоретически обоснованную структуру согласования, так и эмпирические доказательства эффективной эволюции возможностей языковых моделей.
Мультимодальные большие языковые модели (MLLMs) продемонстрировали впечатляющие способности в визуальном математическом рассуждении на различных существующих тестовых наборах. Однако эти наборы данных преимущественно основаны на чистых или обработанных мультимодальных входах, не включая изображения, предоставляемые реальными пользователями образовательной системы от детского сада до 12 класса (K-12). Чтобы устранить этот пробел, мы представляем MathReal — тщательно отобранный набор данных, состоящий из 2000 математических вопросов с изображениями, снятыми на мобильные устройства в реальных условиях. Каждый вопрос представлен в виде изображения, содержащего текст вопроса и визуальный элемент. Мы систематически классифицируем реальные изображения на три основные категории: ухудшение качества изображения, вариации перспективы и вмешательство постороннего контента, которые далее разделяются на 14 подкатегорий. Кроме того, MathReal охватывает пять основных категорий знаний и навыков, включающих три типа вопросов и разделенных на три уровня сложности. Для всесторонней оценки мультимодальных математических способностей современных MLLMs в реальных условиях мы разработали шесть экспериментальных сценариев, позволяющих систематически анализировать их производительность. В ходе обширных экспериментов мы обнаружили, что способности существующих MLLMs к решению задач значительно ограничены в реалистичных образовательных контекстах. На основе этого мы проводим детальный анализ их производительности и типичных ошибок, предоставляя инсайты в их способности к распознаванию, пониманию и рассуждению, а также намечая направления для будущих улучшений. Данные и код доступны по ссылке: https://github.com/junfeng0288/MathReal.
Крупные языковые модели (LLM) продемонстрировали выдающиеся результаты в задачах, требующих рассуждений, где обучение с подкреплением (RL) выступает ключевым алгоритмом для улучшения их способностей к рассуждению. В настоящее время существуют две основные парадигмы вознаграждений: вознаграждения на основе моделей и вознаграждения на основе правил. Однако обе подходы имеют ограничения: вознаграждения на основе правил недостаточно устойчивы, а вознаграждения на основе моделей уязвимы к манипуляциям с вознаграждениями. Для решения этих проблем мы предлагаем Cooper (Co-optimizing Policy Model and Reward Model), RL-фреймворк, который совместно оптимизирует как модель политики, так и модель вознаграждения. Cooper использует высокую точность вознаграждений на основе правил при идентификации правильных ответов и динамически формирует и выбирает пары положительных и отрицательных примеров для продолжения обучения модели вознаграждения. Такой подход повышает устойчивость и снижает риск манипуляций с вознаграждениями. Для дальнейшей поддержки Cooper мы вводим гибридную стратегию аннотирования, которая эффективно и точно генерирует обучающие данные для модели вознаграждения. Мы также предлагаем парадигму моделирования вознаграждений на основе эталонных ответов, где модель вознаграждения принимает эталонный ответ на вход. На основе этого подхода мы обучаем модель вознаграждения под названием VerifyRM, которая демонстрирует более высокую точность на VerifyBench по сравнению с другими моделями аналогичного размера. Мы проводим обучение с подкреплением с использованием как VerifyRM, так и Cooper. Наши эксперименты показывают, что Cooper не только снижает риск манипуляций с вознаграждениями, но и улучшает производительность RL в целом, например, достигая увеличения средней точности на 0.54% для модели Qwen2.5-1.5B-Instruct. Наши результаты демонстрируют, что динамическое обновление модели вознаграждения является эффективным способом борьбы с манипуляциями с вознаграждениями, предоставляя ориентир для лучшей интеграции моделей вознаграждения в RL.
Новая парадигма масштабирования во время тестирования привела к значительным прорывам в крупных языковых моделях (LLM) (например, моделях рассуждений) и в генеративных моделях для обработки изображений, позволяя моделям выделять дополнительные вычислительные ресурсы на этапе вывода для эффективного решения всё более сложных задач. Несмотря на улучшения, достигаемые этим подходом, возникает важное ограничение: существенное увеличение времени вычислений делает процесс медленным и непрактичным для многих приложений. Учитывая успех этой парадигмы и её растущее использование, мы стремимся сохранить её преимущества, избегая при этом накладных расходов на этапе вывода. В данной работе мы предлагаем одно из решений критической проблемы интеграции знаний о масштабировании во время тестирования в модель на этапе пост-обучения. В частности, мы заменяем оптимизацию шума с управлением наградой во время тестирования в диффузионных моделях на Шумовой Гиперсеть, которая модулирует начальный входной шум. Мы предлагаем теоретически обоснованную структуру для изучения этого распределения, смещённого в сторону награды, для дистиллированных генераторов, через управляемую цель в пространстве шума, которая сохраняет верность базовой модели, одновременно оптимизируя желаемые характеристики. Мы показываем, что наш подход восстанавливает значительную часть улучшений качества, достигаемых за счёт явной оптимизации во время тестирования, при существенно меньших вычислительных затратах. Код доступен по адресу https://github.com/ExplainableML/HyperNoise.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют значительные успехи в задачах, таких как визуальное заземление, где они локализуют определённые объекты на изображениях на основе естественно-языковых запросов и самих изображений. Однако вопросы безопасности в задачах визуального заземления для VLMs остаются недостаточно изученными, особенно в контексте бэкдор-атак. В данной работе мы представляем новый метод бэкдор-атаки, адаптируемый к входным данным (IAG), предназначенный для манипуляции поведением заземления VLMs. Эта атака заставляет модель заземлять определённый целевой объект на входном изображении независимо от запроса пользователя. Мы предлагаем адаптивный генератор триггеров, который внедряет семантическую информацию описания цели атаки в исходное изображение с использованием текстово-условной U-Net, тем самым преодолевая проблему атак на открытый словарь. Для обеспечения скрытности атаки мы используем потерю реконструкции, чтобы минимизировать визуальные различия между отравленными и чистыми изображениями. Кроме того, мы представляем унифицированный метод генерации данных для атаки. IAG оценивается теоретически и эмпирически, демонстрируя свою осуществимость и эффективность. В частности, наш показатель ASR@0.5 на модели InternVL-2.5-8B достигает более 65% на различных тестовых наборах. IAG также показывает многообещающий потенциал в манипуляции моделями Ferret-7B и LlaVA-1.5-7B с минимальным снижением точности на чистых образцах. Обширные эксперименты, такие как исследование абляции и потенциальной защиты, также указывают на устойчивость и переносимость нашей атаки.
Мультимодальные большие языковые модели (MLLMs) значительно продвинули интеграцию визуального и текстового понимания. Однако их способность генерировать код на основе мультимодальных входных данных остается ограниченной. В данной работе мы представляем VisCodex — унифицированную структуру, которая плавно объединяет модели для обработки изображений и языковые модели для программирования, наделяя MLLMs мощными способностями к мультимодальной генерации кода. Используя метод объединения моделей на основе векторов задач, мы интегрируем передовую языковую модель для программирования в мощную базовую модель для обработки изображений и текста, сохраняя как визуальное понимание, так и продвинутые навыки программирования. Для поддержки обучения и оценки мы представляем Multimodal Coding Dataset (MCD) — крупномасштабный и разнообразный набор из 598 тыс. образцов, включающий высококачественный HTML-код, пары изображений графиков и кода, вопросы и ответы с изображениями из StackOverflow, а также алгоритмические задачи. Кроме того, мы предлагаем InfiBench-V — новый и сложный бенчмарк, специально разработанный для оценки моделей на визуально насыщенных, реальных задачах программирования, требующих тонкого понимания как текстового, так и визуального контекста. Многочисленные эксперименты показывают, что VisCodex достигает наилучших результатов среди открытых MLLMs и приближается к проприетарным моделям, таким как GPT-4o, что подчеркивает эффективность нашей стратегии объединения моделей и новых наборов данных.
В последние годы наблюдается растущий интерес и активное внедрение крупных языковых моделей (LLM), при этом muTransfer становится ключевой техникой для настройки гиперпараметров в крупномасштабном обучении. В то же время архитектура Mixture-of-Experts (MoE) зарекомендовала себя как ведущий подход в создании чрезвычайно больших моделей. Однако пересечение этих двух достижений оставалось неисследованным. В данной работе мы выводим mu-Параметризацию (muP) для MoE, предоставляя теоретические гарантии для обучения признаков при различных ширинах модели как в маршрутизаторе, так и в экспертах. Мы эмпирически подтверждаем нашу параметризацию и дополнительно исследуем, как масштабирование количества экспертов и гранулярности влияет на оптимальную скорость обучения.
Крупные языковые модели, обученные с использованием обучения с подкреплением на основе проверяемых вознаграждений, склонны жертвовать точностью ради увеличения длины ответов — они увеличивают объем текста, чтобы добиться повышения точности. Хотя более длинные ответы могут быть оправданы для сложных задач, многие токены являются просто "заполнением": повторяющимся, многословным текстом, который не приносит реального прогресса. Мы представляем GFPO (Group Filtered Policy Optimization), который ограничивает это взрывное увеличение длины путем выборки более крупных групп на одну задачу во время обучения и фильтрации ответов для обучения на основе двух ключевых метрик: (1) длины ответа и (2) эффективности токенов: соотношения вознаграждения на токен. Увеличивая объем выборки во время обучения, мы учим модели меньше "думать" во время вывода. На модели Phi-4-reasoning GFPO сокращает увеличение длины, вызванное GRPO, на 46–71% на сложных тестах STEM и программирования (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench), сохраняя при этом точность. Оптимизация по вознаграждению на токен дополнительно увеличивает сокращение увеличения длины до 71–85%. Мы также предлагаем Adaptive Difficulty GFPO, который динамически распределяет больше ресурсов обучения на более сложные задачи на основе оценок сложности в реальном времени, улучшая баланс между вычислительной эффективностью и точностью, особенно на сложных вопросах. GFPO демонстрирует, что увеличение вычислительных ресурсов во время обучения напрямую приводит к сокращению вычислительных затрат во время тестирования — простой, но эффективный компромисс для эффективного рассуждения.
Восстановление 3D-сцен с использованием метода 3D Gaussian Splatting (3DGS) на основе разреженных видов является некорректно поставленной задачей из-за недостатка информации, что часто приводит к заметным артефактам. Хотя современные подходы пытаются использовать генеративные априорные данные для заполнения информации в недостаточно ограниченных областях, они сталкиваются с трудностями в создании контента, который остается согласованным с входными наблюдениями. Для решения этой проблемы мы предлагаем GSFixer — новую структуру, предназначенную для повышения качества 3DGS-представлений, восстановленных из разреженных входных данных. Основой нашего подхода является модель восстановления видео с использованием эталонных данных, построенная на основе DiT-модели диффузии видео, обученной на парных рендерах 3DGS с артефактами и чистых кадрах с дополнительными условиями, основанными на эталонах. Рассматривая входные разреженные виды как эталоны, наша модель интегрирует как 2D семантические, так и 3D геометрические признаки эталонных видов, извлеченные из базовой модели визуальной геометрии, что улучшает семантическую согласованность и 3D-консистентность при исправлении артефактов в новых видах. Кроме того, учитывая отсутствие подходящих эталонов для оценки восстановления артефактов 3DGS, мы представляем DL3DV-Res, который содержит кадры с артефактами, отрендеренные с использованием низкокачественного 3DGS. Многочисленные эксперименты демонстрируют, что наш GSFixer превосходит современные методы в восстановлении артефактов 3DGS и реконструкции 3D-сцен по разреженным видам. Страница проекта: https://github.com/GVCLab/GSFixer.
Последние достижения в моделях преобразования текста в изображение (T2I) позволили осуществлять обучение без предварительной подготовки для регионального редактирования изображений, используя генеративные априорные знания базовых моделей. Однако существующие методы сталкиваются с трудностями в балансировании соответствия тексту в редактируемых областях, сохранении контекста в неизмененных участках и бесшовной интеграции изменений. Мы представляем CannyEdit, новый фреймворк без необходимости обучения, который решает эти проблемы с помощью двух ключевых инноваций: (1) Селективное управление Canny, которое маскирует структурное руководство Canny ControlNet в указанных пользователем редактируемых областях, строго сохраняя детали исходных изображений в неизмененных участках за счет удержания информации ControlNet на этапе инверсии. Это позволяет осуществлять точные, управляемые текстом изменения без ущерба для целостности контекста. (2) Двойное управление подсказками, которое сочетает локальные подсказки для редактирования конкретных объектов с глобальной целевой подсказкой для поддержания согласованных взаимодействий в сцене. В задачах редактирования реальных изображений (добавление, замена, удаление) CannyEdit превосходит предыдущие методы, такие как KV-Edit, демонстрируя улучшение от 2.93 до 10.49 процентов в балансе соответствия тексту и сохранения контекста. В плане бесшовности редактирования пользовательские исследования показывают, что только 49.2 процента обычных пользователей и 42.0 процента экспертов в области генеративного ИИ идентифицировали результаты CannyEdit как обработанные ИИ при сравнении с реальными изображениями без изменений, в то время как для конкурирующих методов этот показатель составил от 76.08 до 89.09 процентов.
В данной статье представлен первый децентрализованный метод, позволяющий осуществлять манипуляции с кабельно-подвешенным грузом в реальном мире с шестью степенями свободы (6-DoF) с использованием группы микролетательных аппаратов (MAV). Наш метод использует многопользовательское обучение с подкреплением (MARL) для обучения внешнего контурного управления для каждого MAV. В отличие от современных контроллеров, использующих централизованную схему, наш метод не требует глобальных состояний, меж-MAV коммуникаций или информации о соседних MAV. Вместо этого агенты взаимодействуют неявно через наблюдения за положением груза, что обеспечивает высокую масштабируемость и гибкость. Это также значительно снижает вычислительные затраты во время выполнения, что позволяет развертывать политику на борту. Кроме того, мы представляем новую конструкцию пространства действий для MAV, использующую линейное ускорение и угловые скорости. Этот выбор, в сочетании с надежным низкоуровневым контроллером, обеспечивает надежный перенос из симуляции в реальность, несмотря на значительные неопределенности, вызванные натяжением кабеля во время динамического 3D-движения. Мы проверяем наш метод в различных реальных экспериментах, включая управление полным положением при неопределенности модели груза, показывая производительность отслеживания заданных точек, сопоставимую с современным централизованным методом. Мы также демонстрируем сотрудничество между агентами с гетерогенными политиками управления и устойчивость к полной потере одного MAV в полете. Видео экспериментов: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
В быстро развивающейся области объяснимой обработки естественного языка (NLP) текстовые объяснения, то есть человеко-подобные обоснования, играют ключевую роль в интерпретации предсказаний моделей и обогащении наборов данных интерпретируемыми метками. Традиционные подходы полагаются на ручную аннотацию, что является дорогостоящим, трудоемким и препятствует масштабируемости. В данной работе мы представляем автоматизированную систему, которая использует несколько современных крупных языковых моделей (LLM) для генерации высококачественных текстовых объяснений. Мы тщательно оцениваем качество этих объяснений, сгенерированных LLM, с использованием комплексного набора метрик генерации естественного языка (NLG). Кроме того, мы исследуем влияние этих объяснений на производительность предварительно обученных языковых моделей (PLM) и LLM в задачах логического вывода на естественном языке на двух различных эталонных наборах данных. Наши эксперименты демонстрируют, что автоматизированные объяснения демонстрируют высокую конкурентоспособность по сравнению с ручными аннотациями в улучшении производительности моделей. Наши результаты подчеркивают перспективное направление для масштабируемой, автоматизированной генерации текстовых объяснений на основе LLM для расширения наборов данных NLP и повышения производительности моделей.
Точное удаление поражений зависит от точного определения мелкозернистых анатомических структур. Хотя многие методы крупнозернистой сегментации (CGS) успешно применяются для масштабной сегментации (например, органов), они оказываются недостаточными в клинических сценариях, требующих мелкозернистой сегментации (FGS), которая остается сложной задачей из-за частых индивидуальных вариаций в мелкомасштабных анатомических структурах. Хотя недавние модели на основе Mamba продвинули сегментацию медицинских изображений, они часто полагаются на фиксированные, вручную заданные порядки сканирования, что ограничивает их адаптивность к индивидуальным вариациям в FGS. Для решения этой проблемы мы предлагаем ASM-UNet, новую архитектуру на основе Mamba для FGS. Она вводит адаптивные оценки сканирования для динамического управления порядком сканирования, генерируемые путем объединения групповых общностей и индивидуальных вариаций. Эксперименты на двух публичных наборах данных (ACDC и Synapse) и новом сложном наборе данных для FGS желчевыводящих путей, а именно BTMS, демонстрируют, что ASM-UNet достигает превосходной производительности как в задачах CGS, так и FGS. Наш код и набор данных доступны по адресу https://github.com/YqunYang/ASM-UNet.
Крупные языковые модели (LLM) обычно дообучаются для задач логического рассуждения с помощью двухэтапного процесса, включающего контролируемое дообучение (SFT) с последующим обучением с подкреплением (RL). Этот процесс сопряжен с проблемами катастрофического забывания и субоптимального баланса между имитацией и исследованием. Недавние одноэтапные методы пытаются объединить SFT и RL с использованием эвристик, но им не хватает принципиального механизма для динамического балансирования этих двух подходов. В данной статье мы переосмысливаем эту задачу через теоретическую призму неявных наград, рассматривая SFT и RL не как отдельные методы, а как взаимодополняющие сигналы награды. Мы представляем Adaptive Meta Fine-Tuning (AMFT) — новый одноэтапный алгоритм, который изучает оптимальный баланс между неявной наградой на уровне пути в SFT и явной наградой на основе результата в RL. Основой AMFT является мета-градиентный адаптивный контроллер весов, который рассматривает баланс SFT-RL как обучаемый параметр, динамически оптимизируя его для максимизации долгосрочной производительности задачи. Этот перспективный подход, стабилизированный регуляризацией энтропии политики, автономно обнаруживает эффективный учебный план. Мы проводим всестороннюю оценку на сложных тестах, охватывающих математическое рассуждение, абстрактное визуальное рассуждение (General Points) и навигацию на основе визуально-языковых данных (V-IRL). AMFT последовательно устанавливает новый уровень state-of-the-art и демонстрирует превосходную обобщаемость на задачах вне распределения (OOD). Абляционные исследования и анализ динамики обучения подтверждают, что мета-обучаемый контроллер играет ключевую роль в стабильности, эффективности использования данных и производительности AMFT, предлагая более принципиальный и эффективный подход для согласования LLM. Наш код доступен по ссылке: https://github.com/hlxtsyj/AMFT.
Атаки на вывод членства служат полезным инструментом для справедливого использования языковых моделей, например, для выявления потенциального нарушения авторских прав и аудита утечек данных. Однако многие современные передовые атаки требуют доступа к скрытым состояниям моделей или их вероятностным распределениям, что затрудняет исследование более широко используемых моделей, доступных только через API, таких как GPT-4. В данной работе мы представляем N-Gram Coverage Attack — атаку на вывод членства, которая полагается исключительно на текстовые выходы целевой модели, что позволяет атаковать полностью черные ящики. Мы используем наблюдение, что модели с большей вероятностью запоминают и затем генерируют текстовые паттерны, которые часто встречались в их обучающих данных. Конкретно, для предсказания принадлежности кандидата, N-Gram Coverage Attack сначала получает несколько генераций модели, основанных на префиксе кандидата. Затем с помощью метрик перекрытия n-грамм вычисляется и агрегируется сходство этих выходов с истинным суффиксом; высокое сходство указывает на вероятную принадлежность. Мы сначала демонстрируем на разнообразных существующих бенчмарках, что N-Gram Coverage Attack превосходит другие методы для черных ящиков, а также впечатляюще достигает сопоставимой или даже лучшей производительности по сравнению с передовыми атаками для белых ящиков — несмотря на доступ только к текстовым выходам. Интересно, что мы обнаруживаем, что успешность нашего метода масштабируется с вычислительным бюджетом атаки — по мере увеличения количества последовательностей, сгенерированных целевой моделью на основе префикса, производительность атаки имеет тенденцию улучшаться. Убедившись в точности нашего метода, мы используем его для исследования ранее не изученных закрытых моделей OpenAI в различных областях. Мы обнаруживаем, что более новые модели, такие как GPT-4o, демонстрируют повышенную устойчивость к атакам на вывод членства, что указывает на эволюцию в сторону улучшения защиты конфиденциальности.
Быстрое распространение крупных языковых моделей (LLM) значительно способствовало развитию справедливых систем искусственного интеллекта, способных отвечать на фактические вопросы (QA). Однако ни одно известное исследование не проверяет устойчивость LLM при работе с замаскированными версиями вопросов. Для систематической оценки этих ограничений мы предлагаем новую методику, ObfusQAte, и, используя её, представляем ObfusQA — первую в своём роде комплексную структуру с многоуровневыми уровнями маскировки, предназначенную для изучения возможностей LLM в трёх различных аспектах: (i) косвенное упоминание именованных сущностей, (ii) косвенное введение отвлекающих элементов и (iii) контекстуальная перегрузка. Улавливая эти тонкие различия в языке, ObfusQA предоставляет всеобъемлющий эталон для оценки устойчивости и адаптивности LLM. Наше исследование показывает, что LLM склонны давать сбои или генерировать вымышленные ответы при столкновении с этими всё более сложными вариациями. Для стимулирования исследований в этом направлении мы делаем ObfusQAte общедоступным.