Ежедневно отобранные исследовательские статьи по ИИ с переводами
Разреженно-линейное внимание (SLA) объединяет разреженное и линейное внимание для ускорения диффузионных моделей и показало высокую производительность в генерации видео. Однако (i) SLA опирается на эвристическое разделение, которое распределяет вычисления между разреженной или линейной ветвью на основе величины весов внимания, что может быть неоптимальным. Кроме того, (ii) после формального анализа ошибки внимания в SLA мы выявляем несоответствие между SLA и прямым разложением на разреженное и линейное внимание. Мы предлагаем SLA2, который вводит (I) обучаемый маршрутизатор, динамически выбирающий, должна ли каждая операция внимания использовать разреженное или линейное внимание, (II) более точную и прямую формулировку разреженно-линейного внимания, использующую обучаемый коэффициент для объединения разреженной и линейной ветвей внимания, и (III) дизайн разреженного + низкобитного внимания, где низкобитное внимание вводится посредством квантизационно-осознанной тонкой настройки для снижения ошибки квантования. Эксперименты показывают, что в диффузионных моделях для видео SLA2 позволяет достичь 97% разреженности внимания и обеспечивает ускорение внимания в 18,6 раз при сохранении качества генерации.
Эффективность автономных агентов с веб-интерфейсом в значительной степени зависит от качества и объема их обучающих данных. Однако сохраняется фундаментальное ограничение: сбор траекторий взаимодействия с реальных веб-сайтов является дорогостоящим и трудно верифицируемым. Лежащие в основе переходы между состояниями скрыты, что приводит к зависимости от непоследовательных и затратных внешних верификаторов для оценки корректности на уровне шагов. Для решения этой проблемы мы предлагаем AutoWebWorld — новую платформу для синтеза контролируемых и верифицируемых веб-сред путем их моделирования в виде конечных автоматов (Finite State Machines, FSM) и использования программных агентов для преобразования FSM в интерактивные веб-сайты. В отличие от реальных веб-сайтов, где переходы между состояниями неявны, AutoWebWorld явно определяет все состояния, действия и правила переходов. Это позволяет осуществлять программную верификацию: корректность действий проверяется по предопределенным правилам, а успешность задачи подтверждается достижением целевого состояния в графе FSM. AutoWebWorld обеспечивает полностью автоматизированный конвейер поиска и проверки, генерируя более 11 663 верифицированных траекторий из 29 разнообразных веб-сред при стоимости всего $0,04 за траекторию. Обучение на этих синтетических данных значительно повышает производительность в реальных условиях. Наш 7B-агент для веб-интерфейса превосходит все базовые показатели в течение 15 шагов на WebVoyager. Кроме того, мы наблюдаем четкий закон масштабирования: по мере увеличения объема синтетических данных производительность на WebVoyager и Online-Mind2Web последовательно улучшается.
Несмотря на быстрый прогресс в мультимодальных базовых моделях, сообщество воплощенного интеллекта по-прежнему испытывает нехватку единой, основанной на физических принципах базовой модели, которая интегрирует восприятие, рассуждение и планирование в рамках реальной пространственно-временной динамики. Мы представляем RynnBrain — открытую пространственно-временную базовую модель для воплощенного интеллекта. RynnBrain усиливает четыре ключевые способности в единой архитектуре: всестороннее эгоцентрическое понимание, разнообразную пространственно-временную локализацию, физически обоснованное рассуждение и планирование с учетом физики. Семейство RynnBrain включает три масштаба базовых моделей (2B, 8B и 30B-A3B MoE) и четыре пост-обученных варианта, адаптированных для последующих воплощенных задач (а именно, RynnBrain-Nav, RynnBrain-Plan и RynnBrain-VLA) или сложных задач пространственного reasoning (а именно, RynnBrain-CoP). По результатам масштабных оценок на 20 бенчмарках для воплощенного интеллекта и 8 бенчмарках общего визуального понимания, наши базовые модели RynnBrain существенно превосходят существующие базовые модели для воплощенных систем с значительным отрывом. Набор пост-обученных моделей дополнительно подтверждает два ключевых потенциала базовой модели RynnBrain: (i) возможность физически обоснованного рассуждения и планирования и (ii) способность служить мощным предварительно обученным бэкбоном, который можно эффективно адаптировать для разнообразных воплощенных задач.
Системы автоматизированного проектирования (САПР) обеспечивают быстрое создание редактируемых моделей для инженерных задач и производства. Недавние достижения в области искусственного интеллекта сделали полную автоматизацию выполнимой для широкого спектра задач САПР. Однако прогресс сдерживается проблемой данных: публичные корпуса в основном содержат последовательности операций "эскиз-выдавливание", лишены сложных операций, композиции из множества операций и информации о проектных намерениях, что препятствует эффективному тонкому настрою. Попытки обойти это ограничение с помощью замороженных больших языковых моделей (VLM) часто приводят к созданию простых или невалидных программ из-за слабого понимания трехмерного контекста в современных базовых моделях. Мы представляем CADEvolve, эволюционный конвейер и набор данных, который начинается с простых примитивов и, благодаря редактированию и валидации под управлением VLM, постепенно наращивает сложность программ САПР до промышленного уровня. Результатом стали 8 тысяч сложных деталей, выраженных в виде исполняемых параметрических генераторов на CadQuery. После многоэтапной постобработки и аугментации мы получили унифицированный набор данных из 1,3 миллиона скриптов, сопряженных с визуализированной геометрией и использующих полный набор операций CadQuery. VLM, прошедшая тонкую настройку на CADEvolve, демонстрирует наилучшие результаты на задаче Image2CAD по всем бенчмаркам: DeepCAD, Fusion 360 и MCB.
Визуальная локоманипуляция произвольными объектами в естественной среде с помощью гуманоидных роботов требует точного управления концевым эффектором (КЭ) и обобщающего понимания сцены посредством визуальных входных данных (например, RGB-D изображений). Существующие подходы основаны на обучении с подражанием в реальном мире и демонстрируют ограниченную обобщающую способность из-за сложности сбора крупномасштабных наборов данных для обучения. В данной статье представлена новая парадигма HERO для локоманипуляции объектами с помощью гуманоидных роботов, которая сочетает мощную обобщающую способность и открыто-словарное понимание больших визуальных моделей с высоким качеством управления, достигаемым за счет обучения в симуляции. Мы достигаем этого за счет разработки точной политики отслеживания КЭ, учитывающей остаточные ошибки. Данная политика отслеживания КЭ объединяет классическую робототехнику с машинным обучением. Она использует: а) обратную кинематику для преобразования целевых положений КЭ с учетом остаточной ошибки в опорные траектории, b) обученную нейросетевую прямую кинематическую модель для точного расчета прямой кинематики, c) корректировку цели и d) перепланирование. В совокупности эти инновации позволяют нам снизить ошибку отслеживания концевого эффектора в 3,2 раза. Мы используем этот точный трекер КЭ для построения модульной системы локоманипуляции, в которой применяем открыто-словарные большие визуальные модели для обеспечения мощной визуальной обобщающей способности. Наша система способна функционировать в различных реальных условиях, от офисов до кофеен, где робот может надежно манипулировать различными повседневными объектами (например, кружками, яблоками, игрушками) на поверхностях высотой от 43 см до 92 см. Систематические модульные и сквозные испытания в симуляции и реальном мире демонстрируют эффективность предложенной нами конструкции. Мы считаем, что достижения, представленные в этой статье, могут открыть новые пути обучения гуманоидных роботов взаимодействию с повседневными объектами.
Достижение кооперации между эгоистичными агентами остается фундаментальной проблемой в многoагентном обучении с подкреплением. Недавние исследования показали, что взаимное сотрудничество может быть индуцировано между «обучаемо-осознающими» агентами, которые учитывают и формируют динамику обучения своих соперников. Однако существующие подходы обычно опираются на жестко заданные, зачастую противоречивые предположения о правилах обучения соперников или навязывают строгое разделение между «наивными учениками», обновляющимися на быстрых временных масштабах, и «мета-обучающимися» агентами, наблюдающими эти обновления. В данной работе мы демонстрируем, что способность к контекстному обучению у последовательностных моделей позволяет обеспечить осознание обучения соперника без необходимости жестко заданных предположений или явного разделения временных масштабов. Мы показываем, что обучение агентов на основе последовательностных моделей против разнообразного распределения соперников естественным образом индуцирует контекстные стратегии наилучшего ответа, которые эффективно функционируют как алгоритмы обучения на быстром внутриэпизодном временном масштабе. Мы обнаруживаем, что кооперативный механизм, выявленный в предыдущих работах — когда уязвимость к шантажу стимулирует взаимное формирование — естественным образом возникает в данной setting: контекстная адаптация делает агентов уязвимыми к шантажу, а возникающее взаимное давление с целью формирования динамики контекстного обучения оппонента разрешается в обучение кооперативному поведению. Наши результаты позволяют предположить, что стандартное децентрализованное обучение с подкреплением на последовательностных моделях в сочетании с разнообразием соперников обеспечивает масштабируемый путь к обучению кооперативному поведению.
Мы представляем Масштабный бенчмарк аудио-эмбеддингов (MAEB) — крупный эталонный набор, охватывающий 30 задач в области распознавания речи, музыки, окружающих звуков и кросс-модальных рассуждений «аудио-текст» на более чем 100 языках. Мы оценили более 50 моделей и выяснили, что ни одна модель не доминирует по всем задачам: контрастивные модели «аудио-текст» превосходно справляются с классификацией окружающих звуков (например, ESC50), но показывают результаты, близкие к случайным, в многозадачных речевых задачах (например, SIB-FLEURS), в то время как модели, предобученные на речи, демонстрируют противоположную картину. Кластеризация остается сложной задачей для всех моделей, при этом даже лучшая модель достигает лишь скромных результатов. Мы наблюдаем, что модели, преуспевающие в акустическом понимании, часто плохо справляются с лингвистическими задачами, и наоборот. Мы также показываем, что производительность аудио-энкодеров на MAEB сильно коррелирует с их эффективностью при использовании в больших языковых моделях для аудио. MAEB является производным от MAEB+ — набора из 98 задач. MAEB разработан для сохранения разнообразия задач при сокращении стоимости оценки и интегрирован в экосистему MTEB для унифицированной оценки across текстовой, изображенческой и аудиомодальностей. Мы публикуем MAEB и все 98 задач вместе с кодом и таблицей лидеров по адресу https://github.com/embeddings-benchmark/mteb.
Стандартные оценки фактической точности языковых моделей трактуют все ошибки одинаково, скрывая, вызваны ли сбои отсутствием знаний («пустые полки») или ограниченным доступом к закодированным фактам («потерянные ключи»). Мы предлагаем поведенческую структуру, которая профилирует фактические знания на уровне фактов, а не вопросов, характеризуя каждый факт по тому, закодирован ли он, а затем по степени его доступности: не может быть воспроизведен, может быть воспроизведен напрямую или может быть воспроизведен только с помощью вычислений во время вывода («размышление»). Для поддержки такого профилирования мы представляем WikiProfile — новый эталонный набор, созданный с помощью автоматизированного конвейера на основе prompted LLM, проверяемой веб-поиском. На основе анализа 4 миллионов ответов от 13 языковых моделей мы обнаружили, что кодирование в передовых моделях на нашем эталоне практически насыщено: GPT-5 и Gemini-3 кодируют 95–98% фактов. Однако воспроизведение остается основным узким местом: многие ошибки, ранее приписывавшиеся отсутствию знаний, на самом деле вызваны сбоями доступа к ним. Эти сбои систематичны и непропорционально сильно затрагивают факты из «длинного хвоста» и обратные вопросы. Наконец, мы показываем, что «размышление» улучшает воспроизведение и может восстановить значительную долю сбоев, что указывает на то, что будущие успехи могут в меньшей степени зависеть от масштабирования и в большей — от методов, улучшающих использование моделями уже закодированной информации.
Искусственные интеллектуальные агенты все чаще развертываются для выполнения важных задач. Хотя растущие показатели точности на стандартных тестах свидетельствуют о быстром прогрессе, многие агенты на практике продолжают давать сбои. Это несоответствие выявляет фундаментальное ограничение текущих методов оценки: сведение поведения агента к единственному показателю успеха скрывает критические операционные недостатки. В частности, игнорируется вопрос о том, ведут ли агенты последовательно в разных запусках, устойчивы ли к возмущениям, предсказуемо ли отказывают и имеют ли ограниченную тяжесть ошибок. Основываясь на принципах инженерии критически важных для безопасности систем, мы предлагаем целостный профиль производительности, вводя двенадцать конкретных метрик, которые декомпозируют надежность агента по четырем ключевым аспектам: последовательность, устойчивость, предсказуемость и безопасность. Оценивая 14 агентских моделей на двух взаимодополняющих тестовых наборах, мы обнаруживаем, что недавние улучшения в возможностях принесли лишь незначительный рост надежности. Выявляя эти сохраняющиеся ограничения, наши метрики дополняют традиционные оценки и предлагают инструменты для анализа того, как агенты работают, ухудшаются и отказывают.
Современные модели Vision-Language-Action (VLA) превосходно справляются с семантической генерализацией, но испытывают трудности с обобщением на невиданные физические движения в новых средах. Мы представляем DreamZero, World Action Model (WAM), построенную на предобученном бэкбоне видео-диффузии. В отличие от VLA, WAM изучают физическую динамику, предсказывая будущие состояния мира и действия, используя видео как плотное представление о том, как мир эволюционирует. Совместно моделируя видео и действия, DreamZero эффективно обучается разнообразным навыкам из гетерогенных данных роботов, не полагаясь на повторяющиеся демонстрации. Это приводит к более чем двукратному улучшению обобщения на новые задачи и среды по сравнению с передовыми VLA в экспериментах с реальными роботами. Ключевым моментом является то, что благодаря оптимизации модели и системы мы позволяем 14-миллиардной авторегрессионной видео-диффузионной модели выполнять замкнутое управление в реальном времени с частотой 7 Гц. Наконец, мы демонстрируем две формы кросс-эмбодиментного переноса: демонстрации только с видео от других роботов или людей дают относительное улучшение более чем на 42% в производительности на невиданных задачах всего за 10-20 минут данных. Что еще более удивительно, DreamZero позволяет осуществлять few-shot адаптацию к эмбодименту, переносясь на новое воплощение всего за 30 минут игровых данных, сохраняя при этом zero-shot обобщение.
Архитектуры с быстрыми весами предлагают перспективную альтернативу трансформерам на основе внимания для моделирования длинных контекстов, обеспечивая постоянные затраты памяти независимо от длины контекста. Однако их потенциал ограничен парадигмой обучения предсказанию следующего токена. NTP оптимизирует предсказание одиночных токенов и игнорирует семантическую связность между несколькими токенами, следующими за префиксом. Как следствие, модели с быстрыми весами, которые динамически обновляют свои параметры для хранения контекстной информации, усваивают субоптимальные представления, не способные уловить дальнодействующие зависимости. Мы представляем REFINE — фреймворк обучения с подкреплением, который тренирует модели с быстрыми весами на основе целевой функции предсказания следующей последовательности. REFINE выбирает информативные позиции токенов на основе энтропии предсказания, генерирует rollout'ы из нескольких токенов, назначает самоконтролируемые вознаграждения на уровне последовательности и оптимизирует модель с помощью групповой относительной оптимизации политики. REFINE применим на всех этапах жизненного цикла предобученных языковых моделей: в процессе дообучения, после обучения и во время обучения на этапе тестирования. Наши эксперименты на LaCT-760M и DeltaNet-1.3B демонстрируют, что REFINE стабильно превосходит контролируемую тонкую настройку с NTP в задачах поиска иголки в стоге сена, вопросно-ответных системах с длинным контекстом и разнообразных задачах из LongBench. REFINE предоставляет эффективный и универсальный фреймворк для улучшения моделирования длинных контекстов в архитектурах с быстрыми весами.
Мы представляем SAM 3D Body (3DB) — промптабельную модель для восстановления 3D-меша всего тела человека по одному изображению (HMR), которая демонстрирует передовую производительность, обладая высокой способностью к обобщению и стабильной точностью в разнообразных реальных условиях. 3DB оценивает позу тела, стоп и кистей рук. Это первая модель, использующая новое параметрическое представление меша — Momentum Human Rig (MHR), которое разделяет скелетную структуру и форму поверхности. 3DB использует архитектуру кодировщик-декодировщик и поддерживает вспомогательные промпты, включая 2D-ключевые точки и маски, что позволяет проводить вывод с руководством пользователя, аналогично семейству моделей SAM. Мы получаем высококачественные разметки с помощью многоэтапного пайплайна аннотирования, который использует различные комбинации ручной разметки ключевых точек, дифференцируемой оптимизации, многовидовой геометрии и детекции плотных ключевых точек. Наш механизм данных эффективно отбирает и обрабатывает информацию для обеспечения разнообразия данных, собирая нестандартные позы и редкие условия съемки. Мы представляем новый оценочный набор данных, организованный по категориям поз и внешнего вида, что позволяет проводить детальный анализ поведения модели. Наши эксперименты демонстрируют превосходную способность к обобщению и существенное улучшение по сравнению с предыдущими методами как в качественных исследованиях пользовательских предпочтений, так и в традиционном количественном анализе. И 3DB, и MHR являются открытыми проектами.
Метод согласования распределений с дистилляцией (DMD) является мощной парадигмой ускорения, однако его стабильность часто нарушается в «Запретных Зонах» — областях, где реальный учитель предоставляет ненадежные ориентиры, а искусственный учитель оказывает недостаточное отталкивающее воздействие. В данной работе мы предлагаем унифицированную оптимизационную структуру, которая переосмысливает предыдущие подходы как неявные стратегии избегания этих искаженных областей. На основе этого понимания мы представляем Адаптивную дистилляцию с согласованием (AMD) — самокорректирующийся механизм, использующий прокси-оценки для явного обнаружения и выхода из Запретных Зон. AMD динамически расставляет приоритеты корректирующим градиентам через структурное разложение сигналов и вводит «Заострение отталкивающего ландшафта» для создания крутых энергетических барьеров против коллапса режимов сбоя. Многочисленные эксперименты в задачах генерации изображений и видео (например, SDXL, Wan2.1) и строгие сравнительные тесты (например, VBench, GenEval) демонстрируют, что AMD существенно повышает достоверность образцов и устойчивость обучения. Например, AMD улучшает показатель HPSv2 для SDXL с 30.64 до 31.25, превосходя современные базовые методы. Эти результаты подтверждают, что явная коррекция траекторий оптимизации в Запретных Зонах необходима для повышения предельной производительности генеративных моделей с малым числом шагов.
Современные ИИ-агенты обладают высокой мощностью, но часто не способны адаптироваться к идиосинкразическим и изменяющимся предпочтениям отдельных пользователей. Существующие подходы обычно опираются на статические наборы данных, либо обучая неявные модели предпочтений на истории взаимодействий, либо кодируя пользовательские профили во внешней памяти. Однако эти методы испытывают трудности с новыми пользователями и с предпочтениями, изменяющимися со временем. Мы представляем фреймворк Personalized Agents from Human Feedback (PAHF) для непрерывной персонализации, в котором агенты обучаются онлайн в процессе живого взаимодействия с использованием явной памяти для каждого пользователя. PAHF реализует трехэтапный цикл: (1) уточнение до действия для разрешения неоднозначности, (2) обоснование действий на основе предпочтений, извлеченных из памяти, и (3) интеграция обратной связи после действия для обновления памяти при изменении предпочтений. Для оценки этой возможности мы разработали четырехфазный протокол и два тестовых набора в областях манипуляций в физической среде и онлайн-покупок. Эти тестовые наборы позволяют количественно оценить способность агента изучать начальные предпочтения с нуля и впоследствии адаптироваться к изменениям персоналии. Наш теоретический анализ и эмпирические результаты показывают, что интеграция явной памяти с двойными каналами обратной связи является ключевой: PAHF обучается значительно быстрее и последовательно превосходит как базовые методы без памяти, так и методы с одним каналом, снижая ошибку начальной персонализации и обеспечивая быструю адаптацию к изменениям предпочтений.
Многомодальные агенты с длинным горизонтом планирования зависят от внешней памяти; однако поиск по сходству часто выдает устаревшие, недостоверные или противоречивые элементы, что может провоцировать излишне уверенные ошибки. Мы предлагаем Многомодального Агента Памяти (MMA), который присваивает каждому извлеченному элементу памяти динамическую оценку надежности, комбинируя достоверность источника, временное затухание и консенсус в сети с учетом конфликтов, и использует этот сигнал для перевзвешивания доказательств и воздержания от ответа при недостаточной поддержке. Мы также представляем MMA-Bench, программно генерируемый бенчмарк для анализа динамики убеждений с контролируемой надежностью источников и структурированными текстово-визуальными противоречиями. Используя эту framework, мы обнаруживаем "Визуальный эффект плацебо", показывая, как агенты на основе RAG наследуют скрытые визуальные смещения от базовых моделей. На FEVER MMA демонстрирует точность на уровне базового метода, сокращая дисперсию на 35.2% и улучшая селективную полезность; на LoCoMo конфигурация, ориентированная на безопасность, повышает практическую точность и сокращает количество неверных ответов; на MMA-Bench MMA достигает 41.18% точности типа-B в визуальном режиме, тогда как базовый метод деградирует до 0.0% по тому же протоколу. Код: https://github.com/AIGeeksGroup/MMA.
Мы представляем Nexus Adapters — новые эффективные адаптеры с текстовым управлением для диффузионных моделей в задаче условной генерации с сохранением структуры (Structure Preserving Conditional Generation, SPCB). В последнее время методы сохранения структуры показали многообещающие результаты в условной генерации изображений, используя базовую модель для обработки текстового промпта и адаптер для структурного ввода, такого как эскизы или карты глубины. Однако эти подходы обладают низкой эффективностью и иногда требуют количества параметров в адаптере, сопоставимого с базовой архитектурой. Обучение такой модели не всегда возможно, поскольку сама диффузионная модель является ресурсоемкой, а удвоение параметров крайне неэффективно. Кроме того, в этих подходах адаптер не учитывает входной промпт, что делает его оптимальным только для структурного ввода, но не для текстового условия. Чтобы преодолеть указанные ограничения, мы предложили два эффективных адаптера, Nexus Prime и Slim, которые управляются как промптами, так и структурными входами. Каждый блок Nexus включает механизмы кросс-внимания для обеспечения богатого мультимодального conditioning. Таким образом, предложенный адаптер лучше понимает входной промпт, сохраняя при этом структуру. Мы провели обширные эксперименты с предложенными моделями и показали, что адаптер Nexus Prime значительно улучшает производительность, требуя всего 8 млн дополнительных параметров по сравнению с базовым T2I-Adapter. Кроме того, мы представили облегченный адаптер Nexus Slim, который имеет на 18 млн параметров меньше, чем T2I-Adapter, но при этом достигает state-of-the-art результатов. Код: https://github.com/arya-domain/Nexus-Adapters
Ключевым аспектом человеческого восприятия является ситуационная осведомленность — способность соотносить себя с окружающей физической средой и анализировать возможные действия в контексте. Однако большинство существующих бенчмарков для мультимодальных фундаментальных моделей (МФМ) делают акцент на средо-ориентированных пространственных отношениях (связях между объектами в сцене), в значительной степени упуская из виду наблюдатель-центричные отношения, требующие рассуждений относительно позиции, позы и движения агента. Чтобы заполнить этот пробел, мы представляем SAW-Bench (Situated Awareness in the Real World) — новый бенчмарк для оценки эгоцентричной ситуационной осведомленности с использованием видеозаписей реального мира. SAW-Bench включает 786 самостоятельно записанных видео, снятых умными очками Ray-Ban Meta (Gen 2) в различных внутренних и внешних средах, и более 2071 аннотированных человеком пар «вопрос-ответ». Он исследует наблюдатель-центричное понимание модели с помощью шести различных задач на осведомленность. Наше комплексное оценивание выявляет разрыв в производительности между человеком и моделью в 37,66%, даже с лучшей МФМ Gemini 3 Flash. Помимо этого разрыва, наш углубленный анализ обнаружил несколько примечательных выводов; например, хотя модели могут использовать частичные геометрические подсказки в эгоцентричных видео, они часто не способны вывести непротиворечивую геометрию камеры, что приводит к систематическим ошибкам пространственного reasoning. Мы позиционируем SAW-Bench как бенчмарк для ситуационного пространственного интеллекта, выходящий за рамки пассивного наблюдения к пониманию физически обоснованной, наблюдатель-центричной динамики.
Мы представляем новую систему многомодальной сегментации с учетом неопределенности, которая использует как радиологические изображения, так и связанные с ними клинические тексты для точной медицинской диагностики. Мы предлагаем блок модального декодирующего внимания (Modality Decoding Attention Block, MoDAB) с легковесным микшером пространства состояний (State Space Mixer, SSMix) для обеспечения эффективного кросс-модального взаимодействия и моделирования дальнодействующих зависимостей. Для управления обучением в условиях неоднозначности мы предлагаем спектрально-энтропийную функцию потерь неопределенности (Spectral-Entropic Uncertainty, SEU Loss), которая объединяет в единую цель оценку пространственного перекрытия, спектральной согласованности и прогностической неопределенности. В сложных клинических сценариях с низким качеством изображений такой подход повышает надежность модели. Обширные эксперименты на различных общедоступных медицинских наборах данных — QATA-COVID19, MosMed++ и Kvasir-SEG — демонстрируют, что наш метод достигает превосходной производительности сегментации, оставаясь при этом значительно более вычислительно эффективным по сравнению с существующими передовыми (State-of-the-Art, SoTA) подходами. Наши результаты подчеркивают важность включения моделирования неопределенности и структурированного согласования модальностей в задачи визуально-языковой медицинской сегментации. Код: https://github.com/arya-domain/UA-VLS
Мультимодальные большие языковые модели (МБЯМ) значительно продвинули развитие воплощенного искусственного интеллекта, и их использование для тестирования роботизированного интеллекта стало ключевым трендом. Однако существующие системы в основном ограничиваются манипуляциями с помощью одного манипулятора, не охватывая пространственно-временную координацию, необходимую для двуручных задач, таких как подъем тяжелой кастрюли. Для решения этой проблемы мы представляем BiManiBench — иерархический бенчмарк, оценивающий МБЯМ на трех уровнях: базовое пространственное мышление, высокоуровневое планирование действий и низкоуровневое управление концевыми эффекторами. Наша система изолирует уникальные проблемы двуручного взаимодействия, такие как достижимость точек манипуляторами и кинематические ограничения, тем самым разделяя перцептивные галлюцинации и ошибки планирования. Анализ более 30 современных моделей показывает, что, несмотря на высокий уровень рассуждений, МБЯМ испытывают трудности с пространственным позиционированием и управлением для двух манипуляторов, что часто приводит к взаимным помехам и ошибкам в последовательности действий. Эти результаты указывают на то, что текущая парадигма lacks глубокого понимания взаимных кинематических ограничений, подчеркивая необходимость будущих исследований в области предотвращения столкновений между манипуляторами и точного временного планирования.
Генеративные большие визуально-языковые модели (LVLM) в последнее время демонстрируют впечатляющий прогресс в производительности, и их пользовательская база быстро растет. Однако безопасность LVLM, особенно в условиях многоходового диалога с длинным контекстом, остается малоизученной. В данной статье мы рассматриваем реалистичный сценарий, при котором злоумышленник загружает на веб-сайт или в социальные сети измененное изображение. Добросовестный пользователь скачивает это изображение и использует его в качестве входных данных для LVLM. Наша новая скрытая атака методом внедрения визуальной памяти (Visual Memory Injection, VMI) спроектирована таким образом, что при обычных запросах LVLM демонстрирует нормальное поведение, но как только пользователь задает триггерный промт, модель выдает конкретное предписанное целевое сообщение для манипуляции пользователем, например, в целях враждебного маркетинга или политического убеждения. В отличие от предыдущих работ, сосредоточенных на одноходовых атаках, VMI остается эффективной даже после длительной многоходовой беседы с пользователем. Мы демонстрируем нашу атаку на нескольких недавних LVLM с открытыми весами. Таким образом, данная статья показывает, что крупномасштабная манипуляция пользователями возможна с помощью модифицированных изображений в условиях многоходового диалога, что указывает на необходимость повышения устойчивости LVLM к подобным атакам. Исходный код доступен по адресу https://github.com/chs20/visual-memory-injection.
Опиоидная эпидемия продолжает опустошать сообщества по всему миру, перегружая системы здравоохранения, разрушая семьи и требуя срочных вычислительных решений. Для борьбы с этим смертоносным кризисом методы графового обучения появились как перспективная парадигма для моделирования сложных наркотик-связанных явлений. Однако сохраняется значительный пробел: отсутствует всеобъемлющий бенчмарк для систематической оценки этих методов в реальных сценариях опиоидного кризиса. Чтобы заполнить этот пробел, мы представляем OPBench — первый комплексный опиоидный бенчмарк, включающий пять наборов данных по трем критически важным предметным областям: выявление передозировок опиоидами по данным медицинских страховых требований, обнаружение незаконного оборота наркотиков на цифровых платформах и прогнозирование злоупотребления наркотиками на основе пищевых паттернов. В частности, OPBench включает разнообразные графовые структуры, такие как гетерогенные графы и гиперграфы, чтобы сохранить богатую и сложную реляционную информацию в данных, связанных с наркотиками. Для решения проблемы нехватки данных мы сотрудничаем с предметными экспертами и авторитетными учреждениями для курирования и аннотирования наборов данных с соблюдением правил конфиденциальности и этических норм. Кроме того, мы создали унифицированную систему оценки со стандартизированными протоколами, предопределенными разбиениями данных и воспроизводимыми базовыми моделями для обеспечения честного и систематического сравнения методов графового обучения. В ходе обширных экспериментов мы анализируем сильные и слабые стороны существующих методов графового обучения, предоставляя тем самым практические рекомендации для будущих исследований по борьбе с опиоидным кризисом. Наш исходный код и наборы данных доступны по адресу https://github.com/Tianyi-Billy-Ma/OPBench.