Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) эволюционировали в агентные системы, способные к автономному использованию инструментов и многошаговому рассуждению для решения сложных задач. Однако посттренировочные подходы, основанные на универсальных базовых моделях, стабильно показывают низкую производительность в агентных задачах, особенно в открытых реализациях. Мы выявили коренную причину: отсутствие надежных агентных базовых моделей вынуждает модели в процессе посттренировки одновременно изучать разнообразные агентные поведения и согласовывать их с экспертными демонстрациями, что создает фундаментальные оптимизационные противоречия. В связи с этим мы первыми предлагаем внедрить Агентное Постоянное Предварительное Обучение (Agentic CPT) в процесс обучения глубоких исследовательских агентов для создания мощных агентных базовых моделей. На основе этого подхода мы разработали модель глубокого исследовательского агента под названием AgentFounder. Мы оценили нашу модель AgentFounder-30B на 10 бенчмарках и достигли наилучших результатов, сохранив при этом высокую способность к использованию инструментов, в частности, 39,9% на BrowseComp-en, 43,3% на BrowseComp-zh и 31,5% Pass@1 на HLE.
В данной работе рассматривается задача открытого глубокого исследования (Open-Ended Deep Research, OEDR), сложная проблема, в которой ИИ-агенты должны синтезировать огромные объемы информации из интернета в содержательные отчеты. Современные подходы страдают от двойных ограничений: статичные исследовательские процессы, которые разделяют планирование и сбор доказательств, и одноэтапные генеративные парадигмы, которые часто сталкиваются с проблемами длинного контекста, такими как "потеря в середине" и галлюцинации. Для решения этих проблем мы представляем WebWeaver, новую двухагентную архитектуру, которая имитирует человеческий процесс исследования. Планировщик работает в динамическом цикле, итеративно чередуя сбор доказательств с оптимизацией структуры, чтобы создать всеобъемлющий, основанный на источниках план, связанный с банком памяти доказательств. Затем писатель выполняет иерархический процесс извлечения и написания, составляя отчет по частям. Благодаря целевому извлечению только необходимых доказательств из банка памяти для каждой части, эффективно устраняются проблемы длинного контекста. Наша архитектура устанавливает новый эталон на основных бенчмарках OEDR, включая DeepResearch Bench, DeepConsult и DeepResearchGym. Эти результаты подтверждают нашу ориентированную на человека итеративную методологию, демонстрируя, что адаптивное планирование и фокусированный синтез являются ключевыми для создания высококачественных, надежных и хорошо структурированных отчетов.
Преодоление когнитивных ограничений человека представляет собой ключевой рубеж в обучении крупных языковых моделей (LLM). Проприетарные агентные системы, такие как DeepResearch, продемонстрировали сверхчеловеческие способности на чрезвычайно сложных тестах на поиск информации, таких как BrowseComp, что ранее было недостижимо. Мы предполагаем, что их успех обусловлен сложной схемой рассуждений, отсутствующей в моделях с открытым исходным кодом: способностью систематически снижать крайнюю неопределенность при навигации в обширных информационных ландшафтах. На основе этого понимания мы представляем WebSailor — полную методологию посттренировки, разработанную для внедрения этой ключевой способности. Наш подход включает генерацию новых задач с высокой неопределенностью через структурированную выборку и сокрытие информации, RFT-холодный старт и эффективный алгоритм обучения агентных систем с подкреплением — Duplicating Sampling Policy Optimization (DUPO). С помощью этой интегрированной системы WebSailor значительно превосходит все модели с открытым исходным кодом в сложных задачах поиска информации, достигая уровня производительности проприетарных агентов и сокращая разрыв в возможностях.
Веб-агенты на основе больших языковых моделей (LLM) демонстрируют высокую производительность в задачах, требующих глубоких знаний, но сталкиваются с ограничениями контекстного окна в таких парадигмах, как ReAct. Сложные запросы, включающие множество сущностей, переплетенные отношения и высокую неопределенность, требуют длительных циклов поиска, которые быстро исчерпывают доступный контекст до достижения полного решения. Чтобы преодолеть эту проблему, мы представляем ReSum — новую парадигму, которая позволяет осуществлять неограниченное исследование за счет периодического суммирования контекста. ReSum преобразует растущие истории взаимодействий в компактные состояния рассуждений, сохраняя осведомленность о предыдущих открытиях и обходя ограничения контекста. Для адаптации парадигмы мы предлагаем ReSum-GRPO, интегрируя GRPO с обучением на сегментированных траекториях и широковещательной передачей преимуществ, чтобы агенты могли освоить рассуждения на основе суммированных данных. Эксперименты на веб-агентах различного масштаба на трех бенчмарках показывают, что ReSum обеспечивает среднее абсолютное улучшение на 4,5\% по сравнению с ReAct, с дополнительным приростом до 8,2\% после обучения ReSum-GRPO. Примечательно, что с использованием всего 1K обучающих выборок наш WebResummer-30B (версия WebSailor-30B, обученная с использованием ReSum-GRPO) достигает 33,3\% Pass@1 на BrowseComp-zh и 18,3\% на BrowseComp-en, превосходя существующие открытые веб-агенты.
Продвинутый агентный интеллект является необходимым условием для внедрения крупных языковых моделей в практические, реальные приложения. Разнообразные API реального мира требуют точного и надежного интеллекта для вызова функций, что требует от агентов развития этих способностей через взаимодействие в различных средах. Широта компетенции в вызове функций тесно связана с разнообразием сред, в которых обучаются агенты. В данной работе мы масштабируем среды как шаг к развитию общего агентного интеллекта. Это порождает две ключевые задачи: (i) как масштабировать среды систематически и (ii) как эффективно обучать агентные способности на основе опыта, полученного через взаимодействие с этими средами. Для решения этих задач мы разрабатываем масштабируемую структуру, которая автоматически создает гетерогенные, полностью симулированные среды, систематически расширяя пространство сценариев вызова функций. Мы также адаптируем двухэтапную стратегию тонкой настройки агентов: сначала наделяя агентов базовыми агентными способностями, а затем специализируя их для конкретных предметных областей. Экстенсивные эксперименты на агентных бенчмарках, tau-bench, tau2-Bench и ACEBench, демонстрируют, что наша обученная модель, AgentScaler, значительно улучшает способность моделей к вызову функций.
Последние достижения в системах глубокого исследования продемонстрировали потенциал ИИ-агентов для автономного обнаружения и синтеза знаний из внешних источников. В данной статье мы представляем WebResearcher, новую платформу для создания таких агентов, основанную на двух ключевых компонентах: (1) WebResearcher, итеративная парадигма глубокого исследования, которая переформулирует глубокое исследование как процесс принятия решений Маркова, где агенты периодически объединяют результаты в эволюционирующие отчеты, сохраняя при этом сфокусированные рабочие пространства, что позволяет преодолеть проблемы контекстного удушения и шумового загрязнения, характерные для существующих моно-контекстных подходов; и (2) WebFrontier, масштабируемый механизм синтеза данных, который генерирует высококачественные обучающие данные за счет инструментально-усиленного усложнения, что позволяет систематически создавать исследовательские задачи, устраняющие разрыв между пассивным воспроизведением знаний и активным их конструированием. Примечательно, что обучающие данные, полученные в рамках нашей парадигмы, значительно улучшают способности к использованию инструментов даже для традиционных моно-контекстных методов. Кроме того, наша парадигма естественным образом масштабируется за счет параллельного мышления, позволяя одновременное исследование несколькими агентами для получения более комплексных выводов. Многочисленные эксперименты на 6 сложных тестовых наборах демонстрируют, что WebResearcher достигает наилучших результатов, превосходя даже передовые проприетарные системы.
Создание высококачественных 3D-ассетов, являющееся краеугольным камнем современной разработки игр, традиционно связано с трудоемкими и специализированными процессами. В данной статье представлена платформа Hunyuan3D Studio — сквозная система для создания контента на основе искусственного интеллекта, призванная революционизировать производственный конвейер игр за счет автоматизации и упрощения генерации готовых к использованию 3D-ассетов. В основе Hunyuan3D Studio лежит интеграция набора передовых нейронных модулей (таких как генерация 3D-моделей на уровне частей, генерация полигонов, семантическое UV-развертывание и др.) в единую и удобную для пользователя систему. Этот унифицированный фреймворк позволяет быстро преобразовать одно концептуальное изображение или текстовое описание в полноценную 3D-модель производственного качества, включая оптимизированную геометрию и высокодетализированные PBR-текстуры. Мы демонстрируем, что ассеты, созданные с помощью Hunyuan3D Studio, не только визуально привлекательны, но и соответствуют строгим техническим требованиям современных игровых движков, значительно сокращая время итераций и снижая порог входа в создание 3D-контента. Предоставляя бесшовный переход от творческого замысла к техническому ассету, Hunyuan3D Studio представляет собой значительный шаг вперед в использовании ИИ-ассистированных рабочих процессов в разработке игр и интерактивных медиа.
Мы пересматриваем оптимизацию на основе градиента политики для крупных языковых моделей (LLM) с точки зрения единого потока. Преобладающие групповые методы, такие как GRPO, снижают дисперсию с использованием динамических базовых уровней, но страдают от критических недостатков: частые вырожденные группы стирают сигналы обучения, а барьеры синхронизации препятствуют масштабируемости. Мы представляем оптимизацию политики с единым потоком (SPO), которая устраняет эти проблемы за счет своей конструкции. SPO заменяет групповые базовые уровни на постоянный, адаптивный к KL трекер значений и нормализует преимущества глобально по всей выборке, обеспечивая стабильный сигнал обучения с низкой дисперсией для каждого образца. Благодаря отсутствию групп, SPO обеспечивает более высокую пропускную способность и эффективно масштабируется в условиях длительных горизонтов или интеграции инструментов, где время генерации варьируется. Кроме того, постоянный трекер значений естественным образом позволяет реализовать адаптивную учебную программу через приоритетное семплирование. Эксперименты с использованием Qwen3-8B показывают, что SPO сходится более плавно и достигает более высокой точности, чем GRPO, при этом устраняя вычислительные затраты на вырожденные группы. Абляционные исследования подтверждают, что преимущества SPO обусловлены её принципиальным подходом к оценке базовых уровней и нормализации преимуществ, предлагая более надежный и эффективный путь для рассуждений LLM. На пяти сложных математических бенчмарках с Qwen3 8B SPO улучшает средний показатель maj@32 на +3,4 процентных пункта (п.п.) по сравнению с GRPO, что обусловлено значительными абсолютными приростами на сложных наборах данных, включая +7,3 п.п. на BRUMO 25, +4,4 п.п. на AIME 25, +3,3 п.п. на HMMT 25, и достигает стабильного относительного прироста в pass@k по всем оцененным значениям k. Успех SPO бросает вызов преобладающей тенденции добавления случайной сложности в алгоритмы обучения с подкреплением, подчеркивая путь, где фундаментальные принципы, а не архитектурные обходные решения, двигают следующую волну прогресса в рассуждениях LLM.
Мы представляем модель пространственного восприятия 3D (SR-3D), которая объединяет однокадровые 2D изображения и многокадровые 3D данные через общее пространство визуальных токенов. SR-3D поддерживает гибкое выделение регионов, позволяя пользователям аннотировать области с помощью ограничивающих рамок, масок сегментации на любом кадре или непосредственно в 3D, без необходимости трудоемкой разметки на нескольких кадрах. Это достигается за счет обогащения 2D визуальных признаков 3D позиционными эмбеддингами, что позволяет 3D модели использовать сильные 2D априорные данные для более точного пространственного анализа между кадрами, даже когда объекты интереса не присутствуют в одном и том же виде. Многочисленные эксперименты на общих 2D визуально-языковых и специализированных 3D пространственных тестах демонстрируют, что SR-3D достигает наилучших результатов, подчеркивая ее эффективность в объединении 2D и 3D пространств представлений для понимания сцен. Более того, мы наблюдаем применимость модели к видео в реальных условиях без сенсорных 3D входных данных или эталонных 3D аннотаций, где SR-3D точно выводит пространственные отношения и метрические измерения.
Крупные языковые модели (LLM) недавно продвинули область автоматического доказательства теорем (ATP), достигнув значительного улучшения производительности благодаря широко применяемым стратегиям масштабирования на этапе тестирования, в частности, рефлексивному рассуждению "цепочка мыслей" (CoT) и увеличению количества проходов выборки. Однако обе стратегии вносят существенные вычислительные затраты на этапе вывода. Более того, существующие анализы затрат обычно регулируют только количество проходов выборки, игнорируя значительные различия в стоимости выборки, вносимые разными стратегиями масштабирования. В данной работе мы систематически сравниваем эффективность различных стратегий масштабирования на этапе тестирования для моделей ATP и демонстрируем неэффективность современных (SOTA) подходов с открытым исходным кодом. Затем мы исследуем подходы к значительному сокращению использования токенов и количества проходов выборки при сохранении исходной производительности. В частности, мы предлагаем два взаимодополняющих метода, которые могут быть интегрированы в единый конвейер EconRL для усиления преимуществ: (1) механизм динамического переключения "цепочки мыслей" (CoT), предназначенный для снижения избыточного потребления токенов, и (2) разнообразное параллельное масштабированное обучение с подкреплением (RL) с обучаемыми префиксами для повышения успешности проходов при ограниченном количестве выборок. Эксперименты на наборах данных miniF2F и ProofNet демонстрируют, что наш подход EconProver достигает сопоставимой производительности с базовыми методами при использовании всего 12% вычислительных затрат. Эта работа предоставляет практические рекомендации для развертывания облегченных моделей ATP без ущерба для производительности.
Люди демонстрируют поразительную эффективность в использовании данных при адаптации к новым, ранее не встречавшимся условиям, например, при управлении новым автомобилем. В отличие от этого, современные системы управления роботами, такие как политики на основе нейронных сетей, обученные с использованием обучения с подкреплением (Reinforcement Learning, RL), чрезвычайно специализированы для работы в отдельных средах. Из-за этого переобучения они часто выходят из строя даже при небольших изменениях, таких как разрыв между симуляцией и реальностью (Simulation-to-Reality, Sim2Real), и требуют идентификации системы и повторного обучения даже при минимальных изменениях. В данной работе мы представляем RAPTOR — метод обучения высокоадаптивной базовой политики для управления квадрокоптерами. Наш метод позволяет обучить единую сквозную политику на основе нейронной сети для управления широким спектром квадрокоптеров. Мы тестируем 10 различных реальных квадрокоптеров массой от 32 г до 2,4 кг, которые также различаются по типу двигателей (коллекторные vs. бесколлекторные), типу рамы (мягкая vs. жесткая), типу пропеллеров (2/3/4-лопастные) и полетному контроллеру (PX4/Betaflight/Crazyflie/M5StampFly). Мы обнаружили, что крошечная политика из трех слоев с всего 2084 параметрами достаточна для адаптации без дообучения (zero-shot) к широкому спектру платформ. Адаптация через обучение в контексте (In-Context Learning) становится возможной благодаря использованию рекуррентности в скрытом слое. Политика обучается с помощью нового алгоритма Meta-Imitation Learning, где мы выбираем 1000 квадрокоптеров и обучаем учительскую политику для каждого из них с использованием обучения с подкреплением. Затем 1000 учителей объединяются в единую адаптивную студенческую политику. Мы обнаруживаем, что полученная базовая политика адаптируется без дообучения к новым квадрокоптерам за миллисекунды. Мы тщательно тестируем возможности базовой политики в различных условиях (отслеживание траектории, помещение/открытое пространство, ветровые помехи, толчки, разные пропеллеры).
Мультимодальное рассуждение остается фундаментальной задачей в области искусственного интеллекта. Несмотря на значительные успехи в текстовом анализе, даже передовые модели, такие как GPT-3, испытывают трудности с поддержанием высокой производительности в мультимодальных сценариях. Для преодоления этого разрыва мы представляем фреймворк рассуждений с использованием подписей, который эффективно связывает визуальные и текстовые модальности. Наш подход занял первое место на воркшопе и соревновании ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, что подчеркивает его эффективность и надежность. Кроме того, мы подтверждаем его обобщающую способность на бенчмарке MathVerse для геометрических рассуждений, демонстрируя универсальность нашего метода. Наш код доступен публично по адресу https://github.com/OpenDCAI/SciReasoner.
Мы представляем Stable Part Diffusion 4D (SP4D) — фреймворк для генерации парных RGB и кинематических сегментационных видео на основе моноокулярных входных данных. В отличие от традиционных методов сегментации частей, которые полагаются на семантические признаки, основанные на внешнем виде, SP4D обучается создавать кинематические части — структурные компоненты, выровненные по артикуляции объекта и согласованные между видами и временем. SP4D использует двухветвевую диффузионную модель, которая совместно синтезирует RGB-кадры и соответствующие карты сегментации частей. Для упрощения архитектуры и гибкого управления количеством частей мы вводим схему пространственного цветового кодирования, которая отображает маски частей в непрерывные RGB-подобные изображения. Это кодирование позволяет ветви сегментации использовать общий латентный VAE из RGB-ветви, при этом восстановление сегментации частей осуществляется с помощью простой постобработки. Модуль Bidirectional Diffusion Fusion (BiDiFuse) улучшает согласованность между ветвями, поддерживаемый контрастным loss-функцией согласованности частей для обеспечения пространственного и временного выравнивания предсказаний частей. Мы показываем, что сгенерированные 2D-карты частей могут быть преобразованы в 3D для получения скелетных структур и весов гармонической скиннинга с минимальными ручными корректировками. Для обучения и оценки SP4D мы создали KinematicParts20K — тщательно отобранный набор данных, содержащий более 20K риггированных объектов, выбранных и обработанных из Objaverse XL (Deitke et al., 2023), каждый из которых сопровождается многовидовыми RGB и сегментационными видео-последовательностями. Эксперименты показывают, что SP4D демонстрирует высокую обобщаемость для различных сценариев, включая реальные видео, новые сгенерированные объекты и редкие артикулированные позы, создавая кинематически осознанные выходные данные, подходящие для задач анимации и работы с движением.
В последнее время мультимодальные большие языковые модели (MLLMs) привлекли значительное внимание в различных областях. Однако их широкое распространение также вызвало серьезные опасения в отношении безопасности. В данной статье мы выявляем новый риск безопасности MLLMs: предпочтения вывода моделей могут быть произвольно манипулированы с помощью тщательно оптимизированных изображений. Такие атаки часто генерируют контекстуально релевантные, но предвзятые ответы, которые не являются явно вредными или неэтичными, что затрудняет их обнаружение. В частности, мы представляем новый метод, называемый "Перехват предпочтений" (Phi), для манипуляции предпочтениями ответов MLLMs с использованием изображения с перехваченными предпочтениями. Наш метод работает на этапе вывода и не требует модификации модели. Кроме того, мы вводим универсальное возмущение для перехвата — переносимый компонент, который может быть встроен в различные изображения для перехвата ответов MLLMs в сторону предпочтений, заданных злоумышленником. Экспериментальные результаты на различных задачах демонстрируют эффективность нашего подхода. Код для Phi доступен по адресу https://github.com/Yifan-Lan/Phi.
Мы представляем новую методику обучения под названием zELO, которая оптимизирует производительность поиска на основе анализа, что задачи ранжирования статически эквивалентны модели Терстоуна. На основе метода zELO мы используем неразмеченные данные для обучения набора современных моделей ранжирования с открытыми весами: zerank-1 и zerank-1-small. Эти модели достигают наивысших показателей поиска в различных областях, включая финансы, право, код и STEM, превосходя проприетарные ранжирующие системы с закрытым исходным кодом по метрикам NDCG@10 и Recall. Модели также демонстрируют высокую универсальность, сохраняя свою производительность в условиях 0-shot на данных из других доменов и на частных наборах данных клиентов. Обучающие данные включали 112 000 запросов и 100 документов на каждый запрос, а обучение проводилось сквозным образом на неразмеченных запросах и документах менее чем за 10 000 часов на GPU H100.
Мы предлагаем простое, полностью корректное и минимально зависящее от предположений решение для спорного "расширения области" в Шаге 9 недавнего алгоритма для решеток с оконным квантовым преобразованием Фурье (QFT) и комплексно-гауссовыми окнами~chen2024quantum. Опубликованный Шаг~9 страдает от несоответствия периодичности и носителя. Мы представляем конструкцию с попарным сдвигом и разностью, которая когерентно устраняет все неизвестные смещения, создает точное равномерное состояние CRT-класса над Z_{P}, а затем использует QFT для обеспечения задуманного модулярного линейного соотношения. Унитарный оператор является обратимым, использует поли(log M_2) вентилей и сохраняет асимптотику алгоритма. Страница проекта: https://github.com/yifanzhang-pro/quantum-lattice.
Последние достижения в области сжатия больших языковых моделей (LLM), такие как квантование и прореживание, достигли значительных успехов. Однако, по мере того как эти методы постепенно приближаются к своим пределам, дальнейшее сжатие с использованием одного метода становится всё более сложной задачей. В данной работе мы исследуем альтернативное решение, комбинируя квантование и разреженность. Этот совместный подход, хотя и перспективный, вводит новые сложности из-за изначально противоречивых требований к распределению весов: квантование предпочитает компактные диапазоны, в то время как прореживание выигрывает от высокой дисперсии. Для решения этой проблемы мы предлагаем Optimal Brain Restoration (OBR) — общий и не требующий обучения фреймворк, который согласует прореживание и квантование через компенсацию ошибок между ними. OBR минимизирует ухудшение производительности на целевых задачах, основываясь на целевой функции второго порядка (гессиан), которая затем преобразуется в решаемую задачу через суррогатную аппроксимацию и в конечном итоге приводит к замкнутому решению через групповую компенсацию ошибок. Эксперименты показывают, что OBR позволяет достичь агрессивного квантования W4A4KV4 с 50% разреженностью на существующих LLM, обеспечивая ускорение до 4.72x и сокращение памяти до 6.4x по сравнению с базовым вариантом FP16-dense.
Континуумные роботы продвигают процедуры бронхоскопии, обеспечивая доступ к сложным участкам дыхательных путей и позволяя проводить целевые вмешательства. Однако их развитие ограничено отсутствием реалистичных сред для обучения и тестирования: сбор реальных данных затруднен из-за этических ограничений и соображений безопасности пациентов, а разработка алгоритмов автономии требует реалистичной визуализации и физической обратной связи. Мы представляем ROOM (Realistic Optical Observation in Medicine) — комплексную симуляционную платформу, предназначенную для генерации фотореалистичных данных для обучения бронхоскопии. Используя КТ-сканы пациентов, наш конвейер создает мультимодальные сенсорные данные, включая RGB-изображения с реалистичным шумом и световыми бликами, метрические карты глубины, нормали поверхности, оптический поток и облака точек в масштабах, релевантных для медицины. Мы проверяем данные, сгенерированные ROOM, на двух классических задачах для медицинской робототехники — оценке позы по нескольким видам и монохроматической оценке глубины, демонстрируя разнообразные вызовы, которые передовые методы должны преодолеть для применения в медицинских условиях. Кроме того, мы показываем, что данные, созданные ROOM, можно использовать для тонкой настройки существующих моделей оценки глубины, чтобы справиться с этими вызовами, а также для других приложений, таких как навигация. Мы ожидаем, что ROOM позволит генерировать данные в больших масштабах для различных анатомий пациентов и сценариев процедур, которые сложно зафиксировать в клинических условиях. Код и данные: https://github.com/iamsalvatore/room.
Оцифровка патологических изображений в гигапиксельные Whole Slide Images (WSI) открыла новые возможности для вычислительной патологии (Computational Pathology, CPath). Поскольку положительная ткань составляет лишь небольшую часть гигапиксельных WSI, существующие методы обучения с множественными экземплярами (Multiple Instance Learning, MIL) обычно сосредоточены на идентификации значимых экземпляров с помощью механизмов внимания. Однако это приводит к смещению в сторону легко классифицируемых экземпляров, в то время как сложные остаются без внимания. Недавние исследования показали, что сложные примеры играют ключевую роль в точном моделировании дискриминативных границ. Применяя эту идею на уровне экземпляров, мы разработали новую MIL-структуру с маскированным поиском сложных экземпляров (Masked Hard Instance Mining, MHIM-MIL), которая использует сиамскую архитектуру с ограничением согласованности для выявления сложных экземпляров. Используя вероятностную оценку экземпляров с учетом класса, MHIM-MIL применяет модель-учитель с импульсом для маскирования значимых экземпляров и неявного поиска сложных экземпляров для обучения модели-ученика. Для получения разнообразных и не избыточных сложных экземпляров мы применяем масштабное случайное маскирование, одновременно используя глобальную рециркуляционную сеть для минимизации риска потери ключевых признаков. Кроме того, модель-ученик обновляет модель-учитель с помощью экспоненциального скользящего среднего, что позволяет выявлять новые сложные экземпляры для последующих итераций обучения и стабилизирует процесс оптимизации. Результаты экспериментов по диагностике рака, классификации подтипов, анализу выживаемости и 12 тестовых наборов данных демонстрируют, что MHIM-MIL превосходит последние методы как по производительности, так и по эффективности. Код доступен по адресу: https://github.com/DearCaat/MHIM-MIL.
Генерация синтетических данных с дифференциальной приватностью (DP) представляет собой перспективный метод использования приватных наборов данных, которые в противном случае не могут быть раскрыты для обучения моделей или других аналитических задач. Хотя значительная часть научной литературы сосредоточена на генерации приватных неструктурированных текстовых и графических данных, в корпоративной среде более распространены структурированные данные (например, табличные), часто включающие поля или компоненты с естественным языком. Существующие методы оценки синтетических данных (например, FID) с трудом учитывают структурные свойства и корреляции таких наборов данных. В данной работе мы предлагаем Struct-Bench — фреймворк и эталонный набор для оценки синтетических данных, полученных из структурированных наборов, содержащих данные на естественном языке. Фреймворк Struct-Bench требует от пользователей предоставления представления структуры их набора данных в виде контекстно-свободной грамматики (КСГ). Наш эталонный набор включает 5 реальных и 2 синтетически сгенерированных набора данных, каждый из которых аннотирован КСГ. Мы показываем, что эти наборы данных представляют значительную сложность даже для современных методов генерации синтетических данных с DP. Struct-Bench также включает эталонные реализации различных метрик и таблицу лидеров, предоставляя исследователям стандартизированную платформу для оценки и изучения методов генерации синтетических данных с сохранением приватности. Кроме того, мы представляем кейс-стади, демонстрирующий, как использовать Struct-Bench для улучшения качества синтетических данных, генерируемых методом Private Evolution (PE) на структурированных данных. Эталонный набор и таблица лидеров доступны публично по адресу https://struct-bench.github.io.
Автоматическое дифференцирование через алгоритмы цифровой обработки сигналов для виртуального аналогового моделирования в последнее время приобрело популярность. Эти алгоритмы, как правило, более вычислительно эффективны, чем черные ящики нейронных сетей, которые полагаются на плотные матричные умножения. Благодаря своей дифференцируемой природе, они могут быть интегрированы с нейронными сетями и совместно обучены с использованием алгоритмов градиентного спуска, что приводит к созданию более эффективных систем. Кроме того, алгоритмы обработки сигналов имеют значительно меньше параметров, чем нейронные сети, что позволяет применять метод Ньютона-Рафсона. Этот метод обеспечивает более быструю и устойчивую сходимость по сравнению с градиентным спуском, хотя и требует квадратичного объема памяти. В данной статье представлен метод эмуляции аналоговых усилителей уровня с использованием прямого цифрового компрессора, параметры которого оптимизированы с помощью метода Ньютона-Рафсона. Мы демонстрируем, что цифровой компрессор может успешно аппроксимировать поведение нашего целевого устройства — Teletronix LA-2A. Различные стратегии вычисления матрицы Гессе сравниваются в рамках бенчмарков. Мы используем параллельные алгоритмы для рекурсивных фильтров, чтобы обеспечить эффективное обучение на современных графических процессорах. Полученная модель реализована в виде VST-плагина и опубликована в открытом доступе по адресу https://github.com/aim-qmul/4a2a.