AutoMIA: Улучшенные базовые методы для атаки на вывод членства с помощью агентного самоисследования

Аннотация

Атаки на вывод членства (MIA) служат фундаментальным инструментом аудита для оценки утечки обучающих данных в моделях машинного обучения. Однако существующие методики в основном опираются на статические, созданные вручную эвристики, которым не хватает адаптивности, что часто приводит к неоптимальной производительности при переносе между различными большими моделями. В данной работе мы предлагаем AutoMIA, агентный фреймворк, который переформулирует задачу вывода членства как автоматизированный процесс самоисследования и эволюции стратегий. Получая высокоуровневые спецификации сценария, AutoMIA самостоятельно исследует пространство атак, генерируя исполняемые стратегии на уровне логитов и постепенно совершенствуя их на основе замкнутой обратной связи от оценки. Благодаря разделению абстрактного стратегического планирования и низкоуровневого исполнения, наш фреймворк обеспечивает систематический, модельно-независимый обход пространства поиска атак. Многочисленные эксперименты демонстрируют, что AutoMIA стабильно соответствует или превосходит современные базовые методы, одновременно устраняя необходимость в ручном проектировании признаков.

English

Membership Inference Attacks (MIAs) serve as a fundamental auditing tool for evaluating training data leakage in machine learning models. However, existing methodologies predominantly rely on static, handcrafted heuristics that lack adaptability, often leading to suboptimal performance when transferred across different large models. In this work, we propose AutoMIA, an agentic framework that reformulates membership inference as an automated process of self-exploration and strategy evolution. Given high-level scenario specifications, AutoMIA self-explores the attack space by generating executable logits-level strategies and progressively refining them through closed-loop evaluation feedback. By decoupling abstract strategy reasoning from low-level execution, our framework enables a systematic, model-agnostic traversal of the attack search space. Extensive experiments demonstrate that AutoMIA consistently matches or outperforms state-of-the-art baselines while eliminating the need for manual feature engineering.

AutoMIA: Улучшенные базовые методы для атаки на вывод членства с помощью агентного самоисследования

AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

Аннотация

Support