AutoMIA : Amélioration des références pour l'attaque par inférence d'appartenance via l'auto-exploration agentique

Résumé

Les attaques par inférence d'appartenance (MIA) constituent un outil fondamental d'audit pour évaluer la fuite de données d'apprentissage dans les modèles de machine learning. Cependant, les méthodologies existantes reposent principalement sur des heuristiques statiques et artisanales manquant d'adaptabilité, conduisant souvent à des performances sous-optimales lors de leur transfert entre différents grands modèles. Dans ce travail, nous proposons AutoMIA, un cadre agentique qui reformule l'inférence d'appartenance comme un processus automatisé d'auto-exploration et d'évolution stratégique. À partir de spécifications de haut niveau, AutoMIA explore automatiquement l'espace d'attaque en générant des stratégies exécutables au niveau des logits et en les affinant progressivement grâce à un retour d'évaluation en boucle fermée. En dissociant le raisonnement stratégique abstrait de l'exécution de bas niveau, notre cadre permet un parcours systématique et agnostique du modèle dans l'espace de recherche des attaques. Des expériences approfondies démontrent qu'AutoMIA égale ou surpasse systématiquement l'état de l'art tout en éliminant le besoin d'ingénierie manuelle des caractéristiques.

English

Membership Inference Attacks (MIAs) serve as a fundamental auditing tool for evaluating training data leakage in machine learning models. However, existing methodologies predominantly rely on static, handcrafted heuristics that lack adaptability, often leading to suboptimal performance when transferred across different large models. In this work, we propose AutoMIA, an agentic framework that reformulates membership inference as an automated process of self-exploration and strategy evolution. Given high-level scenario specifications, AutoMIA self-explores the attack space by generating executable logits-level strategies and progressively refining them through closed-loop evaluation feedback. By decoupling abstract strategy reasoning from low-level execution, our framework enables a systematic, model-agnostic traversal of the attack search space. Extensive experiments demonstrate that AutoMIA consistently matches or outperforms state-of-the-art baselines while eliminating the need for manual feature engineering.

AutoMIA : Amélioration des références pour l'attaque par inférence d'appartenance via l'auto-exploration agentique

AutoMIA: Improved Baselines for Membership Inference Attack via Agentic Self-Exploration

Résumé

Support