Édition d'images pilotée par les réseaux neuronaux
Neural-Driven Image Editing
July 7, 2025
papers.authors: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI
papers.abstract
L'édition d'images traditionnelle repose généralement sur des instructions manuelles, ce qui la rend laborieuse et inaccessible aux personnes ayant des capacités motrices ou langagières limitées. En exploitant les avancées récentes des interfaces cerveau-ordinateur (BCI) et des modèles génératifs, nous proposons LoongX, une approche d'édition d'images sans contact pilotée par des signaux neurophysiologiques multimodaux. LoongX utilise des modèles de diffusion de pointe entraînés sur un ensemble de données complet de 23 928 paires d'édition d'images, chacune associée à des signaux synchronisés d'électroencéphalographie (EEG), de spectroscopie fonctionnelle dans le proche infrarouge (fNIRS), de photopléthysmographie (PPG) et de mouvements de la tête, captant ainsi l'intention de l'utilisateur. Pour traiter efficacement l'hétérogénéité de ces signaux, LoongX intègre deux modules clés. Le module d'espace d'état multi-échelle (CS3) encode des caractéristiques spécifiques à chaque modalité. Le module de fusion dynamique à portes (DGF) agrège ensuite ces caractéristiques dans un espace latent unifié, qui est ensuite aligné avec la sémantique de l'édition via un ajustement fin sur un transformateur de diffusion (DiT). De plus, nous pré-entraînons les encodeurs en utilisant l'apprentissage contrastif pour aligner les états cognitifs avec les intentions sémantiques issues du langage naturel intégré. Des expériences approfondies démontrent que LoongX atteint des performances comparables aux méthodes pilotées par texte (CLIP-I : 0,6605 contre 0,6558 ; DINO : 0,4812 contre 0,4636) et les surpasse lorsque les signaux neuronaux sont combinés à la parole (CLIP-T : 0,2588 contre 0,2549). Ces résultats mettent en lumière le potentiel des modèles génératifs pilotés par les signaux neuronaux pour permettre une édition d'images accessible et intuitive, et ouvrent de nouvelles perspectives pour les technologies créatives pilotées par la cognition. Les ensembles de données et le code seront publiés pour soutenir les travaux futurs et favoriser les progrès dans ce domaine émergent.
English
Traditional image editing typically relies on manual prompting, making it
labor-intensive and inaccessible to individuals with limited motor control or
language abilities. Leveraging recent advances in brain-computer interfaces
(BCIs) and generative models, we propose LoongX, a hands-free image editing
approach driven by multimodal neurophysiological signals. LoongX utilizes
state-of-the-art diffusion models trained on a comprehensive dataset of 23,928
image editing pairs, each paired with synchronized electroencephalography
(EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography
(PPG), and head motion signals that capture user intent. To effectively address
the heterogeneity of these signals, LoongX integrates two key modules. The
cross-scale state space (CS3) module encodes informative modality-specific
features. The dynamic gated fusion (DGF) module further aggregates these
features into a unified latent space, which is then aligned with edit semantics
via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train
the encoders using contrastive learning to align cognitive states with semantic
intentions from embedded natural language. Extensive experiments demonstrate
that LoongX achieves performance comparable to text-driven methods (CLIP-I:
0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural
signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results
highlight the promise of neural-driven generative models in enabling
accessible, intuitive image editing and open new directions for
cognitive-driven creative technologies. Datasets and code will be released to
support future work and foster progress in this emerging area.