Modifica delle immagini guidata da reti neurali
Neural-Driven Image Editing
July 7, 2025
Autori: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI
Abstract
L'editing tradizionale delle immagini si basa tipicamente su prompt manuali, rendendolo laborioso e inaccessibile per individui con limitato controllo motorio o abilità linguistiche. Sfruttando i recenti progressi nelle interfacce cervello-computer (BCI) e nei modelli generativi, proponiamo LoongX, un approccio hands-free per l'editing delle immagini guidato da segnali neurofisiologici multimodali. LoongX utilizza modelli di diffusione all'avanguardia addestrati su un dataset completo di 23.928 coppie di editing di immagini, ciascuna associata a segnali sincronizzati di elettroencefalografia (EEG), spettroscopia nel vicino infrarosso funzionale (fNIRS), fotopletismografia (PPG) e movimenti della testa che catturano l'intento dell'utente. Per affrontare efficacemente l'eterogeneità di questi segnali, LoongX integra due moduli chiave. Il modulo cross-scale state space (CS3) codifica caratteristiche informative specifiche per ciascuna modalità. Il modulo dynamic gated fusion (DGF) aggrega ulteriormente queste caratteristiche in uno spazio latente unificato, che viene poi allineato con la semantica dell'editing tramite fine-tuning su un transformer di diffusione (DiT). Inoltre, pre-addestriamo gli encoder utilizzando l'apprendimento contrastivo per allineare gli stati cognitivi con le intenzioni semantiche derivate dal linguaggio naturale incorporato. Esperimenti estensivi dimostrano che LoongX raggiunge prestazioni comparabili ai metodi guidati da testo (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) e li supera quando i segnali neurali sono combinati con il parlato (CLIP-T: 0.2588 vs. 0.2549). Questi risultati evidenziano il potenziale dei modelli generativi guidati da segnali neurali nel rendere l'editing delle immagini accessibile e intuitivo, aprendo nuove direzioni per le tecnologie creative guidate dalla cognizione. Dataset e codice verranno rilasciati per supportare lavori futuri e favorire il progresso in questo settore emergente.
English
Traditional image editing typically relies on manual prompting, making it
labor-intensive and inaccessible to individuals with limited motor control or
language abilities. Leveraging recent advances in brain-computer interfaces
(BCIs) and generative models, we propose LoongX, a hands-free image editing
approach driven by multimodal neurophysiological signals. LoongX utilizes
state-of-the-art diffusion models trained on a comprehensive dataset of 23,928
image editing pairs, each paired with synchronized electroencephalography
(EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography
(PPG), and head motion signals that capture user intent. To effectively address
the heterogeneity of these signals, LoongX integrates two key modules. The
cross-scale state space (CS3) module encodes informative modality-specific
features. The dynamic gated fusion (DGF) module further aggregates these
features into a unified latent space, which is then aligned with edit semantics
via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train
the encoders using contrastive learning to align cognitive states with semantic
intentions from embedded natural language. Extensive experiments demonstrate
that LoongX achieves performance comparable to text-driven methods (CLIP-I:
0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural
signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results
highlight the promise of neural-driven generative models in enabling
accessible, intuitive image editing and open new directions for
cognitive-driven creative technologies. Datasets and code will be released to
support future work and foster progress in this emerging area.