ChatPaper.aiChatPaper

Modifica delle immagini guidata da reti neurali

Neural-Driven Image Editing

July 7, 2025
Autori: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI

Abstract

L'editing tradizionale delle immagini si basa tipicamente su prompt manuali, rendendolo laborioso e inaccessibile per individui con limitato controllo motorio o abilità linguistiche. Sfruttando i recenti progressi nelle interfacce cervello-computer (BCI) e nei modelli generativi, proponiamo LoongX, un approccio hands-free per l'editing delle immagini guidato da segnali neurofisiologici multimodali. LoongX utilizza modelli di diffusione all'avanguardia addestrati su un dataset completo di 23.928 coppie di editing di immagini, ciascuna associata a segnali sincronizzati di elettroencefalografia (EEG), spettroscopia nel vicino infrarosso funzionale (fNIRS), fotopletismografia (PPG) e movimenti della testa che catturano l'intento dell'utente. Per affrontare efficacemente l'eterogeneità di questi segnali, LoongX integra due moduli chiave. Il modulo cross-scale state space (CS3) codifica caratteristiche informative specifiche per ciascuna modalità. Il modulo dynamic gated fusion (DGF) aggrega ulteriormente queste caratteristiche in uno spazio latente unificato, che viene poi allineato con la semantica dell'editing tramite fine-tuning su un transformer di diffusione (DiT). Inoltre, pre-addestriamo gli encoder utilizzando l'apprendimento contrastivo per allineare gli stati cognitivi con le intenzioni semantiche derivate dal linguaggio naturale incorporato. Esperimenti estensivi dimostrano che LoongX raggiunge prestazioni comparabili ai metodi guidati da testo (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) e li supera quando i segnali neurali sono combinati con il parlato (CLIP-T: 0.2588 vs. 0.2549). Questi risultati evidenziano il potenziale dei modelli generativi guidati da segnali neurali nel rendere l'editing delle immagini accessibile e intuitivo, aprendo nuove direzioni per le tecnologie creative guidate dalla cognizione. Dataset e codice verranno rilasciati per supportare lavori futuri e favorire il progresso in questo settore emergente.
English
Traditional image editing typically relies on manual prompting, making it labor-intensive and inaccessible to individuals with limited motor control or language abilities. Leveraging recent advances in brain-computer interfaces (BCIs) and generative models, we propose LoongX, a hands-free image editing approach driven by multimodal neurophysiological signals. LoongX utilizes state-of-the-art diffusion models trained on a comprehensive dataset of 23,928 image editing pairs, each paired with synchronized electroencephalography (EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography (PPG), and head motion signals that capture user intent. To effectively address the heterogeneity of these signals, LoongX integrates two key modules. The cross-scale state space (CS3) module encodes informative modality-specific features. The dynamic gated fusion (DGF) module further aggregates these features into a unified latent space, which is then aligned with edit semantics via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train the encoders using contrastive learning to align cognitive states with semantic intentions from embedded natural language. Extensive experiments demonstrate that LoongX achieves performance comparable to text-driven methods (CLIP-I: 0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results highlight the promise of neural-driven generative models in enabling accessible, intuitive image editing and open new directions for cognitive-driven creative technologies. Datasets and code will be released to support future work and foster progress in this emerging area.
PDF261July 14, 2025