신경망 기반 이미지 편집
Neural-Driven Image Editing
July 7, 2025
저자: Pengfei Zhou, Jie Xia, Xiaopeng Peng, Wangbo Zhao, Zilong Ye, Zekai Li, Suorong Yang, Jiadong Pan, Yuanxiang Chen, Ziqiao Wang, Kai Wang, Qian Zheng, Xiaojun Chang, Gang Pan, Shurong Dong, Kaipeng Zhang, Yang You
cs.AI
초록
전통적인 이미지 편집은 일반적으로 수동 프롬프트에 의존하기 때문에 노동 집약적이며, 운동 제어나 언어 능력이 제한된 개인들에게는 접근하기 어려웠습니다. 최근의 뇌-컴퓨터 인터페이스(BCI)와 생성 모델의 발전을 활용하여, 우리는 다중 모드 신경생리학적 신호에 기반한 핸즈프리 이미지 편집 접근법인 LoongX를 제안합니다. LoongX는 23,928개의 이미지 편집 쌍으로 구성된 포괄적인 데이터셋에서 훈련된 최신 확산 모델을 사용하며, 각 쌍은 사용자 의도를 포착하는 동기화된 뇌전도(EEG), 기능적 근적외선 분광법(fNIRS), 광혈류측정법(PPG), 그리고 머리 움직임 신호와 함께 제공됩니다. 이러한 신호들의 이질성을 효과적으로 해결하기 위해 LoongX는 두 가지 핵심 모듈을 통합합니다. 교차 스케일 상태 공간(CS3) 모듈은 정보가 풍부한 모드별 특징을 인코딩합니다. 동적 게이트 융합(DGF) 모듈은 이러한 특징들을 통합된 잠재 공간으로 집계하며, 이 공간은 확산 트랜스포머(DiT)를 통해 미세 조정되어 편집 의미론과 정렬됩니다. 또한, 우리는 인코더를 대조 학습을 사용하여 사전 훈련시켜 인지 상태를 내장된 자연어의 의미론적 의도와 정렬합니다. 광범위한 실험을 통해 LoongX가 텍스트 기반 방법과 비슷한 성능(CLIP-I: 0.6605 대 0.6558; DINO: 0.4812 대 0.4636)을 달성하고, 신경 신호가 음성과 결합될 때 더 우수한 성능(CLIP-T: 0.2588 대 0.2549)을 보임을 입증했습니다. 이러한 결과는 신경 기반 생성 모델이 접근 가능하고 직관적인 이미지 편집을 가능하게 하는 데 있어서의 잠재력을 강조하며, 인지 기반 창의적 기술을 위한 새로운 방향을 제시합니다. 데이터셋과 코드는 향후 연구를 지원하고 이 신흥 분야의 진전을 촉진하기 위해 공개될 예정입니다.
English
Traditional image editing typically relies on manual prompting, making it
labor-intensive and inaccessible to individuals with limited motor control or
language abilities. Leveraging recent advances in brain-computer interfaces
(BCIs) and generative models, we propose LoongX, a hands-free image editing
approach driven by multimodal neurophysiological signals. LoongX utilizes
state-of-the-art diffusion models trained on a comprehensive dataset of 23,928
image editing pairs, each paired with synchronized electroencephalography
(EEG), functional near-infrared spectroscopy (fNIRS), photoplethysmography
(PPG), and head motion signals that capture user intent. To effectively address
the heterogeneity of these signals, LoongX integrates two key modules. The
cross-scale state space (CS3) module encodes informative modality-specific
features. The dynamic gated fusion (DGF) module further aggregates these
features into a unified latent space, which is then aligned with edit semantics
via fine-tuning on a diffusion transformer (DiT). Additionally, we pre-train
the encoders using contrastive learning to align cognitive states with semantic
intentions from embedded natural language. Extensive experiments demonstrate
that LoongX achieves performance comparable to text-driven methods (CLIP-I:
0.6605 vs. 0.6558; DINO: 0.4812 vs. 0.4636) and outperforms them when neural
signals are combined with speech (CLIP-T: 0.2588 vs. 0.2549). These results
highlight the promise of neural-driven generative models in enabling
accessible, intuitive image editing and open new directions for
cognitive-driven creative technologies. Datasets and code will be released to
support future work and foster progress in this emerging area.