ChatPaper.aiChatPaper

FlowOpt: 학습 없이 편집하기 위한 전체 흐름 과정 기반 고속 최적화

FlowOpt: Fast Optimization Through Whole Flow Processes for Training-Free Editing

October 24, 2025
저자: Or Ronai, Vladimir Kulikov, Tomer Michaeli
cs.AI

초록

확산 및 흐름 매칭 모델의 놀라운 성공은 제어된 생성 작업을 위해 테스트 시간에 이를 적용하는 연구들의 급증을 불러왔습니다. 이러한 예시로는 이미지 편집부터 복원, 압축 및 개인화에 이르기까지 다양한 분야가 있습니다. 그러나 이러한 모델들의 샘플링 과정이 반복적 특성을 지니기 때문에, 과정 최종 단계에서 생성되는 이미지를 직접 제어하기 위해 그래디언트 기반 최적화를 사용하는 것은 계산적으로 비현실적입니다. 이에 따라 기존 방법들은 일반적으로 각 시간 단계를 개별적으로 조작하는 방식을 취합니다. 본 논문에서는 전체 흐름 과정을 블랙박스로 취급하는 제로오더(그래디언트 프리) 최적화 프레임워크인 FlowOpt을 소개합니다. 이를 통해 모델을 통한 역전파 없이 전체 샘플링 경로를 거쳐 최적화를 수행할 수 있습니다. 우리의 방법은 매우 효율적일 뿐만 아니라, 사용자가 중간 최적화 결과를 모니터링하고 필요 시 조기 중단을 수행할 수 있도록 합니다. 우리는 FlowOpt의 스텝 사이즈에 대한 충분 조건을 증명하며, 이 조건 하에서 전역 최적점으로의 수렴이 보장됨을 보입니다. 또한 적절한 스텝 사이즈를 선택할 수 있도록 이 상한선을 실증적으로 추정하는 방법을 제시합니다. 우리는 FlowOpt이 이미지 편집에 어떻게 활용될 수 있는지를 보여주며, 두 가지 옵션을 제시합니다: (i) 인버전(주어진 이미지를 생성하는 초기 노이즈 결정)과 (ii) 대상 텍스트 프롬프트를 준수하면서 편집된 이미지가 원본 이미지와 유사하도록 직접 조종하는 방법. 두 경우 모두 FlowOpt은 기존 방법들과 대략 동일한 수의 신경망 함수 평가(NFEs)를 사용하면서도 최첨단 결과를 달성합니다. 코드와 예제는 프로젝트 웹페이지에서 확인할 수 있습니다.
English
The remarkable success of diffusion and flow-matching models has ignited a surge of works on adapting them at test time for controlled generation tasks. Examples range from image editing to restoration, compression and personalization. However, due to the iterative nature of the sampling process in those models, it is computationally impractical to use gradient-based optimization to directly control the image generated at the end of the process. As a result, existing methods typically resort to manipulating each timestep separately. Here we introduce FlowOpt - a zero-order (gradient-free) optimization framework that treats the entire flow process as a black box, enabling optimization through the whole sampling path without backpropagation through the model. Our method is both highly efficient and allows users to monitor the intermediate optimization results and perform early stopping if desired. We prove a sufficient condition on FlowOpt's step-size, under which convergence to the global optimum is guaranteed. We further show how to empirically estimate this upper bound so as to choose an appropriate step-size. We demonstrate how FlowOpt can be used for image editing, showcasing two options: (i) inversion (determining the initial noise that generates a given image), and (ii) directly steering the edited image to be similar to the source image while conforming to a target text prompt. In both cases, FlowOpt achieves state-of-the-art results while using roughly the same number of neural function evaluations (NFEs) as existing methods. Code and examples are available on the project's webpage.
PDF21December 31, 2025