NoHumansRequired: 자율적 고품질 이미지 편집을 위한 트리플릿 마이닝
NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
July 18, 2025
저자: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev
cs.AI
초록
최근 생성 모델링의 발전으로 추가적인 사용자 입력 없이 자연어 지시를 따르는 이미지 편집 도우미가 가능해졌다. 이러한 도우미의 지도 학습에는 수백만 개의 삼중항(원본 이미지, 지시문, 편집된 이미지)이 필요하다. 그러나 픽셀 단위로 정확한 예시를 채굴하는 것은 어려운 작업이다. 각 편집은 프롬프트로 지정된 영역에만 영향을 미치고, 스타일 일관성을 유지하며, 물리적 타당성을 존중하고, 시각적 매력을 유지해야 한다. 강력한 자동화된 편집 품질 측정 기준의 부재는 대규모로 신뢰할 수 있는 자동화를 방해한다. 본 연구에서는 도메인, 해상도, 지시문 복잡성, 스타일을 아우르는 고품질 삼중항을 채굴하는 자동화된 모듈식 파이프라인을 제시한다. 공개된 생성 모델을 기반으로 인간의 개입 없이 실행되는 이 시스템은 작업에 맞게 조정된 Gemini 검증기를 사용하여 지시문 준수도와 미적 요소를 직접 평가함으로써 세분화 또는 기반 모델의 필요성을 제거한다. 인버전과 구성적 부트스트래핑을 통해 채굴된 데이터 세트를 약 2.2배 확장하여 대규모 고품질 학습 데이터를 가능하게 한다. 가장 반복적인 주석 단계를 자동화함으로써, 이 접근법은 인간의 라벨링 노력 없이도 새로운 규모의 학습을 가능하게 한다. 이 자원 집약적인 분야의 연구를 민주화하기 위해, 우리는 358,000개의 고품질 삼중항으로 구성된 공개 데이터셋인 NHR-Edit를 공개한다. 가장 큰 규모의 교차 데이터셋 평가에서 이 데이터셋은 모든 공개 대안을 능가한다. 또한, 우리는 공개 소스로 조정된 Bagel 모델인 Bagel-NHR-Edit를 공개하며, 이는 우리의 실험에서 최첨단 지표를 달성한다.
English
Recent advances in generative modeling enable image editing assistants that
follow natural language instructions without additional user input. Their
supervised training requires millions of triplets: original image, instruction,
edited image. Yet mining pixel-accurate examples is hard. Each edit must affect
only prompt-specified regions, preserve stylistic coherence, respect physical
plausibility, and retain visual appeal. The lack of robust automated
edit-quality metrics hinders reliable automation at scale. We present an
automated, modular pipeline that mines high-fidelity triplets across domains,
resolutions, instruction complexities, and styles. Built on public generative
models and running without human intervention, our system uses a task-tuned
Gemini validator to score instruction adherence and aesthetics directly,
removing any need for segmentation or grounding models. Inversion and
compositional bootstrapping enlarge the mined set by approximately 2.2x,
enabling large-scale high-fidelity training data. By automating the most
repetitive annotation steps, the approach allows a new scale of training
without human labeling effort. To democratize research in this
resource-intensive area, we release NHR-Edit: an open dataset of 358k
high-quality triplets. In the largest cross-dataset evaluation, it surpasses
all public alternatives. We also release Bagel-NHR-Edit, an open-source
fine-tuned Bagel model, which achieves state-of-the-art metrics in our
experiments.