IPAdapter-Instruct: 이미지 기반 조건부에서 모호성 해결을 위한 Instruct 프롬프트
IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts
August 6, 2024
저자: Ciara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné
cs.AI
초록
확산 모델은 최첨단 이미지 생성의 경계를 지속적으로 밀어올리지만, 이 과정은 세심한 제어가 어렵습니다. 실무에서는 텍스트 프롬프트가 이미지 스타일이나 세부 구조적 세부 사항(예: 얼굴)을 정확히 설명하는 데 부족하다는 것이 입증되었습니다. ControlNet과 IPAdapter는 이러한 결점에 대응하기 위해 생성 프로세스를 이미지에 의존하도록 하는데, 그러나 각 개별 인스턴스는 단일 조건부 사후 확률을 모델링하는 데 한정됩니다. 여러 다른 사후 확률이 동일한 워크플로 내에서 원하는 실용적인 사용 사례의 경우, 여러 어댑터를 훈련하고 사용하는 것은 번거롭습니다. 우리는 IPAdapter-Instruct를 제안합니다. 이는 자연 이미지 조건부와 "Instruct" 프롬프트를 결합하여 동일한 조건부 이미지에 대한 해석을 교체하는 데 사용됩니다. 스타일 전이, 객체 추출, 둘 다 또는 그 외 다른 것? IPAdapterInstruct는 전용 각 작업 모델과 비교하여 품질 손실을 최소화하면서 여러 작업을 효율적으로 학습합니다.
English
Diffusion models continuously push the boundary of state-of-the-art image
generation, but the process is hard to control with any nuance: practice proves
that textual prompts are inadequate for accurately describing image style or
fine structural details (such as faces). ControlNet and IPAdapter address this
shortcoming by conditioning the generative process on imagery instead, but each
individual instance is limited to modeling a single conditional posterior: for
practical use-cases, where multiple different posteriors are desired within the
same workflow, training and using multiple adapters is cumbersome. We propose
IPAdapter-Instruct, which combines natural-image conditioning with ``Instruct''
prompts to swap between interpretations for the same conditioning image: style
transfer, object extraction, both, or something else still? IPAdapterInstruct
efficiently learns multiple tasks with minimal loss in quality compared to
dedicated per-task models.Summary
AI-Generated Summary