PartCraft: 부품 기반 창의적 객체 제작
PartCraft: Crafting Creative Objects by Parts
July 5, 2024
저자: Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang
cs.AI
초록
본 논문은 사용자가 "선택"할 수 있도록 함으로써 생성형 시각 AI에서의 창의적 제어를 추진합니다. 기존의 텍스트 또는 스케치 기반 방법에서 벗어나, 우리는 처음으로 사용자가 창의적 작업을 위해 시각적 개념을 부분적으로 선택할 수 있도록 합니다. 그 결과, 선택된 시각적 개념을 정확히 포착하는 세밀한 생성이 가능하며, 전체적으로 충실하고 그럴듯한 결과를 보장합니다. 이를 위해, 우리는 먼저 비지도 특징 클러스터링을 통해 객체를 부분으로 분해합니다. 그런 다음, 부분을 텍스트 토큰으로 인코딩하고, 이들에 대해 엔트로피 기반 정규화 주의 손실을 도입합니다. 이 손실 설계는 우리 모델이 객체의 부분 구성에 대한 일반적인 사전 토폴로지 지식을 학습하고, 새로운 부분 구성으로 일반화하여 생성이 전체적으로 충실하게 보이도록 합니다. 마지막으로, 우리는 부분 토큰을 투영하기 위해 병목 인코더를 사용합니다. 이는 공유 지식을 활용하고 인스턴스 간 정보 교환을 촉진함으로써 충실도를 향상시키고 학습을 가속화합니다. 논문과 보충 자료의 시각적 결과는 PartCraft가 "매력적"이고 창의적인 새를 예로 들어 매우 맞춤화된 혁신적인 창작물을 제작하는 강력한 능력을 보여줍니다. 코드는 https://github.com/kamwoh/partcraft에서 공개되었습니다.
English
This paper propels creative control in generative visual AI by allowing users
to "select". Departing from traditional text or sketch-based methods, we for
the first time allow users to choose visual concepts by parts for their
creative endeavors. The outcome is fine-grained generation that precisely
captures selected visual concepts, ensuring a holistically faithful and
plausible result. To achieve this, we first parse objects into parts through
unsupervised feature clustering. Then, we encode parts into text tokens and
introduce an entropy-based normalized attention loss that operates on them.
This loss design enables our model to learn generic prior topology knowledge
about object's part composition, and further generalize to novel part
compositions to ensure the generation looks holistically faithful. Lastly, we
employ a bottleneck encoder to project the part tokens. This not only enhances
fidelity but also accelerates learning, by leveraging shared knowledge and
facilitating information exchange among instances. Visual results in the paper
and supplementary material showcase the compelling power of PartCraft in
crafting highly customized, innovative creations, exemplified by the "charming"
and creative birds. Code is released at https://github.com/kamwoh/partcraft.Summary
AI-Generated Summary