BRAT: Bônus de Token Ortogonal para Inversão Textual Agnóstica de Arquitetura
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
August 8, 2024
Autores: James Baker
cs.AI
Resumo
A inversão textual continua a ser um método popular para personalizar modelos de difusão, a fim de ensinar aos modelos novos temas e estilos. Observamos que a inversão textual tem sido pouco explorada utilizando alternativas ao UNet e experimentamos a inversão textual com um transformador de visão. Também buscamos otimizar a inversão textual utilizando uma estratégia que não exija o uso explícito do UNet e suas camadas idiossincráticas, então adicionamos tokens de bônus e aplicamos ortogonalidade. Verificamos que o uso do token de bônus melhora a aderência às imagens de origem e o uso do transformador de visão melhora a aderência ao estímulo. O código está disponível em https://github.com/jamesBaker361/tex_inv_plus.
English
Textual Inversion remains a popular method for personalizing diffusion
models, in order to teach models new subjects and styles. We note that textual
inversion has been underexplored using alternatives to the UNet, and experiment
with textual inversion with a vision transformer. We also seek to optimize
textual inversion using a strategy that does not require explicit use of the
UNet and its idiosyncratic layers, so we add bonus tokens and enforce
orthogonality. We find the use of the bonus token improves adherence to the
source images and the use of the vision transformer improves adherence to the
prompt. Code is available at https://github.com/jamesBaker361/tex_inv_plus.Summary
AI-Generated Summary