BRAT: Bônus de Token Ortogonal para Inversão Textual Agnóstica de Arquitetura

Resumo

A inversão textual continua a ser um método popular para personalizar modelos de difusão, a fim de ensinar aos modelos novos temas e estilos. Observamos que a inversão textual tem sido pouco explorada utilizando alternativas ao UNet e experimentamos a inversão textual com um transformador de visão. Também buscamos otimizar a inversão textual utilizando uma estratégia que não exija o uso explícito do UNet e suas camadas idiossincráticas, então adicionamos tokens de bônus e aplicamos ortogonalidade. Verificamos que o uso do token de bônus melhora a aderência às imagens de origem e o uso do transformador de visão melhora a aderência ao estímulo. O código está disponível em https://github.com/jamesBaker361/tex_inv_plus.

English

Textual Inversion remains a popular method for personalizing diffusion models, in order to teach models new subjects and styles. We note that textual inversion has been underexplored using alternatives to the UNet, and experiment with textual inversion with a vision transformer. We also seek to optimize textual inversion using a strategy that does not require explicit use of the UNet and its idiosyncratic layers, so we add bonus tokens and enforce orthogonality. We find the use of the bonus token improves adherence to the source images and the use of the vision transformer improves adherence to the prompt. Code is available at https://github.com/jamesBaker361/tex_inv_plus.

BRAT: Bônus de Token Ortogonal para Inversão Textual Agnóstica de Arquitetura

BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion

Resumo

Summary

Support

Support