BRAT : Token Bonus Orthogonal pour l'Inversion Textuelle Agnostic à l'Architecture
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
August 8, 2024
Auteurs: James Baker
cs.AI
Résumé
L'Inversion Textuelle reste une méthode populaire pour personnaliser les modèles de diffusion, afin d'enseigner aux modèles de nouveaux sujets et styles. Nous constatons que l'inversion textuelle a été peu explorée avec des alternatives à l'UNet, et nous expérimentons l'inversion textuelle avec un transformeur visuel. Nous cherchons également à optimiser l'inversion textuelle en utilisant une stratégie qui ne nécessite pas l'utilisation explicite de l'UNet et de ses couches idiosyncrasiques, nous ajoutons donc des tokens bonus et appliquons une orthogonalité. Nous constatons que l'utilisation du token bonus améliore l'adhérence aux images sources, et que l'utilisation du transformeur visuel améliore l'adhérence au prompt. Le code est disponible à l'adresse https://github.com/jamesBaker361/tex_inv_plus.
English
Textual Inversion remains a popular method for personalizing diffusion
models, in order to teach models new subjects and styles. We note that textual
inversion has been underexplored using alternatives to the UNet, and experiment
with textual inversion with a vision transformer. We also seek to optimize
textual inversion using a strategy that does not require explicit use of the
UNet and its idiosyncratic layers, so we add bonus tokens and enforce
orthogonality. We find the use of the bonus token improves adherence to the
source images and the use of the vision transformer improves adherence to the
prompt. Code is available at https://github.com/jamesBaker361/tex_inv_plus.Summary
AI-Generated Summary