BRAT: Token adicional ortogonal para inversión textual agnóstica de arquitectura.
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion
August 8, 2024
Autores: James Baker
cs.AI
Resumen
La inversión textual sigue siendo un método popular para personalizar modelos de difusión, con el fin de enseñar a los modelos nuevos temas y estilos. Observamos que la inversión textual ha sido poco explorada utilizando alternativas a la UNet, y experimentamos con la inversión textual utilizando un transformador de visión. También buscamos optimizar la inversión textual utilizando una estrategia que no requiera el uso explícito de la UNet y sus capas idiosincráticas, por lo que añadimos tokens de bonificación y aplicamos ortogonalidad. Observamos que el uso del token de bonificación mejora la fidelidad a las imágenes fuente y el uso del transformador de visión mejora la fidelidad a la indicación. El código está disponible en https://github.com/jamesBaker361/tex_inv_plus.
English
Textual Inversion remains a popular method for personalizing diffusion
models, in order to teach models new subjects and styles. We note that textual
inversion has been underexplored using alternatives to the UNet, and experiment
with textual inversion with a vision transformer. We also seek to optimize
textual inversion using a strategy that does not require explicit use of the
UNet and its idiosyncratic layers, so we add bonus tokens and enforce
orthogonality. We find the use of the bonus token improves adherence to the
source images and the use of the vision transformer improves adherence to the
prompt. Code is available at https://github.com/jamesBaker361/tex_inv_plus.Summary
AI-Generated Summary