ChatPaper.aiChatPaper

BRAT: Bonus Orthogonale Token voor Architectuuronafhankelijke Textuele Inversie

BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion

August 8, 2024
Auteurs: James Baker
cs.AI

Samenvatting

Textual Inversion blijft een populaire methode voor het personaliseren van diffusiemodellen, om modellen nieuwe onderwerpen en stijlen aan te leren. We merken op dat textual inversion nog onvoldoende is onderzocht met alternatieven voor de UNet, en experimenteren met textual inversion in combinatie met een vision transformer. We streven er ook naar om textual inversion te optimaliseren met een strategie die geen expliciet gebruik vereist van de UNet en zijn eigenaardige lagen, dus voegen we bonus-tokens toe en handhaven we orthogonaliteit. We ontdekken dat het gebruik van het bonus-token de trouw aan de bronafbeeldingen verbetert en dat het gebruik van de vision transformer de trouw aan de prompt verhoogt. Code is beschikbaar op https://github.com/jamesBaker361/tex_inv_plus.
English
Textual Inversion remains a popular method for personalizing diffusion models, in order to teach models new subjects and styles. We note that textual inversion has been underexplored using alternatives to the UNet, and experiment with textual inversion with a vision transformer. We also seek to optimize textual inversion using a strategy that does not require explicit use of the UNet and its idiosyncratic layers, so we add bonus tokens and enforce orthogonality. We find the use of the bonus token improves adherence to the source images and the use of the vision transformer improves adherence to the prompt. Code is available at https://github.com/jamesBaker361/tex_inv_plus.
PDF92November 28, 2024