RepText: Visuele tekst weergeven via replicatieRepText: Rendering Visual Text via Replicating
Hoewel hedendaagse tekst-naar-beeldgeneratiemodellen opmerkelijke doorbraken hebben bereikt in het produceren van visueel aantrekkelijke afbeeldingen, blijft hun vermogen om precieze en flexibele typografische elementen te genereren, met name niet-Latijnse alfabetten, beperkt. Om deze beperkingen aan te pakken, gaan we uit van een naïeve aanname dat tekstbegrip slechts een voldoende voorwaarde is voor tekstweergave, maar geen noodzakelijke voorwaarde. Op basis hiervan presenteren we RepText, dat als doel heeft om vooraf getrainde eentalige tekst-naar-beeldgeneratiemodellen in staat te stellen om meertalige visuele tekst nauwkeurig weer te geven, of meer precies, te repliceren, in door de gebruiker gespecificeerde lettertypen, zonder dat het nodig is om deze tekst echt te begrijpen. Specifiek nemen we de instelling van ControlNet over en integreren we daarnaast taalagnostische glyphs en de positie van weergegeven tekst om het genereren van harmonieuze visuele tekst mogelijk te maken, waardoor gebruikers tekstinhoud, lettertype en positie kunnen aanpassen naar hun behoeften. Om de nauwkeurigheid te verbeteren, wordt een tekstperceptieverlies gebruikt naast het diffusieverlies. Verder, om het weergaveproces te stabiliseren, initialiseren we tijdens de inferentiefase direct met een ruizige glyph latent in plaats van willekeurige initialisatie, en gebruiken we regiomaskers om de feature-injectie te beperken tot alleen het tekstgebied om vervorming van de achtergrond te voorkomen. We hebben uitgebreide experimenten uitgevoerd om de effectiviteit van onze RepText te verifiëren ten opzichte van bestaande werken, waarbij onze aanpak de bestaande open-source methoden overtreft en vergelijkbare resultaten behaalt als native meertalige closed-source modellen. Om eerlijker te zijn, bespreken we aan het einde ook uitgebreid de beperkingen ervan.