RepText: Визуализация текста через репликациюRepText: Rendering Visual Text via Replicating
Хотя современные модели генерации изображений из текста достигли значительных прорывов в создании визуально привлекательных изображений, их способность генерировать точные и гибкие типографические элементы, особенно для нелатинских алфавитов, остается ограниченной. Чтобы устранить эти ограничения, мы исходим из наивного предположения, что понимание текста является лишь достаточным, но не необходимым условием для его визуализации. На основе этого мы представляем RepText, который призван расширить возможности предварительно обученных монолингвальных моделей генерации изображений из текста, позволяя им точно визуализировать, или, точнее, воспроизводить, многоязычный визуальный текст в указанных пользователем шрифтах, без необходимости его реального понимания. В частности, мы используем настройки из ControlNet и дополнительно интегрируем языково-независимые глифы и позиции визуализированного текста, чтобы обеспечить генерацию гармоничного визуального текста, позволяя пользователям настраивать содержание текста, шрифт и позицию в соответствии с их потребностями. Для повышения точности используется перцептивная потеря текста наряду с диффузионной потерей. Кроме того, для стабилизации процесса визуализации на этапе вывода мы напрямую инициализируем шумные латентные глифы вместо случайной инициализации и применяем маски областей, чтобы ограничить инъекцию признаков только областью текста, избегая искажения фона. Мы провели обширные эксперименты, чтобы подтвердить эффективность нашего RepText по сравнению с существующими работами. Наш подход превосходит существующие открытые методы и достигает сопоставимых результатов с нативными многоязычными закрытыми моделями. Для большей справедливости мы также подробно обсуждаем его ограничения в конце.