ChatPaper.aiChatPaper

ChatGen: Автоматическая генерация изображений из текста при свободном общении

ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting

November 26, 2024
Авторы: Chengyou Jia, Changliang Xia, Zhuohang Dang, Weijia Wu, Hangwei Qian, Minnan Luo
cs.AI

Аннотация

Несмотря на значительные достижения в моделях генерации текста в изображение (T2I), пользователи часто сталкиваются с проблемой проб и ошибок в практических сценариях. Эта проблема возникает из-за сложности и неопределенности утомительных этапов, таких как создание подходящих подсказок, выбор соответствующих моделей и настройка конкретных аргументов, заставляя пользователей прибегать к трудоемким попыткам для получения желаемых изображений. В данной статье предлагается автоматическая генерация T2I, которая направлена на автоматизацию этих утомительных этапов, позволяя пользователям просто описывать свои потребности в свободной форме общения. Для систематического изучения этой проблемы мы вначале представляем ChatGenBench, новый бенчмарк, разработанный для автоматической генерации T2I. Он содержит высококачественные сопоставленные данные с разнообразными свободными входами, обеспечивая всестороннюю оценку автоматических моделей T2I на всех этапах. Кроме того, учитывая автоматическую генерацию T2I как сложную многоэтапную задачу рассуждения, мы предлагаем ChatGen-Evo, стратегию многоэтапной эволюции, которая постепенно оснащает модели необходимыми навыками автоматизации. Через обширную оценку по шаговой точности и качеству изображения ChatGen-Evo значительно улучшает производительность по сравнению с различными базовыми уровнями. Наша оценка также выявляет ценные идеи для продвижения автоматической генерации T2I. Все наши данные, код и модели будут доступны на https://chengyou-jia.github.io/ChatGen-Home
English
Despite the significant advancements in text-to-image (T2I) generative models, users often face a trial-and-error challenge in practical scenarios. This challenge arises from the complexity and uncertainty of tedious steps such as crafting suitable prompts, selecting appropriate models, and configuring specific arguments, making users resort to labor-intensive attempts for desired images. This paper proposes Automatic T2I generation, which aims to automate these tedious steps, allowing users to simply describe their needs in a freestyle chatting way. To systematically study this problem, we first introduce ChatGenBench, a novel benchmark designed for Automatic T2I. It features high-quality paired data with diverse freestyle inputs, enabling comprehensive evaluation of automatic T2I models across all steps. Additionally, recognizing Automatic T2I as a complex multi-step reasoning task, we propose ChatGen-Evo, a multi-stage evolution strategy that progressively equips models with essential automation skills. Through extensive evaluation across step-wise accuracy and image quality, ChatGen-Evo significantly enhances performance over various baselines. Our evaluation also uncovers valuable insights for advancing automatic T2I. All our data, code, and models will be available in https://chengyou-jia.github.io/ChatGen-Home
PDF243November 29, 2024