MIRO: Предварительное обучение с множественными вознаграждениями повышает качество и эффективность генерации изображений по тексту
MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency
October 29, 2025
Авторы: Nicolas Dufour, Lucas Degeorge, Arijit Ghosh, Vicky Kalogeiton, David Picard
cs.AI
Аннотация
Современные генеративные модели для создания изображений по тексту обучаются на больших некурируемых наборах данных, что обеспечивает широкие возможности генерации. Однако это плохо согласуется с предпочтениями пользователей. В последнее время были разработаны оценочные модели, специально предназначенные для последующего отбора сгенерированных изображений и их адаптации к определённому критерию, как правило, предпочтениям пользователя. Такой отбраковка информативных данных вместе с оптимизацией под единственный критерий часто приводит к снижению разнообразия, семантической точности и эффективности. Вместо подобной постобработки мы предлагаем условить модель на нескольких оценочных моделях в процессе обучения, чтобы модель напрямую усваивала пользовательские предпочтения. Мы демонстрируем, что это не только значительно повышает визуальное качество генерируемых изображений, но и существенно ускоряет обучение. Наш предложенный метод, названный MIRO, демонстрирует наилучшие результаты на композиционном бенчмарке GenEval и по шкалам пользовательских предпочтений (PickAScore, ImageReward, HPSv2).
English
Current text-to-image generative models are trained on large uncurated
datasets to enable diverse generation capabilities. However, this does not
align well with user preferences. Recently, reward models have been
specifically designed to perform post-hoc selection of generated images and
align them to a reward, typically user preference. This discarding of
informative data together with the optimizing for a single reward tend to harm
diversity, semantic fidelity and efficiency. Instead of this post-processing,
we propose to condition the model on multiple reward models during training to
let the model learn user preferences directly. We show that this not only
dramatically improves the visual quality of the generated images but it also
significantly speeds up the training. Our proposed method, called MIRO,
achieves state-of-the-art performances on the GenEval compositional benchmark
and user-preference scores (PickAScore, ImageReward, HPSv2).