Rapport Technique FireRed-Image-Edit-1.0
FireRed-Image-Edit-1.0 Techinical Report
February 12, 2026
papers.authors: Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo
cs.AI
papers.abstract
Nous présentons FireRed-Image-Edit, un transformeur de diffusion pour l'édition d'images basée sur des instructions qui atteint des performances de pointe grâce à une optimisation systématique de la curation des données, de la méthodologie d'entraînement et de la conception de l'évaluation. Nous avons constitué un corpus d'entraînement de 1,6 milliard d'échantillons, comprenant 900 millions de paires texte-image et 700 millions de paires d'édition d'images provenant de sources diverses. Après un nettoyage rigoureux, une stratification, un étiquetage automatique et un filtrage en deux étapes, nous avons conservé plus de 100 millions d'échantillons de haute qualité, équilibrés entre génération et édition, garantissant une couverture sémantique robuste et un alignement précis sur les instructions. Notre pipeline d'entraînement multi-étapes développe progressivement la capacité d'édition via un pré-entraînement, un affinage supervisé et un apprentissage par renforcement. Pour améliorer l'efficacité des données, nous introduisons un échantillonneur par compartiment Multi-Condition Aware pour le traitement par lots à résolution variable et un Stochastic Instruction Alignment avec ré-indexation dynamique des invites. Pour stabiliser l'optimisation et renforcer la contrôlabilité, nous proposons une Optimisation de Gradient Asymétrique pour DPO, DiffusionNFT avec récompenses OCR sensibles à la mise en page pour l'édition de texte, et une Loss de Différentiabilité de Consistance pour la préservation de l'identité. Nous établissons également REDEdit-Bench, un benchmark complet couvrant 15 catégories d'édition, incluant des tâches nouvellement introduites de beautification et d'amélioration de bas niveau. Des expériences approfondies sur REDEdit-Bench et des benchmarks publics (ImgEdit et GEdit) démontrent des performances compétitives ou supérieures à celles des systèmes open-source et propriétaires. Nous publions le code, les modèles et la suite de benchmarks pour soutenir la recherche future.
English
We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt re-indexing. To stabilize optimization and enhance controllability, we propose Asymmetric Gradient Optimization for DPO, DiffusionNFT with layout-aware OCR rewards for text editing, and a differentiable Consistency Loss for identity preservation. We further establish REDEdit-Bench, a comprehensive benchmark spanning 15 editing categories, including newly introduced beautification and low-level enhancement tasks. Extensive experiments on REDEdit-Bench and public benchmarks (ImgEdit and GEdit) demonstrate competitive or superior performance against both open-source and proprietary systems. We release code, models, and the benchmark suite to support future research.