Rapporto Tecnico FireRed-Image-Edit-1.0

Abstract

Presentiamo FireRed-Image-Edit, un diffusion transformer per la modifica di immagini basata su istruzioni che raggiunge prestazioni all'avanguardia attraverso un'ottimizzazione sistematica della cura dei dati, della metodologia di addestramento e del design di valutazione. Costruiamo un corpus di addestramento da 1,6 miliardi di campioni, comprendente 900 milioni di coppie testo-immagine e 700 milioni di coppie per la modifica di immagini provenienti da fonti diverse. Dopo un rigoroso processo di pulizia, stratificazione, etichettatura automatica e filtraggio in due fasi, tratteniamo oltre 100 milioni di campioni di alta qualità bilanciati tra generazione e modifica, garantendo una forte copertura semantica e allineamento con le istruzioni. La nostra pipeline di addestramento multi-stadio costruisce progressivamente la capacità di modifica attraverso pre-addestramento, fine-tuning supervisionato e apprendimento per rinforzo. Per migliorare l'efficienza dei dati, introduciamo un *Multi-Condition Aware Bucket Sampler* per il batching a risoluzione variabile e uno *Stochastic Instruction Alignment* con re-indicizzazione dinamica dei prompt. Per stabilizzare l'ottimizzazione e migliorare la controllabilità, proponiamo un'*Asymmetric Gradient Optimization* per DPO, *DiffusionNFT* con ricompense OCR *layout-aware* per la modifica del testo e una *Consistency Loss* differenziabile per la preservazione dell'identità. Istituiamo inoltre REDEdit-Bench, un benchmark completo che copre 15 categorie di modifica, inclusi nuovi task di abbellimento e miglioramento di basso livello. Esperimenti estensivi su REDEdit-Bench e benchmark pubblici (ImgEdit e GEdit) dimostrano prestazioni competitive o superiori rispetto a sistemi sia open-source che proprietari. Rilasciamo codice, modelli e la suite di benchmark per supportare la ricerca futura.

English

We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt re-indexing. To stabilize optimization and enhance controllability, we propose Asymmetric Gradient Optimization for DPO, DiffusionNFT with layout-aware OCR rewards for text editing, and a differentiable Consistency Loss for identity preservation. We further establish REDEdit-Bench, a comprehensive benchmark spanning 15 editing categories, including newly introduced beautification and low-level enhancement tasks. Extensive experiments on REDEdit-Bench and public benchmarks (ImgEdit and GEdit) demonstrate competitive or superior performance against both open-source and proprietary systems. We release code, models, and the benchmark suite to support future research.

Rapporto Tecnico FireRed-Image-Edit-1.0

FireRed-Image-Edit-1.0 Techinical Report

Abstract

Support