Relatório Técnico do FireRed-Image-Edit-1.0
FireRed-Image-Edit-1.0 Techinical Report
February 12, 2026
Autores: Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo
cs.AI
Resumo
Apresentamos o FireRed-Image-Edit, um transformer de difusão para edição de imagens baseada em instruções que atinge desempenho de última geração por meio da otimização sistemática da curadoria de dados, metodologia de treinamento e design de avaliação. Construímos um corpus de treinamento de 1,6 bilhão de amostras, compreendendo 900 milhões de pares texto-imagem e 700 milhões de pares de edição de imagem de fontes diversas. Após rigorosa limpeza, estratificação, rotulagem automática e filtragem em dois estágios, mantemos mais de 100 milhões de amostras de alta qualidade equilibradas entre geração e edição, garantindo forte cobertura semântica e alinhamento com instruções. Nossa pipeline de treinamento multiestágio constrói progressivamente a capacidade de edição por meio de pré-treinamento, ajuste fino supervisionado e aprendizado por reforço. Para melhorar a eficiência dos dados, introduzimos um Amostrador por Balde com Consciência de Múltiplas Condições para agrupamento em resolução variável e Alinhamento de Instrução Estocástico com reindexação dinâmica de prompts. Para estabilizar a otimização e melhorar a controlabilidade, propomos Otimização de Gradiente Assimétrica para DPO, DiffusionNFT com recompensas OCR conscientes de layout para edição de texto e uma Perda de Consistência Diferenciável para preservação de identidade. Estabelecemos ainda o REDEdit-Bench, um benchmark abrangente abrangendo 15 categorias de edição, incluindo tarefas recém-introduzidas de embelezamento e aprimoramento de baixo nível. Experimentos extensivos no REDEdit-Bench e em benchmarks públicos (ImgEdit e GEdit) demonstram desempenho competitivo ou superior em relação a sistemas tanto de código aberto quanto proprietários. Disponibilizamos código, modelos e o conjunto de benchmarks para apoiar pesquisas futuras.
English
We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt re-indexing. To stabilize optimization and enhance controllability, we propose Asymmetric Gradient Optimization for DPO, DiffusionNFT with layout-aware OCR rewards for text editing, and a differentiable Consistency Loss for identity preservation. We further establish REDEdit-Bench, a comprehensive benchmark spanning 15 editing categories, including newly introduced beautification and low-level enhancement tasks. Extensive experiments on REDEdit-Bench and public benchmarks (ImgEdit and GEdit) demonstrate competitive or superior performance against both open-source and proprietary systems. We release code, models, and the benchmark suite to support future research.