Relatório Técnico do FireRed-Image-Edit-1.0

Resumo

Apresentamos o FireRed-Image-Edit, um transformer de difusão para edição de imagens baseada em instruções que atinge desempenho de última geração por meio da otimização sistemática da curadoria de dados, metodologia de treinamento e design de avaliação. Construímos um corpus de treinamento de 1,6 bilhão de amostras, compreendendo 900 milhões de pares texto-imagem e 700 milhões de pares de edição de imagem de fontes diversas. Após rigorosa limpeza, estratificação, rotulagem automática e filtragem em dois estágios, mantemos mais de 100 milhões de amostras de alta qualidade equilibradas entre geração e edição, garantindo forte cobertura semântica e alinhamento com instruções. Nossa pipeline de treinamento multiestágio constrói progressivamente a capacidade de edição por meio de pré-treinamento, ajuste fino supervisionado e aprendizado por reforço. Para melhorar a eficiência dos dados, introduzimos um Amostrador por Balde com Consciência de Múltiplas Condições para agrupamento em resolução variável e Alinhamento de Instrução Estocástico com reindexação dinâmica de prompts. Para estabilizar a otimização e melhorar a controlabilidade, propomos Otimização de Gradiente Assimétrica para DPO, DiffusionNFT com recompensas OCR conscientes de layout para edição de texto e uma Perda de Consistência Diferenciável para preservação de identidade. Estabelecemos ainda o REDEdit-Bench, um benchmark abrangente abrangendo 15 categorias de edição, incluindo tarefas recém-introduzidas de embelezamento e aprimoramento de baixo nível. Experimentos extensivos no REDEdit-Bench e em benchmarks públicos (ImgEdit e GEdit) demonstram desempenho competitivo ou superior em relação a sistemas tanto de código aberto quanto proprietários. Disponibilizamos código, modelos e o conjunto de benchmarks para apoiar pesquisas futuras.

English

We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt re-indexing. To stabilize optimization and enhance controllability, we propose Asymmetric Gradient Optimization for DPO, DiffusionNFT with layout-aware OCR rewards for text editing, and a differentiable Consistency Loss for identity preservation. We further establish REDEdit-Bench, a comprehensive benchmark spanning 15 editing categories, including newly introduced beautification and low-level enhancement tasks. Extensive experiments on REDEdit-Bench and public benchmarks (ImgEdit and GEdit) demonstrate competitive or superior performance against both open-source and proprietary systems. We release code, models, and the benchmark suite to support future research.

Relatório Técnico do FireRed-Image-Edit-1.0

FireRed-Image-Edit-1.0 Techinical Report

Resumo

Support