Informe Técnico de FireRed-Image-Edit-1.0
FireRed-Image-Edit-1.0 Techinical Report
February 12, 2026
Autores: Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo
cs.AI
Resumen
Presentamos FireRed-Image-Edit, un transformador de difusión para la edición de imágenes basada en instrucciones que logra un rendimiento de vanguardia mediante la optimización sistemática de la curación de datos, la metodología de entrenamiento y el diseño de evaluación. Construimos un corpus de entrenamiento de 1.600 millones de muestras, que comprende 900 millones de pares de texto a imagen y 700 millones de pares de edición de imágenes de diversas fuentes. Tras una rigurosa limpieza, estratificación, etiquetado automático y filtrado en dos etapas, conservamos más de 100 millones de muestras de alta calidad equilibradas entre generación y edición, garantizando una sólida cobertura semántica y alineación con las instrucciones. Nuestra canalización de entrenamiento multietapa construye progresivamente la capacidad de edición mediante preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo. Para mejorar la eficiencia de los datos, introducimos un Muestreador por Cubos con Conciencia de Múltiples Condiciones para el procesamiento por lotes de resolución variable y una Alineación de Instrucciones Estocástica con reindexación dinámica de prompts. Para estabilizar la optimización y mejorar la controlabilidad, proponemos una Optimización de Gradiente Asimétrica para DPO, DiffusionNFT con recompensas OCR conscientes del diseño para la edición de texto, y una Pérdida de Consistencia diferenciable para la preservación de la identidad. Además, establecemos REDEdit-Bench, un benchmark integral que abarca 15 categorías de edición, incluyendo tareas de embellecimiento y mejora de bajo nivel recién introducidas. Experimentos exhaustivos en REDEdit-Bench y benchmarks públicos (ImgEdit y GEdit) demuestran un rendimiento competitivo o superior frente a sistemas tanto de código abierto como propietarios. Liberamos el código, los modelos y el conjunto de benchmarks para apoyar la investigación futura.
English
We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt re-indexing. To stabilize optimization and enhance controllability, we propose Asymmetric Gradient Optimization for DPO, DiffusionNFT with layout-aware OCR rewards for text editing, and a differentiable Consistency Loss for identity preservation. We further establish REDEdit-Bench, a comprehensive benchmark spanning 15 editing categories, including newly introduced beautification and low-level enhancement tasks. Extensive experiments on REDEdit-Bench and public benchmarks (ImgEdit and GEdit) demonstrate competitive or superior performance against both open-source and proprietary systems. We release code, models, and the benchmark suite to support future research.