ChatPaper.aiChatPaper

FireRed-Image-Edit-1.0 技術報告書

FireRed-Image-Edit-1.0 Techinical Report

February 12, 2026
著者: Super Intelligence Team, Changhao Qiao, Chao Hui, Chen Li, Cunzheng Wang, Dejia Song, Jiale Zhang, Jing Li, Qiang Xiang, Runqi Wang, Shuang Sun, Wei Zhu, Xu Tang, Yao Hu, Yibo Chen, Yuhao Huang, Yuxuan Duan, Zhiyi Chen, Ziyuan Guo
cs.AI

要旨

本論文では、指示ベース画像編集のための拡散トランスフォーマーであるFireRed-Image-Editを提案する。本モデルは、データキュレーション、学習方法論、評価設計の体系的最適化を通じて、最先端の性能を達成する。多様なソースから900Mのテキスト-画像ペアと700Mの画像編集ペアから構成される1.6Bサンプルの学習コーパスを構築した。厳密なクリーニング、層別化、自動ラベリング、2段階フィルタリングを経て、生成と編集のバランスが取れた1億以上の高品質サンプルを保持し、強力な意味的カバレッジと指示整合性を確保した。我々の多段階学習パイプラインは、事前学習、教師ありファインチューニング、強化学習を経て編集能力を段階的に構築する。データ効率を向上させるため、可変解像度バッチ処理のための多条件対応バケットサンプラーと、動的プロンプト再インデックス化を伴う確率的指示整合性を導入した。最適化の安定化と制御性向上のために、DPOのための非対称勾配最適化、テキスト編集のためのレイアウト認識OCR報酬を備えたDiffusionNFT、および同一性保持のための微分可能Consistency Lossを提案する。さらに、新たに導入した美化および低レベル画像強調タスクを含む15の編集カテゴリにわたる包括的ベンチマークREDEdit-Benchを確立した。REDEdit-Benchおよび公開ベンチマーク(ImgEdit、GEdit)における大規模な実験により、オープンソースおよびプロプライエタリシステムに対する競争力のある、あるいは優れた性能を実証する。将来の研究を支援するため、コード、モデル、およびベンチマークスイートを公開する。
English
We present FireRed-Image-Edit, a diffusion transformer for instruction-based image editing that achieves state-of-the-art performance through systematic optimization of data curation, training methodology, and evaluation design. We construct a 1.6B-sample training corpus, comprising 900M text-to-image and 700M image editing pairs from diverse sources. After rigorous cleaning, stratification, auto-labeling, and two-stage filtering, we retain over 100M high-quality samples balanced between generation and editing, ensuring strong semantic coverage and instruction alignment. Our multi-stage training pipeline progressively builds editing capability via pre-training, supervised fine-tuning, and reinforcement learning. To improve data efficiency, we introduce a Multi-Condition Aware Bucket Sampler for variable-resolution batching and Stochastic Instruction Alignment with dynamic prompt re-indexing. To stabilize optimization and enhance controllability, we propose Asymmetric Gradient Optimization for DPO, DiffusionNFT with layout-aware OCR rewards for text editing, and a differentiable Consistency Loss for identity preservation. We further establish REDEdit-Bench, a comprehensive benchmark spanning 15 editing categories, including newly introduced beautification and low-level enhancement tasks. Extensive experiments on REDEdit-Bench and public benchmarks (ImgEdit and GEdit) demonstrate competitive or superior performance against both open-source and proprietary systems. We release code, models, and the benchmark suite to support future research.
PDF31February 18, 2026