UniReason 1.0 : Un cadre de raisonnement unifié pour la génération et l'édition d'images alignées sur la connaissance du monde

Résumé

Les modèles multimodaux unifiés peinent souvent avec les tâches de synthèse complexes exigeant un raisonnement approfondi, et traitent généralement la génération texte-image et l'édition d'image comme des capacités isolées plutôt que comme des étapes de raisonnement interconnectées. Pour résoudre ce problème, nous proposons UniReason, un cadre unifié qui harmonise ces deux tâches via un paradigme de raisonnement dual. Nous formulons la génération comme une planification enrichie par les connaissances du monde pour injecter des contraintes implicites, et exploitons les capacités d'édition pour un raffinement visuel à granularité fine afin de corriger davantage les erreurs visuelles via l'auto-réflexion. Cette approche unifie la génération et l'édition dans une représentation partagée, reflétant le processus cognitif humain de planification suivie de raffinement. Nous soutenons ce cadre en construisant systématiquement un jeu de données à grande échelle centré sur le raisonnement (~300 000 échantillons) couvrant cinq domaines de connaissances majeurs (par exemple, le sens commun culturel, la physique, etc.) pour la planification, parallèlement à un corpus généré par agent pour l'auto-correction visuelle. Des expériences approfondies démontrent qu'UniReason obtient des performances avancées sur des benchmarks intensifs en raisonnement comme WISE, KrisBench et UniREditBench, tout en maintenant des capacités de synthèse générale supérieures.

English

Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through a dual reasoning paradigm. We formulate generation as world knowledge-enhanced planning to inject implicit constraints, and leverage editing capabilities for fine-grained visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared representation, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for planning, alongside an agent-generated corpus for visual self-correction. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.

UniReason 1.0 : Un cadre de raisonnement unifié pour la génération et l'édition d'images alignées sur la connaissance du monde

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Résumé

Support