Diff-2-in-1: Het overbruggen van generatie en dichte perceptie met diffusiemodellen
Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models
November 7, 2024
Auteurs: Shuhong Zheng, Zhipeng Bao, Ruoyu Zhao, Martial Hebert, Yu-Xiong Wang
cs.AI
Samenvatting
Naast het synthetiseren van hoogwaardige beelden tonen diffusiemodellen recent veelbelovende resultaten in dichte visuele perceptietaken. De meeste bestaande onderzoeken behandelen diffusiemodellen echter als een op zichzelf staande component voor perceptietaken, waarbij ze uitsluitend worden ingezet voor kant-en-klare data-augmentatie of als loutere feature-extractors. In tegenstelling tot deze geïsoleerde en dus suboptimale benaderingen introduceren wij een uniform, veelzijdig, op diffusie gebaseerd raamwerk, Diff-2-in-1, dat gelijktijdig zowel multimodale datageneratie als dichte visuele perceptie kan verwerken door een unieke benutting van het diffusie-denoisingproces. Binnen dit raamwerk verbeteren wij verder de discriminerende visuele perceptie via multimodale generatie, door het denoising-netwerk te gebruiken om multimodale data te creëren die de distributie van de originele trainingsset weerspiegelen. Cruciaal is dat Diff-2-in-1 het gebruik van de gecreëerde diverse en getrouwe data optimaliseert door een nieuw zelfverbeterend leermechanisme te benutten. Uitgebreide experimentele evaluaties valideren de effectiviteit van ons raamwerk, waarbij consistente prestatieverbeteringen worden aangetoond across verschillende discriminerende backbones en hoogwaardige multimodale datageneratie gekenmerkt door zowel realisme als bruikbaarheid.
English
Beyond high-fidelity image synthesis, diffusion models have recently
exhibited promising results in dense visual perception tasks. However, most
existing work treats diffusion models as a standalone component for perception
tasks, employing them either solely for off-the-shelf data augmentation or as
mere feature extractors. In contrast to these isolated and thus sub-optimal
efforts, we introduce a unified, versatile, diffusion-based framework,
Diff-2-in-1, that can simultaneously handle both multi-modal data generation
and dense visual perception, through a unique exploitation of the
diffusion-denoising process. Within this framework, we further enhance
discriminative visual perception via multi-modal generation, by utilizing the
denoising network to create multi-modal data that mirror the distribution of
the original training set. Importantly, Diff-2-in-1 optimizes the utilization
of the created diverse and faithful data by leveraging a novel self-improving
learning mechanism. Comprehensive experimental evaluations validate the
effectiveness of our framework, showcasing consistent performance improvements
across various discriminative backbones and high-quality multi-modal data
generation characterized by both realism and usefulness.