Diff-2-in-1: Het overbruggen van generatie en dichte perceptie met diffusiemodellen

Samenvatting

Naast het synthetiseren van hoogwaardige beelden tonen diffusiemodellen recent veelbelovende resultaten in dichte visuele perceptietaken. De meeste bestaande onderzoeken behandelen diffusiemodellen echter als een op zichzelf staande component voor perceptietaken, waarbij ze uitsluitend worden ingezet voor kant-en-klare data-augmentatie of als loutere feature-extractors. In tegenstelling tot deze geïsoleerde en dus suboptimale benaderingen introduceren wij een uniform, veelzijdig, op diffusie gebaseerd raamwerk, Diff-2-in-1, dat gelijktijdig zowel multimodale datageneratie als dichte visuele perceptie kan verwerken door een unieke benutting van het diffusie-denoisingproces. Binnen dit raamwerk verbeteren wij verder de discriminerende visuele perceptie via multimodale generatie, door het denoising-netwerk te gebruiken om multimodale data te creëren die de distributie van de originele trainingsset weerspiegelen. Cruciaal is dat Diff-2-in-1 het gebruik van de gecreëerde diverse en getrouwe data optimaliseert door een nieuw zelfverbeterend leermechanisme te benutten. Uitgebreide experimentele evaluaties valideren de effectiviteit van ons raamwerk, waarbij consistente prestatieverbeteringen worden aangetoond across verschillende discriminerende backbones en hoogwaardige multimodale datageneratie gekenmerkt door zowel realisme als bruikbaarheid.

English

Beyond high-fidelity image synthesis, diffusion models have recently exhibited promising results in dense visual perception tasks. However, most existing work treats diffusion models as a standalone component for perception tasks, employing them either solely for off-the-shelf data augmentation or as mere feature extractors. In contrast to these isolated and thus sub-optimal efforts, we introduce a unified, versatile, diffusion-based framework, Diff-2-in-1, that can simultaneously handle both multi-modal data generation and dense visual perception, through a unique exploitation of the diffusion-denoising process. Within this framework, we further enhance discriminative visual perception via multi-modal generation, by utilizing the denoising network to create multi-modal data that mirror the distribution of the original training set. Importantly, Diff-2-in-1 optimizes the utilization of the created diverse and faithful data by leveraging a novel self-improving learning mechanism. Comprehensive experimental evaluations validate the effectiveness of our framework, showcasing consistent performance improvements across various discriminative backbones and high-quality multi-modal data generation characterized by both realism and usefulness.

Diff-2-in-1: Het overbruggen van generatie en dichte perceptie met diffusiemodellen

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

Samenvatting

Support