Kontinuous Kontext: Controllo Continuo della Forza per la Modifica delle Immagini basata su Istruzioni

Abstract

La modifica delle immagini basata su istruzioni offre un modo potente e intuitivo di manipolare le immagini attraverso il linguaggio naturale. Tuttavia, affidarsi esclusivamente alle istruzioni testuali limita il controllo fine-grana sull'entità delle modifiche. Introduciamo Kontinuous Kontext, un modello di modifica guidato da istruzioni che fornisce una nuova dimensione di controllo sulla forza della modifica, consentendo agli utenti di regolare gradualmente le modifiche da nessun cambiamento a un risultato completamente realizzato in modo fluido e continuo. Kontinuous Kontext estende un modello all'avanguardia di modifica delle immagini per accettare un input aggiuntivo, una forza di modifica scalare che viene poi abbinata all'istruzione di modifica, consentendo un controllo esplicito sull'entità della modifica. Per iniettare questa informazione scalare, addestriamo una rete proiettore leggera che mappa lo scalare di input e l'istruzione di modifica a coefficienti nello spazio di modulazione del modello. Per l'addestramento del nostro modello, sintetizziamo un dataset diversificato di quadruplette immagine-istruzione-modifica-forza utilizzando modelli generativi esistenti, seguito da una fase di filtraggio per garantire qualità e coerenza. Kontinuous Kontext fornisce un approccio unificato per il controllo fine-grana sulla forza della modifica per la modifica guidata da istruzioni, da sottile a forte, attraverso operazioni diverse come stilizzazione, attributi, materiali, sfondi e cambiamenti di forma, senza richiedere un addestramento specifico per attributi.

English

Instruction-based image editing offers a powerful and intuitive way to manipulate images through natural language. Yet, relying solely on text instructions limits fine-grained control over the extent of edits. We introduce Kontinuous Kontext, an instruction-driven editing model that provides a new dimension of control over edit strength, enabling users to adjust edits gradually from no change to a fully realized result in a smooth and continuous manner. Kontinuous Kontext extends a state-of-the-art image editing model to accept an additional input, a scalar edit strength which is then paired with the edit instruction, enabling explicit control over the extent of the edit. To inject this scalar information, we train a lightweight projector network that maps the input scalar and the edit instruction to coefficients in the model's modulation space. For training our model, we synthesize a diverse dataset of image-edit-instruction-strength quadruplets using existing generative models, followed by a filtering stage to ensure quality and consistency. Kontinuous Kontext provides a unified approach for fine-grained control over edit strength for instruction driven editing from subtle to strong across diverse operations such as stylization, attribute, material, background, and shape changes, without requiring attribute-specific training.

Kontinuous Kontext: Controllo Continuo della Forza per la Modifica delle Immagini basata su Istruzioni

Kontinuous Kontext: Continuous Strength Control for Instruction-based Image Editing

Abstract

Support