Q-Instruct: Miglioramento delle capacità visive di basso livello per modelli fondazionali multimodali

Abstract

I modelli foundation multimodali, rappresentati da GPT-4V, hanno introdotto un nuovo paradigma per i compiti di percezione e comprensione visiva di basso livello, in grado di rispondere a un'ampia gamma di istruzioni naturali umane all'interno di un modello. Sebbene i modelli foundation esistenti abbiano mostrato potenziali entusiasmanti nei compiti visivi di basso livello, le loro capacità correlate sono ancora preliminari e necessitano di miglioramenti. Per potenziare questi modelli, abbiamo condotto un esperimento soggettivo su larga scala, raccogliendo un vasto numero di feedback umani reali sulla visione di basso livello. Ogni feedback segue un percorso che inizia con una descrizione dettagliata dell'aspetto visivo di basso livello (*ad esempio chiarezza, colore, luminosità* di un'immagine) e si conclude con una valutazione complessiva, con una lunghezza media di 45 parole. Il dataset **Q-Pathway** costruito include 58K feedback umani dettagliati su 18.973 immagini con aspetti visivi di basso livello diversificati. Inoltre, per consentire ai modelli foundation di rispondere in modo robusto a diversi tipi di domande, abbiamo progettato una conversione con partecipazione GPT per elaborare questi feedback in 200K coppie istruzione-risposta in formati diversificati. I risultati sperimentali indicano che **Q-Instruct** migliora costantemente le capacità di percezione e comprensione di basso livello in diversi modelli foundation. Prevediamo che i nostri dataset possano aprire la strada a un futuro in cui l'intelligenza generale possa percepire, comprendere l'aspetto visivo di basso livello e valutare la qualità visiva come un essere umano. Il nostro dataset, il modello zoo e la demo sono pubblicati su: https://q-future.github.io/Q-Instruct.

English

Multi-modality foundation models, as represented by GPT-4V, have brought a new paradigm for low-level visual perception and understanding tasks, that can respond to a broad range of natural human instructions in a model. While existing foundation models have shown exciting potentials on low-level visual tasks, their related abilities are still preliminary and need to be improved. In order to enhance these models, we conduct a large-scale subjective experiment collecting a vast number of real human feedbacks on low-level vision. Each feedback follows a pathway that starts with a detailed description on the low-level visual appearance (*e.g. clarity, color, brightness* of an image, and ends with an overall conclusion, with an average length of 45 words. The constructed **Q-Pathway** dataset includes 58K detailed human feedbacks on 18,973 images with diverse low-level appearance. Moreover, to enable foundation models to robustly respond to diverse types of questions, we design a GPT-participated conversion to process these feedbacks into diverse-format 200K instruction-response pairs. Experimental results indicate that the **Q-Instruct** consistently elevates low-level perception and understanding abilities across several foundational models. We anticipate that our datasets can pave the way for a future that general intelligence can perceive, understand low-level visual appearance and evaluate visual quality like a human. Our dataset, model zoo, and demo is published at: https://q-future.github.io/Q-Instruct.

Q-Instruct: Miglioramento delle capacità visive di basso livello per modelli fondazionali multimodali

Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

Abstract

Support