CogCoM: Training großer Vision-Sprach-Modelle durch detaillierte Untersuchung mittels Manipulationsketten
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
February 6, 2024
Autoren: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
Zusammenfassung
Vision-Language-Modelle (VLMs) haben ihre breite Anwendbarkeit dank umfangreichen Trainings zur Ausrichtung visueller Anweisungen auf Antworten unter Beweis gestellt. Diese abschließende Ausrichtung führt jedoch dazu, dass Modelle kritisches visuelles Denken ignorieren, was zu Fehlern bei sorgfältigen visuellen Problemen und unzuverlässigen Antworten führt. In diesem Artikel schlagen wir Chain of Manipulations vor, einen Mechanismus, der VLMs ermöglicht, Probleme durch eine Reihe von Manipulationen zu lösen, wobei sich jede Manipulation auf eine Operation am visuellen Eingabematerial bezieht, entweder aus intrinsischen Fähigkeiten (z. B. Verankerung), die durch vorheriges Training erworben wurden, oder durch die Nachahmung menschlicher Verhaltensweisen (z. B. Zoomen). Dieser Mechanismus fördert, dass VLMs zuverlässige Antworten mit nachweislichem visuellen Denken generieren, und ermöglicht es Benutzern, Fehlerursachen in den interpretierbaren Pfaden nachzuvollziehen. Wir trainieren daher CogCoM, ein allgemeines 17B-VLM mit einer speicherbasierten, kompatiblen Architektur, die mit diesem Denkmechanismus ausgestattet ist. Experimente zeigen, dass unser Modell die state-of-the-art-Leistung über 8 Benchmarks aus 3 Kategorien erreicht und mit einer begrenzten Anzahl von Trainingsschritten und den Daten schnell eine wettbewerbsfähige Leistung erzielt. Der Code und die Daten sind öffentlich unter https://github.com/THUDM/CogCoM verfügbar.
English
Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.