LLaVA-o1: Lassen Sie Vision-Sprachmodelle Schritt für Schritt Schlussfolgerungen ziehenLLaVA-o1: Let Vision Language Models Reason Step-by-Step
Große Sprachmodelle haben erhebliche Fortschritte in den Fähigkeiten des Schlussfolgerns gezeigt, insbesondere durch das Skalieren zur Inferenzzeit, wie es von Modellen wie OpenAI's o1 veranschaulicht wird. Allerdings haben aktuelle Vision-Sprachmodelle (VLMs) oft Schwierigkeiten, systematisches und strukturiertes Schlussfolgern durchzuführen, insbesondere bei der Bewältigung komplexer visueller Frage-Antwort-Aufgaben. In dieser Arbeit stellen wir LLaVA-o1 vor, ein neuartiges VLM, das für autonomes mehrstufiges Schlussfolgern konzipiert ist. Im Gegensatz zur Ketten-Denkanregung beschäftigt sich LLaVA-o1 eigenständig mit aufeinanderfolgenden Stufen der Zusammenfassung, visuellen Interpretation, logischen Schlussfolgerung und Schlussfolgerungsgenerierung. Dieser strukturierte Ansatz ermöglicht es LLaVA-o1, deutliche Verbesserungen in der Präzision bei schlussfolgerungsintensiven Aufgaben zu erzielen. Um dies zu erreichen, erstellen wir den LLaVA-o1-100k Datensatz, der Proben aus verschiedenen visuellen Frage-Antwort-Quellen integriert und strukturierte Schlussfolgerungsannotationen bereitstellt. Darüber hinaus schlagen wir eine Inferenzzeit-Stufen-Level-Beam-Suche-Methode vor, die eine effektive Skalierung zur Inferenzzeit ermöglicht. Bemerkenswert ist, dass LLaVA-o1 mit nur 100k Trainingsproben und einer einfachen, aber effektiven Methode zur Skalierung zur Inferenzzeit nicht nur sein Basismodell auf einer Vielzahl von multimodalen Schlussfolgerungs-Benchmarks um 8,9% übertrifft, sondern auch die Leistung größerer und sogar geschlossener Modelle wie Gemini-1.5-pro, GPT-4o-mini und Llama-3.2-90B-Vision-Instruct übertrifft.