Eine Einführung in die Modellierung von Vision und SpracheAn Introduction to Vision-Language Modeling
Nach dem jüngsten Aufschwung von Large Language Models (LLMs) wurden mehrere Versuche unternommen, sie auf den visuellen Bereich auszudehnen. Von einem visuellen Assistenten, der uns durch unbekannte Umgebungen führen könnte, bis hin zu generativen Modellen, die Bilder nur anhand einer hochrangigen Textbeschreibung erzeugen, werden die Anwendungen von Vision-Language Models (VLMs) unsere Beziehung zur Technologie erheblich beeinflussen. Es gibt jedoch viele Herausforderungen, die angegangen werden müssen, um die Zuverlässigkeit dieser Modelle zu verbessern. Während Sprache diskret ist, entwickelt sich die Vision in einem viel höherdimensionalen Raum, in dem Konzepte nicht immer leicht diskretisiert werden können. Um die Mechanik hinter der Zuordnung von Vision zu Sprache besser zu verstehen, präsentieren wir diese Einführung in VLMs, die hoffentlich jedem helfen wird, der in das Feld eintreten möchte. Zunächst stellen wir vor, was VLMs sind, wie sie funktionieren und wie man sie trainiert. Anschließend präsentieren und diskutieren wir Ansätze zur Bewertung von VLMs. Obwohl diese Arbeit sich hauptsächlich auf die Zuordnung von Bildern zu Sprache konzentriert, diskutieren wir auch die Erweiterung von VLMs auf Videos.