Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngsten Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) waren bemerkenswert, dennoch zeigen diese allgemeinen MLLMs oft Schwächen in ihrer Fähigkeit, Benutzeroberflächen (UI) effektiv zu verstehen und mit ihnen zu interagieren. In diesem Artikel präsentieren wir Ferret-UI, ein neues MLLM, das speziell für ein verbessertes Verständnis von mobilen UI-Bildschirmen entwickelt wurde und über Verweis-, Verankerungs- und Argumentationsfähigkeiten verfügt. Da UI-Bildschirme in der Regel ein längliches Seitenverhältnis aufweisen und kleinere interessante Objekte (z. B. Symbole, Texte) enthalten als natürliche Bilder, integrieren wir "beliebige Auflösung" auf Ferret, um Details zu vergrößern und verbesserte visuelle Merkmale zu nutzen. Konkret wird jeder Bildschirm basierend auf dem ursprünglichen Seitenverhältnis in 2 Teilbilder unterteilt (horizontale Unterteilung für Hochformatbildschirme und vertikale Unterteilung für Querformatbildschirme). Beide Teilbilder werden separat codiert, bevor sie an die LLMs gesendet werden. Wir sammeln sorgfältig Trainingsdaten aus einer umfangreichen Palette von grundlegenden UI-Aufgaben, wie z. B. Symbolerkennung, Textsuche und Widget-Listung. Diese Daten werden für die Anweisungsverfolgung mit Regionsannotationen formatiert, um präzise Verweise und Verankerungen zu erleichtern. Um die Argumentationsfähigkeit des Modells zu verbessern, erstellen wir zusätzlich einen Datensatz für fortgeschrittene Aufgaben, einschließlich detaillierter Beschreibungen, Wahrnehmungs-/Interaktionsgespräche und Funktionsinferenz. Nach dem Training auf den kuratierten Datensätzen zeigt Ferret-UI ein herausragendes Verständnis von UI-Bildschirmen und die Fähigkeit, offene Anweisungen auszuführen. Zur Modellbewertung etablieren wir einen umfassenden Benchmark, der alle zuvor genannten Aufgaben umfasst. Ferret-UI übertrifft nicht nur die meisten Open-Source-UI-MLLMs, sondern übertrifft auch GPT-4V in allen grundlegenden UI-Aufgaben.
In jüngster Zeit haben Fortschritte in der Text-zu-Video-Erzeugung (T2V) bemerkenswerte Erfolge bei der Synthese hochwertiger allgemeiner Videos aus textuellen Beschreibungen erzielt. Ein weitgehend übersehenes Problem bei T2V besteht darin, dass bestehende Modelle die physikalischen Kenntnisse der realen Welt nicht ausreichend codiert haben, wodurch die erzeugten Videos tendenziell über begrenzte Bewegungen und geringe Variationen verfügen. In diesem Artikel schlagen wir MagicTime vor, ein metamorphes Zeitraffer-Videoerzeugungsmodell, das reale physikalische Kenntnisse aus Zeitraffer-Videos lernt und metamorphe Erzeugung implementiert. Zunächst entwerfen wir ein MagicAdapter-Schema, um das räumliche und zeitliche Training zu entkoppeln, mehr physikalisches Wissen aus metamorphen Videos zu codieren und vortrainierte T2V-Modelle zu transformieren, um metamorphe Videos zu erzeugen. Zweitens führen wir eine Dynamische Frames-Extraktionsstrategie ein, um sich an metamorphe Zeitraffer-Videos anzupassen, die eine breitere Variationsspanne aufweisen und dramatische Objektmetamorphoseprozesse abdecken, wodurch mehr physikalisches Wissen als allgemeine Videos verkörpert wird. Schließlich stellen wir einen Magic Text-Encoder vor, um das Verständnis von metamorphen Videoanweisungen zu verbessern. Darüber hinaus erstellen wir einen Zeitraffer-Video-Text-Datensatz namens ChronoMagic, der speziell zusammengestellt wurde, um die Fähigkeit zur Erzeugung metamorpher Videos freizuschalten. Umfangreiche Experimente zeigen die Überlegenheit und Wirksamkeit von MagicTime bei der Erzeugung hochwertiger und dynamischer metamorpher Videos auf und legen nahe, dass die Zeitraffer-Videoerzeugung ein vielversprechender Weg zur Entwicklung metamorpher Simulatoren der physischen Welt ist.
Die effektive Bearbeitung persönlicher Inhalte spielt eine entscheidende Rolle dabei, Einzelpersonen zu ermöglichen, ihre Kreativität auszudrücken, fesselnde Erzählungen in ihren visuellen Geschichten zu weben und die Gesamtqualität und Wirkung ihrer visuellen Inhalte zu steigern. Daher stellen wir in dieser Arbeit SwapAnything vor, ein neuartiges Framework, das beliebige Objekte in einem Bild durch personalisierte Konzepte aus dem Referenzmaterial austauschen kann, während der Kontext unverändert bleibt. Im Vergleich zu bestehenden Methoden für den personalisierten Objektaustausch weist SwapAnything drei einzigartige Vorteile auf: (1) präzise Steuerung beliebiger Objekte und Teile anstelle des Hauptmotivs, (2) treuere Erhaltung von Kontextpixeln, (3) bessere Anpassung des personalisierten Konzepts an das Bild. Zunächst schlagen wir gezielten Variablentausch vor, um eine regionale Steuerung über latente Merkmalskarten anzuwenden und maskierte Variablen für die treue Erhaltung des Kontexts und den anfänglichen semantischen Konzepttausch auszutauschen. Anschließend führen wir die Erscheinungsanpassung ein, um das semantische Konzept nahtlos in das Originalbild in Bezug auf Zielort, Form, Stil und Inhalt während des Bildgenerierungsprozesses anzupassen. Umfangreiche Ergebnisse sowohl bei der menschlichen als auch bei der automatischen Bewertung zeigen signifikante Verbesserungen unseres Ansatzes gegenüber Basislinienmethoden beim personalisierten Austausch. Darüber hinaus zeigt SwapAnything seine präzisen und treuen Austauschfähigkeiten bei Aufgaben zum Austausch einzelner Objekte, mehrerer Objekte, teilweiser Objekte und domänenübergreifender Austauschaufgaben. SwapAnything erzielt auch eine hervorragende Leistung beim textbasierten Austausch und bei Aufgaben jenseits des Austauschs wie dem Einfügen von Objekten.
Die jüngsten Fortschritte in der diffusionsbasierten generativen Bildbearbeitung haben eine tiefgreifende Revolution ausgelöst, die die Landschaft der Bildaußen- und -innenmalerei neu gestaltet hat. Trotz dieser Fortschritte kämpft das Feld mit inhärenten Herausforderungen, darunter: i) minderwertige Qualität; ii) schlechte Konsistenz; iii) unzureichende Befolgung von Anweisungen; iv) suboptimale Generierungseffizienz. Um diese Hindernisse zu überwinden, präsentieren wir ByteEdit, ein innovatives Feedback-Lernframework, das sorgfältig entwickelt wurde, um generative Bildbearbeitungsaufgaben zu verbessern, einzuhalten und zu beschleunigen. ByteEdit integriert nahtlos Bildbelohnungsmodelle, die der Verbesserung von Ästhetik und Bild-Text-Ausrichtung gewidmet sind, und führt auch ein dichtes, auf Pixelniveau basierendes Belohnungsmodell ein, das die Kohärenz in der Ausgabe fördern soll. Darüber hinaus schlagen wir eine wegweisende adversarielle und progressive Feedback-Lernstrategie vor, um die Inferenzgeschwindigkeit des Modells zu beschleunigen. Durch umfangreiche Benutzerbewertungen im großen Maßstab zeigen wir, dass ByteEdit führende generative Bildbearbeitungsprodukte wie Adobe, Canva und MeiTu sowohl in Bezug auf Generierungsqualität als auch Konsistenz übertrifft. ByteEdit-Outpainting zeigt eine bemerkenswerte Verbesserung von 388% bzw. 135% in Qualität und Konsistenz im Vergleich zum Basismodell. Experimente haben auch bestätigt, dass unsere Beschleunigungsmodelle hervorragende Leistungsergebnisse in Bezug auf Qualität und Konsistenz beibehalten.
Diffusionsmodelle haben das Gebiet der Bildgenerierung revolutioniert und zu einer Verbreitung hochwertiger Modelle und vielfältiger nachgelagerter Anwendungen geführt. Trotz dieser signifikanten Fortschritte leiden die aktuellen Wettbewerbslösungen jedoch immer noch unter mehreren Einschränkungen, darunter minderwertige visuelle Qualität, mangelnde ästhetische Anziehungskraft und ineffiziente Inferenz, ohne dass eine umfassende Lösung in Sicht ist. Um diesen Herausforderungen zu begegnen, präsentieren wir UniFL, ein vereinheitlichtes Framework, das auf Feedback-Lernen setzt, um Diffusionsmodelle umfassend zu verbessern. UniFL zeichnet sich als universelle, effektive und verallgemeinerbare Lösung aus, die auf verschiedene Diffusionsmodelle wie SD1.5 und SDXL anwendbar ist. Besonders hervorzuheben ist, dass UniFL drei Schlüsselkomponenten integriert: perzeptives Feedback-Lernen, das die visuelle Qualität verbessert; entkoppeltes Feedback-Lernen, das die ästhetische Anziehungskraft steigert; und adversatives Feedback-Lernen, das die Inferenzgeschwindigkeit optimiert. Tiefgreifende Experimente und umfangreiche Benutzerstudien bestätigen die überragende Leistung unserer vorgeschlagenen Methode bei der Verbesserung sowohl der Qualität der generierten Modelle als auch ihrer Beschleunigung. Zum Beispiel übertrifft UniFL ImageReward um 17 % in Bezug auf die Nutzerpräferenz hinsichtlich der Generierungsqualität und übertrifft LCM und SDXL Turbo um 57 % bzw. 20 % bei einer 4-stufigen Inferenz. Darüber hinaus haben wir die Wirksamkeit unseres Ansatzes in nachgelagerten Aufgaben wie Lora, ControlNet und AnimateDiff verifiziert.
Die Wiederherstellung dichter und weitreichender Pixelbewegungen in Videos ist ein herausforderndes Problem. Ein Teil der Schwierigkeit ergibt sich aus dem 3D-zu-2D-Projektionsprozess, der zu Okklusionen und Diskontinuitäten im 2D-Bewegungsbereich führt. Während 2D-Bewegungen komplex sein können, postulieren wir, dass die zugrunde liegende 3D-Bewegung oft einfach und niedrigdimensional sein kann. In dieser Arbeit schlagen wir vor, Punkttrajektorien im 3D-Raum zu schätzen, um die durch die Bildprojektion verursachten Probleme zu mildern. Unsere Methode, namens SpatialTracker, hebt 2D-Pixel in 3D mithilfe monokularer Tiefenschätzer an, repräsentiert den 3D-Inhalt jedes Rahmens effizient mithilfe einer Triplane-Darstellung und führt iterative Aktualisierungen mithilfe eines Transformers durch, um 3D-Trajektorien zu schätzen. Das Tracking im 3D-Raum ermöglicht es uns, as-rigid-as-possible (ARAP)-Beschränkungen zu nutzen, während gleichzeitig ein Steifigkeitsembedding erlernt wird, das Pixel in verschiedene starre Teile gruppiert. Eine umfangreiche Evaluation zeigt, dass unser Ansatz sowohl qualitativ als auch quantitativ eine Spitzenleistung beim Tracking erreicht, insbesondere in herausfordernden Szenarien wie der außerhalb der Bildebene liegenden Rotation.
Die Generierung von detailreichen Szenen mit menschlichem Fokus in höherer Auflösung und mit Kontrolle stellt nach wie vor eine Herausforderung für bestehende Text-zu-Bild-Diffusionsmodelle dar. Diese Herausforderung resultiert aus der begrenzten Größe der Trainingsbilder, der Kapazität des Textencoders (begrenzte Tokens) und der inhärenten Schwierigkeit, komplexe Szenen mit mehreren Menschen zu generieren. Während aktuelle Methoden versuchten, nur die Grenze der Trainingsgröße zu bewältigen, führten sie oft zu Szenen mit menschlichem Fokus, die schwerwiegende Artefakte aufwiesen. Wir schlagen BeyondScene vor, ein neuartiges Framework, das frühere Einschränkungen überwindet, um exquisite detailreiche Szenen mit menschlichem Fokus in höherer Auflösung (über 8K) mit außergewöhnlicher Text-Bild-Korrespondenz und Natürlichkeit mithilfe bestehender vortrainierter Diffusionsmodelle zu generieren. BeyondScene verwendet einen gestuften und hierarchischen Ansatz, um zunächst ein detailliertes Basismodell zu generieren, das sich auf wichtige Elemente bei der Instanzerstellung für mehrere Menschen konzentriert und detaillierte Beschreibungen über die Token-Grenze des Diffusionsmodells hinaus ermöglicht, und dann das Basismodell nahtlos in eine höhere Auflösung umzuwandeln, die die Größe der Trainingsbilder übersteigt und Details berücksichtigt, die sich auf Texte und Instanzen beziehen, mithilfe unseres neuartigen instanzbewussten hierarchischen Vergrößerungsprozesses, der aus unserem vorgeschlagenen hochfrequenten injizierten Vorwärtsdiffusions- und adaptiven gemeinsamen Diffusionsverfahren besteht. BeyondScene übertrifft bestehende Methoden hinsichtlich der Korrespondenz mit detaillierten Textbeschreibungen und Natürlichkeit und ebnet den Weg für fortgeschrittene Anwendungen in der Erstellung von detailreichen Szenen mit menschlichem Fokus in höherer Auflösung, die über die Kapazität vortrainierter Diffusionsmodelle hinausgehen, ohne aufwändiges Neutraining. Projektseite: https://janeyeon.github.io/beyond-scene.
Mit dem Erfolg großer Sprachmodelle (LLMs) hat in letzter Zeit das Interesse an der Integration des Visionmodells in LLMs zur Entwicklung von Vision-Sprach-Grundlagenmodellen erheblich zugenommen. Allerdings können bestehende LLM-basierte große multimodale Modelle (z. B. Video-LLaMA, VideoChat) nur eine begrenzte Anzahl von Frames für das Verständnis kurzer Videos verarbeiten. In dieser Studie konzentrieren wir uns hauptsächlich darauf, ein effizientes und effektives Modell für das langfristige Videoverständnis zu entwerfen. Anstatt wie die meisten bestehenden Arbeiten mehr Frames gleichzeitig zu verarbeiten, schlagen wir vor, Videos auf kontinuierliche Weise zu verarbeiten und vergangene Videoinformationen in einer Speicherbank zu speichern. Dies ermöglicht es unserem Modell, historische Videoinhalte für langfristige Analysen zu referenzieren, ohne die Kontextlängenbeschränkungen oder GPU-Speicherlimits von LLMs zu überschreiten. Unsere Speicherbank kann nahtlos in aktuelle multimodale LLMs in einer Plug-and-Play-Weise integriert werden. Wir führen umfangreiche Experimente zu verschiedenen Videoverständnisaufgaben durch, wie z. B. das Verstehen von Langvideos, die Beantwortung von Videofragen und die Videobeschriftung, und unser Modell kann Spitzenleistungen über mehrere Datensätze hinweg erzielen. Der Code ist verfügbar unter https://boheumd.github.io/MA-LMM/.
Die Modellierung und Darstellung fotorealistischer Avatare ist in vielen Anwendungen von entscheidender Bedeutung. Bestehende Methoden, die einen 3D-Avatar aus visuellen Beobachtungen erstellen, haben jedoch Schwierigkeiten, bekleidete Menschen zu rekonstruieren. Wir stellen PhysAvatar vor, ein neuartiges Framework, das inverse Rendering mit inverser Physik kombiniert, um automatisch die Form und das Erscheinungsbild eines Menschen aus Multi-View-Videodaten sowie die physikalischen Parameter des Stoffs ihrer Kleidung zu schätzen. Zu diesem Zweck verwenden wir eine mesh-ausgerichtete 4D-Gauß-Technik für das raumzeitliche Mesh-Tracking sowie einen physikalisch basierten inversen Renderer zur Schätzung der intrinsischen Materialeigenschaften. PhysAvatar integriert einen Physiksimulator, um die physikalischen Parameter der Kleidungsstücke auf eine prinzipiengeleitete Weise mithilfe einer gradientenbasierten Optimierung zu schätzen. Diese neuartigen Fähigkeiten ermöglichen es PhysAvatar, hochwertige Renderings von Avataren in locker sitzender Kleidung unter Bewegungen und Beleuchtungsbedingungen zu erstellen, die nicht in den Trainingsdaten enthalten sind. Dies stellt einen bedeutenden Fortschritt bei der Modellierung fotorealistischer digitaler Menschen unter Verwendung von physikalisch basiertem inversen Rendering mit Physik im Regelkreis dar. Unsere Projektwebsite finden Sie unter: https://qingqing-zhao.github.io/PhysAvatar
In dem sich schnell entwickelnden Bereich der generativen Modelle stellt die Entwicklung effizienter und hochwertiger Text-zu-Bild-Diffusionsysteme eine bedeutende Grenze dar. Diese Studie führt YaART ein, ein neuartiges text-zu-Bild-kaskadiertes Diffusionsmodell für die Produktion, das auf menschliche Präferenzen ausgerichtet ist und Reinforcement Learning aus menschlichem Feedback (RLHF) verwendet. Während der Entwicklung von YaART konzentrieren wir uns insbesondere auf die Auswahl der Modell- und Trainingsdatensatzgrößen, Aspekte, die zuvor nicht systematisch für text-zu-Bild-kaskadierte Diffusionsmodelle untersucht wurden. Insbesondere analysieren wir umfassend, wie sich diese Entscheidungen sowohl auf die Effizienz des Schulungsprozesses als auch auf die Qualität der generierten Bilder auswirken, die in der Praxis von großer Bedeutung sind. Darüber hinaus zeigen wir, dass Modelle, die auf kleineren Datensätzen von hochwertigen Bildern trainiert wurden, erfolgreich mit denen konkurrieren können, die auf größeren Datensätzen trainiert wurden, und damit ein effizienteres Szenario für das Training von Diffusionsmodellen schaffen. Aus Qualitätsgründen wird YaART von Benutzern durchgehend gegenüber vielen bestehenden State-of-the-Art-Modellen bevorzugt.
In diesem Paper präsentieren wir MoMA: ein Open-Vocabulary, Training-freies personalisiertes Bildmodell, das über flexible Zero-Shot-Fähigkeiten verfügt. Während grundlegende Text-zu-Bild-Modelle sich schnell weiterentwickeln, wächst die Nachfrage nach robusten Bild-zu-Bild-Übersetzungen. Um diesem Bedarf gerecht zu werden, spezialisiert sich MoMA auf die subjektgesteuerte personalisierte Bildgenerierung. Unter Verwendung eines Open-Source Multimodal Large Language Model (MLLM) trainieren wir MoMA, um eine doppelte Rolle als Merkmalsextraktor und Generator zu erfüllen. Dieser Ansatz nutzt effektiv Referenzbild- und Textprompt-Informationen, um wertvolle Bildmerkmale zu erzeugen, die die Bildverdünnung unterstützen. Um die generierten Merkmale besser zu nutzen, führen wir zudem eine neuartige Self-Attention-Shortcut-Methode ein, die Bildmerkmale effizient an ein Bildverdünnungsmodell überträgt und die Ähnlichkeit des Zielobjekts in generierten Bildern verbessert. Bemerkenswerterweise benötigt unser Modell als abstimmungsfreies Plug-and-Play-Modul nur ein einziges Referenzbild und übertrifft bestehende Methoden bei der Generierung von Bildern mit hoher Detailtreue, verbesserte Identitätserhaltung und Treue zum Prompt. Unsere Arbeit ist Open-Source und ermöglicht somit einen universellen Zugang zu diesen Fortschritten.
Wir präsentieren Diffusion-KTO, einen neuartigen Ansatz zur Ausrichtung von Text-zu-Bild-Diffusionsmodellen, indem das Ausrichtungsziel als Maximierung des erwarteten menschlichen Nutzens formuliert wird. Da dieses Ziel für jede Generation unabhängig gilt, erfordert Diffusion-KTO nicht die Sammlung kostspieliger paarweiser Präferenzdaten oder das Training eines komplexen Belohnungsmodells. Stattdessen erfordert unser Ziel einfache binäre Rückmeldesignale pro Bild, z. B. Likes oder Dislikes, die reichlich verfügbar sind. Nach Feinabstimmung mit Diffusion-KTO zeigen Text-zu-Bild-Diffusionsmodelle eine überlegene Leistung im Vergleich zu bestehenden Techniken, einschließlich überwachter Feinabstimmung und Diffusion-DPO, sowohl in Bezug auf menschliche Beurteilung als auch auf automatische Auswertungsmetriken wie PickScore und ImageReward. Insgesamt erschließt Diffusion-KTO das Potenzial der Nutzung leicht verfügbarer binärer Signale pro Bild und erweitert die Anwendbarkeit der Ausrichtung von Text-zu-Bild-Diffusionsmodellen an menschlichen Präferenzen.
Transformer haben Fortschritte in den Bereichen Computer Vision und Natural Language Processing (NLP) vorangetrieben. Allerdings stellt die erhebliche Rechenkomplexität Einschränkungen für ihren Einsatz in Aufgaben mit langem Kontext dar, wie z.B. der Erzeugung hochauflösender Bilder. Dieses Paper stellt eine Reihe von Architekturen vor, die aus dem RWKV-Modell aus dem NLP adaptiert wurden, mit erforderlichen Anpassungen, die speziell für das Diffusion-Modell für Bildgenerierungsaufgaben entwickelt wurden, bekannt als Diffusion-RWKV. Ähnlich wie bei der Diffusion mit Transformers ist unser Modell darauf ausgelegt, Patch-Inputs effizient in einer Sequenz mit zusätzlichen Bedingungen zu verarbeiten, während es auch effektiv skaliert und sowohl große Parameter als auch umfangreiche Datensätze bewältigt. Sein herausragender Vorteil zeigt sich in seiner reduzierten räumlichen Aggregationskomplexität, was es außergewöhnlich geschickt bei der Verarbeitung hochauflösender Bilder macht und somit die Notwendigkeit für Fensterung oder gruppierte Zwischenspeicheroperationen beseitigt. Experimentelle Ergebnisse sowohl bei bedingten als auch unbedingten Bildgenerierungsaufgaben zeigen, dass Diffusion-RWKV eine Leistung erbringt, die mit oder über bestehenden CNN- oder Transformer-basierten Diffusionsmodellen in FID- und IS-Metriken liegt, während der Gesamtberechnungsaufwand signifikant reduziert wird.
In jüngster Zeit haben Fortschritte in Diffusionsmodellen eine bemerkenswerte Leistungsfähigkeit bei der Bearbeitung von 2D-Bildern basierend auf Textvorgaben gezeigt. Die Erweiterung dieser Techniken zur Bearbeitung von Szenen in Neuronalen Strahlungsfeldern (NeRF) ist jedoch komplex, da die Bearbeitung einzelner 2D-Frames zu Inkonsistenzen über verschiedene Ansichten hinweg führen kann. Unser entscheidender Einblick besteht darin, dass die Geometrie einer NeRF-Szene als Brücke dienen kann, um diese 2D-Bearbeitungen zu integrieren. Unter Verwendung dieser Geometrie setzen wir ein tiefenbedingtes ControlNet ein, um die Kohärenz jeder 2D-Bildbearbeitung zu verbessern. Darüber hinaus führen wir einen Inpainting-Ansatz ein, der die Tiefeninformationen von NeRF-Szenen nutzt, um 2D-Bearbeitungen über verschiedene Bilder zu verteilen und so Robustheit gegen Fehler und Neuberechnungsherausforderungen sicherzustellen. Unsere Ergebnisse zeigen, dass diese Methodik konsistentere, lebensechtere und detailliertere Bearbeitungen erreicht als bestehende führende Methoden für textgesteuerte NeRF-Szenenbearbeitung.
Die Beantwortung von langen Video-Fragen ist eine anspruchsvolle Aufgabe, die das Erkennen von kurzfristigen Aktivitäten und das Schlussfolgern über ihre feingranulierten Beziehungen beinhaltet. Video Large Language Models (vLLMs) auf dem neuesten Stand der Technik versprechen eine vielversprechende Lösung aufgrund ihrer gezeigten emergenten Fähigkeiten bei neuen Aufgaben. Trotz des Trainings auf Millionen von kurzen Videos von wenigen Sekunden Länge sind vLLMs nicht in der Lage, Videos von Minutenlänge zu verstehen und genau Fragen dazu zu beantworten. Um diese Einschränkung zu überwinden, schlagen wir einen leichten und selbstüberwachten Ansatz vor, den Keyframe-bedingten langen Video-LLM (Koala), der lernbare spatiotemporale Abfragen einführt, um vortrainierte vLLMs für eine Verallgemeinerung auf längere Videos anzupassen. Unser Ansatz führt zwei neue Tokenizer ein, die auf visuellen Tokens basieren, die aus spärlichen Schlüsselbildern von Videos berechnet werden, um kurze und lange Videomomente zu verstehen. Wir trainieren unseren vorgeschlagenen Ansatz auf HowTo100M und zeigen seine Wirksamkeit bei Zero-Shot-Tests zur Verständnis von langen Videos, bei denen er die Modelle auf dem neuesten Stand der Technik um 3-6% in absoluter Genauigkeit bei allen Aufgaben übertrifft. Überraschenderweise zeigen wir auch empirisch, dass unser Ansatz nicht nur einem vortrainierten vLLM hilft, lange Videos zu verstehen, sondern auch seine Genauigkeit bei der Erkennung kurzfristiger Aktionen verbessert.