papers.description
Aktuelle Benchmarks für lange Kontexte konzentrieren sich hauptsächlich auf tests basierend auf Rückgewinnung, die von Large Language Models (LLMs) verlangen, spezifische Informationen innerhalb umfangreicher Eingangskontexte zu lokalisieren, wie beispielsweise der Nadel-im-Heuhaufen (NIAH) Benchmark. Die Generierung von langem Kontext bezieht sich auf die Fähigkeit eines Sprachmodells, kohärenten und kontextuell genauen Text zu erzeugen, der sich über umfangreiche Passagen oder Dokumente erstreckt. Während aktuelle Studien eine starke Leistung bei NIAH und anderen auf Rückgewinnung basierenden Benchmarks für langen Kontext zeigen, gibt es einen signifikanten Mangel an Benchmarks zur Bewertung der Fähigkeiten zur Generierung von langem Kontext. Um diese Lücke zu schließen und eine umfassende Bewertung anzubieten, stellen wir einen synthetischen Benchmark vor, LongGenBench, der flexible Konfigurationen von benutzerdefinierten Generierungskontextlängen ermöglicht. LongGenBench geht über traditionelle Benchmarks hinaus, indem das Format der Fragen neu gestaltet wird und verlangt wird, dass LLMs mit einer einzigen, kohärenten langen Kontextantwort antworten. Nach umfangreicher Evaluation mit LongGenBench beobachten wir, dass: (1) sowohl API-zugängliche als auch Open-Source-Modelle eine Leistungsverschlechterung in Szenarien der Generierung von langem Kontext aufweisen, die von 1,2 % bis 47,1 % reicht; (2) verschiedene Serien von LLMs zeigen unterschiedliche Trends der Leistungsverschlechterung, wobei das Gemini-1.5-Flash-Modell die geringste Verschlechterung unter den API-zugänglichen Modellen aufweist und die Qwen2-Serie die geringste Verschlechterung in LongGenBench unter den Open-Source-Modellen zeigt.
Das Verständnis und die genaue Befolgung von Anweisungen sind entscheidend für große Sprachmodelle (LLMs), um in verschiedenen Aufgaben effektiv zu sein. In dieser Arbeit untersuchen wir eingehend die Schlüsselfaktoren, die es Modellen ermöglichen, auf unbekannte Anweisungen zu verallgemeinern, und liefern Einblicke, um die Datensammlung für die Anpassung von Anweisungen zu leiten. Durch kontrollierte Experimente, inspiriert von dem Turing-vollständigen Markov-Algorithmus, zeigen wir, dass eine solche Verallgemeinerung nur entsteht, wenn die Trainingsdaten über ausreichend vielfältige semantische Bereiche diversifiziert sind. Unsere Ergebnisse zeigen auch, dass eine bloße Diversifizierung innerhalb begrenzter Bereiche keine robuste Verallgemeinerung sicherstellt. Im Gegensatz dazu verbessert die Diversifizierung von Daten über Domänen hinweg, selbst bei begrenzten Datenbudgets, signifikant die Anpassungsfähigkeit eines Modells. Wir erweitern unsere Analyse auch auf reale Szenarien, einschließlich des Feintunings von Spezialisten- und Generalistenmodellen. In beiden Fällen zeigen wir, dass 1) eine bessere Leistung erzielt werden kann, indem die Vielfalt eines etablierten Datensatzes erhöht wird, während die Datenmenge konstant bleibt, und 2) bei der Skalierung der Daten ist die Diversifizierung der Semantik von Anweisungen effektiver als einfach die Menge ähnlicher Daten zu erhöhen. Unsere Forschung liefert wichtige Erkenntnisse für die Zusammenstellung von Datensätzen, insbesondere bei der Optimierung der Modellleistung durch die Erweiterung der Trainingsdaten für sowohl spezialisierte als auch generalistische Szenarien. Wir zeigen, dass eine sorgfältige Berücksichtigung der Daten-Diversifizierung entscheidend ist: Das Training von Spezialistenmodellen mit Daten, die über ihre Kernbereiche hinausgehen, führt zu signifikanten Leistungsverbesserungen, während Generalistenmodelle von vielfältigen Datengemischen profitieren, die ihre allgemeinen Anweisungsfolgefähigkeiten über eine Vielzahl von Anwendungen hinweg verbessern. Unsere Ergebnisse unterstreichen die wichtige Rolle der strategischen Diversifizierung und bieten klare Richtlinien zur Verbesserung der Datenqualität.
Diese Arbeit befasst sich mit dem Informationsverlust-Engpass der Vektorquantisierung (VQ) bei der autoregressiven Bildgenerierung durch die Einführung einer neuartigen Modellarchitektur namens 2-Dimensionaler Autoregression (DnD) Transformer. Der DnD-Transformer sagt mehr Codes für ein Bild voraus, indem er eine neue Autoregressionsrichtung, Modelltiefe, zusammen mit der Sequenzlängenrichtung einführt. Im Vergleich zur traditionellen 1D-Autoregression und früheren Arbeiten, die ähnliche 2D-Bildzerlegungen wie den RQ-Transformer nutzen, ist der DnD-Transformer ein End-to-End-Modell, das qualitativ hochwertigere Bilder mit derselben Grundmodellgröße und Sequenzlänge generieren kann und somit eine neue Optimierungsperspektive für die autoregressive Bildgenerierung eröffnet. Darüber hinaus zeigen unsere Experimente, dass das Potenzial des DnD-Transformers über die Generierung natürlicher Bilder hinausgeht. Er kann sogar Bilder mit reichhaltigen Text- und grafischen Elementen in einer selbstüberwachten Weise generieren und damit ein Verständnis für diese kombinierten Modalitäten zeigen. Dies wurde bisher nicht für beliebte visuelle generative Modelle wie Diffusionsmodelle demonstriert und zeigt einen Funken von Vision-Sprach-Intelligenz, wenn er ausschließlich auf Bilder trainiert wird. Der Code, die Datensätze und die Modelle sind unter https://github.com/chenllliang/DnD-Transformer öffentlich zugänglich.
Durch bedeutende Anstrengungen in jüngsten Studien hat sich LLM-als-Richter als kostengünstige Alternative zur menschlichen Bewertung zur Beurteilung der Textgenerierungsqualität in einer Vielzahl von Aufgaben etabliert. Es besteht jedoch immer noch eine Zuverlässigkeitslücke zwischen LLM-als-Richter und menschlicher Bewertung. Ein wichtiger Grund dafür ist das Fehlen von geleiteten Orakeln im Bewertungsprozess. Inspiriert von der Rolle des Referenzmaterials, das in der klassischen Textbewertung weit verbreitet ist, führen wir RevisEval ein, ein neuartiges Bewertungsparadigma für die Textgenerierung über die an die Antwort angepassten Referenzen. RevisEval basiert auf der Schlüsselbeobachtung, dass eine ideale Referenz die notwendige Relevanz zur zu bewertenden Antwort aufrechterhalten sollte. Konkret nutzt RevisEval die Textüberarbeitungsfähigkeiten großer Sprachmodelle (LLMs), um die Antwort adaptiv zu überarbeiten und behandelt den überarbeiteten Text dann als Referenz (antwortangepasste Referenz) für die nachfolgende Bewertung. Umfangreiche Experimente zeigen, dass RevisEval herkömmliche referenzfreie und referenzbasierte Bewertungsparadigmen, die LLM-als-Richter verwenden, in NLG-Aufgaben und offenen Anweisungsfolge-Aufgaben übertrifft. Noch wichtiger ist, dass unsere an die Antwort angepassten Referenzen die klassischen Textmetriken wie BLEU und BERTScore im Vergleich zu herkömmlichen Referenzen weiter verbessern können und sogar mit LLM-als-Richter konkurrieren können. Eine detaillierte Analyse wird auch durchgeführt, um die Wirksamkeit von RevisEval bei der Reduzierung von Bias, den Einfluss der Inferenzkosten und die Relevanz der Referenzen zu bestätigen.
Die Verbesserung der Fähigkeit großer Sprachmodelle (LLMs) im Bereich des Schlussfolgerns hat in den letzten Jahren erhebliche Aufmerksamkeit erlangt. Frühere Studien haben die Wirksamkeit verschiedener Aufforderungsstrategien zur Unterstützung von LLMs im Schlussfolgern (sogenannte "Schlussfolgerungsaktionen") gezeigt, wie beispielsweise schrittweises Denken, Nachdenken vor dem Antworten, Lösen mit Programmen und deren Kombinationen. Diese Ansätze haben jedoch oft statische, vordefinierte Schlussfolgerungsaktionen einheitlich auf alle Fragen angewendet, ohne die spezifischen Merkmale jeder Frage oder die Fähigkeit des aufgabenlösenden LLM zu berücksichtigen. In diesem Artikel schlagen wir DOTS vor, einen Ansatz, der es LLMs ermöglicht, dynamisch über die optimale Suche nach Schlussfolgerungswegen zu schlussfolgern, die auf den spezifischen Merkmalen jeder Frage und der inhärenten Fähigkeit des aufgabenlösenden LLM zugeschnitten sind. Unser Ansatz umfasst drei Schlüsselschritte: i) Definition atomarer Schlussfolgerungsaktionsmodule, die in verschiedene Schlussfolgerungsaktionspfade zusammengesetzt werden können; ii) Suche nach dem optimalen Aktionspfad für jede Trainingsfrage durch iterative Exploration und Bewertung für den spezifischen aufgabenlösenden LLM; und iii) Verwendung der gesammelten optimalen Pfade, um einen LLM darauf zu trainieren, die Schlussfolgerungswege von unerwarteten Fragen zu planen. Insbesondere schlagen wir zwei Lernparadigmen vor, nämlich das Feinabstimmen eines externen LLM als Planer zur Anleitung des aufgabenlösenden LLM oder das direkte Feinabstimmen des aufgabenlösenden LLM mit einer internalisierten Fähigkeit zur Planung von Schlussfolgerungsaktionen. Unsere Experimente über acht Schlussfolgerungsaufgaben zeigen, dass unsere Methode konsistent bessere Leistungen erbringt als statische Schlussfolgerungstechniken und der herkömmliche Anpassungsansatz. Eine weitere Analyse zeigt, dass unsere Methode es LLMs ermöglicht, ihre Berechnungen basierend auf der Problemkomplexität anzupassen, indem sie tiefgreifendes Denken und Schlussfolgerungen schwierigeren Problemen zuweisen.
Autoregressive (AR) Modelle haben die Bildgenerierung neu formuliert als Vorhersage des nächsten Tokens und dabei ein bemerkenswertes Potenzial gezeigt, das sie zu starken Konkurrenten der Diffusionsmodelle macht. Die Generierung von Bildern aus Steuerungsinformationen, ähnlich wie bei ControlNet, bleibt jedoch innerhalb der AR-Modelle weitgehend unerforscht. Obwohl ein naheliegender Ansatz, inspiriert von Fortschritten in großen Sprachmodellen, darin besteht, Steuerungsbilder in Tokens zu unterteilen und diese vor dem Decodieren von Bildtokens in das autoregressive Modell einzufügen, bleibt die Generierungsqualität im Vergleich zu ControlNet hinterher und leidet unter Ineffizienz. Zu diesem Zweck stellen wir ControlAR vor, ein effizientes und effektives Framework zur Integration von räumlichen Steuerungen in autoregressive Bildgenerierungsmodelle. Zunächst untersuchen wir die Steuerungscodierung für AR-Modelle und schlagen einen leichten Steuerungsencoder vor, um räumliche Eingaben (z. B. Canny-Kanten oder Tiefenkarten) in Steuerungstokens umzuwandeln. Dann nutzt ControlAR die bedingte Decodierungsmethode, um das nächste Bildtoken zu generieren, das auf der fusionierten Information pro Token zwischen Steuerungs- und Bildtokens basiert, ähnlich wie Positionscodierungen. Im Vergleich zur Vorabfüllung von Tokens stärkt die Verwendung der bedingten Decodierung signifikant die Steuerungsfähigkeit von AR-Modellen, während die Effizienz des Modells erhalten bleibt. Darüber hinaus ermöglicht das vorgeschlagene ControlAR überraschenderweise AR-Modellen die Generierung von Bildern mit beliebiger Auflösung über bedingte Decodierung und spezifische Steuerungen. Umfangreiche Experimente können die Steuerbarkeit des vorgeschlagenen ControlAR für die autoregressive Generierung von Steuerung-zu-Bildern über verschiedene Eingaben wie Kanten, Tiefen und Segmentierungsmasken zeigen. Sowohl quantitative als auch qualitative Ergebnisse deuten darauf hin, dass ControlAR die bisherigen state-of-the-art steuerbaren Diffusionsmodelle, z. B. ControlNet++, übertrifft. Der Code, die Modelle und eine Demo werden bald unter https://github.com/hustvl/ControlAR verfügbar sein.
Die Skalierung der Inferenzberechnung hat das Potenzial von langkontextigen großen Sprachmodellen (LLMs) in verschiedenen Umgebungen freigesetzt. Bei wissensintensiven Aufgaben wird die erhöhte Rechenleistung häufig dafür verwendet, mehr externes Wissen zu integrieren. Allerdings führt allein die Erweiterung des Kontexts ohne effektive Nutzung eines solchen Wissens nicht immer zu einer Leistungssteigerung. In dieser Arbeit untersuchen wir die Skalierung der Inferenz für die abrufgestützte Generierung (RAG) und erkunden Strategien, die über die bloße Erhöhung der Wissensmenge hinausgehen. Wir konzentrieren uns auf zwei Skalierungsstrategien der Inferenz: das Lernen im Kontext und die iterative Aufforderung. Diese Strategien bieten zusätzliche Flexibilität, um die Testzeitberechnung zu skalieren (z. B. durch Erhöhung der abgerufenen Dokumente oder der Generierungsschritte) und somit die Fähigkeit von LLMs zu verbessern, kontextbezogene Informationen effektiv zu erfassen und zu nutzen. Wir behandeln zwei zentrale Fragen: (1) Wie profitiert die Leistung von RAG von der Skalierung der Inferenzberechnung, wenn sie optimal konfiguriert ist? (2) Können wir die optimale Zuweisung von Testzeitberechnungen für ein bestimmtes Budget vorhersagen, indem wir die Beziehung zwischen der Leistung von RAG und den Inferenzparametern modellieren? Unsere Beobachtungen zeigen, dass eine Erhöhung der Inferenzberechnung zu nahezu linearen Gewinnen in der Leistung von RAG führt, wenn sie optimal zugewiesen wird, eine Beziehung, die wir als die Skalierungsgesetze der Inferenz für RAG beschreiben. Aufbauend darauf entwickeln wir das Berechnungsallokationsmodell weiter, um die Leistung von RAG für verschiedene Inferenzkonfigurationen abzuschätzen. Das Modell sagt optimale Inferenzparameter unter verschiedenen Berechnungsbeschränkungen vorher, die eng mit den experimentellen Ergebnissen übereinstimmen. Durch Anwendung dieser optimalen Konfigurationen zeigen wir, dass die Skalierung der Inferenzberechnung bei langkontextigen LLMs im Vergleich zu Standard-RAG auf Benchmark-Datensätzen bis zu 58,9 % Gewinne erzielt.
Große Sprachmodelle (LLMs) haben signifikante Fortschritte in verschiedenen NLP-Aufgaben vorangetrieben, wobei Langkontextmodelle an Bedeutung gewinnen, um erweiterte Eingaben zu verarbeiten. Die zunehmende Größe des Schlüssel-Wert (KV)-Caches, die von Transformer-Architekturen benötigt wird, verstärkt jedoch die Speicherbeschränkungen, insbesondere während der Dekodierungsphase, was einen signifikanten Engpass schafft. Bestehende spärliche Aufmerksamkeitsmechanismen, die entwickelt wurden, um diesen Engpass zu bewältigen, haben zwei Einschränkungen: (1) sie scheitern oft daran, die relevantesten Token für die Aufmerksamkeit zuverlässig zu identifizieren, und (2) sie übersehen die räumliche Kohärenz der Tokenauswahl über aufeinanderfolgende Transformer-Schichten hinweg, was zu Leistungsverschlechterung und erheblichem Mehraufwand bei der Tokenauswahl führen kann. Dieses Papier stellt TidalDecode vor, einen einfachen, aber effektiven Algorithmus und ein System für schnelles und präzises LLM-Decodieren durch positionspersistente spärliche Aufmerksamkeit. TidalDecode nutzt die räumliche Kohärenz der von bestehenden spärlichen Aufmerksamkeitsmethoden ausgewählten Token und führt einige Tokenauswahlschichten ein, die eine vollständige Aufmerksamkeit durchführen, um die Tokens mit den höchsten Aufmerksamkeitswerten zu identifizieren, während alle anderen Schichten spärliche Aufmerksamkeit mit den vorab ausgewählten Tokens durchführen. Dieses Design ermöglicht es TidalDecode, den Mehraufwand bei der Tokenauswahl für spärliche Aufmerksamkeit wesentlich zu reduzieren, ohne die Qualität der generierten Ergebnisse zu beeinträchtigen. Die Evaluation an einer vielfältigen Gruppe von LLMs und Aufgaben zeigt, dass TidalDecode die generative Leistung von Methoden mit voller Aufmerksamkeit nahezu erreicht, während die LLM-Decodierungs-Latenz um bis zu 2,1-fach reduziert wird.
Die Verstärkungslernmethode mit menschlichem Feedback (RLHF) hat ihre Wirksamkeit bei der Ausrichtung großer Sprachmodelle (LLMs) auf menschliche Präferenzen gezeigt. Allerdings leidet das Token-Level RLHF unter dem Problem der Zurechnung von Belohnungen über lange Sequenzen, bei denen verzögerte Belohnungen es für das Modell herausfordernd machen zu erkennen, welche Aktionen zu erfolgreichen Ergebnissen beigetragen haben. Dies beeinträchtigt die Lerneffizienz und verlangsamt die Konvergenz. In diesem Artikel schlagen wir MA-RLHF vor, ein einfaches, aber effektives RLHF-Framework, das Makroaktionen - Sequenzen von Tokens oder höheren Sprachkonstrukten - in den Lernprozess integriert. Durch die Arbeit auf dieser höheren Abstraktionsebene reduziert unser Ansatz den zeitlichen Abstand zwischen Aktionen und Belohnungen, was eine schnellere und genauere Zurechnung von Belohnungen ermöglicht. Dies führt zu stabileren Schätzwerten des Policy Gradient und verbessert die Lerneffizienz innerhalb jeder Episode, ohne die Rechenkomplexität während des Trainings oder der Inferenz zu erhöhen. Wir validieren unseren Ansatz durch umfangreiche Experimente über verschiedene Modellgrößen und Aufgaben, einschließlich Textzusammenfassung, Dialoggenerierung, Fragebeantwortung und Programmsynthese. Unsere Methode erzielt signifikante Leistungsverbesserungen gegenüber dem Standard-RLHF, mit Leistungssteigerungen von bis zu 30% bei der Textzusammenfassung und der Codegenerierung, 18% im Dialog und 8% bei Fragebeantwortungsaufgaben. Bemerkenswert ist, dass unser Ansatz die Leistung von Vanilla RLHF in Bezug auf die Trainingszeit 1,7x bis 2x schneller erreicht und auch nach weiterem Training weiterhin übertroffen wird. Wir werden unseren Code und unsere Daten öffentlich zugänglich machen unter https://github.com/ernie-research/MA-RLHF.
Langkontext-Sprachmodelle (LKM), die sich durch ihr umfangreiches Kontextfenster auszeichnen, werden zunehmend beliebter. Gleichzeitig präsentieren viele Langkontext-Benchmarktests anspruchsvolle Aufgaben, bei denen selbst fortgeschrittene LKM Schwierigkeiten haben, sie abzuschließen. Die zugrunde liegenden Ursachen verschiedener herausfordernder Langkontext-Aufgaben wurden jedoch selten untersucht. Um diese Lücke zu schließen, führen wir Experimente durch, um darauf hinzuweisen, dass ihre Schwierigkeit hauptsächlich auf zwei grundlegenden Problemen beruht: "Multi-Matching-Abruf", bei dem die gleichzeitige Abfrage mehrerer Elemente erforderlich ist, und "Logik-basierter Abruf", der logische Beurteilung innerhalb der Abrufkriterien erfordert. Diese beiden Probleme, die auf den ersten Blick einfach erscheinen, übersteigen tatsächlich die Fähigkeiten von LKM, da sie sich als hyper-multischrittig (mit zahlreichen Schritten zur Lösung) erwiesen haben. Diese Erkenntnis könnte erklären, warum LKM Schwierigkeiten mit fortgeschritteneren Langkontext-Aufgaben haben und somit eine genauere Perspektive für die Neubewertung von Lösungen für sie bieten.
Bei der generativen Modellierung vereinfacht die Tokenisierung komplexe Daten zu kompakten, strukturierten Darstellungen, wodurch ein effizienterer, erlernbarer Raum geschaffen wird. Für hochdimensionale visuelle Daten reduziert sie Redundanzen und betont Schlüsselfunktionen für eine hochwertige Generierung. Aktuelle visuelle Tokenisierungsmethoden basieren auf einem traditionellen Autoencoder-Framework, bei dem der Encoder Daten in latente Repräsentationen komprimiert und der Decoder die ursprüngliche Eingabe rekonstruiert. In dieser Arbeit bieten wir eine neue Perspektive, indem wir das Dekodieren als Rauschunterdrückung vorschlagen und uns von der einstufigen Rekonstruktion zu einer iterativen Verfeinerung bewegen. Konkret ersetzen wir den Decoder durch einen Diffusionsprozess, der iterativ Rauschen verfeinert, um das ursprüngliche Bild wiederherzustellen, geleitet von den Latenten, die vom Encoder bereitgestellt werden. Wir bewerten unseren Ansatz, indem wir sowohl die Rekonstruktionsqualität (rFID) als auch die Generierungsqualität (FID) beurteilen und ihn mit dem state-of-the-art Autoencoding-Ansatz vergleichen. Wir hoffen, dass diese Arbeit neue Einblicke in die Integration iterativer Generierung und Autoencoding für verbesserte Kompression und Generierung bietet.
Ereignissequenzen, die durch unregelmäßige Abtastintervalle und eine Mischung aus kategorialen und numerischen Merkmalen gekennzeichnet sind, sind gängige Datenstrukturen in verschiedenen realen Bereichen wie Gesundheitswesen, Finanzen und Benutzerinteraktionsprotokollen. Trotz Fortschritten in den Techniken zur Modellierung zeitlicher Daten gibt es keine standardisierten Benchmarks zur Bewertung ihrer Leistung bei Ereignissequenzen. Dies erschwert den Vergleich von Ergebnissen in verschiedenen Veröffentlichungen aufgrund unterschiedlicher Bewertungsprotokolle und kann den Fortschritt in diesem Bereich potenziell irreführen. Wir stellen EBES vor, ein umfassendes Benchmarking-Tool mit standardisierten Bewertungsszenarien und -protokollen, das sich auf Regressions- und Klassifizierungsprobleme mit Sequenzzielen konzentriert. Unsere Bibliothek vereinfacht das Benchmarking, die Hinzufügung von Datensätzen und die Integration von Methoden durch eine einheitliche Schnittstelle. Sie enthält einen neuartigen synthetischen Datensatz und bietet vorverarbeitete Datensätze aus der realen Welt, einschließlich des größten öffentlich verfügbaren Bankdatensatzes. Unsere Ergebnisse bieten eine eingehende Analyse der Datensätze und identifizieren einige als ungeeignet für den Modellvergleich. Wir untersuchen die Bedeutung der Modellierung zeitlicher und sequenzieller Komponenten sowie die Robustheit und Skalierungseigenschaften der Modelle. Diese Erkenntnisse heben potenzielle Richtungen für zukünftige Forschung hervor. Unser Benchmarking-Ziel ist es, reproduzierbare Forschung zu erleichtern, den Fortschritt zu beschleunigen und die Auswirkungen in der realen Welt zu erhöhen.
Video Large Language Models (Video-LLMs) haben bemerkenswerte Fähigkeiten in der grobkörnigen Videoerkennung gezeigt, haben jedoch Schwierigkeiten mit feinkörniger zeitlicher Verankerung. In diesem Paper stellen wir Grounded-VideoLLM vor, ein neuartiges Video-LLM, das dazu in der Lage ist, spezifische Videomomente auf feinkörnige Weise wahrzunehmen und zu analysieren. Wir erkennen, dass aktuelle Video-LLMs Einschränkungen bei der feinkörnigen Videoerkennung aufweisen, da ihnen eine effektive zeitliche Modellierung und Zeitstempelrepräsentation fehlt. Vor diesem Hintergrund schärfen wir unser Modell, indem wir (1) einen zusätzlichen zeitlichen Strom zur Kodierung der Beziehungen zwischen Frames und (2) diskrete zeitliche Tokens, angereichert mit spezifischem Zeitwissen, zur Darstellung von Zeitstempeln integrieren. Zur Optimierung des Trainings von Grounded-VideoLLM verwenden wir ein mehrstufiges Schulungsschema, das mit einfachen Video-Untertitelungsaufgaben beginnt und schrittweise Videozeitverankerungsaufgaben mit zunehmender Komplexität einführt. Um die zeitliche Schlussfolgerungsfähigkeit von Grounded-VideoLLM weiter zu verbessern, kuratieren wir auch einen geerdeten VideoQA-Datensatz durch eine automatische Annotationspipeline. Umfangreiche Experimente zeigen, dass Grounded-VideoLLM nicht nur in feinkörnigen Verankerungsaufgaben wie zeitlicher Satzverankerung, dichter Videobeschreibung und geerdetem VideoQA herausragt, sondern auch ein großes Potenzial als vielseitiger Videoassistent für die allgemeine Videoerkennung zeigt.