papers.description
Transformer haben sich kürzlich als leistungsstarkes Werkzeug zum Erlernen visueller Repräsentationen erwiesen. In diesem Artikel identifizieren und charakterisieren wir Artefakte in den Feature-Maps von sowohl überwachten als auch selbstüberwachten ViT-Netzwerken. Diese Artefakte entsprechen Tokens mit hoher Norm, die während des Inferenzprozesses hauptsächlich in wenig informativen Hintergrundbereichen von Bildern auftreten und für interne Berechnungen umfunktioniert werden. Wir schlagen eine einfache, aber effektive Lösung vor, die darauf basiert, der Eingabesequenz des Vision Transformers zusätzliche Tokens bereitzustellen, um diese Rolle zu erfüllen. Wir zeigen, dass diese Lösung das Problem sowohl für überwachte als auch selbstüberwachte Modelle vollständig behebt, einen neuen State-of-the-Art für selbstüberwachte visuelle Modelle bei dichten visuellen Vorhersageaufgaben setzt, Objektentdeckungsmethoden mit größeren Modellen ermöglicht und vor allem zu glatteren Feature-Maps und Aufmerksamkeitskarten für die nachgelagerte visuelle Verarbeitung führt.
Wir präsentieren Any-Modality Augmented Language Model (AnyMAL), ein einheitliches Modell, das über diverse Eingabemodalitätssignale (d.h. Text, Bild, Video, Audio, IMU-Bewegungssensor) schlussfolgert und textuelle Antworten generiert. AnyMAL erbt die leistungsstarken textbasierten Schlussfolgerungsfähigkeiten der modernsten Large Language Models (LLMs), einschließlich LLaMA-2 (70B), und wandelt modalitätsspezifische Signale durch ein vortrainiertes Aligner-Modul in den gemeinsamen Textraum um. Um die Fähigkeiten des multimodalen LLMs weiter zu stärken, feintunen wir das Modell mit einem multimodalen Instruktionsdatensatz, der manuell gesammelt wurde, um diverse Themen und Aufgaben über einfache Frage-Antwort-Szenarien hinaus abzudecken. Wir führen eine umfassende empirische Analyse durch, die sowohl menschliche als auch automatische Bewertungen umfasst, und demonstrieren state-of-the-art Leistungen in verschiedenen multimodalen Aufgaben.
Jüngste Fortschritte in der 3D-Inhaltserstellung nutzen überwiegend optimierungsbasierte 3D-Generierung mittels Score Distillation Sampling (SDS). Obwohl vielversprechende Ergebnisse erzielt wurden, leiden diese Methoden oft unter einer langsamen Optimierung pro Probe, was ihre praktische Anwendbarkeit einschränkt. In diesem Artikel stellen wir DreamGaussian vor, ein neuartiges Framework zur 3D-Inhaltsgenerierung, das sowohl Effizienz als auch Qualität gleichzeitig erreicht. Unser zentraler Ansatz besteht darin, ein generatives 3D-Gaussian-Splatting-Modell zu entwickeln, das mit einer begleitenden Meshextraktion und Texturverfeinerung im UV-Raum kombiniert wird. Im Gegensatz zur Besetzungsreduzierung, die bei Neural Radiance Fields verwendet wird, zeigen wir, dass die progressive Verdichtung von 3D-Gaußschen Funktionen für 3D-Generierungsaufgaben deutlich schneller konvergiert. Um die Texturqualität weiter zu verbessern und nachgelagerte Anwendungen zu erleichtern, führen wir einen effizienten Algorithmus ein, der 3D-Gaußsche Funktionen in texturierte Meshes umwandelt, und wenden eine Feinabstimmungsphase an, um die Details zu verfeinern. Umfangreiche Experimente demonstrieren die überlegene Effizienz und konkurrenzfähige Generierungsqualität unseres vorgeschlagenen Ansatzes. Bemerkenswerterweise erzeugt DreamGaussian hochwertige texturierte Meshes in nur 2 Minuten aus einem Einzelbild und erreicht damit eine etwa 10-fache Beschleunigung im Vergleich zu bestehenden Methoden.
Große Sprachmodelle (LLMs) haben das Feld der künstlichen Intelligenz revolutioniert und ermöglichen natürliche Sprachverarbeitungsaufgaben, die zuvor als ausschließlich menschliche Fähigkeiten galten. In dieser Arbeit stellen wir Qwen vor, den ersten Teil unserer Serie großer Sprachmodelle. Qwen ist eine umfassende Sprachmodellserie, die verschiedene Modelle mit unterschiedlichen Parametergrößen umfasst. Dazu gehören Qwen, die Basis-vortrainierten Sprachmodelle, und Qwen-Chat, die Chat-Modelle, die mit Techniken zur menschlichen Ausrichtung feinabgestimmt wurden. Die Basis-Sprachmodelle zeigen durchweg überlegene Leistungen bei einer Vielzahl von Downstream-Aufgaben, und die Chat-Modelle, insbesondere diejenigen, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, sind äußerst wettbewerbsfähig. Die Chat-Modelle verfügen über fortgeschrittene Fähigkeiten zur Werkzeugnutzung und Planung für die Erstellung von Agentenanwendungen und zeigen beeindruckende Leistungen, selbst im Vergleich zu größeren Modellen bei komplexen Aufgaben wie der Nutzung eines Code-Interpreters. Darüber hinaus haben wir spezialisierte Modelle für die Programmierung entwickelt, Code-Qwen und Code-Qwen-Chat, sowie mathematikorientierte Modelle, Math-Qwen-Chat, die auf Basis-Sprachmodellen aufbauen. Diese Modelle zeigen eine deutlich verbesserte Leistung im Vergleich zu Open-Source-Modellen und liegen nur knapp hinter proprietären Modellen zurück.
In diesem Artikel präsentieren wir Gaussian Splatting basierte Text-zu-3D-Generierung (GSGEN), einen neuartigen Ansatz zur Erzeugung hochwertiger 3D-Objekte. Bisherige Methoden leiden unter ungenauer Geometrie und begrenzter Detailtreue aufgrund des Fehlens von 3D-Priorwissen und geeigneter Repräsentation. Wir nutzen 3D Gaussian Splatting, eine aktuelle state-of-the-art Repräsentation, um bestehende Schwächen zu beheben, indem wir den expliziten Charakter ausnutzen, der die Einbindung von 3D-Priorwissen ermöglicht. Konkret verfolgt unsere Methode eine progressive Optimierungsstrategie, die eine Geometrieoptimierungsphase und eine Erscheinungsverfeinerungsphase umfasst. In der Geometrieoptimierung wird eine grobe Repräsentation unter einem 3D-Geometrie-Prior zusammen mit dem üblichen 2D-SDS-Verlust etabliert, wodurch eine sinnvolle und 3D-konsistente grobe Form sichergestellt wird. Anschließend durchlaufen die erhaltenen Gaussians eine iterative Verfeinerung, um Details zu bereichern. In dieser Phase erhöhen wir die Anzahl der Gaussians durch kompaktheitsbasierte Verdichtung, um die Kontinuität zu verbessern und die Detailtreue zu steigern. Mit diesen Konzepten kann unser Ansatz 3D-Inhalte mit feinen Details und präziserer Geometrie erzeugen. Umfangreiche Auswertungen demonstrieren die Effektivität unserer Methode, insbesondere bei der Erfassung hochfrequenter Komponenten. Videoergebnisse sind unter https://gsgen3d.github.io verfügbar. Unser Code ist unter https://github.com/gsgen3d/gsgen zugänglich.
Wir präsentieren eine Reihe von LLMs mit langem Kontext, die effektive Kontextfenster von bis zu 32.768 Tokens unterstützen. Unsere Modellreihe wurde durch kontinuierliches Vortraining von Llama 2 mit längeren Trainingssequenzen und auf einem Datensatz aufgebaut, in dem lange Texte verstärkt berücksichtigt werden. Wir führen umfangreiche Evaluierungen in den Bereichen Sprachmodellierung, synthetische Kontextuntersuchungsaufgaben und einer Vielzahl von Forschungsbenchmarks durch. Bei den Forschungsbenchmarks erzielen unsere Modelle durchweg Verbesserungen bei den meisten regulären Aufgaben und signifikante Verbesserungen bei Aufgaben mit langem Kontext im Vergleich zu Llama 2. Bemerkenswerterweise kann die 70B-Variante bereits die Gesamtleistung von gpt-3.5-turbo-16k bei einer Reihe von Aufgaben mit langem Kontext übertreffen, und dies mit einem kosteneffizienten Instruction-Tuning-Verfahren, das keine von Menschen annotierten langen Instruktionsdaten erfordert. Neben diesen Ergebnissen bieten wir eine detaillierte Analyse der einzelnen Komponenten unserer Methode. Wir untersuchen die Positionskodierungen von Llama und diskutieren deren Grenzen bei der Modellierung langer Abhängigkeiten. Wir analysieren auch die Auswirkungen verschiedener Designentscheidungen im Vortrainingsprozess, einschließlich der Datenzusammensetzung und des Trainingscurriculums für Sequenzlängen – unsere Ablationsexperimente deuten darauf hin, dass das Vorhandensein einer Fülle langer Texte im Vortrainingsdatensatz nicht der Schlüssel zur Erzielung einer starken Leistung ist, und wir bestätigen empirisch, dass das kontinuierliche Vortraining mit langem Kontext effizienter und ähnlich effektiv ist im Vergleich zum Vortraining von Grund auf mit langen Sequenzen.
Wir beabsichtigen, ein bedeutendes, aber bisher wenig erforschtes Problem in der Anime-Branche anzugehen, nämlich das Inbetweening von Cartoon-Linienzeichnungen. Inbetweening beinhaltet die Erzeugung von Zwischenbildern zwischen zwei schwarz-weißen Linienzeichnungen und ist ein zeitaufwändiger und kostspieliger Prozess, der von Automatisierung profitieren kann. Bestehende Methoden zur Bildinterpolation, die auf der Übereinstimmung und Verzerrung ganzer Rasterbilder basieren, sind jedoch für das Inbetweening von Linien ungeeignet und erzeugen oft Unschärfeartefakte, die die komplexen Linienstrukturen beschädigen. Um die Präzision und Detailtreue der Linienzeichnungen zu bewahren, schlagen wir einen neuen Ansatz vor, AnimeInbet, der Rasterlinienzeichnungen in Graphen von Endpunkten geometrisiert und die Inbetweening-Aufgabe als ein Graph-Fusionsproblem mit Knoten-Neuplatzierung umformuliert. Unsere Methode kann effektiv die Sparsamkeit und einzigartige Struktur von Linienzeichnungen erfassen und gleichzeitig die Details während des Inbetweenings bewahren. Dies wird durch unsere neuartigen Module ermöglicht, d.h. die geometrische Einbettung von Knoten, einen Transformer für die Knotenkorrespondenz, einen effektiven Mechanismus für die Knoten-Neuplatzierung und einen Sichtbarkeitsvorhersager. Um unsere Methode zu trainieren, stellen wir MixamoLine240 vor, einen neuen Datensatz von Linienzeichnungen mit Ground-Truth-Vektorisierung und Übereinstimmungsetiketten. Unsere Experimente zeigen, dass AnimeInbet hochwertige, saubere und vollständige Zwischenlinienzeichnungen synthetisiert und bestehende Methoden quantitativ und qualitativ übertrifft, insbesondere bei Fällen mit großen Bewegungen. Daten und Code sind verfügbar unter https://github.com/lisiyao21/AnimeInbet.
Contrastive Language-Image Pre-training (CLIP) ist ein Ansatz, der die Forschung und Anwendungen in der Computer Vision vorangetrieben hat und moderne Erkennungssysteme sowie generative Modelle beflügelt hat. Wir glauben, dass der Hauptfaktor für den Erfolg von CLIP seine Daten und nicht die Modellarchitektur oder das Vortrainingsziel sind. Allerdings liefert CLIP nur sehr begrenzte Informationen über seine Daten und deren Sammlung, was zu Arbeiten geführt hat, die darauf abzielen, CLIPs Daten durch Filterung mit seinen Modellparametern zu reproduzieren. In dieser Arbeit beabsichtigen wir, den Ansatz zur Datenkuratierung von CLIP aufzudecken und im Bestreben, ihn der Gemeinschaft zugänglich zu machen, Metadata-Curated Language-Image Pre-training (MetaCLIP) einzuführen. MetaCLIP nimmt einen Rohdatenpool und Metadaten (abgeleitet aus CLIPs Konzepten) und erzeugt eine ausgewogene Teilmenge über die Metadatenverteilung. Unsere experimentelle Studie isoliert rigoros das Modell und die Trainingsbedingungen und konzentriert sich ausschließlich auf die Daten. MetaCLIP, angewendet auf CommonCrawl mit 400 Millionen Bild-Text-Datenpaaren, übertrifft CLIPs Daten in mehreren Standardbenchmarks. Bei der Zero-Shot-Klassifikation auf ImageNet erreicht MetaCLIP eine Genauigkeit von 70,8 % und übertrifft damit CLIPs 68,3 % auf ViT-B-Modellen. Bei einer Skalierung auf 1 Milliarde Daten, bei gleichem Trainingsbudget, wird eine Genauigkeit von 72,4 % erreicht. Unsere Beobachtungen gelten über verschiedene Modellgrößen hinweg, was durch ViT-H, das 80,5 % erreicht, ohne jegliche zusätzlichen Optimierungen, veranschaulicht wird. Der Kuratierungscode und die Verteilung der Trainingsdaten auf Metadaten sind unter https://github.com/facebookresearch/MetaCLIP verfügbar.
Klassifikatoren, die auf Vision-Sprache-Modellen wie CLIP basieren, haben bemerkenswerte Zero-Shot-Leistungen über eine breite Palette von Bildklassifizierungsaufgaben gezeigt. Frühere Arbeiten haben verschiedene Methoden untersucht, um automatisch Deskriptorsätze für jede Klasse basierend auf Prompt-Vorlagen zu erstellen, die von manuell konstruierten Vorlagen über Vorlagen, die von einem großen Sprachmodell stammen, bis hin zu Vorlagen aus zufälligen Wörtern und Zeichen reichen. Im Gegensatz dazu ist die Ableitung von Zero-Shot-Klassifikatoren aus den jeweiligen kodierten Klassendeskriptoren nahezu unverändert geblieben, d.h.: Klassifiziere in die Klasse, die die Kosinusähnlichkeit zwischen ihren gemittelten kodierten Klassendeskriptoren und dem kodierten Bild maximiert. Es kann jedoch suboptimal sein, alle Klassendeskriptoren gleich zu gewichten, wenn bestimmte Deskriptoren visuelle Hinweise auf einem gegebenen Bild besser abdecken als andere. In dieser Arbeit schlagen wir AutoCLIP vor, eine Methode zur automatischen Feinabstimmung von Zero-Shot-Klassifikatoren. AutoCLIP weist jeder Prompt-Vorlage pro Bild Gewichte zu, die aus Statistiken der Ähnlichkeiten zwischen Klassendeskriptoren und Bildern zum Zeitpunkt der Inferenz abgeleitet werden. AutoCLIP ist vollständig unüberwacht, hat einen sehr geringen Overhead und kann leicht in wenigen Codezeilen implementiert werden. Wir zeigen, dass AutoCLIP für eine breite Palette von Vision-Sprache-Modellen, Datensätzen und Prompt-Vorlagen die Baselines konsistent und um bis zu 3 Prozentpunkte in der Genauigkeit übertrifft.
Zuverlässige Vorhersagen des zukünftigen Verhaltens von Verkehrsteilnehmern sind eine entscheidende Komponente für sicheres Planen in autonomen Fahrzeugen. Hier repräsentieren wir kontinuierliche Trajektorien als Sequenzen diskreter Bewegungs-Tokens und formulieren die Multi-Agenten-Bewegungsvorhersage als Sprachmodellierungsaufgabe in diesem Bereich. Unser Modell, MotionLM, bietet mehrere Vorteile: Erstens benötigt es keine Anker oder explizite latente Variablenoptimierung, um multimodale Verteilungen zu lernen. Stattdessen nutzen wir ein einziges standardmäßiges Sprachmodellierungsziel, das die durchschnittliche Log-Wahrscheinlichkeit über Sequenz-Tokens maximiert. Zweitens umgeht unser Ansatz nachträgliche Interaktionsheuristiken, bei denen die Trajektoriengenerierung einzelner Agenten vor der interaktiven Bewertung durchgeführt wird. Stattdessen erzeugt MotionLM gemeinsame Verteilungen über interaktive Zukunftsverläufe von Agenten in einem einzigen autoregressiven Dekodierungsprozess. Darüber hinaus ermöglicht die sequenzielle Faktorisierung des Modells zeitlich kausale bedingte Rollouts. Der vorgeschlagene Ansatz erreicht neue Spitzenleistungen in der Multi-Agenten-Bewegungsvorhersage auf dem Waymo Open Motion Dataset und belegt den ersten Platz auf der interaktiven Challenge-Rangliste.
Jüngste Fortschritte in der generativen Bildverarbeitung haben Outpainting- und Inpainting-Modelle hervorgebracht, die hochwertige und plausible Bildinhalte in unbekannten Regionen erzeugen können. Allerdings sind die Inhalte, die diese Modelle halluzinieren, zwangsläufig nicht authentisch, da den Modellen der ausreichende Kontext über die tatsächliche Szene fehlt. In dieser Arbeit stellen wir RealFill vor, einen neuartigen generativen Ansatz zur Bildvervollständigung, der fehlende Bereiche eines Bildes mit den Inhalten füllt, die dort eigentlich vorhanden sein sollten. RealFill ist ein generatives Inpainting-Modell, das mithilfe weniger Referenzbilder einer Szene personalisiert wird. Diese Referenzbilder müssen nicht mit dem Zielbild ausgerichtet sein und können mit stark variierenden Blickwinkeln, Lichtverhältnissen, Blendenöffnungen oder Bildstilen aufgenommen werden. Nach der Personalisierung ist RealFill in der Lage, ein Zielbild mit visuell überzeugenden Inhalten zu vervollständigen, die der ursprünglichen Szene treu bleiben. Wir evaluieren RealFill anhand eines neuen Benchmarks zur Bildvervollständigung, der eine Reihe von vielfältigen und anspruchsvollen Szenarien abdeckt, und stellen fest, dass es bestehende Ansätze deutlich übertrifft. Weitere Ergebnisse finden Sie auf unserer Projektseite: https://realfill.github.io.
Mit der rasanten Entwicklung großer Sprachmodelle (LLMs) besteht ein dringender Bedarf an einem umfassenden Evaluationsframework, um deren Fähigkeiten und Grenzen zu bewerten. Bestehende LLM-Ranglisten beziehen sich oft auf in anderen Arbeiten berichtete Ergebnisse ohne konsistente Einstellungen und Prompts, was unbeabsichtigt die Auswahl bevorzugter Einstellungen und Prompts für bessere Ergebnisse fördern kann. In dieser Arbeit stellen wir GPT-Fathom vor, ein quelloffenes und reproduzierbares LLM-Evaluationsframework, das auf OpenAI Evals aufbaut. Wir evaluieren systematisch mehr als 10 führende LLMs sowie OpenAIs Legacy-Modelle anhand von über 20 sorgfältig ausgewählten Benchmarks in 7 Fähigkeitskategorien, alle unter einheitlichen Einstellungen. Unsere retrospektive Studie zu OpenAIs früheren Modellen bietet wertvolle Einblicke in den Entwicklungsweg von GPT-3 zu GPT-4. Derzeit ist die Gemeinschaft bestrebt zu verstehen, wie sich GPT-3 schrittweise zu GPT-4 verbessert, einschließlich technischer Details wie beispielsweise, ob das Hinzufügen von Code-Daten die Fähigkeit des LLMs zur logischen Schlussfolgerung verbessert, welche Aspekte der LLM-Fähigkeiten durch SFT und RLHF verbessert werden können, wie hoch die Alignment-Steuer ist, usw. Unsere Analyse beleuchtet viele dieser Fragen und zielt darauf ab, die Transparenz fortschrittlicher LLMs zu verbessern.
Wir betrachten die Aufgabe, vielfältige und realistische Videos zu generieren, die durch natürliche Audioaufnahmen aus einer Vielzahl von semantischen Klassen gesteuert werden. Für diese Aufgabe müssen die Videos sowohl global als auch zeitlich mit dem Eingabe-Audio abgestimmt sein: global, indem das Eingabe-Audio semantisch mit dem gesamten Ausgabe-Video verknüpft ist, und zeitlich, indem jedes Segment des Eingabe-Audios mit einem entsprechenden Segment des Videos assoziiert wird. Wir nutzen ein bestehendes textgesteuertes Video-Generierungsmodell und ein vortrainiertes Audio-Encoder-Modell. Die vorgeschlagene Methode basiert auf einem leichtgewichtigen Adapter-Netzwerk, das lernt, die audio-basierte Repräsentation auf die Eingabedarstellung abzubilden, die vom Text-zu-Video-Generierungsmodell erwartet wird. Dadurch ermöglicht es auch die Video-Generierung, die sowohl durch Text, Audio als auch, soweit wir feststellen können, erstmals durch Text und Audio gemeinsam gesteuert wird. Wir validieren unsere Methode umfassend an drei Datensätzen, die eine signifikante semantische Vielfalt von Audio-Video-Beispielen aufweisen, und schlagen zudem eine neuartige Bewertungsmetrik (AV-Align) vor, um die Abstimmung der generierten Videos mit den Eingabe-Audioaufnahmen zu bewerten. AV-Align basiert auf der Erkennung und dem Vergleich von Energiepeaks in beiden Modalitäten. Im Vergleich zu aktuellen State-of-the-Art-Ansätzen generiert unsere Methode Videos, die besser mit dem Eingabe-Sound abgestimmt sind, sowohl inhaltlich als auch auf der Zeitachse. Wir zeigen außerdem, dass die von unserer Methode erzeugten Videos eine höhere visuelle Qualität aufweisen und vielfältiger sind.
Damit Roboter eine Vielzahl von Aufgaben ausführen können, benötigen sie eine 3D-Darstellung der Welt, die semantisch reichhaltig, aber dennoch kompakt und effizient für aufgabenorientierte Wahrnehmung und Planung ist. Neuere Ansätze haben versucht, Merkmale aus großen Vision-Language-Modellen zu nutzen, um Semantik in 3D-Darstellungen zu kodieren. Diese Ansätze neigen jedoch dazu, Karten mit Merkmalsvektoren pro Punkt zu erzeugen, die in größeren Umgebungen nicht gut skalieren und auch keine semantischen räumlichen Beziehungen zwischen Entitäten in der Umgebung enthalten, die für die nachgelagerte Planung nützlich wären. In dieser Arbeit schlagen wir ConceptGraphs vor, eine offene, graphstrukturierte Darstellung für 3D-Szenen. ConceptGraphs wird durch die Nutzung von 2D-Foundation-Modellen und die Fusion ihrer Ausgabe in 3D durch Multi-View-Assoziation erstellt. Die resultierenden Darstellungen generalisieren auf neue semantische Klassen, ohne dass große 3D-Datensätze gesammelt oder Modelle feinabgestimmt werden müssen. Wir demonstrieren den Nutzen dieser Darstellung durch eine Reihe von nachgelagerten Planungsaufgaben, die durch abstrakte (sprachliche) Anweisungen spezifiziert werden und komplexes Denken über räumliche und semantische Konzepte erfordern. (Projektseite: https://concept-graphs.github.io/ Erklärvideo: https://youtu.be/mRhNkQwRYnc)
Der Erfolg von Sprachmodellen, insbesondere transformer-basierten Architekturen, hat sich auf andere Domänen ausgeweitet und zur Entstehung von „wissenschaftlichen Sprachmodellen“ geführt, die auf kleine Moleküle, Proteine oder Polymere angewendet werden. In der Chemie tragen Sprachmodelle dazu bei, den Molekülentdeckungszyklus zu beschleunigen, wie vielversprechende jüngste Ergebnisse in der frühen Phase der Wirkstoffentwicklung belegen. Hier untersuchen wir die Rolle von Sprachmodellen in der Molekülentdeckung und betonen ihre Stärken im Bereich des de novo-Wirkstoffdesigns, der Eigenschaftsvorhersage und der Reaktionschemie. Wir heben wertvolle Open-Source-Software-Assets hervor und senken damit die Einstiegshürde in das Feld des wissenschaftlichen Sprachmodellierens. Schließlich skizzieren wir eine Vision für das zukünftige Moleküldesign, die eine Chatbot-Schnittstelle mit Zugang zu computergestützten Chemie-Tools kombiniert. Unser Beitrag dient als wertvolle Ressource für Forscher, Chemiker und KI-Enthusiasten, die verstehen möchten, wie Sprachmodelle bereits genutzt werden und in Zukunft genutzt werden können, um die chemische Entdeckung zu beschleunigen.
In dieser Arbeit präsentieren wir CCEdit, ein vielseitiges Framework, das entwickelt wurde, um die Herausforderungen des kreativen und kontrollierbaren Videoediting zu bewältigen. CCEdit berücksichtigt ein breites Spektrum an Benutzeranforderungen und ermöglicht eine verbesserte kreative Kontrolle durch einen innovativen Ansatz, der die Video-Struktur und das Erscheinungsbild entkoppelt. Wir nutzen die grundlegende ControlNet-Architektur, um die strukturelle Integrität zu bewahren, während wir gleichzeitig anpassungsfähige temporale Module nahtlos integrieren, die mit modernsten Personalisierungstechniken für die Text-zu-Bild-Generierung, wie DreamBooth und LoRA, kompatibel sind. Darüber hinaus führen wir referenzbasiertes Videoediting ein, das Benutzern ermöglicht, präzise kreative Kontrolle über das Videoediting durch den besser handhabbaren Prozess des Editierens von Schlüsselbildern auszuüben. Unsere umfangreichen experimentellen Auswertungen bestätigen die außergewöhnliche Funktionalität und die Bearbeitungsfähigkeiten des vorgeschlagenen CCEdit-Frameworks. Ein Demovideo ist verfügbar unter https://www.youtube.com/watch?v=UQw4jq-igN4.