ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Chain-of-Thought Reasoning ohne explizite Anleitung
Chain-of-Thought Reasoning Without Prompting

Feb 15
ByXuezhi Wang, Denny Zhou
109
5

Bei der Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) zum logischen Denken konzentriert sich die bisherige Forschung hauptsächlich auf spezifische Prompting-Techniken wie Few-Shot- oder Zero-Shot-Chain-of-Thought (CoT)-Prompting. Diese Methoden, obwohl effektiv, erfordern oft einen manuell aufwendigen Prompt-Engineering-Prozess. Unsere Studie geht einen neuartigen Ansatz, indem sie die Frage stellt: Können LLMs effektiv logisch denken, ohne spezifische Prompts zu verwenden? Unsere Ergebnisse zeigen, dass interessanterweise CoT-Denkpfade aus vortrainierten LLMs allein durch die Veränderung des Decodierungsprozesses hervorgebracht werden können. Anstelle des konventionellen Greedy-Decodings untersuchen wir die Top-k-Alternativ-Token und entdecken, dass CoT-Pfade häufig in diesen Sequenzen inhärent vorhanden sind. Dieser Ansatz umgeht nicht nur die Verzerrungen durch Prompting, sondern ermöglicht es uns auch, die intrinsischen Denkfähigkeiten der LLMs zu bewerten. Darüber hinaus beobachten wir, dass das Vorhandensein eines CoT im Decodierungspfad mit einer höheren Zuversicht in die vom Modell decodierte Antwort korreliert. Diese Zuversichtsmetrik unterscheidet effektiv zwischen CoT- und Nicht-CoT-Pfaden. Umfangreiche empirische Studien zu verschiedenen Denk-Benchmarks zeigen, dass das vorgeschlagene CoT-Decoding das Standard-Greedy-Decoding deutlich übertrifft.

2

Generatives Repräsentations-Instruktions-Finetuning
Generative Representational Instruction Tuning

Feb 15
ByNiklas Muennighoff, Hongjin Su, Liang Wang, Nan Yang, Furu Wei, Tao Yu, Amanpreet Singh, Douwe Kiela
54
5

Alle textbasierten Sprachprobleme lassen sich entweder auf Generierung oder Einbettung reduzieren. Aktuelle Modelle sind nur in einem der beiden Bereiche gut. Wir führen das generative repräsentative Instruktions-Tuning (GRIT) ein, bei dem ein großes Sprachmodell darauf trainiert wird, sowohl generative als auch Einbettungsaufgaben zu bewältigen, indem es diese durch Instruktionen unterscheidet. Im Vergleich zu anderen offenen Modellen setzt unser resultierendes GritLM 7B einen neuen Maßstab auf dem Massive Text Embedding Benchmark (MTEB) und übertrifft alle Modelle bis zu seiner Größe in einer Reihe von generativen Aufgaben. Durch weitere Skalierung übertrifft GritLM 8x7B alle offenen generativen Sprachmodelle, die wir getestet haben, und gehört gleichzeitig zu den besten Einbettungsmodellen. Bemerkenswerterweise stellen wir fest, dass GRIT dem Training mit ausschließlich generativen oder Einbettungsdaten entspricht, sodass wir beide ohne Leistungsverlust vereinen können. Unter anderen Vorteilen beschleunigt die Vereinigung durch GRIT die Retrieval-Augmented Generation (RAG) um > 60 % für lange Dokumente, da keine separaten Retrieval- und Generierungsmodelle mehr benötigt werden. Modelle, Code usw. sind frei verfügbar unter https://github.com/ContextualAI/gritlm.

3

Wie man dateneffiziente LLMs trainiert
How to Train Data-Efficient LLMs

Feb 15
ByNoveen Sachdeva, Benjamin Coleman, Wang-Cheng Kang, Jianmo Ni, Lichan Hong, Ed H. Chi, James Caverlee, Julian McAuley, Derek Zhiyuan Cheng
42
4

Das Training großer Sprachmodelle (LLMs) ist kostspielig. In diesem Artikel untersuchen wir dateneffiziente Ansätze für das Pre-Training von LLMs, d.h. Techniken, die darauf abzielen, die Pareto-Frontier der Modellqualität und des Ressourcen-/Datenverbrauchs während des Trainings zu optimieren. Wir möchten die Kompromisse verstehen, die mit Datenauswahlverfahren verbunden sind, die auf (i) teuer zu berechnenden Schätzungen der Datenqualität und (ii) der Maximierung von Abdeckungs- und Diversitätsmaßen im Merkmalsraum basieren. Unsere erste Technik, Ask-LLM, nutzt die Zero-Shot-Fähigkeiten instruktionsoptimierter LLMs, um die Qualität eines Trainingsbeispiels direkt zu bewerten. Um die Abdeckung zu verbessern, schlagen wir Density Sampling vor, das die Datenverteilung modelliert, um eine diverse Stichprobe auszuwählen. In unserem Vergleich von 19 Samplern, der Hunderte von Evaluierungsaufgaben und Pre-Training-Läufe umfasst, stellen wir fest, dass Ask-LLM und Density die besten Methoden in ihren jeweiligen Kategorien sind. Abdeckungsbasiertes Sampling kann die Leistung der vollständigen Daten wiederherstellen, während Modelle, die auf Ask-LLM-Daten trainiert werden, durchweg das Training mit den vollständigen Daten übertreffen – selbst wenn wir 90 % des ursprünglichen Datensatzes verwerfen, während sie bis zu 70 % schneller konvergieren.

4

Ein menscheninspiriertes Lesesystem mit Gedächtnis für den Kerninhalt sehr langer Kontexte
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts

Feb 15
ByKuang-Huei Lee, Xinyun Chen, Hiroki Furuta, John Canny, Ian Fischer
38
3

Aktuelle Large Language Models (LLMs) sind nicht nur auf eine maximale Kontextlänge beschränkt, sondern auch nicht in der Lage, lange Eingaben robust zu verarbeiten. Um diese Einschränkungen zu überwinden, schlagen wir ReadAgent vor, ein LLM-Agentensystem, das in unseren Experimenten die effektive Kontextlänge um bis zu das 20-fache erhöht. Inspiriert davon, wie Menschen interaktiv lange Dokumente lesen, implementieren wir ReadAgent als ein einfaches Prompting-System, das die fortgeschrittenen Sprachfähigkeiten von LLMs nutzt, um (1) zu entscheiden, welche Inhalte gemeinsam in einer Gedächtnisepisode gespeichert werden sollen, (2) diese Gedächtnisepisoden in kurze episodische Erinnerungen, sogenannte Gist-Erinnerungen, zu komprimieren, und (3) Aktionen durchzuführen, um Passagen im Originaltext nachzuschlagen, falls ReadAgent sich relevanter Details erinnern muss, um eine Aufgabe zu erfüllen. Wir evaluieren ReadAgent im Vergleich zu Baseline-Methoden, die Retrieval-Verfahren, den ursprünglichen langen Kontext oder die Gist-Erinnerungen verwenden. Diese Bewertungen werden anhand von drei Aufgaben zur Leseverständnis langer Dokumente durchgeführt: QuALITY, NarrativeQA und QMSum. ReadAgent übertrifft die Baseline-Methoden bei allen drei Aufgaben und erweitert gleichzeitig das effektive Kontextfenster um das 3- bis 20-fache.

5

OpenMathInstruct-1: Ein Datensatz mit 1,8 Millionen mathematischen Anweisungen zur Feinabstimmung
OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

Feb 15
ByShubham Toshniwal, Ivan Moshkov, Sean Narenthiran, Daria Gitman, Fei Jia, Igor Gitman
38
4

Aktuelle Arbeiten haben das immense Potenzial synthetisch generierter Datensätze für das Training großer Sprachmodelle (LLMs) gezeigt, insbesondere für den Erwerb gezielter Fähigkeiten. Derzeitige groß angelegte Datensätze für das Feinabstimmen von mathematischen Anweisungen, wie MetaMathQA (Yu et al., 2024) und MAmmoTH (Yue et al., 2024), werden mithilfe von Ausgaben proprietärer LLMs mit kommerziell restriktiven Lizenzen erstellt. Ein Hauptgrund, der die Verwendung von Open-Source-LLMs in diesen Daten-Generierungspipelines einschränkt, ist die große Kluft zwischen den mathematischen Fähigkeiten der besten proprietären LLMs, wie GPT-4, und den besten Open-Source-LLMs. Basierend auf den jüngsten Fortschritten bei Open-Source-LLMs, unserer vorgeschlagenen neuartigen Prompting-Technik und einigen Brute-Force-Skalierungen haben wir OpenMathInstruct-1 konstruiert, einen Datensatz für das Feinabstimmen mathematischer Anweisungen mit 1,8 Millionen Problem-Lösungs-Paaren. Der Datensatz wird durch die Synthese von Code-Interpreter-Lösungen für GSM8K und MATH, zwei beliebte Benchmarks für mathematisches Denken, mithilfe des kürzlich veröffentlichten und permissiv lizenzierten Mixtral-Modells erstellt. Unser bestes Modell, OpenMath-CodeLlama-70B, das auf einer Teilmenge von OpenMathInstruct-1 trainiert wurde, erreicht eine Punktzahl von 84,6 % auf GSM8K und 50,7 % auf MATH, was mit den besten gpt-distillierten Modellen konkurrieren kann. Wir veröffentlichen unseren Code, die Modelle und den OpenMathInstruct-1-Datensatz unter einer kommerziell freizügigen Lizenz.

6

Self-Play-Feinabstimmung von Diffusionsmodellen für die Text-zu-Bild-Generierung
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation

Feb 15
ByHuizhuo Yuan, Zixiang Chen, Kaixuan Ji, Quanquan Gu
35
4

Das Feinabstimmen von Diffusionsmodellen bleibt eine weitgehend unerforschte Grenze in der generativen künstlichen Intelligenz (GenAI), insbesondere im Vergleich zu den bemerkenswerten Fortschritten, die beim Feinabstimmen großer Sprachmodelle (LLMs) erzielt wurden. Während modernste Diffusionsmodelle wie Stable Diffusion (SD) und SDXL auf überwachtes Feinabstimmen angewiesen sind, erreicht ihre Leistung unweigerlich ein Plateau, nachdem eine bestimmte Datenmenge verarbeitet wurde. Kürzlich wurde bestärkendes Lernen (Reinforcement Learning, RL) eingesetzt, um Diffusionsmodelle mit Daten zu menschlichen Präferenzen fein abzustimmen, doch dies erfordert mindestens zwei Bilder („Gewinner“- und „Verlierer“-Bilder) für jeden Textprompt. In diesem Artikel stellen wir eine innovative Technik namens Self-Play-Feinabstimmen für Diffusionsmodelle (SPIN-Diffusion) vor, bei der das Diffusionsmodell mit seinen früheren Versionen in Wettbewerb tritt und so einen iterativen Selbstverbesserungsprozess ermöglicht. Unser Ansatz bietet eine Alternative zu herkömmlichen überwachten Feinabstimmungs- und RL-Strategien und verbessert sowohl die Modellleistung als auch die Ausrichtung signifikant. Unsere Experimente mit dem Pick-a-Pic-Datensatz zeigen, dass SPIN-Diffusion bereits in der ersten Iteration die bestehende Methode des überwachten Feinabstimmens in Bezug auf die Ausrichtung an menschlichen Präferenzen und die visuelle Attraktivität übertrifft. In der zweiten Iteration übertrifft es die Leistung von RLHF-basierten Methoden in allen Metriken und erreicht diese Ergebnisse mit weniger Daten.

7

Datenengineering für die Skalierung von Sprachmodellen auf 128K Kontext
Data Engineering for Scaling Language Models to 128K Context

Feb 15
ByYao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim, Hao Peng
25
7

Wir untersuchen das Rezept für kontinuierliches Vortraining, um die Kontextlängen von Sprachmodellen auf 128K zu skalieren, mit einem Fokus auf Data Engineering. Wir stellen die Hypothese auf, dass die Modellierung langer Kontexte, insbesondere die Fähigkeit, Informationen an beliebigen Eingabepositionen zu nutzen, eine Fähigkeit ist, die größtenteils bereits durch groß angelegtes Vortraining erworben wurde und dass diese Fähigkeit durch leichtgewichtiges kontinuierliches Vortraining mit geeigneten Datenmischungen problemlos auf deutlich längere Kontexte (z.B. von 4K auf 128K) erweitert werden kann. Wir untersuchen die Menge und Qualität der Daten für das kontinuierliche Vortraining: (1) Für die Menge zeigen wir, dass 500 Millionen bis 5 Milliarden Token ausreichen, um dem Modell zu ermöglichen, Informationen überall innerhalb des 128K-Kontexts abzurufen; (2) Für die Qualität betonen unsere Ergebnisse gleichermaßen die Domänenbalance und die Längen-Upsampling. Konkret stellen wir fest, dass das naive Upsampling längerer Daten in bestimmten Domänen wie Büchern, eine gängige Praxis bestehender Arbeiten, suboptimale Leistung liefert und dass eine ausgewogene Domänenmischung wichtig ist. Wir demonstrieren, dass das kontinuierliche Vortraining des gesamten Modells mit 1 bis 5 Milliarden Token solcher Daten eine effektive und erschwingliche Strategie ist, um die Kontextlänge von Sprachmodellen auf 128K zu skalieren. Unser Rezept übertrifft starke Open-Source-Modelle mit langen Kontexten und schließt die Lücke zu Spitzenmodellen wie GPT-4 128K.

8

BitDelta: Ihre Feinabstimmung könnte nur ein Bit wert sein
BitDelta: Your Fine-Tune May Only Be Worth One Bit

Feb 15
ByJames Liu, Guangxuan Xiao, Kai Li, Jason D. Lee, Song Han, Tri Dao, Tianle Cai
22
5

Große Sprachmodelle (LLMs) werden typischerweise in zwei Phasen trainiert: Pre-Training auf großen, internetbasierten Datensätzen und Feinabstimmung für nachgelagerte Aufgaben. Angesichts des höheren Rechenaufwands beim Pre-Training liegt die Annahme nahe, dass die Feinabstimmung weniger neue Informationen zum Modell hinzufügt und somit besser komprimierbar ist. Wir untersuchen diese Annahme, indem wir die Gewichte feinabgestimmter Modelle in ihre pre-trainierten Komponenten und ein zusätzliches Delta zerlegen. Wir stellen eine einfache Methode, BitDelta, vor, die dieses Delta erfolgreich auf 1 Bit quantisiert, ohne die Leistung zu beeinträchtigen. Diese interessante Erkenntnis unterstreicht nicht nur die potenzielle Redundanz der während der Feinabstimmung hinzugefügten Informationen, sondern hat auch bedeutende Auswirkungen auf das Multi-Tenant- Serving und die Multi-Tenant-Speicherung feinabgestimmter Modelle. Indem BitDelta die Verwendung eines einzigen hochpräzisen Basismodells in Kombination mit mehreren 1-Bit-Deltas ermöglicht, reduziert es den GPU-Speicherbedarf um mehr als das 10-fache, was sich auch in einer verbesserten Generierungslatenz in Multi- Tenant-Umgebungen niederschlägt. Wir validieren BitDelta durch Experimente mit den Modellfamilien Llama-2 und Mistral sowie mit Modellen bis zu 70B Parametern und zeigen dabei eine minimale Leistungsbeeinträchtigung in allen getesteten Einstellungen.

9

Null-Shot unüberwachte und textbasierte Audio-Bearbeitung mittels DDPM-Inversion
Zero-Shot Unsupervised and Text-Based Audio Editing Using DDPM Inversion

Feb 15
ByHila Manor, Tomer Michaeli
22
2

Die Bearbeitung von Signalen mit großen vortrainierten Modellen in einem Zero-Shot-Ansatz hat in letzter Zeit im Bildbereich rasante Fortschritte erzielt. Diese Entwicklung hat jedoch den Audiobereich noch nicht erreicht. In diesem Artikel untersuchen wir zwei Zero-Shot-Bearbeitungstechniken für Audiosignale, die DDPM-Inversion auf vortrainierten Diffusionsmodellen verwenden. Die erste Technik, die aus dem Bildbereich übernommen wurde, ermöglicht eine textbasierte Bearbeitung. Die zweite ist ein neuartiger Ansatz zur Entdeckung semantisch bedeutsamer Bearbeitungsrichtungen ohne Überwachung. Bei der Anwendung auf Musiksignale offenbart diese Methode eine Reihe musikalisch interessanter Modifikationen, von der Steuerung der Beteiligung bestimmter Instrumente bis hin zu Improvisationen der Melodie. Beispiele finden Sie auf unserer Beispielseite unter https://hilamanor.github.io/AudioEditing/ und der Code ist unter https://github.com/hilamanor/AudioEditing/ verfügbar.

10

GES: Generalisiertes Exponentielles Splatting für effizientes Rendering von Radiance Fields
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering

Feb 15
ByAbdullah Hamdi, Luke Melas-Kyriazi, Guocheng Qian, Jinjie Mai, Ruoshi Liu, Carl Vondrick, Bernard Ghanem, Andrea Vedaldi
18
1

Fortschritte im Bereich des 3D-Gaussian-Splatting haben die 3D-Rekonstruktion und -Generierung erheblich beschleunigt. Allerdings kann dies eine große Anzahl von Gaußschen Funktionen erfordern, was zu einem erheblichen Speicherbedarf führt. Dieses Papier stellt GES (Generalized Exponential Splatting) vor, eine neuartige Repräsentation, die die Generalized Exponential Function (GEF) zur Modellierung von 3D-Szenen einsetzt. Diese Methode benötigt weit weniger Partikel zur Darstellung einer Szene und übertrifft somit die Effizienz von Gaussian-Splatting-Methoden deutlich, wobei sie eine Plug-and-Play-Ersetzbarkeit für Gauß-basierte Werkzeuge bietet. GES wird sowohl theoretisch als auch empirisch in einem prinzipiellen 1D-Setup und in realistischen 3D-Szenen validiert. Es wird gezeigt, dass GES Signale mit scharfen Kanten präziser darstellen kann, was für Gaußsche Funktionen aufgrund ihrer inhärenten Tiefpasscharakteristik typischerweise eine Herausforderung darstellt. Unsere empirische Analyse zeigt, dass GEF Gaußsche Funktionen in der Anpassung natürlich auftretender Signale (z. B. Rechtecke, Dreiecke und parabolische Signale) übertrifft, wodurch der Bedarf an umfangreichen Splitting-Operationen reduziert wird, die den Speicherbedarf von Gaussian Splatting erhöhen. Mit Hilfe eines frequenzmodulierten Verlusts erreicht GES eine wettbewerbsfähige Leistung in Benchmarks zur Synthese neuer Ansichten, während weniger als die Hälfte des Speicherbedarfs von Gaussian Splatting benötigt wird und die Rendering-Geschwindigkeit um bis zu 39 % gesteigert wird. Der Code ist auf der Projektwebsite https://abdullahamdi.com/ges verfügbar.

11

DreamMatcher: Erscheinungsabgleichende Self-Attention für semantisch konsistente Text-zu-Bild-Personalisierung
DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization

Feb 15
ByJisu Nam, Heesu Kim, DongJae Lee, Siyoon Jin, Seungryong Kim, Seunggyu Chang
16
1

Das Ziel der Text-zu-Bild (T2I)-Personalisierung besteht darin, ein Diffusionsmodell an ein benutzerdefiniertes Referenzkonzept anzupassen, um vielfältige Bilder des Konzepts zu erzeugen, die mit den Zielvorgaben übereinstimmen. Konventionelle Methoden, die die Referenzkonzepte mit einzigartigen Text-Einbettungen repräsentieren, scheitern oft daran, das Aussehen der Referenz genau nachzuahmen. Um dies zu beheben, könnte eine Lösung darin bestehen, die Referenzbilder explizit in den Ziel-Entrauschungsprozess einzubinden, was als Schlüssel-Wert-Ersetzung bekannt ist. Frühere Arbeiten sind jedoch auf lokale Bearbeitungen beschränkt, da sie den Strukturpfad des vortrainierten T2I-Modells stören. Um dies zu überwinden, schlagen wir eine neuartige Plug-in-Methode namens DreamMatcher vor, die T2I-Personalisierung als semantisches Matching neu formuliert. Insbesondere ersetzt DreamMatcher die Zielwerte durch Referenzwerte, die durch semantisches Matching ausgerichtet sind, während der Strukturpfad unverändert bleibt, um die vielseitige Fähigkeit vortrainierter T2I-Modelle zur Erzeugung diverser Strukturen zu bewahren. Wir führen auch eine semantisch konsistente Maskierungsstrategie ein, um das personalisierte Konzept von irrelevanten Bereichen zu isolieren, die durch die Zielvorgaben eingeführt werden. DreamMatcher, das mit bestehenden T2I-Modellen kompatibel ist, zeigt signifikante Verbesserungen in komplexen Szenarien. Intensive Analysen demonstrieren die Wirksamkeit unseres Ansatzes.

12

Hierarchische Zustandsraummodelle für kontinuierliche Sequenz-zu-Sequenz-Modellierung
Hierarchical State Space Models for Continuous Sequence-to-Sequence Modeling

Feb 15
ByRaunaq Bhirangi, Chenyu Wang, Venkatesh Pattabiraman, Carmel Majidi, Abhinav Gupta, Tess Hellebrekers, Lerrel Pinto
14
1

Das Schließen aus Sequenzen von Rohsensordaten ist ein allgegenwärtiges Problem in Bereichen, die von medizinischen Geräten bis hin zur Robotik reichen. Diese Probleme beinhalten oft die Verwendung langer Sequenzen von Rohsensordaten (z. B. Magnetometer, Piezowiderstände), um Sequenzen von gewünschten physikalischen Größen (z. B. Kraft, Trägheitsmessungen) vorherzusagen. Während klassische Ansätze für lokal lineare Vorhersageprobleme leistungsstark sind, versagen sie oft bei der Verwendung von realen Sensoren. Diese Sensoren sind typischerweise nichtlinear, werden durch externe Variablen (z. B. Vibration) beeinflusst und zeigen datenabhängige Drift auf. Bei vielen Problemen wird die Vorhersageaufgabe durch kleine annotierte Datensätze erschwert, da die Beschaffung von Ground-Truth-Labels teure Ausrüstung erfordert. In dieser Arbeit stellen wir Hierarchical State-Space Models (HiSS) vor, eine konzeptionell einfache, neue Technik für kontinuierliche sequenzielle Vorhersage. HiSS stapelt strukturierte Zustandsraummodelle übereinander, um eine temporale Hierarchie zu schaffen. Über sechs reale Sensordatensätze hinweg, von taktilbasierter Zustandsvorhersage bis hin zu beschleunigungsbasierter Trägheitsmessung, übertrifft HiSS state-of-the-art Sequenzmodelle wie kausale Transformer, LSTMs, S4 und Mamba um mindestens 23 % im MSE. Unsere Experimente zeigen weiterhin, dass HiSS eine effiziente Skalierung auf kleinere Datensätze demonstriert und mit bestehenden Datenfiltertechniken kompatibel ist. Code, Datensätze und Videos finden Sie auf https://hiss-csp.github.io.

13

Rolling-Diffusionsmodelle
Rolling Diffusion Models

Feb 12
ByDavid Ruhe, Jonathan Heek, Tim Salimans, Emiel Hoogeboom
14
1

Diffusionsmodelle werden in letzter Zeit zunehmend auf zeitliche Daten wie Videos, Strömungsmechanik-Simulationen oder Klimadaten angewendet. Diese Methoden behandeln in der Regel aufeinanderfolgende Frames gleichwertig in Bezug auf die Menge des Rauschens im Diffusionsprozess. Dieses Papier untersucht Rolling Diffusion: einen neuen Ansatz, der einen gleitenden Fenster-Denoisierungsprozess verwendet. Es stellt sicher, dass der Diffusionsprozess zeitlich fortschreitend verfälscht wird, indem Frames, die später in einer Sequenz erscheinen, mehr Rauschen zugewiesen wird, was die größere Unsicherheit über die Zukunft widerspiegelt, während der Generierungsprozess abläuft. Empirisch zeigen wir, dass Rolling Diffusion bei komplexen zeitlichen Dynamiken dem Standard-Diffusionsmodell überlegen ist. Dieses Ergebnis wird insbesondere in einer Video-Vorhersageaufgabe unter Verwendung des Kinetics-600-Videodatensatzes und in einem Experiment zur chaotischen Strömungsdynamik-Vorhersage demonstriert.

Feb 15
Feb 16
Feb 19