ChatPaper.aiChatPaper.ai
Startseite

arXiv

HuggingFace

PreiseKontoArbeitsbereich

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

1

Die Ära der 1-Bit-LLMs: Alle großen Sprachmodelle sind in 1,58 Bits.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Feb 27
ByShuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei
628
143

Aktuelle Forschungen, wie beispielsweise BitNet, ebnen den Weg für eine neue Ära von 1-Bit-Large Language Models (LLMs). In dieser Arbeit stellen wir eine 1-Bit-LLM-Variante vor, nämlich BitNet b1.58, bei der jeder einzelne Parameter (oder Gewicht) des LLM ternär ist {-1, 0, 1}. Es erreicht die Leistung eines vollpräzisen (d.h. FP16 oder BF16) Transformer-LLMs mit derselben Modellgröße und Trainings-Tokens sowohl in Bezug auf Perplexität als auch auf die Leistung bei Endaufgaben, während es gleichzeitig deutlich kosteneffizienter in Bezug auf Latenz, Speicher, Durchsatz und Energieverbrauch ist. Noch bedeutender ist, dass das 1,58-Bit-LLM ein neues Skalierungsgesetz und eine neue Methode für das Training neuer Generationen von LLMs definiert, die sowohl leistungsstark als auch kosteneffizient sind. Darüber hinaus ermöglicht es ein neues Rechenparadigma und öffnet die Tür für die Entwicklung spezieller Hardware, die für 1-Bit-LLMs optimiert ist.

2

EMO: Emotive Porträt zum Leben erweckt – Erzeugung ausdrucksstarker Porträtvideos mit einem Audio-zu-Video-Diffusionsmodell unter schwachen Bedingungen
EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

Feb 27
ByLinrui Tian, Qi Wang, Bang Zhang, Liefeng Bo
195
20

In dieser Arbeit widmen wir uns der Herausforderung, den Realismus und die Ausdrucksstärke bei der Generierung von Talking-Head-Videos zu verbessern, indem wir uns auf die dynamische und nuancierte Beziehung zwischen Audiohinweisen und Gesichtsbewegungen konzentrieren. Wir identifizieren die Grenzen traditioneller Techniken, die oft das gesamte Spektrum menschlicher Ausdrücke und die Einzigartigkeit individueller Gesichtsstile nicht erfassen können. Um diese Probleme zu lösen, schlagen wir EMO vor, ein neuartiges Framework, das einen direkten Audio-zu-Video-Syntheseansatz nutzt und dabei auf Zwischenschritte wie 3D-Modelle oder Gesichtslandmarken verzichtet. Unsere Methode gewährleistet nahtlose Übergänge zwischen den Bildern und eine konsistente Identitätserhaltung im gesamten Video, was zu hochgradig ausdrucksstarken und lebensechten Animationen führt. Experimentelle Ergebnisse zeigen, dass EMO nicht nur überzeugende Sprechvideos, sondern auch Gesangsvideos in verschiedenen Stilen erzeugen kann und dabei bestehende state-of-the-art Methoden in Bezug auf Ausdruckskraft und Realismus deutlich übertrifft.

3

Sora: Ein Überblick über Hintergrund, Technologie, Grenzen und Chancen großer Vision-Modelle
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Feb 27
ByYixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, Lichao Sun
88
6

Sora ist ein text-zu-video-generatives KI-Modell, das von OpenAI im Februar 2024 veröffentlicht wurde. Das Modell ist darauf trainiert, Videos von realistischen oder imaginativen Szenen aus Textanweisungen zu generieren und zeigt Potenzial in der Simulation der physischen Welt. Basierend auf öffentlichen technischen Berichten und Reverse Engineering präsentiert dieses Papier eine umfassende Übersicht über den Hintergrund des Modells, verwandte Technologien, Anwendungen, verbleibende Herausforderungen und zukünftige Entwicklungen von text-zu-video-KI-Modellen. Wir verfolgen zunächst die Entwicklung von Sora und untersuchen die zugrunde liegenden Technologien, die zur Erstellung dieses „Weltsimulators“ verwendet wurden. Anschließend beschreiben wir detailliert die Anwendungen und das Potenzial von Sora in verschiedenen Branchen, von Filmproduktion und Bildung bis hin zu Marketing. Wir diskutieren die Hauptherausforderungen und -beschränkungen, die angegangen werden müssen, um Sora weitreichend einzusetzen, wie beispielsweise die Sicherstellung einer sicheren und unvoreingenommenen Videogenerierung. Schließlich erörtern wir die zukünftige Entwicklung von Sora und Videogenerationsmodellen im Allgemeinen und wie Fortschritte auf diesem Gebiet neue Formen der Mensch-KI-Interaktion ermöglichen könnten, wodurch die Produktivität und Kreativität der Videogenerierung gesteigert werden könnte.

4

Wenn Skalierung auf LLM-Finetuning trifft: Der Einfluss von Daten, Modell und Finetuning-Methode
When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

Feb 27
ByBiao Zhang, Zhongtao Liu, Colin Cherry, Orhan Firat
26
3

Während große Sprachmodelle (LLMs) häufig Feintuning verwenden, um ihre Fähigkeiten für nachgelagerte Anwendungen freizuschalten, ist unser Verständnis der induktiven Verzerrungen (insbesondere der Skalierungseigenschaften) verschiedener Feintuning-Methoden noch begrenzt. Um diese Lücke zu schließen, führen wir systematische Experimente durch, in denen wir untersuchen, ob und wie verschiedene Skalierungsfaktoren, einschließlich der Modellgröße des LLM, der Größe der Vortrainingsdaten, der Größe der neuen Feintuning-Parameter und der Größe der Feintuning-Daten, die Feintuning-Leistung beeinflussen. Wir betrachten zwei Arten von Feintuning – vollständiges Modelltuning (FMT) und parameter-effizientes Tuning (PET, einschließlich Prompt-Tuning und LoRA) – und untersuchen ihr Skalierungsverhalten im datenlimitierten Regime, in dem die Modellgröße des LLM die Größe der Feintuning-Daten erheblich übersteigt. Basierend auf zwei Sätzen vortrainierter bilingualer LLMs von 1B bis 16B und Experimenten mit Benchmarks für bilinguale maschinelle Übersetzung und mehrsprachige Zusammenfassung stellen wir fest, dass 1) das Feintuning von LLMs einem potenzbasierten multiplikativen gemeinsamen Skalierungsgesetz zwischen der Größe der Feintuning-Daten und jedem anderen Skalierungsfaktor folgt; 2) das Feintuning von LLMs mehr von der Skalierung der Modellgröße des LLM profitiert als von der Skalierung der Vortrainingsdaten, und die Skalierung der PET-Parameter im Allgemeinen unwirksam ist; und 3) die optimale Feintuning-Methode stark aufgaben- und feintuning-datenabhängig ist. Wir hoffen, dass unsere Erkenntnisse dazu beitragen können, das Verständnis, die Auswahl und die Entwicklung von Feintuning-Methoden für LLMs zu erleichtern.

5

OmniACT: Ein Datensatz und Benchmark zur Ermöglichung multimodaler Generalist-Autonomer Agenten für Desktop und Web
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web

Feb 27
ByRaghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov
25
6

Seit Jahrzehnten basiert die Mensch-Computer-Interaktion im Wesentlichen auf manuellen Eingaben. Selbst heute erfordert nahezu jede produktive Arbeit am Computer menschliche Eingaben in jedem Schritt. Autonome virtuelle Agenten stellen einen spannenden Schritt dar, um viele dieser monotonen Aufgaben zu automatisieren. Virtuelle Agenten würden Benutzern mit begrenzten technischen Kenntnissen ermöglichen, die vollen Möglichkeiten von Computersystemen zu nutzen. Sie könnten auch die effiziente Optimierung zahlreicher Computeraufgaben ermöglichen, von der Kalenderverwaltung bis hin zu komplexen Reisebuchungen, mit minimalem menschlichen Eingriff. In diesem Artikel stellen wir OmniACT vor, das erste seiner Art Datensatz und Benchmark zur Bewertung der Fähigkeit eines Agenten, ausführbare Programme zur Erledigung von Computeraufgaben zu generieren. Unser Umfang geht über die traditionelle Webautomatisierung hinaus und deckt eine Vielzahl von Desktop-Anwendungen ab. Der Datensatz besteht aus grundlegenden Aufgaben wie „Spiele den nächsten Song ab“ sowie längerfristigen Aufgaben wie „Sende eine E-Mail an John Doe mit der Zeit und dem Ort des Treffens“. Konkret besteht das Ziel darin, bei einem Paar aus Bildschirmbild und einer visuell verankerten natürlichen Sprachaufgabe ein Skript zu generieren, das in der Lage ist, die Aufgabe vollständig auszuführen. Wir testen mehrere starke Baseline-Sprachmodell-Agenten auf unserem Benchmark. Der stärkste Baseline-Agent, GPT-4, schneidet auf unserem Benchmark am besten ab. Sein Leistungsniveau erreicht jedoch nur 15 % der menschlichen Fähigkeit, ausführbare Skripte zu generieren, die die Aufgabe erledigen können, was die Herausforderung unserer Aufgabe für konventionelle Web-Agenten verdeutlicht. Unser Benchmark bietet eine Plattform, um den Fortschritt von Sprachmodell-Agenten bei der Automatisierung von Computeraufgaben zu messen und zu bewerten, und motiviert zukünftige Arbeiten zum Aufbau multimodaler Modelle, die große Sprachmodelle und die visuelle Verankerung von Computerbildschirmen verbinden.

6

DiffuseKronA: Eine parameter-effiziente Feinabstimmungsmethode für personalisierte Diffusionsmodelle
DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized Diffusion Model

Feb 27
ByShyam Marjit, Harshit Singh, Nityanand Mathur, Sayak Paul, Chia-Mu Yu, Pin-Yu Chen
24
1

Im Bereich der subjektgesteuerten Text-zu-Bild (T2I) Generativmodelle haben jüngste Entwicklungen wie DreamBooth und BLIP-Diffusion beeindruckende Ergebnisse erzielt, stoßen jedoch aufgrund ihrer intensiven Feinabstimmungsanforderungen und erheblichen Parameterbedarfe an Grenzen. Während das Low-Rank-Adaptation (LoRA)-Modul in DreamBooth eine Reduzierung der trainierbaren Parameter bietet, führt es zu einer ausgeprägten Sensitivität gegenüber Hyperparametern, was einen Kompromiss zwischen Parametereffizienz und der Qualität der personalisierten T2I-Bildsynthese darstellt. Um diese Einschränkungen zu überwinden, stellen wir \textit{DiffuseKronA} vor, ein neuartiges Kronecker-Produkt-basiertes Adaptationsmodul, das nicht nur die Parameteranzahl um 35\% bzw. 99,947\% im Vergleich zu LoRA-DreamBooth und dem ursprünglichen DreamBooth signifikant reduziert, sondern auch die Qualität der Bildsynthese verbessert. Entscheidend ist, dass DiffuseKronA das Problem der Hyperparameter-Sensitivität mildert und konsistent hochwertige Generationen über einen breiten Bereich von Hyperparametern liefert, wodurch die Notwendigkeit für umfangreiche Feinabstimmung verringert wird. Darüber hinaus macht eine besser kontrollierbare Zerlegung DiffuseKronA interpretierbarer und kann sogar eine Reduzierung von bis zu 50\% bei Ergebnissen erzielen, die mit LoRA-DreamBooth vergleichbar sind. Bei der Bewertung anhand vielfältiger und komplexer Eingabebilder und Textprompts übertrifft DiffuseKronA durchweg bestehende Modelle, erzeugt diverse Bilder von höherer Qualität mit verbesserter Treue und einer genaueren Farbverteilung von Objekten, während gleichzeitig eine außergewöhnliche Parametereffizienz aufrechterhalten wird. Dies stellt einen bedeutenden Fortschritt im Bereich der T2I-Generativmodellierung dar. Unsere Projektseite, bestehend aus Links zum Code und vortrainierten Checkpoints, ist verfügbar unter https://diffusekrona.github.io/{https://diffusekrona.github.io/}.

7

Trainingsfreie Skalierung von Large Language Models für lange Kontexte
Training-Free Long-Context Scaling of Large Language Models

Feb 27
ByChenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong
24
4

Die Fähigkeit von Large Language Models (LLMs), kohärenten Text zu verarbeiten und zu generieren, wird deutlich geschwächt, wenn die Anzahl der Eingabe-Tokens ihre Vortrainingslänge überschreitet. Angesichts des hohen Aufwands für das Feinabstimmen großskaliger Modelle mit längeren Sequenzen schlagen wir Dual Chunk Attention (DCA) vor, das Llama2 70B ermöglicht, Kontextfenster von mehr als 100.000 Tokens ohne kontinuierliches Training zu unterstützen. Indem die Aufmerksamkeitsberechnung für lange Sequenzen in chunk-basierte Module zerlegt wird, gelingt es DCA effektiv, die relative Positionsinformation von Tokens innerhalb desselben Chunks (Intra-Chunk) und über verschiedene Chunks hinweg (Inter-Chunk) zu erfassen, sowie sich nahtlos mit Flash Attention zu integrieren. Neben seiner beeindruckenden Extrapolationsfähigkeit erreicht DCA bei praktischen Aufgaben mit langem Kontext eine Leistung, die mit der von feinabgestimmten Modellen vergleichbar oder sogar besser ist. Im Vergleich zu proprietären Modellen erreicht unser trainingsfreies 70B-Modell 94 % der Leistung von gpt-3.5-16k, was darauf hindeutet, dass es eine praktikable Open-Source-Alternative darstellt. Der gesamte Code und die in dieser Arbeit verwendeten Daten sind unter https://github.com/HKUNLP/ChunkLlama veröffentlicht.

8

Video als neue Sprache für Entscheidungsfindung in der realen Welt
Video as the New Language for Real-World Decision Making

Feb 27
BySherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, Dale Schuurmans
21
1

Sowohl Text- als auch Videodaten sind im Internet reichlich vorhanden und unterstützen groß angelegtes selbstüberwachtes Lernen durch die Vorhersage des nächsten Tokens oder Frames. Allerdings wurden sie nicht gleichermaßen genutzt: Sprachmodelle haben erhebliche Auswirkungen in der realen Welt gezeigt, während die Videogenerierung weitgehend auf den Bereich der Medienunterhaltung beschränkt blieb. Dennoch erfassen Videodaten wichtige Informationen über die physische Welt, die sich nur schwer in Sprache ausdrücken lassen. Um diese Lücke zu schließen, diskutieren wir eine unterschätzte Möglichkeit, die Videogenerierung zur Lösung von Aufgaben in der realen Welt zu erweitern. Wir beobachten, wie Video, ähnlich wie Sprache, als einheitliche Schnittstelle dienen kann, die Wissen aus dem Internet aufnehmen und vielfältige Aufgaben darstellen kann. Darüber hinaus zeigen wir, wie die Videogenerierung, ähnlich wie Sprachmodelle, als Planer, Agenten, Rechenmaschinen und Umgebungssimulatoren fungieren kann, durch Techniken wie In-Context-Lernen, Planung und bestärkendes Lernen. Wir identifizieren bedeutende Anwendungsmöglichkeiten in Bereichen wie Robotik, autonomes Fahren und Wissenschaft, gestützt durch aktuelle Arbeiten, die zeigen, dass solche fortgeschrittenen Fähigkeiten in der Videogenerierung durchaus erreichbar sind. Schließlich benennen wir zentrale Herausforderungen in der Videogenerierung, die den Fortschritt behindern. Die Bewältigung dieser Herausforderungen wird es Videogenerierungsmodellen ermöglichen, einen einzigartigen Wert neben Sprachmodellen in einer breiteren Palette von KI-Anwendungen zu demonstrieren.

9

Bewertung des sehr langfristigen konversationellen Gedächtnisses von LLM-Agenten
Evaluating Very Long-Term Conversational Memory of LLM Agents

Feb 27
ByAdyasha Maharana, Dong-Ho Lee, Sergey Tulyakov, Mohit Bansal, Francesco Barbieri, Yuwei Fang
20
3

Bestehende Arbeiten zu langfristigen Open-Domain-Dialogen konzentrieren sich auf die Bewertung von Modellantworten in Kontexten, die nicht mehr als fünf Chat-Sitzungen umfassen. Trotz Fortschritten bei Large Language Models (LLMs) mit langem Kontext und Retrieval-Augmented Generation (RAG)-Techniken bleibt ihre Wirksamkeit in sehr langfristigen Dialogen unerforscht. Um diese Forschungslücke zu schließen, führen wir eine Maschinen-Mensch-Pipeline ein, um hochwertige, sehr langfristige Dialoge zu generieren, indem wir LLM-basierte Agentenarchitekturen nutzen und ihre Dialoge auf Personas und zeitliche Ereignisgraphen abstützen. Darüber hinaus statten wir jeden Agenten mit der Fähigkeit aus, Bilder zu teilen und darauf zu reagieren. Die generierten Gespräche werden von menschlichen Annotatoren auf langfristige Konsistenz und Verankerung in den Ereignisgraphen überprüft und bearbeitet. Mit dieser Pipeline sammeln wir LoCoMo, einen Datensatz sehr langfristiger Gespräche, die jeweils durchschnittlich 300 Turns und 9K Tokens über bis zu 35 Sitzungen umfassen. Basierend auf LoCoMo präsentieren wir einen umfassenden Evaluationsbenchmark, um das Langzeitgedächtnis von Modellen zu messen, der Frage-Antwort-Aufgaben, Ereigniszusammenfassungen und multimodale Dialoggenerationsaufgaben umfasst. Unsere experimentellen Ergebnisse zeigen, dass LLMs Schwierigkeiten haben, lange Gespräche zu verstehen und langfristige zeitliche und kausale Dynamiken in Dialogen zu erfassen. Strategien wie LLMs mit langem Kontext oder RAG können Verbesserungen bieten, aber diese Modelle liegen immer noch deutlich hinter der menschlichen Leistung zurück.

10

Auf dem Weg zum optimalen Lernen von Sprachmodellen
Towards Optimal Learning of Language Models

Feb 27
ByYuxian Gu, Li Dong, Yaru Hao, Qingxiu Dong, Minlie Huang, Furu Wei
18
1

Diese Arbeit untersucht die allgemeinen Prinzipien zur Verbesserung des Lernens von Sprachmodellen (Language Models, LMs), mit dem Ziel, die notwendigen Trainingsschritte zur Erreichung überlegener Leistung zu reduzieren. Konkret präsentieren wir eine Theorie für das optimale Lernen von LMs. Zunächst schlagen wir ein Ziel vor, das das Lernen von LMs optimiert, indem es das Datenkompressionsverhältnis in einer "LM-Training-als-verlustfreie-Kompression"-Sicht maximiert. Anschließend leiten wir ein Theorem, genannt Lern-Gesetz, ab, um die Eigenschaften der Dynamik im optimalen Lernprozess unter unserem Ziel aufzuzeigen. Das Theorem wird dann durch Experimente zu einer linearen Klassifikation und einer realen Sprachmodellierungsaufgabe validiert. Schließlich verifizieren wir empirisch, dass das optimale Lernen von LMs im Wesentlichen aus der Verbesserung der Koeffizienten im Skalierungsgesetz von LMs resultiert, was großes Potenzial und Bedeutung für die Entwicklung praktischer Methoden zur Lernbeschleunigung aufzeigt. Unser Code ist unter https://aka.ms/LearningLaw verfügbar.

11

Sora erzeugt Videos mit beeindruckender geometrischer Konsistenz.
Sora Generates Videos with Stunning Geometrical Consistency

Feb 27
ByXuanyi Li, Daquan Zhou, Chenxu Zhang, Shaodong Wei, Qibin Hou, Ming-Ming Cheng
18
1

Das kürzlich entwickelte Sora-Modell [1] hat bemerkenswerte Fähigkeiten in der Videogenerierung gezeigt, was intensive Diskussionen über seine Fähigkeit zur Simulation realer Phänomene ausgelöst hat. Trotz seiner zunehmenden Beliebtheit gibt es einen Mangel an etablierten Metriken, um seine Treue zur realen Physik quantitativ zu bewerten. In diesem Artikel stellen wir einen neuen Benchmark vor, der die Qualität der generierten Videos anhand ihrer Übereinstimmung mit den Prinzipien der realen Physik bewertet. Wir verwenden eine Methode, die die generierten Videos in 3D-Modelle umwandelt, wobei wir die Prämisse nutzen, dass die Genauigkeit der 3D-Rekonstruktion stark von der Videoqualität abhängt. Aus der Perspektive der 3D-Rekonstruktion verwenden wir die Treue der geometrischen Einschränkungen, die von den konstruierten 3D-Modellen erfüllt werden, als Proxy, um das Ausmaß zu messen, in dem die generierten Videos den Regeln der realen Physik entsprechen. Projektseite: https://sora-geometrical-consistency.github.io/

12

Sehen und Hören: Open-domain Visual-Audio-Generierung mit Diffusions-Latent-Alignern
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

Feb 27
ByYazhou Xing, Yingqing He, Zeyue Tian, Xintao Wang, Qifeng Chen
16
1

Die Erstellung von Video- und Audioinhalten bildet die Kernmethode für die Filmindustrie und professionelle Anwender. Bisherige, auf Diffusion basierende Ansätze behandeln die Video- und Audioerzeugung getrennt, was den Technologietransfer von der Wissenschaft in die Industrie behindert. In dieser Arbeit zielen wir darauf ab, diese Lücke zu schließen, indem wir ein sorgfältig entworfenes, optimierungsbasiertes Framework für die cross-visuell-auditive und gemeinsame visuell-auditive Erzeugung vorstellen. Wir beobachten die leistungsstarke Erzeugungsfähigkeit von verfügbaren Video- oder Audioerzeugungsmodellen. Daher schlagen wir vor, anstatt riesige Modelle von Grund auf zu trainieren, die bestehenden starken Modelle über einen gemeinsamen latenten Repräsentationsraum zu verbinden. Konkret schlagen wir einen multimodalen latenten Ausrichter mit dem vortrainierten ImageBind-Modell vor. Unser latenter Ausrichter teilt einen ähnlichen Kern wie die Klassifikatorführung, die den Diffusionsentrauschungsprozess während der Inferenzzeit steuert. Durch eine sorgfältig gestaltete Optimierungsstrategie und Verlustfunktionen zeigen wir die überlegene Leistung unserer Methode bei der gemeinsamen Video-Audio-Erzeugung, der visuell gesteuerten Audioerzeugung und der audio-gesteuerten visuellen Erzeugung. Die Projektwebsite ist unter https://yzxing87.github.io/Seeing-and-Hearing/ zu finden.

13

Playground v2.5: Drei Erkenntnisse zur Verbesserung der ästhetischen Qualität in der Text-zu-Bild-Generierung
Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation

Feb 27
ByDaiqing Li, Aleks Kamko, Ehsan Akhgari, Ali Sabet, Linmiao Xu, Suhail Doshi
12
1

In dieser Arbeit teilen wir drei Erkenntnisse, um eine erstklassige ästhetische Qualität in text-zu-bild-generativen Modellen zu erreichen. Wir konzentrieren uns auf drei entscheidende Aspekte zur Verbesserung des Modells: die Steigerung von Farbe und Kontrast, die Verbesserung der Generierung über mehrere Seitenverhältnisse hinweg und die Optimierung feiner, menschenzentrierter Details. Zunächst untersuchen wir die Bedeutung des Rauschzeitplans beim Training eines Diffusionsmodells und zeigen dessen tiefgreifenden Einfluss auf Realismus und visuelle Qualität. Zweitens gehen wir auf die Herausforderung ein, verschiedene Seitenverhältnisse bei der Bildgenerierung zu berücksichtigen, und betonen die Bedeutung eines ausgewogenen, in Buckets organisierten Datensatzes. Schließlich untersuchen wir die entscheidende Rolle der Ausrichtung der Modellausgaben an menschlichen Präferenzen, um sicherzustellen, dass generierte Bilder den menschlichen Wahrnehmungserwartungen entsprechen. Durch umfangreiche Analysen und Experimente zeigt Playground v2.5 eine erstklassige Leistung in Bezug auf ästhetische Qualität unter verschiedenen Bedingungen und Seitenverhältnissen und übertrifft sowohl weit verbreitete Open-Source-Modelle wie SDXL und Playground v2 als auch proprietäre kommerzielle Systeme wie DALLE 3 und Midjourney v5.2. Unser Modell ist Open-Source, und wir hoffen, dass die Entwicklung von Playground v2.5 wertvolle Leitlinien für Forscher bietet, die die ästhetische Qualität diffusionsbasierter Bildgenerierungsmodelle verbessern möchten.

14

Entwirrte 3D-Szenengenerierung mit Layout-Lernen
Disentangled 3D Scene Generation with Layout Learning

Feb 26
ByDave Epstein, Ben Poole, Ben Mildenhall, Alexei A. Efros, Aleksander Holynski
12
1

Wir stellen eine Methode vor, um 3D-Szenen zu erzeugen, die in ihre einzelnen Objekte zerlegt sind. Diese Zerlegung erfolgt unüberwacht und stützt sich ausschließlich auf das Wissen eines großen, vortrainierten Text-zu-Bild-Modells. Unsere zentrale Erkenntnis ist, dass Objekte entdeckt werden können, indem Teile einer 3D-Szene identifiziert werden, die bei räumlicher Neuanordnung weiterhin gültige Konfigurationen derselben Szene ergeben. Konkret optimiert unsere Methode mehrere NeRFs (Neural Radiance Fields) gleichzeitig von Grund auf – wobei jedes NeRF ein eigenes Objekt repräsentiert – zusammen mit einer Reihe von Layouts, die diese Objekte zu Szenen zusammensetzen. Wir fördern dann, dass diese zusammengesetzten Szenen gemäß dem Bildgenerator innerhalb der Verteilung liegen. Wir zeigen, dass unser Ansatz trotz seiner Einfachheit erfolgreich 3D-Szenen erzeugt, die in einzelne Objekte zerlegt sind, und damit neue Möglichkeiten in der Text-zu-3D-Inhaltserstellung ermöglicht. Für Ergebnisse und eine interaktive Demo besuchen Sie unsere Projektseite unter https://dave.ml/layoutlearning/.

15

VastGaussian: Umfangreiche 3D-Gaußsche Verteilungen für die Rekonstruktion großer Szenen
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction

Feb 27
ByJiaqi Lin, Zhihao Li, Xiao Tang, Jianzhuang Liu, Shiyong Liu, Jiayue Liu, Yangdi Lu, Xiaofei Wu, Songcen Xu, Youliang Yan, Wenming Yang
11
45

Bestehende NeRF-basierte Methoden für die Rekonstruktion großer Szenen weisen oft Einschränkungen in Bezug auf die visuelle Qualität und die Render-Geschwindigkeit auf. Während das kürzlich entwickelte 3D Gaussian Splatting gut für kleinere, objektzentrierte Szenen funktioniert, stellt die Skalierung auf große Szenen aufgrund begrenzten Video-Speichers, langer Optimierungszeiten und deutlicher Erscheinungsvariationen eine Herausforderung dar. Um diese Herausforderungen zu bewältigen, präsentieren wir VastGaussian, die erste Methode für hochwertige Rekonstruktion und Echtzeit-Rendering großer Szenen basierend auf 3D Gaussian Splatting. Wir schlagen eine progressive Partitionierungsstrategie vor, um eine große Szene in mehrere Zellen zu unterteilen, wobei die Trainingskameras und die Punktwolke mit einem luftraumbezogenen Sichtbarkeitskriterium angemessen verteilt werden. Diese Zellen werden nach einer parallelen Optimierung zu einer vollständigen Szene zusammengeführt. Zudem integrieren wir eine entkoppelte Erscheinungsmodellierung in den Optimierungsprozess, um Erscheinungsvariationen in den gerenderten Bildern zu reduzieren. Unser Ansatz übertrifft bestehende NeRF-basierte Methoden und erzielt state-of-the-art Ergebnisse auf mehreren großen Szenen-Datensätzen, wodurch eine schnelle Optimierung und hochauflösendes Echtzeit-Rendering ermöglicht wird.

Feb 27
Feb 28
Feb 29