HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

17 papers found

Kandinsky 3.0 Technischer Bericht
Kandinsky 3.0 Technical Report

Dec 6

ByVladimir Arkhipkin, Andrei Filatov, Viacheslav Vasilev, Anastasia Maltseva, Said Azizov, Igor Pavlov, Julia Agafonova, Andrey Kuznetsov, Denis Dimitrov

Wir präsentieren Kandinsky 3.0, ein großskaliges Text-zu-Bild-Generierungsmodell, das auf latenter Diffusion basiert und die Reihe der Kandinsky-Modelle für die Text-zu-Bild-Generierung fortsetzt. Dieses Modell spiegelt unsere Fortschritte wider, um eine höhere Qualität und Realismus in der Bildgenerierung zu erreichen. Im Vergleich zu den vorherigen Versionen Kandinsky 2.x nutzt Kandinsky 3.0 eine doppelt so große U-Net-Architektur, einen zehnmal größeren Text-Encoder und verzichtet auf die Diffusion-Mapping-Technik. Wir beschreiben die Architektur des Modells, das Verfahren zur Datensammlung, die Trainingsmethode sowie das Produktionssystem für die Benutzerinteraktion. Unser Fokus liegt auf den Schlüsselkomponenten, die, wie wir durch eine Vielzahl von Experimenten festgestellt haben, den größten Einfluss auf die Verbesserung der Qualität unseres Modells im Vergleich zu anderen hatten. Durch unsere direkten Vergleiche zeigt sich, dass Kandinsky in der Textverständnisleistung besser geworden ist und in spezifischen Domänen effektiver arbeitet. Projektseite: https://ai-forever.github.io/Kandinsky-3

Schrödinger-Brücken übertreffen Diffusionsmodelle bei der Text-zu-Sprache-Synthese.
Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis

Dec 6

ByZehua Chen, Guande He, Kaiwen Zheng, Xu Tan, Jun Zhu

In der Text-zu-Sprache-Synthese (TTS) haben Diffusionsmodelle vielversprechende Generierungsqualitäten erreicht. Aufgrund des vordefinierten Daten-zu-Rauschen-Diffusionsprozesses ist ihre Prior-Verteilung jedoch auf eine verrauschte Darstellung beschränkt, die nur wenig Information über das Generierungsziel liefert. In dieser Arbeit präsentieren wir ein neuartiges TTS-System, Bridge-TTS, das den ersten Versuch unternimmt, das verrauschte Gaußsche Prior in etablierten diffusionsbasierten TTS-Methoden durch ein sauberes und deterministisches zu ersetzen, das starke strukturelle Informationen des Ziels liefert. Konkret nutzen wir die latente Darstellung, die aus der Texteingabe gewonnen wird, als unser Prior und bauen eine vollständig nachvollziehbare Schrödinger-Brücke zwischen dieser und dem Ground-Truth-Mel-Spektrum, was zu einem Daten-zu-Daten-Prozess führt. Darüber hinaus ermöglichen die Nachvollziehbarkeit und Flexibilität unserer Formulierung eine empirische Untersuchung von Designräumen wie Rauschplänen sowie die Entwicklung von stochastischen und deterministischen Samplern. Experimentelle Ergebnisse auf dem LJ-Speech-Datensatz zeigen die Effektivität unserer Methode in Bezug auf sowohl Synthesequalität als auch Sampling-Effizienz, wobei sie unseren Diffusionsgegenpart Grad-TTS bei der 50-Schritt-/1000-Schritt-Synthese und starke schnelle TTS-Modelle in wenigen Schritten deutlich übertreffen. Projektseite: https://bridge-tts.github.io/

Alpha-CLIP: Ein CLIP-Modell, das sich auf beliebige Bereiche konzentriert
Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Dec 6

ByZeyi Sun, Ye Fang, Tong Wu, Pan Zhang, Yuhang Zang, Shu Kong, Yuanjun Xiong, Dahua Lin, Jiaqi Wang

Contrastive Language-Image Pre-training (CLIP) spielt eine entscheidende Rolle bei der Extraktion wertvoller Inhaltsinformationen aus Bildern in verschiedenen Aufgaben. Es richtet Text- und Bildmodalitäten aus, um das gesamte Bild inklusive aller Details zu verstehen, selbst solcher, die für spezifische Aufgaben irrelevant sind. Für ein tieferes Verständnis und eine kontrollierte Bearbeitung von Bildern ist es jedoch entscheidend, sich auf spezifische Regionen von Interesse zu konzentrieren, die durch Punkte, Masken oder Rahmen von Menschen oder Wahrnehmungsmodellen angegeben werden können. Um diesen Anforderungen gerecht zu werden, führen wir Alpha-CLIP ein, eine erweiterte Version von CLIP mit einem zusätzlichen Alphakanal, der aufmerksame Regionen vorschlägt und mit Millionen von konstruierten RGBA-Region-Text-Paaren feinabgestimmt wurde. Alpha-CLIP bewahrt nicht nur die visuelle Erkennungsfähigkeit von CLIP, sondern ermöglicht auch eine präzise Kontrolle über die Betonung von Bildinhalten. Es zeigt Wirksamkeit in verschiedenen Aufgaben, einschließlich, aber nicht beschränkt auf Open-World-Erkennung, multimodale große Sprachmodelle und bedingte 2D-/3D-Generierung. Es hat ein starkes Potenzial, als vielseitiges Werkzeug für bildbezogene Aufgaben zu dienen.

Chain of Code: Argumentation mit einem sprachmodell-erweiterten Code-Emulator
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Dec 7

ByChengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter

Code bietet eine allgemeine syntaktische Struktur, um komplexe Programme zu erstellen und präzise Berechnungen durchzuführen, wenn er mit einem Code-Interpreter kombiniert wird – wir stellen die Hypothese auf, dass Sprachmodelle (LMs) das Schreiben von Code nutzen können, um das Chain-of-Thought-Reasoning nicht nur bei logischen und arithmetischen Aufgaben, sondern auch bei linguistischen Aufgaben (und insbesondere bei solchen, die eine Mischung aus beidem sind) zu verbessern. Betrachten wir beispielsweise die Aufforderung an ein LM, Code zu schreiben, der die Häufigkeit von Sarkasmus in einem Essay zählt: Das LM könnte Schwierigkeiten haben, eine Implementierung für "detect_sarcasm(string)" zu schreiben, die vom Interpreter ausgeführt werden kann (die Handhabung der Randfälle wäre unüberwindbar). Dennoch könnten LMs eine gültige Lösung liefern, wenn sie nicht nur zum Schreiben des Codes verwendet werden, sondern auch selektiv den Interpreter "emulieren", indem sie die erwartete Ausgabe von "detect_sarcasm(string)" und anderer Codezeilen generieren (z. B. solche, die der Interpreter nicht kompilieren könnte). In dieser Arbeit schlagen wir Chain of Code (CoT) vor, eine einfache, aber überraschend effektive Erweiterung, die das code-gestützte Reasoning von LMs verbessert. Die zentrale Idee besteht darin, LMs dazu zu ermutigen, linguistische Teilaufgaben in einem Programm als flexibles Pseudocode zu formatieren, sodass der Compiler undefinierte Verhaltensweisen explizit erkennen und zur Simulation an ein LM (als "LMulator") übergeben kann. Experimente zeigen, dass Chain of Code Chain of Thought und andere Baselines in einer Vielzahl von Benchmarks übertrifft; auf BIG-Bench Hard erreicht Chain of Code 84 %, ein Zuwachs von 12 % gegenüber Chain of Thought. CoT skaliert gut mit sowohl großen als auch kleinen Modellen und erweitert den Umfang der Reasoning-Fragen, die LMs durch "Denken in Code" korrekt beantworten können. Projektwebseite: https://chain-of-code.github.io/.

Gaussian Head Avatar: Ultra-hochauflösendes Kopf-Avatar mittels dynamischer Gauss-Verteilungen
Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

Dec 5

ByYuelang Xu, Benwang Chen, Zhe Li, Hongwen Zhang, Lizhen Wang, Zerong Zheng, Yebin Liu

Die Erstellung hochwertiger 3D-Kopfavatare war schon immer ein Forschungsschwerpunkt, doch unter leichtgewichtigen, spärlichen Ansichtsaufbauten bleibt dies eine große Herausforderung. In diesem Artikel schlagen wir Gaussian Head Avatar vor, das durch steuerbare 3D-Gaußsche Funktionen für die Modellierung hochwertiger Kopfavatare repräsentiert wird. Wir optimieren die neutralen 3D-Gaußschen Funktionen und ein vollständig gelerntes MLP-basiertes Deformationsfeld, um komplexe Ausdrücke zu erfassen. Die beiden Teile profitieren voneinander, wodurch unsere Methode fein abgestufte dynamische Details modellieren kann, während gleichzeitig die Genauigkeit der Ausdrücke gewährleistet wird. Darüber hinaus entwickeln wir eine gut durchdachte, geometriegeleitete Initialisierungsstrategie basierend auf impliziten SDF und Deep Marching Tetrahedra für die Stabilität und Konvergenz des Trainingsprozesses. Experimente zeigen, dass unser Ansatz andere state-of-the-art Methoden mit spärlichen Ansichten übertrifft und eine ultrahochwertige Rendering-Qualität bei 2K-Auflösung selbst unter übertriebenen Ausdrücken erreicht.

MotionCtrl: Ein einheitlicher und flexibler Bewegungscontroller für die Videogenerierung
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

Dec 6

ByZhouxia Wang, Ziyang Yuan, Xintao Wang, Tianshui Chen, Menghan Xia, Ping Luo, Ying Shan

Bewegungen in einem Video bestehen hauptsächlich aus Kamerabewegungen, die durch die Bewegung der Kamera verursacht werden, und Objektbewegungen, die sich aus der Bewegung von Objekten ergeben. Eine präzise Steuerung sowohl der Kamerabewegung als auch der Objektbewegung ist für die Videogenerierung entscheidend. Bisherige Arbeiten konzentrieren sich jedoch entweder hauptsächlich auf eine Art von Bewegung oder unterscheiden nicht klar zwischen den beiden, was ihre Steuerungsfähigkeiten und Vielfalt einschränkt. Daher stellt dieses Paper MotionCtrl vor, einen einheitlichen und flexiblen Bewegungscontroller für die Videogenerierung, der entwickelt wurde, um Kamerabewegungen und Objektbewegungen effektiv und unabhängig voneinander zu steuern. Die Architektur und Trainingsstrategie von MotionCtrl wurden sorgfältig entworfen, wobei die inhärenten Eigenschaften von Kamerabewegungen, Objektbewegungen und unvollkommenen Trainingsdaten berücksichtigt wurden. Im Vergleich zu früheren Methoden bietet MotionCtrl drei Hauptvorteile: 1) Es steuert Kamerabewegungen und Objektbewegungen effektiv und unabhängig voneinander, was eine feinere Bewegungssteuerung ermöglicht und flexible sowie vielfältige Kombinationen beider Bewegungsarten erleichtert. 2) Seine Bewegungsbedingungen werden durch Kameraposen und -trajektorien bestimmt, die frei von Erscheinungsmerkmalen sind und das Aussehen oder die Form von Objekten in generierten Videos minimal beeinflussen. 3) Es handelt sich um ein relativ generalisierbares Modell, das sich nach dem Training an eine Vielzahl von Kameraposen und -trajektorien anpassen kann. Umfangreiche qualitative und quantitative Experimente wurden durchgeführt, um die Überlegenheit von MotionCtrl gegenüber bestehenden Methoden zu demonstrieren.

Jenseits der Oberfläche: Untersuchung von LLaMA über Skalen und Schichten hinweg
Beyond Surface: Probing LLaMA Across Scales and Layers

Dec 7

ByNuo Chen, Ning Wu, Shining Liang, Ming Gong, Linjun Shou, Dongmei Zhang, Jia Li

Dieses Papier präsentiert eine detaillierte Analyse von Large Language Models (LLMs), mit einem Fokus auf LLaMA, einem prominenten Open-Source-Grundmodell in der natürlichen Sprachverarbeitung. Anstatt LLaMA über seine generativen Ausgaben zu bewerten, entwerfen wir Multiple-Choice-Aufgaben, um sein intrinsisches Verständnis in höherwertigen Aufgaben wie Schlussfolgerung und Berechnung zu untersuchen. Wir analysieren das Modell horizontal, indem wir verschiedene Größen vergleichen, und vertikal, indem wir verschiedene Schichten bewerten. Wir enthüllen mehrere wichtige und ungewöhnliche Erkenntnisse basierend auf den entworfenen Untersuchungsaufgaben: (1) Horizontal führt eine Vergrößerung der Modellgrößen fast nie automatisch zu zusätzlichem Wissen oder Rechenfähigkeiten. Stattdessen kann sie die Fähigkeiten zur Schlussfolgerung verbessern, insbesondere bei der Lösung mathematischer Probleme, und hilft, Halluzinationen zu reduzieren, jedoch nur oberhalb bestimmter Größenschwellen; (2) In der vertikalen Analyse mangelt es den unteren Schichten von LLaMA an substanziellem arithmetischem und faktischem Wissen, wobei sie logisches Denken, mehrsprachige und erkennende Fähigkeiten zeigen, während die oberen Schichten die meiste Rechenleistung und reales Wissen beherbergen.

HiFi4G: Hochauflösendes Rendering menschlicher Leistung durch kompakte Gaußsche Splatting
HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian Splatting

Dec 6

ByYuheng Jiang, Zhehao Shen, Penghao Wang, Zhuo Su, Yu Hong, Yingliang Zhang, Jingyi Yu, Lan Xu

Wir haben in letzter Zeit enorme Fortschritte bei der fotorealistischen Modellierung und Darstellung von Menschen gesehen. Dennoch bleibt die effiziente Darstellung realistischer menschlicher Bewegungen und deren Integration in den Rasterisierungspipeline eine Herausforderung. In diesem Artikel präsentieren wir HiFi4G, einen expliziten und kompakten, auf Gaußschen Basen beruhenden Ansatz für die hochauflösende Darstellung menschlicher Bewegungen aus dichten Aufnahmen. Unser zentraler Ansatz besteht darin, die 3D-Gaußsche Darstellung mit nicht-starrer Nachverfolgung zu kombinieren, um eine kompakte und kompressionsfreundliche Repräsentation zu erreichen. Zunächst schlagen wir einen Dual-Graph-Mechanismus vor, um Bewegungs-Priors zu erhalten, mit einem groben Deformationsgraphen für eine effektive Initialisierung und einem feinkörnigen Gaußschen Graphen zur Durchsetzung nachfolgender Einschränkungen. Anschließend nutzen wir ein 4D-Gaußsches Optimierungsschema mit adaptiven räumlich-zeitlichen Regularisierern, um das nicht-starre Prior und die Gaußsche Aktualisierung effektiv auszubalancieren. Wir stellen auch ein begleitendes Kompressionsschema mit Restkompensation für immersive Erlebnisse auf verschiedenen Plattformen vor. Es erreicht eine erhebliche Kompressionsrate von etwa 25-fach, mit weniger als 2 MB Speicher pro Frame. Umfangreiche Experimente demonstrieren die Effektivität unseres Ansatzes, der bestehende Methoden in Bezug auf Optimierungsgeschwindigkeit, Darstellungsqualität und Speicheraufwand deutlich übertrifft.

Context Diffusion: Kontextbewusste Bildgenerierung in situ
Context Diffusion: In-Context Aware Image Generation

Dec 6

ByIvona Najdenkoska, Animesh Sinha, Abhimanyu Dubey, Dhruv Mahajan, Vignesh Ramanathan, Filip Radenovic

Wir schlagen Context Diffusion vor, ein diffusionsbasiertes Framework, das Bildgenerierungsmodelle in die Lage versetzt, aus visuellen Beispielen zu lernen, die im Kontext präsentiert werden. Aktuelle Arbeiten befassen sich mit solchem In-Context-Lernen für die Bildgenerierung, bei dem ein Abfragebild zusammen mit Kontextbeispielen und Textprompts bereitgestellt wird. Die Qualität und Detailtreue der generierten Bilder verschlechtert sich jedoch, wenn der Prompt nicht vorhanden ist, was zeigt, dass diese Modelle nicht wirklich aus dem visuellen Kontext lernen können. Um dies zu beheben, schlagen wir ein neuartiges Framework vor, das die Kodierung des visuellen Kontexts von der Bewahrung der Struktur der Abfragebilder trennt. Dies führt zu der Fähigkeit, sowohl aus dem visuellen Kontext und Textprompts als auch aus einem von beiden zu lernen. Darüber hinaus ermöglichen wir unserem Modell, Few-Shot-Szenarien zu bewältigen, um verschiedene In-Context-Lernszenarien effektiv zu adressieren. Unsere Experimente und Benutzerstudien zeigen, dass Context Diffusion sowohl in In-Domain- als auch in Out-of-Domain-Aufgaben hervorragende Leistungen erbringt und im Vergleich zu Gegenstückmodellen eine insgesamt verbesserte Bildqualität und Detailtreue erzielt.

Große Sprachmodelle für Mathematiker
Large Language Models for Mathematicians

Dec 7

BySimon Frieder, Julius Berner, Philipp Petersen, Thomas Lukasiewicz

Große Sprachmodelle (LLMs) wie ChatGPT haben aufgrund ihres allgemeinen Sprachverständnisses und insbesondere ihrer Fähigkeit, hochwertige Texte oder Computercode zu generieren, enormes Interesse geweckt. Für viele Berufe stellen LLMs ein unschätzbares Werkzeug dar, das die Geschwindigkeit und Qualität der Arbeit steigern kann. In diesem Beitrag diskutieren wir, inwieweit sie professionelle Mathematiker unterstützen können. Zunächst geben wir eine mathematische Beschreibung des Transformer-Modells, das in allen modernen Sprachmodellen verwendet wird. Basierend auf aktuellen Studien skizzieren wir dann Best Practices und potenzielle Herausforderungen und berichten über die mathematischen Fähigkeiten von Sprachmodellen. Abschließend beleuchten wir das Potenzial von LLMs, die Arbeitsweise von Mathematikern zu verändern.

MagicStick: Kontrollierbare Videobearbeitung durch Steuerungsgriffe Transformationen
MagicStick: Controllable Video Editing via Control Handle Transformations

Dec 5

ByYue Ma, Xiaodong Cun, Yingqing He, Chenyang Qi, Xintao Wang, Ying Shan, Xiu Li, Qifeng Chen

Textbasierte Videobearbeitung hat in letzter Zeit erhebliches Interesse geweckt, um den Stil zu ändern oder Objekte mit ähnlicher Struktur zu ersetzen. Darüber hinaus zeigen wir, dass auch Eigenschaften wie Form, Größe, Position, Bewegung usw. in Videos bearbeitet werden können. Unsere zentrale Erkenntnis ist, dass die Keyframe-Transformationen spezifischer interner Merkmale (z. B. Kantenkarten von Objekten oder menschlichen Posen) leicht auf andere Frames übertragen werden können, um Generierungsanleitungen zu bieten. Daher schlagen wir MagicStick vor, eine kontrollierbare Videobearbeitungsmethode, die die Videoeigenschaften durch die Transformation der extrahierten internen Steuersignale bearbeitet. Im Detail halten wir das Erscheinungsbild bei, indem wir sowohl das vortrainierte Bilddiffusionsmodell als auch ControlNet in die zeitliche Dimension erweitern und Low-Rank-Adaptionen (LORA)-Schichten trainieren, um sie an spezifische Szenen anzupassen. Bei der Bearbeitung führen wir dann ein Inversions- und Bearbeitungsframework durch. Anders als üblich wird das feinabgestimmte ControlNet sowohl bei der Inversion als auch bei der Generierung eingeführt, um mit dem vorgeschlagenen Attention Remix zwischen den räumlichen Aufmerksamkeitskarten der Inversion und der Bearbeitung eine Aufmerksamkeitsführung zu bieten. Trotz ihrer Einfachheit ist unsere Methode die erste, die die Fähigkeit zur Bearbeitung von Videoeigenschaften aus einem vortrainierten Text-zu-Bild-Modell zeigt. Wir präsentieren Experimente an zahlreichen Beispielen innerhalb unseres einheitlichen Frameworks. Wir vergleichen auch mit formbewusster textbasierter Bearbeitung und handgefertigter Bewegungsvideogenerierung und demonstrieren unsere überlegene zeitliche Konsistenz und Bearbeitungsfähigkeit im Vergleich zu früheren Arbeiten. Der Code und die Modelle werden öffentlich zugänglich gemacht.

Selbstkonditionierte Bildgenerierung durch die Erzeugung von Repräsentationen
Self-conditioned Image Generation via Generating Representations

Dec 6

ByTianhong Li, Dina Katabi, Kaiming He

Dieses Papier stellt Representation-Conditioned Image Generation (RCG) vor, ein einfaches, aber effektives Framework zur Bildgenerierung, das einen neuen Maßstab in der klassenunabhängigen Bildgenerierung setzt. RCG basiert nicht auf menschlichen Annotationen. Stattdessen basiert es auf einer selbstüberwachten Repräsentationsverteilung, die mithilfe eines vortrainierten Encoders aus der Bildverteilung abgebildet wird. Während der Generierung zieht RCG aus dieser Repräsentationsverteilung mithilfe eines Repräsentations-Diffusionsmodells (RDM) Stichproben und verwendet einen Pixel-Generator, um Bildpixel basierend auf der gezogenen Repräsentation zu erzeugen. Ein solches Design bietet eine erhebliche Führung während des Generierungsprozesses, was zu hochwertiger Bildgenerierung führt. Getestet auf ImageNet 256×256 erreicht RCG einen Fréchet Inception Distance (FID) von 3,31 und einen Inception Score (IS) von 253,4. Diese Ergebnisse verbessern nicht nur den Stand der Technik in der klassenunabhängigen Bildgenerierung erheblich, sondern konkurrieren auch mit den führenden Methoden in der klassenbedingten Bildgenerierung, wodurch die langjährige Leistungslücke zwischen diesen beiden Aufgaben geschlossen wird. Der Code ist verfügbar unter https://github.com/LTH14/rcg.

DreamComposer: Steuerbare 3D-Objekterzeugung durch Multi-View-Bedingungen
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

Dec 6

ByYunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu

Durch die Nutzung vortrainierter 2D-Generativmodelle in großem Maßstab sind aktuelle Arbeiten in der Lage, hochwertige neue Ansichten aus einem einzelnen Bild in freier Umgebung zu generieren. Aufgrund des Mangels an Informationen aus mehreren Ansichten stoßen diese Arbeiten jedoch auf Schwierigkeiten bei der Erzeugung kontrollierbarer neuer Ansichten. In diesem Artikel stellen wir DreamComposer vor, ein flexibles und skalierbares Framework, das bestehende ansichtsbewusste Diffusionsmodelle durch die Einbindung von Mehransichtsbedingungen verbessern kann. Konkret verwendet DreamComposer zunächst ein ansichtsbewusstes 3D-Hebungsmodul, um 3D-Darstellungen eines Objekts aus mehreren Ansichten zu erhalten. Anschließend rendert es die latenten Merkmale der Zielansicht aus den 3D-Darstellungen mit dem Mehransichts-Merkmal-Fusionsmodul. Schließlich werden die aus den Mehransichtseingaben extrahierten Zielansichtsmerkmale in ein vortrainiertes Diffusionsmodell eingefügt. Experimente zeigen, dass DreamComposer mit state-of-the-art Diffusionsmodellen für die Null-Shot-Synthese neuer Ansichten kompatibel ist und diese weiter verbessert, um hochauflösende neue Ansichtsbilder mit Mehransichtsbedingungen zu generieren, die für die kontrollierbare 3D-Objektrekonstruktion und verschiedene andere Anwendungen bereit sind.

Erstellen von illustrierten Anleitungen
Generating Illustrated Instructions

Dec 7

BySachit Menon, Ishan Misra, Rohit Girdhar

Wir stellen die neue Aufgabe der Generierung von Illustrierten Anleitungen vor, d.h. visuelle Anleitungen, die auf die Bedürfnisse eines Benutzers zugeschnitten sind. Wir identifizieren spezifische Anforderungen, die für diese Aufgabe einzigartig sind, und formalisieren sie durch eine Reihe von automatischen und menschlichen Bewertungsmetriken, die darauf ausgelegt sind, die Gültigkeit, Konsistenz und Wirksamkeit der Generierungen zu messen. Wir kombinieren die Leistungsfähigkeit großer Sprachmodelle (LLMs) mit starken Text-zu-Bild-Generierungs-Diffusionsmodellen, um einen einfachen Ansatz namens StackedDiffusion vorzuschlagen, der solche illustrierten Anleitungen aus Text als Eingabe generiert. Das resultierende Modell übertrifft Baseline-Ansätze und state-of-the-art multimodale LLMs deutlich; und in 30 % der Fälle bevorzugen Benutzer es sogar gegenüber von Menschen erstellten Artikeln. Besonders bemerkenswert ist, dass es verschiedene neue und spannende Anwendungen ermöglicht, die weit über das hinausgehen, was statische Artikel im Web bieten können, wie z.B. personalisierte Anleitungen mit Zwischenschritten und Bildern, die auf die individuelle Situation eines Benutzers reagieren.

Effiziente monotone Multihead-Attention
Efficient Monotonic Multihead Attention

Dec 7

ByXutai Ma, Anna Sun, Siqi Ouyang, Hirofumi Inaguma, Paden Tomasello

Wir stellen die Efficient Monotonic Multihead Attention (EMMA) vor, ein modernstes Modell für simultane Übersetzung mit numerisch stabiler und unverzerrter Schätzung der monotonen Ausrichtung. Darüber hinaus präsentieren wir verbesserte Trainings- und Inferenzstrategien, einschließlich simultanem Feintuning eines Offline-Übersetzungsmodells und der Reduzierung der Varianz der monotonen Ausrichtung. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Modell Spitzenleistungen in der simultanen Sprach-zu-Text-Übersetzung für die spanisch-englische Übersetzungsaufgabe erzielt.

HybridNeRF: Effizientes neuronales Rendering durch adaptive volumetrische Oberflächen
HybridNeRF: Efficient Neural Rendering via Adaptive Volumetric Surfaces

Dec 5

ByHaithem Turki, Vasu Agrawal, Samuel Rota Bulò, Lorenzo Porzi, Peter Kontschieder, Deva Ramanan, Michael Zollhöfer, Christian Richardt

Neurale Strahlungsfelder bieten eine erstklassige Qualität bei der Ansichtssynthese, sind jedoch tendenziell langsam in der Darstellung. Ein Grund dafür ist, dass sie Volumenrendering verwenden und somit viele Samples (und Modellanfragen) pro Strahl zur Renderzeit benötigen. Obwohl diese Darstellung flexibel und einfach zu optimieren ist, können die meisten Objekte in der realen Welt effizienter mit Oberflächen statt mit Volumen modelliert werden, was weit weniger Samples pro Strahl erfordert. Diese Beobachtung hat erhebliche Fortschritte bei Oberflächendarstellungen wie signierten Distanzfunktionen angeregt, doch diese können Schwierigkeiten haben, halbdurchsichtige und dünne Strukturen zu modellieren. Wir schlagen eine Methode namens HybridNeRF vor, die die Stärken beider Darstellungen nutzt, indem sie die meisten Objekte als Oberflächen rendert, während die (typischerweise) kleinen Anteile an anspruchsvollen Regionen volumetrisch modelliert werden. Wir evaluieren HybridNeRF anhand des anspruchsvollen Eyeful Tower-Datensatzes sowie anderer häufig verwendeter Datensätze zur Ansichtssynthese. Im Vergleich zu modernsten Baselines, einschließlich neuer rasterisierungsbasierter Ansätze, verbessern wir die Fehlerraten um 15-30 % und erreichen gleichzeitig Echtzeit-Frameraten (mindestens 36 FPS) für Virtual-Reality-Auflösungen (2Kx2K).

LEGO: Lernen der EGOzentrischen Aktionsrahmen-Generierung durch visuelle Instruktionsanpassung
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning

Dec 6

ByBolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu

Die Erzeugung von Anleitungsbildern menschlicher Alltagshandlungen aus einer egozentrischen Perspektive stellt einen entscheidenden Schritt für den effizienten Wissenstransfer dar. In diesem Artikel führen wir ein neuartiges Problem ein – die egozentrische Aktionsrahmen-Generierung. Das Ziel ist es, den Aktionsrahmen basierend auf der Benutzeraufforderung und einem Eingabebild, das die Umgebung des Benutzers aus einer egozentrischen Sicht einfängt, zu synthetisieren. Bemerkenswerterweise fehlen in bestehenden egozentrischen Datensätzen detaillierte Annotationen, die die Ausführung von Handlungen beschreiben. Zudem gelingt es diffusionsbasierten Bildmanipulationsmodellen nicht, den Zustandswechsel einer Handlung innerhalb des entsprechenden egozentrischen Bildpixelraums zu steuern. Zu diesem Zweck feinen wir ein visuelles großes Sprachmodell (VLLM) durch visuelle Instruktionsoptimierung ab, um angereicherte Handlungsbeschreibungen für unser vorgeschlagenes Problem zu erstellen. Darüber hinaus schlagen wir vor, die EGOzentrische Aktionsrahmen-Generierung (LEGO) unter Verwendung von Bild- und Text-Einbettungen aus dem VLLM als zusätzliche Bedingung zu erlernen. Wir validieren unser vorgeschlagenes Modell anhand von zwei egozentrischen Datensätzen – Ego4D und Epic-Kitchens. Unsere Experimente zeigen eine deutliche Verbesserung gegenüber früheren Bildmanipulationsmodellen sowohl in der quantitativen als auch in der qualitativen Bewertung. Wir führen außerdem detaillierte Ablationsstudien und Analysen durch, um Einblicke in unsere Methode zu geben.

Chain of Code: Argumentation mit einem sprachmodell-erweiterten Code-Emulator
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Dec 7

ByChengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, Brian Ichter