Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Groß angelegte Text-zu-Bild-Modelle wie Stable Diffusion sind in der Lage, hochauflösende, fotorealistische Porträtbilder zu erzeugen. Es gibt einen aktiven Forschungsbereich, der sich der Personalisierung dieser Modelle widmet, mit dem Ziel, spezifische Subjekte oder Stile anhand bereitgestellter Referenzbilder zu synthetisieren. Trotz der plausiblen Ergebnisse dieser Personalisierungsmethoden neigen sie jedoch dazu, Bilder zu erzeugen, die oft an Realismus mangeln und noch nicht auf einem kommerziell verwertbaren Niveau liegen. Dies ist besonders bei der Porträtbildgenerierung auffällig, da jedes unnatürliche Artefakt in menschlichen Gesichtern aufgrund unserer angeborenen menschlichen Voreingenommenheit leicht erkennbar ist. Um dies zu beheben, stellen wir MagiCapture vor, eine Personalisierungsmethode zur Integration von Subjekt- und Stilkonzepten, um hochauflösende Porträtbilder mit nur wenigen Subjekt- und Stilreferenzen zu erzeugen. Zum Beispiel kann unser feinabgestimmtes Modell, basierend auf einer Handvoll zufälliger Selfies, hochwertige Porträtbilder in bestimmten Stilen wie Passfotos oder Profilbilder generieren. Die Hauptherausforderung bei dieser Aufgabe ist das Fehlen von Ground-Truth-Daten für die zusammengesetzten Konzepte, was zu einer Verringerung der Qualität des endgültigen Outputs und einer Identitätsverschiebung des ursprünglichen Subjekts führt. Um diese Probleme zu lösen, präsentieren wir einen neuartigen Attention Refocusing Loss in Kombination mit zusätzlichen Prioritäten, die beide ein robustes Lernen in diesem schwach überwachten Lernsetting ermöglichen. Unsere Pipeline umfasst auch zusätzliche Nachbearbeitungsschritte, um die Erstellung hochrealistischer Ergebnisse sicherzustellen. MagiCapture übertrifft andere Baseline-Methoden sowohl in quantitativen als auch in qualitativen Bewertungen und kann auch auf andere nicht-menschliche Objekte verallgemeinert werden.
Wir untersuchen die neuartige Anwendung von Large Language Models zur Code-Optimierung. Wir stellen ein 7-Milliarden-Parameter-Transformer-Modell vor, das von Grund auf trainiert wurde, um LLVM-Assembly-Code hinsichtlich der Codegröße zu optimieren. Das Modell nimmt nicht optimierten Assembly-Code als Eingabe und gibt eine Liste von Compiler-Optionen aus, um das Programm bestmöglich zu optimieren. Entscheidend ist, dass wir das Modell während des Trainings dazu anhalten, die Anweisungsanzahl vor und nach der Optimierung sowie den optimierten Code selbst vorherzusagen. Diese zusätzlichen Lernaufgaben verbessern die Optimierungsleistung des Modells erheblich und vertiefen das Verständnis des Modells. Wir evaluieren unser Modell anhand einer umfangreichen Testsuite von Programmen. Unser Ansatz erzielt eine Verbesserung von 3,0 % bei der Reduzierung der Anweisungsanzahl im Vergleich zum Compiler und übertrifft dabei zwei state-of-the-art Baseline-Methoden, die Tausende von Kompilierungen erfordern. Darüber hinaus zeigt das Modell überraschend starke Fähigkeiten im Code-Verständnis, indem es in 91 % der Fälle kompilierbaren Code erzeugt und in 70 % der Fälle die Ausgabe des Compilers exakt nachahmt.
Das langjährige Problem der Synthese neuer Ansichten hat viele Anwendungen, insbesondere im Bereich der Sportübertragungen. Die fotorealistische Synthese neuer Ansichten von Fußballaktionen ist von besonderem Interesse für die Broadcast-Industrie. Dennoch wurden nur wenige industrielle Lösungen vorgeschlagen, und noch weniger erreichen eine annähernd Broadcast-taugliche Qualität der synthetischen Wiederholungen. Abgesehen von ihrer Anordnung mit mehreren statischen Kameras rund um das Spielfeld, geben die besten proprietären Systeme nahezu keine Informationen über ihre internen Abläufe preis. Die Nutzung mehrerer statischer Kameras für eine solche Aufgabe stellt tatsächlich eine Herausforderung dar, die in der Literatur aufgrund des Mangels an öffentlichen Datensätzen selten behandelt wird: die Rekonstruktion einer großflächigen, überwiegend statischen Umgebung mit kleinen, sich schnell bewegenden Elementen. Kürzlich hat das Aufkommen von Neural Radiance Fields (NeRFs) beeindruckende Fortschritte in vielen Anwendungen der Synthese neuer Ansichten bewirkt, indem Prinzipien des Deep Learning genutzt werden, um fotorealistische Ergebnisse in den anspruchsvollsten Settings zu erzielen. In dieser Arbeit untersuchen wir die Machbarkeit einer Lösung für diese Aufgabe basierend auf dynamischen NeRFs, d.h. neuronalen Modellen, die zur Rekonstruktion allgemeiner dynamischer Inhalte entwickelt wurden. Wir erstellen synthetische Fußballumgebungen und führen mehrere Experimente mit ihnen durch, wobei wir Schlüsselkomponenten identifizieren, die bei der Rekonstruktion von Fußballszenen mit dynamischen NeRFs helfen. Wir zeigen, dass dieser Ansatz zwar die Qualitätsanforderungen für die Zielanwendung nicht vollständig erfüllen kann, aber vielversprechende Wege zu einer kosteneffizienten, automatischen Lösung aufzeigt. Wir stellen außerdem unseren Datensatz und unseren Code öffentlich zur Verfügung, mit dem Ziel, weitere Bemühungen der Forschungsgemeinschaft bei der Aufgabe der Synthese neuer Ansichten für dynamische Fußballszenen zu fördern. Für Code, Daten und Videoergebnisse besuchen Sie bitte https://soccernerfs.isach.be.
Die Verbesserung der Ausrichtung von Sprachmodellen an menschlichen Präferenzen bleibt eine aktive Forschungsherausforderung. Bisherige Ansätze haben hauptsächlich Reinforcement Learning from Human Feedback (RLHF) über Online-RL-Methoden wie Proximal Policy Optimization (PPO) genutzt. Kürzlich sind Offline-Methoden wie Sequence Likelihood Calibration (SLiC) und Direct Preference Optimization (DPO) als attraktive Alternativen aufgetaucht, die Verbesserungen in Stabilität und Skalierbarkeit bieten, während sie wettbewerbsfähige Leistung beibehalten. SLiC verfeinert seine Verlustfunktion unter Verwendung von Sequenzpaaren, die aus einer überwacht feinabgestimmten (SFT) Policy stammen, während DPO Sprachmodelle direkt auf der Grundlage von Präferenzdaten optimiert und auf ein separates Belohnungsmodell verzichtet. Allerdings erfordert der Maximum-Likelihood-Schätzer (MLE) der Zieloptimalpolitik beschriftete Präferenzpaare, die aus dieser Policy stammen. Das Fehlen eines Belohnungsmodells bei DPO schränkt dessen Fähigkeit ein, Präferenzpaare aus der optimalen Policy zu sammeln, und SLiC ist darauf beschränkt, Präferenzpaare nur aus der SFT-Policy zu sammeln. Um diese Einschränkungen zu überwinden, führen wir einen neuartigen Ansatz namens Statistical Rejection Sampling Optimization (RSO) ein, der darauf abzielt, Präferenzdaten aus der Zieloptimalpolitik mithilfe von Rejection Sampling zu gewinnen und so eine genauere Schätzung der optimalen Policy zu ermöglichen. Wir schlagen außerdem ein einheitliches Framework vor, das die in SLiC und DPO verwendeten Verlustfunktionen aus der Perspektive der Präferenzmodellierung verbessert. Durch umfangreiche Experimente über drei verschiedene Aufgaben hinweg zeigen wir, dass RSO sowohl SLiC als auch DPO in Bewertungen durch Large Language Models (LLMs) und menschliche Bewerter durchweg übertrifft.
Jüngste Fortschritte bei groß angelegten Text-zu-Bild-Modellen haben bemerkenswerte Erfolge erzielt und verschiedene Anwendungen im Kunstbereich gefunden. Die Darstellung einzigartiger Merkmale eines Kunstwerks (z. B. Pinselführung, Farbton oder Komposition) allein durch Textprompts kann jedoch aufgrund der inhärenten Beschränkungen verbaler Beschreibungen auf Grenzen stoßen. Zu diesem Zweck stellen wir DreamStyler vor, ein neuartiges Framework für die künstlerische Bildsynthese, das sowohl in der Text-zu-Bild-Synthese als auch im Stiltransfer versiert ist. DreamStyler optimiert eine mehrstufige Text-Einbettung mit einem kontextbewussten Textprompt, was zu einer herausragenden Bildqualität führt. Darüber hinaus zeigt DreamStyler durch Inhalts- und Stilführung Flexibilität, um eine Vielzahl von Stilreferenzen zu berücksichtigen. Experimentelle Ergebnisse demonstrieren seine überlegene Leistung in verschiedenen Szenarien und deuten auf sein vielversprechendes Potenzial bei der künstlerischen Produkterstellung hin.
Unser Ziel ist es, einen realistischen 3D-Gesichtsavatar mit Haaren und Accessoires allein anhand einer Textbeschreibung zu erstellen. Obwohl diese Herausforderung in letzter Zeit auf großes Interesse gestoßen ist, mangelt es bestehenden Methoden entweder an Realismus, sie erzeugen unrealistische Formen oder unterstützen keine Bearbeitung, wie beispielsweise Änderungen der Frisur. Wir argumentieren, dass bestehende Methoden begrenzt sind, da sie einen monolithischen Modellierungsansatz verwenden, bei dem eine einzige Repräsentation für Kopf, Gesicht, Haare und Accessoires genutzt wird. Unsere Beobachtung ist, dass beispielsweise Haare und Gesicht sehr unterschiedliche strukturelle Eigenschaften aufweisen, die von verschiedenen Repräsentationen profitieren. Aufbauend auf dieser Erkenntnis generieren wir Avatare mit einem kompositionellen Modell, bei dem Kopf, Gesicht und Oberkörper durch traditionelle 3D-Meshes dargestellt werden, während Haare, Kleidung und Accessoires durch neurale Strahlungsfelder (NeRF) repräsentiert werden. Die mesh-basierte Modellrepräsentation bietet eine starke geometrische Priorität für den Gesichtsbereich, was den Realismus verbessert und gleichzeitig die Bearbeitung des Erscheinungsbilds der Person ermöglicht. Durch die Verwendung von NeRFs zur Darstellung der verbleibenden Komponenten ist unsere Methode in der Lage, Teile mit komplexer Geometrie und Erscheinung, wie lockige Haare und flauschige Schals, zu modellieren und zu synthetisieren. Unser neuartiges System synthetisiert diese hochwertigen kompositionellen Avatare aus Textbeschreibungen. Die experimentellen Ergebnisse zeigen, dass unsere Methode, die textgesteuerte Generierung und Bearbeitung von kompositionellen Avataren (TECA), realistischere Avatare erzeugt als aktuelle Methoden und aufgrund ihres kompositionellen Charakters bearbeitbar ist. Beispielsweise ermöglicht unsere TECA die nahtlose Übertragung von kompositionellen Merkmalen wie Frisuren, Schals und anderen Accessoires zwischen Avataren. Diese Fähigkeit unterstützt Anwendungen wie virtuelles Anprobieren.
Wir untersuchen die Inferenz einer baumstrukturierten Darstellung aus einem einzelnen Bild für die Objektschattierung. Bisherige Arbeiten verwenden typischerweise parametrische oder gemessene Darstellungen, um Schattierungen zu modellieren, die weder interpretierbar noch einfach bearbeitbar sind. Wir schlagen die Verwendung der Schattierungsbaum-Darstellung vor, die grundlegende Schattierungsknoten und Kompositionsmethoden kombiniert, um die Schattierung der Objektoberfläche zu faktorisieren. Die Schattierungsbaum-Darstellung ermöglicht es unerfahrenen Benutzern, die mit dem physikalischen Schattierungsprozess nicht vertraut sind, die Objektschattierung auf effiziente und intuitive Weise zu bearbeiten. Eine Hauptherausforderung bei der Inferenz des Schattierungsbaums besteht darin, dass das Inferenzproblem sowohl die diskrete Baumstruktur als auch die kontinuierlichen Parameter der Baumknoten umfasst. Wir schlagen einen hybriden Ansatz vor, um dieses Problem zu lösen. Wir führen ein autoregressives Inferenzmodell ein, um eine grobe Schätzung der Baumstruktur und der Knotenparameter zu generieren, und verfeinern dann den inferierten Schattierungsbaum durch einen Optimierungsalgorithmus. Wir zeigen Experimente an synthetischen Bildern, erfassten Reflexionen, realen Bildern und nicht-realistischen Vektorgrafiken, die Downstream-Anwendungen wie Materialbearbeitung, vektorisierte Schattierung und Neubeleuchtung ermöglichen. Projektwebsite: https://chen-geng.com/inv-shade-trees