HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

8 papers found

Der Auserwählte: Konsistente Charaktere in Text-zu-Bild-Diffusionsmodellen
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

Nov 16

ByOmri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski

Jüngste Fortschritte in Text-zu-Bild-Generierungsmodellen haben ein enormes Potenzial für visuelle Kreativität freigesetzt. Allerdings haben diese Modelle Schwierigkeiten bei der Erzeugung konsistenter Charaktere, einem entscheidenden Aspekt für zahlreiche reale Anwendungen wie die Visualisierung von Geschichten, das Design von Assets für die Spieleentwicklung, Werbung und mehr. Aktuelle Methoden stützen sich typischerweise auf mehrere bereits vorhandene Bilder des Zielcharakters oder beinhalten arbeitsintensive manuelle Prozesse. In dieser Arbeit schlagen wir eine vollständig automatisierte Lösung für die konsistente Charaktergenerierung vor, bei der die einzige Eingabe ein Textprompt ist. Wir führen ein iteratives Verfahren ein, das in jeder Phase eine kohärente Gruppe von Bildern identifiziert, die eine ähnliche Identität teilen, und aus dieser Gruppe eine konsistentere Identität extrahiert. Unsere quantitative Analyse zeigt, dass unsere Methode im Vergleich zu den Baseline-Methoden eine bessere Balance zwischen Prompt-Ausrichtung und Identitätskonsistenz erreicht, und diese Ergebnisse werden durch eine Benutzerstudie gestützt. Abschließend präsentieren wir mehrere praktische Anwendungen unseres Ansatzes. Die Projektseite ist unter https://omriavrahami.com/the-chosen-one verfügbar.

UFOGen: You Forward Once – Großskalige Text-zu-Bild-Generierung mittels Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

Nov 14

ByYanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou

Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Umwandlung von textuellen Eingabeaufforderungen in kohärente Bilder gezeigt, doch die Rechenkosten ihrer Inferenz bleiben eine anhaltende Herausforderung. Um dieses Problem zu lösen, stellen wir UFOGen vor, ein neuartiges generatives Modell, das für ultraschnelle, einstufige Text-to-Image-Synthese entwickelt wurde. Im Gegensatz zu konventionellen Ansätzen, die sich auf die Verbesserung von Samplern oder den Einsatz von Destillationstechniken für Diffusionsmodelle konzentrieren, verfolgt UFOGen eine hybride Methodik, die Diffusionsmodelle mit einem GAN-Ziel integriert. Durch die Nutzung eines neu eingeführten Diffusion-GAN-Ziels und der Initialisierung mit vortrainierten Diffusionsmodellen zeichnet sich UFOGen durch die effiziente Erzeugung hochwertiger Bilder aus, die in einem einzigen Schritt auf textuellen Beschreibungen basieren. Über die traditionelle Text-to-Image-Generierung hinaus zeigt UFOGen vielseitige Anwendungsmöglichkeiten. Insbesondere gehört UFOGen zu den wegweisenden Modellen, die eine einstufige Text-to-Image-Generierung und diverse nachgelagerte Aufgaben ermöglichen, was einen bedeutenden Fortschritt im Bereich effizienter generativer Modelle darstellt. \blfootnote{*Arbeit wurde als studentischer Forscher bei Google durchgeführt, das Dagger-Symbol kennzeichnet gleichen Beitrag.}

Kontrastives Chain-of-Thought-Prompting
Contrastive Chain-of-Thought Prompting

Nov 15

ByYew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing

Trotz des Erfolgs von Chain of Thought bei der Verbesserung des logischen Denkens von Sprachmodellen bleibt der zugrunde liegende Prozess weniger gut verstanden. Obwohl logisch fundiertes Denken für Chain of Thought offensichtlich von entscheidender Bedeutung zu sein scheint, zeigen frühere Studien überraschenderweise nur minimale Auswirkungen, wenn stattdessen ungültige Demonstrationen verwendet werden. Darüber hinaus informiert der konventionelle Chain of Thought Sprachmodelle nicht darüber, welche Fehler vermieden werden sollten, was potenziell zu mehr Fehlern führt. Daher schlagen wir, inspiriert davon, wie Menschen sowohl aus positiven als auch aus negativen Beispielen lernen können, den kontrastiven Chain of Thought vor, um das logische Denken von Sprachmodellen zu verbessern. Im Vergleich zum konventionellen Chain of Thought bietet unser Ansatz sowohl gültige als auch ungültige Denkdemonstrationen, um das Modell schrittweise zu leiten und gleichzeitig Denkfehler zu reduzieren. Um die Generalisierung zu verbessern, führen wir eine automatische Methode zur Erstellung kontrastiver Demonstrationen ein. Unsere Experimente mit logischen Benchmarks zeigen, dass der kontrastive Chain of Thought als allgemeine Verbesserung des Chain-of-Thought-Promptings dienen kann.

Adaptive Hüllen für effizientes Rendering von Neural Radiance Fields
Adaptive Shells for Efficient Neural Radiance Field Rendering

Nov 16

ByZian Wang, Tianchang Shen, Merlin Nimier-David, Nicholas Sharp, Jun Gao, Alexander Keller, Sanja Fidler, Thomas Müller, Zan Gojcic

Neurale Strahlungsfelder erreichen eine beispiellose Qualität bei der Synthese neuer Ansichten, aber ihre volumetrische Formulierung bleibt rechenintensiv und erfordert eine enorme Anzahl von Samples, um hochauflösende Bilder zu rendern. Volumetrische Kodierungen sind essenziell, um unscharfe Geometrien wie Laub und Haare darzustellen, und sie eignen sich gut für stochastische Optimierung. Dennoch bestehen viele Szenen letztlich größtenteils aus festen Oberflächen, die mit einem einzigen Sample pro Pixel genau gerendert werden können. Basierend auf dieser Erkenntnis schlagen wir eine neurale Strahlungsformulierung vor, die nahtlos zwischen volumetrischem und oberflächenbasiertem Rendering übergeht, wodurch die Render-Geschwindigkeit erheblich beschleunigt und sogar die visuelle Qualität verbessert wird. Unsere Methode konstruiert ein explizites Mesh-Hüllvolumen, das eine neurale volumetrische Darstellung räumlich begrenzt. In festen Regionen konvergiert das Hüllvolumen nahezu zu einer Oberfläche und kann oft mit einem einzigen Sample gerendert werden. Zu diesem Zweck verallgemeinern wir die NeuS-Formulierung mit einem gelernten, räumlich variablen Kernel, der die Ausbreitung der Dichte kodiert, indem er einen breiten Kernel für volumenähnliche Regionen und einen engen Kernel für oberflächenähnliche Regionen anpasst. Anschließend extrahieren wir ein explizites Mesh eines schmalen Bandes um die Oberfläche, dessen Breite durch die Kernelgröße bestimmt wird, und feinabstimmen das Strahlungsfeld innerhalb dieses Bandes. Zur Inferenzzeit werfen wir Strahlen gegen das Mesh und evaluieren das Strahlungsfeld nur innerhalb des eingeschlossenen Bereichs, wodurch die Anzahl der benötigten Samples erheblich reduziert wird. Experimente zeigen, dass unser Ansatz effizientes Rendering bei sehr hoher Qualität ermöglicht. Wir demonstrieren auch, dass das extrahierte Hüllvolumen nachgelagerte Anwendungen wie Animation und Simulation ermöglicht.

Tied-LoRA: Verbesserung der Parameter-Effizienz von LoRA durch Gewichtsverknüpfung
Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying

Nov 16

ByAdithya Renduchintala, Tugrul Konuk, Oleksii Kuchaiev

Wir schlagen Tied-LoRA vor, ein einfaches Paradigma, das Gewichtsbindung und selektives Training nutzt, um die Parameter-Effizienz der Low-Rank-Adaptation (LoRA)-Methode weiter zu steigern. Unsere Untersuchungen umfassen alle möglichen Kombinationen von Parameter-Training/-Einfrieren in Verbindung mit Gewichtsbindung, um das optimale Gleichgewicht zwischen Leistung und der Anzahl der trainierbaren Parameter zu identifizieren. Durch Experimente, die eine Vielzahl von Aufgaben und zwei Basissprachmodelle abdecken, liefern wir Analysen, die Kompromisse zwischen Effizienz und Leistung aufzeigen. Unsere Experimente haben eine bestimmte Tied-LoRA-Konfiguration aufgedeckt, die sich dadurch auszeichnet, dass sie vergleichbare Leistungen über mehrere Aufgaben hinweg zeigt, während sie nur 13~\% der Parameter verwendet, die von der Standard-LoRA-Methode eingesetzt werden.

ML-Bench: Große Sprachmodelle nutzen Open-Source-Bibliotheken für maschinelle Lernaufgaben
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

Nov 16

ByYuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein

Große Sprachmodelle haben vielversprechende Leistungen in Code-Generierungs-Benchmarks gezeigt. Es besteht jedoch eine beträchtliche Kluft zwischen diesen Benchmark-Ergebnissen und ihrer praktischen Anwendbarkeit, die hauptsächlich auf die Abhängigkeit der realen Programmierung von bestehenden Bibliotheken zurückzuführen ist. Anstatt LLMs (Large Language Models) zu bewerten, die Code von Grund auf erstellen, zielt diese Arbeit darauf ab, ein neues Bewertungsszenario vorzuschlagen, in dem LLMs Open-Source-Bibliotheken nutzen, um maschinelle Lernaufgaben zu erledigen. Daher schlagen wir ML-Bench vor, einen umfangreichen Benchmark, der entwickelt wurde, um die Effektivität von LLMs bei der Nutzung bestehender Funktionen in Open-Source-Bibliotheken zu bewerten. Er besteht aus 10044 Beispielen, die 130 Aufgaben über 14 bemerkenswerte Machine-Learning-GitHub-Repositories umfassen. In diesem Szenario wird einem LLM bei einer spezifischen Machine-Learning-Aufgabenstellung und der begleitenden README-Datei in einem Codebase die Aufgabe gestellt, Code zu generieren, um die Aufgabe zu erfüllen. Dies erfordert das Verständnis von langen und sprachlich mit Code verwobenen Dokumenten sowie das Verständnis komplexer, dateiübergreifender Codestrukturen, was neue Herausforderungen mit sich bringt. Bemerkenswerterweise zeigt GPT-4 zwar eine bemerkenswerte Verbesserung gegenüber anderen LLMs, schafft es jedoch nur 39,73 % der Aufgaben zu bewältigen, was einen großen Raum für Verbesserungen lässt. Wir gehen auf diese Herausforderungen ein, indem wir ML-Agent vorschlagen, der darauf ausgelegt ist, effektiv durch das Codebase zu navigieren, Dokumentation zu finden, Code abzurufen und ausführbaren Code zu generieren. Empirische Ergebnisse zeigen, dass ML-Agent, basierend auf GPT-4, weitere Verbesserungen bewirkt. Code, Daten und Modelle sind unter https://ml-bench.github.io/ verfügbar.

JaxMARL: Multi-Agent RL-Umgebungen in JAX
JaxMARL: Multi-Agent RL Environments in JAX

Nov 16

ByAlexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster

Benchmarks spielen eine wichtige Rolle bei der Entwicklung von Algorithmen für maschinelles Lernen. Beispielsweise wurde die Forschung im Bereich des bestärkenden Lernens (Reinforcement Learning, RL) stark von verfügbaren Umgebungen und Benchmarks beeinflusst. Traditionell werden RL-Umgebungen jedoch auf der CPU ausgeführt, was ihre Skalierbarkeit mit typischer akademischer Rechenleistung einschränkt. Jüngste Fortschritte in JAX haben die breitere Nutzung von Hardware-Beschleunigung ermöglicht, um diese rechenintensiven Hürden zu überwinden, was massiv parallele RL-Trainingspipelines und Umgebungen ermöglicht. Dies ist besonders nützlich für die Forschung im Bereich des Multi-Agenten-Reinforcement-Learnings (MARL). Zum einen müssen mehrere Agenten in jedem Umgebungsschritt berücksichtigt werden, was die Rechenlast erhöht, und zum anderen steigt die Probenkomplexität aufgrund von Nicht-Stationarität, dezentraler partieller Beobachtbarkeit oder anderen MARL-Herausforderungen. In diesem Artikel stellen wir JaxMARL vor, die erste Open-Source-Codebasis, die Benutzerfreundlichkeit mit GPU-optimierter Effizienz kombiniert und eine Vielzahl häufig verwendeter MARL-Umgebungen sowie beliebte Baseline-Algorithmen unterstützt. In Bezug auf die Echtzeit zeigen unsere Experimente, dass unsere JAX-basierte Trainingspipeline pro Durchlauf bis zu 12500-mal schneller ist als bestehende Ansätze. Dies ermöglicht effiziente und gründliche Bewertungen und hat das Potenzial, die Evaluationskrise in diesem Bereich zu lindern. Wir stellen außerdem SMAX vor, eine vektorisierte, vereinfachte Version der beliebten StarCraft Multi-Agent Challenge, die den Betrieb der StarCraft II-Spiel-Engine überflüssig macht. Dies ermöglicht nicht nur GPU-Beschleunigung, sondern bietet auch eine flexiblere MARL-Umgebung, die das Potenzial für Selbstspiel, Meta-Lernen und andere zukünftige Anwendungen in MARL freisetzt. Den Code stellen wir unter https://github.com/flairox/jaxmarl zur Verfügung.

Open-Sourcing hochleistungsfähiger Foundation-Modelle: Eine Bewertung von Risiken, Vorteilen und alternativen Methoden zur Verfolgung von Open-Source-Zielen
Open-Sourcing Highly Capable Foundation Models: An evaluation of risks, benefits, and alternative methods for pursuing open-source objectives

Sep 29

ByElizabeth Seger, Noemi Dreksler, Richard Moulange, Emily Dardaman, Jonas Schuett, K. Wei, Christoph Winter, Mackenzie Arnold, Seán Ó hÉigeartaigh, Anton Korinek, Markus Anderljung, Ben Bucknall, Alan Chan, Eoghan Stafford, Leonie Koessler, Aviv Ovadya, Ben Garfinkel, Emma Bluemke, Michael Aird, Patrick Levermore, Julian Hazell, Abhishek Gupta

Jüngste Entscheidungen führender KI-Labore, ihre Modelle entweder zu open-sourcen oder den Zugang zu ihren Modellen einzuschränken, haben eine Debatte darüber entfacht, ob und wie zunehmend leistungsfähige KI-Modelle geteilt werden sollten. Open-Sourcing in der KI bezieht sich typischerweise darauf, die Modellarchitektur und Gewichte frei und öffentlich zugänglich zu machen, sodass sie von jedem modifiziert, studiert, weiterentwickelt und genutzt werden können. Dies bietet Vorteile wie die Ermöglichung externer Überwachung, die Beschleunigung des Fortschritts und die Dezentralisierung der Kontrolle über die KI-Entwicklung und -Nutzung. Es birgt jedoch auch ein wachsendes Potenzial für Missbrauch und unbeabsichtigte Folgen. Dieses Papier bietet eine Untersuchung der Risiken und Vorteile des Open-Sourcings hochleistungsfähiger Foundation-Modelle. Während Open-Sourcing historisch gesehen erhebliche Netto-Vorteile für die meisten Software- und KI-Entwicklungsprozesse gebracht hat, argumentieren wir, dass für einige hochleistungsfähige Foundation-Modelle, die voraussichtlich in naher Zukunft entwickelt werden, das Open-Sourcing möglicherweise so extreme Risiken birgt, dass sie die Vorteile überwiegen. In einem solchen Fall sollten hochleistungsfähige Foundation-Modelle nicht open-source gemacht werden, zumindest nicht initial. Alternative Strategien, einschließlich nicht-open-source Modell-Sharing-Optionen, werden untersucht. Das Papier schließt mit Empfehlungen für Entwickler, Standardisierungsgremien und Regierungen zur Etablierung sicherer und verantwortungsvoller Modell-Sharing-Praktiken und zur Bewahrung der Vorteile des Open-Sourcings, wo dies sicher ist.

JaxMARL: Multi-Agent RL-Umgebungen in JAX
JaxMARL: Multi-Agent RL Environments in JAX

Nov 16