Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte in Text-zu-Bild-Generierungsmodellen haben ein enormes Potenzial für visuelle Kreativität freigesetzt. Allerdings haben diese Modelle Schwierigkeiten bei der Erzeugung konsistenter Charaktere, einem entscheidenden Aspekt für zahlreiche reale Anwendungen wie die Visualisierung von Geschichten, das Design von Assets für die Spieleentwicklung, Werbung und mehr. Aktuelle Methoden stützen sich typischerweise auf mehrere bereits vorhandene Bilder des Zielcharakters oder beinhalten arbeitsintensive manuelle Prozesse. In dieser Arbeit schlagen wir eine vollständig automatisierte Lösung für die konsistente Charaktergenerierung vor, bei der die einzige Eingabe ein Textprompt ist. Wir führen ein iteratives Verfahren ein, das in jeder Phase eine kohärente Gruppe von Bildern identifiziert, die eine ähnliche Identität teilen, und aus dieser Gruppe eine konsistentere Identität extrahiert. Unsere quantitative Analyse zeigt, dass unsere Methode im Vergleich zu den Baseline-Methoden eine bessere Balance zwischen Prompt-Ausrichtung und Identitätskonsistenz erreicht, und diese Ergebnisse werden durch eine Benutzerstudie gestützt. Abschließend präsentieren wir mehrere praktische Anwendungen unseres Ansatzes. Die Projektseite ist unter https://omriavrahami.com/the-chosen-one verfügbar.
Text-to-Image-Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Umwandlung von textuellen Eingabeaufforderungen in kohärente Bilder gezeigt, doch die Rechenkosten ihrer Inferenz bleiben eine anhaltende Herausforderung. Um dieses Problem zu lösen, stellen wir UFOGen vor, ein neuartiges generatives Modell, das für ultraschnelle, einstufige Text-to-Image-Synthese entwickelt wurde. Im Gegensatz zu konventionellen Ansätzen, die sich auf die Verbesserung von Samplern oder den Einsatz von Destillationstechniken für Diffusionsmodelle konzentrieren, verfolgt UFOGen eine hybride Methodik, die Diffusionsmodelle mit einem GAN-Ziel integriert. Durch die Nutzung eines neu eingeführten Diffusion-GAN-Ziels und der Initialisierung mit vortrainierten Diffusionsmodellen zeichnet sich UFOGen durch die effiziente Erzeugung hochwertiger Bilder aus, die in einem einzigen Schritt auf textuellen Beschreibungen basieren. Über die traditionelle Text-to-Image-Generierung hinaus zeigt UFOGen vielseitige Anwendungsmöglichkeiten. Insbesondere gehört UFOGen zu den wegweisenden Modellen, die eine einstufige Text-to-Image-Generierung und diverse nachgelagerte Aufgaben ermöglichen, was einen bedeutenden Fortschritt im Bereich effizienter generativer Modelle darstellt. \blfootnote{*Arbeit wurde als studentischer Forscher bei Google durchgeführt, das Dagger-Symbol kennzeichnet gleichen Beitrag.}
Trotz des Erfolgs von Chain of Thought bei der Verbesserung des logischen Denkens von Sprachmodellen bleibt der zugrunde liegende Prozess weniger gut verstanden. Obwohl logisch fundiertes Denken für Chain of Thought offensichtlich von entscheidender Bedeutung zu sein scheint, zeigen frühere Studien überraschenderweise nur minimale Auswirkungen, wenn stattdessen ungültige Demonstrationen verwendet werden. Darüber hinaus informiert der konventionelle Chain of Thought Sprachmodelle nicht darüber, welche Fehler vermieden werden sollten, was potenziell zu mehr Fehlern führt. Daher schlagen wir, inspiriert davon, wie Menschen sowohl aus positiven als auch aus negativen Beispielen lernen können, den kontrastiven Chain of Thought vor, um das logische Denken von Sprachmodellen zu verbessern. Im Vergleich zum konventionellen Chain of Thought bietet unser Ansatz sowohl gültige als auch ungültige Denkdemonstrationen, um das Modell schrittweise zu leiten und gleichzeitig Denkfehler zu reduzieren. Um die Generalisierung zu verbessern, führen wir eine automatische Methode zur Erstellung kontrastiver Demonstrationen ein. Unsere Experimente mit logischen Benchmarks zeigen, dass der kontrastive Chain of Thought als allgemeine Verbesserung des Chain-of-Thought-Promptings dienen kann.
Neurale Strahlungsfelder erreichen eine beispiellose Qualität bei der Synthese neuer Ansichten, aber ihre volumetrische Formulierung bleibt rechenintensiv und erfordert eine enorme Anzahl von Samples, um hochauflösende Bilder zu rendern. Volumetrische Kodierungen sind essenziell, um unscharfe Geometrien wie Laub und Haare darzustellen, und sie eignen sich gut für stochastische Optimierung. Dennoch bestehen viele Szenen letztlich größtenteils aus festen Oberflächen, die mit einem einzigen Sample pro Pixel genau gerendert werden können. Basierend auf dieser Erkenntnis schlagen wir eine neurale Strahlungsformulierung vor, die nahtlos zwischen volumetrischem und oberflächenbasiertem Rendering übergeht, wodurch die Render-Geschwindigkeit erheblich beschleunigt und sogar die visuelle Qualität verbessert wird. Unsere Methode konstruiert ein explizites Mesh-Hüllvolumen, das eine neurale volumetrische Darstellung räumlich begrenzt. In festen Regionen konvergiert das Hüllvolumen nahezu zu einer Oberfläche und kann oft mit einem einzigen Sample gerendert werden. Zu diesem Zweck verallgemeinern wir die NeuS-Formulierung mit einem gelernten, räumlich variablen Kernel, der die Ausbreitung der Dichte kodiert, indem er einen breiten Kernel für volumenähnliche Regionen und einen engen Kernel für oberflächenähnliche Regionen anpasst. Anschließend extrahieren wir ein explizites Mesh eines schmalen Bandes um die Oberfläche, dessen Breite durch die Kernelgröße bestimmt wird, und feinabstimmen das Strahlungsfeld innerhalb dieses Bandes. Zur Inferenzzeit werfen wir Strahlen gegen das Mesh und evaluieren das Strahlungsfeld nur innerhalb des eingeschlossenen Bereichs, wodurch die Anzahl der benötigten Samples erheblich reduziert wird. Experimente zeigen, dass unser Ansatz effizientes Rendering bei sehr hoher Qualität ermöglicht. Wir demonstrieren auch, dass das extrahierte Hüllvolumen nachgelagerte Anwendungen wie Animation und Simulation ermöglicht.
Wir schlagen Tied-LoRA vor, ein einfaches Paradigma, das Gewichtsbindung und selektives Training nutzt, um die Parameter-Effizienz der Low-Rank-Adaptation (LoRA)-Methode weiter zu steigern. Unsere Untersuchungen umfassen alle möglichen Kombinationen von Parameter-Training/-Einfrieren in Verbindung mit Gewichtsbindung, um das optimale Gleichgewicht zwischen Leistung und der Anzahl der trainierbaren Parameter zu identifizieren. Durch Experimente, die eine Vielzahl von Aufgaben und zwei Basissprachmodelle abdecken, liefern wir Analysen, die Kompromisse zwischen Effizienz und Leistung aufzeigen. Unsere Experimente haben eine bestimmte Tied-LoRA-Konfiguration aufgedeckt, die sich dadurch auszeichnet, dass sie vergleichbare Leistungen über mehrere Aufgaben hinweg zeigt, während sie nur 13~\% der Parameter verwendet, die von der Standard-LoRA-Methode eingesetzt werden.
Große Sprachmodelle haben vielversprechende Leistungen in Code-Generierungs-Benchmarks gezeigt. Es besteht jedoch eine beträchtliche Kluft zwischen diesen Benchmark-Ergebnissen und ihrer praktischen Anwendbarkeit, die hauptsächlich auf die Abhängigkeit der realen Programmierung von bestehenden Bibliotheken zurückzuführen ist. Anstatt LLMs (Large Language Models) zu bewerten, die Code von Grund auf erstellen, zielt diese Arbeit darauf ab, ein neues Bewertungsszenario vorzuschlagen, in dem LLMs Open-Source-Bibliotheken nutzen, um maschinelle Lernaufgaben zu erledigen. Daher schlagen wir ML-Bench vor, einen umfangreichen Benchmark, der entwickelt wurde, um die Effektivität von LLMs bei der Nutzung bestehender Funktionen in Open-Source-Bibliotheken zu bewerten. Er besteht aus 10044 Beispielen, die 130 Aufgaben über 14 bemerkenswerte Machine-Learning-GitHub-Repositories umfassen. In diesem Szenario wird einem LLM bei einer spezifischen Machine-Learning-Aufgabenstellung und der begleitenden README-Datei in einem Codebase die Aufgabe gestellt, Code zu generieren, um die Aufgabe zu erfüllen. Dies erfordert das Verständnis von langen und sprachlich mit Code verwobenen Dokumenten sowie das Verständnis komplexer, dateiübergreifender Codestrukturen, was neue Herausforderungen mit sich bringt. Bemerkenswerterweise zeigt GPT-4 zwar eine bemerkenswerte Verbesserung gegenüber anderen LLMs, schafft es jedoch nur 39,73 % der Aufgaben zu bewältigen, was einen großen Raum für Verbesserungen lässt. Wir gehen auf diese Herausforderungen ein, indem wir ML-Agent vorschlagen, der darauf ausgelegt ist, effektiv durch das Codebase zu navigieren, Dokumentation zu finden, Code abzurufen und ausführbaren Code zu generieren. Empirische Ergebnisse zeigen, dass ML-Agent, basierend auf GPT-4, weitere Verbesserungen bewirkt. Code, Daten und Modelle sind unter https://ml-bench.github.io/ verfügbar.
Benchmarks spielen eine wichtige Rolle bei der Entwicklung von Algorithmen für maschinelles Lernen. Beispielsweise wurde die Forschung im Bereich des bestärkenden Lernens (Reinforcement Learning, RL) stark von verfügbaren Umgebungen und Benchmarks beeinflusst. Traditionell werden RL-Umgebungen jedoch auf der CPU ausgeführt, was ihre Skalierbarkeit mit typischer akademischer Rechenleistung einschränkt. Jüngste Fortschritte in JAX haben die breitere Nutzung von Hardware-Beschleunigung ermöglicht, um diese rechenintensiven Hürden zu überwinden, was massiv parallele RL-Trainingspipelines und Umgebungen ermöglicht. Dies ist besonders nützlich für die Forschung im Bereich des Multi-Agenten-Reinforcement-Learnings (MARL). Zum einen müssen mehrere Agenten in jedem Umgebungsschritt berücksichtigt werden, was die Rechenlast erhöht, und zum anderen steigt die Probenkomplexität aufgrund von Nicht-Stationarität, dezentraler partieller Beobachtbarkeit oder anderen MARL-Herausforderungen. In diesem Artikel stellen wir JaxMARL vor, die erste Open-Source-Codebasis, die Benutzerfreundlichkeit mit GPU-optimierter Effizienz kombiniert und eine Vielzahl häufig verwendeter MARL-Umgebungen sowie beliebte Baseline-Algorithmen unterstützt. In Bezug auf die Echtzeit zeigen unsere Experimente, dass unsere JAX-basierte Trainingspipeline pro Durchlauf bis zu 12500-mal schneller ist als bestehende Ansätze. Dies ermöglicht effiziente und gründliche Bewertungen und hat das Potenzial, die Evaluationskrise in diesem Bereich zu lindern. Wir stellen außerdem SMAX vor, eine vektorisierte, vereinfachte Version der beliebten StarCraft Multi-Agent Challenge, die den Betrieb der StarCraft II-Spiel-Engine überflüssig macht. Dies ermöglicht nicht nur GPU-Beschleunigung, sondern bietet auch eine flexiblere MARL-Umgebung, die das Potenzial für Selbstspiel, Meta-Lernen und andere zukünftige Anwendungen in MARL freisetzt. Den Code stellen wir unter https://github.com/flairox/jaxmarl zur Verfügung.
Jüngste Entscheidungen führender KI-Labore, ihre Modelle entweder zu open-sourcen oder den Zugang zu ihren Modellen einzuschränken, haben eine Debatte darüber entfacht, ob und wie zunehmend leistungsfähige KI-Modelle geteilt werden sollten. Open-Sourcing in der KI bezieht sich typischerweise darauf, die Modellarchitektur und Gewichte frei und öffentlich zugänglich zu machen, sodass sie von jedem modifiziert, studiert, weiterentwickelt und genutzt werden können. Dies bietet Vorteile wie die Ermöglichung externer Überwachung, die Beschleunigung des Fortschritts und die Dezentralisierung der Kontrolle über die KI-Entwicklung und -Nutzung. Es birgt jedoch auch ein wachsendes Potenzial für Missbrauch und unbeabsichtigte Folgen. Dieses Papier bietet eine Untersuchung der Risiken und Vorteile des Open-Sourcings hochleistungsfähiger Foundation-Modelle. Während Open-Sourcing historisch gesehen erhebliche Netto-Vorteile für die meisten Software- und KI-Entwicklungsprozesse gebracht hat, argumentieren wir, dass für einige hochleistungsfähige Foundation-Modelle, die voraussichtlich in naher Zukunft entwickelt werden, das Open-Sourcing möglicherweise so extreme Risiken birgt, dass sie die Vorteile überwiegen. In einem solchen Fall sollten hochleistungsfähige Foundation-Modelle nicht open-source gemacht werden, zumindest nicht initial. Alternative Strategien, einschließlich nicht-open-source Modell-Sharing-Optionen, werden untersucht. Das Papier schließt mit Empfehlungen für Entwickler, Standardisierungsgremien und Regierungen zur Etablierung sicherer und verantwortungsvoller Modell-Sharing-Praktiken und zur Bewahrung der Vorteile des Open-Sourcings, wo dies sicher ist.