Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Im Bestreben nach effizienter automatisierter Inhaltserstellung erweist sich die prozedurale Generierung, die modifizierbare Parameter und regelbasierte Systeme nutzt, als vielversprechender Ansatz. Dennoch kann dies eine anspruchsvolle Aufgabe sein, da ihre komplexe Natur ein tiefes Verständnis von Regeln, Algorithmen und Parametern erfordert. Um den Arbeitsaufwand zu verringern, stellen wir 3D-GPT vor, ein Framework, das große Sprachmodelle (LLMs) für instruktionsgesteuerte 3D-Modellierung nutzt. 3D-GPT positioniert LLMs als kompetente Problemlöser, die prozedurale 3D-Modellierungsaufgaben in zugängliche Segmente zerlegen und den geeigneten Agenten für jede Aufgabe bestimmen. 3D-GPT integriert drei Kernagenten: den Aufgabenverteilungsagenten, den Konzeptualisierungsagenten und den Modellierungsagenten. Sie arbeiten gemeinsam an zwei Zielen. Erstens verbessert es prägnante anfängliche Szenenbeschreibungen, entwickelt sie zu detaillierten Formen weiter und passt den Text dynamisch basierend auf nachfolgenden Anweisungen an. Zweitens integriert es prozedurale Generierung, extrahiert Parameterwerte aus angereichertem Text und ermöglicht so eine nahtlose Schnittstelle zu 3D-Software für die Erstellung von Assets. Unsere empirischen Untersuchungen bestätigen, dass 3D-GPT nicht nur Anweisungen interpretiert und ausführt, um zuverlässige Ergebnisse zu liefern, sondern auch effektiv mit menschlichen Designern zusammenarbeitet. Darüber hinaus integriert es sich nahtlos mit Blender und eröffnet erweiterte Manipulationsmöglichkeiten. Unsere Arbeit unterstreicht das Potenzial von LLMs in der 3D-Modellierung und bietet ein grundlegendes Framework für zukünftige Fortschritte in der Szenengenerierung und Animation.
Offene große Sprachmodelle (LLMs) mit hervorragender Leistung in verschiedenen Aufgaben haben die Entwicklung von LLMs erheblich vorangetrieben. Sie sind jedoch weit unterlegen gegenüber kommerziellen Modellen wie ChatGPT und GPT-4, wenn sie als Agenten eingesetzt werden, um komplexe Aufgaben in der realen Welt zu bewältigen. Diese Agentenaufgaben nutzen LLMs als zentrale Steuerungseinheit, die für Planung, Gedächtnis und Werkzeugnutzung verantwortlich ist, was sowohl fein abgestimmte Prompting-Methoden als auch robuste LLMs erfordert, um zufriedenstellende Leistungen zu erzielen. Obwohl viele Prompting-Methoden vorgeschlagen wurden, um bestimmte Agentenaufgaben zu bewältigen, mangelt es an Forschung, die darauf abzielt, die Agentenfähigkeiten von LLMs selbst zu verbessern, ohne ihre allgemeinen Fähigkeiten zu beeinträchtigen. In dieser Arbeit präsentieren wir AgentTuning, eine einfache und allgemeine Methode, um die Agentenfähigkeiten von LLMs zu verbessern, während ihre allgemeinen LLM-Fähigkeiten erhalten bleiben. Wir erstellen AgentInstruct, einen leichtgewichtigen Instruction-Tuning-Datensatz, der hochwertige Interaktionsverläufe enthält. Wir verwenden eine hybride Instruction-Tuning-Strategie, indem wir AgentInstruct mit Open-Source-Anweisungen aus allgemeinen Domänen kombinieren. AgentTuning wird verwendet, um die Llama-2-Serie durch Instruction-Tuning anzupassen, was zu AgentLM führt. Unsere Auswertungen zeigen, dass AgentTuning die Agentenfähigkeiten von LLMs ermöglicht, ohne die allgemeinen Fähigkeiten zu beeinträchtigen. Das AgentLM-70B ist mit GPT-3.5-turbo bei unbekannten Agentenaufgaben vergleichbar und demonstriert generalisierte Agentenfähigkeiten. Wir veröffentlichen den AgentInstruct-Datensatz und die AgentLM-7B-, 13B- und 70B-Modelle unter https://github.com/THUDM/AgentTuning als offene und leistungsstarke Alternativen zu kommerziellen LLMs für Agentenaufgaben.
Mit der Entwicklung großer Sprachmodelle (LLMs) war es noch nie so entscheidend, ein Gleichgewicht zwischen der Leistung und der Sicherheit von KI-Systemen zu finden. Die inhärente Spannung zwischen den Zielen der Hilfsbereitschaft und der Schadlosigkeit stellt jedoch eine erhebliche Herausforderung während des Trainings von LLMs dar. Um dieses Problem zu lösen, schlagen wir Safe Reinforcement Learning from Human Feedback (Safe RLHF) vor, einen neuartigen Algorithmus zur Ausrichtung menschlicher Werte. Safe RLHF entkoppelt explizit die menschlichen Präferenzen bezüglich Hilfsbereitschaft und Schadlosigkeit, vermeidet effektiv die Verwirrung der Crowdworker über diese Spannung und ermöglicht es uns, separate Belohnungs- und Kostenmodelle zu trainieren. Wir formalisieren das Sicherheitsbedenken von LLMs als eine Optimierungsaufgabe, bei der die Belohnungsfunktion maximiert wird, während bestimmte Kostenbeschränkungen erfüllt werden. Durch die Nutzung der Lagrange-Methode zur Lösung dieses eingeschränkten Problems passt Safe RLHF dynamisch das Gleichgewicht zwischen den beiden Zielen während des Feinabstimmens an. Durch eine dreirundige Feinabstimmung mit Safe RLHF demonstrieren wir eine überlegene Fähigkeit, schädliche Antworten zu reduzieren und gleichzeitig die Modellleistung im Vergleich zu bestehenden wertausgerichteten Algorithmen zu verbessern. Experimentell haben wir Alpaca-7B mit Safe RLHF feinabgestimmt und an gesammelte menschliche Präferenzen angepasst, wodurch seine Hilfsbereitschaft und Schadlosigkeit laut menschlicher Bewertungen erheblich verbessert wurde.
Große Sprachmodelle (LLMs) haben sich als hochrangige semantische Planer für sequenzielle Entscheidungsfindungsaufgaben hervorgetan. Es bleibt jedoch eine offene Herausforderung, sie für das Erlernen komplexer, feinmotorischer Manipulationsaufgaben wie das geschickte Drehen eines Stifts zu nutzen. Wir schließen diese grundlegende Lücke und präsentieren Eureka, einen Algorithmus zur Belohnungsgestaltung auf menschlichem Niveau, der von LLMs angetrieben wird. Eureka nutzt die bemerkenswerten Fähigkeiten modernster LLMs wie GPT-4 zur Null-Shot-Generierung, Code-Erstellung und kontextbezogenen Verbesserung, um eine evolutionäre Optimierung von Belohnungscode durchzuführen. Die resultierenden Belohnungen können dann verwendet werden, um komplexe Fähigkeiten durch bestärkendes Lernen zu erwerben. Ohne aufgabenspezifische Eingabeaufforderungen oder vordefinierte Belohnungsvorlagen erzeugt Eureka Belohnungsfunktionen, die von Menschenhand entwickelte Belohnungen übertreffen. In einer vielfältigen Sammlung von 29 Open-Source-RL-Umgebungen, die 10 verschiedene Robotermorphologien umfassen, übertrifft Eureka menschliche Experten in 83 % der Aufgaben, was zu einer durchschnittlichen normalisierten Verbesserung von 52 % führt. Die Allgemeingültigkeit von Eureka ermöglicht auch einen neuen gradientenfreien, kontextbezogenen Lernansatz für bestärkendes Lernen aus menschlichem Feedback (RLHF), der menschliche Eingaben leicht integriert, um die Qualität und Sicherheit der generierten Belohnungen ohne Modellaktualisierung zu verbessern. Schließlich demonstrieren wir erstmals mithilfe von Eureka-Belohnungen in einem Curriculum-Learning-Setting eine simulierte Shadow Hand, die in der Lage ist, Stiftdrehtricks auszuführen und einen Stift mit hoher Geschwindigkeit geschickt im Kreis zu bewegen.
Reinforcement Learning (RL) erfordert entweder die manuelle Spezifikation einer Belohnungsfunktion, was oft nicht praktikabel ist, oder das Lernen eines Belohnungsmodells aus einer großen Menge menschlicher Rückmeldungen, was oft sehr kostspielig ist. Wir untersuchen eine effizientere Alternative: die Verwendung vortrainierter Vision-Language-Modelle (VLMs) als Zero-Shot-Belohnungsmodelle (RMs), um Aufgaben über natürliche Sprache zu spezifizieren. Wir schlagen einen natürlichen und allgemeinen Ansatz vor, VLMs als Belohnungsmodelle zu verwenden, den wir VLM-RMs nennen. Wir verwenden VLM-RMs basierend auf CLIP, um einen MuJoCo-Humanoiden zu trainieren, komplexe Aufgaben ohne manuell spezifizierte Belohnungsfunktion zu erlernen, wie zum Beispiel Knien, den Spagat machen und im Lotussitz sitzen. Für jede dieser Aufgaben geben wir nur einen einzigen Satz als Textprompt an, der die gewünschte Aufgabe mit minimalem Prompt-Engineering beschreibt. Wir stellen Videos der trainierten Agenten unter folgender Adresse bereit: https://sites.google.com/view/vlm-rm. Wir können die Leistung verbessern, indem wir einen zweiten „Baseline“-Prompt bereitstellen und Teile des CLIP-Einbettungsraums, die irrelevant sind, um zwischen Ziel und Baseline zu unterscheiden, herausprojizieren. Darüber hinaus beobachten wir einen starken Skalierungseffekt bei VLM-RMs: größere VLMs, die mit mehr Rechenleistung und Daten trainiert wurden, sind bessere Belohnungsmodelle. Die von uns festgestellten Fehlermodi von VLM-RMs hängen alle mit bekannten Fähigkeitsbeschränkungen aktueller VLMs zusammen, wie begrenzte räumliche Denkfähigkeit oder visuell unrealistische Umgebungen, die weit außerhalb der Verteilung des VLM liegen. Wir stellen fest, dass VLM-RMs bemerkenswert robust sind, solange das VLM groß genug ist. Dies deutet darauf hin, dass zukünftige VLMs immer nützlichere Belohnungsmodelle für eine breite Palette von RL-Anwendungen werden.
Die Erstellung von Musik ist ein iterativer Prozess, der in jeder Phase unterschiedliche Methoden erfordert. Bisherige KI-Musiksysteme sind jedoch nicht in der Lage, mehrere Subsysteme für diverse Anforderungen zu orchestrieren. Um diese Lücke zu schließen, stellen wir Loop Copilot vor, ein neuartiges System, das es Nutzern ermöglicht, Musik durch eine interaktive, mehrstufige Dialogoberfläche zu generieren und iterativ zu verfeinern. Das System verwendet ein großes Sprachmodell, um die Absichten der Nutzer zu interpretieren und geeignete KI-Modelle für die Aufgabenausführung auszuwählen. Jedes Backend-Modell ist auf eine spezifische Aufgabe spezialisiert, und deren Ausgaben werden aggregiert, um die Anforderungen der Nutzer zu erfüllen. Um musikalische Kohärenz zu gewährleisten, werden wesentliche Attribute in einer zentralen Tabelle verwaltet. Wir bewerten die Effektivität des vorgeschlagenen Systems durch halbstrukturierte Interviews und Fragebögen und heben dessen Nutzen nicht nur bei der Erleichterung der Musikerstellung, sondern auch sein Potenzial für breitere Anwendungen hervor.
Große Sprachmodelle (LLMs) sind mittlerweile in verschiedenen Größen und Konfigurationen von Cloud-API-Anbietern verfügbar. Während diese Vielfalt eine breite Palette an Auswahlmöglichkeiten bietet, bleibt die effektive Nutzung dieser Optionen zur Optimierung von Rechenkosten und Leistung eine Herausforderung. In dieser Arbeit präsentieren wir AutoMix, einen Ansatz, der Anfragen strategisch an größere Sprachmodelle weiterleitet, basierend auf der ungefähren Korrektheit der Ausgaben eines kleineren Modells. Kern von AutoMix ist ein Few-Shot-Selbstverifizierungsmechanismus, der die Zuverlässigkeit der eigenen Ausgaben schätzt, ohne dass ein Training erforderlich ist. Da Verifizierungen fehleranfällig sein können, setzen wir in AutoMix einen Meta-Verifizierer ein, um die Genauigkeit dieser Bewertungen zu verbessern. Unsere Experimente mit LLAMA2-13/70B auf fünf kontextbasierten Reasoning-Datensätzen zeigen, dass AutoMix etablierte Baselines übertrifft und den inkrementellen Nutzen pro Kosten um bis zu 89 % steigert. Unser Code und unsere Daten sind unter https://github.com/automix-llm/automix verfügbar.
Weit verbreitete Sprachmodelle (LMs) werden typischerweise durch die Skalierung einer zweistufigen Trainingspipeline entwickelt: eine Vorab-Trainingsphase, die einen sehr großen, vielfältigen Textdatensatz verwendet, und eine Feinabstimmungsphase (manchmal auch „Alignment“ genannt), die gezielte Beispiele oder andere Spezifikationen des gewünschten Verhaltens nutzt. Obwohl die Hypothese besteht, dass Wissen und Fähigkeiten aus dem Vorab-Training stammen und die Feinabstimmung dieses Wissen und diese Fähigkeiten hauptsächlich filtert, wurde diese Intuition bisher nicht umfassend getestet. Um dies zu ermöglichen, führen wir eine neuartige Technik ein, die das in diesen beiden Phasen erworbene Wissen und die Fähigkeiten entkoppelt, wodurch eine direkte Antwort auf die Frage möglich wird: „Was würde passieren, wenn wir das Wissen, das ein großes Modell während des Vorab-Trainings erlernt hat, mit dem Wissen kombinieren, das ein kleines Modell während der Feinabstimmung erlernt hat (oder umgekehrt)?“ Unter Verwendung eines RL-basierten Frameworks, das auf jüngsten Entwicklungen im Lernen aus menschlichen Präferenzen basiert, führen wir die emulierte Feinabstimmung (Emulated Fine-Tuning, EFT) ein, eine prinzipielle und praktische Methode zur Stichprobenentnahme aus einer Verteilung, die das Ergebnis von Vorab-Training und Feinabstimmung in verschiedenen Skalen annähert (oder „emuliert“). Unsere Experimente mit EFT zeigen, dass die Skalierung der Feinabstimmung tendenziell die Hilfsbereitschaft verbessert, während die Skalierung des Vorab-Trainings tendenziell die Faktentreue erhöht. Über die Entkopplung der Skalierung hinaus zeigen wir, dass EFT eine testzeitliche Anpassung konkurrierender Verhaltensmerkmale wie Hilfsbereitschaft und Schadlosigkeit ohne zusätzliches Training ermöglicht. Schließlich vermeidet ein Spezialfall der emulierten Feinabstimmung, den wir als LM-Up-Scaling bezeichnen, die ressourcenintensive Feinabstimmung großer vortrainierter Modelle, indem sie mit kleinen feinabgestimmten Modellen kombiniert werden, wodurch im Wesentlichen das Ergebnis der Feinabstimmung des großen vortrainierten Modells emuliert wird. Up-Scaling verbessert durchgängig die Hilfsbereitschaft und Faktentreue von befehlsfolgenden Modellen der Llama-, Llama-2- und Falcon-Familien, ohne zusätzliche Hyperparameter oder Training zu erfordern.
Textural Inversion, eine Methode des Prompt-Lernens, lernt eine einzelne Einbettung für ein neues "Wort", um Bildstil und -erscheinung darzustellen, wodurch es in natürliche Sprachsätze integriert werden kann, um neu synthetisierte Bilder zu erzeugen. Die Identifizierung und Integration mehrerer objektbezogener Konzepte innerhalb einer Szene stellt jedoch erhebliche Herausforderungen dar, selbst wenn Einbettungen für einzelne Konzepte erreichbar sind. Dies wird durch unsere empirischen Tests weiter bestätigt. Um diese Herausforderung zu bewältigen, führen wir ein Framework für Multi-Concept Prompt Learning (MCPL) ein, bei dem mehrere neue "Wörter" gleichzeitig aus einem einzigen Satz-Bild-Paar gelernt werden. Um die Genauigkeit der Wort-Konzept-Korrelation zu verbessern, schlagen wir drei Regularisierungstechniken vor: Attention Masking (AttnMask), um das Lernen auf relevante Bereiche zu konzentrieren; Prompts Contrastive Loss (PromptCL), um die Einbettungen verschiedener Konzepte zu trennen; und Bind Adjective (Bind adj.), um neue "Wörter" mit bekannten Wörtern zu verknüpfen. Wir evaluieren durch Bildgenerierung, -bearbeitung und Aufmerksamkeitsvisualisierung mit diversen Bildern. Umfangreiche quantitative Vergleiche zeigen, dass unsere Methode semantisch stärker entkoppelte Konzepte mit verbesserter Wort-Konzept-Korrelation lernen kann. Zusätzlich stellen wir einen neuartigen Datensatz und ein Evaluationsprotokoll vor, die speziell für diese neue Aufgabe des Lernens objektbezogener Konzepte entwickelt wurden.
Die Erzeugung hochauflösender 3D-Objekte bleibt eine herausfordernde Aufgabe, hauptsächlich aufgrund der begrenzten Verfügbarkeit umfassend annotierter Trainingsdaten. Jüngste Fortschritte zielen darauf ab, diese Einschränkung zu überwinden, indem Bildgenerierungsmodelle genutzt werden, die auf umfangreichen, kuratierten Webdatensätzen vortrainiert sind, und dabei Techniken des Wissenstransfers wie Score Distillation Sampling (SDS) eingesetzt werden. Die effiziente Bewältigung der Anforderungen an hochauflösendes Rendering erfordert oft die Verwendung von Modellen, die auf latenten Repräsentationen basieren, wie das Latent Diffusion Model (LDM). In diesem Rahmen ergibt sich eine wesentliche Herausforderung: Um Gradienten für einzelne Bildpixel zu berechnen, ist es notwendig, Gradienten vom festgelegten latenten Raum durch die eingefrorenen Komponenten des Bildmodells zurückzupropagieren, wie beispielsweise den VAE-Encoder, der innerhalb des LDM verwendet wird. Dieser Gradientenpropagationspfad wurde jedoch nie optimiert und bleibt während des Trainings unkontrolliert. Wir stellen fest, dass die unregulierten Gradienten die Fähigkeit des 3D-Modells beeinträchtigen, texturbezogene Informationen aus dem Bildgenerierungsmodell zu erlernen, was zu einer schlechten Qualität der Erscheinungssynthese führt. Um diese übergreifende Herausforderung zu bewältigen, schlagen wir eine innovative Operation namens Pixel-wise Gradient Clipping (PGC) vor, die für die nahtlose Integration in bestehende 3D-Generierungsmodelle entwickelt wurde und dadurch deren Synthesequalität verbessert. Konkret kontrollieren wir die Größe der stochastischen Gradienten, indem wir die pixelweisen Gradienten effizient beschneiden, während wir wichtige texturbezogene Gradientenrichtungen beibehalten. Trotz dieser Einfachheit und des minimalen zusätzlichen Aufwands zeigen umfangreiche Experimente die Wirksamkeit unseres PGC bei der Verbesserung der Leistung bestehender 3D-Generierungsmodelle für das hochauflösende Rendering von Objekten.