Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Erstellung von Inhalten für eine spezifische Identität (ID) hat im Bereich der generativen Modelle großes Interesse geweckt. Im Bereich der Text-zu-Bild-Generierung (T2I) hat die subjektgesteuerte Inhaltsgenerierung bedeutende Fortschritte erzielt, wobei die ID in den Bildern kontrollierbar ist. Die Erweiterung auf die Videogenerierung ist jedoch noch nicht umfassend erforscht. In dieser Arbeit schlagen wir ein einfaches, aber effektives Framework für die subjektidentitätskontrollierte Videogenerierung vor, das als Video Custom Diffusion (VCD) bezeichnet wird. Mit einer spezifizierten Subjekt-ID, die durch einige Bilder definiert ist, verstärkt VCD die Extraktion von Identitätsinformationen und injiziert eine rahmenweise Korrelation im Initialisierungsstadium, um stabile Videoausgaben zu erzielen, bei denen die Identität weitgehend erhalten bleibt. Um dies zu erreichen, schlagen wir drei neuartige Komponenten vor, die für die hochwertige ID-Erhaltung entscheidend sind: 1) ein ID-Modul, das mit der zugeschnittenen Identität durch Prompt-to-Segmentation trainiert wird, um die ID-Informationen vom Hintergrundrauschen zu entkoppeln und eine genauere ID-Token-Lernung zu ermöglichen; 2) ein Text-zu-Video (T2V) VCD-Modul mit 3D-Gaußschem Rauschprior für eine bessere Interframe-Konsistenz und 3) Video-zu-Video (V2V) Face VCD und Tiled VCD Module, um das Gesicht zu schärfen und das Video für eine höhere Auflösung zu vergrößern. Trotz seiner Einfachheit haben wir umfangreiche Experimente durchgeführt, um zu bestätigen, dass VCD stabile und hochwertige Videos mit besserer ID im Vergleich zu ausgewählten starken Baselines generieren kann. Darüber hinaus funktioniert VCD aufgrund der Übertragbarkeit des ID-Moduls auch gut mit öffentlich verfügbaren, feinabgestimmten Text-zu-Bild-Modellen, was seine Nutzbarkeit weiter verbessert. Die Codes sind verfügbar unter https://github.com/Zhen-Dong/Magic-Me.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen in verschiedenen Domänen der logischen Schlussfolgerung erzielt. Allerdings entdecken wir in diesem Bereich eine Schwäche: LLMs sind überraschend anfällig für die Reihenfolge der Prämissen, obwohl diese Reihenfolge die zugrunde liegende Aufgabe nicht verändert. Insbesondere beobachten wir, dass LLMs die beste Leistung erbringen, wenn die Reihenfolge der Prämissen mit dem Kontext übereinstimmt, der in den Zwischenschritten der Schlussfolgerung erforderlich ist. Beispielsweise steigt die Genauigkeit des Modells bei deduktiven Schlussfolgerungsaufgaben drastisch, wenn die Prämissen in der gleichen Reihenfolge wie im Beweis der Grundwahrheit im Prompt präsentiert werden (im Gegensatz zu einer zufälligen Reihenfolge). Wir untersuchen zunächst den Einfluss der Prämissenreihenfolge auf die deduktive Schlussfolgerung bei verschiedenen LLMs, und unsere Auswertung zeigt, dass eine Permutation der Prämissenreihenfolge zu einem Leistungsabfall von über 30 % führen kann. Darüber hinaus veröffentlichen wir den Benchmark R-GSM, basierend auf GSM8K, um den Einfluss der Reihenfolge auf die mathematische Problemlösung zu untersuchen, und auch hier beobachten wir einen signifikanten Genauigkeitsrückgang im Vergleich zum ursprünglichen GSM8K-Benchmark.
Diffusionsbasierte Bildgenerierungsmodelle wie DALL-E 3 und Stable Diffusion-XL zeigen bemerkenswerte Fähigkeiten bei der Erzeugung von Bildern mit realistischen und einzigartigen Kompositionen. Dennoch sind diese Modelle nicht robust darin, physikalische und räumliche Konfigurationen von Objekten präzise zu erfassen, insbesondere wenn sie mit unkonventionellen, also außerhalb der Trainingsverteilung liegenden Beschreibungen wie „ein Stuhl mit fünf Beinen“ instruiert werden. In diesem Artikel schlagen wir einen Sprachagenten mit Chain-of-3D-Thoughts (L3GO) vor, einen Inferenzzeit-Ansatz, der in der Lage ist, die teilbasierte 3D-Mesh-Generierung unkonventioneller Objekte zu erfassen, mit denen aktuelle datengetriebene Diffusionsmodelle Schwierigkeiten haben. Konkret verwenden wir große Sprachmodelle als Agenten, um ein gewünschtes Objekt durch Versuch und Irrtum in einer 3D-Simulationsumgebung zu konstruieren. Um unsere Untersuchung zu unterstützen, entwickeln wir einen neuen Benchmark, Unconventionally Feasible Objects (UFO), sowie SimpleBlenv, eine Wrapper-Umgebung, die auf Blender aufbaut und in der Sprachagenten atomare Bausteine über API-Aufrufe erstellen und kombinieren können. Menschliche und automatische GPT-4V-Evaluierungen zeigen, dass unser Ansatz den Standard GPT-4 und andere Sprachagenten (z. B. ReAct und Reflexion) bei der 3D-Mesh-Generierung auf ShapeNet übertrifft. Darüber hinaus überzeugt unser Ansatz bei Tests auf unserem UFO-Benchmark im Vergleich zu anderen state-of-the-art Text-zu-2D-Bild- und Text-zu-3D-Modellen in der menschlichen Bewertung.
Längengeneralisierung, definiert als die Fähigkeit, von kürzeren Trainingssequenzen auf längere Testsequenzen zu extrapolieren, stellt eine erhebliche Herausforderung für Sprachmodelle dar. Dieses Problem besteht auch bei großskaligen Transformern, die relativ einfache Aufgaben bewältigen. In diesem Artikel testen wir die Fähigkeit des Transformers zur Längengeneralisierung anhand der Aufgabe der Addition zweier ganzer Zahlen. Wir zeigen, dass der Erfolg der Längengeneralisierung eng mit dem Datenformat und der Art der Positionskodierung verknüpft ist. Durch die Verwendung der richtigen Kombination aus Datenformat und Positionskodierungen zeigen wir erstmals, dass Standard-Transformer auf eine Sequenzlänge extrapolieren können, die das 2,5-fache der Eingabelänge beträgt. Dennoch bleibt die Längengeneralisierung im Gegensatz zur In-Distribution-Generalisierung fragil und wird erheblich durch Faktoren wie die zufällige Gewichtsinitialisierung und die Reihenfolge der Trainingsdaten beeinflusst, was zu großen Varianzen über verschiedene Zufallsinitialisierungen hinweg führt.
Die dringende Notwendigkeit, Berechnungen über zahlreiche Knoten zu skalieren, unterstreicht die Bedeutung effizienten parallelen Rechnens, insbesondere im Bereich der Integration von Message Passing Interface (MPI). Die anspruchsvolle Aufgabe der parallelen Programmierung, MPI-basierte parallele Programme zu generieren, ist bisher unerforscht geblieben. Diese Studie untersucht zunächst die Leistung modernster Sprachmodelle bei der Generierung von MPI-basierten parallelen Programmen. Die Ergebnisse zeigen, dass weit verbreitete Modelle wie GPT-3.5 und PolyCoder (spezialisierte mehrsprachige Codemodelle) eine deutliche Leistungsverschlechterung aufweisen, wenn sie MPI-basierte Programme im Vergleich zu allgemeinen Programmen generieren. Im Gegensatz dazu übertreffen domänenspezifische Modelle wie MonoCoder, die auf MPI-bezogenen Programmiersprachen wie C und C++ vortrainiert sind, größere Modelle. Anschließend führen wir eine spezielle Downstream-Aufgabe zur Generierung von MPI-basierten Programmen ein, indem wir MonoCoder auf HPCorpusMPI feinabstimmen. Das resultierende Modell nennen wir MPIrigen. Wir schlagen eine innovative Vorverarbeitung vor, die die Vervollständigung erst nach Betrachtung des gesamten Codes ermöglicht, wodurch eine bessere Vervollständigung mit einem breiteren Kontext erreicht wird. Eine vergleichende Analyse gegenüber der Zero-Shot-Leistung von GPT-3.5, unter Verwendung einer neuartigen HPC-orientierten Evaluierungsmethode, zeigt, dass MPIrigen bei der Generierung präziser MPI-Funktionen mit einer Genauigkeit von bis zu 0,8 bei Standort- und Funktionsvorhersagen und mehr als 0,9 bei Argumentvorhersagen überzeugt. Der Erfolg dieser maßgeschneiderten Lösung unterstreicht die Bedeutung domänenspezifischer Feinabstimmung bei der Optimierung von Sprachmodellen für die Generierung von parallelem Computercode und ebnet den Weg für eine neue Generation automatischer Parallelisierungstools. Die Quellen dieser Arbeit sind in unserem GitHub MPIrigen-Repository verfügbar: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.
Rechenleistung, oder "Compute", ist entscheidend für die Entwicklung und den Einsatz von künstlicher Intelligenz (KI). Infolgedessen haben Regierungen und Unternehmen begonnen, Compute als Mittel zur Regulierung von KI zu nutzen. Beispielsweise investieren Regierungen in inländische Rechenkapazitäten, kontrollieren den Fluss von Compute in konkurrierende Länder und subventionieren den Zugang zu Compute für bestimmte Sektoren. Diese Bemühungen kratzen jedoch nur an der Oberfläche dessen, wie Compute zur Steuerung der KI-Entwicklung und -Nutzung eingesetzt werden kann. Im Vergleich zu anderen wichtigen Inputs für KI (Daten und Algorithmen) ist KI-relevante Compute ein besonders effektiver Interventionspunkt: sie ist nachweisbar, ausschließbar und quantifizierbar und wird über eine extrem konzentrierte Lieferkette produziert. Diese Eigenschaften, zusammen mit der einzigartigen Bedeutung von Compute für KI-Modelle der Spitzenklasse, legen nahe, dass die Regulierung von Compute dazu beitragen kann, gemeinsame politische Ziele zu erreichen, wie z. B. die Sicherstellung der Sicherheit und des vorteilhaften Einsatzes von KI. Genauer gesagt könnten politische Entscheidungsträger Compute nutzen, um die regulatorische Sichtbarkeit von KI zu fördern, Ressourcen zur Förderung positiver Ergebnisse zuzuweisen und Beschränkungen gegen verantwortungslose oder bösartige KI-Entwicklung und -Nutzung durchzusetzen. Während Compute-basierte Politiken und Technologien das Potenzial haben, in diesen Bereichen zu unterstützen, gibt es erhebliche Unterschiede in ihrer Einsatzbereitschaft. Einige Ideen werden derzeit erprobt, während andere durch den Bedarf an grundlegender Forschung behindert werden. Darüber hinaus bergen naive oder schlecht abgesteckte Ansätze zur Compute-Regulierung erhebliche Risiken in Bereichen wie Datenschutz, wirtschaftlichen Auswirkungen und der Zentralisierung von Macht. Wir schließen mit Vorschlägen für Leitplanken, um diese Risiken der Compute-Regulierung zu minimieren.
Reward-Finetuning hat sich als vielversprechender Ansatz zur Ausrichtung von Foundation-Modellen auf nachgelagerte Ziele erwiesen. Im Sprachbereich wurden bemerkenswerte Erfolge erzielt, indem Reinforcement Learning (RL) eingesetzt wurde, um Belohnungen zu maximieren, die menschliche Präferenzen widerspiegeln. Im visuellen Bereich sind jedoch bestehende RL-basierte Reward-Finetuning-Methoden durch ihre Instabilität im großflächigen Training eingeschränkt, was sie unfähig macht, komplexe, unbekannte Prompts zu generalisieren. In diesem Artikel schlagen wir Proximal Reward Difference Prediction (PRDP) vor, das erstmals stabiles Black-Box-Reward-Finetuning für Diffusionsmodelle auf großflächigen Prompt-Datensätzen mit über 100.000 Prompts ermöglicht. Unsere zentrale Innovation ist das Reward Difference Prediction (RDP)-Ziel, das die gleiche optimale Lösung wie das RL-Ziel hat, jedoch eine bessere Trainingsstabilität aufweist. Konkret ist das RDP-Ziel ein überwachtes Regressionsziel, bei dem das Diffusionsmodell die Aufgabe hat, die Belohnungsdifferenz von generierten Bildpaaren aus ihren Denoising-Trajektorien vorherzusagen. Wir beweisen theoretisch, dass das Diffusionsmodell, das eine perfekte Belohnungsdifferenzvorhersage erreicht, genau der Maximierer des RL-Ziels ist. Wir entwickeln weiterhin einen Online-Algorithmus mit proximalen Updates, um das RDP-Ziel stabil zu optimieren. In Experimenten zeigen wir, dass PRDP die Belohnungsmaximierungsfähigkeit etablierter RL-basierter Methoden im kleinflächigen Training erreichen kann. Darüber hinaus erreicht PRDP durch großflächiges Training auf Text-Prompts aus dem Human Preference Dataset v2 und dem Pick-a-Pic v1-Datensatz eine überlegene Generierungsqualität bei einer Vielzahl komplexer, unbekannter Prompts, während RL-basierte Methoden vollständig versagen.
Große Sprachmodelle (LLMs) werden immer verbreiteter und finden vielfältige Anwendung bei der Bereitstellung verschiedener Formen von Schreibunterstützung. Allerdings können LLM-basierte Schreibsysteme Nutzer frustrieren, da sie nur begrenzte Personalisierung und Kontrolle bieten, was sich insbesondere dann verschärft, wenn Nutzer wenig Erfahrung mit Prompt-Engineering haben. Wir betrachten Design als einen Ansatz, um diese Herausforderungen zu bewältigen, und stellen GhostWriter vor, eine KI-gestützte Schreibdesign-Sonde, bei der Nutzer erweiterte Handlungsfähigkeit und Personalisierung ausüben können. GhostWriter nutzt LLMs, um den gewünschten Schreibstil des Nutzers implizit zu erlernen, während gleichzeitig explizite Lehrphasen durch manuelle Stilanpassungen und Annotationen ermöglicht werden. Wir untersuchen 18 Teilnehmer, die GhostWriter bei zwei verschiedenen Schreibaufgaben verwenden, und beobachten, dass es Nutzern hilft, personalisierte Texte zu generieren, und sie durch vielfältige Möglichkeiten zur Steuerung des Schreibstils des Systems stärkt. Aus dieser Studie leiten wir Erkenntnisse über die Beziehung von Menschen zu KI-gestütztem Schreiben ab und geben Designempfehlungen für zukünftige Arbeiten.
Mit der zunehmenden Komplexität generativer KI-Modelle hat sich die Post-Training-Quantisierung (PTQ) als vielversprechende Lösung für die Bereitstellung von hyperskaligen Modellen auf Edge-Geräten wie Mobilgeräten und Fernsehern etabliert. Bestehende PTQ-Schemata verbrauchen jedoch erhebliche Zeit und Ressourcen, was in realen Situationen, in denen häufige Modellaktualisierungen und multiple Hyperparameter-Anpassungen erforderlich sind, ein Engpass sein könnte. Als kosteneffiziente Alternative wurden One-Shot-PTQ-Schemata vorgeschlagen. Dennoch ist die Leistung etwas eingeschränkt, da sie die Inter-Layer-Abhängigkeit innerhalb des Attention-Moduls, ein sehr wichtiges Merkmal von Transformern, nicht berücksichtigen können. In diesem Artikel schlagen wir daher einen neuartigen PTQ-Algorithmus vor, der Genauigkeit und Effizienz in Einklang bringt. Die Kernidee des vorgeschlagenen Algorithmus, genannt aespa, besteht darin, die Quantisierung schichtweise für Effizienz durchzuführen, während gleichzeitig die Cross-Layer-Abhängigkeit berücksichtigt wird, um den Attention-Score zu erhalten. Durch umfangreiche Experimente an verschiedenen Sprachmodellen und eine Komplexitätsanalyse zeigen wir, dass aespa präzise und effizient bei der Quantisierung von Transformer-Modellen ist.