Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Es gab erhebliche Fortschritte in der personalisierten Bildsynthese mit Methoden wie Textual Inversion, DreamBooth und LoRA. Dennoch wird ihre praktische Anwendbarkeit durch hohen Speicherbedarf, langwierige Feinabstimmungsprozesse und die Notwendigkeit mehrerer Referenzbilder eingeschränkt. Im Gegensatz dazu stehen bestehende ID-Einbettungsmethoden, die zwar nur einen einzigen Vorwärtsdurchlauf erfordern, aber mit Herausforderungen konfrontiert sind: Sie benötigen entweder umfangreiche Feinabstimmung über zahlreiche Modellparameter, sind nicht kompatibel mit community-basierten vortrainierten Modellen oder können keine hohe Gesichtstreue gewährleisten. Um diese Einschränkungen zu überwinden, stellen wir InstantID vor, eine leistungsstarke, auf Diffusionsmodellen basierende Lösung. Unser Plug-and-Play-Modul bewältigt die Bildpersonalisierung in verschiedenen Stilen mit nur einem einzigen Gesichtsbild und gewährleistet dabei eine hohe Treue. Um dies zu erreichen, entwerfen wir ein neuartiges IdentityNet, das starke semantische und schwache räumliche Bedingungen auferlegt und Gesichts- sowie Landmarkenbilder mit Textanweisungen integriert, um die Bildgenerierung zu steuern. InstantID zeigt eine außergewöhnliche Leistung und Effizienz und erweist sich als äußerst nützlich in realen Anwendungen, bei denen die Identitätserhaltung von entscheidender Bedeutung ist. Darüber hinaus integriert sich unsere Arbeit nahtlos in beliebte vortrainierte Text-zu-Bild-Diffusionsmodelle wie SD1.5 und SDXL und fungiert als anpassungsfähiges Plugin. Unsere Codes und vortrainierten Checkpoints werden unter https://github.com/InstantID/InstantID verfügbar sein.
Dieses Papier stellt AIM vor, eine Sammlung von Vision-Modellen, die mit einem autoregressiven Ziel vortrainiert wurden. Diese Modelle sind von ihren textbasierten Gegenstücken, d.h. Large Language Models (LLMs), inspiriert und zeigen ähnliche Skalierungseigenschaften. Insbesondere heben wir zwei zentrale Erkenntnisse hervor: (1) die Leistung der visuellen Merkmale skaliert sowohl mit der Modellkapazität als auch mit der Menge der Daten, (2) der Wert der Zielfunktion korreliert mit der Leistung des Modells bei nachgelagerten Aufgaben. Wir veranschaulichen die praktische Bedeutung dieser Erkenntnisse, indem wir ein AIM-Modell mit 7 Milliarden Parametern auf 2 Milliarden Bildern vortrainieren, das 84,0 % auf ImageNet-1k mit einem eingefrorenen Trunk erreicht. Interessanterweise beobachten wir selbst bei dieser Skalierung keine Anzeichen einer Sättigung der Leistung, was darauf hindeutet, dass AIM möglicherweise eine neue Grenze für das Training großskaliger Vision-Modelle darstellt. Das Vortraining von AIM ähnelt dem Vortraining von LLMs und erfordert keine bildspezifische Strategie, um das Training in großem Maßstab zu stabilisieren.
Mittelgroße Large Language Models (LLMs) – solche mit 7B oder 13B Parametern – zeigen vielversprechende Leistungen in der maschinellen Übersetzung (MT). Allerdings erreichen selbst die leistungsstärksten 13B LLM-basierten Übersetzungsmodelle wie ALMA nicht die Leistung von state-of-the-art konventionellen Encoder-Decoder-Übersetzungsmodellen oder größeren LLMs wie GPT-4. In dieser Studie schließen wir diese Leistungslücke. Zunächst bewerten wir die Schwächen des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) für LLMs in der MT-Aufgabe und betonen dabei die Qualitätsprobleme in den Referenzdaten, obwohl diese von Menschen erstellt wurden. Im Gegensatz zu SFT, das Referenzübersetzungen nachahmt, führen wir Contrastive Preference Optimization (CPO) ein, einen neuartigen Ansatz, der Modelle darauf trainiert, ausreichende, aber nicht perfekte Übersetzungen zu vermeiden. Die Anwendung von CPO auf ALMA-Modelle mit nur 22.000 parallelen Sätzen und 12M Parametern führt zu erheblichen Verbesserungen. Das resultierende Modell, genannt ALMA-R, kann die Leistung der Gewinner des WMT-Wettbewerbs und von GPT-4 auf den Testdatensätzen von WMT'21, WMT'22 und WMT'23 erreichen oder übertreffen.
Typischerweise ist das Training von LLMs mit großen Kontextlängen rechenintensiv und erfordert umfangreiche Trainingszeiten sowie GPU-Ressourcen. Bestehende Methoden zur Erweiterung des Kontexts benötigen in der Regel zusätzliche Trainingsverfahren, um entsprechende lange Kontextfenster zu unterstützen, wobei lange Kontextdaten (z.B. 32k) erforderlich sind und hohe GPU-Trainingskosten anfallen. Um die genannten Probleme zu lösen, schlagen wir eine effiziente und extreme Längenerweiterungsmethode für Large Language Models vor, genannt E²-LLM, die nur ein einziges Trainingsverfahren erfordert und die Rechenkosten drastisch reduziert, wodurch auch die Notwendigkeit entfällt, lange Kontextdaten zu sammeln. Konkret bedeutet dies erstens, dass die Trainingsdaten für unser E²-LLM nur eine kurze Länge (z.B. 4k) benötigen, was die Anpassungskosten erheblich reduziert. Zweitens wird das Trainingsverfahren auf dem kurzen Trainingskontextfenster nur einmal durchgeführt, und wir können bei der Inferenz verschiedene Evaluationskontextfenster unterstützen. Drittens führen wir in E²-LLM, basierend auf RoPE-Positions-Einbettungen, zwei verschiedene Augmentationsmethoden für die Skalen- und Positionsindexparameter für verschiedene Trainingsbeispiele ein. Dies zielt darauf ab, das Modell robuster gegenüber den unterschiedlichen relativen Unterschieden zu machen, wenn bei der Inferenz die beliebige Kontextlänge direkt interpoliert wird. Umfassende experimentelle Ergebnisse auf mehreren Benchmark-Datensätzen demonstrieren die Wirksamkeit unseres E²-LLM bei anspruchsvollen Aufgaben mit langem Kontext.
Trotz der allgemeinen Fähigkeiten großer vortrainierter Sprachmodelle profitieren sie durchweg von weiterer Anpassung, um gewünschte Verhaltensweisen besser zu erreichen. Das Feinabstimmen dieser Modelle ist jedoch zunehmend ressourcenintensiv geworden oder unmöglich, wenn die Modellgewichte privat sind. Wir stellen Proxy-Tuning vor, einen leichtgewichtigen Dekodierungszeit-Algorithmus, der auf Black-Box-Sprachmodellen operiert, um das Ergebnis einer direkten Feinabstimmung des Modells zu erzielen, jedoch nur durch den Zugriff auf dessen Vorhersagen über das Ausgabevokabular. Unsere Methode stimmt stattdessen ein kleineres Sprachmodell fein und wendet dann die Differenz zwischen den Vorhersagen des feinabgestimmten und des nicht feinabgestimmten kleinen Modells an, um die ursprünglichen Vorhersagen des Basismodells in Richtung der Feinabstimmung zu verschieben, während die Vorteile des groß angelegten Vortrainings erhalten bleiben. In Experimenten, bei denen wir Proxy-Tuning auf Llama2-70B mit Proxies von nur 7B Größe anwenden, können wir 88 % der Lücke zwischen Llama2-70B und seiner tatsächlich feinabgestimmten Chat-Version schließen, wenn wir sie über Wissens-, Denk- und Sicherheitsbenchmarks bewerten. Interessanterweise sind Proxy-abgestimmte Modelle bei Tests auf TruthfulQA tatsächlich wahrheitsgetreuer als direkt feinabgestimmte Modelle, möglicherweise weil die Dekodierungszeit-Anleitung das faktische Wissen des Modells besser bewahrt. Wir demonstrieren dann die Allgemeingültigkeit von Proxy-Tuning, indem wir es für die Domänenanpassung auf Code und die aufgabenbezogene Feinabstimmung auf Frage-Antwort- und Matheprobleme anwenden. Unsere Arbeit zeigt das Potenzial auf, kleine feinabgestimmte Sprachmodelle zu verwenden, um große, möglicherweise proprietäre Sprachmodelle durch Dekodierungszeit-Anleitung effizient anzupassen.
Generative Modelle haben eine bemerkenswerte Fähigkeit bei der Synthese von hochwertigen Texten, Bildern und Videos gezeigt. Für die Videogenerierung zeigen zeitgenössische Text-zu-Video-Modelle beeindruckende Fähigkeiten, indem sie visuell beeindruckende Videos erstellen. Dennoch stellt die Bewertung solcher Videos erhebliche Herausforderungen dar. Die aktuelle Forschung verwendet überwiegend automatisierte Metriken wie FVD, IS und CLIP Score. Diese Metriken bieten jedoch eine unvollständige Analyse, insbesondere in der zeitlichen Bewertung von Videoinhalten, und sind daher unzuverlässige Indikatoren für die tatsächliche Videoqualität. Darüber hinaus können Benutzerstudien zwar das menschliche Wahrnehmungsvermögen genau widerspiegeln, sie werden jedoch durch ihren zeitaufwändigen und mühsamen Charakter behindert, wobei die Ergebnisse oft von subjektiven Verzerrungen beeinträchtigt sind. In diesem Artikel untersuchen wir die Grenzen der bestehenden Metriken und führen eine neuartige Bewertungspipeline ein, den Text-to-Video Score (T2VScore). Diese Metrik integriert zwei entscheidende Kriterien: (1) Text-Video-Ausrichtung, die die Treue des Videos bei der Darstellung der gegebenen Textbeschreibung überprüft, und (2) Videoqualität, die die Gesamtproduktionsqualität des Videos mit einem Expertengremium bewertet. Darüber hinaus stellen wir den TVGE-Datensatz vor, um die vorgeschlagenen Metriken zu bewerten und zukünftige Verbesserungen zu erleichtern. Dieser Datensatz sammelt menschliche Bewertungen von 2.543 Text-zu-Video-generierten Videos basierend auf den beiden Kriterien. Experimente mit dem TVGE-Datensatz demonstrieren die Überlegenheit des vorgeschlagenen T2VScores bei der Bereitstellung einer besseren Metrik für die Text-zu-Video-Generierung.
Große Sprachmodelle (LLMs) sind dafür bekannt, nur begrenzte Extrapolationsfähigkeiten über ihren vortrainierten Kontextfenster hinaus zu besitzen, was ihre Anwendung bei nachgelagerten Aufgaben mit umfangreichen Eingaben einschränkt. Aktuelle Studien haben versucht, das Kontextfenster von LLMs durch die Modifikation von Rotary Position Embedding (RoPE) zu erweitern, einer weit verbreiteten Methode zur Positionskodierung, die von bekannten LLMs wie LLaMA, PaLM und GPT-NeoX verwendet wird. Bisherige Ansätze wie Position Interpolation (PI) und YaRN sind jedoch ressourcenintensiv und es fehlen vergleichende Experimente, um ihre Anwendbarkeit zu bewerten. In dieser Arbeit identifizieren wir die inhärente Notwendigkeit, dass die Aufmerksamkeitsentropie von LLMs (d.h. die Informationsentropie der Aufmerksamkeitswerte) stabil bleiben muss, und führen eine neuartige Erweiterung von RoPE ein, die die Anpassung der Basisfrequenz von RoPE mit der Skalierung der Aufmerksamkeitslogits kombiniert, um LLMs effizient an ein größeres Kontextfenster anzupassen. Wir validieren die Überlegenheit unserer Methode sowohl in Bezug auf die Feinabstimmungsleistung als auch auf die Robustheit bei verschiedenen Kontextfenstergrößen in verschiedenen kontextintensiven Aufgaben. Bemerkenswerterweise erweitert unsere Methode das Kontextfenster von LLaMA-2-7B-Chat auf 16.384 mit nur 100 Beispielen und 6 Trainingsschritten, was eine außergewöhnliche Effizienz zeigt. Abschließend untersuchen wir auch, wie Datenzusammensetzungen und Trainingscurricula die Erweiterung des Kontextfensters für spezifische nachgelagerte Aufgaben beeinflussen, und schlagen vor, LLMs mit langen Konversationen zu feinabzustimmen, als einen guten Ausgangspunkt. Wir veröffentlichen unseren Code und die SFT-Daten unter https://github.com/GAIR-NLP/Entropy-ABF.
In den letzten Jahren haben maschinelle Lernmodelle wie DALL-E, Craiyon und Stable Diffusion erhebliche Aufmerksamkeit für ihre Fähigkeit erlangt, hochauflösende Bilder aus prägnanten Beschreibungen zu generieren. Gleichzeitig zeigt das Quantencomputing vielversprechende Fortschritte, insbesondere im Bereich des Quantenmaschinenlernens, das Quantenmechanik nutzt, um den steigenden Rechenanforderungen traditioneller maschineller Lernalgorithmen gerecht zu werden. Dieses Papier untersucht die Integration von Quantenmaschinenlernen und variablen Quantenschaltkreisen, um die Effizienz diffusionsbasierter Bildgenerierungsmodelle zu steigern. Insbesondere gehen wir auf zwei Herausforderungen klassischer Diffusionsmodelle ein: ihre geringe Abtastgeschwindigkeit und den umfangreichen Parameterbedarf. Wir stellen zwei Quantendiffusionsmodelle vor und vergleichen ihre Fähigkeiten mit ihren klassischen Gegenstücken anhand von MNIST-Ziffern, Fashion MNIST und CIFAR-10. Unsere Modelle übertreffen die klassischen Modelle mit ähnlichen Parameteranzahlen in Bezug auf die Leistungsmetriken FID, SSIM und PSNR. Darüber hinaus führen wir eine Einheitliche Einzelabtastarchitektur für Konsistenzmodelle ein, die den Diffusionsprozess in einem einzigen Schritt kombiniert und damit eine schnelle Einzelschritt-Bildgenerierung ermöglicht.
Trotz der jüngsten bemerkenswerten Fortschritte im Bereich der generativen Modellierung bleibt die effiziente Erzeugung hochwertiger 3D-Assets aus textuellen Eingaben eine schwierige Aufgabe. Eine zentrale Herausforderung liegt in der Datenknappheit: Die umfangreichsten 3D-Datensätze umfassen lediglich Millionen von Assets, während ihre 2D-Pendants Milliarden von Text-Bild-Paaren enthalten. Um dies zu bewältigen, schlagen wir einen neuartigen Ansatz vor, der die Leistungsfähigkeit großer, vortrainierter 2D-Diffusionsmodelle nutzt. Konkret feintunet unser Ansatz, HexaGen3D, ein vortrainiertes Text-zu-Bild-Modell, um gemeinsam sechs orthografische Projektionen und das entsprechende latente Triplane vorherzusagen. Diese latenten Repräsentationen werden anschließend dekodiert, um ein texturiertes Mesh zu generieren. HexaGen3D erfordert keine pro-Probe-Optimierung und kann in 7 Sekunden hochwertige und vielfältige Objekte aus textuellen Eingaben inferieren, was im Vergleich zu bestehenden Ansätzen deutlich bessere Qualitäts-Latenz-Kompromisse bietet. Darüber hinaus zeigt HexaGen3D eine starke Generalisierungsfähigkeit für neue Objekte oder Kompositionen.