Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Ein großer Kontextfenster ist eine wünschenswerte Eigenschaft in großen Sprachmodellen (LLMs). Aufgrund der hohen Feinabstimmungskosten, der Knappheit langer Texte und der katastrophalen Werte, die durch neue Token-Positionen eingeführt werden, sind die derzeit erweiterten Kontextfenster jedoch auf etwa 128k Token begrenzt. Dieses Papier stellt LongRoPE vor, das erstmals das Kontextfenster vortrainierter LLMs auf beeindruckende 2048k Token erweitert, mit bis zu nur 1k Feinabstimmungsschritten bei Trainingslängen innerhalb von 256k, während die Leistung im ursprünglichen kurzen Kontextfenster erhalten bleibt. Dies wird durch drei Schlüsselinnovationen erreicht: (i) Wir identifizieren und nutzen zwei Formen von Nicht-Uniformitäten in der Positionsinterpolation durch eine effiziente Suche, was eine bessere Initialisierung für die Feinabstimmung bietet und eine 8-fache Erweiterung in Szenarien ohne Feinabstimmung ermöglicht; (ii) Wir führen eine progressive Erweiterungsstrategie ein, die zunächst ein 256k langes LLM feinabstimmt und dann eine zweite Positionsinterpolation auf dem feinabgestimmten erweiterten LLM durchführt, um ein 2048k Kontextfenster zu erreichen; (iii) Wir passen LongRoPE auf 8k Länge neu an, um die Leistung im kurzen Kontextfenster wiederherzustellen. Umfangreiche Experimente mit LLaMA2 und Mistral über verschiedene Aufgaben hinweg demonstrieren die Wirksamkeit unserer Methode. Modelle, die über LongRoPE erweitert wurden, behalten die ursprüngliche Architektur mit geringfügigen Modifikationen der Positions-Einbettung bei und können die meisten bestehenden Optimierungen wiederverwenden.
Die heutigen Deep-Learning-Methoden konzentrieren sich darauf, die am besten geeigneten Zielfunktionen zu entwerfen, damit die Vorhersageergebnisse des Modells möglichst nahe an der Grundwahrheit liegen. Gleichzeitig muss eine geeignete Architektur entwickelt werden, die den Erwerb ausreichender Informationen für die Vorhersage ermöglicht. Bestehende Methoden ignorieren die Tatsache, dass bei der schichtweisen Merkmalsextraktion und räumlichen Transformation der Eingabedaten eine große Menge an Informationen verloren geht. Dieses Papier wird die wichtigen Fragen des Datenverlusts, wenn Daten durch tiefe Netzwerke übertragen werden, nämlich den Informationsengpass und reversible Funktionen, eingehend untersuchen. Wir haben das Konzept der programmierbaren Gradienteninformation (PGI) vorgeschlagen, um den verschiedenen Anforderungen tiefer Netzwerke zur Erreichung mehrerer Ziele gerecht zu werden. PGI kann vollständige Eingabeinformationen für die Zielaufgabe bereitstellen, um die Zielfunktion zu berechnen, sodass zuverlässige Gradienteninformationen zur Aktualisierung der Netzwerkgewichte erhalten werden können. Darüber hinaus wurde eine neue leichte Netzwerkarchitektur – das Generalized Efficient Layer Aggregation Network (GELAN) – basierend auf der Gradientenpfadplanung entwickelt. Die Architektur von GELAN bestätigt, dass PGI bei leichten Modellen überlegene Ergebnisse erzielt hat. Wir haben das vorgeschlagene GELAN und PGI anhand der Objekterkennung auf dem MS-COCO-Datensatz überprüft. Die Ergebnisse zeigen, dass GELAN nur herkömmliche Faltungsoperatoren verwendet, um eine bessere Parameterausnutzung als die auf Tiefenweise-Faltung basierenden State-of-the-Art-Methoden zu erreichen. PGI kann für eine Vielzahl von Modellen, von leicht bis groß, verwendet werden. Es kann verwendet werden, um vollständige Informationen zu erhalten, sodass von Grund auf trainierte Modelle bessere Ergebnisse erzielen können als State-of-the-Art-Modelle, die mit großen Datensätzen vortrainiert wurden. Die Vergleichsergebnisse sind in Abbildung 1 dargestellt. Die Quellcodes sind unter: https://github.com/WongKinYiu/yolov9 verfügbar.
Wir präsentieren das Aria Everyday Activities (AEA) Dataset, ein egozentrisches, multimodales Open-Dataset, das mit den Project Aria Brillen aufgezeichnet wurde. AEA umfasst 143 Sequenzen alltäglicher Aktivitäten, die von mehreren Trägern an fünf geografisch unterschiedlichen Innenräumen erfasst wurden. Jede Aufzeichnung enthält multimodale Sensordaten, die durch die Project Aria Brillen aufgezeichnet wurden. Darüber hinaus bietet AEA maschinelle Wahrnehmungsdaten, darunter hochfrequente global ausgerichtete 3D-Trajektorien, Punktwolken der Szene, pro Frame ausgerichtete 3D-Blickvektoren und zeitlich synchronisierte Sprachtranskriptionen. In diesem Artikel zeigen wir einige beispielhafte Forschungsanwendungen, die durch dieses Dataset ermöglicht werden, darunter neuronale Szenenrekonstruktion und promptgesteuerte Segmentierung. AEA ist ein Open-Source-Dataset, das unter projectaria.com heruntergeladen werden kann. Wir stellen auch Open-Source-Implementierungen und Beispiele zur Nutzung des Datasets in den Project Aria Tools bereit.
Wir schlagen eine Diffusionsdestillationsmethode vor, die einen neuen Stand der Technik in der Ein-Schritt/Wenige-Schritte-Text-zu-Bild-Generierung bei 1024px auf Basis von SDXL erreicht. Unsere Methode kombiniert progressive und adversarische Destillation, um ein Gleichgewicht zwischen Qualität und Modusabdeckung zu erreichen. In diesem Artikel diskutieren wir die theoretische Analyse, das Diskriminator-Design, die Modellformulierung und die Trainingsmethoden. Wir stellen unsere destillierten SDXL-Lightning-Modelle sowohl als LoRA als auch als vollständige UNet-Gewichte als Open Source zur Verfügung.
Zeitgenössische Modelle zur Bildgenerierung zeigen bemerkenswerte Qualität und Vielseitigkeit. Angesichts dieser Vorteile nutzt die Forschungsgemeinschaft sie um, um Videos zu erzeugen. Da Videoinhalte stark redundant sind, argumentieren wir, dass die naive Übertragung von Fortschritten aus Bildgenerierungsmodellen in den Bereich der Videogenerierung die Bewegungsgenauigkeit, die visuelle Qualität verringert und die Skalierbarkeit beeinträchtigt. In dieser Arbeit entwickeln wir Snap Video, ein videoorientiertes Modell, das diese Herausforderungen systematisch angeht. Dazu erweitern wir zunächst das EDM-Framework, um räumlich und zeitlich redundante Pixel zu berücksichtigen und die Videogenerierung natürlich zu unterstützen. Zweitens zeigen wir, dass ein U-Net – ein bewährtes Werkzeug in der Bildgenerierung – bei der Videogenerierung schlecht skaliert und erheblichen Rechenaufwand erfordert. Daher schlagen wir eine neue transformerbasierte Architektur vor, die 3,31-mal schneller trainiert als U-Nets (und bei der Inferenz etwa 4,5-mal schneller ist). Dies ermöglicht es uns, erstmals effizient ein Text-zu-Video-Modell mit Milliarden von Parametern zu trainieren, state-of-the-art Ergebnisse in einer Reihe von Benchmarks zu erreichen und Videos mit deutlich höherer Qualität, zeitlicher Konsistenz und Bewegungsvielfalt zu erzeugen. Benutzerstudien zeigten, dass unser Modell mit großem Abstand gegenüber den neuesten Methoden bevorzugt wurde. Weitere Informationen finden Sie auf unserer Website unter https://snap-research.github.io/snapvideo/.
Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung revolutioniert. Die effektive Einbindung komplexer und potenziell verrauschter Benutzerinteraktionsdaten bleibt jedoch eine Herausforderung. Um dies zu adressieren, schlagen wir User-LLM vor, ein neuartiges Framework, das Benutzer-Embeddings nutzt, um LLMs zu kontextualisieren. Diese Embeddings, die durch selbstüberwachtes Pretraining aus diversen Benutzerinteraktionen destilliert werden, erfassen latente Benutzerpräferenzen und deren Entwicklung über die Zeit. Wir integrieren diese Benutzer-Embeddings mit LLMs durch Cross-Attention und Soft-Prompting, wodurch LLMs dynamisch an den Benutzerkontext angepasst werden können. Unsere umfassenden Experimente auf den Datensätzen MovieLens, Amazon Review und Google Local Review zeigen signifikante Leistungssteigerungen über verschiedene Aufgaben hinweg. Insbesondere übertrifft unser Ansatz die textbasierte Kontextualisierung bei Aufgaben mit langen Sequenzen und Aufgaben, die ein tiefes Benutzerverständnis erfordern, während er gleichzeitig recheneffizient ist. Wir integrieren weiterhin Perceiver-Schichten, um die Integration zwischen Benutzer-Encodern und LLMs zu optimieren und den Rechenaufwand zu reduzieren.
Aktuelle Arbeiten haben gezeigt, dass Deep Reinforcement Learning-Agenten Schwierigkeiten haben, ihre Netzwerkparameter effektiv zu nutzen. Wir nutzen frühere Erkenntnisse über die Vorteile von sparsamen Trainingsmethoden und demonstrieren, dass graduelles Magnitude Pruning es Agenten ermöglicht, die Effektivität der Parameter zu maximieren. Dies führt zu Netzwerken, die dramatische Leistungsverbesserungen gegenüber traditionellen Netzwerken erzielen und eine Art „Skalierungsgesetz“ aufweisen, wobei nur ein kleiner Bruchteil der gesamten Netzwerkparameter verwendet wird.
Es wurde kürzlich gezeigt, dass Adversarial Attacks auf große Sprachmodelle (LLMs) das Modell "jailbreaken" können, um es dazu zu bringen, schädliche Aussagen zu machen. In dieser Arbeit argumentieren wir, dass das Spektrum der Adversarial Attacks auf LLMs weitaus größer ist als lediglich Jailbreaking. Wir bieten einen umfassenden Überblick über mögliche Angriffsflächen und Angriffsziele. Basierend auf einer Reihe konkreter Beispiele diskutieren, kategorisieren und systematisieren wir Angriffe, die unterschiedliche unbeabsichtigte Verhaltensweisen erzwingen, wie Fehlleitung, Modellkontrolle, Denial-of-Service oder Datenextraktion. Wir analysieren diese Angriffe in kontrollierten Experimenten und stellen fest, dass viele von ihnen aus der Praxis stammen, LLMs mit Programmierfähigkeiten vorzutrainieren, sowie aus der fortbestehenden Existenz merkwürdiger "Glitch"-Tokens in gängigen LLM-Vokabularen, die aus Sicherheitsgründen entfernt werden sollten.
Mit der Entwicklung von Diffusionsmodellen hat der textgesteuerte Bildstiltransfer hochwertige und kontrollierbare Syntheseergebnisse demonstriert. Die Nutzung von Text für den vielfältigen Musikstiltransfer stellt jedoch erhebliche Herausforderungen dar, vor allem aufgrund der begrenzten Verfügbarkeit von passenden Audio-Text-Datensätzen. Musik, als abstrakte und komplexe Kunstform, weist Variationen und Feinheiten selbst innerhalb desselben Genres auf, was präzise textuelle Beschreibungen erschwert. Dieses Papier präsentiert einen Ansatz zum Musikstiltransfer, der musikalische Attribute effektiv mit minimalen Daten erfasst. Wir führen ein neuartiges zeitvariantes textuelles Inversionsmodul ein, um Mel-Spektrogramm-Merkmale auf verschiedenen Ebenen präzise zu erfassen. Während der Inferenz schlagen wir eine bias-reduzierte Stilisierungstechnik vor, um stabile Ergebnisse zu erzielen. Experimentelle Ergebnisse zeigen, dass unsere Methode den Stil spezifischer Instrumente übertragen sowie natürliche Klänge einbinden kann, um Melodien zu komponieren. Beispiele und Quellcode sind unter https://lsfhuihuiff.github.io/MusicTI/ verfügbar.
Multimodales Denken stellt eine entscheidende Fähigkeit für große Vision-Sprach-Modelle (LVLMs) dar. Die Integration mit domänenspezifischen Sprachen (DSL), die präzise visuelle Darstellungen bieten, ermöglicht es diesen Modellen, in komplexen und fachspezifischen Bereichen präzisere Schlussfolgerungen zu ziehen. Allerdings stößt die herkömmliche Chain-of-Thought (CoT)-Prompting-Methode auf Schwierigkeiten, die spezifischen Stärken visueller und DSL-Darstellungen effektiv zu nutzen, hauptsächlich aufgrund ihrer unterschiedlichen Denkmechanismen. Zudem gelingt es ihr oft nicht, kritische Schritte in mehrstufigen Denkaufgaben angemessen zu berücksichtigen. Um diese Herausforderungen zu bewältigen, führen wir die Bi-Modale Verhaltensabstimmung (BBA)-Prompting-Methode ein, die darauf abzielt, das Potenzial von DSL zur Verbesserung komplexer multimodaler Denkaufgaben voll auszuschöpfen. Diese Methode leitet LVLMs zunächst an, separate Denkketten für visuelle und DSL-Darstellungen zu erstellen. Anschließend werden diese Ketten durch die Behebung von Inkonsistenzen abgestimmt, wodurch eine kohärente Integration von Verhaltensweisen aus verschiedenen Modalitäten erreicht wird. Unsere Experimente zeigen, dass BBA die Leistung von GPT-4V(ision) bei der Lösung geometrischer Probleme (28,34 % auf 34,22 %), der Vorhersage von Positionsvorteilen im Schach (42,08 % auf 46,99 %) und der Vorhersage molekularer Eigenschaften (77,47 % auf 83,52 %) erheblich verbessert.
Der Aufmerksamkeitsmechanismus war entscheidend für Bilddiffusionsmodelle, jedoch begrenzt deren quadratische Rechenkomplexität die Größen der Bilder, die wir innerhalb angemessener Zeit- und Speicherbeschränkungen verarbeiten können. Diese Arbeit untersucht die Bedeutung von dichter Aufmerksamkeit in generativen Bildmodellen, die oft redundante Merkmale enthalten, was sie für spärlichere Aufmerksamkeitsmechanismen geeignet macht. Wir schlagen eine neuartige, trainingsfreie Methode namens ToDo vor, die sich auf das Token-Downsampling von Schlüssel- und Wert-Tokens stützt, um die Inferenz von Stable Diffusion um bis zu 2x für gängige Größen und bis zu 4,5x oder mehr für hohe Auflösungen wie 2048x2048 zu beschleunigen. Wir zeigen, dass unser Ansatz bisherige Methoden in der Balance zwischen effizientem Durchsatz und Bildtreue übertrifft.
Die Steuerung der Generierungsergebnisse modernster Diffusions- und Flow-Matching (FM)-Modelle, ohne ein aufgabenspezifisches Modell neu trainieren zu müssen, eröffnet ein leistungsstarkes Werkzeug zur Lösung inverser Probleme, bedingter Generierung und kontrollierter Generierung im Allgemeinen. In dieser Arbeit stellen wir D-Flow vor, ein einfaches Framework zur Steuerung des Generierungsprozesses durch Differenzierung entlang des Flusses, wobei der Ausgangspunkt (Rauschen) optimiert wird. Wir begründen diesen Ansatz mit unserer zentralen Beobachtung, dass bei Diffusion/FM-Modellen, die mit Gaußschen Wahrscheinlichkeitspfaden trainiert wurden, die Differenzierung durch den Generierungsprozess den Gradienten auf die Datenmannigfaltigkeit projiziert und somit implizit das Prior in den Optimierungsprozess einbringt. Wir validieren unser Framework an linearen und nichtlinearen Problemen der kontrollierten Generierung, einschließlich inverser Probleme bei Bildern und Audio sowie der bedingten Molekülgenerierung, und erreichen dabei state-of-the-art Leistungen in allen Bereichen.
Drafting-then-verifying-Decodierungsmethoden wie spekulatives Decodieren sind weit verbreitete, trainingsfreie Methoden, um die Inferenz großer Sprachmodelle (LLMs) zu beschleunigen. Anstatt einen autoregressiven Prozess zur sequenziellen Dekodierung von Tokens zu verwenden, erstellt das spekulative Decodieren zunächst Entwürfe mit einem effizienten kleinen Modell. Anschließend müssen die LLMs eine Überprüfung und Korrektur in nicht-autoregressiver Weise durchführen, um den Zeitaufwand zu minimieren. Die Generierung längerer Entwürfe kann zu noch signifikanteren Beschleunigungen führen, sofern sie verifiziert werden, verursacht jedoch auch erhebliche Versuchs- und Fehlerkosten, wenn sie scheitert. Aufgrund der hohen Wahrscheinlichkeit von Verifizierungsfehlern können bestehende Decodierungsmethoden nicht zu viel Inhalt auf einmal für die Überprüfung erstellen, was zu einer suboptimalen Inferenzbeschleunigung führt. In diesem Artikel stellen wir Ouroboros vor, das einen Phrasenkandidatenpool aus dem Verifizierungsprozess der LLMs erstellt, um Kandidaten für die Entwurfsgenerierung des kleinen Modells bereitzustellen. Dadurch kann Ouroboros die Effizienz und Wirksamkeit der initialen Entwürfe weiter verbessern. Die experimentellen Ergebnisse typischer Textgenerierungsaufgaben zeigen, dass Ouroboros Beschleunigungen von bis zu 1,9x und 2,8x im Vergleich zu Lookahead-Decodierung und spekulativer Decodierung erreicht. Der Quellcode von Ouroboros ist unter https://github.com/thunlp/Ouroboros verfügbar.