Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Autoregressive Modelle haben sich als ein leistungsstarker Ansatz für die visuelle Generierung erwiesen, leiden jedoch aufgrund ihres sequenziellen Token-für-Token-Vorhersageprozesses unter langsamer Inferenzgeschwindigkeit. In diesem Papier schlagen wir einen einfachen, aber effektiven Ansatz für die parallelisierte autoregressive visuelle Generierung vor, der die Generierungseffizienz verbessert, während die Vorteile des autoregressiven Modellierens erhalten bleiben. Unser wichtigstes Erkenntnis ist, dass die parallele Generierung von visuellen Tokenabhängigkeiten abhängt - Tokens mit schwachen Abhängigkeiten können parallel generiert werden, während stark abhängige benachbarte Tokens schwer zusammen generiert werden können, da ihre unabhängige Abtastung zu Inkonsistenzen führen kann. Basierend auf dieser Beobachtung entwickeln wir eine parallele Generierungsstrategie, die entfernte Tokens mit schwachen Abhängigkeiten parallel generiert, während die sequenzielle Generierung für stark abhängige lokale Tokens beibehalten wird. Unser Ansatz kann nahtlos in Standard-Autoregressive Modelle integriert werden, ohne die Architektur oder den Tokenizer zu ändern. Experimente auf ImageNet und UCF-101 zeigen, dass unsere Methode eine 3,6-fache Beschleunigung bei vergleichbarer Qualität und bis zu 9,5-fache Beschleunigung bei minimaler Qualitätsverschlechterung bei sowohl Bild- als auch Videogenerierungsaufgaben erreicht. Wir hoffen, dass diese Arbeit zukünftige Forschung in effizienter visueller Generierung und vereinheitlichtem autoregressivem Modellieren inspirieren wird. Projektseite: https://epiphqny.github.io/PAR-project.
Die Verbesserung der Fähigkeit großer Sprachmodelle (LLMs) zur mehrstufigen Argumentation mit offline Verstärkungslernen (RL) ist entscheidend, um sie schnell an komplexe Aufgaben anzupassen. Während die Direkte Präferenzoptimierung (DPO) vielversprechend ist, um LLMs mit menschlichen Präferenzen in Einklang zu bringen, ist sie weniger geeignet für mehrstufige Argumentationsaufgaben, da (1) DPO auf gepaarten Präferenzdaten beruht, die für mehrstufige Argumentationsaufgaben nicht leicht verfügbar sind, und (2) sie alle Token gleich behandelt, was sie für die Kreditzuweisung bei mehrstufigen Argumentationsaufgaben, die oft mit spärlichen Belohnungen einhergehen, ineffektiv macht. In dieser Arbeit schlagen wir OREO (Offline Reasoning Optimization) vor, eine Methode des offline RL zur Verbesserung der mehrstufigen Argumentation von LLMs. Aufbauend auf Erkenntnissen früherer Arbeiten des Maximum-Entropy-Verstärkungslernens lernt es gemeinsam ein Richtlinienmodell und eine Wertefunktion, indem es die weiche Bellman-Gleichung optimiert. Wir zeigen grundsätzlich, dass es den Bedarf an Sammlung von paarweisen Daten reduziert und eine bessere Kreditzuweisung ermöglicht. Empirisch übertrifft OREO bestehende offline Lernmethoden bei mehrstufigen Argumentations-Benchmarks, einschließlich mathematischer Argumentationsaufgaben (GSM8K, MATH) und der Steuerung verkörperter Agenten (ALFWorld). Der Ansatz kann auf ein Mehr-Iterations-Framework erweitert werden, wenn zusätzliche Ressourcen verfügbar sind. Darüber hinaus kann die gelernte Wertefunktion genutzt werden, um die Baum-Suche kostenlos zu führen, was die Leistung während der Testzeit weiter steigern kann.
Diffusion Transformers (DiT) sind zu einer führenden Architektur in der Bildgenerierung geworden. Die quadratische Komplexität der Aufmerksamkeitsmechanismen, die für die Modellierung der tokenweisen Beziehungen verantwortlich sind, führt jedoch zu erheblicher Latenz bei der Generierung von hochauflösenden Bildern. Um dieses Problem zu lösen, zielen wir in diesem Papier auf einen linearen Aufmerksamkeitsmechanismus ab, der die Komplexität der vortrainierten DiTs auf lineare Weise reduziert. Wir beginnen unsere Untersuchung mit einer umfassenden Zusammenfassung bestehender effizienter Aufmerksamkeitsmechanismen und identifizieren vier entscheidende Faktoren, die für eine erfolgreiche Linearisierung vortrainierter DiTs entscheidend sind: Lokalität, Formulierungskonsistenz, hochrangige Aufmerksamkeitskarten und Merkmalsintegrität. Basierend auf diesen Erkenntnissen stellen wir eine konvolutionsähnliche lokale Aufmerksamkeitsstrategie namens CLEAR vor, die die Merkmalsinteraktionen auf ein lokales Fenster um jeden Abfrage-Token beschränkt und so eine lineare Komplexität erreicht. Unsere Experimente zeigen, dass wir durch Feinabstimmung der Aufmerksamkeitsschicht an lediglich 10.000 selbstgenerierten Beispielen für 10.000 Iterationen effektiv Wissen von einem vortrainierten DiT auf ein Schülermodell mit linearer Komplexität übertragen können, wodurch Ergebnisse erzielt werden, die mit dem Lehrermodell vergleichbar sind. Gleichzeitig reduziert es die Aufmerksamkeitsberechnungen um 99,5 % und beschleunigt die Generierung um das 6,3-fache für die Erzeugung von 8K-Auflösungsbildern. Darüber hinaus untersuchen wir vorteilhafte Eigenschaften in den destillierten Aufmerksamkeitsschichten, wie beispielsweise Zero-Shot-Verallgemeinerung über verschiedene Modelle und Plugins sowie verbesserte Unterstützung für Multi-GPU-Parallelinferenz. Modelle und Codes sind hier verfügbar: https://github.com/Huage001/CLEAR.
Der Key-Value (KV) Cache ist zum Engpass von LLMs für die Generierung von Langkontexten geworden. Trotz zahlreicher Bemühungen in diesem Bereich wird die Optimierung für die Decodierungsphase im Allgemeinen vernachlässigt. Wir sind jedoch der Meinung, dass eine solche Optimierung entscheidend ist, insbesondere für Aufgaben zur Generierung langer Ausgaben, basierend auf den folgenden zwei Beobachtungen: (i) Übermäßige Kompression während der Vorausfüllphase, die einen spezifischen vollständigen Kontext erfordert, beeinträchtigt das Verständnis der Begründungsaufgabe; (ii) Abweichungen von schwerwiegenden Treffern treten bei Begründungsaufgaben mit langen Ausgaben auf. Daher wird SCOPE, ein einfaches, aber effizientes Framework, das die KV-Cache-Optimierung während der Vorausfüll- und Decodierungsphasen getrennt durchführt, vorgestellt. Speziell wird der KV-Cache während der Vorausfüllphase erhalten, um die wesentlichen Informationen zu bewahren, während eine neuartige Strategie auf Schiebebasis vorgeschlagen wird, um wesentliche schwerwiegende Treffer für die Decodierungsphase auszuwählen. Der Speicherverbrauch und der Speichertransfer werden weiter optimiert, indem adaptive und diskontinuierliche Strategien verwendet werden. Umfangreiche Experimente mit LongGenBench zeigen die Wirksamkeit und Verallgemeinerung von SCOPE sowie dessen Kompatibilität als Plug-In für andere Methoden zur KV-Kompression nur während der Vorausfüllung.
Wir schlagen vor, hochwertige und synchronisierte Audioinhalte unter Verwendung eines neuartigen multimodalen gemeinsamen Trainingsrahmens MMAudio zu synthetisieren. Im Gegensatz zum Training mit nur einer Modalität, das nur auf (begrenzten) Video-Daten basiert, wird MMAudio gemeinsam mit umfangreicheren, leicht verfügbaren Text-Audio-Daten trainiert, um das Generieren semantisch ausgerichteter hochwertiger Audio-Samples zu erlernen. Darüber hinaus verbessern wir die Audio-Visuelle Synchronisation mit einem bedingten Synchronisationsmodul, das Video-Bedingungen mit Audio-Latenzen auf Frame-Ebene abgleicht. Mit einem Trainingsziel zur Flussanpassung erreicht MMAudio einen neuen Stand der Technik von Video-zu-Audio unter öffentlichen Modellen in Bezug auf Audioqualität, semantische Ausrichtung und Audio-Visuelle Synchronisation, bei gleichzeitig geringer Inferenzzeit (1,23s zur Generierung eines 8s-Clips) und nur 157M Parametern. MMAudio erzielt auch überraschend wettbewerbsfähige Leistungen bei der Text-zu-Audio-Generierung und zeigt, dass das gemeinsame Training die Leistung bei einer einzelnen Modalität nicht beeinträchtigt. Der Code und eine Demo sind verfügbar unter: https://hkchengrex.github.io/MMAudio
Multimodale große Sprachmodelle (MLLMs) zeichnen sich durch die Erstellung hochgradig detaillierter Bildunterschriften aus, produzieren jedoch häufig Halluzinationen. Unsere Analyse zeigt, dass bestehende Methoden zur Halluzinationserkennung Schwierigkeiten mit detaillierten Bildunterschriften haben. Dies führen wir darauf zurück, dass MLLMs zunehmend auf ihren generierten Text angewiesen sind, anstatt auf das Eingabebild, wenn die Sequenzlänge zunimmt. Um dieses Problem anzugehen, schlagen wir einen Multiagenten-Ansatz vor, der die Zusammenarbeit von LLM-MLLM nutzt, um gegebene Bildunterschriften zu korrigieren. Darüber hinaus führen wir einen Bewertungsrahmen und einen Benchmark-Datensatz ein, um die systematische Analyse detaillierter Bildunterschriften zu erleichtern. Unsere Experimente zeigen, dass unsere vorgeschlagene Bewertungsmethode besser mit menschlichen Urteilen über Faktizität übereinstimmt als bestehende Metriken und dass bestehende Ansätze zur Verbesserung der Faktizität von MLLM möglicherweise bei hyperdetaillierten Bildunterschriftenaufgaben nicht ausreichen. Im Gegensatz dazu verbessert unsere vorgeschlagene Methode signifikant die faktische Genauigkeit von Bildunterschriften, sogar diejenigen, die von GPT-4V generiert wurden. Schließlich heben wir eine Einschränkung der VQA-zentrierten Benchmarking hervor, indem wir zeigen, dass die Leistung eines MLLM auf VQA-Benchmarks möglicherweise nicht mit seiner Fähigkeit korreliert, detaillierte Bildunterschriften zu generieren.
Die Quantisierung hat sich zu einer der effektivsten Methoden entwickelt, um LLMs auf kleinere Größen zu komprimieren. Allerdings zeigen die bestehenden Quantisierungslösungen immer noch Einschränkungen in Form von entweder nicht zu vernachlässigenden Genauigkeitsverlusten oder Systemineffizienz. In diesem Paper führen wir eine umfassende Analyse der allgemeinen Quantisierungsprinzipien durch, um deren Auswirkungen auf das Dreieck aus Genauigkeit, Speicherverbrauch und Systemeffizienz zu untersuchen. Wir schlagen MixLLM vor, das den neuen Optimierungsbereich der gemischten Präzisionsquantisierung zwischen Ausgabemerkmale erkundet, basierend auf der Erkenntnis, dass unterschiedliche Ausgabemerkmale im Modell unterschiedlich wichtig sind. MixLLM identifiziert die Ausgabemerkmale mit hoher Relevanz im globalen Kontext, anstatt innerhalb jeder einzelnen Schicht, und weist effektiv den Ausgabemerkmalen mit dem größten Bedarf eine größere Bit-Breite zu, um gute Genauigkeit bei geringem Speicherverbrauch zu erreichen. Wir präsentieren den optimalen Quantisierungskonfigurationspunkt des Algorithmus-System-Co-Designs, der zu hoher Genauigkeit und Systemeffizienz führt. Um die Systemherausforderung anzugehen, entwerfen wir die zweistufige Dezimalisierung, um den int8 Tensor Core einfach zu nutzen und schnelle Datentypkonvertierungen zur Reduzierung des Dezimalisierungsüberkopfs signifikant zu machen, und präsentieren die Software-Pipeline, um den Speicherzugriff, die Dezimalisierung und die Matrizenmultiplikation bestmöglich zu überlappen. Umfangreiche Experimente zeigen, dass mit nur 10% mehr Bits die PPL-Erhöhung von etwa 0,5 bei SOTA auf innerhalb von 0,2 für Llama 3.1 70B reduziert werden kann, während im Durchschnitt MMLU-Pro um 0,93 über dem SOTA von drei beliebten Modellen verbessert. Neben seiner überragenden Genauigkeit erreicht MixLLM auch eine Systemeffizienz auf dem neuesten Stand der Technik.
Wir schlagen einen neuartigen Block für die Modellierung von Videos vor. Er basiert auf einer Zeit-Raum-Kanal-Faktorisierung mit dedizierten Blöcken für jede Dimension: Gated Linear Recurrent Units (LRUs) führen Informationsmischungen über die Zeit durch, Self-Attention-Schichten führen Mischungen über den Raum durch und MLPs über die Kanäle. Die resultierende Architektur TRecViT erzielt gute Leistungen bei spärlichen und dichten Aufgaben, die in überwachten oder selbstüberwachten Regimen trainiert werden. Bemerkenswert ist, dass unser Modell kausal ist und ein reines Aufmerksamkeitsmodell ViViT-L auf großen Videodatensätzen (SSv2, Kinetics400) übertrifft oder gleichauf liegt, während es 3-mal weniger Parameter, 12-mal weniger Speicherplatz und 5-mal weniger FLOPs aufweist. Der Code und die Checkpoints werden online unter https://github.com/google-deepmind/trecvit verfügbar gemacht.
Die 3D-Superresolution zielt darauf ab, hochwertige 3D-Modelle aus niedrigauflösenden (LR) Multi-View-Bildern zu rekonstruieren. Frühere Studien konzentrierten sich hauptsächlich auf Single-Image-Superresolution (SISR)-Modelle, um LR-Bilder in hochauflösende Bilder zu vergrößern. Diese Methoden weisen jedoch häufig eine mangelnde Ansichtskonsistenz auf, da sie unabhängig auf jedes Bild wirken. Obwohl verschiedene Nachbearbeitungstechniken ausgiebig erforscht wurden, um diese Inkonsistenzen zu mildern, konnten sie die Probleme noch nicht vollständig lösen. In diesem Artikel führen wir eine umfassende Studie zur 3D-Superresolution durch, indem wir auf Video-Superresolution (VSR)-Modelle zurückgreifen. Durch die Nutzung von VSR-Modellen gewährleisten wir ein höheres Maß an räumlicher Konsistenz und können umgebende räumliche Informationen heranziehen, was zu genaueren und detaillierteren Rekonstruktionen führt. Unsere Ergebnisse zeigen, dass VSR-Modelle selbst auf Sequenzen, die keine präzise räumliche Ausrichtung aufweisen, bemerkenswert gut abschneiden können. Basierend auf dieser Beobachtung schlagen wir einen einfachen und dennoch praktischen Ansatz vor, um LR-Bilder auszurichten, ohne Feinabstimmung oder die Generierung einer 'weichen' Trajektorie aus den trainierten 3D-Modellen über LR-Bilder einzubeziehen. Die experimentellen Ergebnisse zeigen, dass die überraschend einfachen Algorithmen die State-of-the-Art-Ergebnisse von 3D-Superresolution-Aufgaben auf Standard-Benchmark-Datensätzen wie den NeRF-synthetischen und MipNeRF-360-Datensätzen erreichen können. Projektseite: https://ko-lani.github.io/Sequence-Matters
In dieser Arbeit schlagen wir ein Multi-LLM Zusammenfassungsrahmen vor und untersuchen zwei verschiedene Multi-LLM-Strategien, einschließlich zentralisierter und dezentralisierter Ansätze. Unser Multi-LLM Zusammenfassungsrahmen umfasst zwei grundlegend wichtige Schritte in jeder Runde des Gesprächs: Generierung und Bewertung. Diese Schritte unterscheiden sich je nachdem, ob unsere Multi-LLM dezentralisierte oder zentralisierte Zusammenfassung verwendet wird. In beiden Strategien, sowohl der Multi-LLM dezentralisierten als auch der zentralisierten, haben wir k verschiedene LLMs, die vielfältige Zusammenfassungen des Textes generieren. Während der Bewertung nutzt unser Multi-LLM zentralisierter Zusammenfassungsansatz jedoch einen einzigen LLM zur Bewertung der Zusammenfassungen und Auswahl der besten, während k LLMs für die dezentralisierte Multi-LLM-Zusammenfassung verwendet werden. Insgesamt stellen wir fest, dass unsere Multi-LLM-Zusammenfassungsansätze die Baselines, die nur einen einzigen LLM verwenden, signifikant um bis zu 3x übertreffen. Diese Ergebnisse deuten auf die Wirksamkeit von Multi-LLM-Ansätzen für die Zusammenfassung hin.
Die Erstellung eines hochwertigen, animierbaren 3D-Ganzkörper-Avatars aus einem einzigen Bild ist eine anspruchsvolle Aufgabe aufgrund der vielfältigen Erscheinungsbilder und Posen von Menschen sowie der begrenzten Verfügbarkeit von hochwertigen Trainingsdaten. Um eine schnelle und hochwertige Rekonstruktion von Menschen zu erreichen, überdenkt diese Arbeit die Aufgabe aus den Perspektiven des Datensatzes, des Modells und der Repräsentation. Zunächst stellen wir einen umfangreichen, menschenzentrierten generierten Datensatz, HuGe100K, vor, der aus 100.000 verschiedenen, fotorealistischen Sätzen von menschlichen Bildern besteht. Jeder Satz enthält 24 Ansichtsrahmen in spezifischen menschlichen Posen, die mithilfe eines posesteuerbaren Bild-zu-Mehr-Ansichts-Modells generiert wurden. Anschließend nutzen wir die Vielfalt an Ansichten, Posen und Erscheinungsbildern innerhalb von HuGe100K und entwickeln ein skalierbares Feedforward-Transformer-Modell, um eine 3D-menschliche Gaußsche Repräsentation in einem einheitlichen Raum aus einem gegebenen menschlichen Bild vorherzusagen. Dieses Modell ist darauf trainiert, menschliche Pose, Körperform, Kleidungsgeometrie und Textur zu entwirren. Die geschätzten Gaußschen können ohne Nachbearbeitung animiert werden. Wir führen umfassende Experimente durch, um die Wirksamkeit des vorgeschlagenen Datensatzes und der Methode zu validieren. Unser Modell zeigt die Fähigkeit, fotorealistische Menschen mit einer Auflösung von 1K aus einem einzelnen Eingabebild effizient mit einer einzigen GPU sofort zu rekonstruieren. Darüber hinaus unterstützt es nahtlos verschiedene Anwendungen sowie Form- und Textur-Editieraufgaben.
Dieses Paper stellt Fietje vor, eine Familie von kleinen Sprachmodellen (SLMs), die speziell für die niederländische Sprache entwickelt wurden. Das Modell basiert auf Phi 2, einem englischzentrierten Modell mit 2,7 Milliarden Parametern. Fietje zeigte bei seiner Veröffentlichung wettbewerbsfähige Ergebnisse im Vergleich zu größeren Sprachmodellen. Ein zentraler Schwerpunkt dieser Arbeit liegt auf Transparenz und Reproduzierbarkeit: Fietje ist vollständig Open-Source, wobei Modellgewichte, Datensätze, Training und Evaluationscode öffentlich zugänglich sind. Das Paper diskutiert die Leistung von Fietje und vielen anderen Modellen anhand einer umfangreichen Bewertungssuite von Benchmarks zu Schlussfolgerungen, Sentimentanalyse, Weltwissen, linguistischer Akzeptanz und Wortbedeutungsdifferenzierung. Die Evaluierungsergebnisse veranschaulichen den raschen Fortschritt im Bereich der LLMs, in dem aktuelle kleine Modelle ältere, größere Modelle übertreffen, die für das Niederländische feinabgestimmt wurden. Dieser Trend deutet auf eine aufregende Zukunft für die niederländische Sprachverarbeitung hin und legt nahe, dass selbst kompakte LLMs zunehmend leistungsfähiger werden. Darüber hinaus sind laufende und zukünftige Bemühungen zur Anpassung von LLMs an das Niederländische darauf ausgerichtet, diese Modelle weiter zu verbessern, ihre Anwendbarkeit und Zugänglichkeit zu erweitern. Fietje ist nur ein Zwischenschritt zur Verbesserung des Zugangs zur Sprachtechnologie für Benutzer der niederländischen Sprache.
Der Aufbau sicherer großer Sprachmodelle (Large Language Models, LLMs) in mehreren Sprachen ist entscheidend, um sowohl einen sicheren Zugang als auch sprachliche Vielfalt zu gewährleisten. Zu diesem Zweck stellen wir M-ALERT vor, einen multilingualen Benchmark, der die Sicherheit von LLMs in fünf Sprachen - Englisch, Französisch, Deutsch, Italienisch und Spanisch - bewertet. M-ALERT umfasst 15.000 hochwertige Anfragen pro Sprache, insgesamt 75.000, basierend auf der detaillierten ALERT-Taxonomie. Unsere umfangreichen Experimente mit 10 hochmodernen LLMs heben die Bedeutung der sprachspezifischen Sicherheitsanalyse hervor und zeigen, dass Modelle oft erhebliche Inkonsistenzen in der Sicherheit zwischen Sprachen und Kategorien aufweisen. Zum Beispiel zeigt Llama3.2 eine hohe Unsicherheit in der Kategorie crime_tax für Italienisch, bleibt jedoch in anderen Sprachen sicher. Ähnliche Unterschiede sind bei allen Modellen feststellbar. Im Gegensatz dazu lösen bestimmte Kategorien wie substance_cannabis und crime_propaganda konsistent unsichere Reaktionen bei allen Modellen und Sprachen aus. Diese Ergebnisse unterstreichen die Notwendigkeit robuster multilingualer Sicherheitspraktiken in LLMs, um eine sichere und verantwortungsbewusste Nutzung in vielfältigen Benutzergruppen zu gewährleisten.