Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die zunehmende Größe großer Sprachmodelle hat Herausforderungen bei der Bereitstellung geschaffen und Bedenken hinsichtlich der Umweltauswirkungen aufgrund des hohen Energieverbrauchs aufgeworfen. In dieser Arbeit stellen wir BitNet vor, eine skalierbare und stabile 1-Bit-Transformer-Architektur, die für große Sprachmodelle entwickelt wurde. Insbesondere führen wir BitLinear als direkten Ersatz für die nn.Linear-Schicht ein, um 1-Bit-Gewichte von Grund auf zu trainieren. Experimentelle Ergebnisse im Bereich der Sprachmodellierung zeigen, dass BitNet eine wettbewerbsfähige Leistung erzielt und gleichzeitig den Speicherbedarf und den Energieverbrauch im Vergleich zu modernen 8-Bit-Quantisierungsmethoden und FP16-Transformer-Baselines erheblich reduziert. Darüber hinaus zeigt BitNet ein Skalierungsgesetz, das dem von vollpräzisen Transformern ähnelt, was auf sein Potenzial hinweist, effektiv auf noch größere Sprachmodelle skaliert zu werden, während die Effizienz- und Leistungsvorteile erhalten bleiben.
Dieses Paper zielt auf die hochauflösende und echtzeitfähige Ansichtssynthese dynamischer 3D-Szenen in 4K-Auflösung ab. Kürzlich haben einige Methoden zur dynamischen Ansichtssynthese beeindruckende Rendering-Qualitäten gezeigt. Ihre Geschwindigkeit ist jedoch nach wie vor begrenzt, wenn hochauflösende Bilder gerendert werden. Um dieses Problem zu überwinden, schlagen wir 4K4D vor, eine 4D-Punktwolken-Darstellung, die Hardware-Rasterisierung unterstützt und eine beispiellose Rendering-Geschwindigkeit ermöglicht. Unsere Darstellung basiert auf einem 4D-Feature-Grid, sodass die Punkte natürlich regularisiert und robust optimiert werden können. Zudem entwerfen wir ein neuartiges hybrides Erscheinungsmodell, das die Rendering-Qualität erheblich steigert, während die Effizienz erhalten bleibt. Darüber hinaus entwickeln wir einen differenzierbaren Depth-Peeling-Algorithmus, um das vorgeschlagene Modell effektiv aus RGB-Videos zu lernen. Experimente zeigen, dass unsere Darstellung mit über 400 FPS auf dem DNA-Rendering-Datensatz bei 1080p-Auflösung und 80 FPS auf dem ENeRF-Outdoor-Datensatz bei 4K-Auflösung mit einer RTX 4090 GPU gerendert werden kann, was 30-mal schneller ist als bisherige Methoden und die state-of-the-art Rendering-Qualität erreicht. Wir werden den Code zur Reproduzierbarkeit veröffentlichen.
Low-Rank Adaptation (LoRA) ist eine weit verbreitete Methode, die die Anzahl der trainierbaren Parameter bei der Feinabstimmung großer Sprachmodelle reduziert, jedoch weiterhin erhebliche Speicherherausforderungen aufwirft, wenn sie auf noch größere Modelle skaliert oder zahlreiche benutzer- oder aufgabenspezifisch angepasste Modelle bereitgestellt werden soll. In dieser Arbeit stellen wir Vector-based Random Matrix Adaptation (VeRA) vor, das die Anzahl der trainierbaren Parameter im Vergleich zu LoRA um das 10-fache reduziert, dabei aber die gleiche Leistung beibehält. Dies wird erreicht, indem ein einzelnes Paar von Low-Rank-Matrizen verwendet wird, die über alle Schichten hinweg geteilt werden, und stattdessen kleine Skalierungsvektoren gelernt werden. Wir demonstrieren die Wirksamkeit dieser Methode anhand der GLUE- und E2E-Benchmarks und zeigen ihre Anwendung bei der Befolgung von Anweisungen mit nur 1,4 Millionen Parametern unter Verwendung des Llama2 7B-Modells.
Wir stellen Set-of-Mark (SoM) vor, eine neue Methode zur visuellen Prompting, um die visuelle Verankerungsfähigkeit großer multimodaler Modelle (LMMs) wie GPT-4V freizusetzen. Wie in Abb. 1 (rechts) dargestellt, verwenden wir verfügbare interaktive Segmentierungsmodelle, wie SAM, um ein Bild in Regionen mit unterschiedlichen Granularitätsstufen zu unterteilen und diese Regionen mit einer Reihe von Markierungen, z. B. alphanumerischen Zeichen, Masken oder Rahmen, zu überlagern. Mit dem markierten Bild als Eingabe kann GPT-4V Fragen beantworten, die eine visuelle Verankerung erfordern. Wir führen eine umfassende empirische Studie durch, um die Wirksamkeit von SoM bei einer Vielzahl von feingranularen visuellen und multimodalen Aufgaben zu validieren. Unsere Experimente zeigen beispielsweise, dass GPT-4V mit SoM in einer Zero-Shot-Einstellung das state-of-the-art, vollständig feinabgestimmte Referenzsegmentierungsmodell auf RefCOCOg übertrifft.
Die Vision- und Sprachgenerationsmodelle haben in den letzten Jahren stark an Bedeutung gewonnen. Für die Videogenerierung wurden verschiedene Open-Source-Modelle und öffentlich verfügbare Dienste veröffentlicht, die hochwertige Videos erzeugen können. Allerdings verwenden diese Methoden oft nur wenige akademische Metriken, wie beispielsweise FVD oder IS, um die Leistung zu bewerten. Wir argumentieren, dass es schwierig ist, große bedingte Generationsmodelle anhand einfacher Metriken zu beurteilen, da diese Modelle oft auf sehr großen Datensätzen mit vielseitigen Fähigkeiten trainiert werden. Daher schlagen wir ein neues Framework und eine Pipeline vor, um die Leistung der generierten Videos umfassend zu bewerten. Um dies zu erreichen, erstellen wir zunächst eine neue Prompt-Liste für die Text-zu-Video-Generierung, indem wir eine reale Prompt-Liste mithilfe eines großen Sprachmodells analysieren. Anschließend bewerten wir die state-of-the-art Video-Generationsmodelle anhand unserer sorgfältig entworfenen Benchmarks in Bezug auf visuelle Qualität, Inhaltsqualität, Bewegungsqualität und Text-Bild-Ausrichtung mit etwa 18 objektiven Metriken. Um die endgültige Rangliste der Modelle zu erstellen, passen wir eine Reihe von Koeffizienten an, um die objektiven Metriken mit den Meinungen der Benutzer in Einklang zu bringen. Basierend auf der vorgeschlagenen Meinungsanpassungsmethode zeigt unser endgültiger Score eine höhere Korrelation als die einfache Durchschnittsbildung der Metriken, was die Wirksamkeit der vorgeschlagenen Bewertungsmethode unterstreicht.
Große Sprachmodelle wie ChatGPT zeigen eine bemerkenswerte Fähigkeit, neue Konzepte während der Inferenz zu erlernen, ohne dass eine Feinabstimmung erforderlich ist. Visuelle Modelle, die darauf trainiert sind, neue Objekte während der Inferenz zu erkennen, konnten diese Fähigkeit jedoch nicht replizieren und schneiden entweder schlecht ab oder benötigen Meta-Training und/oder Feinabstimmung auf ähnliche Objekte. In dieser Arbeit schlagen wir einen Meta-Lernalgorithmus vor, der große Sprachmodelle nachahmt, indem er neue visuelle Konzepte während der Inferenz ohne Feinabstimmung erlernt. Unser Ansatz nutzt einen eingefrorenen, vortrainierten Merkmalsextraktor und formuliert, analog zum In-Context-Lernen, Meta-Lernen als Sequenzmodellierung über Datenpunkte mit bekannten Labels und einen Testdatenpunkt mit unbekanntem Label. Bei 8 von 11 Meta-Lern-Benchmarks übertrifft oder erreicht unser Ansatz – ohne Meta-Training oder Feinabstimmung – den state-of-the-art Algorithmus P>M>F, der auf diesen Benchmarks meta-trainiert wurde.
Wie lassen sich die Rechen- und Speicheranforderungen von neuronalen Netzen (NNs) reduzieren, ohne die Leistung zu beeinträchtigen? Viele aktuelle Arbeiten verwenden spärliche Mixture of Experts (MoEs), um ressourceneffiziente große Sprachmodelle (LMs) zu entwickeln. Hier führen wir mehrere neuartige Perspektiven auf MoEs ein und präsentieren einen allgemeinen Rahmen, der verschiedene Methoden zur Annäherung an zweischichtige NNs (z. B. Feedforward-Blöcke von Transformern) vereint, einschließlich Product-Key Memories (PKMs). Basierend auf den Erkenntnissen aus diesem Rahmen schlagen wir Methoden vor, um sowohl MoEs als auch PKMs zu verbessern. Im Gegensatz zu früheren Arbeiten, die MoEs mit dichten Baselines unter der Bedingung gleicher Rechenleistung vergleichen, ist unsere Bewertungsbedingung parameter-gleich, was entscheidend ist, um LMs korrekt zu bewerten. Wir zeigen, dass unsere MoEs mit dem dichten Transformer-XL auf den Datensätzen WikiText-103 und enwiki8 in zwei verschiedenen Größenordnungen konkurrieren können, während sie deutlich ressourceneffizienter sind. Dies zeigt, dass MoEs nicht nur für extrem große LMs relevant sind, sondern auch für ressourceneffiziente LMs jeder Größe. Unser Code ist öffentlich zugänglich.
Da große Sprachmodelle (LLMs) immer verbreiteter werden, besteht ein zunehmender Bedarf an neuen und verbesserten Quantisierungsmethoden, die den rechenintensiven Anforderungen dieser modernen Architekturen gerecht werden können, während die Genauigkeit erhalten bleibt. In diesem Artikel stellen wir TEQ vor, eine trainierbare äquivalente Transformation, die die FP32-Präzision der Modellausgabe bewahrt und gleichzeitig die Vorteile der Niedrigpräzisionsquantisierung, insbesondere der 3- und 4-Bit-Gewichtsquantisierung, nutzt. Der Trainingsprozess ist ressourcenschonend und erfordert nur 1.000 Schritte und weniger als 0,1 Prozent der trainierbaren Parameter des ursprünglichen Modells. Darüber hinaus fügt die Transformation während des Inferenzprozesses keinen zusätzlichen Rechenaufwand hinzu. Unsere Ergebnisse sind mit den state-of-the-art (SOTA) Methoden bei typischen LLMs vergleichbar. Unser Ansatz kann mit anderen Methoden kombiniert werden, um eine noch bessere Leistung zu erzielen. Der Code ist unter https://github.com/intel/neural-compressor verfügbar.
Mit den beeindruckenden Fortschritten in der diffusionsbasierten Text-zu-Bild-Generierung gewinnt die Erweiterung dieser leistungsstarken generativen Fähigkeit auf Text-zu-Video große Aufmerksamkeit. Bestehende Methoden erfordern entweder groß angelegte Text-Video-Paare und erhebliche Trainingsressourcen oder lernen Bewegungen, die präzise mit Vorlagenvideos abgestimmt sind. Es ist nicht trivial, einen Kompromiss zwischen dem Grad der Generierungsfreiheit und den Ressourcenkosten für die Videogenerierung zu finden. In unserer Studie präsentieren wir ein Few-Shot-basiertes Feinabstimmungsframework, LAMP, das es einem Text-zu-Bild-Diffusionsmodell ermöglicht, ein spezifisches Bewegungsmuster mit 8~16 Videos auf einer einzelnen GPU zu lernen. Konkret entwerfen wir eine Pipeline, die auf dem ersten Frame basiert und ein verfügbares Text-zu-Bild-Modell für die Inhaltsgenerierung verwendet, sodass unser angepasstes Video-Diffusionsmodell sich hauptsächlich auf das Bewegungslernen konzentriert. Die gut entwickelten Text-zu-Bild-Techniken können visuell ansprechende und vielfältige Inhalte als Generierungsbedingungen bereitstellen, was die Videoqualität und Generierungsfreiheit erheblich verbessert. Um die Merkmale der zeitlichen Dimension zu erfassen, erweitern wir die vortrainierten 2D-Faltungsschichten des T2I-Modells auf unsere neuartigen temporal-räumlichen Bewegungslernschichten und passen die Aufmerksamkeitsblöcke auf die zeitliche Ebene an. Zusätzlich entwickeln wir einen effektiven Inferenztrick, das Shared-Noise-Sampling, das die Stabilität von Videos bei geringen Rechenkosten verbessern kann. Unsere Methode kann auch flexibel auf andere Aufgaben angewendet werden, z.B. Animationen von realen Bildern und Videobearbeitung. Umfangreiche Experimente zeigen, dass LAMP effektiv das Bewegungsmuster mit begrenzten Daten lernen und hochwertige Videos generieren kann. Der Code und die Modelle sind unter https://rq-wu.github.io/projects/LAMP verfügbar.
Code-Completion-Modelle haben in den letzten Jahren erhebliche Fortschritte gemacht, doch die derzeit beliebten Evaluierungsdatensätze wie HumanEval und MBPP konzentrieren sich überwiegend auf Code-Completion-Aufgaben innerhalb einer einzelnen Datei. Diese stark vereinfachte Darstellung entspricht nicht dem realen Softwareentwicklungsszenario, in dem Repositorys häufig mehrere Dateien mit zahlreichen dateiübergreifenden Abhängigkeiten umfassen und der Zugriff auf sowie das Verständnis von dateiübergreifendem Kontext oft erforderlich sind, um den Code korrekt zu vervollständigen. Um diese Lücke zu schließen, schlagen wir CrossCodeEval vor, einen vielfältigen und mehrsprachigen Code-Completion-Benchmark, der ein tiefgreifendes Verständnis von dateiübergreifendem Kontext erfordert, um den Code präzise zu vervollständigen. CrossCodeEval basiert auf einer Vielzahl von realen, quelloffenen und permissiv lizenzierten Repositorys in vier beliebten Programmiersprachen: Python, Java, TypeScript und C#. Um Beispiele zu erstellen, die strikt dateiübergreifenden Kontext für eine genaue Vervollständigung benötigen, schlagen wir einen einfachen, aber effizienten statischen Analyseansatz vor, um die Verwendung von dateiübergreifendem Kontext innerhalb der aktuellen Datei zu identifizieren. Umfangreiche Experimente mit state-of-the-art Code-Sprachmodellen wie CodeGen und StarCoder zeigen, dass CrossCodeEval äußerst herausfordernd ist, wenn der relevante dateiübergreifende Kontext fehlt, und wir deutliche Verbesserungen feststellen, wenn dieser Kontext in die Eingabeaufforderung integriert wird. Trotz dieser Verbesserungen wird jedoch selbst mit dem leistungsstärksten Modell das Leistungsmaximum nicht erreicht, was darauf hindeutet, dass CrossCodeEval auch in der Lage ist, die Fähigkeit eines Modells zu bewerten, umfangreichen Kontext zu nutzen, um bessere Code-Vervollständigungen zu erzielen. Schließlich haben wir verschiedene Methoden zur Extraktion von dateiübergreifendem Kontext verglichen und zeigen, dass CrossCodeEval auch dazu verwendet werden kann, die Fähigkeiten von Code-Retrieval-Systemen zu messen.