Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Denoising Diffusion Probabilistic Models (DDPMs) haben vielversprechende Leistungen in der Sprachsynthese gezeigt. Allerdings ist eine große Anzahl von iterativen Schritten erforderlich, um eine hohe Probenqualität zu erreichen, was die Inferenzgeschwindigkeit einschränkt. Die Beibehaltung der Probenqualität bei gleichzeitiger Erhöhung der Abtastgeschwindigkeit ist zu einer anspruchsvollen Aufgabe geworden. In diesem Artikel schlagen wir eine „Co“nsistency „Mo“del-basierte „Speech“-Synthese-Methode vor, CoMoSpeech, die die Sprachsynthese in einem einzigen Diffusions-Abtastschritt erreicht und dabei eine hohe Audioqualität erzielt. Die Konsistenzbedingung wird angewendet, um ein Konsistenzmodell aus einem gut konzipierten, diffusionsbasierten Lehrermodell zu destillieren, was letztendlich überragende Leistungen im destillierten CoMoSpeech liefert. Unsere Experimente zeigen, dass CoMoSpeech durch die Erzeugung von Audioaufnahmen in einem einzigen Abtastschritt eine Inferenzgeschwindigkeit erreicht, die mehr als 150-mal schneller als Echtzeit auf einer einzelnen NVIDIA A100 GPU ist, was mit FastSpeech2 vergleichbar ist und die diffusionsbasierte Sprachsynthese wirklich praktikabel macht. Gleichzeitig zeigen objektive und subjektive Bewertungen bei der Text-zu-Sprache- und Gesangssynthese, dass die vorgeschlagenen Lehrermodelle die beste Audioqualität liefern und das auf einem einzigen Abtastschritt basierende CoMoSpeech die beste Inferenzgeschwindigkeit mit besserer oder vergleichbarer Audioqualität zu anderen konventionellen, mehrstufigen Diffusionsmodell-Baselines erreicht. Audio-Beispiele sind unter https://comospeech.github.io/ verfügbar.
Wir präsentieren Region-aware Open-vocabulary Vision Transformers (RO-ViT) – ein kontrastives Bild-Text-Vortrainierungsverfahren, um die Lücke zwischen bildbasiertem Vortraining und Open-vocabulary-Objekterkennung zu schließen. In der Vortrainingsphase schlagen wir vor, zufällig ausgeschnittene und skalierte Regionen von Positions-Einbettungen zu verwenden, anstatt die gesamten bildbasierten Positions-Einbettungen zu nutzen. Dies passt besser zur Verwendung von Positions-Einbettungen auf Regionenebene in der Feinabstimmungsphase der Erkennung. Zusätzlich ersetzen wir den üblichen Softmax-Cross-Entropy-Verlust im kontrastiven Lernen durch den Focal Loss, um informative, aber schwierige Beispiele besser zu erlernen. Schließlich nutzen wir aktuelle Fortschritte in der Generierung neuartiger Objektvorschläge, um die Open-vocabulary-Erkennung in der Feinabstimmung zu verbessern. Wir evaluieren unser vollständiges Modell anhand der LVIS- und COCO-Open-vocabulary-Erkennungsbenchmarks sowie des Zero-Shot-Transfers. RO-ViT erreicht einen state-of-the-art-Wert von 32,1 AP_r auf LVIS und übertrifft den bisher besten Ansatz um +5,8 Punkte, zusätzlich zu einer konkurrenzfähigen Zero-Shot-Transfer-Erkennung. Überraschenderweise verbessert RO-ViT auch die bildbasierte Repräsentation und erreicht den State of the Art bei 9 von 12 Metriken auf den COCO- und Flickr-Bild-Text-Retrieval-Benchmarks, wobei es konkurrenzfähige Ansätze mit größeren Modellen übertrifft.
Allgemeine Sprachmodelle, die verschiedene Aufgaben im Sprachbereich lösen können, sind durch die Pipeline aus Vorabtraining und Instruktionsfeinabstimmung entstanden. Der Aufbau allgemeiner visuell-sprachlicher Modelle ist jedoch aufgrund der erhöhten Aufgabenabweichung, die durch die zusätzliche visuelle Eingabe entsteht, eine Herausforderung. Obwohl das Vorabtraining für visuell-sprachliche Modelle weitgehend erforscht wurde, bleibt die Instruktionsfeinabstimmung für visuell-sprachliche Modelle relativ wenig untersucht. In diesem Papier führen wir eine systematische und umfassende Studie zur Instruktionsfeinabstimmung für visuell-sprachliche Modelle basierend auf den vortrainierten BLIP-2-Modellen durch. Wir sammeln eine Vielzahl von 26 öffentlich verfügbaren Datensätzen, transformieren sie in das Format für die Instruktionsfeinabstimmung und kategorisieren sie in zwei Cluster für die Instruktionsfeinabstimmung mit bekannten Daten und die Zero-Shot-Evaluierung mit unbekannten Daten. Zusätzlich führen wir die instruktionsbewusste Extraktion visueller Merkmale ein, eine entscheidende Methode, die es dem Modell ermöglicht, informative Merkmale, die auf die gegebene Instruktion zugeschnitten sind, zu extrahieren. Die daraus resultierenden InstructBLIP-Modelle erzielen eine state-of-the-art Zero-Shot-Leistung über alle 13 unbekannten Datensätze hinweg und übertreffen BLIP-2 und das größere Flamingo deutlich. Unsere Modelle führen auch zu state-of-the-art Leistungen, wenn sie auf einzelnen nachgelagerten Aufgaben feinabgestimmt werden (z.B. 90,7% Genauigkeit auf ScienceQA IMG). Darüber hinaus demonstrieren wir qualitativ die Vorteile von InstructBLIP gegenüber gleichzeitigen multimodalen Modellen. Alle InstructBLIP-Modelle wurden unter https://github.com/salesforce/LAVIS/tree/main/projects/instructblip open-source veröffentlicht.
Wir präsentieren einen neuartigen Ansatz, um das in vortrainierten Text-zu-Bild-Diffusionsmodellen enthaltene Vorwissen für blinde Super-Resolution (SR) zu nutzen. Insbesondere ermöglicht unser zeitbewusster Encoder vielversprechende Restaurationsergebnisse, ohne das vortrainierte Synthesemodell zu verändern, wodurch der generative Prior erhalten und die Trainingskosten minimiert werden. Um den durch die inhärente Stochastizität von Diffusionsmodellen verursachten Verlust an Bildtreue zu beheben, führen wir ein steuerbares Feature-Wrapping-Modul ein, das es Benutzern ermöglicht, Qualität und Treue durch einfaches Anpassen eines Skalarwerts während des Inferenzprozesses auszubalancieren. Darüber hinaus entwickeln wir eine progressive Aggregations-Sampling-Strategie, um die festen Größenbeschränkungen vortrainierter Diffusionsmodelle zu überwinden und die Anpassung an beliebige Auflösungen zu ermöglichen. Eine umfassende Evaluierung unserer Methode anhand sowohl synthetischer als auch realer Benchmarks demonstriert ihre Überlegenheit gegenüber aktuellen State-of-the-Art-Ansätzen.
Vision Transformer haben aufgrund ihrer hohen Modellfähigkeiten großen Erfolg gezeigt. Allerdings ist ihre bemerkenswerte Leistung mit hohen Rechenkosten verbunden, was sie für Echtzeitanwendungen ungeeignet macht. In diesem Artikel stellen wir eine Familie von hochleistungsfähigen Vision Transformern namens EfficientViT vor. Wir stellen fest, dass die Geschwindigkeit bestehender Transformer-Modelle häufig durch speicherineffiziente Operationen begrenzt wird, insbesondere durch das Tensor-Reshaping und elementweise Funktionen im MHSA. Daher entwerfen wir einen neuen Baustein mit einem Sandwich-Layout, d.h. die Verwendung eines einzigen speichergebundenen MHSA zwischen effizienten FFN-Schichten, was die Speichereffizienz verbessert und gleichzeitig die Kanal-Kommunikation fördert. Darüber hinaus stellen wir fest, dass die Aufmerksamkeitskarten über die Köpfe hinweg eine hohe Ähnlichkeit aufweisen, was zu Rechenredundanz führt. Um dies zu beheben, präsentieren wir ein kaskadiertes Gruppenaufmerksamkeitsmodul, das die Aufmerksamkeitsköpfe mit verschiedenen Teilen des vollständigen Features versorgt, was nicht nur Rechenkosten spart, sondern auch die Vielfalt der Aufmerksamkeit verbessert. Umfassende Experimente zeigen, dass EfficientViT bestehende effiziente Modelle übertrifft und eine gute Balance zwischen Geschwindigkeit und Genauigkeit erreicht. Beispielsweise übertrifft unser EfficientViT-M5 MobileNetV3-Large um 1,9 % in der Genauigkeit, während es einen 40,4 % bzw. 45,2 % höheren Durchsatz auf der Nvidia V100 GPU und dem Intel Xeon CPU erzielt. Im Vergleich zum kürzlich vorgestellten effizienten Modell MobileViT-XXS erreicht EfficientViT-M2 eine um 1,8 % höhere Genauigkeit, während es 5,8x/3,7x schneller auf der GPU/CPU läuft und 7,4x schneller ist, wenn es in das ONNX-Format konvertiert wird. Code und Modelle sind verfügbar unter https://github.com/microsoft/Cream/tree/main/EfficientViT.
CLIP, das erste Fundamentmodell, das Bilder und Text verbindet, hat viele jüngste Durchbrüche in der Computer Vision ermöglicht. Die damit verbundenen Trainingskosten sind jedoch prohibitiv hoch, was eine erhebliche Barriere für die breite Erforschung darstellt. In diesem Artikel präsentieren wir eine überraschende Erkenntnis, dass ein umgekehrtes Skalierungsgesetz für das CLIP- Training existiert, bei dem größere Bild-/Text-Encoder kürzere Sequenzlängen von Bild-/Text-Token im Training ermöglichen. Darüber hinaus zeigen wir, dass die Strategie zur Reduzierung der Bild-/Text-Token-Länge eine entscheidende Rolle für die Qualität dieses Skalierungsgesetzes spielt. Als Ergebnis dieser Erkenntnis können wir CLIP erfolgreich sogar mit akademischen Ressourcen trainieren. Zum Beispiel erreichen unsere CLIP-Modelle auf einem A100-Acht-GPU-Server Zero-Shot Top-1 ImageNet-Genauigkeiten von 63,2 % in ~2 Tagen, 67,8 % in ~3 Tagen und 69,3 % in ~4 Tagen. Durch die Reduzierung der mit CLIP verbundenen Rechenbarriere hoffen wir, mehr Forschung in diesem Bereich zu inspirieren, insbesondere von Akademikern. Unser Code ist verfügbar unter https://github.com/UCSC-VLAA/CLIPA.
Große Sprachmodelle (LLMs) haben überraschend gute Leistungen in der mehrsprachigen neuronalen maschinellen Übersetzung (MNMT) gezeigt, selbst wenn sie ohne parallele Daten trainiert wurden. Dennoch haben sie trotz der gigantischen Menge an Trainingsdaten Schwierigkeiten, seltene Wörter zu übersetzen, insbesondere bei ressourcenarmen Sprachen. Noch problematischer ist, dass es in der Regel unrealistisch ist, relevante Demonstrationen für In-Context-Learning mit ressourcenarmen Sprachen auf LLMs abzurufen, was die praktische Anwendung von LLMs für Übersetzungen einschränkt – wie können wir dieses Problem lösen? Zu diesem Zweck stellen wir eine neue Methode vor, CoD, die LLMs mit Vorwissen durch Ketten mehrsprachiger Wörterbücher für eine Teilmenge der Eingabewörter anreichert, um die Übersetzungsfähigkeiten von LLMs zu fördern. Umfangreiche Experimente zeigen, dass die Anreicherung von ChatGPT mit CoD erhebliche Verbesserungen von bis zu 13x ChrF++-Punkten für MNMT (3,08 bis 42,63 für Englisch zu Serbisch in kyrillischer Schrift) auf dem FLORES-200 Full Devtest-Set bewirkt. Wir demonstrieren weiterhin die Bedeutung der Verkettung mehrsprachiger Wörterbücher sowie die Überlegenheit von CoD gegenüber Few-Shot-Demonstrationen für ressourcenarme Sprachen.
Die Fähigkeit zu beurteilen, ob eine Bildbeschreibung ein Bild korrekt beschreibt, ist ein entscheidender Aspekt des Verständnisses von Vision und Sprache. Allerdings interpretieren state-of-the-art Modelle oft die Korrektheit feingranularer Details falsch, was zu Fehlern in den Ausgaben führt, wie etwa dem Halluzinieren von Objekten in generierten Bildbeschreibungen oder schlechtem kompositionellem Denken. In dieser Arbeit untersuchen wir Token-Level Confidence (TLC) als eine einfache, aber überraschend effektive Methode zur Bewertung der Korrektheit von Bildbeschreibungen. Konkret fine-tunen wir ein Vision-Sprache-Modell für die Bildbeschreibung, geben ein Bild und einen vorgeschlagenen Text in das Modell ein und aggregieren entweder algebraische oder gelernte Token-Confidences über Wörter oder Sequenzen, um die Konsistenz zwischen Bild und Beschreibung zu schätzen. Im Vergleich zu Sequenz-Level-Scores von vortrainierten Modellen erreicht TLC mit algebraischen Confidence-Maßen eine relative Verbesserung der Genauigkeit um 10 % beim Verständnis von Verben in SVO-Probes und übertrifft den bisherigen State-of-the-art in Bild- und Gruppen-Scores für kompositionelles Denken in Winoground um relative 37 % bzw. 9 %. Wenn Trainingsdaten verfügbar sind, bietet ein gelerntes Confidence-Schätzmodell eine weitere Leistungssteigerung und reduziert die Objekthalluzinationsraten in MS COCO Captions um relative 30 % gegenüber dem ursprünglichen Modell, wodurch ein neuer State-of-the-art gesetzt wird.
Große Sprachmodelle (LLMs) zeigen beeindruckende multilinguale Fähigkeiten, doch ihre Leistung variiert erheblich zwischen verschiedenen Sprachen. In dieser Arbeit stellen wir eine einfache, aber effektive Methode vor, die als Cross-Lingual-Thought Prompting (XLT) bezeichnet wird, um die multilingualen Fähigkeiten von LLMs systematisch zu verbessern. Konkret handelt es sich bei XLT um eine generische Vorlage für Prompts, die cross-linguale und logische Denkfähigkeiten anregt, um die Aufgabenleistung über verschiedene Sprachen hinweg zu steigern. Wir führen umfassende Evaluierungen auf 7 typischen Benchmarks durch, die sich auf Aufgaben des logischen Denkens, des Verstehens und der Generierung beziehen und sowohl hoch- als auch niedrigressourcenreiche Sprachen abdecken. Die experimentellen Ergebnisse zeigen, dass XLT nicht nur die Leistung bei verschiedenen multilingualen Aufgaben deutlich verbessert, sondern auch die Lücke zwischen der durchschnittlichen Leistung und der besten Leistung jeder Aufgabe in verschiedenen Sprachen signifikant verringert. Besonders hervorzuheben ist, dass XLT eine durchschnittliche Verbesserung von über 10 Punkten bei arithmetischem Denken und Open-Domain-Frage-Antwort-Aufgaben erzielt.
Die Erzeugung von hochwertiger Musik, die den visuellen Inhalt eines Videos ergänzt, ist eine anspruchsvolle Aufgabe. Die meisten bestehenden Systeme zur visuell bedingten Musikerzeugung generieren symbolische Musikdaten, wie MIDI-Dateien, anstatt Roh-Audiowellenformen. Aufgrund der begrenzten Verfügbarkeit von symbolischen Musikdaten können solche Methoden nur Musik für wenige Instrumente oder für spezifische Arten von visuellen Eingaben erzeugen. In diesem Artikel schlagen wir einen neuartigen Ansatz namens V2Meow vor, der hochwertige Musik-Audiodateien erzeugen kann, die gut mit der visuellen Semantik einer Vielzahl von Video-Eingabetypen übereinstimmen. Konkret handelt es sich bei dem vorgeschlagenen Musikgenerierungssystem um ein mehrstufiges autoregressives Modell, das mit einer Vielzahl von O(100K) Musik-Audioclips trainiert wird, die mit Videobildern gepaart sind und aus frei verfügbaren Musikvideos stammen, wobei keine parallelen symbolischen Musikdaten verwendet werden. V2Meow ist in der Lage, hochauflösende Musik-Audiowellenformen allein basierend auf vortrainierten visuellen Merkmalen zu synthetisieren, die aus einem beliebigen stummen Videoclip extrahiert wurden, und ermöglicht zudem eine hochgradige Kontrolle über den Musikstil der generierten Beispiele durch die Unterstützung von Textprompts zusätzlich zur Bedingung durch Videobilder. Durch sowohl qualitative als auch quantitative Bewertungen zeigen wir, dass unser Modell mehrere bestehende Musikgenerierungssysteme in Bezug auf die visuell-auditive Korrespondenz und die Audioqualität übertrifft.
Lebenslanges Lernen (LL) ist eine wichtige Fähigkeit für NLP-Modelle, um kontinuierlich neue Aufgaben zu erlernen. Architekturbasierte Ansätze gelten als effektive Implementierungen für LL-Modelle. Es ist jedoch nicht trivial, frühere Ansätze auf domäneninkrementelle LL-Szenarien zu erweitern, da sie entweder den Zugriff auf Aufgabenidentitäten in der Testphase erfordern oder keine Proben von unbekannten Aufgaben verarbeiten können. In diesem Artikel schlagen wir Diana vor: ein dynamisches, architekturbasiertes Modell für lebenslanges Lernen, das versucht, eine Sequenz von Aufgaben mit einem prompt-verbesserten Sprachmodell zu erlernen. In Diana werden vier Typen hierarchisch organisierter Prompts verwendet, um Wissen aus verschiedenen Granularitäten zu erfassen. Insbesondere widmen wir Aufgabenebenen-Prompts der Erfassung aufgabenspezifischen Wissens, um hohe LL-Leistungen zu erhalten, und Instanzenebenen-Prompts dem Erlernen von Wissen, das über Eingabeproben hinweg geteilt wird, um die Generalisierungsleistung des Modells zu verbessern. Darüber hinaus widmen wir separate Prompts der expliziten Modellierung unbekannter Aufgaben und führen eine Reihe von Prompt-Schlüsselvektoren ein, um die Wissensweitergabe zwischen Aufgaben zu erleichtern. Umfangreiche Experimente zeigen, dass Diana state-of-the-art LL-Modelle übertrifft, insbesondere bei der Handhabung unbekannter Aufgaben. Wir veröffentlichen den Code und die Daten unter https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
Große Sprachmodelle (LLMs) haben außergewöhnliche Fähigkeiten bei der Generalisierung auf neue Aufgaben in einem Zero-Shot- oder Few-Shot-Szenario gezeigt. Das Ausmaß, in dem LLMs Benutzerpräferenzen auf der Grundlage ihres vorherigen Verhaltens verstehen können, bleibt jedoch eine aufstrebende und noch unklare Forschungsfrage. Traditionell war Collaborative Filtering (CF) die effektivste Methode für diese Aufgaben, die sich hauptsächlich auf die umfangreiche Menge an Bewertungsdaten stützte. Im Gegensatz dazu benötigen LLMs typischerweise erheblich weniger Daten, während sie gleichzeitig ein umfassendes Weltwissen über jeden Gegenstand, wie Filme oder Produkte, besitzen. In diesem Papier führen wir eine umfassende Untersuchung sowohl von CF als auch von LLMs im klassischen Aufgabenbereich der Benutzerbewertungsvorhersage durch, bei der es darum geht, die Bewertung eines Benutzers für einen Kandidatengegenstand auf der Grundlage seiner vergangenen Bewertungen vorherzusagen. Wir untersuchen verschiedene LLMs in unterschiedlichen Größen, die von 250M bis zu 540B Parametern reichen, und bewerten ihre Leistung in Zero-Shot-, Few-Shot- und Fine-Tuning-Szenarien. Wir führen eine umfassende Analyse durch, um LLMs mit starken CF-Methoden zu vergleichen, und stellen fest, dass Zero-Shot-LLMs hinter traditionellen Empfehlungsmodellen zurückbleiben, die Zugang zu Benutzerinteraktionsdaten haben, was die Bedeutung von Benutzerinteraktionsdaten unterstreicht. Durch Fine-Tuning erreichen LLMs jedoch vergleichbare oder sogar bessere Leistungen mit nur einem kleinen Bruchteil der Trainingsdaten, was ihr Potenzial durch Dateneffizienz demonstriert.
Wir präsentieren einen physikbasierten Humanoid-Controller, der hochpräzise Bewegungsimitation und fehlertolerantes Verhalten in Gegenwart von verrauschten Eingaben (z. B. Pose-Schätzungen aus Videos oder aus Sprache generierte Daten) und unerwarteten Stürzen erreicht. Unser Controller skaliert bis zum Erlernen von zehntausend Bewegungsclips, ohne externe stabilisierende Kräfte zu verwenden, und lernt, sich natürlich aus Fehlerzuständen zu erholen. Bei gegebener Referenzbewegung kann unser Controller simulierte Avatare kontinuierlich steuern, ohne dass Resets erforderlich sind. Im Kern schlagen wir die progressive multiplikative Kontrollpolitik (PMCP) vor, die dynamisch neue Netzwerkkapazitäten zuweist, um immer schwierigere Bewegungssequenzen zu erlernen. PMCP ermöglicht eine effiziente Skalierung für das Lernen aus groß angelegten Bewegungsdatenbanken und das Hinzufügen neuer Aufgaben, wie z. B. die Wiederherstellung aus Fehlerzuständen, ohne katastrophales Vergessen. Wir demonstrieren die Wirksamkeit unseres Controllers, indem wir ihn verwenden, um verrauschte Posen aus videobasierten Pose-Schätzern und sprachbasierten Bewegungsgeneratoren in einem Live- und Echtzeit-Multi-Person-Avatar-Anwendungsfall zu imitieren.
Große Sprachmodelle wie ChatGPT haben in letzter Zeit beeindruckende Fähigkeiten im Bereich des natürlichen Sprachverständnisses und der Sprachgenerierung gezeigt, was verschiedene Anwendungen wie Übersetzung, Aufsatzschreiben und Plaudern ermöglicht. Es besteht jedoch die Sorge, dass sie für bösartige Zwecke missbraucht werden könnten, wie beispielsweise Betrug oder Denial-of-Service-Angriffe. Daher ist es entscheidend, Methoden zu entwickeln, um festzustellen, ob die an einer Konversation beteiligte Partei ein Bot oder ein Mensch ist. In diesem Artikel schlagen wir ein Framework namens FLAIR (Finding Large language model Authenticity via a single Inquiry and Response) vor, um Konversations-Bots in Echtzeit zu erkennen. Insbesondere zielen wir auf ein Szenario mit einer einzigen Frage ab, die effektiv menschliche Benutzer von Bots unterscheiden kann. Die Fragen werden in zwei Kategorien unterteilt: solche, die für Menschen einfach, aber für Bots schwierig sind (z. B. Zählen, Substitution, Positionierung, Rauschfilterung und ASCII-Kunst), und solche, die für Bots einfach, aber für Menschen schwierig sind (z. B. Auswendiglernen und Berechnungen). Unser Ansatz zeigt unterschiedliche Stärken dieser Fragen in ihrer Wirksamkeit und bietet Online-Dienstanbietern eine neue Möglichkeit, sich vor bösartigen Aktivitäten zu schützen und sicherzustellen, dass sie echte Benutzer bedienen. Wir haben unseren Datensatz auf https://github.com/hongwang600/FLAIR quelloffen zur Verfügung gestellt und begrüßen Beiträge aus der Community, um solche Erkennungsdatensätze zu bereichern.
Text-Embeddings sind nützliche Merkmale für verschiedene NLP-Anwendungen wie Satzähnlichkeit, Text-Clustering und semantische Suche. In diesem Artikel präsentieren wir eine Low-rank-Adaptation mit einem kontrastiven Ziel auf Basis von 8-bit Siamese-BLOOM, einem mehrsprachigen großen Sprachmodell, das optimiert wurde, um semantisch aussagekräftige Wort-Embeddings zu erzeugen. Die Innovation besteht aus drei Aspekten. Erstens wandeln wir die BLOOM-Gewichte in 8-bit-Werte um. Zweitens feintunen wir BLOOM mit einem skalierbaren Adapter (LoRA) und dem 8-bit Adam-Optimierer für die Klassifizierung von Satzähnlichkeit. Drittens wenden wir eine Siamese-Architektur auf das BLOOM-Modell mit einem kontrastiven Ziel an, um die Knappheit an mehrsprachig gelabelten Daten zu mildern. Die Experimentergebnisse zeigen, dass die Qualität der gelernten Embeddings von LACoS-BLOOM proportional zur Anzahl der Modellparameter und der Menge der ungelabelten Trainingsdaten ist. Mit dem parameter-effizienten Feintuning-Design können wir BLOOM mit 7,1 Milliarden Parametern end-to-end auf einer einzelnen GPU-Maschine mit 32 GB Speicher ausführen. Im Vergleich zur vorherigen Lösung Sentence-BERT erzielen wir signifikante Verbesserungen bei englischen und mehrsprachigen STS-Aufgaben.