Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir beschreiben die Entwicklung und Fähigkeiten von Meltemi 7B, dem ersten offenen Large Language Model für die griechische Sprache. Meltemi 7B verfügt über 7 Milliarden Parameter und wurde auf einem 40 Milliarden Token umfassenden griechischen Korpus trainiert. Für die Entwicklung von Meltemi 7B passen wir Mistral an, indem wir kontinuierliches Pretraining auf dem griechischen Korpus durchführen. Meltemi 7B enthält aktuelle Informationen bis September 2023. Darüber hinaus haben wir einen griechischen Anweisungskorpus übersetzt und kuratiert, der für das Anpassen einer Chat-Modells namens Meltemi 7B Instruct verwendet wurde. Besondere Sorgfalt wurde auf die Ausrichtung und Entfernung von toxischen Inhalten für Meltemi 7B Instruct gelegt. Die entwickelten Modelle werden anhand einer umfangreichen Sammlung von Evaluierungskorpora bewertet, und Beispiele für Eingabeaufforderungen und Antworten werden präsentiert. Sowohl Meltemi 7B als auch Meltemi 7B Instruct sind unter der Apache 2.0 Lizenz auf https://huggingface.co/ilsp verfügbar.
Große Sprachmodelle (LLMs) haben das Feld der natürlichen Sprachverarbeitung revolutioniert, indem sie durch die Nutzung größerer Modellgrößen und Sequenzlängen eine beispiellose Leistung in einer Vielzahl von Anwendungen erzielen. Allerdings stellen die damit verbundenen steigenden Rechen- und Speicherkosten erhebliche Herausforderungen dar, insbesondere bei der Verwaltung langer Sequenzen aufgrund der quadratischen Komplexität des Transformer-Aufmerksamkeitsmechanismus. Dieser Artikel konzentriert sich auf Szenarien mit langem Kontext und befasst sich mit den Ineffizienzen beim Verbrauch des KV-Cache-Speichers während der Inferenz. Im Gegensatz zu bestehenden Ansätzen, die den Speicher basierend auf den Sequenzlängen optimieren, zeigen wir auf, dass die Kanaldimension des KV-Caches eine signifikante Redundanz aufweist, die durch eine unausgeglichene Verteilung der Magnituden und eine niederdimensionale Struktur in den Aufmerksamkeitsgewichten gekennzeichnet ist. Basierend auf diesen Beobachtungen schlagen wir ThinK vor, eine neuartige abfrageabhängige KV-Cache-Pruning-Methode, die darauf abzielt, den Verlust von Aufmerksamkeitsgewichten zu minimieren, während gleichzeitig die unwichtigsten Kanäle selektiv entfernt werden. Unser Ansatz erhält nicht nur die Modellgenauigkeit oder verbessert sie, sondern erzielt auch eine Reduzierung der Speicherkosten um über 20% im Vergleich zu herkömmlichen KV-Cache-Verdrängungsmethoden. Umfangreiche Evaluationen an den Modellen LLaMA3 und Mistral über verschiedene Datensätze mit langen Sequenzen bestätigen die Wirksamkeit von ThinK und setzen einen neuen Maßstab für die effiziente Bereitstellung von LLMs, ohne die Leistung zu beeinträchtigen. Wir skizzieren auch das Potenzial, unsere Methode auf das Pruning des Wertecaches auszudehnen, was die Vielseitigkeit und breite Anwendbarkeit von ThinK bei der Reduzierung sowohl des Speicher- als auch des Rechenaufwands zeigt.
Groß angelegte Vortrainierungsmethoden für chemische Sprachmodelle stellen einen Durchbruch in der Chemoinformatik dar. Diese Methoden zeichnen sich in Aufgaben wie Eigenschaftsvorhersage und Molekülerzeugung aus, indem sie kontextualisierte Repräsentationen von Eingabe-Token durch selbstüberwachtes Lernen auf großen unbeschrifteten Korpora erlernen. Typischerweise beinhaltet dies eine Vortrainierung auf unbeschrifteten Daten, gefolgt von Feinabstimmung auf spezifische Aufgaben, was die Abhängigkeit von annotierten Datensätzen verringert und das Verständnis der chemischen Sprache erweitert. Dieser Artikel stellt große Encoder-Decoder-Chemie-Grundlagenmodelle vor, die auf einem kuratierten Datensatz von 91 Millionen SMILES-Proben aus PubChem vortrainiert sind, was 4 Milliarden Molekül-Token entspricht. Das vorgeschlagene Grundlagenmodell unterstützt verschiedene komplexe Aufgaben, einschließlich quantitativer Eigenschaftsvorhersage, und bietet Flexibilität mit zwei Hauptvarianten (289M und 8mal289M). Unsere Experimente über mehrere Benchmark-Datensätze bestätigen die Leistungsfähigkeit des vorgeschlagenen Modells bei der Bereitstellung erstklassiger Ergebnisse für verschiedene Aufgaben. Wir liefern auch eine vorläufige Bewertung der Kompositionsstruktur des Einbettungsraums als Voraussetzung für die Schlussfolgerungsaufgaben. Wir zeigen, dass der erzeugte latente Raum im Vergleich zum Stand der Technik separierbar ist und über Fähigkeiten zum Lernen mit wenigen Beispielen verfügt.
Mit der zunehmenden Integration großer Sprachmodelle (LLMs) in operative Workflows (LLM-Ops) besteht ein dringender Bedarf an effektiven Schutzmechanismen, um sichere und ausgerichtete Interaktionen zu gewährleisten, einschließlich der Fähigkeit, potenziell unsichere oder unangemessene Inhalte in verschiedenen Sprachen zu erkennen. Allerdings sind bestehende "safe-for-work"-Klassifizierer hauptsächlich auf englischen Text ausgerichtet. Um diese Lücke für die malaysische Sprache zu schließen, präsentieren wir einen neuartigen "safe-for-work"-Textklassifizierer, der speziell auf malaysische Inhalte zugeschnitten ist. Durch die Zusammenstellung und Annotation eines bisher einzigartigen Datensatzes malaysischer Texte aus verschiedenen Inhaltkategorien haben wir ein Klassifizierungsmodell trainiert, das potenziell unsicheres Material mithilfe modernster Techniken der natürlichen Sprachverarbeitung identifizieren kann. Diese Arbeit stellt einen wichtigen Schritt dar, um sicherere Interaktionen und Inhaltsfilterung zu ermöglichen, potenzielle Risiken zu mindern und eine verantwortungsbewusste Bereitstellung von LLMs sicherzustellen. Um die Zugänglichkeit zu maximieren und weitere Forschung zur Verbesserung der Ausrichtung in LLM-Ops für den malaysischen Kontext zu fördern, wurde das Modell öffentlich unter https://huggingface.co/malaysia-ai/malaysian-sfw-classifier veröffentlicht.
Wir stellen Diffusion Augmented Agents (DAAG) vor, ein neuartiges Framework, das große Sprachmodelle, Bildsprachmodelle und Diffusionsmodelle nutzt, um die Beispieleffizienz und das Transferlernen im reinforcement learning für verkörperte Agenten zu verbessern. DAAG überdenkt retrospektiv die Erfahrungen des Agenten, indem es Diffusionsmodelle verwendet, um Videos auf eine zeitlich und geometrisch konsistente Weise zu transformieren, um sie mit Zielanweisungen abzustimmen, mit einer Technik, die wir Hindsight Experience Augmentation nennen. Ein großes Sprachmodell orchestriert diesen autonomen Prozess, ohne menschliche Überwachung zu benötigen, was es für Szenarien des lebenslangen Lernens geeignet macht. Das Framework reduziert die Menge an belohnten Daten, die benötigt werden, um 1) ein Bildsprachmodell zu feinabstimmen, das als Belohnungsdetektor fungiert, und 2) RL-Agenten für neue Aufgaben zu trainieren. Wir zeigen die Gewinne an Beispieleffizienz von DAAG in simulierten Robotikumgebungen, die Manipulation und Navigation umfassen. Unsere Ergebnisse zeigen, dass DAAG das Lernen von Belohnungsdetektoren verbessert, vergangene Erfahrungen überträgt und neue Aufgaben erwirbt - Schlüsselqualitäten für die Entwicklung effizienter lebenslanger Lernagenten. Zusätzliches Material und Visualisierungen sind auf unserer Website verfügbar: https://sites.google.com/view/diffusion-augmented-agents/
Wir präsentieren Knesset-DictaBERT, ein großes hebräisches Sprachmodell, das auf dem Knesset-Korpus feinabgestimmt ist, der israelische parlamentarische Sitzungen umfasst. Das Modell basiert auf der DictaBERT-Architektur und zeigt signifikante Verbesserungen im Verständnis parlamentarischer Sprache gemäß der MLM-Aufgabe. Wir bieten eine detaillierte Bewertung der Leistung des Modells, die Verbesserungen in Perplexität und Genauigkeit gegenüber dem Basis-DictaBERT-Modell aufzeigt.
Dieses Paper stellt einen innovativen Ansatz für Bildmatting vor, der die traditionelle regressionsbasierte Aufgabe als Herausforderung des generativen Modellierens neu definiert. Unsere Methode nutzt die Fähigkeiten latenter Diffusionsmodelle, angereichert mit umfangreichem vorab trainiertem Wissen, um den Matting-Prozess zu regulieren. Wir präsentieren neuartige architektonische Innovationen, die unserem Modell ermöglichen, Matten mit überlegender Auflösung und Detailtreue zu erzeugen. Die vorgeschlagene Methode ist vielseitig einsetzbar und kann sowohl beim guidancesfreien als auch beim guidancesbasierten Bildmatting eingesetzt werden, wobei sie eine Vielzahl zusätzlicher Hinweise berücksichtigt. Unsere umfassende Evaluation über drei Benchmark-Datensätze hinweg zeigt die überlegene Leistung unseres Ansatzes sowohl quantitativ als auch qualitativ. Die Ergebnisse spiegeln nicht nur die robuste Wirksamkeit unserer Methode wider, sondern betonen auch ihre Fähigkeit, visuell überzeugende Matten zu erzeugen, die eine fotorealistische Qualität erreichen. Die Projektseite zu diesem Paper ist verfügbar unter https://lightchaserx.github.io/matting-by-generation/
Bestehende Methoden zur Musikbeschriftung sind darauf beschränkt, prägnante globale Beschreibungen kurzer Musikclips zu generieren, die feingliedrige musikalische Merkmale und zeitbewusste musikalische Veränderungen nicht erfassen. Um diese Einschränkungen zu überwinden, schlagen wir FUTGA vor, ein Modell, das mit feingliedriger Musikverständnisfähigkeit ausgestattet ist, indem es durch generative Erweiterung mit zeitlichen Kompositionen lernt. Wir nutzen bestehende Musikbeschriftungsdatensätze und große Sprachmodelle (LLMs), um feingliedrige Musikbeschriftungen mit strukturellen Beschreibungen und Zeitgrenzen für vollständige Lieder zu synthetisieren. Durch die vorgeschlagene synthetische Datensatz-Erweiterung ist FUTGA in der Lage, die zeitlichen Veränderungen der Musik an Schlüsselübergangspunkten und deren musikalische Funktionen zu identifizieren sowie detaillierte Beschreibungen für jeden Musikabschnitt zu generieren. Wir stellen außerdem einen vollständigen Musikbeschriftungsdatensatz vor, der von FUTGA generiert wurde, als Erweiterung der MusicCaps- und Song-Describer-Datensätze. Wir bewerten die automatisch generierten Beschriftungen in mehreren nachgelagerten Aufgaben, einschließlich Musikgenerierung und -abruf. Die Experimente zeigen die Qualität der generierten Beschriftungen und die bessere Leistung in verschiedenen nachgelagerten Aufgaben, die durch den vorgeschlagenen Ansatz zur Musikbeschriftung erreicht wurde. Unser Code und unsere Datensätze finden Sie unter https://huggingface.co/JoshuaW1997/FUTGA.
Die neuronale Informationsabfrage hat sich in hochresourcen Sprachen schnell weiterentwickelt, aber der Fortschritt in niedrig-resourcen Sprachen wie Japanisch wurde durch Datenknappheit und andere Herausforderungen behindert. Folglich dominieren mehrsprachige Modelle die japanische Abfrage, trotz ihrer Rechenineffizienzen und der Unfähigkeit, sprachliche Feinheiten zu erfassen. Während neuere mehrvektorische monolinguale Modelle wie JaColBERT diese Kluft verkleinert haben, hinken sie immer noch mehrsprachigen Methoden in großangelegten Evaluierungen hinterher. Diese Arbeit befasst sich mit den suboptimalen Trainingsmethoden von mehrvektorischen Abfragesystemen in niedrig-resourcen Umgebungen, mit einem Fokus auf Japanisch. Wir evaluieren systematisch und verbessern Schlüsselelemente der Inferenz- und Trainingsumgebungen von JaColBERT und, allgemeiner, mehrvektorischen Modellen. Des Weiteren verbessern wir die Leistung durch einen neuartigen Schritt zur Zusammenführung von Prüfpunkten, wobei gezeigt wird, dass dies eine effektive Möglichkeit ist, die Vorteile des Feintunings mit den Verallgemeinerungsfähigkeiten des ursprünglichen Prüfpunkts zu kombinieren. Basierend auf unserer Analyse stellen wir ein neues Trainingsrezept vor, das zum JaColBERTv2.5 Modell führt. JaColBERTv2.5, mit nur 110 Millionen Parametern und in weniger als 15 Stunden auf 4 A100 GPUs trainiert, übertrifft signifikant alle bestehenden Methoden in allen gängigen Benchmarks und erreicht einen durchschnittlichen Score von 0.754, deutlich über dem bisherigen Bestwert von 0.720. Um zukünftige Forschung zu unterstützen, stellen wir unsere finalen Modelle, Zwischenprüfpunkte und alle verwendeten Daten öffentlich zur Verfügung.
HAL (Hyper Articles en Ligne) ist das französische nationale Veröffentlichungsrepository, das von den meisten Hochschul- und Forschungsorganisationen für ihre Open-Science-Politik genutzt wird. Als digitale Bibliothek ist es ein umfangreiches Repository wissenschaftlicher Dokumente, dessen Potenzial für fortgeschrittene Forschung bisher untergenutzt wurde. Wir präsentieren HALvest, einen einzigartigen Datensatz, der die Kluft zwischen Zitationsnetzwerken und dem Volltext von auf HAL eingereichten Papieren überbrückt. Wir erstellen unseren Datensatz, indem wir HAL nach wissenschaftlichen Veröffentlichungen filtern, was zu etwa 700.000 Dokumenten führt, die sich über 34 Sprachen in 13 identifizierten Fachgebieten erstrecken. Diese sind geeignet für das Training von Sprachmodellen und ergeben insgesamt etwa 16,5 Milliarden Tokens (mit 8 Milliarden in Französisch und 7 Milliarden in Englisch, den am häufigsten vertretenen Sprachen). Wir wandeln die Metadaten jedes Papiers in ein Zitationsnetzwerk um, das einen gerichteten heterogenen Graphen erzeugt. Dieser Graph enthält eindeutig identifizierte Autoren auf HAL sowie alle offenen eingereichten Papiere und deren Zitationen. Wir bieten eine Basis für die Autorschaftszuweisung unter Verwendung des Datensatzes, implementieren eine Reihe modernster Modelle im Bereich des Graphenrepräsentationslernens für die Linkvorhersage und diskutieren die Nützlichkeit unserer generierten Wissensgraphenstruktur.