HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

4 papers found

YuLan-Mini: Ein offenes dateneffizientes Sprachmodell
YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

Die effektive Vorabtrainierung großer Sprachmodelle (LLMs) war aufgrund des enormen Ressourcenbedarfs und der Komplexität der technischen Prozesse eine Herausforderung. Dieses Papier präsentiert einen detaillierten technischen Bericht über YuLan-Mini, ein hochleistungsfähiges Basismodell mit 2,42 Milliarden Parametern, das Spitzenleistungen unter Modellen ähnlicher Parametergröße erzielt. Unser Vorabtrainierungsansatz konzentriert sich darauf, die Trainierungseffektivität durch drei Schlüsseltechniken zu verbessern: ein ausgeklügeltes Daten-Pipeline, die Datenbereinigung mit Datenplanungsstrategien kombiniert, eine robuste Optimierungsmethode zur Reduzierung von Trainingsinstabilität und ein effektiver Ansatz zur Anwendung von Annealing, der gezielte Datenauswahl und Training mit langem Kontext integriert. Bemerkenswerterweise erreicht YuLan-Mini, trainiert mit 1,08 Billionen Tokens, eine Leistung, die mit führenden Modellen der Branche vergleichbar ist, die deutlich mehr Daten erfordern. Um die Reproduktion zu erleichtern, veröffentlichen wir alle Details zur Datenzusammensetzung für jede Trainingsphase. Projektdetails sind unter folgendem Link abrufbar: https://github.com/RUC-GSAI/YuLan-Mini.

Eine Silberkugel oder ein Kompromiss für volle Aufmerksamkeit? Eine umfassende Studie zur Kontextkompression basierend auf Gist-Token.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

In dieser Arbeit bieten wir eine gründliche Untersuchung von gisträger Kontextkompressionsmethoden zur Verbesserung der Verarbeitung von langem Kontext in großen Sprachmodellen. Wir konzentrieren uns auf zwei zentrale Fragen: (1) Wie gut können diese Methoden vollständige Aufmerksamkeitsmodelle ersetzen? und (2) Welche potenziellen Fehlermuster entstehen durch die Kompression? Durch umfangreiche Experimente zeigen wir, dass gisträger Kompression nahezu verlustfreie Leistungen bei Aufgaben wie generierungsgesteigerter Rückgewinnung und Langdokument-F&A erzielen kann, jedoch Herausforderungen bei Aufgaben wie synthetischer Rückruf gegenübersteht. Darüber hinaus identifizieren wir drei zentrale Fehlermuster: verloren durch die Grenze, verloren bei Überraschung und verloren auf dem Weg. Um diese Probleme zu mildern, schlagen wir zwei effektive Strategien vor: feinkörniges Autoencoding, das die Rekonstruktion von ursprünglichen Token-Informationen verbessert, und segmentweise Token-Wichtigkeitsschätzung, die die Optimierung basierend auf Token-Abhängigkeiten anpasst. Unsere Arbeit liefert wertvolle Einblicke in das Verständnis von gisträger Token-basierter Kontextkompression und bietet praktische Strategien zur Verbesserung der Kompressionsfähigkeiten.

MMFactory: Eine universelle Lösungssuchmaschine für Vision-Sprache-Aufgaben
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

Durch Fortschritte in grundlegenden und Vision-Sprach-Modellen sowie effektiven Feinabstimmungstechniken wurden eine Vielzahl von sowohl allgemeinen als auch speziellen Modellen für verschiedene visuelle Aufgaben entwickelt. Trotz der Flexibilität und Zugänglichkeit dieser Modelle ist kein einzelnes Modell in der Lage, alle Aufgaben und/oder Anwendungen zu bewältigen, die von potenziellen Benutzern vorgestellt werden könnten. Aktuelle Ansätze wie visuelle Programmierung und multimodale LLMs mit integrierten Tools zielen darauf ab, komplexe visuelle Aufgaben mittels Programmsynthese zu bewältigen. Diese Ansätze übersehen jedoch Benutzerbeschränkungen (z. B. Leistungs-/Rechenanforderungen), erzeugen lösungsspezifische Lösungen zur Testzeit, die schwer zu implementieren sind, und erfordern manchmal Low-Level-Anweisungen, die über die Fähigkeiten eines unerfahrenen Benutzers hinausgehen könnten. Um diese Einschränkungen zu adressieren, stellen wir MMFactory vor, ein universelles Framework, das Modell- und Metriken-Routing-Komponenten umfasst, die wie eine Lösungssuchmaschine über verschiedene verfügbare Modelle agieren. Basierend auf einer Aufgabenbeschreibung und einigen Beispielein- und -ausgabepaaren sowie (optional) Ressourcen- und/oder Leistungsbeschränkungen kann MMFactory eine vielfältige Auswahl an programmatischen Lösungen vorschlagen, indem es visio-linguale Tools aus seinem Modell-Repository instanziiert und kombiniert. Neben der Synthese dieser Lösungen schlägt MMFactory auch Metriken und Benchmarks für Leistungs-/Ressourceneigenschaften vor, die es Benutzern ermöglichen, eine Lösung auszuwählen, die ihren einzigartigen Designbeschränkungen entspricht. Aus technischer Sicht haben wir auch einen auf einem Ausschuss basierenden Lösungsvorschlag eingeführt, der auf mehragentenbasierten LLM-Gesprächen beruht, um ausführbare, vielfältige, universelle und robuste Lösungen für den Benutzer zu generieren. Experimentelle Ergebnisse zeigen, dass MMFactory vorhandene Methoden übertrifft, indem es maßgeschneiderte Lösungen für Benutzerproblem-Spezifikationen liefert. Die Projektseite ist unter https://davidhalladay.github.io/mmfactory_demo verfügbar.

Molar: Multimodale LLMs mit kollaborativer Filterausrichtung für verbesserte sequenzielle Empfehlungen.
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang

Sequenzielle Empfehlungssysteme (SR) haben sich in den letzten zehn Jahren erheblich weiterentwickelt, indem sie von traditionellem kollaborativem Filtern auf Deep-Learning-Ansätze und kürzlich auf große Sprachmodelle (LLMs) übergegangen sind. Während die Verwendung von LLMs bedeutende Fortschritte vorangetrieben hat, fehlt es diesen Modellen grundsätzlich an kollaborativen Filterinformationen, da sie hauptsächlich auf textuellen Inhalten basieren und andere Modalitäten vernachlässigen, was zu einer suboptimalen Empfehlungsleistung führt. Um diese Einschränkung zu beheben, schlagen wir Molar vor, ein Multimodales großes Sprachsequenzielles Empfehlungsframework, das mehrere Inhaltsmodalitäten mit ID-Informationen integriert, um kollaborative Signale effektiv zu erfassen. Molar verwendet ein MLLM, um vereinheitlichte Artikelrepräsentationen aus sowohl textuellen als auch nicht-textuellen Daten zu generieren, was eine umfassende multimodale Modellierung ermöglicht und die Artikel-Einbettungen bereichert. Darüber hinaus integriert es kollaborative Filterungssignale durch einen Post-Alignment-Mechanismus, der Benutzerrepräsentationen aus inhaltsbasierten und ID-basierten Modellen abgleicht, um eine präzise Personalisierung und robuste Leistung zu gewährleisten. Durch die nahtlose Kombination von multimodalen Inhalten mit kollaborativen Filterungseinblicken erfasst Molar sowohl Benutzerinteressen als auch kontextuelle Semantik, was zu einer überlegenen Empfehlungsgenauigkeit führt. Umfangreiche Experimente bestätigen, dass Molar signifikant traditionelle und LLM-basierte Baselines übertrifft und damit seine Stärke bei der Nutzung von multimodalen Daten und kollaborativen Signalen für sequenzielle Empfehlungsaufgaben unterstreicht. Der Quellcode ist unter https://anonymous.4open.science/r/Molar-8B06/ verfügbar.

MMFactory: Eine universelle Lösungssuchmaschine für Vision-Sprache-Aufgaben
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal