HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

9 papers found

Was ist wichtig beim Aufbau von Modellen für die Verbindung von Bildern und Sprache?
What matters when building vision-language models?

May 3

ByHugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh

104

Das wachsende Interesse an Vision-Language-Modellen (VLMs) wurde durch Verbesserungen bei großen Sprachmodellen und Vision-Transformern vorangetrieben. Trotz der Fülle an Literatur zu diesem Thema stellen wir fest, dass kritische Entscheidungen bezüglich des Designs von VLMs oft nicht gerechtfertigt sind. Wir argumentieren, dass diese nicht unterstützten Entscheidungen den Fortschritt in diesem Bereich behindern, da es schwierig wird zu identifizieren, welche Entscheidungen die Leistung des Modells verbessern. Um dieses Problem anzugehen, führen wir umfangreiche Experimente zu vortrainierten Modellen, Architekturwahl, Daten und Trainingsmethoden durch. Unsere Zusammenfassung der Ergebnisse umfasst die Entwicklung von Idefics2, einem effizienten grundlegenden VLM mit 8 Milliarden Parametern. Idefics2 erzielt Spitzenleistungen innerhalb seiner Größenkategorie in verschiedenen multimodalen Benchmarks und steht oft auf Augenhöhe mit Modellen, die viermal so groß sind. Wir veröffentlichen das Modell (Basis, instruiert und Chat) zusammen mit den für das Training erstellten Datensätzen.

RLHF-Ablauf: Von der Belohnungsmodellierung bis zum Online-RLHF
RLHF Workflow: From Reward Modeling to Online RLHF

May 13

ByHanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang

In diesem technischen Bericht präsentieren wir den Arbeitsablauf des Online-Iterativen Verstärkungslernens aus menschlichem Feedback (RLHF), der weithin als überlegen gegenüber seinem Offline-Gegenstück in der jüngsten Literatur zu großen Sprachmodellen (LLM) gilt. Allerdings sind bestehende Open-Source RLHF-Projekte immer noch weitgehend auf das Offline-Lernumfeld beschränkt. In diesem technischen Bericht zielen wir darauf ab, diese Lücke zu schließen und ein detailliertes Rezept bereitzustellen, das einfach reproduzierbar ist für das Online-Iterative RLHF. Insbesondere, da Online-Menschliches Feedback für Open-Source-Communities mit begrenzten Ressourcen in der Regel nicht durchführbar ist, beginnen wir damit, Präferenzmodelle unter Verwendung einer vielfältigen Auswahl an Open-Source-Datensätzen zu konstruieren und das konstruierte Proxy-Präferenzmodell zu verwenden, um menschliches Feedback zu approximieren. Anschließend diskutieren wir die theoretischen Erkenntnisse und algorithmischen Prinzipien hinter dem Online-Iterativen RLHF, gefolgt von einer detaillierten praktischen Umsetzung. Unser trainiertes LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, erzielt beeindruckende Leistungen bei LLM-Chatbot-Benchmarks, einschließlich AlpacaEval-2, Arena-Hard und MT-Bench, sowie anderen akademischen Benchmarks wie HumanEval und TruthfulQA. Wir haben gezeigt, dass überwachtes Feintuning (SFT) und Iteratives RLHF Spitzenleistungen mit vollständig Open-Source-Datensätzen erzielen können. Darüber hinaus haben wir unsere Modelle, kuratierten Datensätze und umfassenden Schritt-für-Schritt-Code-Anleitungen öffentlich zugänglich gemacht. Bitte beachten Sie für weitere detaillierte Informationen https://github.com/RLHFlow/RLHF-Reward-Modeling und https://github.com/RLHFlow/Online-RLHF.

SUTRA: Skalierbare mehrsprachige Sprachmodellarchitektur
SUTRA: Scalable Multilingual Language Model Architecture

May 7

ByAbhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry

In diesem Paper stellen wir SUTRA vor, eine mehrsprachige Large Language Model-Architektur, die in der Lage ist, Texte in über 50 Sprachen zu verstehen, zu analysieren und zu generieren. Das Design von SUTRA entkoppelt auf einzigartige Weise das grundlegende konzeptionelle Verständnis von der sprachspezifischen Verarbeitung, was eine skalierbare und effiziente mehrsprachige Ausrichtung und Lernfähigkeit ermöglicht. Durch die Verwendung eines Mixture of Experts-Frameworks sowohl in der Sprach- als auch in der Konzeptverarbeitung zeigt SUTRA sowohl Recheneffizienz als auch Reaktionsfähigkeit. In umfangreichen Evaluierungen wird gezeigt, dass SUTRA bestehende Modelle wie GPT-3.5 und Llama2 auf führenden Massive Multitask Language Understanding (MMLU)-Benchmarks für mehrsprachige Aufgaben um 20-30% übertrifft. SUTRA-Modelle sind auch Online-Large Language Models, die Wissen aus dem Internet nutzen können, um halluzinationsfreie, sachliche und aktuelle Antworten zu liefern, während sie ihre mehrsprachigen Fähigkeiten beibehalten. Darüber hinaus untersuchen wir die breiteren Auswirkungen seiner Architektur auf die Zukunft der mehrsprachigen KI und heben ihr Potenzial hervor, den weltweiten Zugang zur KI-Technologie zu demokratisieren und die Gleichberechtigung und Nützlichkeit von KI in Regionen mit überwiegend nicht-englischen Sprachen zu verbessern. Unsere Ergebnisse legen nahe, dass SUTRA nicht nur entscheidende Lücken in den Fähigkeiten mehrsprachiger Modelle schließt, sondern auch einen neuen Maßstab für operative Effizienz und Skalierbarkeit in KI-Anwendungen setzt.

SambaNova SN40L: Überwindung der KI-Speichermauer mit Datenfluss und Zusammensetzung von Experten
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13

ByRaghu Prabhakar, Ram Sivaramakrishnan, Darshan Gandhi, Yun Du, Mingran Wang, Xiangyu Song, Kejie Zhang, Tianren Gao, Angela Wang, Karen Li, Yongning Sheng, Joshua Brot, Denis Sokolov, Apurv Vivek, Calvin Leung, Arjun Sabnis, Jiayu Bai, Tuowen Zhao, Mark Gottscho, David Jackson, Mark Luttrell, Manish K. Shah, Edison Chen, Kaizhao Liang, Swayambhoo Jain, Urmish Thakker, Dawei Huang, Sumti Jairath, Kevin J. Brown, Kunle Olukotun

Monolithische große Sprachmodelle (LLMs) wie GPT-4 haben den Weg für moderne generative KI-Anwendungen geebnet. Das Training, die Bereitstellung und die Wartung monolithischer LLMs im großen Maßstab bleiben jedoch prohibitiv teuer und herausfordernd. Das unverhältnismäßige Wachstum des Rechen-zu-Speicher-Verhältnisses moderner KI-Beschleuniger hat eine Speichermauer geschaffen, die neue Methoden zur Bereitstellung von KI erforderlich macht. Die Komposition von Experten (CoE) ist ein alternativer modulare Ansatz, der die Kosten und Komplexität des Trainings und der Bereitstellung senkt. Allerdings stellt dieser Ansatz zwei Hauptprobleme bei der Verwendung herkömmlicher Hardware dar: (1) Ohne verschmolzene Operationen haben kleinere Modelle eine niedrigere operationale Intensität, was es schwieriger macht, eine hohe Auslastung zu erreichen; und (2) das Hosting einer großen Anzahl von Modellen kann entweder prohibitiv teuer sein oder langsam, wenn dynamisch zwischen ihnen gewechselt wird. In diesem Paper beschreiben wir, wie die Kombination von CoE, Streaming-Datenfluss und einem dreistufigen Speichersystem die KI-Speichermauer skaliert. Wir beschreiben Samba-CoE, ein CoE-System mit 150 Experten und insgesamt einer Billion Parametern. Wir setzen Samba-CoE auf der SambaNova SN40L Reconfigurable Dataflow Unit (RDU) ein - einer kommerziellen Datenfluss-Beschleunigerarchitektur, die für Unternehmensinferenz- und Trainingsanwendungen gemeinsam entwickelt wurde. Der Chip führt ein neues dreistufiges Speichersystem mit verteiltem SRAM auf dem Chip, HBM auf dem Package und DDR DRAM außerhalb des Packages ein. Ein dediziertes Inter-RDU-Netzwerk ermöglicht das Skalieren über mehrere Sockets hinweg. Wir zeigen Beschleunigungen von 2x bis 13x bei verschiedenen Benchmarks, die auf acht RDU-Sockets im Vergleich zu einem nicht verschmolzenen Baseline-System ausgeführt werden. Wir zeigen, dass für CoE-Inferenzbereitstellungen der 8-Socket-RDU-Knoten den Maschinen-Footprint um bis zu 19x reduziert, die Modellwechselzeit um das 15- bis 31-fache beschleunigt und insgesamt eine Beschleunigung von 3,7x gegenüber einem DGX H100 und 6,6x gegenüber einem DGX A100 erreicht.

MS MARCO Web Search: Ein umfangreicher, informationsreicher Web-Datensatz mit Millionen echter Klick-Labels
MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

May 13

ByQi Chen, Xiubo Geng, Corby Rosset, Carolyn Buractaon, Jingwen Lu, Tao Shen, Kun Zhou, Chenyan Xiong, Yeyun Gong, Paul Bennett, Nick Craswell, Xing Xie, Fan Yang, Bryan Tower, Nikhil Rao, Anlei Dong, Wenqi Jiang, Zheng Liu, Mingqin Li, Chuanjie Liu, Zengzhong Li, Rangan Majumder, Jennifer Neville, Andy Oakley, Knut Magne Risvik, Harsha Vardhan Simhadri, Manik Varma, Yujing Wang, Linjun Yang, Mao Yang, Ce Zhang

Jüngste Durchbrüche bei großen Modellen haben die entscheidende Bedeutung von Datenausmaß, Labels und Modalitäten hervorgehoben. In diesem Papier stellen wir MS MARCO Web Search vor, den ersten groß angelegten, informationsreichen Web-Datensatz, der Millionen von tatsächlichen angeklickten Anfrage-Dokument-Labels enthält. Dieser Datensatz ahmt realistisch die Verteilung von Webdokumenten und Anfragen nach und liefert umfassende Informationen für verschiedene Arten von nachgelagerten Aufgaben. Er ermutigt zu Forschungen in verschiedenen Bereichen, wie generische End-to-End-Neural-Indexer-Modelle, generische Einbettungsmodelle und Informationssysteme der nächsten Generation mit großen Sprachmodellen. MS MARCO Web Search bietet einen Abrufbenchmark mit drei Web-Abrufherausforderungsaufgaben, die Innovationen sowohl in den Forschungsbereichen maschinelles Lernen als auch Informationssysteme erfordern. Als erster Datensatz, der die Anforderungen an große, reale und umfassende Daten erfüllt, ebnet MS MARCO Web Search den Weg für zukünftige Fortschritte in der KI- und Systemforschung. Der MS MARCO Web Search-Datensatz ist verfügbar unter: https://github.com/microsoft/MS-MARCO-Web-Search.

Plot2Code: Ein umfassender Maßstab zur Bewertung von multimodalen großen Sprachmodellen bei der Codegenerierung aus wissenschaftlichen Diagrammen.
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

May 13

ByChengyue Wu, Yixiao Ge, Qiushan Guo, Jiahao Wang, Zhixuan Liang, Zeyu Lu, Ying Shan, Ping Luo

Der bemerkenswerte Fortschritt von Multi-modalen Large Language Models (MLLMs) hat aufgrund ihrer überragenden Leistung in visuellen Kontexten erhebliche Aufmerksamkeit auf sich gezogen. Allerdings wurden ihre Fähigkeiten, visuelle Abbildungen in ausführbaren Code umzuwandeln, noch nicht gründlich bewertet. Um diesem Thema gerecht zu werden, stellen wir Plot2Code vor, einen umfassenden visuellen Codierungsbenchmark, der für eine faire und eingehende Bewertung von MLLMs entwickelt wurde. Wir haben sorgfältig 132 manuell ausgewählte hochwertige matplotlib-Plots aus sechs Plot-Typen aus öffentlich verfügbaren matplotlib-Galerien gesammelt. Für jeden Plot bieten wir sorgfältig den Quellcode und eine beschreibende Anleitung, die von GPT-4 zusammengefasst wurde. Dieser Ansatz ermöglicht es Plot2Code, die Code-Fähigkeiten von MLLMs umfassend über verschiedene Eingabemodalitäten zu bewerten. Darüber hinaus schlagen wir drei automatische Bewertungsmetriken vor, darunter die Code-Bestehensrate, das Textübereinstimmungsverhältnis und die Gesamtbewertung von GPT-4V, für eine fein abgestufte Bewertung des Ausgabecodes und der gerenderten Bilder. Anstatt nur bestehen oder nicht bestehen zu beurteilen, verwenden wir GPT-4V, um eine Gesamtbeurteilung zwischen den generierten und Referenzbildern abzugeben, was sich als konsistent mit der menschlichen Bewertung erwiesen hat. Die Evaluierungsergebnisse, die Analysen von 14 MLLMs wie dem proprietären GPT-4V, Gemini-Pro und dem Open-Source Mini-Gemini umfassen, heben die erheblichen Herausforderungen hervor, die Plot2Code darstellt. Mit Plot2Code zeigen wir auf, dass die meisten bestehenden MLLMs Schwierigkeiten mit der visuellen Codierung für textreiche Plots haben und stark auf textuelle Anweisungen angewiesen sind. Wir hoffen, dass die Evaluierungsergebnisse von Plot2Code zur visuellen Codierung die zukünftige Entwicklung von MLLMs lenken werden. Alle Daten, die mit Plot2Code verbunden sind, sind unter https://huggingface.co/datasets/TencentARC/Plot2Code verfügbar.

Piccolo2: Allgemeine Texteinbettung mit Training von Multi-Task-Hybridverlusten.
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training

May 11

ByJunqin Huang, Zhongjie Hu, Zihao Jing, Mengya Gao, Yichao Wu

In diesem Bericht stellen wir Piccolo2 vor, ein Einbettungsmodell, das bei der umfassenden Bewertung über 6 Aufgaben im CMTEB-Benchmark andere Modelle übertrifft und einen neuen Stand der Technik setzt. Piccolo2 nutzt hauptsächlich einen effizienten Multi-Task-Hybridverlust-Trainingsansatz, der Textdaten und Labels aus verschiedenen nachgelagerten Aufgaben effektiv nutzt. Darüber hinaus skaliert Piccolo2 die Einbettungsdimension hoch und verwendet MRL-Training, um flexiblere Vektordimensionen zu unterstützen. Die neuesten Informationen zu den Piccolo-Modellen finden Sie unter: https://huggingface.co/sensenova/

LogoMotion: Visuell verankerte Code-Generierung für inhaltsbewusste Animationen
LogoMotion: Visually Grounded Code Generation for Content-Aware Animation

May 11

ByVivian Liu, Rubaiat Habib Kazi, Li-Yi Wei, Matthew Fisher, Timothy Langlois, Seth Walker, Lydia Chilton

Animierte Logos sind eine überzeugende und allgegenwärtige Möglichkeit, wie Einzelpersonen und Marken sich online präsentieren. Die manuelle Erstellung dieser Logos kann erhebliche künstlerische Fähigkeiten und Mühe erfordern. Um Anfängern beim Animieren von Logos zu helfen, bieten Designwerkzeuge derzeit Vorlagen und Animationsvorgaben an. Diese Lösungen können jedoch in ihrem Ausdrucksspektrum begrenzt sein. Große Sprachmodelle haben das Potenzial, Anfängern zu helfen, animierte Logos zu erstellen, indem sie Animationscode generieren, der auf ihren Inhalten zugeschnitten ist. In diesem Papier stellen wir LogoMotion vor, ein auf LLM basierendes System, das ein geschichtetes Dokument entgegennimmt und animierte Logos durch visuell verankerte Programmsynthese generiert. Wir stellen Techniken vor, um eine HTML-Repräsentation einer Leinwand zu erstellen, primäre und sekundäre Elemente zu identifizieren, Animationscode zu synthetisieren und Animationsfehler visuell zu debuggen. Im Vergleich zu einem branchenüblichen Tool stellen wir fest, dass LogoMotion Animationen produziert, die inhaltssensibler sind und qualitativ gleichwertig sind. Wir schließen mit einer Diskussion über die Auswirkungen von LLM-generierten Animationen auf das Motion Design.

Große Sprachmodelle als Planungsbereichsgeneratoren
Large Language Models as Planning Domain Generators

Apr 2

ByJames Oswald, Kavitha Srinivas, Harsha Kokel, Junkyu Lee, Michael Katz, Shirin Sohrabi

Die Entwicklung von Domänenmodellen ist einer der wenigen verbleibenden Bereiche, die manuelle menschliche Arbeit in der KI-Planung erfordern. Daher ist es wünschenswert, den Prozess der Domänenmodellgenerierung zu automatisieren, um die Planung zugänglicher zu machen. Zu diesem Zweck untersuchen wir, ob große Sprachmodelle (LLMs) verwendet werden können, um Planungsdomänenmodelle aus einfachen textuellen Beschreibungen zu generieren. Speziell führen wir ein Rahmenwerk zur automatisierten Bewertung von von LLM generierten Domänen ein, indem wir die Sätze von Plänen für Domäneninstanzen vergleichen. Schließlich führen wir eine empirische Analyse von 7 großen Sprachmodellen durch, einschließlich Codierungs- und Chatmodellen in 9 verschiedenen Planungsbereichen und unter drei Klassen von natürlichen Sprachdomänenbeschreibungen. Unsere Ergebnisse deuten darauf hin, dass LLMs, insbesondere solche mit hoher Parameteranzahl, ein moderates Maß an Kompetenz bei der Generierung korrekter Planungsdomeinen aus natürlichsprachlichen Beschreibungen aufweisen. Unser Code ist unter https://github.com/IBM/NL2PDDL verfügbar.

SambaNova SN40L: Überwindung der KI-Speichermauer mit Datenfluss und Zusammensetzung von Experten
SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts

May 13