HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

7 papers found

MagicQuill: Ein intelligentes interaktives Bildbearbeitungssystem
MagicQuill: An Intelligent Interactive Image Editing System

Nov 14

ByZichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, Yujun Shen

Die Bildbearbeitung umfasst eine Vielzahl komplexer Aufgaben und erfordert effiziente und präzise Manipulationstechniken. In diesem Artikel präsentieren wir MagicQuill, ein integriertes Bildbearbeitungssystem, das eine schnelle Umsetzung kreativer Ideen ermöglicht. Unser System verfügt über eine schlankes, aber funktional robustes Benutzeroberfläche, die die Artikulation von Bearbeitungsvorgängen (z. B. das Einfügen von Elementen, das Löschen von Objekten, das Ändern von Farben) mit minimalem Aufwand ermöglicht. Diese Interaktionen werden von einem multimodalen großen Sprachmodell (MLLM) überwacht, um Bearbeitungsabsichten in Echtzeit vorherzusehen, ohne dass eine explizite Eingabeaufforderung erforderlich ist. Schließlich wenden wir einen leistungsstarken Diffusionsprior an, der durch ein sorgfältig erlerntes Zwei-Zweig-Plug-in-Modul verbessert wird, um Bearbeitungsanfragen mit präziser Steuerung zu verarbeiten. Experimentelle Ergebnisse zeigen die Wirksamkeit von MagicQuill bei der Erzielung hochwertiger Bildbearbeitungen. Besuchen Sie bitte https://magic-quill.github.io, um unser System auszuprobieren.

LLaMA-Mesh: Vereinigung von 3D-Gittergenerierung mit Sprachmodellen
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

Nov 14

ByZhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng

Diese Arbeit untersucht die Erweiterung der Fähigkeiten großer Sprachmodelle (LLMs), die auf Text vortrainiert sind, um 3D-Meshes innerhalb eines vereinheitlichten Modells zu generieren. Dies bietet wesentliche Vorteile, indem (1) räumliches Wissen genutzt wird, das bereits in LLMs eingebettet ist und aus textuellen Quellen wie 3D-Tutorials stammt, und (2) eine konversationelle 3D-Generierung und Mesh-Verständnis ermöglicht wird. Eine Hauptherausforderung besteht darin, 3D-Mesh-Daten effektiv in diskrete Tokens zu tokenisieren, die von LLMs nahtlos verarbeitet werden können. Um dies zu bewältigen, stellen wir LLaMA-Mesh vor, einen neuartigen Ansatz, der die Eckkoordinaten und Flächendefinitionen von 3D-Meshes als reinen Text darstellt, was eine direkte Integration mit LLMs ohne Erweiterung des Vokabulars ermöglicht. Wir erstellen einen überwachten Feinabstimmungsdatensatz (SFT), der vortrainierten LLMs ermöglicht, (1) 3D-Meshes aus Texteingaben zu generieren, (2) bei Bedarf ineinander verschachtelte Text- und 3D-Mesh-Ausgaben zu erzeugen und (3) 3D-Meshes zu verstehen und zu interpretieren. Unsere Arbeit ist die erste, die zeigt, dass LLMs feinabgestimmt werden können, um komplexe räumliche Kenntnisse für die 3D-Mesh-Generierung in einem textbasierten Format zu erlangen, wodurch die 3D- und Textmodalitäten effektiv vereinheitlicht werden. LLaMA-Mesh erreicht eine Mesh-Generierungsqualität auf Augenhöhe mit Modellen, die von Grund auf trainiert wurden, und behält gleichzeitig eine starke Textgenerierungsleistung bei.

Reduzieren Sie Ihre Verluste bei Sprachmodellen mit großem Wortschatz.
Cut Your Losses in Large-Vocabulary Language Models

Nov 13

ByErik Wijmans, Brody Huval, Alexander Hertzberg, Vladlen Koltun, Philipp Krähenbühl

Mit dem stetigen Wachstum von Sprachmodellen wachsen auch ihre Vokabulare. Dies hat den Speicherbedarf von LLMs während des Trainings unverhältnismäßig auf eine einzige Schicht verschoben: die Kreuzentropie bei der Verlustberechnung. Die Kreuzentropie erstellt eine Logit-Matrix mit Einträgen für jedes Paar von Eingabetoken und Vokabularelementen und verbraucht für kleine Modelle eine Größenordnung mehr Speicher als der Rest des LLM zusammen. Wir schlagen Cut Cross-Entropy (CCE) vor, eine Methode, die den Kreuzentropieverlust berechnet, ohne die Logits für alle Token in den globalen Speicher zu materialisieren. Stattdessen berechnet CCE nur den Logit für das korrekte Token und bewertet die Log-Sum-Exp über alle Logits dynamisch. Wir implementieren einen benutzerdefinierten Kernel, der die Matrixmultiplikationen und die Log-Sum-Exp-Reduktion über das Vokabular im Flash-Speicher durchführt, wodurch der globale Speicherverbrauch für die Kreuzentropieberechnung vernachlässigbar wird. Dies hat einen dramatischen Effekt. Anhand des Gemma 2 (2B)-Modells reduziert CCE den Speicherbedarf der Verlustberechnung von 24 GB auf 1 MB und den Gesamtspeicherverbrauch des Klassifikatorkopfes während des Trainings von 28 GB auf 1 GB. Um die Leistungsfähigkeit von CCE zu verbessern, nutzen wir die inhärente Sparsamkeit von Softmax aus und schlagen vor, Elemente der Gradientenberechnung zu überspringen, die einen vernachlässigbaren (d. h. unterhalb der numerischen Präzision liegenden) Beitrag zum Gradienten haben. Experimente zeigen, dass die dramatische Reduzierung des Speicherverbrauchs ohne Einbußen bei der Trainingsgeschwindigkeit oder Konvergenz erreicht wird.

ClinicalBench: Können LLMs traditionelle ML-Modelle bei klinischen Vorhersagen übertreffen?
ClinicalBench: Can LLMs Beat Traditional ML Models in Clinical Prediction?

Nov 10

ByCanyu Chen, Jian Yu, Shan Chen, Che Liu, Zhongwei Wan, Danielle Bitterman, Fei Wang, Kai Shu

Große Sprachmodelle (LLMs) versprechen, die aktuellen klinischen Systeme durch ihre überlegenen Fähigkeiten bei der Verarbeitung medizinischer Texte und medizinischer Zulassungsprüfungen zu revolutionieren. Gleichzeitig werden traditionelle ML-Modelle wie SVM und XGBoost nach wie vor hauptsächlich bei klinischen Vorhersageaufgaben eingesetzt. Eine aufkommende Frage lautet: Können LLMs traditionelle ML-Modelle in der klinischen Vorhersage übertreffen? Daher haben wir einen neuen Benchmark namens ClinicalBench entwickelt, um die klinischen Vorhersagemodellierungsfähigkeiten sowohl von allgemeinen als auch von medizinischen LLMs umfassend zu untersuchen und sie mit traditionellen ML-Modellen zu vergleichen. ClinicalBench umfasst drei gängige klinische Vorhersageaufgaben, zwei Datenbanken, 14 allgemeine LLMs, 8 medizinische LLMs und 11 traditionelle ML-Modelle. Durch umfangreiche empirische Untersuchungen haben wir festgestellt, dass sowohl allgemeine als auch medizinische LLMs, selbst bei unterschiedlichen Modellskalen und verschiedenen Aufforderungs- oder Feinabstimmungsstrategien, traditionelle ML-Modelle in der klinischen Vorhersage noch nicht übertreffen können. Dies wirft ein Licht auf ihre potenziellen Defizite im klinischen Denken und Entscheidungsfindung. Wir fordern zur Vorsicht auf, wenn Praktiker LLMs in klinischen Anwendungen einsetzen. ClinicalBench kann dazu genutzt werden, die Kluft zwischen der Entwicklung von LLMs für das Gesundheitswesen und der realen klinischen Praxis zu überbrücken.

Sharingan: Extrahieren von Benutzeraktionssequenzen aus Desktop-Aufnahmen
Sharingan: Extract User Action Sequence from Desktop Recordings

Nov 13

ByYanting Chen, Yi Ren, Xiaoting Qin, Jue Zhang, Kehong Yuan, Lu Han, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Videoaufnahmen von Benutzeraktivitäten, insbesondere Desktop-Aufnahmen, bieten eine reichhaltige Datenquelle zur Analyse von Benutzerverhalten und Automatisierung von Prozessen. Trotz Fortschritten bei Vision-Language-Modellen (VLMs) und ihrer zunehmenden Verwendung in der Videoanalyse bleibt die Extraktion von Benutzeraktionen aus Desktop-Aufnahmen ein wenig erforschtes Gebiet. Dieser Artikel befasst sich mit dieser Lücke, indem er zwei neuartige VLM-basierte Methoden zur Extraktion von Benutzeraktionen vorschlägt: den direkten framebasierten Ansatz (DF), der ausgewählte Frames direkt in VLMs eingibt, und den differentiellen framebasierten Ansatz (DiffF), der explizite Frame-Unterschiede einbezieht, die mithilfe von Computer-Vision-Techniken erkannt werden. Wir evaluieren diese Methoden anhand eines einfachen selbst erstellten Datensatzes und eines fortgeschrittenen Benchmarks, der aus früheren Arbeiten übernommen wurde. Unsere Ergebnisse zeigen, dass der DF-Ansatz eine Genauigkeit von 70% bis 80% bei der Identifizierung von Benutzeraktionen erreicht, wobei die extrahierten Aktionssequenzen durch Robotic Process Automation reproduzierbar sind. Wir stellen fest, dass VLMs zwar Potenzial zeigen, die Einbeziehung expliziter UI-Änderungen jedoch die Leistung beeinträchtigen kann, wodurch der DF-Ansatz zuverlässiger wird. Diese Arbeit stellt die erste Anwendung von VLMs zur Extraktion von Benutzeraktionssequenzen aus Desktop-Aufnahmen dar und trägt neue Methoden, Benchmarks und Erkenntnisse für zukünftige Forschung bei.

Inkonsistenzen in Konsistenzmodellen: Besseres Lösen von gewöhnlichen Differentialgleichungen impliziert nicht zwangsläufig bessere Stichproben.
Inconsistencies In Consistency Models: Better ODE Solving Does Not Imply Better Samples

Nov 13

ByNoël Vouitsis, Rasa Hosseinzadeh, Brendan Leigh Ross, Valentin Villecroze, Satya Krishna Gorti, Jesse C. Cresswell, Gabriel Loaiza-Ganem

Obwohl Diffusionsmodelle bemerkenswert hochwertige Stichproben erzeugen können, sind sie intrinsisch durch ihr teures iteratives Stichprobenverfahren eingeschränkt. Konsistenzmodelle (CMs) sind kürzlich als vielversprechende Methode zur Destillation von Diffusionsmodellen aufgetaucht, die die Kosten der Stichprobenahme reduzieren, indem sie hochwertige Stichproben in nur wenigen Iterationen generieren. Die Destillation von Konsistenzmodellen zielt darauf ab, die gewöhnliche Differentialgleichung des Wahrscheinlichkeitsflusses zu lösen, die durch ein vorhandenes Diffusionsmodell definiert ist. CMs werden nicht direkt darauf trainiert, den Fehler gegenüber einem ODE-Löser zu minimieren, sondern verwenden ein objektiveres, rechnerisch handhabbares Ziel. Um zu untersuchen, wie effektiv CMs die ODE des Wahrscheinlichkeitsflusses lösen und welchen Einfluss etwaiger induzierter Fehler auf die Qualität der erzeugten Stichproben haben, stellen wir Direkte CMs vor, die diesen Fehler direkt minimieren. Interessanterweise stellen wir fest, dass Direkte CMs den Fehler bei der ODE-Lösung im Vergleich zu CMs reduzieren, aber auch zu deutlich schlechterer Stichprobenqualität führen, was die Frage aufwirft, warum CMs überhaupt gut funktionieren. Der vollständige Code ist verfügbar unter: https://github.com/layer6ai-labs/direct-cms.

Hermes: Ein umfangreiches Sprachmodell-Framework auf dem Weg zu autonomen Netzwerken
Hermes: A Large Language Model Framework on the Journey to Autonomous Networks

Nov 10

ByFadhel Ayed, Ali Maatouk, Nicola Piovesan, Antonio De Domenico, Merouane Debbah, Zhi-Quan Luo

Der Drang zur Automatisierung von Zellnetzbetrieb hat mit der zunehmenden Komplexität dieser Systeme zugenommen. Trotz Fortschritten bleibt die vollständige Autonomie derzeit aufgrund der Abhängigkeit von menschlichem Eingreifen zur Modellierung von Netzwerkverhalten und Definition von Richtlinien zur Erfüllung von Zielanforderungen außer Reichweite. Netzwerk-Digitalzwillinge (NDTs) haben das Potenzial gezeigt, die Netzwerkintelligenz zu verbessern, aber die erfolgreiche Implementierung dieser Technologie wird durch architekturspezifische Anwendungsfälle eingeschränkt, was ihre Rolle bei der Förderung der Netzwerkautonomie begrenzt. Eine leistungsfähigere Netzwerkintelligenz oder "Telekommunikationsgehirn" ist erforderlich, um eine nahtlose, autonome Verwaltung von Zellnetzwerken zu ermöglichen. Große Sprachmodelle (LLMs) haben sich als potenzielle Enabler für diese Vision herausgestellt, stehen jedoch vor Herausforderungen bei der Netzwerkmodellierung, insbesondere bei der Argumentation und dem Umgang mit verschiedenen Datentypen. Um diese Lücken zu schließen, stellen wir Hermes vor, eine Kette von LLM-Agenten, die "Baupläne" zur Konstruktion von NDT-Instanzen durch strukturierte und erklärliche logische Schritte verwenden. Hermes ermöglicht die automatische, zuverlässige und präzise Netzwerkmodellierung verschiedener Anwendungsfälle und Konfigurationen und markiert somit einen Fortschritt hin zu vollständig autonomen Netzwerkbetrieb.