Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Bildbearbeitung umfasst eine Vielzahl komplexer Aufgaben und erfordert effiziente und präzise Manipulationstechniken. In diesem Artikel präsentieren wir MagicQuill, ein integriertes Bildbearbeitungssystem, das eine schnelle Umsetzung kreativer Ideen ermöglicht. Unser System verfügt über eine schlankes, aber funktional robustes Benutzeroberfläche, die die Artikulation von Bearbeitungsvorgängen (z. B. das Einfügen von Elementen, das Löschen von Objekten, das Ändern von Farben) mit minimalem Aufwand ermöglicht. Diese Interaktionen werden von einem multimodalen großen Sprachmodell (MLLM) überwacht, um Bearbeitungsabsichten in Echtzeit vorherzusehen, ohne dass eine explizite Eingabeaufforderung erforderlich ist. Schließlich wenden wir einen leistungsstarken Diffusionsprior an, der durch ein sorgfältig erlerntes Zwei-Zweig-Plug-in-Modul verbessert wird, um Bearbeitungsanfragen mit präziser Steuerung zu verarbeiten. Experimentelle Ergebnisse zeigen die Wirksamkeit von MagicQuill bei der Erzielung hochwertiger Bildbearbeitungen. Besuchen Sie bitte https://magic-quill.github.io, um unser System auszuprobieren.
Diese Arbeit untersucht die Erweiterung der Fähigkeiten großer Sprachmodelle (LLMs), die auf Text vortrainiert sind, um 3D-Meshes innerhalb eines vereinheitlichten Modells zu generieren. Dies bietet wesentliche Vorteile, indem (1) räumliches Wissen genutzt wird, das bereits in LLMs eingebettet ist und aus textuellen Quellen wie 3D-Tutorials stammt, und (2) eine konversationelle 3D-Generierung und Mesh-Verständnis ermöglicht wird. Eine Hauptherausforderung besteht darin, 3D-Mesh-Daten effektiv in diskrete Tokens zu tokenisieren, die von LLMs nahtlos verarbeitet werden können. Um dies zu bewältigen, stellen wir LLaMA-Mesh vor, einen neuartigen Ansatz, der die Eckkoordinaten und Flächendefinitionen von 3D-Meshes als reinen Text darstellt, was eine direkte Integration mit LLMs ohne Erweiterung des Vokabulars ermöglicht. Wir erstellen einen überwachten Feinabstimmungsdatensatz (SFT), der vortrainierten LLMs ermöglicht, (1) 3D-Meshes aus Texteingaben zu generieren, (2) bei Bedarf ineinander verschachtelte Text- und 3D-Mesh-Ausgaben zu erzeugen und (3) 3D-Meshes zu verstehen und zu interpretieren. Unsere Arbeit ist die erste, die zeigt, dass LLMs feinabgestimmt werden können, um komplexe räumliche Kenntnisse für die 3D-Mesh-Generierung in einem textbasierten Format zu erlangen, wodurch die 3D- und Textmodalitäten effektiv vereinheitlicht werden. LLaMA-Mesh erreicht eine Mesh-Generierungsqualität auf Augenhöhe mit Modellen, die von Grund auf trainiert wurden, und behält gleichzeitig eine starke Textgenerierungsleistung bei.
Mit dem stetigen Wachstum von Sprachmodellen wachsen auch ihre Vokabulare. Dies hat den Speicherbedarf von LLMs während des Trainings unverhältnismäßig auf eine einzige Schicht verschoben: die Kreuzentropie bei der Verlustberechnung. Die Kreuzentropie erstellt eine Logit-Matrix mit Einträgen für jedes Paar von Eingabetoken und Vokabularelementen und verbraucht für kleine Modelle eine Größenordnung mehr Speicher als der Rest des LLM zusammen. Wir schlagen Cut Cross-Entropy (CCE) vor, eine Methode, die den Kreuzentropieverlust berechnet, ohne die Logits für alle Token in den globalen Speicher zu materialisieren. Stattdessen berechnet CCE nur den Logit für das korrekte Token und bewertet die Log-Sum-Exp über alle Logits dynamisch. Wir implementieren einen benutzerdefinierten Kernel, der die Matrixmultiplikationen und die Log-Sum-Exp-Reduktion über das Vokabular im Flash-Speicher durchführt, wodurch der globale Speicherverbrauch für die Kreuzentropieberechnung vernachlässigbar wird. Dies hat einen dramatischen Effekt. Anhand des Gemma 2 (2B)-Modells reduziert CCE den Speicherbedarf der Verlustberechnung von 24 GB auf 1 MB und den Gesamtspeicherverbrauch des Klassifikatorkopfes während des Trainings von 28 GB auf 1 GB. Um die Leistungsfähigkeit von CCE zu verbessern, nutzen wir die inhärente Sparsamkeit von Softmax aus und schlagen vor, Elemente der Gradientenberechnung zu überspringen, die einen vernachlässigbaren (d. h. unterhalb der numerischen Präzision liegenden) Beitrag zum Gradienten haben. Experimente zeigen, dass die dramatische Reduzierung des Speicherverbrauchs ohne Einbußen bei der Trainingsgeschwindigkeit oder Konvergenz erreicht wird.
Große Sprachmodelle (LLMs) versprechen, die aktuellen klinischen Systeme durch ihre überlegenen Fähigkeiten bei der Verarbeitung medizinischer Texte und medizinischer Zulassungsprüfungen zu revolutionieren. Gleichzeitig werden traditionelle ML-Modelle wie SVM und XGBoost nach wie vor hauptsächlich bei klinischen Vorhersageaufgaben eingesetzt. Eine aufkommende Frage lautet: Können LLMs traditionelle ML-Modelle in der klinischen Vorhersage übertreffen? Daher haben wir einen neuen Benchmark namens ClinicalBench entwickelt, um die klinischen Vorhersagemodellierungsfähigkeiten sowohl von allgemeinen als auch von medizinischen LLMs umfassend zu untersuchen und sie mit traditionellen ML-Modellen zu vergleichen. ClinicalBench umfasst drei gängige klinische Vorhersageaufgaben, zwei Datenbanken, 14 allgemeine LLMs, 8 medizinische LLMs und 11 traditionelle ML-Modelle. Durch umfangreiche empirische Untersuchungen haben wir festgestellt, dass sowohl allgemeine als auch medizinische LLMs, selbst bei unterschiedlichen Modellskalen und verschiedenen Aufforderungs- oder Feinabstimmungsstrategien, traditionelle ML-Modelle in der klinischen Vorhersage noch nicht übertreffen können. Dies wirft ein Licht auf ihre potenziellen Defizite im klinischen Denken und Entscheidungsfindung. Wir fordern zur Vorsicht auf, wenn Praktiker LLMs in klinischen Anwendungen einsetzen. ClinicalBench kann dazu genutzt werden, die Kluft zwischen der Entwicklung von LLMs für das Gesundheitswesen und der realen klinischen Praxis zu überbrücken.
Videoaufnahmen von Benutzeraktivitäten, insbesondere Desktop-Aufnahmen, bieten eine reichhaltige Datenquelle zur Analyse von Benutzerverhalten und Automatisierung von Prozessen. Trotz Fortschritten bei Vision-Language-Modellen (VLMs) und ihrer zunehmenden Verwendung in der Videoanalyse bleibt die Extraktion von Benutzeraktionen aus Desktop-Aufnahmen ein wenig erforschtes Gebiet. Dieser Artikel befasst sich mit dieser Lücke, indem er zwei neuartige VLM-basierte Methoden zur Extraktion von Benutzeraktionen vorschlägt: den direkten framebasierten Ansatz (DF), der ausgewählte Frames direkt in VLMs eingibt, und den differentiellen framebasierten Ansatz (DiffF), der explizite Frame-Unterschiede einbezieht, die mithilfe von Computer-Vision-Techniken erkannt werden. Wir evaluieren diese Methoden anhand eines einfachen selbst erstellten Datensatzes und eines fortgeschrittenen Benchmarks, der aus früheren Arbeiten übernommen wurde. Unsere Ergebnisse zeigen, dass der DF-Ansatz eine Genauigkeit von 70% bis 80% bei der Identifizierung von Benutzeraktionen erreicht, wobei die extrahierten Aktionssequenzen durch Robotic Process Automation reproduzierbar sind. Wir stellen fest, dass VLMs zwar Potenzial zeigen, die Einbeziehung expliziter UI-Änderungen jedoch die Leistung beeinträchtigen kann, wodurch der DF-Ansatz zuverlässiger wird. Diese Arbeit stellt die erste Anwendung von VLMs zur Extraktion von Benutzeraktionssequenzen aus Desktop-Aufnahmen dar und trägt neue Methoden, Benchmarks und Erkenntnisse für zukünftige Forschung bei.
Obwohl Diffusionsmodelle bemerkenswert hochwertige Stichproben erzeugen können, sind sie intrinsisch durch ihr teures iteratives Stichprobenverfahren eingeschränkt. Konsistenzmodelle (CMs) sind kürzlich als vielversprechende Methode zur Destillation von Diffusionsmodellen aufgetaucht, die die Kosten der Stichprobenahme reduzieren, indem sie hochwertige Stichproben in nur wenigen Iterationen generieren. Die Destillation von Konsistenzmodellen zielt darauf ab, die gewöhnliche Differentialgleichung des Wahrscheinlichkeitsflusses zu lösen, die durch ein vorhandenes Diffusionsmodell definiert ist. CMs werden nicht direkt darauf trainiert, den Fehler gegenüber einem ODE-Löser zu minimieren, sondern verwenden ein objektiveres, rechnerisch handhabbares Ziel. Um zu untersuchen, wie effektiv CMs die ODE des Wahrscheinlichkeitsflusses lösen und welchen Einfluss etwaiger induzierter Fehler auf die Qualität der erzeugten Stichproben haben, stellen wir Direkte CMs vor, die diesen Fehler direkt minimieren. Interessanterweise stellen wir fest, dass Direkte CMs den Fehler bei der ODE-Lösung im Vergleich zu CMs reduzieren, aber auch zu deutlich schlechterer Stichprobenqualität führen, was die Frage aufwirft, warum CMs überhaupt gut funktionieren. Der vollständige Code ist verfügbar unter: https://github.com/layer6ai-labs/direct-cms.
Der Drang zur Automatisierung von Zellnetzbetrieb hat mit der zunehmenden Komplexität dieser Systeme zugenommen. Trotz Fortschritten bleibt die vollständige Autonomie derzeit aufgrund der Abhängigkeit von menschlichem Eingreifen zur Modellierung von Netzwerkverhalten und Definition von Richtlinien zur Erfüllung von Zielanforderungen außer Reichweite. Netzwerk-Digitalzwillinge (NDTs) haben das Potenzial gezeigt, die Netzwerkintelligenz zu verbessern, aber die erfolgreiche Implementierung dieser Technologie wird durch architekturspezifische Anwendungsfälle eingeschränkt, was ihre Rolle bei der Förderung der Netzwerkautonomie begrenzt. Eine leistungsfähigere Netzwerkintelligenz oder "Telekommunikationsgehirn" ist erforderlich, um eine nahtlose, autonome Verwaltung von Zellnetzwerken zu ermöglichen. Große Sprachmodelle (LLMs) haben sich als potenzielle Enabler für diese Vision herausgestellt, stehen jedoch vor Herausforderungen bei der Netzwerkmodellierung, insbesondere bei der Argumentation und dem Umgang mit verschiedenen Datentypen. Um diese Lücken zu schließen, stellen wir Hermes vor, eine Kette von LLM-Agenten, die "Baupläne" zur Konstruktion von NDT-Instanzen durch strukturierte und erklärliche logische Schritte verwenden. Hermes ermöglicht die automatische, zuverlässige und präzise Netzwerkmodellierung verschiedener Anwendungsfälle und Konfigurationen und markiert somit einen Fortschritt hin zu vollständig autonomen Netzwerkbetrieb.