Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Integration und Bereitstellung von intelligenten Agenten auf der Basis großer Sprachmodelle (LLM) waren von Herausforderungen geprägt, die ihre Effizienz und Wirksamkeit beeinträchtigen. Zu diesen Problemen gehören die suboptimale Planung und Ressourcenzuweisung von Agentenanfragen über das LLM, die Schwierigkeiten bei der Aufrechterhaltung des Kontexts während der Interaktionen zwischen Agent und LLM sowie die inhärenten Komplexitäten bei der Integration heterogener Agenten mit unterschiedlichen Fähigkeiten und Spezialisierungen. Der rasche Anstieg der Anzahl und Komplexität von Agenten verschärft diese Probleme weiter, was häufig zu Engpässen und einer suboptimalen Nutzung von Ressourcen führt. Inspiriert von diesen Herausforderungen stellt dieser Artikel AIOS vor, ein Betriebssystem für LLM-Agenten, das große Sprachmodelle in Betriebssysteme integriert. Speziell wurde AIOS entwickelt, um die Ressourcenzuweisung zu optimieren, den Kontextwechsel zwischen Agenten zu erleichtern, die gleichzeitige Ausführung von Agenten zu ermöglichen, Werkzeugdienste für Agenten bereitzustellen und den Zugriff von Agenten zu kontrollieren. Wir präsentieren die Architektur eines solchen Betriebssystems, umreißen die zentralen Herausforderungen, die es lösen soll, und geben das grundlegende Design und die Implementierung des AIOS an. Unsere Experimente zur gleichzeitigen Ausführung mehrerer Agenten zeigen die Zuverlässigkeit und Effizienz unserer AIOS-Module. Dadurch wollen wir nicht nur die Leistung und Effizienz von LLM-Agenten verbessern, sondern auch Pionierarbeit für eine bessere Entwicklung und Bereitstellung des AIOS-Ökosystems in der Zukunft leisten. Das Projekt ist Open-Source unter https://github.com/agiresearch/AIOS verfügbar.
Text-zu-Bild-Diffusionsmodelle haben eine beispiellose Fähigkeit, vielfältige und hochwertige Bilder zu generieren. Allerdings haben sie oft Schwierigkeiten, die beabsichtigte Semantik komplexer Eingabeaufforderungen, die mehrere Themen umfassen, treu wiederzugeben. In letzter Zeit wurden zahlreiche Layout-zu-Bild-Erweiterungen eingeführt, um die Benutzerkontrolle zu verbessern und darauf abzuzielen, Themen, die durch spezifische Token repräsentiert sind, zu lokalisieren. Dennoch erzeugen diese Methoden oft semantisch ungenaue Bilder, insbesondere bei der Bearbeitung mehrerer semantisch oder visuell ähnlicher Themen. In dieser Arbeit untersuchen und analysieren wir die Ursachen dieser Einschränkungen. Unsere Untersuchung zeigt, dass das Hauptproblem aus unbeabsichtigtem semantischem Austreten zwischen Themen im Rauschunterdrückungsprozess resultiert. Dieses Austreten wird den Aufmerksamkeitsschichten des Diffusionsmodells zugeschrieben, die dazu neigen, die visuellen Merkmale verschiedener Themen zu vermischen. Um diese Probleme anzugehen, führen wir Begrenzte Aufmerksamkeit ein, eine trainingsfreie Methode zur Begrenzung des Informationsflusses im Abtastprozess. Begrenzte Aufmerksamkeit verhindert schädliches Austreten zwischen Themen und ermöglicht es, die Generierung so zu lenken, dass die Individualität jedes Themas gefördert wird, selbst bei komplexer Multi-Themen-Konditionierung. Durch umfangreiche Experimente zeigen wir, dass unsere Methode die Generierung mehrerer Themen verbessert, die besser mit den gegebenen Aufforderungen und Layouts übereinstimmen.
Diese Arbeit präsentiert FlashFace, ein praktisches Werkzeug, mit dem Benutzer ihre eigenen Fotos mühelos personalisieren können, indem sie ein oder wenige Referenzgesichtsbilder und eine Textaufforderung bereitstellen. Unser Ansatz unterscheidet sich von bestehenden Methoden zur menschlichen Fotopersonalisierung durch eine höhere Treue bei der Identitätserhaltung und eine bessere Befolgung von Anweisungen, die von zwei subtilen Designs profitieren. Erstens codieren wir die Gesichtsidentität in eine Reihe von Merkmalskarten anstelle eines Bildtokens wie in früheren Arbeiten, was es dem Modell ermöglicht, mehr Details der Referenzgesichter (z. B. Narben, Tätowierungen und Gesichtsform) beizubehalten. Zweitens führen wir eine entwirrte Integrationsstrategie ein, um die Text- und Bildanleitung während des Text-zu-Bild-Generierungsprozesses auszubalancieren und den Konflikt zwischen den Referenzgesichtern und den Textaufforderungen (z. B. Personalisierung eines Erwachsenen zu einem "Kind" oder einem "Älteren") zu mildern. Umfangreiche experimentelle Ergebnisse demonstrieren die Wirksamkeit unserer Methode in verschiedenen Anwendungen, einschließlich der Personalisierung von menschlichen Bildern, des Gesichtsaustauschs unter Sprachanweisungen, der Umwandlung virtueller Charaktere in reale Personen usw. Projektseite: https://jshilong.github.io/flashface-page.
In jüngster Zeit haben Fortschritte bei Diffusionsmodellen sie an die Spitze der Bildgenerierung gebracht. Trotz ihrer überragenden Leistung weisen Diffusionsmodelle jedoch auch Nachteile auf; sie zeichnen sich durch komplexe Architekturen und erhebliche Rechenanforderungen aus, was zu erheblichen Latenzzeiten aufgrund ihres iterativen Probenahmeprozesses führt. Um diese Einschränkungen zu mildern, stellen wir einen dualen Ansatz vor, der auf Modellminimierung und einer Reduzierung der Probenahmeschritte beruht und darauf abzielt, die Modell-Latenz signifikant zu verringern. Unsere Methodik nutzt Wissensvermittlung, um die U-Net- und Bilddekodiererarchitekturen zu optimieren, und führt eine innovative Ein-Schritt-DM-Trainingsmethode ein, die Feature-Matching und Score-Wissensvermittlung verwendet. Wir präsentieren zwei Modelle, SDXS-512 und SDXS-1024, die Inferenzgeschwindigkeiten von etwa 100 FPS (30-mal schneller als SD v1.5) bzw. 30 FP (60-mal schneller als SDXL) auf einer einzelnen GPU erreichen. Darüber hinaus bietet unser Schulungsansatz vielversprechende Anwendungen in der bildkonditionierten Steuerung, die eine effiziente Bild-zu-Bild-Übersetzung ermöglicht.
Die Komprimierung von leistungsstarken Large Language Models (LLMs) hat sich als bevorzugte Strategie für ressourceneffiziente Inferenzen herauskristallisiert. Während State-of-the-Art-Kompressionsmethoden beeindruckende Fortschritte bei der Erhaltung der Leistung bei benignen Aufgaben vorweisen, wurden die potenziellen Risiken der Kompression in Bezug auf Sicherheit und Vertrauenswürdigkeit weitgehend vernachlässigt. Diese Studie führt die erste umfassende Bewertung von drei (3) führenden LLMs unter Verwendung von fünf (5) State-of-the-Art-Kompressionstechniken über acht (8) Vertrauenswürdigkeitsdimensionen durch. Unsere Experimente heben das komplexe Zusammenspiel zwischen Kompression und Vertrauenswürdigkeit hervor und zeigen interessante Muster auf. Wir stellen fest, dass Quantisierung derzeit ein effektiverer Ansatz als Pruning ist, um Effizienz und Vertrauenswürdigkeit gleichzeitig zu erreichen. Beispielsweise behält ein 4-Bit-quantisiertes Modell die Vertrauenswürdigkeit seines Originals bei, während das Modell-Pruning die Vertrauenswürdigkeit signifikant beeinträchtigt, selbst bei 50% Sparsamkeit. Darüber hinaus kann die Verwendung von Quantisierung innerhalb eines moderaten Bit-Bereichs bestimmte Vertrauenswürdigkeitsdimensionen wie Ethik und Fairness unerwartet verbessern. Im Gegensatz dazu neigt eine extreme Quantisierung auf sehr niedrige Bit-Ebenen (3 Bits) dazu, die Vertrauenswürdigkeit signifikant zu reduzieren. Dieses erhöhte Risiko kann allein durch die Betrachtung der benignen Leistung nicht aufgedeckt werden und erfordert daher eine umfassende Vertrauenswürdigkeitsevaluierung in der Praxis. Diese Erkenntnisse münden in praktische Empfehlungen, um gleichzeitig hohe Nützlichkeit, Effizienz und Vertrauenswürdigkeit in LLMs zu erreichen. Modelle und Code sind unter https://decoding-comp-trust.github.io/ verfügbar.
Wir stellen RakutenAI-7B vor, eine Suite von japanisch-orientierten großen Sprachmodellen, die die beste Leistung bei den japanischen LM Harness-Benchmarks unter den offenen 7B-Modellen erzielen. Neben dem Grundmodell veröffentlichen wir instruktions- und chatangepasste Modelle, RakutenAI-7B-instruct und RakutenAI-7B-chat, jeweils unter der Apache 2.0 Lizenz.
Neueste Fortschritte in der Text-zu-Video-Erzeugung haben die Nützlichkeit leistungsstarker Diffusionsmodelle gezeigt. Dennoch ist das Problem nicht trivial, wenn es darum geht, Diffusionsmodelle zu formen, um statische Bilder zu animieren (d.h. Bild-zu-Video-Erzeugung). Die Schwierigkeit ergibt sich aus der Tatsache, dass der Diffusionsprozess der aufeinander folgenden animierten Frames nicht nur die treue Ausrichtung mit dem gegebenen Bild bewahren, sondern auch eine zeitliche Kohärenz zwischen benachbarten Frames verfolgen sollte. Um dies zu erleichtern, präsentieren wir TRIP, ein neues Rezept des Bild-zu-Video-Diffusionsparadigmas, das auf dem aus dem statischen Bild abgeleiteten Bildrauschen basiert, um gemeinsam zwischenbildliche relationale Schlussfolgerungen auszulösen und das kohärente zeitliche Modellieren durch temporales Restlernen zu erleichtern. Technisch gesehen wird das Bildrauschen zuerst durch einen einstufigen rückwärtigen Diffusionsprozess basierend auf sowohl dem statischen Bild als auch den verrauschten Video-Latenzcodes erlangt. Anschließend führt TRIP ein residuales Dualpfad-Schema für Rauschvorhersage aus: 1) ein Shortcut-Pfad, der das Bildrauschen als Referenzrauschen jedes Frames direkt nimmt, um die Ausrichtung zwischen dem ersten Frame und den nachfolgenden Frames zu verstärken; 2) ein Residualpfad, der 3D-UNet über verrauschte Video- und statische Bildlatenzcodes verwendet, um zwischenbildliche relationale Schlussfolgerungen zu ermöglichen, wodurch das Lernen des residuellen Rauschens für jedes Frame erleichtert wird. Darüber hinaus werden sowohl das Referenz- als auch das residuale Rauschen jedes Frames dynamisch über einen Aufmerksamkeitsmechanismus für die endgültige Videoerzeugung zusammengeführt. Umfangreiche Experimente mit den Datensätzen WebVid-10M, DTDB und MSR-VTT zeigen die Wirksamkeit unseres TRIP für die Bild-zu-Video-Erzeugung. Bitte besuchen Sie unsere Projektseite unter https://trip-i2v.github.io/TRIP/.
Neueste Innovationen bei der Text-zu-3D-Generierung umfassen Score Distillation Sampling (SDS), das das Zero-Shot-Lernen impliziter 3D-Modelle (NeRF) ermöglicht, indem es direkt zuvor erlangtes Wissen aus 2D-Diffusionsmodellen destilliert. Allerdings haben aktuelle auf SDS basierende Modelle immer noch Schwierigkeiten mit komplexen Texteingaben und führen häufig zu verzerrten 3D-Modellen mit unrealistischen Texturen oder Inkonsistenzen bei der Kreuzansicht. In dieser Arbeit stellen wir ein neuartiges Visual-Prompt-geführtes Text-zu-3D-Diffusionsmodell (VP3D) vor, das explizit das visuelle Erscheinungsbildswissen im 2D-Visuellen Prompt freisetzt, um die Text-zu-3D-Generierung zu verbessern. Anstatt SDS nur mit Texteingaben zu überwachen, nutzt VP3D zunächst das 2D-Diffusionsmodell, um ein hochwertiges Bild aus dem Eingabetext zu generieren, das dann als visueller Prompt fungiert, um die SDS-Optimierung mit explizitem visuellen Erscheinungsbild zu stärken. Gleichzeitig koppeln wir die SDS-Optimierung mit einer zusätzlichen differenzierbaren Belohnungsfunktion, die die Erstellung von Bildern von 3D-Modellen fördert, die besser mit dem 2D-Visuellen Prompt visuell übereinstimmen und semantisch mit dem Textprompt übereinstimmen. Durch umfangreiche Experimente zeigen wir, dass der 2D-Visuelle Prompt in unserem VP3D das Erlernen des visuellen Erscheinungsbilds von 3D-Modellen erheblich erleichtert und somit zu einer höheren visuellen Treue mit detaillierteren Texturen führt. Es ist auch bemerkenswert, dass VP3D bei der Ersetzung des selbstgenerierten visuellen Prompts durch ein gegebenes Referenzbild eine neue Aufgabe der stilisierten Text-zu-3D-Generierung auslösen kann. Unsere Projektseite ist unter https://vp3d-cvpr24.github.io verfügbar.