Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionsmodelle haben eine bemerkenswerte Wirksamkeit bei verschiedenen Bild-zu-Bild-Aufgaben gezeigt. In dieser Forschung stellen wir Imagine yourself vor, ein hochmodernes Modell, das für die personalisierte Bildgenerierung entwickelt wurde. Im Gegensatz zu herkömmlichen, auf Abstimmung basierenden Personalisierungstechniken arbeitet Imagine yourself als ein abstimmungsfreies Modell, das es allen Benutzern ermöglicht, einen gemeinsamen Rahmen ohne individualisierte Anpassungen zu nutzen. Darüber hinaus haben vorherige Arbeiten Schwierigkeiten bei der Balance zwischen Identitätserhaltung, dem Befolgen komplexer Anweisungen und der Beibehaltung guter visueller Qualität festgestellt, was dazu führte, dass Modelle einen starken Kopier-Effekt der Referenzbilder aufweisen. Daher können sie kaum Bilder generieren, die Anweisungen folgen, die bedeutende Veränderungen am Referenzbild erfordern, z. B. Änderungen der Gesichtsausdrücke, Kopf- und Körperhaltungen, und die Vielfalt der generierten Bilder ist gering. Um diese Einschränkungen zu überwinden, führt unsere vorgeschlagene Methode 1) einen neuen Mechanismus zur Erzeugung synthetischer gepaarter Daten ein, um die Bildvielfalt zu fördern, 2) eine vollständig parallele Aufmerksamkeitsarchitektur mit drei Textencodern und einem vollständig trainierbaren Visionencoder zur Verbesserung der Texttreue, und 3) eine neuartige grob-zu-fein Mehrstufenfeinabstimmungsmethodik ein, die allmählich die Grenze der visuellen Qualität vorantreibt. Unsere Studie zeigt, dass Imagine yourself das hochmoderne Personalisierungsmodell übertrifft und überlegene Fähigkeiten bei der Identitätserhaltung, visuellen Qualität und Textausrichtung aufweist. Dieses Modell legt eine robuste Grundlage für verschiedene Personalisierungsanwendungen. Die Ergebnisse der menschlichen Bewertung bestätigen die SOTA-Überlegenheit des Modells in allen Aspekten (Identitätserhaltung, Texttreue und visueller Anziehungskraft) im Vergleich zu den vorherigen Personalisierungsmodellen.
Das Verstehen von Satire und Humor ist selbst für aktuelle Vision-Language-Modelle eine anspruchsvolle Aufgabe. In diesem Paper schlagen wir die anspruchsvollen Aufgaben der Satirischen Bilderkennung (Erkennung, ob ein Bild satirisch ist), des Verstehens (Generierung des Grundes, warum das Bild satirisch ist) und der Vervollständigung (bei gegebener Hälfte des Bildes Auswahl der anderen Hälfte aus 2 gegebenen Optionen, so dass das vollständige Bild satirisch ist) vor und veröffentlichen einen qualitativ hochwertigen Datensatz YesBut, bestehend aus 2547 Bildern, 1084 satirischen und 1463 nicht-satirischen, die verschiedene künstlerische Stile enthalten, um diese Aufgaben zu bewerten. Jedes satirische Bild im Datensatz zeigt ein normales Szenario zusammen mit einem konfliktierenden Szenario, das lustig oder ironisch ist. Trotz des Erfolgs aktueller Vision-Language-Modelle bei multimodalen Aufgaben wie visuelle Frage-Antwort und Bildbeschreibung zeigen unsere Benchmark-Experimente, dass solche Modelle bei den vorgeschlagenen Aufgaben im YesBut-Datensatz in Zero-Shot-Einstellungen sowohl in automatisierten als auch in menschlichen Bewertungen schlecht abschneiden. Darüber hinaus veröffentlichen wir einen Datensatz mit 119 realen, satirischen Fotografien für weitere Forschungszwecke. Der Datensatz und der Code sind unter https://github.com/abhi1nandy2/yesbut_dataset verfügbar.
Angestoßen durch die Erkenntnis, dass KI-Emulatoren die Leistung traditioneller numerischer Wettervorhersagemodelle auf HPC-Systemen erreichen können, gibt es nun eine zunehmende Anzahl großer KI-Modelle, die Anwendungsfälle wie Vorhersagen, Downscaling oder Nowcasting behandeln. Während sich die parallelen Entwicklungen in der KI-Literatur auf Grundlagenmodelle konzentrieren - Modelle, die effektiv angepasst werden können, um mehrere verschiedene Anwendungsfälle anzugehen - konzentrieren sich die Entwicklungen auf der Wetter- und Klimaseite größtenteils auf Einzelanwendungsfälle mit besonderem Schwerpunkt auf mittelfristigen Vorhersagen. Wir schließen diese Lücke, indem wir Prithvi WxC vorstellen, ein 2,3 Milliarden Parameter umfassendes Grundlagenmodell, das unter Verwendung von 160 Variablen aus der Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2) entwickelt wurde. Prithvi WxC verwendet eine Encoder-Decoder-Architektur, die Konzepte aus verschiedenen aktuellen Transformer-Modellen integriert, um sowohl regionale als auch globale Abhängigkeiten in den Eingabedaten effektiv zu erfassen. Das Modell wurde so konzipiert, dass es große Token-Zahlen aufnehmen kann, um Wetterphänomene in verschiedenen Topologien bei feinen Auflösungen zu modellieren. Darüber hinaus wird es mit einem gemischten Ziel trainiert, das die Paradigmen der maskierten Rekonstruktion mit Vorhersagen kombiniert. Wir testen das Modell an einer Reihe anspruchsvoller nachgelagerter Aufgaben, nämlich: Autoregressive Rollout-Vorhersage, Downscaling, Parameterisierung von Schwerewellenflüssen und Schätzung extremer Ereignisse. Das vorab trainierte Modell mit 2,3 Milliarden Parametern sowie die zugehörigen Feinabstimmungs-Workflows wurden als Open-Source-Beitrag über Hugging Face öffentlich freigegeben.
Große Sprachmodelle (LLMs) haben signifikante Leistungsverbesserungen bei verschiedenen kognitiven Aufgaben gezeigt. Eine aufkommende Anwendung besteht darin, LLMs zur Verbesserung der Fähigkeiten zur abrufgestützten Generierung (RAG) einzusetzen. Diese Systeme erfordern von LLMs, Benutzeranfragen zu verstehen, relevante Informationen abzurufen und kohärente und genaue Antworten zu synthetisieren. Angesichts der zunehmenden Realweltbereitstellung solcher Systeme wird eine umfassende Bewertung entscheidend. Zu diesem Zweck schlagen wir FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) vor, einen hochwertigen Bewertungsdatensatz, der entwickelt wurde, um die Fähigkeit von LLMs zur Bereitstellung faktischer Antworten zu testen, die Abrufkapazitäten zu bewerten und das für die Generierung endgültiger Antworten erforderliche Argumentieren zu evaluieren. Während frühere Arbeiten Datensätze und Benchmarks bereitgestellt haben, um diese Fähigkeiten isoliert zu bewerten, bietet FRAMES einen vereinheitlichten Rahmen, der ein klareres Bild der Leistung von LLMs in End-to-End-RAG-Szenarien liefert. Unser Datensatz umfasst anspruchsvolle Mehrfachsprungfragen, die die Integration von Informationen aus mehreren Quellen erfordern. Wir präsentieren Baseline-Ergebnisse, die zeigen, dass selbst modernste LLMs mit dieser Aufgabe zu kämpfen haben und eine Genauigkeit von 0,40 ohne Abruf erreichen. Die Genauigkeit wird signifikant verbessert durch unsere vorgeschlagene mehrstufige Abrufpipeline, die eine Genauigkeit von 0,66 erreicht (>50% Verbesserung). Wir hoffen, dass unsere Arbeit dazu beiträgt, Bewertungslücken zu schließen und bei der Entwicklung robusterer und leistungsfähigerer RAG-Systeme zu helfen.
Musikcodecs sind ein wesentlicher Aspekt der Audiocodec-Forschung, und die Kompression mit extrem niedrigen Bitraten ist von großer Bedeutung für die Übertragung und Erzeugung von Musik. Aufgrund der Komplexität von Musikhintergründen und der Vielfalt der Stimmen kann Musik nicht effektiv nur durch Modellierung semantischer oder akustischer Informationen mit sowohl Stimmen als auch Hintergründen rekonstruiert werden. Um dieses Problem zu lösen, schlagen wir MuCodec vor, das speziell auf Musikkompression und -rekonstruktionsaufgaben bei extrem niedrigen Bitraten abzielt. MuCodec verwendet MuEncoder, um sowohl akustische als auch semantische Merkmale zu extrahieren, diese mit RVQ zu diskretisieren und Mel-VAE-Merkmale über Flow-Matching zu erhalten. Die Musik wird dann mithilfe eines vorab trainierten MEL-VAE-Decoders und HiFi-GAN rekonstruiert. MuCodec kann hochwertige Musik bei extrem niedrigen (0,35 kbps) oder hohen Bitraten (1,35 kbps) rekonstruieren und erzielt die bisher besten Ergebnisse sowohl in subjektiven als auch in objektiven Metriken. Code und Demo: https://xuyaoxun.github.io/MuCodec_demo/.
Wir stellen PortraitGen vor, eine leistungsstarke Methode zur Bearbeitung von Porträtvideos, die eine konsistente und ausdrucksstarke Stilisierung mit multimodalen Eingaben erreicht. Traditionelle Methoden zur Bearbeitung von Porträtvideos haben oft Schwierigkeiten mit 3D- und zeitlicher Konsistenz und weisen in der Regel Mängel in der Rendering-Qualität und Effizienz auf. Um diese Probleme zu lösen, heben wir die Porträtvideoframes auf ein vereinheitlichtes dynamisches 3D-Gaußsches Feld an, das strukturelle und zeitliche Kohärenz über die Frames hinweg gewährleistet. Darüber hinaus haben wir einen neuartigen Mechanismus für neuronale Gaußsche Texturen entwickelt, der nicht nur eine anspruchsvolle Stilbearbeitung ermöglicht, sondern auch eine Rendering-Geschwindigkeit von über 100 FPS erreicht. Unser Ansatz integriert multimodale Eingaben durch Wissensverdichtung aus groß angelegten 2D-generativen Modellen. Unser System beinhaltet auch Anleitungen zur Ähnlichkeit von Ausdrücken und ein gesichtsbewusstes Porträtbearbeitungsmodul, das effektiv Degradationsprobleme im Zusammenhang mit iterativen Datensatzaktualisierungen mildert. Umfangreiche Experimente zeigen die zeitliche Konsistenz, Bearbeitungseffizienz und überragende Rendering-Qualität unserer Methode. Die breite Anwendbarkeit des vorgeschlagenen Ansatzes wird durch verschiedene Anwendungen demonstriert, darunter textgesteuerte Bearbeitung, bildgesteuerte Bearbeitung und Neubeleuchtung, was ihr großes Potenzial zur Weiterentwicklung des Bereichs der Videobearbeitung unterstreicht. Demo-Videos und der freigegebene Code sind auf unserer Projektseite verfügbar: https://ustc3dv.github.io/PortraitGen/
Die intrinsische Bildzerlegung zielt darauf ab, die Oberflächenreflexion und die Effekte der Beleuchtung in einem einzigen Foto zu trennen. Aufgrund der Komplexität des Problems gehen die meisten früheren Arbeiten von einer einfarbigen Beleuchtung und einer lambertschen Welt aus, was ihre Verwendung in Beleuchtungs-bewussten Bildbearbeitungsanwendungen einschränkt. In dieser Arbeit trennen wir ein Eingangsbild in seine diffuse Albedo, farbenfrohe diffuse Schattierung und spekuläre Restkomponenten auf. Wir gelangen zu unserem Ergebnis, indem wir zuerst die einfarbige Beleuchtung und dann die lambertschen Weltannahmen schrittweise entfernen. Wir zeigen, dass durch die Aufteilung des Problems in einfachere Teilprobleme eine präzise Schätzung der farbenfrohen diffusen Schattierung in natürlichen Umgebungen trotz begrenzter Ground-Truth-Datensätze erreicht werden kann. Unser erweitertes intrinsisches Modell ermöglicht eine Beleuchtungs-bewusste Analyse von Fotos und kann für Bildbearbeitungsanwendungen wie die Entfernung von Spekularreflexionen und das Pixel-weise Weißabgleich verwendet werden.
Die Erfahrung hochauflösender volumetrischer Videos so nahtlos wie 2D-Videos ist ein lang gehegter Traum. Allerdings stehen aktuelle dynamische 3DGS-Methoden trotz ihrer hohen Rendering-Qualität vor Herausforderungen beim Streaming auf mobilen Geräten aufgrund von Rechen- und Bandbreitenbeschränkungen. In diesem Artikel stellen wir V3 (Viewing Volumetric Videos) vor, einen neuartigen Ansatz, der hochwertiges mobiles Rendering durch das Streaming dynamischer Gaussians ermöglicht. Unsere Hauptinnovation besteht darin, dynamische 3DGS als 2D-Videos zu betrachten, was die Verwendung von Hardware-Video-Codecs erleichtert. Darüber hinaus schlagen wir eine Zwei-Stufen-Trainingsstrategie vor, um den Speicherbedarf bei schneller Trainingsgeschwindigkeit zu reduzieren. Die erste Stufe verwendet Hash-Codierung und flache MLP, um Bewegungen zu erlernen, reduziert dann die Anzahl der Gaussians durch Beschneiden, um die Streaming-Anforderungen zu erfüllen, während die zweite Stufe andere Gauss-Attribute mithilfe von Restentropieverlust und zeitlichem Verlust feinabstimmt, um die zeitliche Kontinuität zu verbessern. Diese Strategie, die Bewegung und Erscheinung entkoppelt, gewährleistet eine hohe Rendering-Qualität bei kompakten Speicheranforderungen. Gleichzeitig haben wir einen Multi-Plattform-Player entwickelt, um 2D-Gaussian-Videos zu decodieren und zu rendern. Umfangreiche Experimente zeigen die Wirksamkeit von V3, indem sie durch hochwertiges Rendering und Streaming auf gängigen Geräten eine Leistungssteigerung im Vergleich zu anderen Methoden ermöglichen, was bisher nicht gesehen wurde. Als Erste, die dynamische Gaussians auf mobilen Geräten streamen, bietet unser Begleitplayer den Benutzern eine beispiellose volumetrische Videoerfahrung, einschließlich sanften Scrollens und sofortigem Teilen. Unsere Projektseite mit dem Quellcode ist unter https://authoritywang.github.io/v3/ verfügbar.
LLMs haben eine bemerkenswerte Leistung in verschiedenen Bereichen gezeigt. Die Formulierung hochwertiger Anfragen zur Unterstützung ihrer Arbeit stellt jedoch eine Herausforderung für Nicht-KI-Experten dar. Die bestehende Forschung im Bereich der Anfrageerstellung deutet auf teilweise verstreute Optimierungsprinzipien und empirisch abhängige Anfrage-Optimierer hin. Leider fehlt es diesen Bemühungen an einem strukturellen Design, was zu hohen Lernkosten führt und nicht förderlich für die iterative Aktualisierung von Anfragen ist, insbesondere für Nicht-KI-Experten. Inspiriert von strukturierten wiederverwendbaren Programmiersprachen schlagen wir LangGPT vor, ein strukturelles Anfrage-Design-Framework. Darüber hinaus stellen wir Minstrel vor, ein Multi-Generatives Agentensystem mit Reflexion zur Automatisierung der Generierung struktureller Anfragen. Experimente und Fallstudien zeigen, dass strukturelle Anfragen, die von Minstrel generiert oder manuell verfasst wurden, die Leistung von LLMs signifikant verbessern. Darüber hinaus analysieren wir die Benutzerfreundlichkeit struktureller Anfragen durch eine Benutzerumfrage in unserer Online-Community.
Wir stellen V-AURA vor, das erste autoregressive Modell, das eine hohe zeitliche Ausrichtung und Relevanz bei der Video-zu-Audio-Generierung erreicht. V-AURA verwendet einen Visual-Feature-Extractor mit hoher Bildrate und eine cross-modale Audio-Visuelle Merkmalsfusion-Strategie, um feingranulare visuelle Bewegungsereignisse zu erfassen und eine präzise zeitliche Ausrichtung sicherzustellen. Zusätzlich schlagen wir VisualSound vor, einen Benchmark-Datensatz mit hoher Audio-Visueller Relevanz. VisualSound basiert auf VGGSound, einem Videodatensatz, der aus in-the-wild Proben extrahiert wurde, die von YouTube stammen. Während der Kuratierung entfernen wir Proben, bei denen auditive Ereignisse nicht mit den visuellen übereinstimmen. V-AURA übertrifft aktuelle State-of-the-Art-Modelle in der zeitlichen Ausrichtung und semantischen Relevanz, während die vergleichbare Audioqualität beibehalten wird. Code, Proben, VisualSound und Modelle sind verfügbar unter https://v-aura.notion.site
Große Sprachmodelle (LLMs) haben bemerkenswertes Potenzial in verschiedenen Bereichen gezeigt, einschließlich der Cybersicherheit. Die Verwendung von kommerziellen Cloud-basierten LLMs kann aufgrund von Datenschutzbedenken, Kosten und Netzwerkverbindungseinschränkungen unerwünscht sein. In diesem Artikel stellen wir Hackphyr vor, ein lokal feinabgestimmtes LLM, das als Red-Team-Agent in Netzwerksicherheitsumgebungen eingesetzt werden soll. Unser feinabgestimmtes Modell mit 7 Milliarden Parametern kann auf einer einzelnen GPU-Karte ausgeführt werden und erreicht eine Leistung, die mit deutlich größeren und leistungsstärkeren kommerziellen Modellen wie GPT-4 vergleichbar ist. Hackphyr übertrifft eindeutig andere Modelle, einschließlich GPT-3.5-turbo, sowie Baselines wie Q-Learning-Agenten in komplexen, zuvor ungesehenen Szenarien. Um diese Leistung zu erzielen, haben wir einen neuen aufgabenbezogenen Cybersicherheitsdatensatz generiert, um die Fähigkeiten des Basismodells zu verbessern. Abschließend führten wir eine umfassende Analyse des Verhaltens der Agenten durch, die Einblicke in die Planungsfähigkeiten und potenzielle Schwächen solcher Agenten liefert und so zum umfassenderen Verständnis von LLM-basierten Agenten in Cybersicherheitskontexten beiträgt.
Die Integration von Tools in LLM-basierte Agenten hat die Schwierigkeiten eigenständiger LLMs und die begrenzten Fähigkeiten traditioneller Agenten überwunden. Allerdings führte die Verknüpfung dieser Technologien und die vorgeschlagenen Verbesserungen in mehreren hochmodernen Arbeiten zu einer nicht vereinheitlichten Softwarearchitektur, die zu einem Mangel an Modularität führte. Tatsächlich konzentrierten sie sich hauptsächlich auf Funktionalitäten und vernachlässigten die Definition der Komponentengrenzen innerhalb des Agenten. Dies führte zu terminologischen und architektonischen Unklarheiten zwischen den Forschern, die wir in diesem Papier behoben haben, indem wir einen einheitlichen Rahmen vorschlagen, der eine klare Grundlage für die Entwicklung von LLM-basierten Agenten aus funktionalen und softwarearchitektonischen Perspektiven schafft. Unser Rahmen, LLM-Agent-UMF (LLM-basiertes Agentenvereinheitlichungsmodell), unterscheidet klar zwischen den verschiedenen Komponenten eines Agenten, indem er LLMs und Tools von einem neu eingeführten Element trennt: dem Kern-Agenten, der die Rolle des zentralen Koordinators des Agenten spielt und aus fünf Modulen besteht: Planung, Gedächtnis, Profil, Aktion und Sicherheit, wobei letztere in früheren Arbeiten oft vernachlässigt wurde. Unterschiede in der internen Struktur der Kern-Agenten führten uns dazu, sie in eine Taxonomie passiver und aktiver Typen einzuteilen. Basierend darauf schlugen wir verschiedene Multi-Core-Agentenarchitekturen vor, die einzigartige Merkmale verschiedener einzelner Agenten kombinieren. Zu Evaluierungszwecken haben wir diesen Rahmen auf eine Auswahl hochmoderner Agenten angewendet, um seine Übereinstimmung mit ihren Funktionalitäten zu demonstrieren und die übersehenen architektonischen Aspekte zu klären. Darüber hinaus haben wir vier unserer vorgeschlagenen Architekturen eingehend bewertet, indem wir unterschiedliche Agenten in Hybrid-Systeme aus aktiven/passiven Kern-Agenten integriert haben. Diese Analyse lieferte klare Einblicke in potenzielle Verbesserungen und betonte die Herausforderungen, die mit der Kombination spezifischer Agenten verbunden sind.