Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Post-Training-Quantisierung ist die führende Methode zur Bewältigung von Speicherproblemen bei der Inferenz von LLM, leidet jedoch leider unter signifikanter Leistungsminderung unterhalb einer Präzision von 4 Bit. Ein alternativer Ansatz besteht darin, komprimierte Modelle direkt mit geringer Bitbreite zu trainieren (z.B. binäre oder ternäre Modelle). Die Leistung, Trainingsdynamik und Skalierungstrends solcher Modelle sind jedoch noch nicht gut verstanden. Um dieses Problem anzugehen, haben wir das Spectra LLM-Paket entwickelt und veröffentlicht, das aus 54 Sprachmodellen mit 99M bis 3.9B Parametern besteht, die auf 300B Tokens trainiert wurden. Spectra umfasst FloatLMs, post-training quantisierte QuantLMs (3, 4, 6 und 8 Bit) und ternäre LLMs (TriLMs) - unsere verbesserte Architektur für ternäres Sprachmodellieren, die signifikant besser abschneidet als zuvor vorgeschlagene ternäre Modelle gleicher Größe (in Bits) und halbpräzise Modelle im großen Maßstab erreicht. Zum Beispiel ist TriLM 3.9B (bitweise) kleiner als das halbpräzise FloatLM 830M, erreicht jedoch die Leistung des halbpräzisen FloatLM 3.9B bei Tests zur Alltagslogik und Wissensbenchmarks. TriLM 3.9B ist jedoch genauso toxisch und stereotyp wie FloatLM 3.9B, ein Modell, das sechsmal größer ist. Darüber hinaus hinkt TriLM 3.9B beim Perplexitätsmaß auf Validierungssätzen und webbasierten Korpora hinter FloatLM her, schneidet jedoch auf weniger rauschigen Datensätzen wie Lambada und PennTreeBank besser ab. Zur Verbesserung des Verständnisses von Modellen mit geringer Bitbreite veröffentlichen wir über 500 Zwischenprüfpunkte des Spectra-Pakets unter https://github.com/NolanoOrg/SpectraSuite.
Wir stellen GoldFinch vor, ein hybrides Linear Attention/Transformer-Sequenzmodell, das eine neue Technik verwendet, um effizient einen hochkomprimierten und wiederverwendbaren KV-Cache in linearer Zeit und Raum in Bezug auf die Sequenzlänge zu generieren. GoldFinch stapelt unseren neuen GOLD-Transformer auf eine verbesserte Version der Finch (RWKV-6)-Architektur. Wir trainieren bis zu 1,5 Milliarden Parameterklassenmodelle der Finch-, Llama- und GoldFinch-Architekturen und stellen eine dramatisch verbesserte Modellierungsleistung im Vergleich zu Finch und Llama fest. Unsere Cache-Größeneinsparungen steigen linear mit der Anzahl der Modellschichten und sind für gängige Größen zwischen 756 und 2550 Mal kleiner als der traditionelle Transformer-Cache, was die Inferenz extrem großer Kontextlängen auch auf begrenzter Hardware ermöglicht. Obwohl die autoregressive Generierung aufgrund der Aufmerksamkeit eine Zeitkomplexität von O(n) pro Token hat, kostet die Vorab-Berechnung des gesamten anfänglichen Cache-Zustands für einen übermittelten Kontext nur O(1) Zeit pro Token aufgrund der Verwendung eines rekurrenten neuronalen Netzwerks (RNN) zur Generierung dieses Caches. Wir veröffentlichen unsere trainierten Gewichte und Trainingscode unter der Apache 2.0-Lizenz zur gemeinschaftlichen Nutzung.
LLM-Agenten haben eine bemerkenswerte Leistung in verschiedenen Anwendungen gezeigt, hauptsächlich aufgrund ihrer fortgeschrittenen Fähigkeiten im logischen Schlussfolgern, der Nutzung externen Wissens und Tools, dem Aufrufen von APIs und der Ausführung von Aktionen zur Interaktion mit Umgebungen. Aktuelle Agenten nutzen in der Regel ein Speichermodul oder einen Abruf-erweiterten Generierungsmechanismus (RAG), um vergangenes Wissen und Instanzen mit ähnlichen Einbettungen aus Wissensbasen abzurufen, um die Aufgabenplanung und -ausführung zu unterstützen. Die Abhängigkeit von nicht überprüften Wissensbasen wirft jedoch erhebliche Bedenken hinsichtlich ihrer Sicherheit und Vertrauenswürdigkeit auf. Um solche Schwachstellen aufzudecken, schlagen wir einen neuartigen Red-Teaming-Ansatz namens AgentPoison vor, den ersten Backdoor-Angriff, der generische LLM-Agenten und RAG-basierte Agenten ins Visier nimmt, indem ihre Langzeitgedächtnis oder RAG-Wissensbasis vergiftet wird. Insbesondere gestalten wir den Triggergenerierungsprozess als eine eingeschränkte Optimierung zur Optimierung von Backdoor-Triggern, indem wir die ausgelösten Instanzen in einen einzigartigen Einbettungsraum abbilden, um sicherzustellen, dass immer wenn eine Benutzeranweisung den optimierten Backdoor-Trigger enthält, die bösartigen Demonstrationen mit hoher Wahrscheinlichkeit aus dem vergifteten Gedächtnis oder der Wissensbasis abgerufen werden. Gleichzeitig werden gutartige Anweisungen ohne den Trigger weiterhin eine normale Leistung beibehalten. Im Gegensatz zu herkömmlichen Backdoor-Angriffen erfordert AgentPoison kein zusätzliches Modelltraining oder Feinabstimmung, und der optimierte Backdoor-Trigger weist eine überlegene Übertragbarkeit, Kontextkohärenz und Heimlichkeit auf. Umfangreiche Experimente zeigen die Wirksamkeit von AgentPoison bei Angriffen auf drei Arten von LLM-Agenten in der realen Welt: RAG-basierte autonome Fahrzeugagenten, wissensintensive QA-Agenten und den Healthcare-EHRAgenten. Bei jedem Agenten erreicht AgentPoison eine durchschnittliche Angriffserfolgsrate von über 80% bei minimalem Einfluss auf die gutartige Leistung (weniger als 1%) bei einer Vergiftungsrate von weniger als 0,1%.
Multimodale große Sprachmodelle (MLLMs) haben vielversprechende Fortschritte in der allgemeinen visuellen und sprachlichen Verständnis gezeigt. Die Darstellung multimodaler Informationen mithilfe von MLLMs ist jedoch weitgehend unerforscht. In dieser Arbeit stellen wir ein neues Framework, E5-V, vor, das entwickelt wurde, um MLLMs für die Erzielung universeller multimodaler Einbettungen anzupassen. Unsere Ergebnisse heben das signifikante Potenzial von MLLMs bei der Darstellung multimodaler Eingaben im Vergleich zu früheren Ansätzen hervor. Durch die Nutzung von MLLMs mit Anweisungen überbrückt E5-V effektiv die Modalitätslücke zwischen verschiedenen Arten von Eingaben und zeigt eine starke Leistung bei multimodalen Einbettungen, selbst ohne Feinabstimmung. Wir schlagen einen Ansatz für das Training mit einer einzigen Modalität für E5-V vor, bei dem das Modell ausschließlich auf Textpaaren trainiert wird. Diese Methode zeigt signifikante Verbesserungen gegenüber dem traditionellen multimodalen Training an Bild-Text-Paaren und reduziert die Trainingskosten um etwa 95%. Darüber hinaus beseitigt dieser Ansatz die Notwendigkeit für teure Datensammlungen für multimodales Training. Umfangreiche Experimente über vier Arten von Aufgaben zeigen die Wirksamkeit von E5-V. Als universelles multimodales Modell erreicht E5-V nicht nur, sondern übertrifft oft die Leistung des aktuellen Standes der Technik in jeder Aufgabe, obwohl es nur auf einer einzigen Modalität trainiert wurde.
Die Fortschritte großer Grundlagenmodelle erfordern umfassende, kostengünstige und kontaminationsfreie Benchmarks. Trotz kontinuierlicher Erkundungen von Sprachmodellbewertungen sind umfassende Studien zur Bewertung großer multimodaler Modelle (LMMs) begrenzt. In dieser Arbeit stellen wir LMMS-EVAL vor, ein einheitliches und standardisiertes multimodales Benchmark-Framework mit über 50 Aufgaben und mehr als 10 Modellen, um transparente und reproduzierbare Bewertungen zu fördern. Obwohl LMMS-EVAL eine umfassende Abdeckung bietet, stellen wir fest, dass es immer noch Schwierigkeiten hat, niedrige Kosten und keine Kontamination zu erreichen. Um dieses Bewertungsdilemma anzugehen, führen wir LMMS-EVAL LITE ein, ein reduziertes Bewertungstoolkit, das sowohl Abdeckung als auch Effizienz betont. Darüber hinaus präsentieren wir Multimodal LIVEBENCH, das kontinuierlich aktualisierte Nachrichten und Online-Foren nutzt, um die Verallgemeinerungsfähigkeiten der Modelle in der Praxis zu bewerten und dabei einen kostengünstigen und kontaminationsfreien Bewertungsansatz bietet. Zusammenfassend betont unsere Arbeit die Bedeutung der Berücksichtigung des Bewertungsdilemmas und bietet praktische Lösungen, um die Kompromisse bei der Bewertung großer multimodaler Modelle zu bewältigen und den Weg für effektivere und zuverlässigere Benchmarktests von LMMs zu ebnen. Wir stellen unseren Code frei zur Verfügung und pflegen eine Bestenliste von LIVEBENCH unter https://github.com/EvolvingLMMs-Lab/lmms-eval und https://huggingface.co/spaces/lmms-lab/LiveBench.
Mit dem beeindruckenden Fortschritt von Large Language Models (LLMs) in der Sprachverarbeitung und -generierung ist die Effizienz ihres Trainings zu einem entscheidenden Anliegen geworden. Traditionell werden LLMs darauf trainiert, das nächste Token in einer Sequenz vorherzusagen. Trotz des Erfolgs des Trainings auf Token-Ebene leidet es unter erheblichen Rechenkosten aufgrund der Notwendigkeit, eine große Anzahl von Tokens zu verarbeiten. Um dieses Problem zu mildern, führt diese Arbeit ein Training auf Patch-Ebene für LLMs ein, das die Sequenzlänge reduziert, indem mehrere Tokens in einen einzelnen Patch komprimiert werden. Während des Trainings auf Patch-Ebene speisen wir dem Sprachmodell kürzere Sequenzen von Patches zu und trainieren es darauf, den nächsten Patch vorherzusagen, wodurch der Großteil der Trainingsdaten zu erheblich reduzierten Rechenkosten verarbeitet wird. Anschließend setzt das Modell das Training auf Token-Ebene mit den verbleibenden Trainingsdaten fort, um mit dem Inferenzmodus übereinzustimmen. Experimente mit einer Vielzahl von Modellen (370M-2.7B Parameter) zeigen, dass das Training auf Patch-Ebene die Gesamtrechenkosten im Vergleich zum Training auf Token-Ebene um das 0,5-fache reduzieren kann, ohne die Modellleistung zu beeinträchtigen. Quellcode: https://github.com/shaochenze/PatchTrain.
Moderne Text-zu-Video-Synthese-Modelle zeigen eine kohärente, fotorealistische Generierung von komplexen Videos aus einer Textbeschreibung. Allerdings fehlt den meisten bestehenden Modellen eine fein abgestufte Steuerung über die Kamerabewegung, die für nachgelagerte Anwendungen im Zusammenhang mit der Inhalts-Erstellung, visuellen Effekten und 3D-Vision entscheidend ist. Kürzlich haben neue Methoden die Fähigkeit gezeigt, Videos mit steuerbaren Kamerapositionen zu generieren. Diese Techniken nutzen vortrainierte U-Net-basierte Diffusionsmodelle, die explizit räumliche und zeitliche Generierung entflechten. Dennoch ermöglicht kein vorhandener Ansatz eine Kamerasteuerung für neue, transformerbasierte Video-Diffusionsmodelle, die räumliche und zeitliche Informationen gemeinsam verarbeiten. Hier schlagen wir vor, Video-Transformer für die 3D-Kamerasteuerung zu nutzen, indem wir einen ControlNet-ähnlichen Konditionierungsmechanismus einsetzen, der spatiotemporale Kameraeinbettungen basierend auf Plücker-Koordinaten integriert. Der Ansatz zeigt eine Leistung auf dem neuesten Stand der Technik für steuerbare Video-Generierung nach Feinabstimmung auf dem RealEstate10K-Datensatz. Nach unserem Kenntnisstand ist unsere Arbeit die erste, die eine Kamerasteuerung für transformerbasierte Video-Diffusionsmodelle ermöglicht.
Die neuesten Fortschritte haben realistisches virtuelles Anprobieren (VTON) durch lokales Kleidungsinpainting mithilfe latenter Diffusionsmodelle erreicht, was das Online-Shopping-Erlebnis der Verbraucher erheblich verbessert. Allerdings vernachlässigen bestehende VTON-Technologien die Notwendigkeit für Händler, Kleidungsstücke umfassend zu präsentieren, einschließlich flexibler Kontrolle über Kleidungsstücke, optionale Gesichter, Posen und Szenen. Um dieses Problem anzugehen, definieren wir eine virtuelle Ankleide (VD)-Aufgabe, die darauf abzielt, frei bearbeitbare menschliche Bilder mit festen Kleidungsstücken und optionalen Bedingungen zu generieren. Gleichzeitig entwerfen wir einen umfassenden Affinitätsmetrikindex (CAMI), um die Konsistenz zwischen generierten Bildern und Referenzkleidungsstücken zu bewerten. Anschließend schlagen wir IMAGDressing-v1 vor, das ein Kleidungs-UNet enthält, das semantische Merkmale von CLIP und Texturmerkmale von VAE erfasst. Wir präsentieren ein Hybrid-Aufmerksamkeitsmodul, das ein eingefrorenes Selbst-Aufmerksamkeit und ein trainierbares Kreuz-Aufmerksamkeit umfasst, um Kleidungsmerkmale aus dem Kleidungs-UNet in ein eingefrorenes Denoising-UNet zu integrieren, um sicherzustellen, dass Benutzer verschiedene Szenen durch Text steuern können. IMAGDressing-v1 kann mit anderen Erweiterungs-Plugins wie ControlNet und IP-Adapter kombiniert werden, um die Vielfalt und Steuerbarkeit der generierten Bilder zu verbessern. Darüber hinaus veröffentlichen wir zur Bewältigung des Mangels an Daten den interaktiven Kleidungspaarungs (IGPair)-Datensatz, der über 300.000 Paare von Kleidungsstücken und bekleideten Bildern enthält, und etablieren eine Standard-Pipeline für die Datenerstellung. Umfangreiche Experimente zeigen, dass unser IMAGDressing-v1 unter verschiedenen kontrollierten Bedingungen eine Spitzenleistung bei der Synthese menschlicher Bilder erzielt. Der Code und das Modell werden unter https://github.com/muzishen/IMAGDressing verfügbar sein.
Die meisten aktuellen LLM-basierten Modelle für die Videoanalyse können Videos innerhalb von Minuten verarbeiten. Sie haben jedoch Schwierigkeiten mit langen Videos aufgrund von Herausforderungen wie "Rauschen und Redundanz" sowie "Speicher- und Rechenbeschränkungen". In diesem Artikel stellen wir Goldfish vor, eine Methode, die speziell für das Verstehen von Videos beliebiger Längen entwickelt wurde. Wir führen auch den TVQA-long Benchmark ein, der speziell darauf ausgelegt ist, die Fähigkeiten von Modellen bei der Analyse langer Videos mit Fragen zu Inhalten in Bild und Text zu bewerten. Goldfish begegnet diesen Herausforderungen mit einem effizienten Abrufmechanismus, der zunächst die relevantesten k Videoausschnitte gemäß den Anweisungen sammelt, bevor er die gewünschte Antwort liefert. Diese Gestaltung des Abrufmechanismus ermöglicht es Goldfish, beliebig lange Videosequenzen effizient zu verarbeiten und erleichtert so seine Anwendung in Kontexten wie Filmen oder Fernsehserien. Zur Unterstützung des Abrufprozesses haben wir MiniGPT4-Video entwickelt, das detaillierte Beschreibungen für die Videoausschnitte generiert. Um dem Mangel an Benchmarks für die Bewertung langer Videos entgegenzuwirken, haben wir den TVQA short video Benchmark für eine erweiterte Inhaltsanalyse angepasst, indem wir Fragen aus ganzen Episoden aggregiert haben, wodurch die Bewertung von teilweisem auf vollständiges Episodenverständnis umgestellt wurde. Wir erzielten eine Genauigkeitsrate von 41,78% auf dem TVQA-long Benchmark und übertrafen damit frühere Methoden um 14,94%. Unser MiniGPT4-Video zeigt auch eine außergewöhnliche Leistung bei der Analyse von kurzen Videos und übertrifft bestehende State-of-the-Art-Methoden um 3,23%, 2,03%, 16,5% und 23,59% auf den MSVD, MSRVTT, TGIF und TVQA short video Benchmarks. Diese Ergebnisse deuten darauf hin, dass unsere Modelle signifikante Verbesserungen sowohl im Verständnis von langen als auch von kurzen Videos aufweisen. Unsere Modelle und der Code sind öffentlich verfügbar unter https://vision-cair.github.io/Goldfish_website/
Komplexes Denken ist eine beeindruckende Fähigkeit, die von großen Sprachmodellen (LLMs) gezeigt wird. Die meisten LLMs sind versiert im deduktiven Denken, wie beispielsweise das Anstoßen von Gedankenketten oder die iterative Werkzeugverwendung, um anspruchsvolle Aufgaben schrittweise zu lösen. In diesem Paper möchten wir uns darauf konzentrieren, LLMs zu bewerten und beizubringen, induktives Denken durchzuführen, d.h. LLMs sollen zugrunde liegende Regeln ableiten, indem sie Beispiele oder sequenzielle Transformationen beobachten. Die Sammlung von umfangreichen und vielfältigen menschenerzeugten induktiven Daten ist jedoch eine Herausforderung. Wir konzentrieren uns auf die Datensynthese im Code-Bereich und schlagen eine Case2Code-Aufgabe vor, indem wir die Ausdrucksstärke und Korrektheit von Programmen ausnutzen. Konkret sammeln wir eine vielfältige Reihe ausführbarer Programme, synthetisieren Eingabe-Ausgabe-Transformationen für jedes Programm und zwingen LLMs dazu, die zugrunde liegenden Code-Implementierungen basierend auf den synthetischen I/O-Fällen zu erschließen. Zuerst bewerten wir repräsentative LLMs anhand der synthetisierten Case2Code-Aufgabe und zeigen, dass die Fall-zu-Code-Induktion für LLMs eine Herausforderung darstellt. Anschließend synthetisieren wir umfangreiche Case2Code-Trainingsdaten, um LLMs das Durchführen induktiven Denkens beizubringen. Experimentelle Ergebnisse zeigen, dass ein solches Induktions-Training nicht nur die Leistung bei der Case2Code-Verteilung verbessert, sondern auch verschiedene Kodierfähigkeiten der geschulten LLMs stärkt, was das große Potenzial des Lernens induktiven Denkens über synthetische Daten zeigt.
Während die meisten Musikgenerierungsmodelle textuelle oder parametrische Konditionierung verwenden (z. B. Tempo, Harmonie, musikalisches Genre), schlagen wir vor, ein Sprachmodell-basiertes Musikgenerierungssystem mit Audioeingabe zu konditionieren. Unsere Untersuchung umfasst zwei verschiedene Strategien. Die erste Strategie, genannt textuelle Umkehrung, nutzt ein vortrainiertes Text-zu-Musik-Modell, um Audioeingaben auf entsprechende "Pseudowörter" im textuellen Einbettungsraum abzubilden. Für das zweite Modell trainieren wir ein Musiksprachmodell von Grund auf gemeinsam mit einem Textkonditionierer und einem quantisierten Audio-Merkmal-Extraktor. Zur Inferenzzeit können wir textuelle und Audio-Konditionierung mischen und sie dank einer neuartigen Methode zur doppelten Klassifizierungsfreien Führung ausbalancieren. Wir führen automatische und menschliche Studien durch, die unseren Ansatz validieren. Wir werden den Code veröffentlichen und Musikbeispiele auf https://musicgenstyle.github.io bereitstellen, um die Qualität unseres Modells zu zeigen.
Die Synthese neuer Ansichten aus unbeschränkten Bildersammlungen in freier Wildbahn bleibt eine bedeutende, aber herausfordernde Aufgabe aufgrund von photometrischen Variationen und vorübergehenden Verdeckungen, die eine präzise Szenenrekonstruktion erschweren. Frühere Methoden haben diese Probleme angegangen, indem sie pro-Bild-Erscheinungsmerkmale in Neuronalen Strahlungsfeldern (NeRFs) integriert haben. Obwohl die 3D-Gaußsche Splatting (3DGS) ein schnelleres Training und Echtzeit-Rendering bietet, ist es nicht trivial, sie für unbeschränkte Bildersammlungen anzupassen, aufgrund der wesentlich unterschiedlichen Architektur. In diesem Papier stellen wir Splatfacto-W vor, einen Ansatz, der pro-gaußsche neuronale Farbmerkmale und pro-Bild-Erscheinungseinbettungen in den Rasterisierungsprozess integriert, zusammen mit einem auf sphärischen Harmonien basierenden Hintergrundmodell, um variierende photometrische Erscheinungen darzustellen und Hintergründe besser abzubilden. Unsere Hauptbeiträge umfassen die Modellierung latenter Erscheinungen, die effiziente Handhabung vorübergehender Objekte und die präzise Modellierung des Hintergrunds. Splatfacto-W liefert eine qualitativ hochwertige, Echtzeit-Synthese neuer Ansichten mit verbesserter Szenenkonsistenz in freien Wildbahn-Szenarien. Unsere Methode verbessert das Peak Signal-to-Noise Ratio (PSNR) im Durchschnitt um 5,3 dB im Vergleich zu 3DGS, erhöht die Trainingsgeschwindigkeit um das 150-fache im Vergleich zu NeRF-basierten Methoden und erreicht eine ähnliche Rendering-Geschwindigkeit wie 3DGS. Zusätzliche Videoergebnisse und der integrierte Code in Nerfstudio sind verfügbar unter https://kevinxu02.github.io/splatfactow/.
Die robotergestützte Greiftechnik in überfüllten Umgebungen bleibt aufgrund von Verdeckungen und komplexen Objektanordnungen eine bedeutende Herausforderung. Wir haben ThinkGrasp entwickelt, ein Plug-and-Play-Vision-Sprach-Greifsystem, das die fortschrittliche kontextbezogene Argumentation von GPT-4o für Greifstrategien in stark überfüllten Umgebungen nutzt. ThinkGrasp kann effektiv Greifpositionen für Zielobjekte identifizieren und generieren, selbst wenn sie stark verdeckt oder nahezu unsichtbar sind, indem es zielgerichtete Sprache verwendet, um die Beseitigung hindernder Objekte zu leiten. Dieser Ansatz deckt das Zielobjekt schrittweise auf und greift es letztendlich mit wenigen Schritten und einer hohen Erfolgsquote. In sowohl simulierten als auch realen Experimenten erzielte ThinkGrasp eine hohe Erfolgsquote und übertraf signifikant Methoden auf dem neuesten Stand der Technik in stark überfüllten Umgebungen oder mit vielfältigen unbekannten Objekten, was starke Verallgemeinerungsfähigkeiten zeigt.
Die grafische Benutzeroberfläche (GUI) ist die Art und Weise, wie Benutzer mit mobilen Apps interagieren. Um sicherzustellen, dass sie ordnungsgemäß funktioniert, müssen Testingenieure sicherstellen, dass sie gemäß den Testanforderungen funktioniert, die in der Regel in natürlicher Sprache verfasst sind. Obwohl weit verbreitete manuelle Tests und skriptbasierte Methoden effektiv sind, erfordern sie erheblichen Aufwand aufgrund der großen Anzahl von GUI-Seiten und schnellen Iterationen in modernen mobilen Apps. Dieses Papier stellt AUITestAgent vor, das erste automatische, natürlichsprachengesteuerte GUI-Testwerkzeug für mobile Apps, das in der Lage ist, den gesamten Prozess der GUI-Interaktion und Funktionsüberprüfung vollständig zu automatisieren. Da Testanforderungen in der Regel Interaktionsbefehle und Verifikationsorakel enthalten, kann AUITestAgent GUI-Interaktionen aus Testanforderungen über dynamisch organisierte Agenten extrahieren. Anschließend verwendet AUITestAgent eine multidimensionale Datenextraktionsstrategie, um relevante Daten für die Testanforderungen aus dem Interaktionsverlauf abzurufen und Verifikationen durchzuführen. Experimente an angepassten Benchmarks zeigen, dass AUITestAgent die bestehenden Tools in der Qualität der generierten GUI-Interaktionen übertrifft und eine Verifikationsgenauigkeit von 94% erreicht. Darüber hinaus hat der Feldversuch bei Meituan die praktische Nutzbarkeit von AUITestAgent gezeigt, indem er während von zwei Monaten 10 Regressionstests durchgeführt hat und dabei 4 neue funktionale Fehler entdeckt hat.
Durch die bemerkenswerten Fortschritte bei Large Language Models (LLMs) gibt es eine aufstrebende Initiative, LLMs für die Anweisung von robotischer Navigation zu nutzen. Ein solcher Trend unterstreicht das Potenzial von LLMs, um Navigationslogik und vielfältiges Sprachverständnis zu verallgemeinern. Es wird jedoch eine signifikante Diskrepanz in der Leistung der Agenten beobachtet, wenn LLMs in Vision-and-Language-Navigations (VLN) im Vergleich zu früheren spezialisierten Modellen integriert werden. Darüber hinaus wird das inhärente Vermögen der Sprache, Interpretation zu ermöglichen und die Kommunikation in Agenteninteraktionen zu erleichtern, in diesen Integrationen oft untergenutzt. In dieser Arbeit bemühen wir uns, die Kluft zwischen VLN-spezialisierten Modellen und LLM-basierten Navigationsparadigmen zu überbrücken, während wir die interpretative Fähigkeit von LLMs bei der Erzeugung von sprachlicher Navigationslogik beibehalten. Durch die Ausrichtung des visuellen Inhalts in einem eingefrorenen LLM erfassen wir das Verständnis visueller Beobachtungen für LLMs und nutzen einen Weg, um LLMs und Navigationsrichtliniennetzwerke für effektive Aktionsvorhersagen und Navigationslogik zu integrieren. Wir zeigen die Dateneffizienz der vorgeschlagenen Methoden auf und beseitigen die Kluft zwischen LM-basierten Agenten und VLN-Spezialisten auf dem neuesten Stand der Technik.
Obwohl LLMs beeindruckende Leistungen in verschiedenen Bereichen und Aufgaben gezeigt haben, sind ihre Sicherheitsprobleme zunehmend schwerwiegend geworden. Das sogenannte Machine Unlearning (MU) hat sich als vielversprechende Lösung zur Bewältigung dieser Probleme herausgestellt, indem der Einfluss unerwünschter Daten auf das Zielmodell beseitigt wird, ohne dessen Nützlichkeit in anderen Aspekten zu beeinträchtigen. MU geht in der Regel davon aus, vollen Zugriff auf die ursprünglichen Trainingsdaten zu haben, um die Nützlichkeit zu bewahren, was beim Unlearning von LLMs schwer zu erreichen ist. Bestehende Methoden zum Unlearning von LLMs gehen oft davon aus, Zugriff auf die Daten zu haben, die am stärksten vom Unlearning unerwünschter Daten betroffen sind. Diese Annahme unterschätzt jedoch die Verflechtung verschiedener Fähigkeiten von LLMs und ignoriert Datenzugriffsbeschränkungen aufgrund verschiedener Probleme. Darüber hinaus berücksichtigen diese Methoden zum Unlearning von LLMs nicht ausreichend, dass Unlearning-Anfragen in realen Szenarien kontinuierlich auftreten. Um diese Herausforderungen zu überwinden und praktisches Unlearning von LLMs zu erreichen, schlagen wir das O3-Framework vor. Das O3-Framework umfasst einen Out-Of-Distribution (OOD)-Detektor zur Messung der Ähnlichkeit zwischen Eingabe- und Unlearning-Daten sowie einen Orthogonal Low-Rank Adapter (LoRA) zur kontinuierlichen Entfernung angeforderter Daten. Der OOD-Detektor wird mit einem neuartigen kontrastiven Entropieverlust trainiert und verwendet einen lokal-globalen Schicht-aggregierten Bewertungsmechanismus. Der orthogonale LoRA erreicht eine Parameter-Entflechtung zwischen kontinuierlichen Unlearning-Anfragen. Während der Inferenz kann unser O3-Framework intelligent entscheiden, ob und in welchem Maße der Unlearning LoRA basierend auf den Vorhersagen des OOD-Detektors geladen werden soll. Beachtenswert ist, dass die Wirksamkeit von O3 nicht auf beibehaltenen Daten beruht. Wir führten umfangreiche Experimente mit O3 und state-of-the-art LLM Unlearning-Methoden in drei Aufgaben und sieben Datensätzen durch. Die Ergebnisse zeigen, dass O3 konsistent den besten Kompromiss zwischen Unlearning-Effektivität und Nützlichkeitserhalt erzielt, insbesondere bei kontinuierlichen Unlearning-Anfragen.
Chatbasierte Sprachmodelle sind darauf ausgelegt, hilfreich zu sein, sollten jedoch nicht jeder Benutzeranfrage nachkommen. Während die meisten bestehenden Arbeiten sich hauptsächlich auf die Ablehnung von "unsicheren" Anfragen konzentrieren, behaupten wir, dass der Umfang der Nichterfüllung erweitert werden sollte. Wir stellen eine umfassende Taxonomie des kontextbezogenen Nichterfüllens vor, die beschreibt, wann und wie Modelle nicht auf Benutzeranfragen eingehen sollten. Unsere Taxonomie umfasst eine Vielzahl von Kategorien, darunter unvollständige, nicht unterstützte, unbestimmte und humanisierende Anfragen (zusätzlich zu unsicheren Anfragen). Um die Nichterfüllungsfähigkeiten von Sprachmodellen zu testen, verwenden wir diese Taxonomie, um einen neuen Bewertungssatz mit 1000 Nichterfüllungsanfragen zu entwickeln. Wir stellen fest, dass die meisten bestehenden Modelle in bestimmten zuvor wenig erforschten Kategorien signifikant hohe Erfüllungsraten aufweisen, wobei Modelle wie GPT-4 fälschlicherweise bis zu 30% der Anfragen erfüllen. Um diese Lücken zu schließen, untersuchen wir verschiedene Trainingsstrategien unter Verwendung eines synthetisch generierten Trainingsdatensatzes von Anfragen und erwarteten nicht erfüllenden Antworten. Unsere Experimente zeigen, dass während das direkte Feintuning von instruktionsangepassten Modellen sowohl zu übermäßiger Ablehnung als auch zu einem Rückgang der allgemeinen Fähigkeiten führen kann, die Verwendung von parametereffizienten Methoden wie Low-Rank-Adaptern dazu beiträgt, ein gutes Gleichgewicht zwischen angemessener Nichterfüllung und anderen Fähigkeiten zu finden.
Grammatische Fehlererkennung (GED)-Methoden stützen sich stark auf menschlich annotierte Fehlerkorpora. Diese Annotationen sind jedoch in vielen sprachlich ressourcenarmen Sprachen nicht verfügbar. In diesem Artikel untersuchen wir GED in diesem Kontext. Durch Nutzung der Null-Schuss kreissprachlichen Transferfähigkeiten mehrsprachiger vorab trainierter Sprachmodelle trainieren wir ein Modell unter Verwendung von Daten aus einer vielfältigen Sprachauswahl, um synthetische Fehler in anderen Sprachen zu generieren. Diese synthetischen Fehlerkorpora werden dann verwendet, um ein GED-Modell zu trainieren. Konkret schlagen wir einen zweistufigen Feinabstimmungspipeline vor, bei der das GED-Modell zunächst auf mehrsprachigen synthetischen Daten aus Zielsprachen und anschließend auf menschlich annotierten GED-Korpora aus Ausgangssprachen feinabgestimmt wird. Dieser Ansatz übertrifft aktuelle state-of-the-art annotationsfreie GED-Methoden. Wir analysieren auch die Fehler, die von unserer Methode und anderen starken Baselines produziert werden, und stellen fest, dass unser Ansatz Fehler erzeugt, die vielfältiger und menschenähnlicher sind.
Video-Generationsmodelle (VGMs) haben die Fähigkeit gezeigt, hochwertige Ausgaben zu synthetisieren. Es ist wichtig, ihr Potenzial zur Erzeugung von unsicherem Inhalt, wie gewalttätigen oder erschreckenden Videos, zu verstehen. In dieser Arbeit bieten wir ein umfassendes Verständnis der unsicheren Videoerzeugung. Zunächst wählen wir unsichere Inhalts-Erzeugungsanfragen von 4chan und Lexica sowie drei Open-Source SOTA VGMs aus, um die Möglichkeit zu bestätigen, dass diese Modelle tatsächlich unsichere Videos erzeugen könnten. Nachdem Duplikate und schlecht erzeugte Inhalte herausgefiltert wurden, erstellen wir einen ersten Satz von 2112 unsicheren Videos aus einem ursprünglichen Pool von 5607 Videos. Durch Clustering und thematische Codierungsanalyse dieser erzeugten Videos identifizieren wir 5 unsichere Videokategorien: Verzerrt/Seltsam, Erschreckend, Pornografisch, Gewalttätig/Blutig und Politisch. Mit der Zustimmung des IRB rekrutieren wir dann Online-Teilnehmer, um die erzeugten Videos zu kennzeichnen. Basierend auf den Annotationen, die von 403 Teilnehmern eingereicht wurden, identifizierten wir 937 unsichere Videos aus dem ursprünglichen Videosatz. Mit den gekennzeichneten Informationen und den entsprechenden Anfragen erstellen wir den ersten Datensatz unsicherer Videos, die von VGMs erzeugt wurden. Wir untersuchen dann mögliche Abwehrmechanismen, um die Erzeugung unsicherer Videos zu verhindern. Bestehende Verteidigungsmethoden in der Bildgenerierung konzentrieren sich entweder auf die Filterung des Eingabeaufforderung oder der Ausgabenergebnisse. Wir schlagen einen neuen Ansatz namens Latente Variablendefense (LVD) vor, der im internen Samplingprozess des Modells arbeitet. LVD kann eine Verteidigungsgenauigkeit von 0,90 erreichen und gleichzeitig die Zeit und die Rechenressourcen um das 10-fache reduzieren, wenn eine große Anzahl unsicherer Anfragen gesampelt wird.