Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die jüngsten Fortschritte in Video-Diffusionsmodellen haben außergewöhnliche Fähigkeiten gezeigt, um realitätsnahe Dynamiken zu simulieren und eine 3D-Konsistenz aufrechtzuerhalten. Dieser Fortschritt inspiriert uns, das Potenzial dieser Modelle zu untersuchen, um eine dynamische Konsistenz über verschiedene Blickwinkel hinweg sicherzustellen, eine äußerst wünschenswerte Eigenschaft für Anwendungen wie virtuelles Filmen. Im Gegensatz zu bestehenden Methoden, die sich auf die Mehrblickgenerierung einzelner Objekte für die 4D-Rekonstruktion konzentrieren, liegt unser Interesse darin, Open-World-Videos aus beliebigen Blickwinkeln zu generieren, unter Einbeziehung von 6 DoF-Kamerapositionen. Um dies zu erreichen, schlagen wir ein Plug-and-Play-Modul vor, das ein vortrainiertes Text-zu-Video-Modell zur Generierung von Mehrkamera-Videos verbessert und eine konsistente Inhaltsdarstellung über verschiedene Blickwinkel hinweg gewährleistet. Konkret führen wir ein Mehrblick-Synchronisationsmodul ein, um Erscheinungsbild- und Geometriekonsistenz über diese Blickwinkel hinweg aufrechtzuerhalten. Angesichts des Mangels an hochwertigen Trainingsdaten entwerfen wir ein hybrides Schulungsschema, das Mehrkamera-Bilder und monokulare Videos nutzt, um von Unreal Engine gerenderte Mehrkamera-Videos zu ergänzen. Darüber hinaus ermöglicht unsere Methode faszinierende Erweiterungen, wie das Neu-Rendern eines Videos aus neuen Blickwinkeln. Wir veröffentlichen auch einen Mehrblick-synchronisierten Videodatensatz namens SynCamVideo-Datensatz. Projektseite: https://jianhongbai.github.io/SynCamMaster/.
In jüngster Zeit haben Fortschritte in der Text-zu-Bild (T2I)-Generierung bemerkenswerte Erfolge bei der Erzeugung hochwertiger Bilder aus Text gezeigt. Allerdings weisen bestehende T2I-Modelle eine verringerte Leistung bei der kompositorischen Bildgenerierung mit mehreren Objekten und komplexen Beziehungen auf. Wir führen dieses Problem auf Einschränkungen in bestehenden Datensätzen von Bild-Text-Paaren zurück, die präzise Interobjektbeziehungsannotationen nur unzureichend enthalten. Um dieses Problem zu lösen, haben wir LAION-SG erstellt, einen Datensatz im großen Maßstab mit hochwertigen strukturellen Annotationen von Szenengraphen (SG), die Attribute und Beziehungen mehrerer Objekte präzise beschreiben und so die semantische Struktur in komplexen Szenen effektiv darstellen. Basierend auf LAION-SG haben wir ein neues Grundlagenmodell SDXL-SG trainiert, um strukturelle Annotationsinformationen in den Generierungsprozess zu integrieren. Umfangreiche Experimente zeigen, dass fortschrittliche Modelle, die auf unserem LAION-SG trainiert wurden, signifikante Leistungsverbesserungen bei der Generierung komplexer Szenen im Vergleich zu Modellen auf bestehenden Datensätzen aufweisen. Zudem stellen wir CompSG-Bench vor, einen Benchmark, der Modelle bei der kompositorischen Bildgenerierung bewertet und einen neuen Standard für dieses Gebiet etabliert.
Vision-Language-Modelle haben in letzter Zeit erhebliche Fortschritte gemacht und zeigen eine überlegene Leistung bei einer Vielzahl von Aufgaben, z.B. optische Zeichenerkennung und komplexe Diagrammanalyse. Aufbauend auf diesem Trend stellen wir ein neues Vision-Language-Modell, POINTS1.5, vor, das darauf ausgelegt ist, in verschiedenen realen Anwendungen hervorragende Leistungen zu erbringen. POINTS1.5 ist eine Weiterentwicklung von POINTS1.0 und integriert mehrere Schlüsselinnovationen: i) Wir ersetzen den ursprünglichen CLIP-Vision-Encoder, der eine feste Bildauflösung hatte, durch einen NaViT-artigen Vision-Encoder, der native dynamische hohe Auflösung unterstützt. Dies ermöglicht es POINTS1.5, Bilder jeder Auflösung zu verarbeiten, ohne sie in Kacheln aufteilen zu müssen. ii) Wir fügen POINTS1.5 zweisprachige Unterstützung hinzu, was seine Fähigkeiten im Chinesischen erheblich verbessert. Aufgrund der Knappheit von Open-Source-Chinesisch-Datensätzen für Vision-Language-Modelle sammeln wir zahlreiche Bilder aus dem Internet und annotieren sie mit einer Kombination aus manuellen und automatischen Methoden. iii) Wir schlagen eine Reihe von rigorosen Filtermethoden für die Anpassung von visuellen Anweisungsdatensätzen vor. Wir evaluieren umfassend all diese Filtermethoden und wählen die effektivsten aus, um den endgültigen Satz für die Anpassung von visuellen Anweisungen zu erhalten. Dank dieser Innovationen übertrifft POINTS1.5 deutlich POINTS1.0 und zeigt eine starke Leistung in einer Vielzahl von realen Anwendungen. Bemerkenswert ist, dass POINTS1.5-7B mit weniger als 4 Milliarden Tokens trainiert wird und auf der OpenCompass-Rangliste unter Modellen mit weniger als 10 Milliarden Parametern den ersten Platz belegt.
Die generative Erstellung von steuerbaren Personbildern zielt darauf ab, ein Personbild unter Bezugnahme auf Referenzbilder zu generieren, um präzise Kontrolle über das Erscheinungsbild oder die Pose der Person zu ermöglichen. Allerdings verzerren bisherige Methoden oft feinkörnige texturale Details des Referenzbildes, obwohl insgesamt eine hohe Bildqualität erreicht wird. Wir führen diese Verzerrungen auf unzureichende Aufmerksamkeit für entsprechende Regionen im Referenzbild zurück. Um dies zu beheben, schlagen wir daher vor, Flussfelder im Aufmerksamkeitsbereich (Leffa) zu erlernen, die das Ziel-Query explizit anweisen, während des Trainings auf den richtigen Referenzschlüssel im Aufmerksamkeitslayer zu achten. Konkret wird dies durch einen Regularisierungsverlust auf der Aufmerksamkeitskarte innerhalb eines diffusionsbasierten Baseline-Modells realisiert. Unsere umfangreichen Experimente zeigen, dass Leffa eine Spitzenleistung bei der Kontrolle des Erscheinungsbilds (virtuelles Anprobieren) und der Pose (Posetransfer) erreicht, wodurch feinkörnige Detailverzerrungen signifikant reduziert werden, während die hohe Bildqualität beibehalten wird. Darüber hinaus zeigen wir, dass unser Verlust modellagnostisch ist und zur Verbesserung der Leistung anderer Diffusionsmodelle verwendet werden kann.
Das BrowserGym-Ökosystem adressiert den wachsenden Bedarf an effizienter Bewertung und Benchmarking von Web-Agenten, insbesondere solchen, die Automatisierung und Große Sprachmodelle (LLMs) für Web-Interaktionen nutzen. Viele bestehende Benchmarks leiden unter Fragmentierung und inkonsistenten Bewertungsmethoden, was es schwierig macht, zuverlässige Vergleiche und reproduzierbare Ergebnisse zu erzielen. BrowserGym zielt darauf ab, dies zu lösen, indem es eine vereinheitlichte, an Gym erinnernde Umgebung mit klar definierten Beobachtungs- und Aktionsräumen bereitstellt, die standardisierte Bewertungen über verschiedene Benchmarks hinweg erleichtern. In Kombination mit AgentLab, einem ergänzenden Framework, das bei der Erstellung, Prüfung und Analyse von Agenten hilft, bietet BrowserGym Flexibilität zur Integration neuer Benchmarks, während eine konsistente Bewertung und umfassendes Experimentmanagement sichergestellt werden. Dieser standardisierte Ansatz zielt darauf ab, die Zeit und Komplexität bei der Entwicklung von Web-Agenten zu reduzieren, um zuverlässigere Vergleiche zu unterstützen und eine eingehende Analyse des Agentenverhaltens zu erleichtern, was zu anpassungsfähigeren und leistungsfähigeren Agenten führen könnte und letztendlich die Innovation in der durch LLMs gesteuerten Automatisierung beschleunigen könnte. Als unterstützenden Beweis führen wir das erste groß angelegte, Multi-Benchmark-Web-Agentenexperiment durch und vergleichen die Leistung von 6 hochmodernen LLMs über alle derzeit in BrowserGym verfügbaren Benchmarks. Unter anderem zeigen unsere Ergebnisse eine große Diskrepanz zwischen den neuesten Modellen von OpenAI und Anthropic auf, wobei Claude-3.5-Sonnet auf fast allen Benchmarks führend ist, außer bei auf Vision bezogenen Aufgaben, wo GPT-4o überlegen ist. Trotz dieser Fortschritte betonen unsere Ergebnisse, dass der Aufbau robuster und effizienter Web-Agenten nach wie vor eine bedeutende Herausforderung darstellt, aufgrund der inhärenten Komplexität realer Web-Umgebungen und der Grenzen der aktuellen Modelle.
Obwohl aktuelle grundlegende Videogeneratoren visuell ansprechende Ergebnisse liefern, haben sie immer noch Probleme mit Erscheinungsdrift, bei der Objekte allmählich abgebaut oder inkonsistent über Frames hinweg verändert werden, was die visuelle Kohärenz beeinträchtigt. Wir vermuten, dass dies darauf zurückzuführen ist, dass es keine explizite Überwachung in Bezug auf die räumliche Verfolgung auf der Merkmalsebene gibt. Wir schlagen Track4Gen vor, einen räumlich bewussten Videogenerator, der den Videodiffusionsverlust mit der Punktverfolgung über Frames hinweg kombiniert und so eine verbesserte räumliche Überwachung der Diffusionsmerkmale bietet. Track4Gen vereint die Videoerzeugungs- und Punktverfolgungsaufgaben in einem einzigen Netzwerk, indem minimale Änderungen an bestehenden Videoerzeugungsarchitekturen vorgenommen werden. Unter Verwendung von Stable Video Diffusion als Grundlage zeigt Track4Gen, dass es möglich ist, Videoerzeugung und Punktverfolgung zu vereinen, die normalerweise als separate Aufgaben behandelt werden. Unsere umfangreichen Bewertungen zeigen, dass Track4Gen Erscheinungsdrift effektiv reduziert, was zu zeitlich stabilen und visuell kohärenten Videogenerierungen führt. Projektseite: hyeonho99.github.io/track4gen
Stilkontrolle war bei der Generierung von Videos sehr beliebt. Bestehende Methoden generieren oft Videos, die weit vom gegebenen Stil entfernt sind, verursachen Inhaltslecks und haben Schwierigkeiten, ein Video in den gewünschten Stil zu übertragen. Unsere erste Beobachtung ist, dass die Stil-Extraktionsphase wichtig ist, während bestehende Methoden den globalen Stil betonen, aber lokale Texturen ignorieren. Um Texturmerkmale einzubringen und gleichzeitig Inhaltslecks zu verhindern, filtern wir inhaltsbezogene Patches heraus und behalten Stil-Patches basierend auf der Ähnlichkeit von Patches bei; für die Extraktion des globalen Stils generieren wir einen gepaarten Stil-Datensatz durch Modellillusion, um das kontrastive Lernen zu erleichtern, was die absolute Stilkonsistenz erheblich verbessert. Darüber hinaus trainieren wir, um die Lücke zwischen Bild und Video zu schließen, einen leichten Bewegungsadapter auf Standbildern, der implizit den Stilisierungsgrad verbessert und es unserem auf Bildern trainierten Modell ermöglicht, nahtlos auf Videos angewendet zu werden. Dank dieser Bemühungen erzielt unser Ansatz, StyleMaster, nicht nur eine signifikante Verbesserung sowohl in der Stilähnlichkeit als auch in der zeitlichen Kohärenz, sondern kann auch leicht auf die Video-Stilübertragung mit einem grauen ControlNet angewendet werden. Umfangreiche Experimente und Visualisierungen zeigen, dass StyleMaster die Konkurrenz signifikant übertrifft, indem hochwertige stilisierte Videos effektiv generiert werden, die mit dem Textinhalt übereinstimmen und dem Stil der Referenzbilder nahekommen. Unsere Projektseite ist unter https://zixuan-ye.github.io/stylemaster verfügbar.
Generalisierte Feedforward-Gauß-Modelle haben durch die Nutzung von Vorwissen aus großen Multi-View-Datensätzen signifikante Fortschritte bei der dünnbesetzten 3D-Rekonstruktion erzielt. Diese Modelle haben jedoch oft Schwierigkeiten, hochfrequente Details aufgrund der begrenzten Anzahl von Gaußschen Funktionen darzustellen. Während die Verdichtungsstrategie, die bei der per-Szene 3D-Gauß-Splatting (3D-GS) Optimierung verwendet wird, auf die Feedforward-Modelle übertragen werden kann, ist sie möglicherweise nicht optimal für generalisierte Szenarien geeignet. In diesem Artikel schlagen wir Generative Verdichtung vor, eine effiziente und verallgemeinerbare Methode zur Verdichtung von Gaußschen Funktionen, die von Feedforward-Modellen generiert werden. Im Gegensatz zur 3D-GS-Verdichtungsstrategie, bei der die rohen Gauß-Parameter iterativ aufgeteilt und geklont werden, verfeinert unsere Methode die Merkmalsdarstellungen der Feedforward-Modelle und generiert ihre entsprechenden feinen Gaußschen Funktionen in einem einzigen Vorwärtsschritt, wobei das eingebettete Vorwissen zur verbesserten Verallgemeinerung genutzt wird. Experimentelle Ergebnisse bei Objekt- und Szenenrekonstruktionsaufgaben zeigen, dass unsere Methode im Vergleich zu modernsten Ansätzen mit vergleichbaren oder kleineren Modellgrößen eine bemerkenswerte Leistungssteigerung bei der Darstellung feiner Details erzielt.
Dieses Paper präsentiert StreamChat, einen neuartigen Ansatz, der die Interaktionsfähigkeiten großer multimodaler Modelle (LMMs) mit Streaming-Videoinhalten verbessert. In Szenarien mit Streaming-Interaktionen verlassen sich bestehende Methoden ausschließlich auf visuelle Informationen, die zum Zeitpunkt einer Fragestellung verfügbar sind, was zu erheblichen Verzögerungen führt, da das Modell sich der nachfolgenden Änderungen im Streaming-Video nicht bewusst ist. StreamChat begegnet dieser Einschränkung, indem es den visuellen Kontext bei jedem Decodierungsschritt innovativ aktualisiert, um sicherzustellen, dass das Modell während des gesamten Decodierungsprozesses aktuelle Videoinhalte nutzt. Darüber hinaus führen wir eine flexible und effiziente Crossattention-basierte Architektur ein, um dynamische Streaming-Eingaben zu verarbeiten und gleichzeitig die Inferenzeffizienz für Streaming-Interaktionen zu gewährleisten. Des Weiteren konstruieren wir einen neuen dichten Anweisungsdatensatz, um das Training von Modellen für Streaming-Interaktionen zu erleichtern, ergänzt durch einen parallelen 3D-RoPE-Mechanismus, der die relative zeitliche Information von visuellen und Text-Token codiert. Experimentelle Ergebnisse zeigen, dass StreamChat eine wettbewerbsfähige Leistung auf etablierten Bild- und Video-Benchmarks erzielt und überlegene Fähigkeiten in Streaming-Interaktionsszenarien im Vergleich zu führenden Video-LMMs aufweist.
Die Bearbeitung von echten Bildern mithilfe eines vortrainierten Text-zu-Bild (T2I) Diffusions-/Flussmodells beinhaltet oft die Umkehrung des Bildes in seine entsprechende Rauschkarte. Allerdings ist die Umkehrung allein in der Regel nicht ausreichend, um zufriedenstellende Ergebnisse zu erzielen, weshalb viele Methoden zusätzlich in den Prozess der Abtastung eingreifen. Solche Methoden erzielen verbesserte Ergebnisse, sind jedoch nicht nahtlos zwischen Modellarchitekturen übertragbar. Hier stellen wir FlowEdit vor, eine textbasierte Bearbeitungsmethode für vortrainierte T2I-Flussmodelle, die umkehrungsfrei, optimierungsfrei und modellagnostisch ist. Unsere Methode konstruiert eine gewöhnliche Differentialgleichung (ODE), die direkt zwischen den Ausgangs- und Zielverteilungen (entsprechend den Ausgangs- und Zieltextvorgaben) abbildet und eine geringere Transportkosten aufweist als der Umkehrungsansatz. Dies führt zu Spitzenleistungen, wie wir anhand von Stable Diffusion 3 und FLUX veranschaulichen. Der Code und Beispiele sind auf der Projektwebseite verfügbar.
Die räumliche 3D-Argumentation bezeichnet die Fähigkeit, die Positionen, Ausrichtungen und räumlichen Beziehungen von Objekten im 3D-Raum zu analysieren und zu interpretieren. Dies ermöglicht es Modellen, ein umfassendes Verständnis der 3D-Szene zu entwickeln, was ihre Anwendbarkeit auf eine breitere Palette von Bereichen wie autonomes Navigieren, Robotik und AR/VR ermöglicht. Während große multimodale Modelle (LMMs) bemerkenswerte Fortschritte in einer Vielzahl von Bild- und Videoverständnisaufgaben erzielt haben, ist ihre Fähigkeit zur Durchführung räumlicher 3D-Argumentation auf vielfältigen natürlichen Bildern weniger erforscht. In dieser Arbeit präsentieren wir den ersten umfassenden Benchmark für räumliche 3D-Argumentation, 3DSRBench, mit 2.772 manuell annotierten visuellen Frage-Antwort-Paaren über 12 Fragearten. Wir führen eine robuste und gründliche Bewertung der Fähigkeiten zur räumlichen 3D-Argumentation durch, indem wir die Datenverteilung ausbalancieren und eine neuartige FlipEval-Strategie anwenden. Um die Robustheit der räumlichen 3D-Argumentation hinsichtlich der 3D-Kameraperspektiven weiter zu untersuchen, enthält unser 3DSRBench zwei Untermengen mit räumlichen 3D-Argumentationsfragen zu gepaarten Bildern mit gemeinsamen und ungewöhnlichen Perspektiven. Wir bewerten eine breite Palette von Open-Source- und proprietären LMMs und decken ihre Einschränkungen in verschiedenen Aspekten des 3D-Verständnisses auf, wie Höhe, Ausrichtung, Position und Mehrfachobjekt-Argumentation, sowie ihre beeinträchtigte Leistung bei Bildern mit ungewöhnlichen Kameraperspektiven. Unser 3DSRBench liefert wertvolle Erkenntnisse und Einblicke in die zukünftige Entwicklung von LMMs mit starken 3D-Argumentationsfähigkeiten. Unsere Projektseite und Datensatz sind verfügbar unter https://3dsrbench.github.io.
Im Bereich der Text-zu-Bewegung-Generierung erzeugen Bert-typische Maskenmodelle (MoMask, MMM) derzeit qualitativ hochwertigere Ergebnisse im Vergleich zu autoregressiven Modellen vom Typ GPT (T2M-GPT). Allerdings fehlt es diesen Bert-typischen Modellen oft an der Streaming-Ausgabefähigkeit, die für Anwendungen in Videospielen und Multimedia-Umgebungen erforderlich ist, eine Funktion, die den GPT-typischen Modellen innewohnt. Darüber hinaus zeigen sie eine schwächere Leistung bei der Generierung außerhalb der Verteilung. Um die Qualität der BERT-typischen Modelle zu übertreffen und dabei eine GPT-typische Struktur zu nutzen, ohne zusätzliche Verfeinerungsmodelle hinzuzufügen, die die Skalierung von Daten komplizieren, schlagen wir eine neuartige Architektur vor, Mogo (Motion Only Generate Once), die hochwertige realistische 3D-Bewegungen durch das Training eines einzigen Transformer-Modells erzeugt. Mogo besteht nur aus zwei Hauptkomponenten: 1) RVQ-VAE, einem hierarchischen Restvektor-Quantisierungsvariationalautoencoder, der kontinuierliche Bewegungssequenzen mit hoher Präzision diskretisiert; 2) Hierarchical Causal Transformer, der für die Generierung der Basisbewegungssequenzen in einer autoregressiven Weise verantwortlich ist, während er gleichzeitig Residuen über verschiedene Schichten hinweg ableitet. Experimentelle Ergebnisse zeigen, dass Mogo kontinuierliche und zyklische Bewegungssequenzen von bis zu 260 Frames (13 Sekunden) generieren kann, womit die Längenbeschränkung von 196 Frames (10 Sekunden) bestehender Datensätze wie HumanML3D übertroffen wird. Auf dem HumanML3D-Testset erzielt Mogo einen FID-Score von 0,079 und übertrifft damit sowohl das GPT-typische Modell T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) als auch das BERT-typische Modell MMM (FID = 0,080). Darüber hinaus erreicht unser Modell die beste quantitative Leistung bei der Generierung außerhalb der Verteilung.
Wir erforschen eine neuartige Videoerstellungserfahrung, nämlich die Videoerstellung durch Demonstration. Ausgehend von einem Demonstrationsvideo und einem Kontextbild aus einer anderen Szene generieren wir ein physikalisch plausibles Video, das natürlich an das Kontextbild anknüpft und die Handlungskonzepte der Demonstration ausführt. Um diese Fähigkeit zu ermöglichen, präsentieren wir Delta-Diffusion, einen selbstüberwachten Trainingsansatz, der aus unbeschrifteten Videos durch bedingte Vorhersage zukünftiger Frames lernt. Im Gegensatz zu den meisten bestehenden Steuerungen für die Videogenerierung, die auf expliziten Signalen basieren, verwenden wir die Form impliziter latenter Steuerung für maximale Flexibilität und Ausdruckskraft, die für allgemeine Videos erforderlich sind. Durch die Nutzung eines Video-Grundlagenmodells mit einem Erscheinungsengpass-Design oben drauf extrahieren wir Handlungs-Latenzen aus Demonstrationsvideos, um den Generierungsprozess mit minimaler Erscheinungsleckage zu konditionieren. Empirisch übertrifft Delta-Diffusion verwandte Baselines sowohl in Bezug auf die menschliche Präferenz als auch auf groß angelegte maschinelle Bewertungen und zeigt Potenziale für die interaktive Weltsimulation auf. Beispiele für generierte Videos sind unter https://delta-diffusion.github.io/ verfügbar.
Große Sprachmodelle sind bekannt dafür, realweltliches Wissen zu erfassen, was es ihnen ermöglicht, in vielen nachgelagerten Aufgaben herausragende Leistungen zu erbringen. Trotz jüngster Fortschritte sind diese Modelle immer noch anfällig für das, was allgemein als Halluzinationen bekannt ist, was dazu führt, dass sie unerwünschten und faktisch inkorrekten Text ausgeben. In dieser Arbeit schlagen wir eine neuartige Kalibrierungsmethode vor, die zur Bekämpfung von Halluzinationen eingesetzt werden kann. Wir fügen dem Vokabular des Modells ein spezielles "[IDK]" ("Ich weiß es nicht")-Token hinzu und führen eine Zielgrößenfunktion ein, die die Wahrscheinlichkeitsmasse für falsche Vorhersagen auf das [IDK]-Token verschiebt. Dieser Ansatz ermöglicht es dem Modell, Unsicherheit in seiner Ausgabe explizit auszudrücken. Wir evaluieren unsere vorgeschlagene Methode über mehrere Modellarchitekturen und faktische nachgelagerte Aufgaben. Wir stellen fest, dass Modelle, die mit unserer Methode trainiert wurden, in der Lage sind, Unsicherheit an Stellen auszudrücken, an denen sie zuvor Fehler gemacht hätten, während sie nur einen geringen Verlust an kodiertem Wissen erleiden. Darüber hinaus führen wir umfangreiche Ablationsstudien mehrerer Variationen unseres Ansatzes durch und liefern eine detaillierte Analyse des Präzision-Wiederuf-Verhältnisses unserer Methode.
Die zunehmenden Größen großer Sprachmodelle (LLMs) führen zu erheblichem Rechenaufwand und Speicherbedarf, wenn diese Modelle an spezifische Aufgaben oder Bereiche angepasst werden. Verschiedene parameter-effiziente Feinabstimmungsmethoden (PEFT) wurden entwickelt, um diese Herausforderungen zu mildern, indem ein kleiner Satz von Parametern für die aufgabenspezifischen Aktualisierungen der Modellgewichte trainiert wird. Unter den PEFT-Methoden sticht LoRA durch seine Einfachheit und Effizienz hervor, was die Entwicklung einer Reihe von Varianten inspiriert hat. Allerdings ignorieren LoRA und seine Nachfolger das Wissen, das rauschig oder irrelevant für die angestrebte Aufgabe ist, was sich nachteilig auf die Modellleistung auswirkt und zu Suboptimalität führt. Um diese Einschränkung zu überwinden, stellen wir Knowledge-aware Singular-value Adaptation (KaSA) vor, eine PEFT-Methode, die die Singulärwertzerlegung (SVD) mit wissensbewussten Singulärwerten nutzt, um Wissen basierend auf seiner Relevanz für die jeweilige Aufgabe dynamisch zu aktivieren. Wir führen umfangreiche Experimente über eine Reihe von LLMs auf Aufgaben im Bereich des natürlichen Sprachverstehens (NLU), der Generierung (NLG), der Anweisungsbefolgung und des gesunden Menschenverstands durch. Die experimentellen Ergebnisse zeigen, dass KaSA kontinuierlich FFT und 14 beliebte PEFT-Baselines auf 16 Benchmarks und 4 synthetischen Datensätzen übertrifft und damit die Wirksamkeit und Anpassungsfähigkeit unserer Methode unterstreicht. Der Quellcode unserer Methode ist verfügbar unter https://github.com/juyongjiang/KaSA.
Die textgesteuerte Stilübertragung zielt darauf ab, den Stil eines Referenzbildes mit dem Inhalt zu verschmelzen, der durch eine Textvorgabe beschrieben wird. Die jüngsten Fortschritte bei Text-zu-Bild-Modellen haben die Feinheiten von Stiltransformationen verbessert, dennoch bestehen weiterhin bedeutende Herausforderungen, insbesondere hinsichtlich des Überanpassens an Referenzstile, der Begrenzung der stilistischen Kontrolle und der Missabstimmung mit dem Textinhalt. In diesem Artikel schlagen wir drei ergänzende Strategien vor, um diese Probleme anzugehen. Erstens führen wir einen cross-modalen Mechanismus für Adaptive Instanznormalisierung (AdaIN) ein, um eine bessere Integration von Stil- und Textmerkmalen zu ermöglichen und die Ausrichtung zu verbessern. Zweitens entwickeln wir einen Style-basierten klassifikatorfreien Leitfaden (SCFG)-Ansatz, der eine selektive Steuerung über stilistische Elemente ermöglicht und irrelevante Einflüsse reduziert. Schließlich integrieren wir ein Lehrermodell während der frühen Generierungsphasen, um räumliche Layouts zu stabilisieren und Artefakte zu mindern. Unsere umfangreichen Evaluierungen zeigen signifikante Verbesserungen in der Qualität der Stilübertragung und der Ausrichtung auf textuelle Vorgaben. Darüber hinaus kann unser Ansatz in bestehende Stilübertragungs-Frameworks integriert werden, ohne Feinabstimmung.
Die Erstellung hochwertiger Daten zur Schulung robuster sprachgesteuerter Agenten ist eine lang anhaltende Herausforderung in der verkörperten KI. In diesem Artikel stellen wir einen Selbstverfeinernden Daten-Flywheel (SRDF) vor, der hochwertige und umfangreiche Navigationsanweisungs-Trajektorien-Paare generiert, indem er den Datensatz iterativ durch die Zusammenarbeit zweier Modelle verfeinert, dem Anweisungsgenerator und dem Navigator, ohne jegliche menschliche Annotation in Echtzeit. Konkret beginnt SRDF damit, einen Basengenerator zu verwenden, um einen anfänglichen Datensatz für das Training eines Basenavigators zu erstellen, gefolgt von der Anwendung des trainierten Navigators zur Filterung des Datensatzes. Dies führt zu Daten mit höherer Genauigkeit, um einen besseren Generator zu trainieren, der wiederum hochwertigere Daten zur Schulung des nächsten Navigators produzieren kann. Ein solcher Flywheel etabliert einen selbstverfeinernden Datenprozess, der einen kontinuierlich verbesserten und äußerst effektiven Datensatz für das umfangreiche sprachgesteuerte Navigationslernen liefert. Unsere Experimente zeigen, dass der Navigator nach mehreren Flywheel-Runden die Leistungsgrenze von 70 % auf 78 % SPL im klassischen R2R-Testset anhebt und erstmals die menschliche Leistung (76 %) übertrifft. Gleichzeitig führt dieser Prozess zu einem überlegenen Generator, wie durch eine SPICE-Erhöhung von 23,5 auf 26,2 belegt, besser als alle bisherigen VLN-Anweisungsgenerierungsmethoden. Abschließend zeigen wir die Skalierbarkeit unserer Methode durch eine zunehmende Umgebungs- und Anweisungsvielfalt sowie die Verallgemeinerungsfähigkeit unseres vortrainierten Navigators über verschiedene nachgelagerte Navigationsaufgaben, wobei wir in allen Fällen die bisherigen Spitzenmethoden bei weitem übertreffen.
Die Bildübersetzung (IT) birgt ein enormes Potenzial in verschiedenen Bereichen, da sie die Übersetzung von Textinhalten innerhalb von Bildern in verschiedene Sprachen ermöglicht. Allerdings leiden bestehende Datensätze häufig unter Einschränkungen hinsichtlich Umfang, Vielfalt und Qualität, was die Entwicklung und Evaluierung von IT-Modellen behindert. Um dieses Problem anzugehen, stellen wir MIT-10M vor, einen groß angelegten Parallelkorpus für multilinguale Bildübersetzung mit über 10 Millionen Bild-Text-Paaren, die aus realen Daten abgeleitet wurden. Dieser Korpus wurde umfassend gereinigt und die mehrsprachige Übersetzung validiert. Er enthält 840.000 Bilder in drei Größen, 28 Kategorien, Aufgaben mit drei Schwierigkeitsgraden und 14 Sprachen für Bild-Text-Paare, was eine erhebliche Verbesserung gegenüber bestehenden Datensätzen darstellt. Wir führen umfangreiche Experimente durch, um Modelle anhand von MIT-10M zu evaluieren und zu trainieren. Die experimentellen Ergebnisse zeigen deutlich, dass unser Datensatz eine höhere Anpassungsfähigkeit aufweist, wenn es darum geht, die Leistung der Modelle bei der Bewältigung anspruchsvoller und komplexer Bildübersetzungsaufgaben in der realen Welt zu bewerten. Darüber hinaus hat sich die Leistung des mit MIT-10M feinabgestimmten Modells im Vergleich zum Basismodell verdreifacht, was seine Überlegenheit weiter bestätigt.