papers.description
Die Generierung im Kontext ist eine Schlüsselkomponente der Fähigkeit großer Sprachmodelle (LLMs) zur offenen Aufgabenverallgemeinerung. Durch die Nutzung einiger Beispiele als Kontext können LLMs sowohl in-domain als auch out-of-domain Aufgaben ausführen. Die jüngsten Fortschritte bei auto-regressiven Bild-Sprach-Modellen (VLMs), die auf LLMs aufbauen, haben beeindruckende Leistungen bei der Text-zu-Bild-Generierung gezeigt. Das Potenzial des Lernens im Kontext für allgemeine Bildgenerierungsaufgaben bleibt jedoch weitgehend unerforscht. Um dies anzugehen, stellen wir X-Prompt vor, ein rein auto-regressives großes Bild-Sprach-Modell, das darauf ausgelegt ist, eine wettbewerbsfähige Leistung bei einer breiten Palette von sowohl bekannten als auch unbekannten Bildgenerierungsaufgaben innerhalb eines vereinheitlichten in-Kontext-Lernrahmens zu erbringen. X-Prompt integriert ein spezialisiertes Design, das wertvolle Merkmale aus Kontextbeispielen effizient komprimiert, unterstützt längere in-Kontext-Token-Sequenzen und verbessert seine Fähigkeit zur Verallgemeinerung auf unbekannte Aufgaben. Eine vereinheitlichte Trainingsaufgabe für sowohl Text- als auch Bildvorhersage ermöglicht es X-Prompt, die allgemeine Bildgenerierung mit verbesserter Aufgabenbewusstheit aus Kontextbeispielen zu handhaben. Umfangreiche Experimente validieren die Leistung des Modells bei verschiedenen bekannten Bildgenerierungsaufgaben und seine Fähigkeit, sich auf zuvor unbekannte Aufgaben zu verallgemeinern.
Mit dem raschen Fortschritt von diffusionsbasierten generativen Modellen hat die Animation von Porträtbildern bemerkenswerte Ergebnisse erzielt. Dennoch steht sie immer noch vor Herausforderungen bei der zeitlich konsistenten Videogenerierung und schnellen Probenahme aufgrund ihrer iterativen Probenahme-Natur. Dieses Papier stellt FLOAT vor, eine audiogetriebene Methode zur Generierung von sprechenden Porträtvideos, die auf einem Flussabgleich-gesteuerten generativen Modell basiert. Wir verlagern das generative Modellieren vom pixelbasierten latenten Raum zu einem erlernten Bewegungs-Latenzraum, was eine effiziente Gestaltung von zeitlich konsistenter Bewegung ermöglicht. Um dies zu erreichen, führen wir einen auf Transformer basierenden Vektorfeld-Vorhersager mit einem einfachen, aber effektiven rahmenweisen Konditionierungsmechanismus ein. Darüber hinaus unterstützt unsere Methode die emotionale Verbesserung durch sprachgesteuerte Bewegung, was eine natürliche Integration von ausdrucksstarken Bewegungen ermöglicht. Umfangreiche Experimente zeigen, dass unsere Methode in Bezug auf visuelle Qualität, Bewegungstreue und Effizienz die audiogetriebenen sprechenden Porträtmethoden auf dem neuesten Stand der Technik übertrifft.
Der technische Bericht stellt O1-CODER vor, einen Versuch, das Modell o1 von OpenAI mit Fokus auf Codieraufgaben zu replizieren. Es integriert Reinforcement Learning (RL) und Monte Carlo Tree Search (MCTS), um die System-2 Denkfähigkeiten des Modells zu verbessern. Das Framework umfasst das Training eines Test Case Generators (TCG) für standardisierte Code-Tests, die Verwendung von MCTS zur Generierung von Code-Daten mit Begründungsprozessen und die iterative Feinabstimmung des Richtlinienmodells, um zunächst Pseudocode zu erstellen, gefolgt von der Generierung des vollständigen Codes. Der Bericht behandelt auch die Chancen und Herausforderungen bei der Implementierung von o1-ähnlichen Modellen in realen Anwendungen, schlägt den Übergang zum System-2-Paradigma vor und hebt die Notwendigkeit von Umgebungszustandsaktualisierungen hervor. Aktualisierter Modellfortschritt und experimentelle Ergebnisse werden in nachfolgenden Versionen berichtet. Der gesamte Quellcode, kuratierte Datensätze sowie die abgeleiteten Modelle werden auf https://github.com/ADaM-BJTU/O1-CODER offengelegt.
Diese Arbeit stellt Switti vor, einen skalenweisen Transformer für die Generierung von Text-zu-Bild. Ausgehend von bestehenden AR-Modellen für die Vorhersage auf der nächsten Skalenebene untersuchen wir diese zunächst für die T2I-Generierung und schlagen architektonische Modifikationen vor, um ihre Konvergenz und Gesamtleistung zu verbessern. Wir beobachten dann, dass die Self-Attention-Maps unseres vortrainierten skalenweisen AR-Modells eine schwache Abhängigkeit von vorherigen Skalen aufweisen. Basierend auf dieser Erkenntnis schlagen wir ein nicht-AR-Gegenstück vor, das eine {sim}11% schnellere Abtastung und eine geringere Speicherauslastung ermöglicht, während gleichzeitig eine leicht bessere Generierungsqualität erzielt wird. Darüber hinaus zeigen wir, dass eine klassifiziererfreie Führung auf hochauflösenden Skalen oft unnötig ist und die Leistung sogar beeinträchtigen kann. Durch Deaktivierung der Führung auf diesen Skalen erreichen wir eine zusätzliche Beschleunigung der Abtastung um {sim}20% und verbessern die Generierung feingliedriger Details. Umfangreiche Präferenzstudien von Personen und automatisierte Bewertungen zeigen, dass Switti bestehende T2I-AR-Modelle übertrifft und mit modernsten T2I-Diffusionsmodellen konkurriert, während es bis zu 7-mal schneller ist.
Wir stellen das Open-Sora Plan vor, ein Open-Source-Projekt, das darauf abzielt, ein großes Generierungsmodell zur Erzeugung von gewünschten hochauflösenden Videos mit langer Dauer auf Basis verschiedener Benutzereingaben beizutragen. Unser Projekt umfasst mehrere Komponenten für den gesamten Videogenerierungsprozess, darunter ein Wavelet-Flow Variational Autoencoder, ein gemeinsamer Bild-Video-Skiparse-Denoiser und verschiedene Bedingungssteuerungen. Darüber hinaus sind viele Hilfsstrategien für effizientes Training und Inferenz konzipiert, und ein mehrdimensionaler Datenkuratierungspipeline wird vorgeschlagen, um die gewünschten hochwertigen Daten zu erhalten. Dank effizienter Überlegungen erzielt unser Open-Sora Plan beeindruckende Ergebnisse bei der Videogenerierung sowohl in qualitativen als auch quantitativen Bewertungen. Wir hoffen, dass unser sorgfältiges Design und praktische Erfahrung die Forschergemeinschaft für Videogenerierung inspirieren können. Alle unsere Codes und Modellgewichte sind öffentlich unter https://github.com/PKU-YuanGroup/Open-Sora-Plan verfügbar.
Aktuelle große multimodale Modelle (LMMs) stehen vor erheblichen Herausforderungen bei der Verarbeitung und dem Verständnis von langen oder hochauflösenden Videos, was hauptsächlich auf den Mangel an qualitativ hochwertigen Datensätzen zurückzuführen ist. Um dieses Problem aus einer datenzentrierten Perspektive anzugehen, schlagen wir VISTA vor, ein einfaches, aber effektives Video-Spatiotemporales Augmentierungs-Framework, das langanhaltende und hochauflösende Video-Anweisungs-Paare aus vorhandenen Video-Untertitel-Datensätzen synthetisiert. VISTA kombiniert räumlich und zeitlich Videos, um neue synthetische Videos mit erweiterten Dauern und verbesserten Auflösungen zu erstellen, und erzeugt anschließend Frage-Antwort-Paare zu diesen neu synthetisierten Videos. Basierend auf diesem Paradigma entwickeln wir sieben Video-Augmentierungsmethoden und kuratieren VISTA-400K, einen Video-Anweisungs-Datensatz, der darauf abzielt, das Verständnis von langanhaltenden und hochauflösenden Videos zu verbessern. Das Feintuning verschiedener Video-LMMs auf unseren Daten führte zu einer durchschnittlichen Verbesserung von 3,3% über vier anspruchsvolle Benchmarks für das Verständnis von langen Videos. Darüber hinaus führen wir den ersten umfassenden Benchmark für das Verständnis von hochauflösenden Videos, HRVideoBench, ein, auf dem unsere feingetunten Modelle eine Leistungssteigerung von 6,5% erzielen. Diese Ergebnisse unterstreichen die Wirksamkeit unseres Frameworks.
Menschen sind soziale Tiere. Wie man 3D-autonome Charaktere mit ähnlicher sozialer Intelligenz ausstattet, die in der Lage sind, Menschen wahrzunehmen, zu verstehen und mit ihnen zu interagieren, bleibt ein offenes, aber grundlegendes Problem. In diesem Papier stellen wir SOLAMI vor, das erste End-to-End-Modellierungsframework für soziale Vision-Sprache-Handlungen (VLA) für immersive Interaktion mit 3D-autonomen Charakteren. Konkret baut SOLAMI 3D-autonome Charaktere aus drei Aspekten auf: (1) Soziale VLA-Architektur: Wir schlagen ein vereinheitlichtes soziales VLA-Framework vor, um eine multimodale Antwort (Sprache und Bewegung) basierend auf den multimodalen Eingaben des Benutzers zu generieren, um den Charakter für soziale Interaktion zu steuern. (2) Interaktive multimodale Daten: Wir präsentieren SynMSI, einen synthetischen multimodalen sozialen Interaktionsdatensatz, der durch eine automatische Pipeline unter Verwendung nur vorhandener Bewegungsdatensätze generiert wird, um das Problem des Datenmangels zu lösen. (3) Immersive VR-Schnittstelle: Wir entwickeln eine VR-Schnittstelle, die es Benutzern ermöglicht, mit diesen Charakteren immersiv zu interagieren, die von verschiedenen Architekturen gesteuert werden. Umfangreiche quantitative Experimente und Benutzerstudien zeigen, dass unser Framework zu präziseren und natürlicheren Charakterantworten (sowohl in Sprache als auch in Bewegung) führt, die mit den Benutzererwartungen bei geringerer Latenz übereinstimmen.
In diesem Paper präsentieren wir TAPTRv3, das auf TAPTRv2 aufbaut, um die Robustheit der Punktnachverfolgung in langen Videos zu verbessern. TAPTRv2 ist ein einfaches DETR-ähnliches Framework, das jeden Punkt in realen Videos präzise verfolgen kann, ohne auf Kosten-Volumen angewiesen zu sein. TAPTRv3 verbessert TAPTRv2, indem es auf dessen Mangel eingeht, hochwertige Merkmale aus langen Videos abzurufen, in denen die nachzuverfolgenden Punkte normalerweise im Laufe der Zeit zunehmende Variationen aufweisen. In TAPTRv3 schlagen wir vor, sowohl den räumlichen als auch den zeitlichen Kontext zu nutzen, um eine bessere Merkmalsabfrage entlang der räumlichen und zeitlichen Dimensionen für eine robustere Nachverfolgung in langen Videos zu ermöglichen. Für eine bessere räumliche Merkmalsabfrage präsentieren wir das Context-aware Cross-Attention (CCA), das die umgebenden räumlichen Kontexte nutzt, um die Qualität der Aufmerksamkeitswerte bei der Abfrage von Bildmerkmalen zu verbessern. Für eine bessere zeitliche Merkmalsabfrage führen wir das Visibility-aware Long-Temporal Attention (VLTA) ein, um eine zeitliche Aufmerksamkeit auf alle vergangenen Frames zu lenken, während deren entsprechende Sichtbarkeiten berücksichtigt werden, was das Merkmalsdriftproblem in TAPTRv2 effektiv angeht, das durch dessen RNN-ähnliches langzeitliches Modellieren verursacht wird. TAPTRv3 übertrifft TAPTRv2 bei den meisten anspruchsvollen Datensätzen deutlich und erzielt eine Spitzenleistung. Selbst im Vergleich zu Methoden, die mit groß angelegten zusätzlichen internen Daten trainiert wurden, bleibt TAPTRv3 wettbewerbsfähig.
Multimodale Large Language Models (MLLMs) haben bedeutende Fortschritte bei visuellen Verständnis- und Generierungsaufgaben erzielt. Die Generierung von ineinandergreifenden Bild-Text-Inhalten bleibt jedoch eine Herausforderung, die integrierte multimodale Verständnis- und Generierungsfähigkeiten erfordert. Während die Fortschritte bei vereinheitlichten Modellen neue Lösungen bieten, sind bestehende Benchmarks aufgrund von Datenmenge- und Diversitätsbeschränkungen unzureichend für die Bewertung dieser Methoden. Um diese Lücke zu schließen, stellen wir GATE OpenING (OpenING) vor, einen umfassenden Benchmark, der 5.400 hochwertige, menschenannotierte Instanzen über 56 realen Aufgaben umfasst. OpenING deckt verschiedene tägliche Szenarien wie Reiseführer, Design und Brainstorming ab und bietet eine robuste Plattform für anspruchsvolle ineinandergreifende Generierungsmethoden. Darüber hinaus präsentieren wir IntJudge, ein Richtermodell zur Bewertung von offenen multimodalen Generierungsmethoden. Trainiert mit einer neuartigen Datenpipeline, erreicht unser IntJudge eine Übereinstimmungsrate von 82,42% mit menschlichen Beurteilungen und übertrifft GPT-basierte Evaluatoren um 11,34%. Umfangreiche Experimente auf OpenING zeigen, dass aktuelle ineinandergreifende Generierungsmethoden noch erhebliches Verbesserungspotenzial haben. Schlüsselerkenntnisse zur ineinandergreifenden Bild-Text-Generierung werden weiterhin präsentiert, um die Entwicklung von Modellen der nächsten Generation zu leiten. Das OpenING ist unter https://opening.github.io als Open Source verfügbar.
Surrogatmodelle auf Basis von maschinellem Lernen bieten Forschern leistungsstarke Werkzeuge zur Beschleunigung von simulationsbasierten Arbeitsabläufen. Allerdings kann es aufgrund der Tatsache, dass Standarddatensätze in diesem Bereich oft nur kleine Klassen physikalischen Verhaltens abdecken, schwierig sein, die Wirksamkeit neuer Ansätze zu bewerten. Um diese Lücke zu schließen, stellen wir den Well vor: eine umfangreiche Sammlung von Datensätzen, die numerische Simulationen einer Vielzahl von raumzeitlichen physikalischen Systemen enthalten. Der Well greift auf Fachleute aus verschiedenen Bereichen und Entwickler numerischer Software zurück, um 15 TB Daten über 16 Datensätze bereitzustellen, die verschiedene Bereiche wie biologische Systeme, Strömungsmechanik, akustische Streuung sowie magneto-hydrodynamische Simulationen extragalaktischer Fluide oder Supernova-Explosionen abdecken. Diese Datensätze können einzeln oder als Teil eines umfassenderen Benchmark-Sets verwendet werden. Um die Nutzung des Well zu erleichtern, bieten wir eine einheitliche PyTorch-Schnittstelle zum Trainieren und Evaluieren von Modellen an. Wir demonstrieren die Funktionalität dieser Bibliothek, indem wir Beispielausgangspunkte vorstellen, die die neuen Herausforderungen durch die komplexen Dynamiken des Well hervorheben. Der Code und die Daten sind verfügbar unter https://github.com/PolymathicAI/the_well.
Das Segment Anything Model 2 (SAM 2) hat sich als leistungsstarkes Werkzeug für die Segmentierung von Videoobjekten und das Tracking von beliebigen Elementen erwiesen. Zu den Schlüsselkomponenten von SAM 2, die die beeindruckende Leistung bei der Segmentierung von Videoobjekten ermöglichen, gehören ein großer mehrstufiger Bildcodierer zur Extraktion von Merkmalen aus Einzelbildern und ein Speichermechanismus, der Gedächtniskontexte aus vergangenen Frames speichert, um die Segmentierung des aktuellen Frames zu unterstützen. Die hohe Rechenkomplexität des mehrstufigen Bildcodierers und des Speichermoduls hat seine Anwendungen in realen Aufgaben, wie z.B. der Segmentierung von Videoobjekten auf mobilen Geräten, eingeschränkt. Um diese Einschränkung zu überwinden, schlagen wir EfficientTAMs vor, leichte Modelle zur Verfolgung beliebiger Elemente, die qualitativ hochwertige Ergebnisse mit geringer Latenz und Modellgröße liefern. Unsere Idee basiert darauf, den einfachen, nicht-hierarchischen Vision Transformer (ViT) als Bildcodierer für die Segmentierung von Videoobjekten neu zu bewerten und ein effizientes Speichermodul einzuführen, das die Komplexität sowohl für die Extraktion von Merkmalen aus Einzelbildern als auch für die Speicherberechnung für die Segmentierung des aktuellen Frames reduziert. Wir verwenden einfache, leichte ViTs und ein effizientes Speichermodul, um EfficientTAMs zu erstellen, und trainieren die Modelle auf den Datensätzen SA-1B und SA-V für die Segmentierung von Videoobjekten und die Verfolgung beliebiger Elemente. Wir evaluieren anhand mehrerer Video-Segmentierungs-Benchmarks, einschließlich halbüberwachter VOS und anweisbarer Video-Segmentierung, und stellen fest, dass unser vorgeschlagenes EfficientTAM mit einfachem ViT vergleichbare Leistungen wie das SAM 2-Modell (HieraB+SAM 2) mit etwa doppeltem Geschwindigkeitsvorteil auf A100 und etwa 2,4-facher Parameterreduktion erbringt. Bei Segment-Anything-Bildaufgaben schneiden unsere EfficientTAMs auch vorteilhaft gegenüber dem ursprünglichen SAM ab, mit etwa 20-fachem Geschwindigkeitsvorteil auf A100 und etwa 20-facher Parameterreduktion. Auf mobilen Geräten wie dem iPhone 15 Pro Max können unsere EfficientTAMs mit angemessener Qualität mit etwa 10 FPS für die Durchführung der Segmentierung von Videoobjekten ausgeführt werden, was die Fähigkeit kleiner Modelle für Anwendungen zur Segmentierung von Videoobjekten auf Geräten hervorhebt.
Diffusionsmodelle (DMs) zeichnen sich durch ihre fotorealistische Darstellung, Bildbearbeitung und Lösung inverser Probleme aus, unterstützt durch leitlinienfreie Führung und Bildumkehrtechniken. Allerdings sind rektifizierte Flussmodelle (RFMs) für diese Aufgaben noch wenig erforscht. Bestehende DM-basierte Methoden erfordern häufig zusätzliches Training, weisen eine mangelnde Verallgemeinerung auf vortrainierte latente Modelle auf, erbringen unterdurchschnittliche Leistungen und erfordern aufgrund umfangreicher Rückpropagierung durch ODE-Löser und Umkehrprozesse erhebliche Rechenressourcen. In dieser Arbeit entwickeln wir zunächst ein theoretisches und empirisches Verständnis der Vektorfelddynamik von RFMs, um die Denoising-Trajektorie effizient zu lenken. Unsere Ergebnisse zeigen, dass wir das Vektorfeld auf deterministische und gradientenfreie Weise navigieren können. Unter Nutzung dieser Eigenschaft schlagen wir FlowChef vor, das das Vektorfeld nutzt, um die Denoising-Trajektorie für kontrollierte Bildgenerierungsaufgaben zu lenken, unterstützt durch Gradientensprünge. FlowChef ist ein einheitlicher Rahmen für kontrollierte Bildgenerierung, der erstmals gleichzeitig Klassifiziererführung, lineare inverse Probleme und Bildbearbeitung ohne zusätzliches Training, Umkehrung oder intensive Rückpropagierung behandelt. Abschließend führen wir umfangreiche Evaluationen durch und zeigen, dass FlowChef in Bezug auf Leistung, Speicher und Zeitbedarf signifikant besser abschneidet als Baselines und neue Spitzenleistungen erzielt. Projektseite: https://flowchef.github.io.
Der kürzliche Anstieg an hochwertigen visuellen Anleitungstuning-Proben von geschlossenen vision-sprachlichen Modellen (VLMs) wie GPT-4V hat die Veröffentlichung von Open-Source VLMs in verschiedenen Modellgrößen beschleunigt. Das Skalieren von VLMs zur Verbesserung der Leistung durch größere Modelle bringt jedoch erhebliche Rechenaufgaben mit sich, insbesondere für den Einsatz auf ressourcenbeschränkten Geräten wie mobilen Plattformen und Robotern. Um dies zu bewältigen, schlagen wir VLsI vor: Verbalisierte Schichten-zu-Interaktionen, eine neue VLM-Familie in den Modellgrößen 2B und 7B, die Effizienz priorisiert, ohne die Genauigkeit zu beeinträchtigen. VLsI nutzt einen einzigartigen, schichtweisen Destillationsprozess, der Zwischen-"Verbalisierer" einführt, die Merkmale von jeder Schicht in den natürlichen Sprachraum abbilden und es kleineren VLMs ermöglichen, sich flexibel mit den Denkprozessen größerer VLMs abzustimmen. Dieser Ansatz mildert die oft auftretende Trainingsinstabilität bei der Ausgabeimitation und geht über das typische Feinschleifen der letzten Schicht hinaus, indem er die schichtweise Progression der kleinen VLMs mit der der großen abgleicht. Wir validieren VLsI anhand von zehn anspruchsvollen vision-sprachlichen Benchmarks und erzielen beachtliche Leistungssteigerungen (11,0 % für 2B und 17,4 % für 7B) gegenüber GPT-4V, ohne dass eine Modellskalierung, Fusion oder architektonische Änderungen erforderlich sind.
Diffusions-Transformer haben bemerkenswerte Fähigkeiten in der Bildgenerierung gezeigt, kommen jedoch oft mit übermäßiger Parametrisierung, was zu erheblichem Inferenzaufwand in realen Anwendungen führt. In dieser Arbeit präsentieren wir TinyFusion, eine Tiefenpruningsmethode, die darauf abzielt, überflüssige Schichten aus Diffusions-Transformern durch End-to-End-Lernen zu entfernen. Das Kernprinzip unseres Ansatzes besteht darin, ein beschnittenes Modell mit hoher Wiederherstellbarkeit zu erstellen, das es ermöglicht, nach Feinabstimmung starke Leistungen wieder zu erlangen. Um dies zu erreichen, führen wir eine differenzierbare Abtasttechnik ein, um das Pruning erlernbar zu machen, gepaart mit einem ko-optimierten Parameter zur Simulation zukünftiger Feinabstimmung. Während frühere Arbeiten darauf abzielen, den Verlust oder Fehler nach dem Pruning zu minimieren, modelliert unsere Methode explizit und optimiert die Leistung von beschnittenen Modellen nach der Feinabstimmung. Experimentelle Ergebnisse deuten darauf hin, dass dieses erlernbare Paradigma erhebliche Vorteile für das Schichtenpruning von Diffusions-Transformern bietet und bestehende bedeutungsbasierte und fehlerbasierte Methoden übertrifft. Darüber hinaus zeigt TinyFusion eine starke Verallgemeinerung über verschiedene Architekturen wie DiTs, MARs und SiTs. Experimente mit DiT-XL zeigen, dass TinyFusion einen flachen Diffusions-Transformer zu weniger als 7% der Vor-Trainingskosten erstellen kann, was zu einer 2-fachen Beschleunigung mit einem FID-Score von 2.86 führt und Wettbewerber mit vergleichbarer Effizienz übertrifft. Der Code ist verfügbar unter https://github.com/VainF/TinyFusion.
Die Leistungsunterschiede großer Sprachmodelle (LLM) zwischen Sprachen behindern ihre effektive Bereitstellung in vielen Regionen und hemmen das potenzielle wirtschaftliche und gesellschaftliche Wert von generativen KI-Tools in vielen Gemeinschaften. Die Entwicklung funktionaler LLMs in vielen Sprachen (d.h. mehrsprachige LLMs) wird jedoch durch den Mangel an hochwertigen Evaluationsressourcen in Sprachen außerhalb des Englischen behindert. Darüber hinaus übersetzen aktuelle Praktiken bei der Konstruktion mehrsprachiger Benchmarks oft englische Ressourcen, wodurch das regionale und kulturelle Wissen der Umgebungen ignoriert wird, in denen mehrsprachige Systeme eingesetzt werden sollen. In dieser Arbeit konstruieren wir eine Evaluierungssuite von 197.243 Frage-Antwort-Paaren aus lokalen Prüfungsquellen, um die Fähigkeiten mehrsprachiger LLMs in verschiedenen regionalen Kontexten zu messen. Unsere neuartige Ressource, INCLUDE, ist ein umfassender Wissens- und Schlussfolgerungs-basierter Benchmark in 44 Schriftsprachen, der mehrsprachige LLMs auf ihre Leistungsfähigkeit in den tatsächlichen Sprachumgebungen, in denen sie eingesetzt werden sollen, evaluiert.
Der Video-Variational Autoencoder (VAE) kodiert Videos in einen niedrigdimensionalen latenten Raum und wird zu einem Schlüsselelement in den meisten Modellen zur Latenten Video-Diffusion (LVDM), um die Trainingskosten des Modells zu reduzieren. Allerdings wird die Kodierungskosten von Video-VAEs zu einem begrenzenden Engpass im Training von LVDMs, wenn die Auflösung und Dauer der generierten Videos zunehmen. Darüber hinaus kann die blockweise Inferenzmethode, die von den meisten LVDMs übernommen wird, zu Diskontinuitäten im latenten Raum führen, wenn lange Videos verarbeitet werden. Der Schlüssel zur Bewältigung des Rechenengpasses liegt darin, Videos in verschiedene Komponenten zu zerlegen und die wichtigen Informationen effizient zu kodieren. Die Wavelet-Transformation kann Videos in mehrere Frequenzdomänenkomponenten zerlegen und die Effizienz erheblich verbessern. Daher schlagen wir den Wavelet-Flow-VAE (WF-VAE) vor, einen Autoencoder, der die mehrstufige Wavelet-Transformation nutzt, um den Energiefluss mit niedriger Frequenz in die latente Darstellung zu erleichtern. Darüber hinaus führen wir eine Methode namens "Causal Cache" ein, die die Integrität des latenten Raums während der blockweisen Inferenz aufrechterhält. Im Vergleich zu modernsten Video-VAEs zeigt der WF-VAE eine überlegene Leistung sowohl in PSNR als auch in LPIPS Metriken, erreicht eine doppelte Durchsatzrate und eine vierfach niedrigere Speichernutzung bei gleichzeitiger Beibehaltung einer wettbewerbsfähigen Rekonstruktionsqualität. Unser Code und unsere Modelle sind unter https://github.com/PKU-YuanGroup/WF-VAE verfügbar.
Sicherheitsbedenken von Multimodalen großen Sprachmodellen (MLLMs) sind allmählich zu einem wichtigen Problem in verschiedenen Anwendungen geworden. Überraschenderweise deuten frühere Arbeiten auf ein gegenintuitives Phänomen hin, dass die Verwendung des textuellen Vergessens zur Ausrichtung von MLLMs vergleichbare Sicherheitsleistungen mit MLLMs erreicht, die mit Bild-Text-Paaren trainiert wurden. Um ein solches gegenintuitives Phänomen zu erklären, entdecken wir ein Problem des visuellen Sicherheitsinformationslecks (VSIL) in bestehenden multimodalen Sicherheitsbenchmarks, d.h., der potenziell riskante und sensible Inhalt im Bild wurde in der textuellen Abfrage offengelegt. Auf diese Weise können MLLMs diese sensiblen Text-Bild-Abfragen leicht anhand textueller Abfragen ablehnen. Bild-Text-Paare ohne VSIL sind jedoch in realen Szenarien üblich und werden von bestehenden multimodalen Sicherheitsbenchmarks übersehen. Zu diesem Zweck konstruieren wir einen multimodalen visuellen undichtungsfreien Sicherheitsbenchmark (VLSBench), der das visuelle Sicherheitsleck vom Bild zur textuellen Abfrage mit 2,4k Bild-Text-Paaren verhindert. Experimentelle Ergebnisse zeigen, dass VLSBench eine bedeutende Herausforderung für sowohl Open-Source als auch Closed-Source MLLMs darstellt, einschließlich LLaVA, Qwen2-VL, Llama3.2-Vision und GPT-4o. Diese Studie zeigt, dass eine textuelle Ausrichtung für multimodale Sicherheitsszenarien mit VSIL ausreicht, während eine multimodale Ausrichtung eine vielversprechendere Lösung für multimodale Sicherheitsszenarien ohne VSIL darstellt. Bitte sehen Sie sich unseren Code und unsere Daten unter folgendem Link an: http://hxhcreate.github.io/VLSBench
Wir stellen Presto vor, ein neuartiges Video-Diffusionsmodell, das darauf ausgelegt ist, 15-sekündige Videos mit langanhaltender Kohärenz und reichhaltigem Inhalt zu generieren. Die Erweiterung von Methoden zur Videogenerierung, um die Szenarienvielfalt über längere Zeiträume aufrechtzuerhalten, birgt bedeutende Herausforderungen. Um dem entgegenzuwirken, schlagen wir eine Segmentierte Kreuz-Aufmerksamkeits- (SCA) Strategie vor, die die verborgenen Zustände entlang der zeitlichen Dimension in Segmente aufteilt, wodurch jedes Segment auf eine entsprechende Untertitelung kreuz-aufmerksam werden kann. SCA erfordert keine zusätzlichen Parameter und ermöglicht eine nahtlose Integration in aktuelle DiT-basierte Architekturen. Zur Unterstützung der hochwertigen Generierung langer Videos haben wir den LongTake-HD Datensatz erstellt, der aus 261k inhaltsreichen Videos mit Szenariokohärenz besteht, annotiert mit einer Gesamtvideountertitelung und fünf progressiven Untertitelungen. Experimente zeigen, dass unser Presto 78,5% auf der VBench Semantik-Bewertung und 100% auf dem Dynamikgrad erreicht und bestehende modernste Videogenerierungsmethoden übertrifft. Dies zeigt, dass unser vorgeschlagener Presto den Inhaltsreichtum signifikant verbessert, langanhaltende Kohärenz aufrechterhält und komplexe textliche Details erfasst. Weitere Details finden Sie auf unserer Projektseite: https://presto-video.github.io/.
Wir untersuchen die Frage: "Wie viel Vorwissen über Kunst ist erforderlich, um Kunst zu schaffen?" Um dies zu untersuchen, schlagen wir ein Text-zu-Bild-Generierungsmodell vor, das ohne Zugriff auf kunstbezogene Inhalte trainiert wurde. Anschließend stellen wir eine einfache, aber effektive Methode vor, um einen Kunstadapter zu erlernen, der nur mit einigen Beispielen ausgewählter künstlerischer Stile trainiert wird. Unsere Experimente zeigen, dass von unserem Verfahren generierte Kunst von Benutzern als vergleichbar mit Kunst wahrgenommen wird, die von Modellen erzeugt wurde, die auf großen, kunstreichen Datensätzen trainiert wurden. Abschließend veranschaulichen wir durch Datenattributionsverfahren, wie Beispiele aus sowohl künstlerischen als auch nicht-künstlerischen Datensätzen zur Schaffung neuer künstlerischer Stile beigetragen haben.
Fehler beim Verständnis visueller Informationen in Bildern (d.h. visuelle Wahrnehmungsfehler) bleiben eine Hauptursache für Fehler in großen Sprach- und Bildmodellen (LVLMs). Während eine weitere Analyse unerlässlich ist, besteht ein Mangel an Datensätzen zur Bewertung der visuellen Wahrnehmung von LVLMs. In dieser Arbeit stellen wir VisOnlyQA vor, einen neuen Datensatz, der entwickelt wurde, um die visuellen Wahrnehmungsfähigkeiten von LVLMs direkt anhand von Fragen zu geometrischen und numerischen Informationen in wissenschaftlichen Abbildungen zu bewerten. Unser Datensatz ermöglicht es uns, die visuelle Wahrnehmung von LVLMs für feinkörnige visuelle Informationen zu analysieren, unabhängig von anderen Fähigkeiten wie dem Schlussfolgern. Der Auswertungssatz von VisOnlyQA umfasst 1.200 Multiple-Choice-Fragen in 12 Aufgaben zu vier Kategorien von Abbildungen. Wir stellen auch synthetische Trainingsdaten zur Verfügung, die aus 70.000 Instanzen bestehen. Unsere Experimente mit VisOnlyQA heben folgende Ergebnisse hervor: (i) 20 von uns bewertete LVLMs, einschließlich GPT-4o und Gemini 1.5 Pro, arbeiten schlecht bei den visuellen Wahrnehmungsaufgaben in VisOnlyQA, während die menschliche Leistung nahezu perfekt ist. (ii) Das Feinabstimmen an synthetischen Trainingsdaten zeigt das Potenzial zur Verbesserung der visuellen Wahrnehmung von LVLMs auf, jedoch sind beobachtete Verbesserungen auf bestimmte Aufgaben und spezifische Modelle beschränkt. (iii) Stärkere Sprachmodelle verbessern die visuelle Wahrnehmung von LVLMs. Zusammenfassend legen unsere Experimente nahe, dass sowohl Trainingsdaten als auch Modellarchitekturen verbessert werden sollten, um die visuellen Wahrnehmungsfähigkeiten von LVLMs zu stärken. Die Datensätze, der Code und die Modellantworten sind unter https://github.com/psunlpgroup/VisOnlyQA verfügbar.
In jüngster Zeit haben Fortschritte bei Video-basierten großen Sprachmodellen (Video LLMs) das Aufkommen verschiedener Fähigkeiten zur Schlussfolgerung und Interpretation dynamischer visueller Inhalte erlebt. Unter ihnen stechen Gameplay-Videos als eine besondere Datenquelle hervor, die oft Fehler enthält, die dem physikalischen Allgemeinwissen widersprechen. Diese Eigenschaft macht sie zu einem effektiven Maßstab zur Bewertung der noch wenig erforschten Fähigkeit des physikalischen Allgemeinwissensverständnisses in Video LLMs. In diesem Artikel schlagen wir PhysGame als einen wegweisenden Maßstab zur Bewertung von Verstößen gegen das physikalische Allgemeinwissen in Gameplay-Videos vor. PhysGame umfasst 880 Videos mit Fehlern in vier grundlegenden Bereichen (d.h. Mechanik, Kinematik, Optik und Materialeigenschaften) und über 12 verschiedene physikalische Allgemeinwissensbereiche. Durch umfangreiche Evaluierung verschiedener modernster Video LLMs zeigen unsere Ergebnisse, dass die Leistung der aktuellen Open-Source Video LLMs deutlich hinter der proprietärer Gegenstücke zurückbleibt. Um diese Kluft zu überbrücken, erstellen wir einen Anweisungsabstimmungsdatensatz PhysInstruct mit 140.057 Frage-Antwort-Paaren, um das Lernen des physikalischen Allgemeinwissens zu erleichtern. Darüber hinaus schlagen wir auch einen Präferenzoptimierungsdatensatz PhysDPO mit 34.358 Trainingspaaren vor, bei dem die nicht bevorzugten Antworten unter Verwendung von irreführenden Titeln (d.h. Metainformations-Hacking), weniger Frames (d.h. zeitliches Hacking) und niedrigeren räumlichen Auflösungen (d.h. räumliches Hacking) generiert werden. Basierend auf der Reihe von Datensätzen schlagen wir PhysVLM als ein physikalisches Wissens-verbessertes Video LLM vor. Umfangreiche Experimente sowohl auf dem physikorientierten Maßstab PhysGame als auch auf allgemeinen Video-Verständnis-Maßstäben zeigen die modernste Leistung von PhysVLM.
Wir schlagen einen allgemeinen Zwei-Stufen-Algorithmus vor, der ein nachweisbares Skalierungsgesetz für die Testzeitberechnung großer Sprachmodelle (LLMs) aufweist. Bei einem Eingabeproblem generiert der vorgeschlagene Algorithmus zunächst N Kandidatenlösungen und wählt dann die beste Lösung über ein Mehrfach-Ausscheidungsturnier aus, bei dem jedes Kandidatenpaar K-mal verglichen wird und nur die Gewinner in die nächste Runde gelangen. In einer minimalistischen Umsetzung können beide Stufen allein mit einem Black-Box-LLM und nichts anderem (z. B. kein externer Überprüfer oder Belohnungsmodell) ausgeführt werden, und insgesamt werden N-mal (K + 1) hochparallelisierbare LLM-Aufrufe benötigt, um ein Eingabeproblem zu lösen. Unter der Annahme, dass eine generierte Kandidatenlösung mit einer Wahrscheinlichkeit p_{gen} > 0 korrekt ist und ein Vergleich zwischen einem Paar korrekter und inkorrekter Lösungen den richtigen Gewinner mit einer Wahrscheinlichkeit p_{comp} > 0,5 identifiziert (d. h. besser als eine zufällige Vermutung), zeigen wir theoretisch, dass die Fehlerwahrscheinlichkeit des vorgeschlagenen Algorithmus exponentiell mit N und K abnimmt: $P(final output is incorrect) le (1 - p_{gen})^N + lceil log_2 N rceil e^{-2 K (p_{comp} - 0.5)^2}.$ Unsere empirischen Ergebnisse mit dem anspruchsvollen MMLU-Pro-Benchmark bestätigen die technischen Annahmen sowie die Wirksamkeit des vorgeschlagenen Algorithmus und die Vorteile der Skalierung seiner Testzeitberechnung.
Bestehende verkörperte Instanzziel-Navigationstasks, die von natürlicher Sprache gesteuert werden, setzen voraus, dass menschliche Benutzer vor der Navigation vollständige und nuancierte Instanzbeschreibungen liefern, was in der realen Welt unpraktisch sein kann, da menschliche Anweisungen knapp und mehrdeutig sein können. Um diese Lücke zu überbrücken, schlagen wir eine neue Aufgabe vor, die Kollaborative Instanznavigation (CoIN), mit dynamischer Agenten-Benutzer-Interaktion während der Navigation vor, um Unsicherheiten über die Zielinstanz in natürlichen, vorlagenfreien, offenen Dialogen aktiv zu lösen. Um CoIN anzugehen, schlagen wir eine neue Methode vor, die Agent-Benutzer-Interaktion mit Unsicherheitsbewusstsein (AIUTA), nutzt die Wahrnehmungsfähigkeit von Visionssprachmodellen (VLMs) und die Fähigkeit von großen Sprachmodellen (LLMs). Zunächst initiiert ein Selbst-Frager-Modell nach der Objekterkennung einen Selbst-Dialog, um eine vollständige und genaue Beobachtungsbeschreibung zu erhalten, während eine neuartige Unsicherheitsschätzungstechnik ungenaue VLM-Wahrnehmung mindert. Anschließend bestimmt ein Interaktionsauslösermodul, ob eine Frage an den Benutzer gestellt, die Navigation fortgesetzt oder gestoppt werden soll, um die Benutzereingabe zu minimieren. Zur Bewertung führen wir CoIN-Bench ein, einen Benchmark, der sowohl echte als auch simulierte Menschen unterstützt. AIUTA erzielt eine wettbewerbsfähige Leistung bei der Instanznavigation gegenüber modernsten Methoden und zeigt eine hohe Flexibilität im Umgang mit Benutzereingaben.
Die jüngsten Fortschritte in Diffusionsmodellen haben neue Maßstäbe in der Bild- und Videogenerierung gesetzt und ermöglichen eine realistische visuelle Synthese über Einzelbild- und Mehrbildkontexte hinweg. Allerdings haben diese Modelle immer noch Schwierigkeiten, 3D-konsistente Inhalte effizient und explizit zu generieren. Um dies zu lösen, schlagen wir World-consistent Video Diffusion (WVD) vor, ein neuartiges Framework, das eine explizite 3D-Überwachung unter Verwendung von XYZ-Bildern integriert, die globale 3D-Koordinaten für jeden Bildpixel codieren. Genauer gesagt trainieren wir einen Diffusionstransformator, um die gemeinsame Verteilung von RGB- und XYZ-Frames zu erlernen. Dieser Ansatz unterstützt eine multitaskfähige Anpassung über eine flexible Inpainting-Strategie. Zum Beispiel kann WVD XYZ-Frames aus Ground-Truth-RGB schätzen oder neuartige RGB-Frames mithilfe von XYZ-Projektionen entlang einer spezifizierten Kameratrajektorie generieren. Auf diese Weise vereint WVD Aufgaben wie Einzelbild-zu-3D-Generierung, Multi-View-Stereo und kameraüberwachte Videogenerierung. Unser Ansatz zeigt eine wettbewerbsfähige Leistung über mehrere Benchmarks hinweg und bietet eine skalierbare Lösung für die 3D-konsistente Video- und Bildgenerierung mit einem einzigen vorab trainierten Modell.
Das Herstellen von Analogien ist grundlegend für die Kognition. Proportionale Analogien, die aus vier Begriffen bestehen, werden häufig zur Bewertung sprachlicher und kognitiver Fähigkeiten verwendet. Zum Beispiel erfordert das Vervollständigen von Analogien wie "Sauerstoff ist zu Gas wie <leer> ist zu <leer>" die Identifizierung der semantischen Beziehung (z.B. "Art von") zwischen dem ersten Begriffspaar ("Sauerstoff" und "Gas") und das Finden eines zweiten Paares, das dieselbe Beziehung teilt (z.B. "Aluminium" und "Metall"). In dieser Arbeit stellen wir einen 15K Multiple-Choice Question Answering (MCQA) Datensatz für die Vervollständigung proportionaler Analogien vor und bewerten die Leistung zeitgenössischer Large Language Models (LLMs) in verschiedenen wissensgestützten Eingabeszenarien. Speziell erweitern wir Eingaben um drei Arten von Wissen: Exemplar, strukturiert und zielgerichtet. Unsere Ergebnisse zeigen, dass trotz umfangreicher Trainingsdaten das Lösen proportionaler Analogien für aktuelle LLMs nach wie vor eine Herausforderung darstellt, wobei das beste Modell eine Genauigkeit von 55% erreicht. Bemerkenswert ist, dass die Bereitstellung zielgerichteten Wissens den Modellen besser helfen kann, proportionale Analogien zu vervollständigen, im Vergleich zur Bereitstellung von Beispielen oder Sammlungen strukturierten Wissens.
Die präzise Ausrichtung zwischen textuellen Anweisungen und generierten Bildern in der Text-zu-Bild-Generierung ist eine bedeutende Herausforderung, insbesondere bei der Darstellung von schriftlichem Text innerhalb von Bildern. State-of-the-Art-Modelle wie Stable Diffusion 3 (SD3), Flux und AuraFlow haben nach wie vor Schwierigkeiten mit der genauen Textdarstellung, was zu falsch geschriebenen oder inkonsistenten Texten führt. Wir stellen eine trainingsfreie Methode mit minimalem Rechenaufwand vor, die die Qualität der Textdarstellung signifikant verbessert. Konkret führen wir einen Overshooting-Sampler für vortrainierte rektifizierte Fluss (RF)-Modelle ein, indem wir zwischen dem übermäßigen Simulieren der erlernten gewöhnlichen Differentialgleichung (ODE) und der Wiedereinführung von Rauschen abwechseln. Im Vergleich zum Euler-Sampler führt der Overshooting-Sampler effektiv einen zusätzlichen Langevin-Dynamik-Term ein, der dazu beitragen kann, den Fehler aus aufeinanderfolgenden Euler-Schritten zu korrigieren und somit die Textdarstellung zu verbessern. Allerdings beobachten wir bei hoher Overshooting-Stärke Überglättungsartefakte auf den generierten Bildern. Um dieses Problem zu lösen, schlagen wir einen Attention Modulated Overshooting-Sampler (AMO) vor, der die Stärke des Overshootings für jeden Bildausschnitt adaptiv steuert, basierend auf ihrem Aufmerksamkeitswert für den Textinhalt. AMO zeigt eine Verbesserung der Textdarstellungsgenauigkeit um 32,3% bzw. 35,9% bei SD3 und Flux, ohne die Gesamtqualität der Bilder zu beeinträchtigen oder die Inferenzkosten zu erhöhen.
In den letzten Jahrzehnten haben autonome Fahralgorithmusse erhebliche Fortschritte in der Wahrnehmung, Planung und Steuerung gemacht. Die Bewertung einzelner Komponenten spiegelt jedoch nicht vollständig die Leistung gesamter Systeme wider, was die Notwendigkeit für ganzheitlichere Bewertungsmethoden verdeutlicht. Dies motiviert die Entwicklung von HUGSIM, einem Closed-Loop-, fotorealistischen und Echtzeit-Simulator zur Bewertung autonomer Fahralgorithmusse. Dies wird erreicht, indem 2D RGB-Bilder mithilfe von 3D-Gaußsplatting in den 3D-Raum übertragen werden, um die Renderqualität für Closed-Loop-Szenarien zu verbessern und die Closed-Loop-Umgebung aufzubauen. In Bezug auf das Rendern bewältigen wir Herausforderungen der neuartigen Ansichtssynthese in Closed-Loop-Szenarien, einschließlich Ansichtsextrapolation und 360-Grad-Fahrzeugrendering. Über die neuartige Ansichtssynthese hinaus ermöglicht HUGSIM die vollständige geschlossene Simulationsschleife, die die Ego- und Akteurzustände und -beobachtungen basierend auf Steuerbefehlen dynamisch aktualisiert. Darüber hinaus bietet HUGSIM einen umfassenden Benchmark über mehr als 70 Sequenzen von KITTI-360, Waymo, nuScenes und PandaSet sowie über 400 verschiedene Szenarien, die eine faire und realistische Evaluierungsplattform für bestehende autonome Fahralgorithmusse bereitstellen. HUGSIM dient nicht nur als intuitive Evaluierungsbasis, sondern erschließt auch das Potenzial zur Feinabstimmung autonomer Fahralgorithmusse in einer fotorealistischen Closed-Loop-Umgebung.
Die Erkennung von Online-Missbrauchsinhalten, insbesondere in ressourcenarmen Umgebungen und im Audio-Modus, ist nach wie vor wenig erforscht. Wir untersuchen das Potenzial von vortrainierten Audio-Repräsentationen zur Erkennung von missbräuchlicher Sprache in ressourcenarmen Sprachen, in diesem Fall in indischen Sprachen, unter Verwendung des Few-Shot-Learnings (FSL). Durch die Nutzung leistungsstarker Repräsentationen aus Modellen wie Wav2Vec und Whisper erforschen wir die länderübergreifende Missbrauchserkennung unter Verwendung des ADIMA-Datensatzes mit FSL. Unser Ansatz integriert diese Repräsentationen innerhalb des Model-Agnostic Meta-Learning (MAML)-Frameworks, um missbräuchliche Sprache in 10 Sprachen zu klassifizieren. Wir experimentieren mit verschiedenen Schussgrößen (50-200) und bewerten den Einfluss begrenzter Daten auf die Leistung. Darüber hinaus wurde eine Studie zur Merkmalsvisualisierung durchgeführt, um das Verhalten des Modells besser zu verstehen. Diese Studie hebt die Verallgemeinerungsfähigkeit vortrainierter Modelle in ressourcenarmen Szenarien hervor und bietet wertvolle Einblicke in die Erkennung von missbräuchlicher Sprache in multilingualen Kontexten.
Ein Sprecher-Verifikationssystem (SV) bietet einen Authentifizierungsdienst, der darauf ausgelegt ist zu bestätigen, ob eine bestimmte Sprachprobe von einem bestimmten Sprecher stammt. Diese Technologie hat den Weg für verschiedene personalisierte Anwendungen geebnet, die individuellen Vorlieben gerecht werden. Eine bemerkenswerte Herausforderung, der sich SV-Systeme gegenübersehen, ist ihre Fähigkeit, konsistent über eine Reihe von emotionalen Spektren hinweg zu agieren. Die meisten bestehenden Modelle weisen im Umgang mit emotionalen Äußerungen im Vergleich zu neutralen Äußerungen hohe Fehlerquoten auf. Folglich führt dieses Phänomen oft dazu, dass interessante Sprachanteile übersehen werden. Dieses Problem resultiert hauptsächlich aus der begrenzten Verfügbarkeit von markierten emotionalen Sprachdaten, die die Entwicklung robuster Sprecherrepräsentationen behindert, die verschiedene emotionale Zustände umfassen. Um diesem Anliegen zu begegnen, schlagen wir einen neuartigen Ansatz vor, der das CycleGAN-Framework als Methode zur Datenanreicherung nutzt. Diese Technik synthetisiert emotionale Sprachsegmente für jeden spezifischen Sprecher, während sie die einzigartige stimmliche Identität bewahrt. Unsere experimentellen Ergebnisse unterstreichen die Wirksamkeit der Integration synthetischer emotionaler Daten in den Schulungsprozess. Die mit diesem erweiterten Datensatz trainierten Modelle übertreffen konsistent die Basislinienmodelle bei der Aufgabe, Sprecher in emotionalen Sprachszenarien zu verifizieren, wobei die Fehlerquote um bis zu 3,64% relativ reduziert wird.