papers.description
Moderne Künstliche-Intelligenz- (KI-) Systeme werden von Grundlagenmodellen angetrieben. Dieses Papier stellt eine neue Reihe von Grundlagenmodellen vor, die Llama 3 genannt werden. Es handelt sich um eine Herde von Sprachmodellen, die nativ Mehrsprachigkeit, Kodierung, Schlussfolgerung und Werkzeugnutzung unterstützen. Unser größtes Modell ist ein dichter Transformer mit 405 Milliarden Parametern und einem Kontextfenster von bis zu 128.000 Token. Diese Arbeit präsentiert eine umfangreiche empirische Bewertung von Llama 3. Wir stellen fest, dass Llama 3 auf einer Vielzahl von Aufgaben eine vergleichbare Qualität wie führende Sprachmodelle wie GPT-4 liefert. Wir veröffentlichen Llama 3 öffentlich, einschließlich vorab trainierter und nachträglich trainierter Versionen des 405-Milliarden-Parameter-Sprachmodells und unseres Llama Guard 3-Modells für die Eingabe- und Ausgabesicherheit. Das Papier präsentiert auch die Ergebnisse von Experimenten, in denen wir Bild-, Video- und Sprachfähigkeiten in Llama 3 über einen kompositorischen Ansatz integrieren. Wir beobachten, dass dieser Ansatz auf Bild-, Video- und Spracherkennungsaufgaben wettbewerbsfähig mit dem Stand der Technik ist. Die resultierenden Modelle werden noch nicht breit veröffentlicht, da sie sich noch in der Entwicklung befinden.
In jüngster Zeit haben Fortschritte im Bereich des Diffusion Transformers (DiT) eine bemerkenswerte Leistungsfähigkeit bei der Erzeugung hochwertiger Videoinhalte gezeigt. Dennoch bleibt das Potenzial transformerbasierter Diffusionsmodelle zur effektiven Generierung von Videos mit steuerbarer Bewegung ein Bereich von begrenzter Erkundung. Dieses Papier stellt Tora vor, das erste auf Trajektorien ausgerichtete DiT-Framework, das textuelle, visuelle und Trajektoriebedingungen gleichzeitig für die Videogenerierung integriert. Konkret besteht Tora aus einem Trajektorie-Extraktor (TE), einem räumlich-zeitlichen DiT und einem Bewegungssteuerungs-Fuser (MGF). Der TE kodiert beliebige Trajektorien in hierarchische Raum-Zeit-Bewegungspatches mit einem 3D-Videokompressionsnetzwerk. Der MGF integriert die Bewegungspatches in die DiT-Blöcke, um konsistente Videos gemäß den Trajektorien zu generieren. Unser Entwurf passt nahtlos zur Skalierbarkeit von DiT und ermöglicht eine präzise Steuerung der Dynamik von Videoinhalten mit unterschiedlichen Dauern, Seitenverhältnissen und Auflösungen. Umfangreiche Experimente zeigen Toras Exzellenz bei der Erzielung hoher Bewegungsqualität, während gleichzeitig die Bewegung der physischen Welt akribisch simuliert wird. Die Seite ist unter https://ali-videoai.github.io/tora_video zu finden.
Wir stellen MoMa vor, eine neuartige Modality-aware Mixture-of-Experts (MoE)-Architektur, die für das Pre-Training von gemischt-modalen, frühfusionierten Sprachmodellen entwickelt wurde. MoMa verarbeitet Bilder und Text in beliebigen Sequenzen, indem Expertenmodule in modalitätsspezifische Gruppen unterteilt werden. Diese Gruppen verarbeiten ausschließlich zugewiesene Tokens und nutzen erlerntes Routing innerhalb jeder Gruppe, um semantisch informierte Anpassungsfähigkeit zu gewährleisten. Unsere empirischen Ergebnisse zeigen signifikante Effizienzgewinne beim Pre-Training durch diese modalitätsspezifische Parameterzuweisung. Unter einem Trainingsbudget von 1 Billion Tokens erreicht das MoMa 1.4B-Modell mit 4 Textexperten und 4 Bildexperten beeindruckende FLOPs-Einsparungen: Insgesamt 3,7-fach, mit 2,6-fach für Text und 5,2-fach für die Bildverarbeitung im Vergleich zu einem rechenäquivalenten dichten Baseline, gemessen am Pre-Training-Verlust. Dies übertrifft das Standard-Expertenauswahl-MoE mit 8 gemischt-modalen Experten, das 3-fache FLOPs-Einsparungen insgesamt erreicht (3-fach für Text, 2,8-fach für Bild). Die Kombination von MoMa mit Mixture-of-Depths (MoD) verbessert die FLOPs-Einsparungen beim Pre-Training auf insgesamt 4,2-fach (Text: 3,4-fach, Bild: 5,3-fach), obwohl diese Kombination die Leistung bei kausaler Inferenz aufgrund erhöhter Empfindlichkeit gegenüber der Routergenauigkeit beeinträchtigt. Diese Ergebnisse zeigen das Potenzial von MoMa auf, die Effizienz des Pre-Trainings von gemischt-modalen, frühfusionierten Sprachmodellen signifikant voranzutreiben und den Weg für ressourceneffizientere und leistungsfähigere multimodale KI-Systeme zu ebnen.
In diesem Paper präsentieren wir Cross Language Agent - Simultaneous Interpretation, CLASI, ein hochwertiges und menschenähnliches Simultaneous Speech Translation (SiST) System. Inspiriert von professionellen menschlichen Dolmetschern nutzen wir eine neuartige datengesteuerte Lese-Schreib-Strategie, um die Übersetzungsqualität und Latenz auszubalancieren. Um die Herausforderung der Übersetzung von in-domain Terminologien anzugehen, setzt CLASI ein Multi-Modal-Retrieving-Modul ein, um relevante Informationen zu erhalten, die die Übersetzung ergänzen. Unterstützt durch LLMs kann unser Ansatz fehlertolerante Übersetzungen generieren, indem er den Eingangston, den historischen Kontext und die abgerufenen Informationen berücksichtigt. Experimentelle Ergebnisse zeigen, dass unser System andere Systeme signifikant übertrifft. Im Einklang mit professionellen menschlichen Dolmetschern bewerten wir CLASI anhand eines besseren menschlichen Bewertungskriteriums, dem validen Informationsanteil (VIP), der misst, wie viel Information erfolgreich an die Zuhörer vermittelt werden kann. In realen Szenarien, in denen Reden oft stockend, informell und unklar sind, erreicht CLASI einen VIP von 81,3 % bzw. 78,0 % für die Übersetzungsrichtungen Chinesisch-Englisch und Englisch-Chinesisch. Im Gegensatz dazu erreichen führende kommerzielle oder Open-Source-Systeme nur 35,4 % bzw. 41,6 %. Auf dem extrem schwierigen Datensatz, auf dem andere Systeme unter 13 % VIP erreichen, kann CLASI immer noch 70 % VIP erreichen.
Wir präsentieren ShieldGemma, eine umfassende Suite von auf Gemma2 aufbauenden Sicherheitsmodellierungsmodellen auf Basis von LLM. Diese Modelle bieten robuste, modernste Vorhersagen von Sicherheitsrisiken über verschiedene Schadensarten (sexuell explizite, gefährliche Inhalte, Belästigung, Hassrede) sowohl in Benutzereingaben als auch in LLM-generierten Ausgaben. Durch die Evaluation an öffentlichen und internen Benchmarks zeigen wir eine überlegene Leistung im Vergleich zu bestehenden Modellen wie Llama Guard (+10,8\% AU-PRC bei öffentlichen Benchmarks) und WildCard (+4,3\%). Darüber hinaus präsentieren wir eine neuartige LLM-basierte Datenkuratierungspipeline, die an verschiedene sicherheitsrelevante Aufgaben und darüber hinaus anpassbar ist. Wir haben eine starke Generalisierungsleistung für Modelle gezeigt, die hauptsächlich auf synthetischen Daten trainiert wurden. Durch die Veröffentlichung von ShieldGemma stellen wir der Forschungsgemeinschaft eine wertvolle Ressource zur Verfügung, die die Sicherheit von LLM vorantreibt und die Entwicklung effektiverer Inhaltsmoderationslösungen für Entwickler ermöglicht.
Der 1. Workshop zum Thema Datenkontamination (CONDA 2024) konzentriert sich auf alle relevanten Aspekte der Datenkontamination in der natürlichen Sprachverarbeitung, wobei Datenkontamination als Situationen verstanden wird, in denen Evaluierungsdaten in die Vorabtrainingscorpora einbezogen sind, die zur Schulung von Modellen im großen Maßstab verwendet werden, was die Evaluierungsergebnisse beeinträchtigt. Der Workshop förderte eine gemeinsame Aufgabe, um Beweise für Datenkontamination in aktuellen verfügbaren Datensätzen und Modellen zu sammeln. Das Ziel der gemeinsamen Aufgabe und der zugehörigen Datenbank besteht darin, der Gemeinschaft zu helfen, das Ausmaß des Problems zu verstehen und Forschern zu helfen, Evaluierungsergebnisse auf bekannten kontaminierten Ressourcen zu vermeiden. Die gemeinsame Aufgabe stellt eine strukturierte, zentralisierte öffentliche Datenbank für die Sammlung von Kontaminationsbeweisen bereit, die über GitHub-Poolanfragen von der Gemeinschaft beigetragen werden kann. Dieses erste Kompilationspapier basiert auf 566 gemeldeten Einträgen über 91 kontaminierte Quellen von insgesamt 23 Beitragenden. Die Details der einzelnen Kontaminationsereignisse sind auf der Plattform verfügbar. Die Plattform bleibt online und steht für Beiträge aus der Gemeinschaft offen.
Die audiovisuelle semantische Segmentierung (AVSS) zielt darauf ab, klingende Objekte in Videos anhand akustischer Hinweise zu segmentieren und zu klassifizieren. Die meisten Ansätze arbeiten jedoch unter der Annahme eines geschlossenen Satzes und identifizieren nur vordefinierte Kategorien aus Trainingsdaten, wodurch die Verallgemeinerungsfähigkeit zur Erkennung neuer Kategorien in praktischen Anwendungen fehlt. In diesem Artikel stellen wir eine neue Aufgabe vor: die offene Vokabelaudiovisuelle semantische Segmentierung, die die AVSS-Aufgabe auf Szenarien in einer offenen Welt jenseits des annotierten Labelraums erweitert. Dies ist eine anspruchsvollere Aufgabe, die erfordert, alle Kategorien zu erkennen, auch solche, die während des Trainings weder gesehen noch gehört wurden. Darüber hinaus schlagen wir das erste Framework für offene Vokabel-AVSS, OV-AVSS, vor, das hauptsächlich aus zwei Teilen besteht: 1) einem universellen Soundquellenlokalisierungsmodul zur Durchführung von Audio-Visual-Fusion und Lokalisierung aller potenziellen klingenden Objekte und 2) einem offenen Vokabelklassifikationsmodul zur Vorhersage von Kategorien mit Hilfe des Vorwissens aus groß angelegten vortrainierten Vision-Sprach-Modellen. Um die offene Vokabel-AVSS angemessen zu bewerten, haben wir Null-Shot-Trainings- und Testteilmengen basierend auf dem AVSBench-semantischen Benchmark aufgeteilt, nämlich AVSBench-OV. Umfangreiche Experimente zeigen die starke Segmentierungs- und Null-Shot-Verallgemeinerungsfähigkeit unseres Modells für alle Kategorien. Auf dem AVSBench-OV-Datensatz erreicht OV-AVSS 55,43% mIoU bei Basis-Kategorien und 29,14% mIoU bei neuen Kategorien, was die state-of-the-art Null-Shot-Methode um 41,88%/20,61% und die offene Vokabelmethode um 10,2%/11,6% übertrifft. Der Code ist verfügbar unter https://github.com/ruohaoguo/ovavss.
Wir stellen Berkeley Humanoid vor, eine zuverlässige und kostengünstige humanoiden Forschungsplattform mittlerer Größe für lernbasierte Steuerung. Unser leichter, intern entwickelter Roboter ist speziell für Lernalgorithmen mit geringer Simulationskomplexität, anthropomorpher Bewegung und hoher Zuverlässigkeit gegen Stürze konzipiert. Der schmale Sim-zu-Real-Unterschied des Roboters ermöglicht agiles und robustes Fortbewegen über verschiedene Gelände in Außenumgebungen, erreicht mit einem einfachen Verstärkungslernregler unter Verwendung von leichter Domänenrandomisierung. Darüber hinaus zeigen wir, wie der Roboter Hunderte von Metern zurücklegt, auf einem steilen unbefestigten Pfad geht und mit einem und zwei Beinen hüpft, als Beweis für seine hohe Leistungsfähigkeit beim dynamischen Gehen. Mit der Fähigkeit zur omnidirektionalen Fortbewegung und der Fähigkeit, große Störungen mit einer kompakten Konfiguration standzuhalten, zielt unser System auf eine skalierbare, sim-zu-real Bereitstellung von lernbasierten humanoiden Systemen ab. Bitte besuchen Sie http://berkeley-humanoid.com für weitere Details.
Gesichtsausdrucke und Handbewegungen sind notwendig, um unsere Emotionen auszudrücken und mit der Welt zu interagieren. Dennoch unterstützen die meisten 3D-Menschendarstellungen, die aus zufällig aufgenommenen Videos modelliert wurden, nur Körperbewegungen ohne Gesichtsausdrücke und Handbewegungen. In dieser Arbeit präsentieren wir ExAvatar, einen ausdrucksstarken Ganzkörper-3D-Menschendarsteller, der aus einem kurzen monokularen Video gelernt wurde. Wir gestalten ExAvatar als eine Kombination des Ganzkörper-parametrischen Mesh-Modells (SMPL-X) und des 3D-Gauß-Splattings (3DGS). Die Hauptprobleme sind 1) eine begrenzte Vielfalt an Gesichtsausdrücken und Posen im Video und 2) das Fehlen von 3D-Beobachtungen wie 3D-Scans und RGBD-Bilder. Die begrenzte Vielfalt im Video macht Animationen mit neuen Gesichtsausdrücken und Posen nicht trivial. Darüber hinaus könnte das Fehlen von 3D-Beobachtungen zu erheblichen Unklarheiten bei menschlichen Teilen führen, die im Video nicht beobachtet werden, was zu deutlichen Artefakten bei neuen Bewegungen führen kann. Um diese Probleme anzugehen, führen wir unsere hybride Darstellung des Mesh und der 3D-Gaußschen ein. Unsere hybride Darstellung behandelt jeden 3D-Gaußschen als einen Vertex auf der Oberfläche mit vordefinierten Verbindungsinformationen (d.h. Dreiecksflächen) zwischen ihnen, die der Mesh-Topologie von SMPL-X folgen. Dadurch wird unser ExAvatar animierbar mit neuen Gesichtsausdrücken, die durch den Gesichtsausdrucksraum von SMPL-X gesteuert werden. Darüber hinaus reduzieren wir durch die Verwendung von verbindungsbezogenen Regularisierern signifikant Artefakte bei neuen Gesichtsausdrücken und Posen.
Die Autorenschaftsverschleierung zielt darauf ab, die Identität eines Autors innerhalb eines Textes zu verschleiern, indem der Schreibstil, der Wortschatz, die Syntax und andere linguistische Merkmale, die mit dem Textautor in Verbindung stehen, verändert werden. Diese Veränderung muss die Balance zwischen Datenschutz und Nützlichkeit wahren. Während starke Verschleierungstechniken die Identität des Autors effektiv verbergen können, führen sie oft zu einer Verschlechterung der Qualität und Nützlichkeit des Textes für seinen beabsichtigten Zweck. Im Gegensatz dazu führt die Aufrechterhaltung hoher Nützlichkeit tendenziell zu unzureichendem Datenschutz, was es einem Angreifer erleichtert, den Autor zu de-anonymisieren. Daher ist es entscheidend, einen optimalen Kompromiss zwischen diesen beiden sich widersprechenden Zielen zu erreichen. In diesem Paper schlagen wir TAROT vor: Task-Oriented Autorenschaftsverschleierung unter Verwendung von Policy-Optimierung, eine neue unüberwachte Autorenschaftsverschleierungsmethode, deren Ziel es ist, den Datenschutz-Nützlichkeits-Kompromiss zu optimieren, indem der gesamte Text unter Berücksichtigung seiner nachgelagerten Nützlichkeit neu generiert wird. Unser Ansatz nutzt die Policy-Optimierung als Feinabstimmungsparadigma über kleinen Sprachmodellen, um Texte umzuschreiben, indem die Autorenidentität und die nachgelagerte Aufgabennützlichkeit erhalten bleiben. Wir zeigen, dass unser Ansatz die Genauigkeit von Angreifern weitgehend reduziert, während die Nützlichkeit erhalten bleibt. Wir stellen unseren Code und unsere Modelle öffentlich zur Verfügung.
Aktuelle visuelle Grundlagenmodelle werden ausschließlich auf unstrukturierten 2D-Daten trainiert, was ihr Verständnis der 3D-Struktur von Objekten und Szenen einschränkt. In dieser Arbeit zeigen wir, dass Feinabstimmung auf 3D-bewussten Daten die Qualität der entstehenden semantischen Merkmale verbessert. Wir entwickeln eine Methode, um semantische 2D-Merkmale in eine effiziente 3D-Gaußsche Darstellung zu überführen, die es uns ermöglicht, sie für beliebige Ansichten neu zu rendern. Unter Verwendung der gerenderten 3D-bewussten Merkmale entwerfen wir eine Feinabstimmungsstrategie, um dieses 3D-Bewusstsein in ein 2D-Grundlagenmodell zu übertragen. Wir zeigen, dass Modelle, die auf diese Weise feinabgestimmt wurden, Merkmale erzeugen, die die Leistung bei nachgelagerten Aufgaben wie semantischer Segmentierung und Tiefenschätzung durch einfaches lineares Sondieren deutlich verbessern. Bemerkenswert ist, dass, obwohl auf einem einzigen Innenraum-Datensatz feinabgestimmt, die Verbesserung auf eine Vielzahl von Innenraum-Datensätzen und Datensätzen außerhalb des Domänen übertragbar ist. Wir hoffen, dass unsere Studie die Community dazu ermutigt, 3D-Bewusstsein in Betracht zu ziehen, wenn sie 2D-Grundlagenmodelle trainiert. Projektseite: https://ywyue.github.io/FiT3D.
Die Integration einer zeitlichen Dimension in vortrainierte Bildverdünnungsmodelle für die Videogenerierung ist ein gängiger Ansatz. Allerdings ist diese Methode rechenintensiv und erfordert umfangreiche Videodatensätze. Vor allem führt die Heterogenität zwischen Bild- und Videodatensätzen oft zu einem katastrophalen Vergessen der Bildexpertise. Aktuelle Versuche, Videosequenzen direkt aus Bildverdünnungsmodellen zu extrahieren, haben diese Probleme teilweise gemildert. Dennoch können diese Methoden nur kurze Videoclips mit einfachen Bewegungen generieren und sind nicht in der Lage, fein abgestufte Bewegungen oder nicht-gitterförmige Verformungen zu erfassen. In diesem Artikel schlagen wir einen neuartigen Zero-Shot-Video-Sampling-Algorithmus vor, bezeichnet als ZS^2, der in der Lage ist, hochwertige Videoclips direkt aus bestehenden Bildsynthesemethoden wie Stable Diffusion ohne Training oder Optimierung zu sampeln. Speziell nutzt ZS^2 das Abhängigkeitsrauschmodell und die zeitliche Momentum-Aufmerksamkeit, um die Inhaltskonsistenz bzw. Animationskohärenz sicherzustellen. Diese Fähigkeit ermöglicht es, in verwandten Aufgaben wie bedingter und kontextspezialisierter Videogenerierung sowie anweisungsgesteuerter Videobearbeitung herausragende Leistungen zu erbringen. Experimentelle Ergebnisse zeigen, dass ZS^2 eine Spitzenleistung in der Zero-Shot-Videogenerierung erzielt und gelegentlich aktuelle überwachte Methoden übertrifft. Homepage: https://densechen.github.io/zss/.
Neuronale Felder zeichnen sich in der Computer Vision und Robotik durch ihre Fähigkeit aus, die 3D-Visionswelt zu verstehen, indem sie Semantik, Geometrie und Dynamik ableiten. Angesichts der Fähigkeiten neuronaler Felder, eine 3D-Szene dicht aus 2D-Bildern darzustellen, stellen wir die Frage: Können wir ihr selbstüberwachtes Vortraining, insbesondere unter Verwendung von maskierten Autoencodern, skalieren, um effektive 3D-Repräsentationen aus aufgenommenen RGB-Bildern zu generieren? Aufgrund des beeindruckenden Erfolgs der Erweiterung von Transformatoren auf neue Datenmodalitäten verwenden wir standardmäßige 3D-Vision-Transformatoren, um der einzigartigen Formulierung von NeRFs gerecht zu werden. Wir nutzen NeRFs volumetrisches Gitter als dichte Eingabe für den Transformer und setzen es von anderen 3D-Repräsentationen wie Punktwolken ab, bei denen die Informationsdichte ungleichmäßig ist und die Repräsentation unregelmäßig ist. Aufgrund der Schwierigkeit, maskierte Autoencoder auf eine implizite Repräsentation wie NeRF anzuwenden, entscheiden wir uns dafür, eine explizite Repräsentation zu extrahieren, die Szenen über Domänen hinweg kanonisiert, indem wir die Kameratrajektorie für die Abtastung verwenden. Unser Ziel wird durch das Maskieren zufälliger Patches aus NeRFs Strahlungs- und Dichtegitter und die Verwendung eines standardmäßigen 3D Swin Transformers zur Rekonstruktion der maskierten Patches erreicht. Auf diese Weise kann das Modell die semantische und räumliche Struktur vollständiger Szenen erlernen. Wir trainieren diese Repräsentation im großen Maßstab an unseren vorgeschlagenen kuratierten aufgenommenen RGB-Daten, die insgesamt über 1,8 Millionen Bilder umfassen. Sobald das Vortraining abgeschlossen ist, wird der Encoder für effektives 3D-Transferlernen verwendet. Unser neuartiges selbstüberwachtes Vortraining für NeRFs, NeRF-MAE, skaliert bemerkenswert gut und verbessert die Leistung bei verschiedenen anspruchsvollen 3D-Aufgaben. Durch die Verwendung von unbeschrifteten aufgenommenen 2D-Daten für das Vortraining übertrifft NeRF-MAE signifikant selbstüberwachtes 3D-Vortraining und NeRF-Szenenverständnis-Baselines auf den Front3D- und ScanNet-Datensätzen mit einer absoluten Leistungssteigerung von über 20% AP50 und 8% AP25 für die 3D-Objekterkennung.