Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Um mit Menschen in der Welt zu interagieren, müssen Agenten die vielfältigen Arten von Sprache, die Menschen verwenden, verstehen, sie mit der visuellen Welt in Beziehung setzen und entsprechend handeln. Während aktuelle Agenten lernen, einfache Sprachanweisungen durch Aufgabenbelohnungen auszuführen, streben wir an, Agenten zu entwickeln, die vielfältige Sprache nutzen, die allgemeines Wissen vermittelt, den Zustand der Welt beschreibt, interaktives Feedback bietet und mehr. Unsere zentrale Idee ist, dass Sprache Agenten hilft, die Zukunft vorherzusagen: was beobachtet wird, wie sich die Welt verhalten wird und welche Situationen belohnt werden. Diese Perspektive vereint Sprachverständnis mit Zukunftsprognose als ein leistungsstarkes selbstüberwachtes Lernziel. Wir präsentieren Dynalang, einen Agenten, der ein multimodales Weltmodell lernt, das zukünftige Text- und Bildrepräsentationen vorhersagt und aus vorgestellten Modellrollouts handelt. Im Gegensatz zu traditionellen Agenten, die Sprache nur zur Vorhersage von Aktionen verwenden, erwirbt Dynalang ein umfassendes Sprachverständnis, indem er vergangene Sprache auch zur Vorhersage zukünftiger Sprache, Videos und Belohnungen nutzt. Zusätzlich zum Lernen durch Online-Interaktion in einer Umgebung kann Dynalang auf Datensätzen von Text, Videos oder beidem ohne Aktionen oder Belohnungen vortrainiert werden. Von der Verwendung von Sprachhinweisen in Rasterwelten bis zur Navigation durch fotorealistische Scans von Wohnungen nutzt Dynalang verschiedene Arten von Sprache, um die Aufgabenleistung zu verbessern, einschließlich Umgebungsbeschreibungen, Spielregeln und Anweisungen.
Wir stellen OpenFlamingo vor, eine Familie autoregressiver Vision-Sprache-Modelle mit einer Größe von 3B bis 9B Parametern. OpenFlamingo ist ein fortlaufendes Projekt, das darauf abzielt, eine Open-Source-Replikation der Flamingo-Modelle von DeepMind zu erstellen. Auf sieben Vision-Sprache-Datensätzen erreichen die OpenFlamingo-Modelle durchschnittlich 80 - 89 % der entsprechenden Flamingo-Leistung. Dieser technische Bericht beschreibt unsere Modelle, Trainingsdaten, Hyperparameter und das Evaluationsframework. Wir stellen unsere Modelle und den Code unter https://github.com/mlfoundations/open_flamingo zur Verfügung.
Mathematisches Denken stellt eine herausfordernde Aufgabe für große Sprachmodelle (LLMs) dar, während die Skalierungsbeziehung in Bezug auf die Kapazität von LLMs bisher wenig erforscht ist. In dieser Arbeit untersuchen wir, wie der Pre-Training-Verlust, die Menge an überwachten Daten und die Menge an augmentierten Daten die Denkleistungen eines überwachten LLMs beeinflussen. Wir stellen fest, dass der Pre-Training-Verlust ein besserer Indikator für die Modellleistung ist als die Anzahl der Modellparameter. Wir wenden überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) mit unterschiedlichen Mengen an überwachten Daten an und finden empirisch eine log-lineare Beziehung zwischen der Datenmenge und der Modellleistung. Zudem stellen wir fest, dass bessere Modelle weniger von vergrößerten überwachten Datensätzen profitieren. Um mehr Datenproben zur Verbesserung der Modellleistungen ohne menschlichen Aufwand zu augmentieren, schlagen wir die Anwendung von Rejection Sampling Fine-Tuning (RFT) vor. RFT verwendet überwachte Modelle, um korrekte Denkpfade zu generieren und als augmentierte Feinabstimmungsdatensätze zu sammeln. Wir stellen fest, dass RFT die mathematische Denkleistung von LLMs stärker verbessert, wenn die augmentierten Proben mehr unterschiedliche Denkpfade enthalten. Außerdem zeigt sich, dass RFT für weniger leistungsstarke LLMs größere Verbesserungen bringt. Darüber hinaus kombinieren wir Ablehnungsproben mehrerer Modelle, wodurch LLaMA-7B auf eine Genauigkeit von 49,3 % gebracht wird und die SFT-Genauigkeit von 35,9 % deutlich übertrifft.
Diffusionsmodelle haben vielversprechende Ergebnisse bei Cross-Modal-Generierungsaufgaben gezeigt, einschließlich Text-zu-Bild- und Text-zu-Audio-Generierung. Die Erzeugung von Musik als spezielle Form von Audio stellt jedoch einzigartige Herausforderungen dar, bedingt durch die begrenzte Verfügbarkeit von Musikdaten und sensible Fragen im Zusammenhang mit Urheberrecht und Plagiaten. In diesem Papier stellen wir, um diese Herausforderungen zu bewältigen, zunächst ein modernes Text-zu-Musik-Modell namens MusicLDM vor, das die Architekturen von Stable Diffusion und AudioLDM an den Musikbereich anpasst. Dies erreichen wir, indem wir das kontrastive Sprach-Audio-Vortrainierungsmodell (CLAP) und den Hifi-GAN-Vocoder, als Komponenten von MusicLDM, auf einer Sammlung von Musikdaten neu trainieren. Um die Einschränkungen der Trainingsdaten zu überwinden und Plagiate zu vermeiden, nutzen wir ein Beat-Tracking-Modell und schlagen zwei verschiedene Mixup-Strategien zur Datenaugmentierung vor: Beat-synchrones Audio-Mixup und Beat-synchrones latentes Mixup, die Trainings-Audiodaten entweder direkt oder über einen latenten Einbettungsraum rekombinieren. Solche Mixup-Strategien fördern die Interpolation zwischen musikalischen Trainingsbeispielen und die Erzeugung neuer Musik innerhalb der konvexen Hülle der Trainingsdaten, wodurch die generierte Musik vielfältiger wird, während sie dennoch dem entsprechenden Stil treu bleibt. Zusätzlich zu gängigen Bewertungsmetriken entwerfen wir mehrere neue Bewertungsmetriken basierend auf dem CLAP-Score, um zu zeigen, dass unser vorgeschlagenes MusicLDM und die beat-synchronen Mixup-Strategien sowohl die Qualität und Neuartigkeit der generierten Musik als auch die Übereinstimmung zwischen Eingabetext und generierter Musik verbessern.
Sprachmodelle zeigen eine bemerkenswerte Fähigkeit, in einer Modalität gelernte Repräsentationen auf nachgelagerte Aufgaben in anderen Modalitäten zu verallgemeinern. Können wir diese Fähigkeit auf einzelne Neuronen zurückführen? Wir untersuchen den Fall, in dem ein eingefrorener Text-Transformer durch eine selbstüberwachte visuelle Encoder-Architektur und eine einzige lineare Projektion, die auf einer Bild-zu-Text-Aufgabe trainiert wurde, um visuelle Fähigkeiten erweitert wird. Die Ausgaben der Projektionsschicht sind nicht unmittelbar in Sprache dekodierbar, die den Bildinhalt beschreibt; stattdessen stellen wir fest, dass die Übersetzung zwischen den Modalitäten tiefer innerhalb des Transformers stattfindet. Wir führen ein Verfahren zur Identifizierung „multimodaler Neuronen“ ein, die visuelle Repräsentationen in entsprechenden Text umwandeln, und dekodieren die Konzepte, die sie in den Residualstrom des Modells einspeisen. In einer Reihe von Experimenten zeigen wir, dass multimodale Neuronen spezifische visuelle Konzepte über verschiedene Eingaben hinweg verarbeiten und einen systematischen kausalen Effekt auf die Bildbeschreibung haben.
Wir präsentieren das All-Seeing (AS) Projekt: eine groß angelegte Daten- und Modellinitiative zur Erkennung und zum Verständnis aller Dinge in der offenen Welt. Mithilfe einer skalierbaren Daten-Engine, die menschliches Feedback und effiziente Modelle in den Prozess einbindet, erstellen wir einen neuen Datensatz (AS-1B) mit über 1 Milliarden annotierten Regionen, die mit semantischen Tags, Frage-Antwort-Paaren und detaillierten Beschreibungen versehen sind. Dieser Datensatz deckt ein breites Spektrum von 3,5 Millionen gängigen und seltenen Konzepten der realen Welt ab und umfasst 132,2 Milliarden Tokens, die die Konzepte und ihre Attribute beschreiben. Basierend auf diesem neuen Datensatz entwickeln wir das All-Seeing Modell (ASM), ein einheitliches Framework für panoptische visuelle Erkennung und Verständnis. Das Modell wird mit offenen Sprachprompts und Ortsangaben trainiert, was es ermöglicht, eine bemerkenswerte Zero-Shot-Leistung bei verschiedenen Vision- und Sprachaufgaben zu erzielen, einschließlich Region-Text-Retrieval, Regionenerkennung, Beschreibung und Frage-Antwort-Systemen. Wir hoffen, dass dieses Projekt als Grundlage für die Forschung zur visuell-sprachlichen künstlichen allgemeinen Intelligenz dienen kann. Die Modelle und der Datensatz werden unter https://github.com/OpenGVLab/All-Seeing veröffentlicht, und eine Demo ist unter https://huggingface.co/spaces/OpenGVLab/all-seeing verfügbar.
Wir präsentieren den HANDAL-Datensatz für die kategoriebasierte Objektposenschätzung und Affordance-Vorhersage. Im Gegensatz zu früheren Datensätzen konzentriert sich unser Datensatz auf robotiktaugliche, manipulierbare Objekte, die in Größe und Form für das funktionale Greifen durch Roboterarme geeignet sind, wie beispielsweise Zangen, Küchenutensilien und Schraubendreher. Unser Annotationsprozess ist effizient gestaltet und erfordert lediglich eine handelsübliche Kamera sowie halbautomatisierte Verarbeitung, wodurch wir hochwertige 3D-Annotationen ohne Crowdsourcing erstellen können. Der Datensatz besteht aus 308.000 annotierten Bildern aus 2.200 Videos von 212 realen Objekten in 17 Kategorien. Wir konzentrieren uns auf Hardware- und Küchenwerkzeuge, um die Forschung in praktischen Szenarien zu fördern, in denen ein Roboterarm über einfaches Schieben oder wahlloses Greifen hinaus mit der Umgebung interagieren muss. Wir skizzieren die Nützlichkeit unseres Datensatzes für die 6-DoF kategoriebasierte Pose- und Skalenschätzung sowie verwandte Aufgaben. Zudem stellen wir 3D-rekonstruierte Meshes aller Objekte bereit und beleuchten einige der Engpässe, die für die Demokratisierung der Erstellung solcher Datensätze angegangen werden müssen.
Dieses Papier stellt einen verbesserten DETR-Detektor vor, der einen "einfachen" Charakter beibehält: Es wird eine Einzel-Skalen-Feature-Map und globale Cross-Attention-Berechnungen ohne spezifische Lokalitätsbeschränkungen verwendet, im Gegensatz zu früheren führenden DETR-basierten Detektoren, die architektonische induktive Verzerrungen von Multi-Skalen und Lokalität in den Decoder wieder einführen. Wir zeigen, dass zwei einfache Technologien innerhalb eines einfachen Designs überraschend effektiv sind, um den Mangel an Multi-Skalen-Feature-Maps und Lokalitätsbeschränkungen auszugleichen. Die erste ist ein Box-to-Pixel-Relative-Position-Bias (BoxRPB)-Term, der der Cross-Attention-Formulierung hinzugefügt wird und jede Query effektiv dazu anleitet, die entsprechende Objektregion zu beachten, während er gleichzeitig Kodierungsflexibilität bietet. Die zweite ist ein auf Masked Image Modeling (MIM) basierendes Backbone-Pre-Training, das hilft, Repräsentationen mit feinkörniger Lokalisierungsfähigkeit zu erlernen und sich als entscheidend für die Behebung von Abhängigkeiten von Multi-Skalen-Feature-Maps erweist. Durch die Integration dieser Technologien und jüngster Fortschritte in Training und Problemformulierung zeigte der verbesserte "einfache" DETR außergewöhnliche Verbesserungen gegenüber dem ursprünglichen DETR-Detektor. Durch die Nutzung des Object365-Datensatzes für das Pre-Training erreichte er eine Genauigkeit von 63,9 mAP mit einem Swin-L-Backbone, was sehr wettbewerbsfähig mit state-of-the-art Detektoren ist, die alle stark auf Multi-Skalen-Feature-Maps und regionsbasierte Feature-Extraktion angewiesen sind. Der Code ist verfügbar unter https://github.com/impiga/Plain-DETR.
Imaginatives Spiel ist ein Bereich der Kreativität, der Robotern ermöglichen könnte, auf eine viel stärker personifizierte Weise mit ihrer Umgebung zu interagieren. Imaginäres Spiel kann als das Nehmen realer Objekte und Orte und deren Verwendung als imaginäre Objekte und Orte in virtuellen Szenarien verstanden werden. Wir haben die Fähigkeit zur Geschichtengenerierung von großen Sprachmodellen (LLMs) genutzt, um die Geschichten für das imaginäre Spiel mithilfe von menschlich verfassten Eingabeaufforderungen zu erhalten. Diese generierten Geschichten werden vereinfacht und in Aktionssequenzen übersetzt, die den Agenten beim imaginären Spiel anleiten können. Um zu bewerten, ob der Agent das imaginäre Spiel erfolgreich abschließen kann, haben wir auch ein Textabenteuerspiel entworfen, das ein Haus als Spielplatz simuliert, in dem der Agent interagieren kann.
Die Langzeitbelichtungsfotografie erzeugt beeindruckende Bilder, die bewegte Elemente einer Szene mit Bewegungsunschärfe darstellen. Sie wird im Allgemeinen in zwei Modi eingesetzt, um entweder einen Vordergrund- oder einen Hintergrundunschärfeeffekt zu erzielen. Vordergrundunschärfe-Bilder werden traditionell mit einer auf einem Stativ montierten Kamera aufgenommen und zeigen unscharfe bewegte Vordergrundelemente, wie seidiges Wasser oder Lichtspuren, vor einem perfekt scharfen Hintergrundlandschaftsbild. Hintergrundunschärfe-Bilder, auch als Schwenkfotografie bezeichnet, werden aufgenommen, während die Kamera ein sich bewegendes Motiv verfolgt, um ein Bild eines scharfen Motivs vor einem durch relative Bewegung unscharfen Hintergrund zu erzeugen. Beide Techniken sind bekanntlich anspruchsvoll und erfordern zusätzliche Ausrüstung und fortgeschrittene Fähigkeiten. In diesem Artikel beschreiben wir ein rechnergestütztes Burst-Fotografie-System, das in einer Handy-Kamera-App arbeitet und diese Effekte vollautomatisch mit einem einzigen Tastendruck erzielt. Unser Ansatz erkennt und segmentiert zunächst das relevante Motiv. Wir verfolgen die Szenenbewegung über mehrere Bilder und richten die Bilder aus, um die gewünschte Schärfe zu bewahren und ästhetisch ansprechende Bewegungsstreifen zu erzeugen. Wir nehmen eine unterbelichtete Burst-Aufnahme auf und wählen die Teilmenge der Eingabebilder aus, die Unschärfespuren von kontrollierter Länge erzeugen, unabhängig von der Geschwindigkeit der Szene oder der Kamera. Wir sagen die Bewegung zwischen den Bildern voraus und synthetisieren Bewegungsunschärfe, um die zeitlichen Lücken zwischen den Eingabebildern zu füllen. Schließlich kombinieren wir das unscharfe Bild mit der scharfen regulären Belichtung, um die Schärfe von Gesichtern oder Bereichen der Szene, die sich kaum bewegen, zu bewahren und ein endgültiges hochauflösendes und hochdynamisches (HDR) Foto zu erzeugen. Unser System demokratisiert eine Fähigkeit, die bisher Profis vorbehalten war, und macht diesen kreativen Stil den meisten Hobbyfotografen zugänglich. Weitere Informationen und ergänzendes Material finden Sie auf unserer Projektwebseite: https://motion-mode.github.io/
Dynamische farbige Netze (Dynamic Colored Meshes, DCM) finden in verschiedenen Anwendungen breite Verwendung; jedoch können diese Netze unterschiedlichen Prozessen wie Kompression oder Übertragung unterzogen werden, was sie verzerren und ihre Qualität beeinträchtigen kann. Um die Entwicklung objektiver Metriken für DCMs zu erleichtern und den Einfluss typischer Verzerrungen auf ihre Wahrnehmung zu untersuchen, haben wir die Tencent - Dynamic Colored Mesh Database (TDMD) erstellt, die acht Referenz-DCM-Objekte mit sechs typischen Verzerrungen enthält. Unter Verwendung von verarbeiteten Videosequenzen (Processed Video Sequences, PVS), die aus den DCMs abgeleitet wurden, haben wir ein groß angelegtes subjektives Experiment durchgeführt, das zu 303 verzerrten DCM-Proben mit mittleren Meinungswerten führte, wodurch die TDMD unserer Kenntnis nach die größte verfügbare DCM-Datenbank ist. Diese Datenbank ermöglichte es uns, die Auswirkungen verschiedener Arten von Verzerrungen auf die menschliche Wahrnehmung zu untersuchen und Empfehlungen für die DCM-Kompression und verwandte Aufgaben zu geben. Zusätzlich haben wir drei Arten von modernsten objektiven Metriken auf der TDMD evaluiert, darunter bildbasierte, punktbasierte und videobasierte Metriken. Unsere experimentellen Ergebnisse verdeutlichen die Stärken und Schwächen jeder Metrik, und wir geben Empfehlungen zur Auswahl von Metriken in praktischen DCM-Anwendungen. Die TDMD wird unter folgender Adresse öffentlich zugänglich gemacht: https://multimedia.tencent.com/resources/tdmd.