Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die generative KI-Revolution hat sich kürzlich auf Videos ausgeweitet. Dennoch hinken aktuelle State-of-the-Art-Videomodelle im Vergleich zu Bildmodellen in Bezug auf visuelle Qualität und Benutzerkontrolle über das generierte Content noch zurück. In dieser Arbeit präsentieren wir ein Framework, das die Leistungsfähigkeit eines Text-zu-Bild-Diffusionsmodells für die Aufgabe der textgesteuerten Videobearbeitung nutzt. Konkret generiert unsere Methode, basierend auf einem Quellvideo und einem Zieltext-Prompt, ein hochwertiges Video, das dem Zieltext entspricht, während das räumliche Layout und die Bewegung des Eingabevideos beibehalten werden. Unsere Methode basiert auf der zentralen Beobachtung, dass Konsistenz im bearbeiteten Video durch die Durchsetzung von Konsistenz im Diffusions-Feature-Raum erreicht werden kann. Dies erreichen wir, indem wir Diffusions-Features explizit basierend auf Inter-Frame-Korrespondenzen propagieren, die im Modell leicht verfügbar sind. Somit erfordert unser Framework kein Training oder Feinabstimmung und kann in Verbindung mit jeder verfügbaren Text-zu-Bild-Bearbeitungsmethode eingesetzt werden. Wir demonstrieren State-of-the-Art-Bearbeitungsergebnisse anhand einer Vielzahl von realen Videos. Webseite: https://diffusion-tokenflow.github.io/
Multimodales Lernen zielt darauf ab, Modelle zu entwickeln, die Informationen aus mehreren Modalitäten verarbeiten und in Beziehung setzen können. Trotz jahrelanger Entwicklungen in diesem Bereich bleibt es nach wie vor eine Herausforderung, ein einheitliches Netzwerk für die Verarbeitung verschiedener Modalitäten (z. B. natürliche Sprache, 2D-Bilder, 3D-Punktwolken, Audio, Video, Zeitreihen, tabellarische Daten) zu entwerfen, da es inhärente Unterschiede zwischen ihnen gibt. In dieser Arbeit schlagen wir ein Framework namens Meta-Transformer vor, das einen eingefrorenen Encoder nutzt, um multimodale Wahrnehmung ohne gepaarte multimodale Trainingsdaten durchzuführen. In Meta-Transformer werden die Rohdaten aus verschiedenen Modalitäten in einen gemeinsamen Token-Raum abgebildet, wodurch ein nachgeschalteter Encoder mit eingefrorenen Parametern in der Lage ist, hochwertige semantische Merkmale der Eingabedaten zu extrahieren. Meta-Transformer besteht aus drei Hauptkomponenten: einem einheitlichen Daten-Tokenizer, einem modalitätsübergreifenden Encoder und aufgaben-spezifischen Heads für nachgelagerte Aufgaben. Es ist das erste Framework, das einheitliches Lernen über 12 Modalitäten mit ungepaarten Daten durchführt. Experimente auf verschiedenen Benchmarks zeigen, dass Meta-Transformer eine breite Palette von Aufgaben bewältigen kann, darunter grundlegende Wahrnehmung (Text, Bild, Punktwolke, Audio, Video), praktische Anwendungen (Röntgen, Infrarot, hyperspektral und IMU) und Data Mining (Graph, tabellarisch und Zeitreihen). Meta-Transformer deutet auf eine vielversprechende Zukunft hin, um einheitliche multimodale Intelligenz mit Transformern zu entwickeln. Der Code wird unter https://github.com/invictus717/MetaTransformer verfügbar sein.
Der Prozess der Rekonstruktion von Erfahrungen aus der menschlichen Gehirnaktivität bietet eine einzigartige Perspektive darauf, wie das Gehirn die Welt interpretiert und repräsentiert. In diesem Artikel stellen wir eine Methode zur Rekonstruktion von Musik aus Gehirnaktivität vor, die mittels funktioneller Magnetresonanztomographie (fMRT) erfasst wurde. Unser Ansatz nutzt entweder Musikretrieval oder das MusicLM-Musikgenerierungsmodell, das auf Einbettungen basiert, die aus fMRT-Daten abgeleitet wurden. Die generierte Musik ähnelt den musikalischen Reizen, die die Probanden erlebten, hinsichtlich semantischer Eigenschaften wie Genre, Instrumentierung und Stimmung. Wir untersuchen die Beziehung zwischen verschiedenen Komponenten von MusicLM und der Gehirnaktivität durch eine voxelweise Encodierungsmodellanalyse. Darüber hinaus diskutieren wir, welche Gehirnregionen Informationen repräsentieren, die aus rein textbasierten Beschreibungen von Musikreizen abgeleitet wurden. Wir stellen ergänzendes Material bereit, einschließlich Beispiele der rekonstruierten Musik unter https://google-research.github.io/seanet/brain2music.
Die Bewertung von großen Sprachmodellen (LLMs) ist eine Herausforderung, da die Ausrichtung an menschlichen Werten die Kombination mehrerer Fähigkeiten erfordert und der benötigte Fähigkeitensatz je nach Anweisung variiert. Aktuelle Studien haben die Leistung von LLMs auf zwei Arten bewertet: (1) automatische Bewertung anhand mehrerer unabhängiger Benchmarks und (2) menschliche oder maschinenbasierte Bewertung, die der Antwort eine Gesamtpunktzahl zuweist. Beide Ansätze stellen jedoch grobkörnige Bewertungen dar, die die Natur von Benutzeranweisungen, die eine fallweise Fähigkeitskombination erfordern, nicht berücksichtigen. Dies schränkt die Interpretation der tatsächlichen Fähigkeiten von LLMs ein. In diesem Artikel stellen wir FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets) vor, ein feinkörniges Bewertungsprotokoll, das sowohl für modellbasierte als auch für menschliche Bewertungen verwendet werden kann und die grobkörnige Bewertung auf eine fallweise Fähigkeitssatzebene herunterbricht. Konkret definieren wir 12 feinkörnige Fähigkeiten, die LLMs benötigen, um offene Benutzeranweisungen zu befolgen, und erstellen einen Bewertungssatz, indem wir für jede Instanz einen Satz von Fähigkeiten zuordnen. Zusätzlich bietet FLASK durch die Annotation der Zielbereiche und des Schwierigkeitsgrades für jede Instanz eine ganzheitliche Sicht mit einer umfassenden Analyse der Modellleistung in Abhängigkeit von Fähigkeit, Bereich und Schwierigkeitsgrad. Durch die Anwendung von FLASK vergleichen wir mehrere Open-Source- und proprietäre LLMs und beobachten stark korrelierte Ergebnisse zwischen modellbasierter und menschlicher Bewertung. FLASK ermöglicht es Entwicklern, die Modellleistung genauer zu messen und zu analysieren, wie sie durch die Untersuchung von Faktoren, die LLMs in bestimmten Fähigkeiten kompetent machen, verbessert werden kann. Für Praktiker kann FLASK verwendet werden, um geeignete Modelle für bestimmte Situationen durch einen umfassenden Vergleich verschiedener LLMs zu empfehlen. Wir veröffentlichen die Bewertungsdaten und die Code-Implementierung unter https://github.com/kaistAI/FLASK.
Massive Web-Datensätze spielen eine entscheidende Rolle für den Erfolg großer Vision-Language-Modelle wie CLIP und Flamingo. Allerdings sind die Rohdaten aus dem Web verrauscht, und bestehende Filtermethoden zur Reduzierung des Rauschens gehen oft auf Kosten der Datenvielfalt. Unsere Arbeit konzentriert sich auf die Qualität von Bildbeschreibungen als eine Hauptquelle für Rauschen und untersucht, wie generierte Beschreibungen den Nutzen von Web-scraped-Datensätzen mit nichtssagendem Text erhöhen können. Durch die Erforschung verschiedener Mischstrategien für rohe und generierte Beschreibungen übertreffen wir die beste Filtermethode, die vom DataComp-Benchmark vorgeschlagen wurde, um 2 % auf ImageNet und im Durchschnitt um 4 % über 38 Aufgaben hinweg, bei einem Kandidatenpool von 128 Millionen Bild-Text-Paaren. Unser bester Ansatz ist auch 2x besser bei der Retrieval-Leistung auf Flickr und MS-COCO. Anschließend analysieren wir, was synthetische Beschreibungen zu einer effektiven Quelle für Textsupervision macht. In Experimenten mit verschiedenen Bildbeschreibungsmodellen zeigen wir außerdem, dass die Leistung eines Modells auf standardisierten Bildbeschreibungs-Benchmarks (z. B. NoCaps CIDEr) kein zuverlässiger Indikator für den Nutzen der generierten Beschreibungen für das multimodale Training ist. Schließlich bieten unsere Experimente mit der Verwendung generierter Beschreibungen im großen Maßstab von DataComp (1,28 Milliarden Bild-Text-Paare) Einblicke in die Grenzen synthetischer Texte sowie in die Bedeutung der Bildkuratierung mit zunehmender Trainingsdatenmenge.
Self-supervised learning hat einen revolutionären Paradigmenwechsel in verschiedenen Bereichen der Informatik bewirkt, darunter NLP, Computer Vision und Biologie. Aktuelle Ansätze beinhalten das Vortrainieren von Transformer-Modellen auf großen Mengen ungelabelter Daten, die als Ausgangspunkt für die effiziente Lösung nachgelagerter Aufgaben dienen. Im Bereich des Reinforcement Learning haben Forscher diese Ansätze kürzlich adaptiert, indem sie Modelle entwickelt haben, die auf Expertentrajektorien vortrainiert wurden, wodurch sie in der Lage sind, eine Vielzahl von Aufgaben zu bewältigen, von der Robotik bis hin zu Empfehlungssystemen. Bisherige Methoden stützen sich jedoch meist auf komplexe Vortrainingsziele, die auf spezifische nachgelagerte Anwendungen zugeschnitten sind. Dieses Papier präsentiert eine umfassende Untersuchung von Modellen, die wir als Pretrained Action-State Transformer Agents (PASTA) bezeichnen. Unsere Studie verwendet eine einheitliche Methodik und deckt eine breite Palette allgemeiner nachgelagerter Aufgaben ab, darunter Behavioral Cloning, Offline-RL, Robustheit bei Sensorausfällen und Anpassung an Dynamikänderungen. Unser Ziel ist es, verschiedene Designentscheidungen systematisch zu vergleichen und wertvolle Einblicke für Praktiker zu bieten, um robuste Modelle zu entwickeln. Zu den zentralen Aspekten unserer Studie gehören die Tokenisierung auf Ebene der Aktions- und Zustandskomponenten, die Verwendung grundlegender Vortrainingsziele wie die Vorhersage des nächsten Tokens, das Training von Modellen über verschiedene Domänen hinweg und die Anwendung von parameter-effizientem Fine-Tuning (PEFT). Die in unserer Studie entwickelten Modelle enthalten weniger als 10 Millionen Parameter, und die Anwendung von PEFT ermöglicht das Fine-Tuning von weniger als 10.000 Parametern während der nachgelagerten Anpassung, wodurch eine breite Gemeinschaft in der Lage ist, diese Modelle zu nutzen und unsere Experimente zu reproduzieren. Wir hoffen, dass diese Studie weitere Forschungen zur Verwendung von Transformern mit Designentscheidungen auf Basis erster Prinzipien zur Darstellung von RL-Trajektorien anregt und zu robustem Policy-Learning beiträgt.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben bemerkenswerte Fortschritte bei vielen mathematischen Benchmarks gezeigt. Die meisten dieser Benchmarks beschränken sich jedoch auf Probleme, die auf den Lehrstoff der Mittel- und Oberstufe zurückgehen, enthalten nur Multiple-Choice-Fragen und sind auf einen begrenzten Bereich elementarer arithmetischer Operationen beschränkt. Um diese Probleme zu adressieren, stellt dieses Papier ein umfangreiches Benchmark-Suite namens SciBench vor, das darauf abzielt, die für komplexes wissenschaftliches Problemlösen erforderlichen Fähigkeiten systematisch zu untersuchen. SciBench enthält zwei sorgfältig zusammengestellte Datensätze: einen offenen Datensatz mit einer Reihe von wissenschaftlichen Problemen auf College-Niveau, die aus Lehrbüchern der Mathematik, Chemie und Physik stammen, und einen geschlossenen Datensatz, der Probleme aus Prüfungen auf Bachelor-Niveau in Informatik und Mathematik umfasst. Basierend auf diesen beiden Datensätzen führen wir eine detaillierte Benchmark-Studie mit zwei repräsentativen LLMs und verschiedenen Prompting-Strategien durch. Die Ergebnisse zeigen, dass aktuelle LLMs nicht in der Lage sind, zufriedenstellende Leistungen zu erbringen, mit einer Gesamtpunktzahl von lediglich 35,80%. Darüber hinaus kategorisieren wir in einer detaillierten Benutzerstudie die von LLMs gemachten Fehler in zehn Problemlösefähigkeiten. Unsere Analyse zeigt, dass keine einzelne Prompting-Strategie signifikant besser abschneidet als andere und dass einige Strategien, die Verbesserungen bei bestimmten Problemlösefähigkeiten zeigen, zu Verschlechterungen bei anderen Fähigkeiten führen. Wir gehen davon aus, dass SciBench weitere Entwicklungen in den Fähigkeiten von LLMs zur logischen Schlussfolgerung vorantreiben wird und damit letztlich zur wissenschaftlichen Forschung und Entdeckung beitragen wird.
Die Mechanismen hinter dem Erfolg von Multi-View Self-Supervised Learning (MVSSL) sind noch nicht vollständig verstanden. Kontrastive MVSSL-Methoden wurden durch die Linse von InfoNCE, einer unteren Schranke der Mutual Information (MI), untersucht. Die Beziehung zwischen anderen MVSSL-Methoden und MI bleibt jedoch unklar. Wir betrachten eine andere untere Schranke der MI, die aus einem Entropie- und einem Rekonstruktionsterm (ER) besteht, und analysieren die wichtigsten MVSSL-Familien durch diese Linse. Durch diese ER-Schranke zeigen wir, dass clustering-basierte Methoden wie DeepCluster und SwAV die MI maximieren. Wir interpretieren auch die Mechanismen von Distillationsansätzen wie BYOL und DINO neu und zeigen, dass sie den Rekonstruktionsterm explizit maximieren und implizit eine stabile Entropie fördern, was wir empirisch bestätigen. Wir zeigen, dass das Ersetzen der Ziele gängiger MVSSL-Methoden durch diese ER-Schranke eine wettbewerbsfähige Leistung erzielt, während sie stabil bleibt, wenn mit kleineren Batch-Größen oder kleineren exponentiellen gleitenden Durchschnittskoeffizienten (EMA) trainiert wird. Github-Repo: https://github.com/apple/ml-entropy-reconstruction.
Während instruktionsfeinabgestimmte Modelle bemerkenswerte Erfolge bei verschiedenen Aufgaben der natürlichen Sprachverarbeitung gezeigt haben, bleibt die genaue Bewertung ihrer Fähigkeit, Anweisungen zu befolgen, eine Herausforderung. Bestehende Benchmarks konzentrieren sich hauptsächlich auf gängige Anweisungen, die gut mit dem übereinstimmen, was das Modell während des Trainings gelernt hat. Allerdings impliziert die Kompetenz bei der Beantwortung dieser Anweisungen nicht zwangsläufig eine starke Fähigkeit zur Anweisungsbefolgung. In diesem Artikel schlagen wir ein neuartiges Bewertungsprotokoll zur Anweisungsbefolgung vor, das als Verbalisermanipulation bezeichnet wird. Es weist das Modell an, die Aufgabenbezeichnung mit Wörtern zu verbalisieren, die in unterschiedlichem Ausmaß mit den Modellpräferenzen übereinstimmen, wobei Verbalisierer von stark übereinstimmend (z. B. die Ausgabe von „positiv“ für positive Stimmung) bis minimal übereinstimmend (z. B. die Ausgabe von „negativ“ für positive Stimmung) verwendet werden. Die Verbalisermanipulation kann nahtlos in jeden Klassifikationsbenchmark integriert werden, um die Abhängigkeit des Modells von Präferenzen und seine Fähigkeit, diese zu überschreiben, um Anweisungen genau zu befolgen, zu untersuchen. Wir führen eine umfassende Bewertung von vier großen Modellfamilien über neun Datensätze hinweg durch, wobei wir zwölf Sätze von Verbalisierern für jede von ihnen verwenden. Wir beobachten, dass die Anweisungsbefolgungsfähigkeiten von Modellen, über verschiedene Familien und Skalen hinweg, signifikant durch ihre Leistung bei weniger natürlichen Verbalisierern unterschieden werden. Selbst das stärkste GPT-4-Modell hat Schwierigkeiten, bei der anspruchsvollsten Verbalisierung besser als zufälliges Raten abzuschneiden, was die Notwendigkeit kontinuierlicher Fortschritte zur Verbesserung ihrer Anweisungsbefolgungsfähigkeiten unterstreicht.