papers.description
Die bemerkenswerten multimodalen Fähigkeiten und die interaktive Erfahrung von GPT-4o unterstreichen ihre Notwendigkeit in praktischen Anwendungen, doch Open-Source-Modelle glänzen selten in beiden Bereichen. In diesem Paper stellen wir VITA vor, das erste Open-Source Multimodal Large Language Model (MLLM), das gleichzeitig die Verarbeitung und Analyse von Video, Bild, Text und Audio-Modalitäten beherrscht und gleichzeitig über eine fortschrittliche multimodale interaktive Erfahrung verfügt. Ausgehend von Mixtral 8x7B als Sprachgrundlage erweitern wir seinen chinesischen Wortschatz, gefolgt von zweisprachigem Instruktions-Tuning. Wir verleihen dem Sprachmodell außerdem visuelle und audiovisuelle Fähigkeiten durch zweistufiges Multi-Task-Learning von multimodaler Ausrichtung und Instruktions-Tuning. VITA zeigt robuste grundlegende Fähigkeiten in mehrsprachigem, visuellem und audiovisuellem Verständnis, wie durch seine starke Leistung in einer Vielzahl von unimodalen und multimodalen Benchmarks belegt wird. Über die grundlegenden Fähigkeiten hinaus haben wir erhebliche Fortschritte bei der Verbesserung der natürlichen multimodalen Mensch-Computer-Interaktionserfahrung gemacht. Nach unserem Kenntnisstand sind wir die Ersten, die die nicht-erwachende Interaktion und Audio-Unterbrechung in MLLM nutzen. VITA ist der erste Schritt für die Open-Source-Community, um die nahtlose Integration von multimodalem Verständnis und Interaktion zu erforschen. Obwohl noch viel Arbeit an VITA zu tun ist, um an geschlossene Gegenstücke heranzukommen, hoffen wir, dass seine Rolle als Vorreiter als Grundstein für nachfolgende Forschung dienen kann. Projektseite: https://vita-home.github.io.
Sparse Autoencoder (SAE) sind eine unüberwachte Methode zum Erlernen einer spärlichen Zerlegung der latenten Repräsentationen eines neuronalen Netzwerks in scheinbar interpretierbare Merkmale. Trotz des aktuellen Interesses an ihrem Potenzial sind Forschungsanwendungen außerhalb der Industrie aufgrund der hohen Kosten für das Training eines umfassenden Satzes von SAEs begrenzt. In dieser Arbeit stellen wir Gemma Scope vor, einen offenen Satz von JumpReLU-SAEs, die auf allen Schichten und Unterlagen von Gemma 2 2B und 9B sowie ausgewählten Schichten der Gemma 2 27B-Basismodelle trainiert sind. Wir trainieren hauptsächlich SAEs auf den vorab trainierten Gemma 2-Modellen, veröffentlichen jedoch zusätzlich SAEs, die auf instruktionsangepassten Gemma 2 9B für Vergleiche trainiert sind. Wir bewerten die Qualität jedes SAE anhand standardisierter Metriken und veröffentlichen diese Ergebnisse. Wir hoffen, dass wir durch die Veröffentlichung dieser SAE-Gewichte dazu beitragen können, dass ambitioniertere Sicherheits- und Interpretationsforschung für die Gemeinschaft einfacher wird. Die Gewichte und ein Tutorial sind unter https://huggingface.co/google/gemma-scope zu finden, und eine interaktive Demo ist unter https://www.neuronpedia.org/gemma-scope verfügbar.
Multi-modal Large Language Models (MLLMs) haben bemerkenswerte Fähigkeiten bei der Ausführung von Anweisungen für eine Vielzahl von Einzelbild-Aufgaben gezeigt. Trotz dieses Fortschritts bestehen weiterhin bedeutende Herausforderungen beim Modellieren langer Bildsequenzen. In dieser Arbeit stellen wir das vielseitige Multi-modal Large Language Model mPLUG-Owl3 vor, das die Fähigkeit zur Verarbeitung langer Bildsequenzen in Szenarien verbessert, die abgerufenes Bild-Text-Wissen, ineinander verschachtelte Bild-Text-Paare und lange Videos einbeziehen. Speziell schlagen wir neuartige Hyper-Aufmerksamkeitsblöcke vor, um Vision und Sprache effizient in einen gemeinsamen sprachgesteuerten semantischen Raum zu integrieren und somit die Verarbeitung erweiterter Multi-Bild-Szenarien zu erleichtern. Umfangreiche experimentelle Ergebnisse legen nahe, dass mPLUG-Owl3 Spitzenleistungen unter Modellen ähnlicher Größe bei Einzelbild-, Multi-Bild- und Video-Benchmarks erzielt. Darüber hinaus schlagen wir eine anspruchsvolle Bewertung langer visueller Sequenzen namens Distractor Resistance vor, um die Fähigkeit von Modellen zu bewerten, den Fokus trotz Ablenkungen aufrechtzuerhalten. Schließlich zeigt mPLUG-Owl3 mit der vorgeschlagenen Architektur eine herausragende Leistung bei extrem langen visuellen Sequenzeingaben. Wir hoffen, dass mPLUG-Owl3 zur Entwicklung effizienterer und leistungsstärkerer multimodaler großer Sprachmodelle beitragen kann.
Bedeutende Forschungsanstrengungen wurden unternommen, um Trainingsansätze für Vision-Language-Modelle (VLM) zu skalieren und zu verbessern. Dennoch sind Forscher angesichts einer stetig wachsenden Anzahl von Benchmarks mit der schweren Aufgabe konfrontiert, jedes Protokoll umzusetzen, was mit erheblichen Rechenaufwänden verbunden ist, und zu verstehen, wie sich all diese Benchmarks in sinnvolle Fortschrittsachsen übersetzen lassen. Um eine systematische Bewertung des Fortschritts von VLM zu erleichtern, stellen wir UniBench vor: eine einheitliche Implementierung von über 50 VLM-Benchmarks, die eine umfassende Palette sorgfältig kategorisierter Fähigkeiten von der Objekterkennung über räumliches Bewusstsein, Zählen und vieles mehr abdecken. Wir zeigen die Nützlichkeit von UniBench zur Messung des Fortschritts, indem wir fast 60 öffentlich verfügbare Vision-Language-Modelle bewerten, die auf Skalen von bis zu 12,8 Mrd. Beispielen trainiert wurden. Wir stellen fest, dass das Skalieren von Trainingsdaten oder Modellgröße viele Fähigkeiten von Vision-Language-Modellen verbessern kann, aber nur wenig Nutzen für das Schlussfolgern oder Beziehungen bietet. Überraschenderweise entdecken wir auch, dass die besten VLMs von heute bei einfachen Aufgaben wie der Ziffernerkennung und dem Zählen, z. B. MNIST, Schwierigkeiten haben, die viel einfachere Netzwerke lösen können. Wo das Skalieren an seine Grenzen stößt, stellen wir fest, dass präzisere Interventionen, wie die Qualität der Daten oder maßgeschneiderte Lernziele, mehr versprechen. Für Praktiker bieten wir auch Anleitungen zur Auswahl eines geeigneten VLM für eine bestimmte Anwendung. Schließlich veröffentlichen wir eine einfach ausführbare UniBench-Code-Basis mit dem vollständigen Satz von über 50 Benchmarks und Vergleichen über 59 Modelle sowie einem reduzierten, repräsentativen Satz von Benchmarks, der in 5 Minuten auf einer einzelnen GPU läuft.
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben ein wachsendes Forschungsinteresse an Tool-unterstützten LLMs zur Bewältigung realer Herausforderungen ausgelöst, was eine umfassende Bewertung der Tool-Nutzungsfähigkeiten erfordert. Während frühere Arbeiten entweder die Bewertung über zustandslose Webdienste (RESTful API) konzentrierten, basierend auf einer einzelnen Benutzeranfrage, oder über eine Off-Policy-Dialog-Trajektorie, umfasst ToolSandbox die zustandsbehaftete Tool-Ausführung, implizite Zustandsabhängigkeiten zwischen Tools, einen integrierten Benutzersimulator zur Unterstützung der On-Policy-Gesprächsbewertung und eine dynamische Bewertungsstrategie für Zwischen- und Endziele über eine beliebige Trajektorie. Wir zeigen, dass Open-Source- und proprietäre Modelle eine signifikante Leistungsdifferenz aufweisen und komplexe Aufgaben wie Zustandsabhängigkeit, Kanonisierung und Unzureichende Information, wie in ToolSandbox definiert, selbst die leistungsfähigsten SOTA LLMs herausfordern, was völlig neue Einblicke in die Tool-Nutzungs-LLM-Fähigkeiten bietet. Das Bewertungsframework ToolSandbox wurde unter https://github.com/apple/ToolSandbox veröffentlicht.
Trotz des vielversprechenden Fortschritts bei der Superauflösung von Gesichtsbildern ist die Superauflösung von Videogesichtern relativ unerforscht. Bestehende Ansätze passen entweder allgemeine Videogesichts-Superauflösungsnetzwerke an Gesichtsdatensätze an oder wenden etablierte Modelle zur Superauflösung von Gesichtsbildern unabhängig auf einzelne Videoframes an. Diese Paradigmen stoßen entweder auf Herausforderungen bei der Rekonstruktion von Gesichtsdetails oder beim Erhalt der zeitlichen Konsistenz. Um diese Probleme zu lösen, stellen wir ein neuartiges Framework namens Kalman-inspirierte Merkmalspropagation (KEEP) vor, das entwickelt wurde, um im Laufe der Zeit eine stabile Gesichtspriorität aufrechtzuerhalten. Die Kalman-Filterprinzipien verleihen unserer Methode die Fähigkeit zur wiederkehrenden Nutzung von Informationen aus zuvor wiederhergestellten Frames, um den Wiederherstellungsprozess des aktuellen Frames zu leiten und zu regulieren. Umfangreiche Experimente zeigen die Wirksamkeit unserer Methode bei der konsistenten Erfassung von Gesichtsdetails über Videoframes hinweg. Der Code und eine Videodemo sind unter https://jnjaby.github.io/projects/KEEP verfügbar.
Textuelle Inversion bleibt eine beliebte Methode zur Personalisierung von Diffusionsmodellen, um Modellen neue Themen und Stile beizubringen. Wir stellen fest, dass die textuelle Inversion unter Verwendung von Alternativen zum UNet noch nicht ausreichend erforscht wurde, und experimentieren mit der textuellen Inversion mit einem Vision-Transformer. Wir streben auch an, die textuelle Inversion mithilfe einer Strategie zu optimieren, die keine explizite Verwendung des UNet und seiner eigenwilligen Schichten erfordert, daher fügen wir Bonus-Token hinzu und erzwingen Orthogonalität. Wir stellen fest, dass die Verwendung des Bonus-Tokens die Einhaltung der Quellbilder verbessert und die Verwendung des Vision-Transformers die Einhaltung der Anweisung verbessert. Der Code ist verfügbar unter https://github.com/jamesBaker361/tex_inv_plus.
In diesem Paper präsentieren wir MooER, ein auf LLM basierendes automatisches Spracherkennungs- (ASR) / automatisches Sprachübersetzungsmodell (AST) von Moore Threads im großen Maßstab. Ein 5000 Stunden umfassender Pseudo-gelabelter Datensatz, der Open-Source- und selbst gesammelte Sprachdaten enthält, wird für das Training verwendet. Wir erzielen eine vergleichbare Leistung wie andere Open-Source-Modelle, die mit Hunderttausenden von Stunden gelabelten Sprachdaten trainiert wurden. Gleichzeitig legen Experimente mit dem Covost2 Zh2en-Testdatensatz nahe, dass unser Modell andere Open-Source-Sprach-LLMs übertrifft. Ein BLEU-Score von 25,2 kann erreicht werden. Die Hauptbeiträge dieses Papers werden wie folgt zusammengefasst. Erstens präsentiert dieses Paper eine Trainingsstrategie für Encoder und LLMs bei sprachbezogenen Aufgaben (einschließlich ASR und AST) unter Verwendung einer geringen Menge an pseudo-gelabelten Daten ohne zusätzliche manuelle Annotation und Auswahl. Zweitens veröffentlichen wir unsere ASR- und AST-Modelle und planen, unseren Trainingscode und unsere Strategie in naher Zukunft Open-Source zu machen. Darüber hinaus ist geplant, ein Modell, das mit 8 Stunden Trainingsskala trainiert wurde, später zu veröffentlichen.
Die Sprachkonvertierung zielt darauf ab, die Stimme des Ausgangssprechers so zu verändern, dass sie der des Zielsprechers ähnelt, während der ursprüngliche Sprachinhalt erhalten bleibt. Trotz bemerkenswerter Fortschritte bei der Sprachkonvertierung in der heutigen Zeit wurde die mehrsprachige Sprachkonvertierung (einschließlich sowohl monolingualer als auch cross-lingualer Szenarien) noch nicht umfassend untersucht. Sie steht vor zwei Hauptproblemen: 1) der erheblichen Variabilität in Prosodie und Artikulationsgewohnheiten zwischen Sprachen; und 2) der Seltenheit von gepaarten mehrsprachigen Datensätzen vom selben Sprecher. In diesem Paper schlagen wir MulliVC vor, ein neuartiges Sprachkonvertierungssystem, das nur die Klangfarbe umwandelt und den ursprünglichen Inhalt sowie die Prosodie der Ausgangssprache ohne mehrsprachige gepaarte Daten beibehält. Speziell besteht jeder Trainingsschritt von MulliVC aus drei Unterabschnitten: Im ersten Schritt wird das Modell mit monolingualen Sprachdaten trainiert; dann nehmen die Schritte zwei und drei Anleihen beim Rückübersetzen, um einen zyklischen Prozess zu konstruieren, der die Klangfarbe und andere Informationen (Inhalt, Prosodie und andere sprachbezogene Informationen) ohne mehrsprachige Daten vom selben Sprecher entwirrt. Sowohl objektive als auch subjektive Ergebnisse zeigen, dass MulliVC sowohl in monolingualen als auch in cross-lingualen Kontexten signifikant andere Methoden übertrifft, was die Wirksamkeit des Systems und die Durchführbarkeit des dreistufigen Ansatzes mit Zykluskonsistenz demonstriert. Audio-Beispiele finden Sie auf unserer Demo-Seite (mullivc.github.io).
Neuronale Netzwerk-Sprachmodelle (LMs) konnten erfolgreich komplexe sprachliche Kenntnisse erfassen. Ihre Nützlichkeit für das Verständnis des Spracherwerbs wird jedoch noch diskutiert. Wir tragen zu dieser Debatte bei, indem wir eine Fallstudie vorstellen, in der wir LMs als simulierte Lernende verwenden, um neue experimentelle Hypothesen abzuleiten, die mit Menschen getestet werden sollen. Wir wenden dieses Paradigma an, um die Übergeneralisierung bei Dativkonstruktionen (CDG) zu untersuchen: die produktive Verallgemeinerung neuer Verben über Dativkonstruktionen hinweg (sie gab mir den Ball/sie gab den Ball mir) - deren Erwerb bekanntermaßen eine Vielzahl von Kontextmerkmalen umfasst - unter Verwendung von LMs, die auf kindgerichteter Sprache trainiert wurden. Wir fragen speziell: "Welche Eigenschaften der Trainingsbelichtung erleichtern die Verallgemeinerung eines neuen Verbs auf die (nicht modellierte) alternative Konstruktion?" Um dies zu beantworten, variieren wir systematisch den Belichtungskontext, in dem ein neues Dativverb auftritt, hinsichtlich der Eigenschaften des Themas und des Empfängers, und analysieren dann die Verwendung des neuen Verbs in den nicht modellierten Dativkonstruktionen durch die LMs. Wir stellen fest, dass LMs bekannte Muster der CDG von Kindern replizieren, als Voraussetzung für die Erkundung neuer Hypothesen. Nachfolgende Simulationen zeigen eine differenzierte Rolle der Merkmale des Belichtungskontexts der neuen Verben auf die CDG der LMs. Wir stellen fest, dass die CDG erleichtert wird, wenn das erste postverbale Argument des Belichtungskontexts pronominal, bestimmt, kurz und den prototypischen Animationserwartungen des Belichtungsdativs entspricht. Diese Muster sind charakteristisch für die harmonische Ausrichtung bei Dativkonstruktionen, bei der das Argument mit Merkmalen, die höher auf der Diskursprominenzskala rangieren, dazu neigt, dem anderen voranzugehen. Daraus ergibt sich eine neue Hypothese, dass die CDG erleichtert wird, soweit die Merkmale des Belichtungskontexts - insbesondere seines ersten postverbalen Arguments - harmonisch ausgerichtet sind. Wir schließen mit dem Vorschlag zukünftiger Experimente, die diese Hypothese bei Kindern testen können.