Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) und Vision-Sprach-Modelle (VLMs) haben sich als hervorragend bei einer Vielzahl von Aufgaben erwiesen, wie beispielsweise dem gesunden Menschenverstand. So leistungsstark diese Modelle auch sein mögen, sie sind nicht in der 3D-physischen Welt verankert, die reichhaltigere Konzepte wie räumliche Beziehungen, Affordanzen, Physik, Layout und so weiter umfasst. In dieser Arbeit schlagen wir vor, die 3D-Welt in große Sprachmodelle zu integrieren und eine völlig neue Familie von 3D-LLMs einzuführen. Konkret können 3D-LLMs 3D-Punktwolken und deren Merkmale als Eingabe verwenden und eine Vielzahl von 3D-bezogenen Aufgaben ausführen, darunter Beschriftung, dichte Beschriftung, 3D-Fragebeantwortung, Aufgabenzerlegung, 3D-Verankerung, 3D-unterstützter Dialog, Navigation und so weiter. Mit drei von uns entwickelten Prompting-Mechanismen konnten wir über 300k 3D-Sprach-Daten sammeln, die diese Aufgaben abdecken. Um 3D-LLMs effizient zu trainieren, verwenden wir zunächst einen 3D-Merkmal-Extraktor, der 3D-Merkmale aus gerenderten Multi-View-Bildern erhält. Anschließend nutzen wir 2D-VLMs als Rückgrat, um unsere 3D-LLMs zu trainieren. Durch die Einführung eines 3D-Lokalisierungsmechanismus können 3D-LLMs 3D-räumliche Informationen besser erfassen. Experimente auf ScanQA zeigen, dass unser Modell die state-of-the-art Baselines deutlich übertrifft (z.B. übertrifft der BLEU-1-Score den state-of-the-art-Score um 9%). Darüber hinaus zeigen Experimente auf unseren zurückgehaltenen Datensätzen für 3D-Beschriftung, Aufgabenkomposition und 3D-unterstützten Dialog, dass unser Modell 2D-VLMs übertrifft. Qualitative Beispiele zeigen auch, dass unser Modell mehr Aufgaben ausführen kann, die über den Rahmen bestehender LLMs und VLMs hinausgehen. Projektseite: https://vis-www.cs.umass.edu/3dllm/.
Vortrainierte große Sprachmodelle (LLMs) haben in letzter Zeit eine bessere Generalisierung und Stichprobeneffizienz bei der autonomen Webnavigation erreicht. Die Leistung auf realen Websites leidet jedoch weiterhin unter (1) offener Domänenvielfalt, (2) begrenzter Kontextlänge und (3) fehlendem induktivem Bias für HTML. Wir stellen WebAgent vor, einen LLM-gesteuerten Agenten, der Aufgaben auf realen Websites basierend auf natürlichen Sprachanweisungen ausführen kann. WebAgent plant voraus, indem er Anweisungen in kanonische Teilanweisungen zerlegt, lange HTML-Dokumente in aufgabenrelevante Ausschnitte zusammenfasst und über generierte Python-Programme auf Websites agiert. Wir haben WebAgent mit Flan-U-PaLM für die fundierte Code-Generierung und HTML-T5, neuen vortrainierten LLMs für lange HTML-Dokumente, die lokale und globale Aufmerksamkeitsmechanismen sowie eine Mischung aus langstreckigen Denoising-Zielen verwenden, für Planung und Zusammenfassung entwickelt. Wir zeigen empirisch, dass unser Ansatz die Erfolgsquote auf einer realen Website um über 50 % verbessert und dass HTML-T5 das beste Modell zur Lösung HTML-basierter Aufgaben ist; es erreicht eine 14,9 % höhere Erfolgsrate als der bisherige State-of-the-Art auf dem MiniWoB-Webnavigations-Benchmark und eine bessere Genauigkeit bei der Offline-Aufgabenplanungsbewertung.
Eine wenig erforschte Grenze der Bildgenerierung und -bearbeitung ist die Aufgabe der Interpolation zwischen zwei Eingabebildern, eine Funktion, die in allen derzeit eingesetzten Bildgenerierungspipelines fehlt. Wir argumentieren, dass eine solche Funktion die kreativen Anwendungen solcher Modelle erweitern kann, und schlagen eine Methode für die Zero-Shot-Interpolation mit latenten Diffusionsmodellen vor. Wir wenden die Interpolation im latenten Raum auf einer Abfolge abnehmender Rauschpegel an und führen dann eine Entrauschung durch, die auf interpolierten Text-Embeddings basiert, die aus Textual Inversion und (optional) Subjektposen abgeleitet werden. Für eine größere Konsistenz oder zur Spezifikation zusätzlicher Kriterien können wir mehrere Kandidaten generieren und CLIP verwenden, um das qualitativ hochwertigste Bild auszuwählen. Wir erhalten überzeugende Interpolationen über diverse Subjektposen, Bildstile und Bildinhalte hinweg und zeigen, dass standardmäßige quantitative Metriken wie FID unzureichend sind, um die Qualität einer Interpolation zu messen. Code und Daten sind verfügbar unter https://clintonjwang.github.io/interpolation.
Große Sprachmodelle haben sich als äußerst flexibel erwiesen und sind in der Lage, eine Vielzahl von generativen Aufgaben zu lösen, wie beispielsweise abstrakte Zusammenfassung und offene Fragebeantwortung. In diesem Artikel erweitern wir die Fähigkeiten von LLMs, indem wir direkt einen kleinen Audio-Encoder anhängen, der es ermöglicht, Spracherkennung durchzuführen. Durch das direkte Voranstellen einer Sequenz von Audio-Embeddings an die Text-Token-Embeddings kann das LLM in ein automatisches Spracherkennungssystem (ASR) umgewandelt werden und auf die gleiche Weise wie sein textbasiertes Gegenstück verwendet werden. Experimente mit Multilingual LibriSpeech (MLS) zeigen, dass die Integration eines Conformer-Encoders in das quelloffene LLaMA-7B-Modell es ermöglicht, monolinguale Baselines um 18 % zu übertreffen und mehrsprachige Spracherkennung durchzuführen, obwohl LLaMA überwiegend auf englischem Text trainiert wurde. Darüber hinaus führen wir Ablationsstudien durch, um zu untersuchen, ob das LLM während des Trainings vollständig eingefroren werden kann, um seine ursprünglichen Fähigkeiten zu bewahren, den Audio-Encoder zu vergrößern und die Schrittweite des Audio-Encoders zu erhöhen, um weniger Embeddings zu erzeugen. Die Ergebnisse dieser Studien zeigen, dass mehrsprachige ASR selbst dann möglich ist, wenn das LLM eingefroren ist oder wenn Schrittweiten von fast einer Sekunde im Audio-Encoder verwendet werden, was die Möglichkeit eröffnet, dass LLMs mit langen Audioformaten arbeiten können.
Mit ChatGPT als prominentem Vertreter haben zahlreiche Unternehmen begonnen, Dienstleistungen auf der Grundlage großer Transformer-Modelle anzubieten. Die Nutzung solcher Dienste führt jedoch unweigerlich dazu, dass die Eingaben der Nutzer an den Modellanbieter weitergegeben werden. Frühere Studien haben die sichere Inferenz für Transformer-Modelle mithilfe von Secure Multiparty Computation (MPC) untersucht, wobei sowohl die Modellparameter als auch die Eingaben der Clients geheim gehalten werden. Trotzdem sind diese Frameworks in Bezug auf Modellleistung, Effizienz und Einsatzfähigkeit noch immer eingeschränkt. Um diese Einschränkungen zu überwinden, schlagen wir das Framework PUMA vor, das eine schnelle und sichere Inferenz für Transformer-Modelle ermöglicht. Unser Framework entwickelt hochwertige Approximationen für rechenintensive Funktionen wie GeLU und Softmax, die die Kosten der sicheren Inferenz erheblich reduzieren, ohne die Modellleistung zu beeinträchtigen. Zudem entwerfen wir sichere Verfahren für Embedding und LayerNorm, die die gewünschte Funktionalität zuverlässig implementieren, ohne die Transformer-Architektur zu untergraben. PUMA ist etwa doppelt so schnell wie das state-of-the-art MPC-Framework MPCFORMER (ICLR 2023) und erreicht eine ähnliche Genauigkeit wie Klartextmodelle ohne Feinabstimmung (was frühere Arbeiten nicht erreichen konnten). Ein weiterer Punkt ist, dass PUMA in der Lage ist, LLaMA-7B in etwa 5 Minuten zu evaluieren, um 1 Token zu generieren. Nach unserem besten Wissen ist dies das erste Mal, dass ein Modell mit einer solchen Parameteranzahl unter MPC evaluiert werden kann. PUMA wurde im Github-Repository von SecretFlow-SPU als Open-Source veröffentlicht.
Da große Sprachmodelle (LLMs) immer schwierigere Aufgaben bewältigen, wird es zunehmend schwieriger, die Korrektheit und Sicherheit ihres Verhaltens zu überprüfen. Ein Ansatz, um dieses Problem zu adressieren, besteht darin, LLMs dazu anzuregen, ihre Argumentation zu externalisieren, z. B. indem sie schrittweise Begründungen generieren, während sie eine Frage beantworten (Chain-of-Thought; CoT). Diese Argumentation könnte es uns ermöglichen, den Prozess zu überprüfen, den Modelle zur Aufgabenbewältigung verwenden. Dieser Ansatz setzt jedoch voraus, dass die dargelegte Argumentation die tatsächliche Argumentation des Modells treu widerspiegelt, was nicht immer der Fall ist. Um die Treue der CoT-Argumentation zu verbessern, lassen wir Modelle Argumentationen generieren, indem sie Fragen in Teilfragen zerlegen. Zerlegungsbasierte Methoden erzielen starke Leistungen bei Frage-Antwort-Aufgaben und nähern sich manchmal der Leistung von CoT an, während sie gleichzeitig die Treue der vom Modell dargelegten Argumentation gemäß mehreren kürzlich vorgeschlagenen Metriken verbessern. Indem wir das Modell dazu zwingen, einfachere Teilfragen in separaten Kontexten zu beantworten, erhöhen wir die Treue der modellgenerierten Argumentation im Vergleich zu CoT erheblich, während wir gleichzeitig einige der Leistungsvorteile von CoT beibehalten. Unsere Ergebnisse zeigen, dass es möglich ist, die Treue der modellgenerierten Argumentation zu verbessern; weitere Fortschritte könnten zu Argumentationen führen, die es uns ermöglichen, die Korrektheit und Sicherheit des Verhaltens von LLMs zu überprüfen.
Moderne Sprachmodelle erfassen eine große Menge an faktischem Wissen. Einige Fakten können jedoch falsch abgeleitet oder im Laufe der Zeit veraltet sein, was zu faktisch inkorrekten Generierungen führt. Dies hat zur Entwicklung verschiedener Bearbeitungsmethoden geführt, die es ermöglichen, im Modell kodierte Fakten zu aktualisieren. Die Bewertung dieser Methoden konzentrierte sich bisher hauptsächlich darauf, zu testen, ob ein einzelner Fakt erfolgreich eingefügt wurde und ob ähnliche Vorhersagen für andere Subjekte unverändert geblieben sind. Hier argumentieren wir, dass eine solche Bewertung begrenzt ist, da das Einfügen eines Fakts (z. B. „Jack Depp ist der Sohn von Johnny Depp“) einen „Ripple-Effekt“ in Form zusätzlicher Fakten auslöst, die das Modell aktualisieren muss (z. B. „Jack Depp ist der Bruder von Lily-Rose Depp“). Um dieses Problem zu adressieren, schlagen wir ein neuartiges Set von Bewertungskriterien vor, das die Auswirkungen einer Bearbeitung auf verwandte Fakten berücksichtigt. Mit diesen Kriterien konstruieren wir dann einen diagnostischen Benchmark von 5.000 faktischen Bearbeitungen, der eine Vielzahl von Arten von Ripple-Effekten erfasst. Wir bewerten prominente Bearbeitungsmethoden anhand dieses Benchmarks und zeigen, dass aktuelle Methoden keine konsistenten Änderungen im Wissen des Modells einführen können. Darüber hinaus stellen wir fest, dass eine einfache In-Context-Bearbeitungs-Baseline die besten Ergebnisse in unserem Benchmark erzielt, was eine vielversprechende Forschungsrichtung für die Modellbearbeitung nahelegt.
Wir schlagen Reinforcement Learning from Contrast Distillation (RLCD) vor, eine Methode zur Ausrichtung von Sprachmodellen, um natürlichen Sprachprinzipien zu folgen, ohne menschliches Feedback zu verwenden. RLCD trainiert ein Präferenzmodell mithilfe von simulierten Präferenzpaaren, die sowohl ein hochwertiges als auch ein minderwertiges Beispiel enthalten, die durch kontrastierende positive und negative Prompts erzeugt werden. Das Präferenzmodell wird dann verwendet, um ein unausgerichtetes Basissprachmodell durch Reinforcement Learning zu verbessern. Empirisch übertrifft RLCD die Baselines von RLAIF (Bai et al., 2022b) und Context Distillation (Huang et al., 2022) in drei verschiedenen Ausrichtungsaufgaben – Unschädlichkeit, Hilfsbereitschaft und Erstellung von Geschichtenumrissen – sowie bei beiden Modellgrößen von 7B und 30B für die Simulation von Präferenzdaten.
Dieses Papier stellt das etablierte Paradigma für den Aufbau von Any-to-Any-Netzwerken zum Training von Large Language Models (LLMs) in Frage. Wir zeigen, dass LLMs ein einzigartiges Kommunikationsmuster aufweisen, bei dem nur kleine Gruppen von GPUs eine hochbandbreitige Any-to-Any-Kommunikation innerhalb dieser Gruppen benötigen, um eine nahezu optimale Trainingsleistung zu erreichen. Zwischen diesen Gruppen von GPUs ist die Kommunikation unbedeutend, spärlich und homogen. Wir schlagen eine neue Netzwerkarchitektur vor, die den Kommunikationsanforderungen von LLMs sehr nahe kommt. Unsere Architektur unterteilt den Cluster in Gruppen von GPUs, die durch nicht blockierende Any-to-Any-Hochbandbreitenverbindungen, die wir als HB-Domänen bezeichnen, miteinander verbunden sind. Zwischen den HB-Domänen verbindet das Netzwerk nur GPUs mit Kommunikationsbedarf. Wir nennen dieses Netzwerk eine „Rail-only“-Verbindung und zeigen, dass unsere vorgeschlagene Architektur die Netzwerkkosten im Vergleich zu modernen Any-to-Any-Clos-Netzwerken um bis zu 75 % reduziert, ohne die Leistung des LLM-Trainings zu beeinträchtigen.
Das selbstüberwachte Lernen visueller Repräsentationen konzentrierte sich bisher auf das Erlernen von Inhaltsmerkmalen, die weder Objektbewegungen noch -positionen erfassen, sondern darauf abzielen, Objekte in Bildern und Videos zu identifizieren und zu unterscheiden. Auf der anderen Seite ist die Schätzung des optischen Flusses eine Aufgabe, die kein Verständnis des Bildinhalts erfordert, auf dem sie geschätzt wird. Wir vereinen diese beiden Ansätze und stellen MC-JEPA vor, eine Joint-Embedding-Vorhersagearchitektur und einen selbstüberwachten Lernansatz, um optischen Fluss und Inhaltsmerkmale gemeinsam innerhalb eines gemeinsamen Encoders zu lernen. Wir zeigen, dass die beiden zugehörigen Ziele – das Ziel der optischen Flussschätzung und das Ziel des selbstüberwachten Lernens – voneinander profitieren und somit Inhaltsmerkmale erlernen, die Bewegungsinformationen integrieren. Der vorgeschlagene Ansatz erreicht eine Leistung, die mit bestehenden unüberwachten Benchmarks für optischen Fluss sowie mit gängigen selbstüberwachten Lernansätzen bei nachgelagerten Aufgaben wie der semantischen Segmentierung von Bildern und Videos vergleichbar ist.
DETR-ähnliche Modelle haben die Leistung von Detektoren erheblich gesteigert und sogar klassische konvolutionale Modelle übertroffen. Allerdings führt die Gleichbehandlung aller Tokens ohne Unterscheidung in der traditionellen Encoder-Struktur zu einer redundanten Rechenlast. Die jüngsten Sparsifizierungsstrategien nutzen eine Teilmenge informativer Tokens, um die Aufmerksamkeitskomplexität zu reduzieren und dabei die Leistung durch den sparsen Encoder aufrechtzuerhalten. Diese Methoden neigen jedoch dazu, sich auf unzuverlässige Modellstatistiken zu verlassen. Darüber hinaus beeinträchtigt die einfache Reduzierung der Token-Population die Detektionsleistung in erheblichem Maße, was die Anwendung dieser sparsen Modelle einschränkt. Wir schlagen Focus-DETR vor, das die Aufmerksamkeit auf informativeren Tokens konzentriert, um einen besseren Kompromiss zwischen Recheneffizienz und Modellgenauigkeit zu erreichen. Konkret rekonstruieren wir den Encoder mit dualer Aufmerksamkeit, die einen Token-Bewertungsmechanismus umfasst, der sowohl Lokalisierungs- als auch Kategoriesemantikinformationen der Objekte aus mehrstufigen Feature-Maps berücksichtigt. Wir verwerfen effizient die Hintergrundanfragen und verbessern die semantische Interaktion der feinkörnigen Objektanfragen basierend auf den Bewertungen. Im Vergleich zu den modernsten sparsen DETR-ähnlichen Detektoren unter denselben Bedingungen erreicht unser Focus-DETR eine vergleichbare Komplexität und erzielt 50,4 AP (+2,2) auf COCO. Der Code ist verfügbar unter https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR und https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
Die langfristige Aktivitätsvorhersage ist ein besonders herausforderndes Forschungsproblem, da sie das Verständnis der zeitlichen Beziehungen zwischen beobachteten Aktionen sowie die Variabilität und Komplexität menschlicher Aktivitäten erfordert. Obwohl sie auf starker Überwachung durch kostspielige menschliche Annotationen beruhen, generalisieren state-of-the-art Vorhersageansätze oft schlecht auf unbekannte Daten. Um dieses Problem zu mildern, schlagen wir Multiscale Video Pretraining (MVP) vor, einen neuartigen selbstüberwachten Vortrainierungsansatz, der robuste Repräsentationen für die Vorhersage lernt, indem er kontextualisierte Repräsentationen zukünftiger Videoclips über mehrere Zeitskalen vorhersagt. MVP basiert auf unserer Beobachtung, dass Aktionen in Videos eine mehrskalige Natur haben, wobei atomare Aktionen typischerweise auf einer kurzen Zeitskale auftreten und komplexere Aktionen längere Zeitskalen umfassen können. Wir vergleichen MVP mit state-of-the-art selbstüberwachten Video-Lernansätzen bei nachgelagerten langfristigen Vorhersageaufgaben, einschließlich langfristiger Aktionsantizipation und Video-Zusammenfassungsvorhersage. Unsere umfassenden Experimente über die Ego4D- und Epic-Kitchens-55/100-Datensätze zeigen, dass MVP state-of-the-art Methoden mit deutlichen Abständen übertrifft. Insbesondere erzielt MVP einen relativen Leistungsgewinn von über 20 % Genauigkeit bei der Video-Zusammenfassungsvorhersage gegenüber bestehenden Methoden.