Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Position Interpolation (PI) vor, das die Kontextfenstergrößen von RoPE-basierten vortrainierten LLMs wie LLaMA-Modellen mit minimalem Fine-Tuning (innerhalb von 1000 Schritten) auf bis zu 32768 erweitert, während gleichzeitig starke empirische Ergebnisse bei verschiedenen Aufgaben, die einen langen Kontext erfordern, demonstriert werden. Dazu gehören Passkey-Retrieval, Sprachmodellierung und die Zusammenfassung langer Dokumente von LLaMA 7B bis 65B. Gleichzeitig bewahrt das durch Position Interpolation erweiterte Modell die Qualität relativ gut bei Aufgaben innerhalb seines ursprünglichen Kontextfensters. Um dieses Ziel zu erreichen, skaliert Position Interpolation die Eingabepositionsindizes linear herunter, um sie an die ursprüngliche Kontextfenstergröße anzupassen, anstatt über die trainierte Kontextlänge hinaus zu extrapolieren, was zu katastrophal hohen Aufmerksamkeitswerten führen könnte, die den Selbstaufmerksamkeitsmechanismus vollständig zerstören. Unsere theoretische Studie zeigt, dass die obere Grenze der Interpolation mindestens ∼600 Mal kleiner ist als die der Extrapolation, was ihre Stabilität weiter unterstreicht. Modelle, die durch Position Interpolation erweitert werden, behalten ihre ursprüngliche Architektur bei und können die meisten bestehenden Optimierungen und Infrastrukturen wiederverwenden.
Große Sprachmodelle (LLMs) haben vielversprechende Ergebnisse bei der Beweisformaler Theoreme mithilfe von Beweisassistenten wie Lean gezeigt. Bestehende Methoden sind jedoch aufgrund von nicht öffentlichem Code, Daten und hohen Rechenanforderungen schwer zu reproduzieren oder darauf aufzubauen. Dies hat erhebliche Hindernisse für die Forschung zu maschinellen Lernmethoden für das Theorembeweisen geschaffen. Diese Arbeit beseitigt diese Hindernisse durch die Einführung von LeanDojo: einer Open-Source-Lean-Umgebung, die Toolkits, Daten, Modelle und Benchmarks umfasst. LeanDojo extrahiert Daten aus Lean und ermöglicht die programmatische Interaktion mit der Beweisumgebung. Es enthält detaillierte Annotationen von Prämissen in Beweisen, die wertvolle Daten für die Prämissenauswahl liefern: ein zentraler Engpass beim Theorembeweisen. Mit diesen Daten entwickeln wir ReProver (Retrieval-Augmented Prover): den ersten LLM-basierten Beweiser, der durch Retrieval ergänzt wird, um Prämissen aus einer umfangreichen mathematischen Bibliothek auszuwählen. Er ist kostengünstig und benötigt nur eine GPU-Woche Training. Unser Retriever nutzt die Programmanalysefähigkeit von LeanDojo, um zugängliche Prämissen und schwierige negative Beispiele zu identifizieren, was das Retrieval wesentlich effektiver macht. Darüber hinaus erstellen wir einen neuen Benchmark, der aus 96.962 Theoremen und Beweisen besteht, die aus der Lean-Mathematikbibliothek extrahiert wurden. Er zeichnet sich durch anspruchsvolle Datenaufteilungen aus, die vom Beweiser verlangen, sich auf Theoreme zu verallgemeinern, die auf neuen Prämissen basieren, die im Training nie verwendet werden. Wir nutzen diesen Benchmark für Training und Evaluation, und die experimentellen Ergebnisse demonstrieren die Effektivität von ReProver gegenüber nicht-retrieval-basierten Baselines und GPT-4. Somit stellen wir die erste Reihe von Open-Source-LLM-basierten Theorembeweisern ohne proprietäre Datensätze bereit und veröffentlichen sie unter einer permissiven MIT-Lizenz, um weitere Forschung zu erleichtern.
Die aktuelle Arbeit CLIPA präsentiert ein inverses Skalierungsgesetz für das CLIP-Training – wonach größere Bild-/Text-Encoder kürzere Sequenzlängen von Bild-/Text-Token im Training ermöglichen. Diese Erkenntnis erlaubt es uns, hochleistungsfähige CLIP-Modelle mit deutlich reduziertem Rechenaufwand zu trainieren. Aufbauend auf dieser Arbeit präsentieren wir hier CLIPA-v2 mit zwei wesentlichen Beiträgen. Technisch gesehen stellen wir fest, dass dieses inverse Skalierungsgesetz auch im Feinabstimmungsstadium anwendbar ist, was eine weitere Reduzierung des Rechenbedarfs ermöglicht. Empirisch untersuchen wir CLIPA in großem Maßstab und erweitern die Experimente bis zum H/14-Modell mit ~13 Milliarden während des Trainings verarbeiteten Bild-Text-Paaren. Unsere Ergebnisse sind vielversprechend – mit einem Budget von nur 10.000 erreicht unser CLIP-Modell eine beeindruckende Zero-Shot-Genauigkeit auf ImageNet von 81,1 %, was das bisher beste CLIP-Modell (von OpenCLIP, 80,1 %) um 1,0 % übertrifft und gleichzeitig die Rechenkosten um ~39X reduziert. Darüber hinaus können wir mit einer zusätzlichen Investition von 4.000 die Zero-Shot-Genauigkeit auf ImageNet auf 81,8 % steigern. Unser Code und unsere Modelle sind unter https://github.com/UCSC-VLAA/CLIPA verfügbar.
Die Schätzung der Kameraposition ist ein langjähriges Problem der Computer Vision, das bis heute häufig auf klassischen Methoden wie dem Abgleich handgefertigter Schlüsselpunkte, RANSAC und Bündelausgleich basiert. In diesem Artikel schlagen wir vor, das Structure-from-Motion (SfM)-Problem innerhalb eines probabilistischen Diffusionsframeworks zu formulieren, wobei die bedingte Verteilung der Kamerapositionen bei gegebenen Eingabebildern modelliert wird. Diese neue Sichtweise auf ein altes Problem bietet mehrere Vorteile. (i) Die Natur des Diffusionsframeworks spiegelt den iterativen Prozess des Bündelausgleichs wider. (ii) Die Formulierung ermöglicht eine nahtlose Integration geometrischer Beschränkungen aus der Epipolargeometrie. (iii) Sie überzeugt in typischerweise schwierigen Szenarien wie spärlichen Ansichten mit großen Baselines. (iv) Die Methode kann intrinsische und extrinsische Parameter für eine beliebige Anzahl von Bildern vorhersagen. Wir zeigen, dass unsere Methode PoseDiffusion die klassischen SfM-Pipelines und die gelernten Ansätze auf zwei realen Datensätzen deutlich übertrifft. Schließlich wird beobachtet, dass unsere Methode ohne weiteres Training über Datensätze hinweg generalisieren kann. Projektseite: https://posediffusion.github.io/
Die Entflechtung unkorrelierter Informationen in Sprachäußerungen ist ein zentrales Forschungsthema innerhalb der Sprachgemeinschaft. Verschiedene sprachbezogene Aufgaben konzentrieren sich darauf, unterschiedliche Sprachrepräsentationen zu extrahieren, während die Auswirkungen anderer unkorrelierter Informationen minimiert werden. Wir stellen ein groß angelegtes Sprachkorpus vor, um die Forschung zur Entflechtung von Sprachrepräsentationen zu erleichtern. 3D-Speaker enthält über 10.000 Sprecher, von denen jeder gleichzeitig von mehreren Geräten aufgezeichnet wird, die sich in unterschiedlichen Entfernungen befinden, und einige Sprecher verwenden mehrere Dialekte. Die kontrollierten Kombinationen mehrdimensionaler Audiodaten ergeben eine Matrix aus einer vielfältigen Mischung von Sprachrepräsentationsverflechtungen, wodurch interessante Methoden zu deren Entflechtung angeregt werden. Die multidomänische Natur von 3D-Speaker macht es auch zu einer geeigneten Ressource, um große universelle Sprachmodelle zu evaluieren und Methoden des domänenübergreifenden Lernens sowie des selbstüberwachten Lernens zu experimentieren. https://3dspeaker.github.io/
Viele pixelweise dichte Vorhersageaufgaben – wie Tiefenschätzung und semantische Segmentierung in der Computer Vision – basieren heute auf vortrainierten Bildrepräsentationen. Daher ist die Erstellung effektiver Vortrainingsdatensätze von entscheidender Bedeutung. Leider sind die effektiven Vortrainingsdatensätze solche mit Mehransichtsszenen und wurden bisher nur unter Verwendung annotierter 3D-Meshes, Punktwolken und Kameraparameter aus simulierten Umgebungen erstellt. Wir schlagen einen Mechanismus zur Datensatzerstellung vor, der keine Annotationen erfordert. Wir extrahieren zwei Datensätze: MIMIC-1M mit 1,3 Millionen und MIMIC-3M mit 3,1 Millionen Mehransicht-Bildpaaren aus offenen Video-Datensätzen und aus synthetischen 3D-Umgebungen. Wir trainieren mehrere selbstüberwachte Modelle mit verschiedenen Masked-Image-Modellierungszielen, um die folgenden Erkenntnisse zu demonstrieren: Repräsentationen, die auf MIMIC-3M trainiert wurden, übertreffen diejenigen, die mit Annotationen erstellt wurden, in mehreren nachgelagerten Aufgaben, einschließlich Tiefenschätzung, semantischer Segmentierung, Oberflächennormalen und Pose-Schätzung. Sie übertreffen auch Repräsentationen, die eingefroren sind, und wenn die nachgelagerten Trainingsdaten auf Few-Shot beschränkt sind. Ein größerer Datensatz (MIMIC-3M) verbessert die Leistung signifikant, was vielversprechend ist, da unsere Methode zur Datensatzerstellung beliebig skaliert werden kann, um noch größere Datensätze zu erzeugen. Der MIMIC-Code, die Datensätze und die vortrainierten Modelle sind unter https://github.com/RAIVNLab/MIMIC öffentlich zugänglich.
In-Context-Learning (ICL) verbessert die Leistung von Sprachmodellen bei einer Vielzahl von NLP-Aufgaben, indem einfach einige Beispiele zur Inferenzzeit demonstriert werden. Es ist nicht gut verstanden, warum die Fähigkeit zu ICL entsteht, da das Modell nie speziell auf solche Demonstrationen trainiert wurde. Im Gegensatz zu früheren Arbeiten, die implizite Mechanismen hinter ICL untersuchen, studieren wir ICL durch die Analyse der Vortrainingsdaten. Konkret passen wir zunächst einen iterativen, gradientenbasierten Ansatz an, um eine kleine Teilmenge der Vortrainingsdaten zu finden, die ICL unterstützt. Wir beobachten, dass ein fortgesetztes Vortraining auf dieser kleinen Teilmenge die ICL-Fähigkeit des Modells signifikant verbessert, und zwar um bis zu 18 %. Anschließend vergleichen wir die unterstützende Teilmenge kontrastiv mit zufälligen Teilmengen der Vortrainingsdaten und entdecken: (1) Die ICL-unterstützenden Vortrainingsdaten weisen keine höhere Domänenrelevanz zu den Downstream-Aufgaben auf. (2) Die ICL-unterstützenden Vortrainingsdaten enthalten eine höhere Anzahl von selten auftretenden, langschwänzigen Tokens. (3) Die ICL-unterstützenden Vortrainingsdaten sind herausfordernde Beispiele, bei denen der Informationsgewinn aus langreichweitigem Kontext unterdurchschnittlich ist, was darauf hindeutet, dass das Lernen, schwierigen langreichweitigen Kontext zu integrieren, ICL fördert. Unsere Arbeit unternimmt einen ersten Schritt zum Verständnis von ICL durch die Analyse von instanzbasierten Vortrainingsdaten. Unsere Erkenntnisse haben das Potenzial, die ICL-Fähigkeit von Sprachmodellen zu verbessern, indem sie zukünftig die Konstruktion von Vortrainingsdaten aktiv lenken.
Große Sprachmodelle werden nun darauf abgestimmt, sich an den Zielen ihrer Entwickler auszurichten, nämlich „hilfreich und harmlos“ zu sein. Diese Modelle sollten hilfreiche Antworten auf Benutzerfragen geben, aber Anfragen, die Schaden verursachen könnten, ablehnen. Allerdings können adversarische Benutzer Eingaben konstruieren, die Versuche der Ausrichtung umgehen. In dieser Arbeit untersuchen wir, inwieweit diese Modelle auch bei der Interaktion mit einem adversarischen Benutzer, der worst-case-Eingaben (adversarische Beispiele) konstruiert, ausgerichtet bleiben. Diese Eingaben sind darauf ausgelegt, das Modell dazu zu bringen, schädliche Inhalte zu erzeugen, die ansonsten verboten wären. Wir zeigen, dass bestehende NLP-basierte Optimierungsangriffe nicht ausreichend mächtig sind, um ausgerichtete Textmodelle zuverlässig anzugreifen: Selbst wenn aktuelle NLP-basierte Angriffe scheitern, können wir mit Brute-Force adversarische Eingaben finden. Daher sollte das Scheitern aktueller Angriffe nicht als Beweis dafür angesehen werden, dass ausgerichtete Textmodelle unter adversarischen Eingaben ausgerichtet bleiben. Der aktuelle Trend bei großskaligen ML-Modellen geht jedoch hin zu multimodalen Modellen, die es Benutzern ermöglichen, Bilder bereitzustellen, die den generierten Text beeinflussen. Wir zeigen, dass diese Modelle leicht angegriffen werden können, d.h., sie können durch adversarische Störungen des Eingabebildes dazu gebracht werden, beliebiges nicht-ausgerichtetes Verhalten zu zeigen. Wir vermuten, dass verbesserte NLP-Angriffe ein ähnliches Maß an adversarischer Kontrolle über textbasierte Modelle demonstrieren könnten.
Wir untersuchen, wie Transformer-Modelle mit zwei Herausforderungen umgehen: dem Erlernen grundlegender Ganzzahlarithmetik und der Generalisierung auf längere Sequenzen als diejenigen, die während des Trainings gesehen wurden. Wir stellen fest, dass relative Positions-Embeddings eine Längengeneralisierung für einfache Aufgaben wie die Addition ermöglichen: Modelle, die auf 5-stelligen Zahlen trainiert wurden, können 15-stellige Summen berechnen. Diese Methode versagt jedoch bei der Multiplikation, und wir schlagen das sogenannte Trainingsset-Priming vor: das Hinzufügen einiger (10 bis 50) langer Sequenzen zum Trainingsset. Wir zeigen, dass Priming es Modellen, die auf 5-stellige mal 3-stellige Multiplikationen trainiert wurden, ermöglicht, auf 35-stellige mal 3-stellige Beispiele zu generalisieren. Außerdem zeigen wir, dass Modelle für unterschiedliche Generalisierungslängen geprimt werden können und dass die Größe der Priming-Stichprobe logarithmisch mit der Größe des Trainingssets skaliert. Schließlich diskutieren wir potenzielle Anwendungen von Priming über die Arithmetik hinaus.