Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Jamba, ein neues Basis-Großsprachmodell, das auf einer neuartigen Hybrid-Transformer-Mamba-Mischung-von-Experten (MoE)-Architektur basiert. Speziell verwebt Jamba Blöcke von Transformer- und Mamba-Schichten, um die Vorteile beider Modellfamilien zu nutzen. MoE wird in einigen dieser Schichten hinzugefügt, um die Modellkapazität zu erhöhen, während die aktive Parameterverwendung überschaubar bleibt. Diese flexible Architektur ermöglicht ressourcen- und zielabhängige Konfigurationen. In der spezifischen Konfiguration, die wir implementiert haben, erhalten wir ein leistungsstarkes Modell, das auf einer einzigen 80-GB-GPU Platz findet. Im großen Maßstab gebaut, bietet Jamba im Vergleich zu reinen Transformern eine hohe Durchsatzleistung und einen geringen Speicherbedarf sowie gleichzeitig eine erstklassige Leistung bei Standard-Sprachmodell-Benchmarks und Langkontext-Evaluationen. Bemerkenswerterweise liefert das Modell starke Ergebnisse für Kontextlängen von bis zu 256.000 Tokens. Wir untersuchen verschiedene architektonische Entscheidungen, wie die Kombination von Transformer- und Mamba-Schichten und die Vermischung von Experten, und zeigen, dass einige davon für das Modellieren im großen Maßstab entscheidend sind. Wir beschreiben auch mehrere interessante Eigenschaften dieser Architekturen, die das Training und die Evaluation von Jamba aufgedeckt haben, und planen, Checkpoints aus verschiedenen Ablaufläufen zu veröffentlichen, um die weitere Erforschung dieser neuartigen Architektur zu fördern. Die Gewichte unserer Implementierung von Jamba stellen wir öffentlich unter einer freizügigen Lizenz zur Verfügung.
Wir präsentieren Gecko, ein kompaktes und vielseitiges Texteinbettungsmodell. Gecko erzielt eine starke Abrufleistung, indem es eine Schlüsselidee nutzt: das Destillieren von Wissen aus großen Sprachmodellen (LLMs) in einen Abruf. Unser zweistufiger Destillationsprozess beginnt mit der Erzeugung vielfältiger, synthetischer gepaarter Daten unter Verwendung eines LLMs. Anschließend verfeinern wir die Datenqualität weiter, indem wir für jede Abfrage eine Reihe von Kandidatenpassagen abrufen und die positiven und schwierigen negativen Passagen mit demselben LLM neu kennzeichnen. Die Wirksamkeit unseres Ansatzes wird durch die Kompaktheit des Gecko demonstriert. Auf dem Massive Text Embedding Benchmark (MTEB) übertrifft Gecko mit 256 Einbettungsdimensionen alle bestehenden Einträge mit 768 Einbettungsgröße. Gecko mit 768 Einbettungsdimensionen erreicht einen durchschnittlichen Score von 66,31 und konkurriert mit 7-mal größeren Modellen und 5-mal höherdimensionalen Einbettungen.
Das Large Language Model (LLM) wird weit verbreitet für Aufgaben wie intelligente Assistenten, Textzusammenfassung, Übersetzung und Multimodalität auf Mobiltelefonen eingesetzt. Allerdings weisen die aktuellen Methoden für die Bereitstellung von LLM auf Geräten eine langsame Inferenzgeschwindigkeit auf, was zu einer schlechten Benutzererfahrung führt. Um eine hocheffiziente Bereitstellung von LLM auf Geräte-GPUs zu ermöglichen, schlagen wir vier Optimierungstechniken vor: (a) einen auf symbolischen Ausdrücken basierenden Ansatz zur Unterstützung der Inferenz von Modellen mit dynamischer Form; (b) Optimierungen von Operatoren und Einstellung der Ausführungspriorität zur Verbesserung der Inferenzgeschwindigkeit und Reduzierung von Verzögerungen auf dem Telefon; (c) eine FP4-Quantisierungsmethode namens M0E4 zur Reduzierung des Overheads für die Dezimalquantisierung; (d) eine auf Subtensoren basierende Technik, um die Notwendigkeit des Kopierens des KV-Caches nach der LLM-Inferenz zu beseitigen. Darüber hinaus implementieren wir diese Methoden in unserem mobilen Inferenzmotor, Transformer-Lite, der mit Prozessoren von Qualcomm und MTK kompatibel ist. Wir haben die Leistung von Transformer-Lite anhand von LLMs mit unterschiedlichen Architekturen und Parametern von 2B bis 14B bewertet. Insbesondere haben wir Vorabfüll- und Decodierungsgeschwindigkeiten von 121 Token/s bzw. 14 Token/s für ChatGLM2 6B und 330 Token/s bzw. 30 Token/s für das kleinere Gemma 2B erreicht. Im Vergleich zu CPU-basierten FastLLM und GPU-basierten MLC-LLM erreicht unser Motor eine über 10-fache Beschleunigung für die Vorabfüllgeschwindigkeit und eine 2- bis 3-fache Beschleunigung für die Decodierungsgeschwindigkeit.
Die Referenzauflösung ist ein wichtiges Problem, das entscheidend ist, um den Kontext unterschiedlicher Art zu verstehen und erfolgreich zu handhaben. Dieser Kontext umfasst sowohl vorherige Äußerungen als auch Kontext, der sich auf nicht-konversationelle Entitäten bezieht, wie Entitäten auf dem Bildschirm des Benutzers oder solche, die im Hintergrund ausgeführt werden. Obwohl LLMs sich als äußerst leistungsfähig für eine Vielzahl von Aufgaben erwiesen haben, bleibt ihr Einsatz bei der Referenzauflösung, insbesondere für nicht-konversationelle Entitäten, untergenutzt. Diese Arbeit zeigt, wie LLMs verwendet werden können, um ein äußerst effektives System zur Auflösung von Referenzen verschiedener Arten zu erstellen, indem gezeigt wird, wie die Referenzauflösung in ein Sprachmodellierungsproblem umgewandelt werden kann, obwohl sie Formen von Entitäten beinhaltet, wie die auf dem Bildschirm, die traditionell nicht darauf ausgelegt sind, auf eine rein textbasierte Modalität reduziert zu werden. Wir zeigen signifikante Verbesserungen gegenüber einem bestehenden System mit ähnlicher Funktionalität bei verschiedenen Arten von Referenzen auf, wobei unser kleinstes Modell absolute Gewinne von über 5% für Bildschirmreferenzen erzielt. Wir führen auch einen Benchmark gegen GPT-3.5 und GPT-4 durch, wobei unser kleinstes Modell eine Leistung erzielt, die mit der von GPT-4 vergleichbar ist, und unsere größeren Modelle es deutlich übertreffen.
Obwohl die neuartige Ansichtssynthese (NVS) in der 3D-Computer vision erhebliche Fortschritte gemacht hat, erfordert sie in der Regel eine anfängliche Schätzung der Kamera-Intrinsik und -Extrinsik aus dichten Blickwinkeln. Diese Vorverarbeitung wird in der Regel über eine Struktur-aus-Bewegung (SfM) Pipeline durchgeführt, ein Verfahren, das insbesondere in Szenarien mit spärlichen Ansichten und unzureichend übereinstimmenden Merkmalen für eine genaue Rekonstruktion langsam und unzuverlässig sein kann. In dieser Arbeit integrieren wir die Stärken punktbasierter Darstellungen (z. B. 3D-Gauß-Splatting, 3D-GS) mit end-to-end dichten Stereo-Modellen (DUSt3R), um die komplexen und noch ungelösten Probleme in der NVS unter unbeschränkten Einstellungen anzugehen, die pose-freie und spärliche Ansichts-Herausforderungen umfassen. Unser Rahmenwerk, InstantSplat, vereint dichte Stereo-Prioritäten mit 3D-GS, um 3D-Gaußscheiben von großflächigen Szenen aus spärlichen und pose-freien Bildern in weniger als 1 Minute zu erstellen. Insbesondere besteht InstantSplat aus einem Modul für grobe geometrische Initialisierung (CGI), das schnell eine vorläufige Szenenstruktur und Kameraparameter über alle Trainingsansichten hinweg festlegt, indem global ausgerichtete 3D-Punktkarten aus einer vorab trainierten dichten Stereo-Pipeline abgeleitet werden. Dies wird durch das Modul für schnelle 3D-Gauß-Optimierung (F-3DGO) fortgesetzt, das die 3D-Gauß-Merkmale und die initialisierten Posen gemeinsam mit Posenregularisierung optimiert. Experimente, die an den großflächigen Außengelände-Tanks & Tempel-Datensätzen durchgeführt wurden, zeigen, dass InstantSplat die SSIM signifikant verbessert (um 32%), während gleichzeitig der absolute Bahnfehler (ATE) um 80% reduziert wird. Diese Ergebnisse etablieren InstantSplat als eine praktikable Lösung für Szenarien mit posefreien und spärlichen Ansichtsbedingungen. Projektpage: instantsplat.github.io.
Dieses Paper stellt eine neuartige und bedeutende Herausforderung für Vision Language Models (VLMs) vor, die als Unsolvable Problem Detection (UPD) bezeichnet wird. UPD untersucht die Fähigkeit des VLM, Antworten zurückzuhalten, wenn es mit unlösbaren Problemen im Kontext von Visual Question Answering (VQA)-Aufgaben konfrontiert wird. UPD umfasst drei verschiedene Szenarien: Absent Answer Detection (AAD), Incompatible Answer Set Detection (IASD) und Incompatible Visual Question Detection (IVQD). Um das UPD-Problem eingehend zu untersuchen, zeigen umfangreiche Experimente, dass die meisten VLMs, einschließlich GPT-4V und LLaVA-Next-34B, in unterschiedlichem Maße mit unseren Benchmarks zu kämpfen haben, was erheblichen Raum für Verbesserungen aufzeigt. Um UPD anzugehen, erforschen wir sowohl trainingsfreie als auch trainingsbasierte Lösungen und bieten neue Einblicke in ihre Wirksamkeit und Grenzen. Wir hoffen, dass unsere Erkenntnisse zusammen mit zukünftigen Bemühungen innerhalb der vorgeschlagenen UPD-Szenarien das breitere Verständnis und die Entwicklung praktischerer und zuverlässigerer VLMs verbessern werden.
Können wir die Gewichte und Mechanismen, die von einem Sprachmodell verwendet werden, um ganze Absätze seiner Trainingsdaten auswendig zu lernen und wiederzugeben, lokalisieren? In diesem Paper zeigen wir, dass die Auswendiglernvorgänge über mehrere Schichten und Modellkomponenten verteilt sind, wobei die Gradienten der auswendig gelernten Absätze ein erkennbares räumliches Muster aufweisen, da sie in unteren Modellschichten größer sind als die Gradienten der nicht auswendig gelernten Beispiele. Darüber hinaus können die auswendig gelernten Beispiele durch Feinabstimmung nur der Gewichte mit hohen Gradienten verlernt werden. Wir lokalisieren einen Aufmerksamkeitskopf in einer niedrigen Schicht, der anscheinend besonders am Auswendiglernen von Absätzen beteiligt ist. Dieser Kopf konzentriert seine Aufmerksamkeit hauptsächlich auf charakteristische, seltene Token, die in einer unigrammweiten Verteilung im Korpus am seltensten vorkommen. Als nächstes untersuchen wir, wie die lokalisierte Auswendiglernung über die Token im Präfix verteilt ist, indem wir die Token verändern und die dadurch verursachte Änderung beim Decodieren messen. Einige charakteristische Token am Anfang eines Präfixes können oft die gesamte Fortsetzung verderben. Insgesamt sind auswendig gelernte Fortsetzungen nicht nur schwerer zu verlernen, sondern auch schwerer zu verderben als nicht auswendig gelernte.
In einem Versuch, die Rechenlast von Transformatoren zu reduzieren, hat die Forschung zu linearer Aufmerksamkeit deutlichen Auftrieb erhalten. Die Verbesserungsstrategien für Aufmerksamkeitsmechanismen erfordern in der Regel jedoch umfangreiches erneutes Training, was für große Sprachmodelle mit einer Vielzahl von Parametern unpraktisch ist. In diesem Papier präsentieren wir DiJiang, einen neuartigen Ansatz zur Frequenzbereichs-Kernelisierung, der die Umwandlung eines vorab trainierten Standard-Transformators in ein Modell mit linearer Komplexität mit geringen Trainingskosten ermöglicht. Durch die Verwendung einer gewichteten Quasi-Monte-Carlo-Methode für die Stichprobenahme bietet der vorgeschlagene Ansatz theoretisch eine überlegene Approximationseffizienz. Um die Trainingsrechenkomplexität weiter zu reduzieren, basiert unsere Kernelisierung auf Diskreten Cosinus-Transformations (DCT)-Operationen. Umfangreiche Experimente zeigen, dass die vorgeschlagene Methode vergleichbare Leistungen wie der originale Transformer erzielt, jedoch mit deutlich reduzierten Trainingskosten und wesentlich schnelleren Inferenzgeschwindigkeiten. Unser DiJiang-7B erreicht vergleichbare Leistungen wie LLaMA2-7B auf verschiedenen Benchmark-Tests, erfordert jedoch nur etwa 1/50 der Trainingskosten. Der Code ist unter https://github.com/YuchuanTian/DiJiang verfügbar.
In den letzten Fortschritten im Bereich des Deep Learning wurde hauptsächlich auf Transformer zurückgegriffen, aufgrund ihrer Datenabhängigkeit und ihrer Fähigkeit, im großen Maßstab zu lernen. Das Aufmerksamkeitsmodul in diesen Architekturen zeigt jedoch eine quadratische Zeit- und Speichernutzung in Bezug auf die Eingabegröße, was ihre Skalierbarkeit für das Modellieren von langen Sequenzen einschränkt. Trotz jüngster Versuche, eine effiziente und effektive Architekturgrundlage für multidimensionale Daten wie Bilder und multivariate Zeitreihen zu entwerfen, sind bestehende Modelle entweder datenunabhängig oder versagen darin, eine Kommunikation zwischen und innerhalb der Dimensionen zu ermöglichen. In letzter Zeit haben State Space Models (SSMs) und speziell Selektive State Space Models mit einer effizienten, hardwarebewussten Implementierung vielversprechendes Potenzial für das Modellieren langer Sequenzen gezeigt. Inspiriert vom Erfolg der SSMs präsentieren wir MambaMixer, eine neue Architektur mit datenabhängigen Gewichten, die einen dualen Auswahlmechanismus über Tokens und Kanäle verwendet, genannt Selektiver Token- und Kanalmixer. MambaMixer verbindet selektive Mixer mittels eines gewichteten Mittelungsmechanismus, der es Schichten ermöglicht, direkten Zugriff auf frühe Merkmale zu haben. Als Machbarkeitsnachweis entwerfen wir Vision MambaMixer (ViM2) und Time Series MambaMixer (TSM2) Architekturen auf Basis des MambaMixer-Blocks und untersuchen ihre Leistung in verschiedenen Vision- und Zeitreihenprognoseaufgaben. Unsere Ergebnisse unterstreichen die Bedeutung des selektiven Mischens über Tokens und Kanäle hinweg. Bei der ImageNet-Klassifikation, der Objekterkennung und der semantischen Segmentierung erzielt ViM2 eine wettbewerbsfähige Leistung im Vergleich zu etablierten Vision-Modellen und übertrifft SSM-basierte Vision-Modelle. Bei der Zeitreihenprognose erreicht TSM2 eine herausragende Leistung im Vergleich zu modernsten Methoden und zeigt dabei eine signifikant verbesserte Rechenleistung. Diese Ergebnisse zeigen, dass während Transformer, Cross-Channel-Aufmerksamkeit und MLPs für eine gute Leistung bei der Zeitreihenprognose ausreichen, keines davon notwendig ist.
Berührung und Sehen gehen Hand in Hand und verbessern gegenseitig unsere Fähigkeit, die Welt zu verstehen. Aus einer Forschungsperspektive ist das Problem der Kombination von Berührung und Sehen untererforscht und stellt interessante Herausforderungen dar. Zu diesem Zweck schlagen wir Tactile-Informed 3DGS vor, einen neuartigen Ansatz, der Berührungsdaten (lokale Tiefenkarten) mit Multi-View-Visionsdaten kombiniert, um Oberflächenrekonstruktion und Synthese neuer Ansichten zu erreichen. Unsere Methode optimiert 3D-Gauß-Primitive, um die Geometrie des Objekts an Berührungspunkten genau zu modellieren. Durch die Schaffung eines Rahmens, der die Transmittanz an Berührungsorten verringert, erreichen wir eine verfeinerte Oberflächenrekonstruktion und gewährleisten eine gleichmäßig glatte Tiefenkarte. Berührung ist besonders nützlich bei der Betrachtung von nicht-lambert'schen Objekten (z. B. glänzende oder reflektierende Oberflächen), da zeitgenössische Methoden dazu neigen, spektrale Highlights nicht genau zu rekonstruieren. Durch die Kombination von Seh- und taktilem Sensorik erreichen wir genauere Geometrierekonstruktionen mit weniger Bildern als bisherige Methoden. Wir evaluieren Objekte mit glänzenden und reflektierenden Oberflächen und zeigen die Wirksamkeit unseres Ansatzes auf, indem wir signifikante Verbesserungen in der Rekonstruktionsqualität bieten.