Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren LayerSkip, eine End-to-End-Lösung zur Beschleunigung der Inferenz großer Sprachmodelle (LLMs). Während des Trainings wenden wir zunächst Layer-Dropout an, mit niedrigen Dropout-Raten für frühere Schichten und höheren Dropout-Raten für spätere Schichten, sowie einen Early-Exit-Verlust, bei dem alle Transformer-Schichten denselben Exit teilen. Zweitens zeigen wir während der Inferenz, dass dieses Trainingsrezept die Genauigkeit des Early-Exits in früheren Schichten erhöht, ohne dem Modell zusätzliche Schichten oder Module hinzuzufügen. Drittens präsentieren wir eine neuartige selbstspekulative Decodierungslösung, bei der wir in frühen Schichten aussteigen und mit den verbleibenden Schichten des Modells überprüfen und korrigieren. Unser vorgeschlagener selbstspekulativer Decodierungsansatz hat einen geringeren Speicherbedarf als andere spekulative Decodierungsansätze und profitiert von gemeinsam genutzten Berechnungen und Aktivierungen der Entwurfs- und Verifikationsphasen. Wir führen Experimente mit verschiedenen Llama-Modellgrößen und verschiedenen Arten des Trainings durch: Pretraining von Grund auf, kontinuierliches Pretraining, Feinabstimmung auf spezifische Datendomänen und Feinabstimmung auf spezifische Aufgaben. Wir implementieren unsere Inferenzlösung und zeigen Beschleunigungen von bis zu 2,16-fach bei der Zusammenfassung von CNN/DM-Dokumenten, 1,82-fach beim Codieren und 2,0-fach bei der TOPv2-semantischen Parsing-Aufgabe. Wir stellen unseren Code und Checkpoints unter https://github.com/facebookresearch/LayerSkip als Open Source zur Verfügung.
In diesem Bericht stellen wir InternVL 1.5 vor, ein Open-Source multimodales großes Sprachmodell (MLLM), das die Lücke zwischen Open-Source- und proprietären kommerziellen Modellen im multimodalen Verständnis überbrückt. Wir führen drei einfache Verbesserungen ein: (1) Starke Vision-Encoder: Wir haben eine kontinuierliche Lernstrategie für das groß angelegte Vision-Grundlagenmodell - InternViT-6B - erforscht, um seine visuellen Verständnisfähigkeiten zu steigern und es in verschiedenen LLMs übertragbar und wiederverwendbar zu machen. (2) Dynamische Hochauflösung: Wir unterteilen Bilder in Kacheln von 1 bis 40 mit 448x448 Pixeln je nach Seitenverhältnis und Auflösung der Eingabebilder, was Eingaben mit bis zu 4K-Auflösung unterstützt. (3) Hochwertiger zweisprachiger Datensatz: Wir haben sorgfältig einen hochwertigen zweisprachigen Datensatz gesammelt, der gängige Szenen und Dokumentenbilder abdeckt und sie mit englischen und chinesischen Frage-Antwort-Paaren annotiert, wodurch die Leistung bei OCR- und chinesischbezogenen Aufgaben signifikant verbessert wird. Wir evaluieren InternVL 1.5 anhand einer Reihe von Benchmarks und Vergleichsstudien. Im Vergleich zu sowohl Open-Source- als auch proprietären Modellen zeigt InternVL 1.5 eine wettbewerbsfähige Leistung und erzielt in 8 von 18 Benchmarks Ergebnisse auf dem neuesten Stand der Technik. Der Code wurde unter https://github.com/OpenGVLab/InternVL veröffentlicht.
Obwohl viele zeitgenössische große Sprachmodelle (LLMs) längere Eingaben verarbeiten können, haben sie immer noch Schwierigkeiten, Informationen innerhalb des langen Kontexts vollständig zu nutzen, was als das "lost-in-the-middle"-Problem bekannt ist. Wir vermuten, dass dies auf unzureichende explizite Überwachung während des Trainings mit langem Kontext zurückzuführen ist, was es versäumt zu betonen, dass jede Position in einem langen Kontext wichtige Informationen enthalten kann. Basierend auf dieser Intuition präsentiert unsere Studie das informationsintensive (IN2) Training, eine rein datengetriebene Lösung zur Überwindung des "lost-in-the-middle"-Problems. Speziell nutzt das IN2-Training einen synthetisierten Frage-Antwort-Datensatz mit langem Kontext, bei dem die Antwort (1) ein feingranulares Informationsbewusstsein über ein kurzes Segment (~128 Tokens) innerhalb eines synthetisierten langen Kontexts (4K-32K Tokens) erfordert und (2) die Integration und Schlussfolgerung von Informationen aus zwei oder mehr kurzen Segmenten. Durch die Anwendung dieses informationsintensiven Trainings auf Mistral-7B präsentieren wir FILM-7B (FILl-in-the-Middle). Um die Fähigkeit von FILM-7B zur Nutzung langer Kontexte gründlich zu bewerten, entwerfen wir drei Untersuchungsaufgaben, die verschiedene Kontextstile (Dokument, Code und strukturierte Datenkontexte) und Informationsabrufmuster (vorwärts, rückwärts und bidirektionaler Abruf) umfassen. Die Untersuchungsergebnisse zeigen, dass FILM-7B robust Informationen aus verschiedenen Positionen in seinem 32K-Kontextfenster abrufen kann. Über diese Untersuchungsaufgaben hinaus verbessert FILM-7B signifikant die Leistung bei realen langen Kontextaufgaben (z. B. 23,5 -> 26,9 F1-Score bei NarrativeQA), während es eine vergleichbare Leistung bei kurzen Kontextaufgaben beibehält (z. B. 59,3 -> 59,2 Genauigkeit bei MMLU). Github-Link: https://github.com/microsoft/FILM.
Die Generierung von 3D-Objekten hat signifikante Fortschritte gemacht und liefert hochwertige Ergebnisse. Allerdings fehlt es oft an präziser Benutzerkontrolle, was häufig zu Ergebnissen führt, die nicht den Erwartungen der Benutzer entsprechen und somit ihre Anwendbarkeit einschränken. Die benutzerorientierte Generierung von 3D-Objekten steht vor erheblichen Herausforderungen bei der Umsetzung ihrer Konzepte mithilfe aktueller generativer Modelle aufgrund begrenzter Interaktionsmöglichkeiten. Bestehende Methoden bieten hauptsächlich zwei Ansätze: (i) die Interpretation von Textanweisungen mit eingeschränkter Steuerbarkeit oder (ii) die Rekonstruktion von 3D-Objekten aus 2D-Bildern. Beide Ansätze beschränken die Anpassungsmöglichkeiten auf die Grenzen des 2D-Bezugs und können während des 3D-Umwandlungsprozesses unerwünschte Artefakte einführen, was den Spielraum für direkte und vielseitige 3D-Modifikationen einschränkt. In dieser Arbeit stellen wir Interactive3D vor, ein innovatives Framework für interaktive 3D-Generierung, das Benutzern präzise Kontrolle über den Generierungsprozess durch umfangreiche 3D-Interaktionsmöglichkeiten gewährt. Interactive3D ist in zwei aufeinanderfolgenden Stufen aufgebaut, die unterschiedliche 3D-Repräsentationen nutzen. Die erste Stufe verwendet Gaussian Splatting für direkte Benutzerinteraktion, was Modifikationen und die Steuerung der Generierungsrichtung in jedem Zwischenschritt durch (i) Hinzufügen und Entfernen von Komponenten, (ii) Verformbares und Starres Ziehen, (iii) Geometrische Transformationen und (iv) Semantisches Bearbeiten ermöglicht. Anschließend werden die Gaussian Splatting in InstantNGP umgewandelt. Wir stellen ein neuartiges (v) Interaktives Hash-Verfeinerungsmodul vor, um im zweiten Schritt weitere Details hinzuzufügen und die Geometrie zu extrahieren. Unsere Experimente zeigen, dass Interactive3D die Steuerbarkeit und Qualität der 3D-Generierung deutlich verbessert. Unsere Projektwebseite ist unter https://interactive-3d.github.io/ verfügbar.
Diffusionsbasierte Technologien haben bedeutende Fortschritte gemacht, insbesondere bei der personalisierten und maßgeschneiderten Gesichtserzeugung. Allerdings sehen sich bestehende Methoden mit Herausforderungen konfrontiert, um eine hohe Treue und detaillierte Identitätskonsistenz zu erreichen, hauptsächlich aufgrund unzureichender feinkörniger Kontrolle über Gesichtsbereiche und dem Fehlen einer umfassenden Strategie zur Identitätserhaltung, die die komplexen Gesichtsdetails und das Gesicht insgesamt vollständig berücksichtigt. Um diese Einschränkungen zu bewältigen, stellen wir ConsistentID vor, eine innovative Methode, die für die Erzeugung von Porträts mit vielfältiger Identitätserhaltung unter feinkörnigen multimodalen Gesichtsanreizen entwickelt wurde und nur ein einzelnes Referenzbild verwendet. ConsistentID besteht aus zwei Schlüsselkomponenten: einem multimodalen Gesichtsanreizgenerator, der Gesichtsmerkmale, entsprechende Gesichtsbeschreibungen und den Gesamtkontext des Gesichts kombiniert, um die Präzision bei Gesichtsdetails zu verbessern, und einem Identitätserhaltungsnetzwerk, das durch die Strategie der Gesichtsaufmerksamkeitslokalisation optimiert ist und darauf abzielt, die Identitätskonsistenz in Gesichtsregionen zu bewahren. Zusammen verbessern diese Komponenten signifikant die Genauigkeit der Identitätserhaltung, indem sie feinkörnige multimodale Identitätsinformationen aus Gesichtsregionen einführen. Um das Training von ConsistentID zu erleichtern, präsentieren wir ein feinkörniges Porträt-Datenset, FGID, mit über 500.000 Gesichtsbildern, das eine größere Vielfalt und Vollständigkeit als vorhandene öffentliche Gesichtsdatensets bietet, wie z.B. LAION-Face, CelebA, FFHQ und SFHQ. Experimentelle Ergebnisse belegen, dass unser ConsistentID eine außergewöhnliche Präzision und Vielfalt bei der personalisierten Gesichtserzeugung erreicht und bestehende Methoden im MyStyle-Datenset übertrifft. Darüber hinaus, während ConsistentID mehr multimodale Identitätsinformationen einführt, behält es eine schnelle Inferenzgeschwindigkeit während der Erzeugung bei.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Sprachverarbeitung und -generierung gezeigt, was eine Vielzahl von Anwendungen ermöglicht. Es besteht jedoch ein deutlicher Mangel an detaillierten, quelloffenen Methoden zur effizienten Skalierung von LLMs über 50 Milliarden Parametern hinaus, mit minimalen Versuchs- und Rechenressourcen. In diesem Bericht stellen wir Tele-FLM (auch bekannt als FLM-2) vor, ein 52B quelloffenes, multilinguales großes Sprachmodell, das über ein stabiles, effizientes Vor-Trainingsschema und verbesserte faktische Beurteilungsfähigkeiten verfügt. Tele-FLM zeigt überlegene multilinguale Sprachmodellierungsfähigkeiten, gemessen an BPB auf Textkorpora. Darüber hinaus ist es sowohl in der Bewertung des englischen als auch des chinesischen Grundlagenmodells mit starken quelloffenen Modellen vergleichbar, die größere Vor-Training FLOPs beinhalten, wie z.B. Llama2-70B und DeepSeek-67B. Neben den Modellgewichten teilen wir die Kernkonzepte, technischen Praktiken und Trainingsdetails, von denen wir sowohl in der akademischen als auch in der industriellen Gemeinschaft einen Nutzen erwarten.
Die Set-of-Mark (SoM) Anregung entfesselt die visuelle Verankerungsfähigkeit von GPT-4V, indem das Modell befähigt wird, visuelle Objekte mit auf dem Bild eingefügten Tags zu verknüpfen. Diese mit alphanumerischen Zeichen markierten Tags können über Text-Token indiziert werden, um sie leicht zu referenzieren. Trotz der außergewöhnlichen Leistung von GPT-4V beobachten wir, dass andere Multimodale Große Sprachmodelle (MLLMs) Schwierigkeiten haben, diese visuellen Tags zu verstehen. Um das Lernen von SoM-Anregungen für Open-Source-Modelle zu fördern, schlagen wir ein neues Lernparadigma vor: "Listenelemente nacheinander", das das Modell auffordert, alle visuellen Tags auf dem Bild aufzulisten und zu beschreiben, indem die alphanumerische Reihenfolge der Tags befolgt wird. Durch die Integration unseres kuratierten Datensatzes mit anderen Datensätzen zur Feinabstimmung visueller Anweisungen können wir bestehende MLLMs mit der Fähigkeit zur SoM-Anregung ausstatten. Darüber hinaus bewerten wir unsere feinabgestimmten SoM-Modelle anhand von fünf MLLM-Benchmarks. Wir stellen fest, dass dieser neue Datensatz, selbst in relativ geringer Größe (10k-30k Bilder mit Tags), die visuellen Schlussfolgerungsfähigkeiten signifikant verbessert und Halluzinationen für MLLMs reduziert. Möglicherweise überraschend halten diese Verbesserungen auch an, wenn die visuellen Tags während der Inferenz aus den Eingabebildern ausgelassen werden. Dies deutet auf das Potenzial von "Listenelemente nacheinander" als neues Paradigma für das Training von MLLMs hin, das die Objekt-Text-Ausrichtung durch die Verwendung von visuellen Tags in der Trainingsphase stärkt. Schließlich führen wir Analysen durch, indem wir trainierte Modelle untersuchen, um den Arbeitsmechanismus von SoM zu verstehen. Unser Code und unsere Daten sind verfügbar unter https://github.com/zzxslp/SoM-LLaVA.
Obwohl textbasierte Bildgenerierungsmodelle (T2I) weit verbreitet sind, erzeugen sie nicht unbedingt Bilder, die mit einer bestimmten Vorgabe übereinstimmen. Frühere Arbeiten haben die Übereinstimmung von T2I anhand von Metriken, Benchmarks und Vorlagen zur Sammlung menschlicher Bewertungen bewertet, jedoch wird die Qualität dieser Komponenten nicht systematisch gemessen. Menschlich bewertete Vorgabesets sind in der Regel klein und die Zuverlässigkeit der Bewertungen – und somit des verwendeten Vorgabesets zur Vergleich von Modellen – wird nicht bewertet. Wir schließen diese Lücke, indem wir eine umfassende Studie durchführen, die Auto-Evaluierungsmetriken und menschliche Vorlagen bewertet. Wir leisten drei Hauptbeiträge: (1) Wir stellen einen umfassenden fähigkeitenbasierten Benchmark vor, der Modelle über verschiedene menschliche Vorlagen hinweg unterscheiden kann. Dieser fähigkeitenbasierte Benchmark kategorisiert Vorgaben in Teilaufgaben, was einem Praktiker ermöglicht, nicht nur herauszufinden, welche Fähigkeiten herausfordernd sind, sondern auf welchem Komplexitätsniveau eine Fähigkeit herausfordernd wird. (2) Wir sammeln menschliche Bewertungen über vier Vorlagen und vier T2I-Modelle für insgesamt >100K Annotationen. Dies ermöglicht es uns zu verstehen, wo Unterschiede aufgrund inhärenter Mehrdeutigkeiten in der Vorgabe entstehen und wo sie aufgrund von Unterschieden in Metrik- und Modellqualität entstehen. (3) Schließlich stellen wir eine neue QA-basierte Auto-Evaluierungsmetrik vor, die für unseren neuen Datensatz besser mit menschlichen Bewertungen korreliert als bestehende Metriken, über verschiedene menschliche Vorlagen hinweg und auf TIFA160.
Wir präsentieren NeRF-XL, eine methodische Methode zur Verteilung von Neural Radiance Fields (NeRFs) über mehrere GPUs, die somit das Training und Rendern von NeRFs mit einer beliebig großen Kapazität ermöglicht. Wir beginnen mit einer Überprüfung bestehender Multi-GPU-Ansätze, die große Szenen in mehrere unabhängig trainierte NeRFs aufteilen, und identifizieren mehrere grundlegende Probleme mit diesen Methoden, die Verbesserungen in der Rekonstruktionsqualität behindern, wenn zusätzliche Rechenressourcen (GPUs) beim Training verwendet werden. NeRF-XL behebt diese Probleme und ermöglicht das Training und Rendern von NeRFs mit einer beliebigen Anzahl von Parametern durch die Verwendung von mehr Hardware. Im Kern unserer Methode liegt eine neuartige Formulierung für verteiltes Training und Rendern, die mathematisch äquivalent zum klassischen Fall mit einer GPU ist und die Kommunikation zwischen den GPUs minimiert. Durch die Freischaltung von NeRFs mit beliebig großen Parameterzahlen ist unser Ansatz der erste, der die Skalierungsgesetze für NeRFs über mehrere GPUs aufzeigt, wobei Verbesserungen in der Rekonstruktionsqualität mit größeren Parameterzahlen und Geschwindigkeitsverbesserungen mit mehr GPUs gezeigt werden. Wir zeigen die Wirksamkeit von NeRF-XL an einer Vielzahl von Datensätzen, einschließlich des bisher größten Open-Source-Datensatzes, MatrixCity, der 258K Bilder eines 25km^2 großen Stadtgebiets umfasst.
Das Verstehen von textreichem visuellem Inhalt ist entscheidend für die praktische Anwendung von Multimodalen Großen Sprachmodellen (MLLMs), da textreiche Szenarien in der realen Welt allgegenwärtig sind, die durch umfangreiche Texte innerhalb von Bildern gekennzeichnet sind. In letzter Zeit hat das Aufkommen von MLLMs mit beeindruckender Vielseitigkeit die Messlatte für das, was wir von MLLMs erwarten können, angehoben. Ihre Kompetenz in textreichen Szenarien wurde jedoch bisher nicht umfassend und objektiv bewertet, da aktuelle MLLM-Benchmarks hauptsächlich auf die Bewertung der allgemeinen visuellen Verständnisfähigkeit abzielen. In dieser Arbeit stellen wir SEED-Bench-2-Plus vor, einen Benchmark, der speziell für die Bewertung des textreichen visuellen Verständnisses von MLLMs entwickelt wurde. Unser Benchmark umfasst 2,3K Multiple-Choice-Fragen mit präzisen menschlichen Annotationen, die drei große Kategorien abdecken: Diagramme, Karten und Webseiten, von denen jede ein breites Spektrum an textreichen Szenarien in der realen Welt abdeckt. Aufgrund ihrer inhärenten Komplexität und Vielfalt simulieren diese Kategorien effektiv textreiche Umgebungen in der realen Welt. Wir führen eine gründliche Evaluation durch, an der 34 prominente MLLMs beteiligt sind (einschließlich GPT-4V, Gemini-Pro-Vision und Claude-3-Opus), und betonen die aktuellen Einschränkungen von MLLMs im textreichen visuellen Verständnis. Wir hoffen, dass unsere Arbeit eine wertvolle Ergänzung zu bestehenden MLLM-Benchmarks darstellen kann, indem sie aufschlussreiche Beobachtungen liefert und weitere Forschung im Bereich des textreichen visuellen Verständnisses mit MLLMs anregt. Der Datensatz und der Evaluierungscode sind unter https://github.com/AILab-CVC/SEED-Bench abrufbar.