Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) sind zentral für die moderne natürliche Sprachverarbeitung und liefern außergewöhnliche Leistungen in verschiedenen Aufgaben. Ihre intensiven Rechen- und Speicheranforderungen stellen jedoch Herausforderungen dar, insbesondere für Geräte mit begrenzter DRAM-Kapazität. Dieses Papier befasst sich mit der Herausforderung, LLMs effizient auszuführen, die die verfügbare DRAM-Kapazität überschreiten, indem die Modellparameter im Flash-Speicher gespeichert, aber bei Bedarf in den DRAM geladen werden. Unsere Methode umfasst die Erstellung eines Inferenzkostenmodells, das mit dem Verhalten des Flash-Speichers harmonisiert und uns leitet, in zwei kritischen Bereichen zu optimieren: die Reduzierung des Datenvolumens, das vom Flash-Speicher übertragen wird, und das Lesen von Daten in größeren, zusammenhängenden Blöcken. Innerhalb dieses Flash-Speicher-informierten Rahmens führen wir zwei Haupttechniken ein. Erstens reduziert „Windowing“ strategisch den Datentransfer durch die Wiederverwendung zuvor aktivierter Neuronen, und zweitens erhöht „Row-Column Bundling“, das auf die sequenziellen Datenzugriffsstärken des Flash-Speichers zugeschnitten ist, die Größe der aus dem Flash-Speicher gelesenen Datenblöcke. Diese Methoden ermöglichen es gemeinsam, Modelle mit bis zu doppelter Größe des verfügbaren DRAMs auszuführen, mit einer 4-5-fachen und 20-25-fachen Steigerung der Inferenzgeschwindigkeit im Vergleich zu naiven Ladeansätzen auf CPU bzw. GPU. Unsere Integration von Sparsity-Bewusstsein, kontextadaptivem Laden und einem hardwareorientierten Design ebnet den Weg für eine effektive Inferenz von LLMs auf Geräten mit begrenztem Speicher.
Scalable Vector Graphics (SVGs) sind in modernen Bilddarstellungsanwendungen unverzichtbar geworden, da sie eine unbegrenzte Skalierbarkeit in der Auflösung, vielseitige Nutzbarkeit und Bearbeitungsmöglichkeiten bieten. SVGs sind besonders in den Bereichen Webentwicklung und Grafikdesign beliebt. Bisherige Ansätze zur SVG-Modellierung mit Deep Learning haben oft Schwierigkeiten, komplexe SVGs zu generieren, und beschränken sich auf einfachere, die umfangreiche Verarbeitung und Vereinfachung erfordern. Dieses Paper stellt StarVector vor, ein multimodales SVG-Generierungsmodell, das Code-Generierungs-Large-Language-Models (CodeLLMs) und Vision-Modelle effektiv integriert. Unser Ansatz nutzt einen CLIP-Bildencoder, um visuelle Repräsentationen aus pixelbasierten Bildern zu extrahieren, die dann über ein Adaptermodul in visuelle Tokens umgewandelt werden. Diese visuellen Tokens werden den SVG-Token-Embeddings vorangestellt, und die Sequenz wird vom StarCoder-Modell durch Next-Token-Prediction modelliert, wodurch effektiv die Ausrichtung der visuellen und Code-Tokens gelernt wird. Dies ermöglicht es StarVector, uneingeschränkte SVGs zu generieren, die Pixelbilder präzise darstellen. Um die Leistung von StarVector zu bewerten, präsentieren wir SVG-Bench, einen umfassenden Benchmark zur Bewertung von SVG-Methoden über mehrere Datensätze und relevante Metriken hinweg. Innerhalb dieses Benchmarks führen wir neuartige Datensätze ein, darunter SVG-Stack, einen groß angelegten Datensatz mit realen SVG-Beispielen, und verwenden ihn, um StarVector als großes Foundation-Modell für SVGs vorzutrainieren. Unsere Ergebnisse zeigen signifikante Verbesserungen in der visuellen Qualität und der Handhabung von Komplexität gegenüber aktuellen Methoden und markieren einen bemerkenswerten Fortschritt in der SVG-Generierungstechnologie. Code und Modelle: https://github.com/joanrod/star-vector
Die Rekonstruktion von 3D-Strukturen und Kameras aus 2D-Landmarken bildet das Fundament der gesamten Disziplin der Computer Vision. Traditionelle Methoden waren auf spezifische starre Objekte beschränkt, wie sie in Perspective-n-Point (PnP)-Problemen vorkommen, aber Deep Learning hat unsere Fähigkeit erweitert, eine breite Palette von Objektklassen (z. B. C3PDO und PAUL) mit Widerstandsfähigkeit gegenüber Rauschen, Verdeckungen und perspektivischen Verzerrungen zu rekonstruieren. All diese Techniken waren jedoch durch die grundlegende Notwendigkeit eingeschränkt, Korrespondenzen in den 3D-Trainingsdaten herzustellen – was ihre Anwendbarkeit erheblich auf Szenarien beschränkt, in denen eine Fülle von „korrespondierenden“ 3D-Daten vorhanden ist. Unser Ansatz nutzt die inhärente Permutationsäquivarianz von Transformern, um mit einer variierenden Anzahl von Punkten pro 3D-Dateninstanz umzugehen, Verdeckungen zu bewältigen und auf unbekannte Kategorien zu verallgemeinern. Wir demonstrieren state-of-the-art Leistungen in Benchmarks für 2D-3D-Rekonstruktionsaufgaben. Da unser Ansatz über eine so breite Klasse von Strukturen trainiert werden kann, bezeichnen wir ihn einfach als 3D Lifting Foundation Model (3D-LFM) – das erste Modell seiner Art.
Die Fähigkeit großer Sprachmodelle (LLMs), visuelle Eingaben zu verarbeiten, hat zu allgemeinen Vision-Systemen geführt, die verschiedene Vision-Sprache (VL)-Aufgaben durch Instruction Tuning vereinheitlichen. Aufgrund der enormen Vielfalt der Eingabe-Ausgabe-Formate im visuellen Bereich scheitern bestehende allgemeine Modelle jedoch daran, Segmentierung und Multi-Bild-Eingaben mit grobkörnigen Aufgaben in einem einzigen Framework zu integrieren. In dieser Arbeit stellen wir VistaLLM vor, ein leistungsstarkes visuelles System, das grob- und feinkörnige VL-Aufgaben für einzelne und mehrere Eingabebilder mit einem einheitlichen Framework bewältigt. VistaLLM nutzt einen anweisungsgesteuerten Bild-Tokenizer, der globale Einbettungen mithilfe von Aufgabenbeschreibungen filtert, um komprimierte und verfeinerte Merkmale aus zahlreichen Bildern zu extrahieren. Darüber hinaus verwendet VistaLLM eine gradientenbewusste adaptive Sampling-Technik, um binäre Segmentierungsmasken als Sequenzen darzustellen, was eine deutliche Verbesserung gegenüber dem bisher verwendeten gleichmäßigen Sampling darstellt. Um die gewünschte Fähigkeit von VistaLLM zu stärken, haben wir CoinIt kuratiert, einen umfassenden Coarse-to-Fine Instruction Tuning-Datensatz mit 6,8 Millionen Proben. Wir beheben auch den Mangel an Multi-Bild-Grounding-Datensätzen, indem wir eine neuartige Aufgabe einführen, AttCoSeg (Attribute-level Co-Segmentation), die die Fähigkeit des Modells zur Argumentation und Verankerung über mehrere Eingabebilder verbessert. Umfangreiche Experimente zu einer Vielzahl von V- und VL-Aufgaben demonstrieren die Wirksamkeit von VistaLLM, indem konsistente State-of-the-Art-Leistungen über starke Baselines in allen nachgelagerten Aufgaben erzielt werden. Unsere Projektseite finden Sie unter https://shramanpramanick.github.io/VistaLLM/.
Wir präsentieren HAAR, ein neues strangbasiertes generatives Modell für 3D-Frisuren. Konkret erzeugt HAAR basierend auf textuellen Eingaben 3D-Frisuren, die als produktionsreife Assets in modernen Computergrafik-Engines verwendet werden können. Aktuelle KI-basierte generative Modelle nutzen leistungsstarke 2D-Priors, um 3D-Inhalte in Form von Punktwolken, Netzen oder volumetrischen Funktionen zu rekonstruieren. Durch die Verwendung dieser 2D-Priors sind sie jedoch intrinsisch darauf beschränkt, nur die sichtbaren Teile wiederherzustellen. Stark verdeckte Haarstrukturen können mit diesen Methoden nicht rekonstruiert werden, und sie modellieren lediglich die „äußere Hülle“, die nicht für physikbasierte Rendering- oder Simulationspipelines geeignet ist. Im Gegensatz dazu schlagen wir eine erste textgesteuerte generative Methode vor, die 3D-Haarstränge als zugrunde liegende Repräsentation verwendet. Mithilfe von 2D-Visual-Question-Answering (VQA)-Systemen annotieren wir automatisch synthetische Haarmodelle, die aus einer kleinen Menge von künstlerisch erstellten Frisuren generiert werden. Dies ermöglicht es uns, ein latentes Diffusionsmodell zu trainieren, das in einem gemeinsamen Frisuren-UV-Raum operiert. In qualitativen und quantitativen Studien demonstrieren wir die Fähigkeiten des vorgeschlagenen Modells und vergleichen es mit bestehenden Ansätzen zur Frisurgenerierung.
Amodale Wahrnehmung, die Fähigkeit, vollständige Objektstrukturen aus teilweiser Sichtbarkeit zu erfassen, ist eine grundlegende Fertigkeit, selbst für Säuglinge. Ihre Bedeutung erstreckt sich auf Anwendungen wie das autonome Fahren, wo ein klares Verständnis stark verdeckter Objekte entscheidend ist. Moderne Erkennungs- und Tracking-Algorithmen übersehen jedoch oft diese kritische Fähigkeit, möglicherweise aufgrund der Verbreitung modaler Annotationen in den meisten Datensätzen. Um den Mangel an amodalen Daten zu beheben, führen wir den TAO-Amodal-Benchmark ein, der 880 verschiedene Kategorien in Tausenden von Videosequenzen umfasst. Unser Datensatz enthält amodale und modale Begrenzungsrahmen für sichtbare und verdeckte Objekte, einschließlich Objekte, die teilweise außerhalb des Bildes liegen. Um das amodale Tracking mit Objektpermanenz zu verbessern, nutzen wir ein leichtgewichtiges Plug-in-Modul, den amodalen Expander, um standardmäßige modale Tracker durch Feinabstimmung auf einigen hundert Videosequenzen mit Datenanreicherung in amodale Tracker zu transformieren. Wir erzielen eine Verbesserung von 3,3 % und 1,6 % bei der Erkennung und Verfolgung verdeckter Objekte auf TAO-Amodal. Bei der Auswertung auf Personen erzielt unsere Methode dramatische Verbesserungen von 2x im Vergleich zu modernen modalen Baselines.
Neural Radiance Field (NeRF) hat sich als führende Technik für die Synthese neuer Ansichten etabliert, dank seiner beeindruckenden fotorealistischen Rekonstruktions- und Rendering-Fähigkeiten. Dennoch stellt die Echtzeit-Rendering von NeRF in großflächigen Szenen eine Herausforderung dar, was oft zur Verwendung entweder komplexer gebackener Mesh-Darstellungen mit einer erheblichen Anzahl von Dreiecken oder ressourcenintensivem Ray Marching in gebackenen Darstellungen führt. Wir stellen diese Konventionen in Frage und beobachten, dass hochwertige Geometrie, repräsentiert durch Meshes mit vielen Dreiecken, nicht notwendig ist, um fotorealistische Rendering-Qualität zu erreichen. Folglich schlagen wir MixRT vor, eine neuartige NeRF-Darstellung, die ein qualitativ minderwertiges Mesh, eine ansichtsabhängige Verschiebungskarte und ein komprimiertes NeRF-Modell umfasst. Dieser Entwurf nutzt die Fähigkeiten bestehender Grafikhardware effektiv und ermöglicht so Echtzeit-NeRF-Rendering auf Edge-Geräten. Durch die Nutzung eines hochoptimierten WebGL-basierten Rendering-Frameworks erreicht unser vorgeschlagenes MixRT Echtzeit-Rendering-Geschwindigkeiten auf Edge-Geräten (über 30 FPS bei einer Auflösung von 1280 x 720 auf einem MacBook M1 Pro Laptop), eine bessere Rendering-Qualität (0,2 PSNR höher in Innenraumszenen der Unbounded-360-Datensätze) und eine kleinere Speichergröße (weniger als 80 % im Vergleich zu state-of-the-art-Methoden).
Super-Resolution (SR)-Techniken wurden kürzlich vorgeschlagen, um die Ausgaben von Neural Radiance Fields (NeRF) zu vergrößern und hochwertige Bilder mit verbesserter Inferenzgeschwindigkeit zu erzeugen. Bestehende NeRF+SR-Methoden erhöhen jedoch den Trainingsaufwand durch die Verwendung zusätzlicher Eingabemerkmale, Verlustfunktionen und/oder aufwendiger Trainingsverfahren wie Wissensdistillation. In diesem Artikel streben wir an, SR für Effizienzgewinne zu nutzen, ohne kostspieliges Training oder architektonische Änderungen. Konkret bauen wir eine einfache NeRF+SR-Pipeline, die bestehende Module direkt kombiniert, und schlagen eine leichtgewichtige Augmentierungstechnik, das zufällige Patch-Sampling, für das Training vor. Im Vergleich zu bestehenden NeRF+SR-Methoden reduziert unsere Pipeline den SR-Rechenaufwand und kann bis zu 23-mal schneller trainiert werden, was die Ausführung auf Consumer-Geräten wie dem Apple MacBook ermöglicht. Experimente zeigen, dass unsere Pipeline NeRF-Ausgaben um das 2-4-fache vergrößern kann, während die hohe Qualität erhalten bleibt, und die Inferenzgeschwindigkeit auf einer NVIDIA V100 GPU um bis zu 18-fach und auf einem M1 Pro Chip um 12,8-fach steigert. Wir kommen zu dem Schluss, dass SR eine einfache, aber effektive Technik zur Verbesserung der Effizienz von NeRF-Modellen für Consumer-Geräte sein kann.
In diesem Artikel präsentieren wir einen neuartigen zweistufigen Ansatz, der die Informationen des Referenzbildes vollständig nutzt, um ein maßgeschneidertes Wissen a priori für die Bild-zu-3D-Generierung zu etablieren. Während frühere Ansätze hauptsächlich auf einem allgemeinen Diffusions-Prior basieren, der Schwierigkeiten hat, konsistente Ergebnisse mit dem Referenzbild zu erzielen, schlagen wir ein subjektspezifisches und multimodales Diffusionsmodell vor. Dieses Modell unterstützt nicht nur die NeRF-Optimierung durch die Berücksichtigung des Beleuchtungsmodus für eine verbesserte Geometrie, sondern verbessert auch die Textur aus den groben Ergebnissen, um eine überlegene Verfeinerung zu erreichen. Beide Aspekte tragen dazu bei, den 3D-Inhalt treu mit dem Subjekt abzustimmen. Umfangreiche Experimente zeigen die Überlegenheit unserer Methode, Customize-It-3D, die frühere Arbeiten deutlich übertrifft. Sie erzeugt treue 360-Grad-Rekonstruktionen mit beeindruckender visueller Qualität, was sie für verschiedene Anwendungen, einschließlich der Text-zu-3D-Erstellung, gut geeignet macht.
Videos stellen eine hochgradig redundante Datenquelle dar, und oft reicht es aus, einige Schlüsselmomente zu identifizieren, um eine gegebene Aufgabe zu lösen. In diesem Artikel präsentieren wir ein textbedingtes Video-Resampling-Modul (TCR), das einen vortrainierten und eingefrorenen visuellen Encoder sowie ein großes Sprachmodell (LLM) verwendet, um lange Videosequenzen für eine Aufgabe zu verarbeiten. TCR lokalisiert relevante visuelle Merkmale aus dem Video basierend auf einer Textbedingung und stellt sie einem LLM zur Verfügung, um eine Textantwort zu generieren. Dank seines schlanken Designs und der Verwendung von Cross-Attention kann TCR mehr als 100 Frames gleichzeitig verarbeiten, wodurch das Modell viel längere Videosegmente nutzen kann als frühere Arbeiten. Wir leisten die folgenden Beiträge: (i) Wir entwerfen eine Transformer-basierte Sampling-Architektur, die lange Videos aufgabenbedingt verarbeiten kann, zusammen mit einer Trainingsmethode, die es ermöglicht, vortrainierte visuelle und Sprachmodelle zu verbinden; (ii) Wir validieren seine Wirksamkeit empirisch anhand einer Vielzahl von Evaluierungsaufgaben und setzen neue Maßstäbe für NextQA, EgoSchema und die EGO4D-LTA-Challenge; und (iii) Wir identifizieren Aufgaben, die längere Videokontexte erfordern und somit effektiv für die weitere Bewertung von Modellen mit langen Videosequenzen genutzt werden können.
Text-gesteuerte Diffusionsmodelle erfreuen sich zunehmender Beliebtheit für verschiedene Bildbearbeitungsaufgaben, darunter Inpainting, Stilisierung und Objektersetzung. Es bleibt jedoch ein offenes Forschungsproblem, dieses Sprach-Vision-Paradigma für feinere Bildverarbeitungsaufgaben wie Rauschunterdrückung, Super-Resolution, Entschärfung und die Entfernung von Kompressionsartefakten zu adaptieren. In diesem Artikel entwickeln wir TIP, ein Text-gesteuertes Bildverarbeitungsframework, das natürliche Sprache als benutzerfreundliche Schnittstelle nutzt, um den Bildrestaurationsprozess zu steuern. Wir betrachten die Kapazität von Textinformationen in zwei Dimensionen. Erstens verwenden wir inhaltsbezogene Prompts, um die semantische Ausrichtung zu verbessern und dadurch Identitätsunsicherheiten in den Restaurationsergebnissen effektiv zu verringern. Zweitens ist unser Ansatz das erste Framework, das fein abgestimmte Anweisungen durch sprachbasierte quantitative Spezifikation der Restaurationsstärke unterstützt, ohne dass eine explizite, aufgabenbezogene Gestaltung erforderlich ist. Zusätzlich führen wir einen neuartigen Fusionsmechanismus ein, der die bestehende ControlNet-Architektur erweitert, indem er lernt, das generative Prior zu skalieren und dadurch eine bessere Restaurationsgenauigkeit zu erreichen. Unsere umfangreichen Experimente demonstrieren die überlegene Restaurationsleistung von TIP im Vergleich zum Stand der Technik, wobei gleichzeitig die Flexibilität der textbasierten Steuerung der Restaurationswirkungen geboten wird.
Dieses Papier stellt einen neuartigen Ansatz für Topic Modeling vor, der latente Codebücher aus einem Vector-Quantized Variational Auto-Encoder (VQ-VAE) nutzt, um die umfangreichen Informationen vortrainierter Embeddings, wie z.B. eines vortrainierten Sprachmodells, diskret zu erfassen. Ausgehend von einer neuen Interpretation der latenten Codebücher und Embeddings als konzeptionelle Bag-of-Words schlagen wir ein neues generatives Topic-Modell namens Topic-VQ-VAE (TVQ-VAE) vor, das die ursprünglichen Dokumente, die mit dem jeweiligen latenten Codebuch verbunden sind, invers generiert. Das TVQ-VAE kann die Themen mit verschiedenen generativen Verteilungen visualisieren, einschließlich der traditionellen BoW-Verteilung und der autoregressiven Bildgenerierung. Unsere experimentellen Ergebnisse zur Dokumentenanalyse und Bildgenerierung zeigen, dass TVQ-VAE den Themenkontext effektiv erfasst, was die zugrunde liegenden Strukturen des Datensatzes offenlegt und flexible Formen der Dokumentengenerierung unterstützt. Die offizielle Implementierung des vorgeschlagenen TVQ-VAE ist unter https://github.com/clovaai/TVQ-VAE verfügbar.