Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Papier behandelt eine bedeutende Herausforderung, der Vision-Transformer (ViTs) gegenüberstehen: ihre eingeschränkte Skalierbarkeit über verschiedene Bildauflösungen hinweg. Typischerweise erleben ViTs einen Leistungsabfall, wenn sie Auflösungen verarbeiten, die sich von denen während des Trainings unterscheiden. Unsere Arbeit führt zwei wichtige Innovationen ein, um dieses Problem anzugehen. Erstens schlagen wir ein neuartiges Modul für die dynamische Auflösungsanpassung vor, das mit einem einzelnen Transformer-Block entworfen ist, speziell um eine äußerst effiziente inkrementelle Token-Integration zu erreichen. Zweitens führen wir unscharfe Positionsencodierung im Vision Transformer ein, um eine konsistente Positionskenntnis über mehrere Auflösungen hinweg bereitzustellen und damit Überanpassung an eine einzelne Trainingsauflösung zu verhindern. Unser resultierendes Modell, ViTAR (Vision Transformer mit beliebiger Auflösung), zeigt beeindruckende Anpassungsfähigkeit, erreicht eine Top-1 Genauigkeit von 83,3\% bei einer Auflösung von 1120x1120 und eine Genauigkeit von 80,4\% bei einer Auflösung von 4032x4032, und das alles bei reduzierten Rechenkosten. ViTAR zeigt auch starke Leistung bei nachgelagerten Aufgaben wie Instanz- und semantischer Segmentierung und kann problemlos mit selbstüberwachten Lerntechniken wie Masked AutoEncoder kombiniert werden. Unsere Arbeit bietet eine kostengünstige Lösung zur Verbesserung der Auflösungsskalierbarkeit von ViTs und ebnet den Weg für vielseitigere und effizientere Bildverarbeitung mit hoher Auflösung.
In dieser Arbeit stellen wir Mini-Gemini vor, ein einfaches und effektives Framework zur Verbesserung von Multimodal Vision Language Models (VLMs). Trotz der Fortschritte bei VLMs, die grundlegende visuelle Dialoge und Schlussfolgerungen ermöglichen, besteht im Vergleich zu fortschrittlichen Modellen wie GPT-4 und Gemini weiterhin eine Leistungslücke. Wir versuchen, diese Lücke zu verringern, indem wir das Potenzial von VLMs für bessere Leistung und einen beliebigen Arbeitsablauf aus drei Aspekten herausarbeiten, nämlich hochauflösende visuelle Tokens, hochwertige Daten und VLM-geführte Generierung. Um die visuellen Tokens zu verbessern, schlagen wir vor, einen zusätzlichen visuellen Encoder zur hochauflösenden Verfeinerung zu nutzen, ohne die Anzahl der visuellen Tokens zu erhöhen. Darüber hinaus erstellen wir einen hochwertigen Datensatz, der präzises Bildverständnis und schlussfolgerungsbasierte Generierung fördert und den operationellen Bereich der aktuellen VLMs erweitert. Insgesamt erschließt Mini-Gemini das Potenzial von VLMs weiter und stärkt aktuelle Frameworks gleichzeitig mit Bildverständnis, Schlussfolgerung und Generierung. Mini-Gemini unterstützt eine Reihe von dichten und MoE Large Language Models (LLMs) von 2B bis 34B. Es hat sich gezeigt, dass es führende Leistungen in mehreren Zero-Shot-Benchmarks erzielt und sogar die entwickelten privaten Modelle übertrifft. Code und Modelle sind verfügbar unter https://github.com/dvlab-research/MiniGemini.
Diffusionsmodelle haben die Bildbearbeitung revolutioniert, generieren jedoch oft Bilder, die physikalische Gesetze verletzen, insbesondere die Auswirkungen von Objekten auf die Szene, z.B. Verdeckungen, Schatten und Spiegelungen. Durch die Analyse der Einschränkungen selbstüberwachter Ansätze schlagen wir eine praktische Lösung vor, die auf einem kontrafaktischen Datensatz basiert. Unser Ansatz besteht darin, eine Szene vor und nach dem Entfernen eines einzelnen Objekts zu erfassen, wobei andere Änderungen minimiert werden. Durch Feinabstimmung eines Diffusionsmodells auf diesem Datensatz können wir nicht nur Objekte entfernen, sondern auch deren Auswirkungen auf die Szene. Allerdings stellen wir fest, dass die Anwendung dieses Ansatzes für fotorealistische Objekteinfügungen einen unpraktisch großen Datensatz erfordert. Um diese Herausforderung anzugehen, schlagen wir Bootstrap-Überwachung vor; indem wir unser Objektentfernungsmodell, das auf einem kleinen kontrafaktischen Datensatz trainiert ist, nutzen, erweitern wir diesen Datensatz synthetisch erheblich. Unser Ansatz übertrifft signifikant frühere Methoden bei der fotorealistischen Objektentfernung und -einfügung, insbesondere bei der Modellierung der Auswirkungen von Objekten auf die Szene.
Große Sprachmodelle (LLMs) generieren häufig Inhalte mit sachlichen Fehlern, wenn sie auf Fakten suchende Anfragen zu offenen Themen beantworten. Um die faktische Genauigkeit eines Modells in offenen Bereichen zu bewerten, verwenden wir zunächst GPT-4, um LongFact zu generieren, einen Satz von Anfragen, der Tausende von Fragen zu 38 Themen umfasst. Wir schlagen vor, dass LLM-Agenten als automatisierte Evaluatoren für faktische Genauigkeit in Langform durch eine Methode namens Search-Augmented Factuality Evaluator (SAFE) verwendet werden können. SAFE nutzt ein LLM, um eine Langform-Antwort in eine Reihe einzelner Fakten zu zerlegen und die Genauigkeit jedes Fakts mithilfe eines mehrstufigen Denkprozesses zu bewerten, der das Senden von Suchanfragen an Google Search und die Bestimmung, ob ein Fakt durch die Suchergebnisse gestützt wird, umfasst. Darüber hinaus schlagen wir vor, den F1-Score als aggregierte Metrik für faktische Genauigkeit in Langform zu erweitern. Dazu balancieren wir den Prozentsatz der gestützten Fakten in einer Antwort (Präzision) mit dem Prozentsatz der bereitgestellten Fakten im Verhältnis zu einem Hyperparameter, der die bevorzugte Antwortlänge eines Benutzers darstellt (Erinnerung). Empirisch zeigen wir, dass LLM-Agenten eine übermenschliche Bewertungsleistung erreichen können - bei einem Satz von ~16k einzelnen Fakten stimmt SAFE in 72% der Fälle mit crowdsourcenden menschlichen Annotatoren überein, und in einer zufälligen Teilmenge von 100 Meinungsverschiedenheiten gewinnt SAFE 76% der Zeit. Gleichzeitig ist SAFE mehr als 20 Mal kostengünstiger als menschliche Annotatoren. Wir benchmarken auch dreizehn Sprachmodelle auf LongFact in vier Modellfamilien (Gemini, GPT, Claude und PaLM-2) und stellen fest, dass größere Sprachmodelle im Allgemeinen eine bessere faktische Genauigkeit in Langform erreichen. LongFact, SAFE und der gesamte experimentelle Code sind verfügbar unter https://github.com/google-deepmind/long-form-factuality.
Wir stellen Garment3DGen vor, eine neue Methode zur Synthese von 3D-Kleidungsstücken aus einem Basismodell anhand eines einzelnen Eingabebildes als Anleitung. Unser vorgeschlagener Ansatz ermöglicht es Benutzern, 3D-texturierte Kleidungsstücke basierend auf sowohl realen als auch synthetischen Bildern zu generieren, wie z.B. solche, die durch Texteingaben erzeugt wurden. Die generierten Assets können direkt auf menschliche Körper angelegt und simuliert werden. Zunächst nutzen wir den jüngsten Fortschritt der Bild-zu-3D-Diffusionsmethoden, um 3D-Kleidungsgeometrien zu generieren. Da diese Geometrien jedoch nicht direkt für nachgelagerte Aufgaben genutzt werden können, schlagen wir vor, sie als Pseudo-Referenz zu verwenden und ein Gitterverformungsoptimierungsverfahren einzurichten, das ein Basistemplategitter verformt, um mit dem generierten 3D-Ziel übereinzustimmen. Zweitens führen wir sorgfältig konzipierte Verluste ein, die es dem Eingabebasismodell ermöglichen, sich frei zum gewünschten Ziel zu verformen, dabei jedoch die Gitterqualität und -topologie bewahren, so dass sie simuliert werden können. Schließlich generiert ein Texturschätzmodul hochwertige Texturkarten, die global und lokal konsistent sind und die Eingabeanleitung präzise erfassen, was es uns ermöglicht, die generierten 3D-Assets zu rendern. Mit Garment3DGen können Benutzer das texturierte 3D-Kleidungsstück ihrer Wahl ohne künstlerische Intervention generieren. Man kann eine textuelle Anweisung bereitstellen, die das gewünschte Kleidungsstück beschreibt, um ein simulationsfähiges 3D-Asset zu generieren. Wir präsentieren eine Vielzahl von quantitativen und qualitativen Vergleichen zu verschiedenen Assets, sowohl realen als auch generierten, und zeigen Anwendungsfälle auf, wie man simulationsfähige 3D-Kleidungsstücke generieren kann.
Modelle wie GPT-4 und Med-PaLM 2 haben beeindruckende Leistungen bei einer Vielzahl von biomedizinischen NLP-Aufgaben gezeigt. Diese Modelle haben jedoch Hunderte Milliarden von Parametern, sind rechenaufwendig, erfordern, dass Benutzer ihre Eingabedaten über das Internet senden und werden mit unbekannten Datenquellen trainiert. Können kleinere, zielgerichtetere Modelle mithalten? Um diese Frage zu beantworten, haben wir BioMedLM entwickelt und veröffentlicht, ein 2,7 Milliarden Parameter umfassendes GPT-ähnliches autoregressives Modell, das ausschließlich auf PubMed-Zusammenfassungen und Volltextartikeln trainiert wurde. Nach Feinabstimmung kann BioMedLM starke Ergebnisse im mehrfachauswahlbasierten biomedizinischen Frage-Antworten erzielen, die mit wesentlich größeren Modellen konkurrieren, wie z.B. eine Punktzahl von 57,3 % bei MedMCQA (dev) und 69,0 % bei der MMLU-Prüfung für medizinische Genetik. BioMedLM kann auch für die Beantwortung von Patientenfragen zu medizinischen Themen nützliche Antworten liefern. Dies zeigt, dass kleinere Modelle potenziell als transparente, datenschutzfreundliche, kostengünstige und umweltfreundliche Grundlagen für bestimmte NLP-Anwendungen, wie in der Biomedizin, dienen können. Das Modell ist auf dem Hugging Face Hub verfügbar: https://huggingface.co/stanford-crfm/BioMedLM.
Wir nehmen die Herausforderung an, ein 3D-Objekt effizient aus einem einzigen Bild wiederherzustellen, da die Anforderungen an automatisierte 3D-Inhalts-Erstellungspipelines steigen. Frühere Methoden stützen sich hauptsächlich auf Score-Distillation-Sampling (SDS) und Neuronale Strahlungsfelder (NeRF). Trotz ihres bedeutenden Erfolgs stoßen diese Ansätze auf praktische Einschränkungen aufgrund langer Optimierungszeiten und erheblichem Speicherbedarf. In diesem Bericht stellen wir Gamba vor, ein End-to-End amortisiertes 3D-Rekonstruktionsmodell aus Einzelbildern, das zwei Haupterkenntnisse betont: (1) 3D-Repräsentation: Nutzung einer großen Anzahl von 3D-Gaußschen für einen effizienten 3D-Gaußschen-Splatting-Prozess; (2) Backbone-Design: Einführung eines Mamba-basierten sequenziellen Netzwerks, das kontextabhängiges Denken und lineare Skalierbarkeit mit der Sequenzlänge (Token) erleichtert und eine beträchtliche Anzahl von Gaußschen aufnehmen kann. Gamba integriert bedeutende Fortschritte in der Datenvorbereitung, Regulierungsentwurf und Trainingsmethoden. Wir haben Gamba anhand des realen gescannten OmniObject3D-Datensatzes gegen bestehende optimierungsbasierte und Feed-Forward-3D-Generierungsansätze bewertet. Hier zeigt Gamba wettbewerbsfähige Generierungsfähigkeiten, sowohl qualitativ als auch quantitativ, und erreicht eine bemerkenswerte Geschwindigkeit von ungefähr 0,6 Sekunden auf einer einzelnen NVIDIA A100 GPU.
In diesem Paper präsentieren wir EgoLifter, ein neuartiges System, das Szenen, die von egozentrischen Sensoren erfasst wurden, automatisch in eine vollständige Zerlegung einzelner 3D-Objekte segmentieren kann. Das System ist speziell für egozentrische Daten konzipiert, in denen Szenen Hunderte von Objekten enthalten, die durch natürliche (nicht abtastende) Bewegungen erfasst wurden. EgoLifter verwendet 3D-Gaußsche als zugrunde liegende Darstellung von 3D-Szenen und Objekten und nutzt Segmentierungsmasken des Segment Anything Model (SAM) als schwache Aufsicht, um flexible und anpassbare Definitionen von Objektinstanzen zu erlernen, die frei von einer spezifischen Objekttaxonomie sind. Um mit der Herausforderung dynamischer Objekte in egozentrischen Videos umzugehen, haben wir ein Modul zur transienten Vorhersage entwickelt, das lernt, dynamische Objekte in der 3D-Rekonstruktion herauszufiltern. Das Ergebnis ist eine vollautomatische Pipeline, die in der Lage ist, 3D-Objektinstanzen als Sammlungen von 3D-Gaußschen zu rekonstruieren, die gemeinsam die gesamte Szene zusammensetzen. Wir haben einen neuen Benchmark auf dem Aria Digital Twin Datensatz erstellt, der quantitativ die Spitzenleistung bei der 3D-Segmentierung in offenen Welten aus natürlichen egozentrischen Eingaben demonstriert. Wir haben EgoLifter auf verschiedenen Datensätzen zu egozentrischen Aktivitäten ausgeführt, was das Potenzial der Methode für die 3D-egozentrische Wahrnehmung im großen Maßstab zeigt.
Unsere Arbeit befasst sich mit den Einschränkungen, die bei früheren Ansätzen für objektorientierte Bearbeitungsprobleme festgestellt wurden, wie unrealistische Ergebnisse aufgrund von Formunterschieden und begrenzte Kontrolle bei Objektersatz oder -einfügung. Zu diesem Zweck stellen wir FlexEdit vor, ein flexibles und steuerbares Bearbeitungsframework für Objekte, bei dem wir iterativ Latente bei jedem Entrauschungsschritt mithilfe unseres FlexEdit-Blocks anpassen. Zunächst optimieren wir die Latenten zur Testzeit, um sie mit den angegebenen Objektbeschränkungen in Einklang zu bringen. Anschließend verwendet unser Framework eine adaptive Maske, die während der Entrauschung automatisch extrahiert wird, um den Hintergrund zu schützen und neue Inhalte nahtlos in das Zielbild einzufügen. Wir zeigen die Vielseitigkeit von FlexEdit in verschiedenen Objektbearbeitungsaufgaben auf und erstellen einen Bewertungstestkatalog mit Beispielen aus sowohl realen als auch synthetischen Bildern, zusammen mit neuartigen Bewertungsmetriken, die für objektorientierte Bearbeitung entwickelt wurden. Wir führen umfangreiche Experimente in verschiedenen Bearbeitungsszenarien durch und zeigen die Überlegenheit unseres Bearbeitungsframeworks gegenüber kürzlich entwickelten textgesteuerten Bildbearbeitungsmethoden. Unsere Projektseite ist unter https://flex-edit.github.io/ veröffentlicht.
Neuronale Netzwerk-Sprachmodelle (NNLMs) für Virtuelle Assistenten (VAs) sind in der Regel sprach-, regions- und in einigen Fällen geräteabhängig, was den Aufwand für Skalierung und Wartung erhöht. Die Kombination von NNLMs für eine oder mehrere Kategorien ist ein Weg, um die Skalierbarkeit zu verbessern. In dieser Arbeit kombinieren wir regionale Varianten des Englischen, um ein "Weltenglisch" NNLM für VAs auf Geräten zu erstellen. Insbesondere untersuchen wir die Anwendung von Adapter-Engpässen, um dialektspezifische Merkmale in unseren bestehenden Produktions-NNLMs zu modellieren {und die Multi-Dialekt-Baselines zu verbessern}. Wir stellen fest, dass Adaptermodule effektiver sind beim Modellieren von Dialekten als die Spezialisierung ganzer Teilnetzwerke. Basierend auf dieser Erkenntnis und unter Nutzung des Designs unserer Produktionsmodelle führen wir eine neue Architektur für das Weltenglisch NNLM ein, die die Genauigkeit, Latenz und Speicherbeschränkungen unserer Einzeldialektmodelle erfüllt.