papers.description
Diese Arbeit präsentiert Depth Anything V2. Ohne aufwendige Techniken zu verfolgen, zielen wir darauf ab, wichtige Erkenntnisse aufzudecken, um den Weg für den Aufbau eines leistungsstarken monokularen Tiefenschätzungsmodells zu ebnen. Insbesondere produziert diese Version im Vergleich zu V1 durch drei Schlüsselpraktiken wesentlich feinere und robustere Tiefenvorhersagen: 1) Ersetzen aller gelabelten echten Bilder durch synthetische Bilder, 2) Erhöhen der Kapazität unseres Lehrermodells und 3) Unterrichten von Schülermodellen über die Brücke großer pseudo-gelabelter echter Bilder. Im Vergleich zu den neuesten Modellen, die auf Stable Diffusion aufbauen, sind unsere Modelle signifikant effizienter (mehr als 10-mal schneller) und genauer. Wir bieten Modelle unterschiedlicher Größenordnungen (von 25M bis 1,3B Parametern) zur Unterstützung umfangreicher Szenarien an. Dank ihrer starken Verallgemeinerungsfähigkeit feinjustieren wir sie mit metrischen Tiefenlabels, um unsere metrischen Tiefenmodelle zu erhalten. Neben unseren Modellen, angesichts der begrenzten Vielfalt und häufigen Störungen in aktuellen Testsets, konstruieren wir einen vielseitigen Evaluierungsbenchmark mit präzisen Annotationen und vielfältigen Szenen, um zukünftige Forschung zu erleichtern.
Diese Arbeit stellt keine neue Methode vor. Stattdessen präsentieren wir eine interessante Entdeckung, die die Notwendigkeit des induktiven Bias - der Lokalität in modernen Architekturen für die Computer Vision - in Frage stellt. Konkret stellen wir fest, dass einfache Transformers arbeiten können, indem sie jeden einzelnen Pixel direkt als Token behandeln und dabei hochperformante Ergebnisse erzielen. Dies unterscheidet sich wesentlich vom populären Design im Vision Transformer, das den induktiven Bias von ConvNets gegenüber lokalen Nachbarschaften beibehält (z.B. durch Behandlung jedes 16x16 Patches als Token). Wir zeigen hauptsächlich die Effektivität von Pixeln-als-Token in drei gut untersuchten Aufgaben in der Computer Vision: überwachtes Lernen für die Objektklassifizierung, selbstüberwachtes Lernen über maskiertes Autoencoding und Bildgenerierung mit Diffusionsmodellen. Obwohl das direkte Arbeiten mit einzelnen Pixeln weniger rechentechnisch praktikabel ist, sind wir der Meinung, dass die Gemeinschaft sich dieser überraschenden Erkenntnis bewusst sein muss, wenn sie die nächste Generation neuronaler Architekturen für die Computer Vision entwickelt.
Transformer haben das maschinelle Lernen mit ihrer einfachen, aber effektiven Architektur revolutioniert. Das Vortrainieren von Transformern auf umfangreichen Textdatensätzen aus dem Internet hat zu einer beispiellosen Verallgemeinerung für Aufgaben im Bereich des natürlichen Sprachverständnisses (NLU) geführt. Allerdings bleiben solche Sprachmodelle anfällig, wenn sie mit algorithmischen Formen des Denkens konfrontiert werden, bei denen Berechnungen präzise und robust sein müssen. Um diese Einschränkung zu bewältigen, schlagen wir einen neuartigen Ansatz vor, der das Sprachverständnis des Transformers mit der Robustheit von Graph-Neuralnetwork(GNN)-basierten neuronalen algorithmischen Schlussfolgerern (NARs) kombiniert. Solche NARs haben sich als effektive generische Solver für algorithmische Aufgaben erwiesen, wenn sie in Form von Graphen spezifiziert sind. Um ihre Einbettungen für einen Transformer zugänglich zu machen, schlagen wir eine Hybridarchitektur mit einem zweiphasigen Schulungsverfahren vor, das es den Token im Sprachmodell ermöglicht, auf die Knoteneinbettungen des NAR zuzugreifen. Wir evaluieren unser resultierendes TransNAR-Modell anhand von CLRS-Text, der textbasierten Version des CLRS-30-Benchmarks, und zeigen signifikante Verbesserungen gegenüber reinen Transformer-Modellen für algorithmisches Denken, sowohl innerhalb als auch außerhalb der Verteilung.
Die effiziente Modellierung von Sequenzen mit unendlicher Kontextlänge war ein langjähriges Problem. Frühere Arbeiten leiden entweder unter der quadratischen Rechenkomplexität oder der begrenzten Extrapolationsfähigkeit bei der Längenverallgemeinerung. In dieser Arbeit präsentieren wir Samba, eine einfache Hybridarchitektur, die Mamba, ein selektives Zustandsraummodell (SSM), mit Sliding-Window-Attention (SWA) schichtweise kombiniert. Samba komprimiert eine gegebene Sequenz selektiv in rekurrente versteckte Zustände, während es gleichzeitig die Fähigkeit behält, Erinnerungen präzise mit dem Aufmerksamkeitsmechanismus abzurufen. Wir skalieren Samba auf 3,8 Mrd. Parameter mit 3,2 Bio. Trainings-Token und zeigen, dass Samba auf einer Vielzahl von Benchmarks wesentlich besser abschneidet als die State-of-the-Art-Modelle, die auf reiner Aufmerksamkeit oder SSMs basieren. Wenn auf 4K-langen Sequenzen trainiert, kann Samba effizient auf eine Kontextlänge von 256K extrapolieren, mit perfektem Erinnerungsrückruf und verbesserten Token-Vorhersagen bis zu einer Kontextlänge von 1M. Als Sequenzmodell mit linearer Laufzeit hat Samba eine 3,73-fach höhere Durchsatzrate im Vergleich zu Transformatoren mit gruppierten Query-Attention, wenn Benutzeranfragen von 128K Länge verarbeitet werden, und eine 3,64-fache Beschleunigung beim Generieren von 64K Tokens mit unbegrenztem Streaming. Eine beispielhafte Implementierung von Samba ist öffentlich verfügbar unter https://github.com/microsoft/Samba.
Große Richtlinien, die auf einer Kombination von Internet-skaligen Vision-Sprach-Daten und vielfältigen Roboter-Demonstrationen vortrainiert sind, haben das Potenzial, die Art und Weise zu verändern, wie wir Robotern neue Fähigkeiten beibringen: Anstatt neue Verhaltensweisen von Grund auf zu trainieren, können wir solche Vision-Sprache-Aktions (VLA) Modelle feinabstimmen, um robuste, generalisierbare Richtlinien für visuomotorische Steuerung zu erhalten. Die weitreichende Übernahme von VLAs für Robotik war jedoch herausfordernd, da 1) bestehende VLAs größtenteils geschlossen und für die Öffentlichkeit unzugänglich sind und 2) frühere Arbeiten es versäumt haben, Methoden zur effizienten Feinabstimmung von VLAs für neue Aufgaben zu erkunden, was ein Schlüsselelement für die Übernahme darstellt. Um diesen Herausforderungen zu begegnen, stellen wir OpenVLA vor, ein 7-Milliarden-Parameter Open-Source VLA, das auf einer vielfältigen Sammlung von 970.000 realen Roboter-Demonstrationen trainiert wurde. OpenVLA baut auf einem Llama 2 Sprachmodell auf, das mit einem visuellen Encoder kombiniert ist, der vortrainierte Merkmale von DINOv2 und SigLIP fusioniert. Als Ergebnis der zusätzlichen Datenvielfalt und neuer Modellkomponenten zeigt OpenVLA starke Ergebnisse für generalistische Manipulation, indem es geschlossene Modelle wie RT-2-X (55B) um 16,5% in absoluter Erfolgsrate über 29 Aufgaben und mehrere Roboter-Verkörperungen übertrifft, und das mit 7-mal weniger Parametern. Wir zeigen weiterhin, dass wir OpenVLA effektiv für neue Einstellungen feinabstimmen können, mit besonders starken Verallgemeinerungsergebnissen in Multi-Task-Umgebungen, die mehrere Objekte und starke Sprachverankerungsfähigkeiten beinhalten, und dass wir ausdrucksstarke Imitationslernmethoden von Grund auf wie Diffusion Policy um 20,4% übertreffen. Wir untersuchen auch die Recheneffizienz; als separaten Beitrag zeigen wir, dass OpenVLA auf Consumer-GPUs über moderne Low-Rank-Anpassungsmethoden effizient feinabgestimmt werden kann und effizient über Quantisierung ohne Einbußen bei der nachgelagerten Erfolgsrate bereitgestellt werden kann. Schließlich veröffentlichen wir Modell-Checkpoints, Feinabstimmungs-Notebooks und unseren PyTorch-Code mit integrierter Unterstützung für das Training von VLAs im großen Maßstab auf Open X-Embodiment Datensätzen.
Dieses Paper präsentiert innovative Verbesserungen für Diffusionsmodelle durch die Integration eines neuartigen Multi-Resolution-Netzwerks und zeitabhängiger Schichtnormalisierung. Diffusionsmodelle haben an Bedeutung gewonnen aufgrund ihrer Effektivität bei der hochauflösenden Bildgenerierung. Während herkömmliche Ansätze auf faltenden U-Net-Architekturen beruhen, haben jüngste Transformer-basierte Designs eine überlegene Leistungsfähigkeit und Skalierbarkeit gezeigt. Allerdings stehen Transformer-Architekturen, die Eingabedaten tokenisieren (über "Patchifizierung"), vor einem Kompromiss zwischen visueller Treue und Rechenkomplexität aufgrund der quadratischen Natur der Self-Attention-Operationen in Bezug auf die Tokenlänge. Während größere Patchgrößen eine effiziente Berechnung der Aufmerksamkeit ermöglichen, haben sie Schwierigkeiten, feingliedrige visuelle Details zu erfassen, was zu Bildverzerrungen führt. Um diese Herausforderung anzugehen, schlagen wir vor, das Diffusionsmodell mit dem Multi-Resolution-Netzwerk (DiMR) zu erweitern, einem Rahmenwerk, das Merkmale über mehrere Auflösungen verfeinert und schrittweise Details von niedriger zu hoher Auflösung verbessert. Darüber hinaus führen wir die zeitabhängige Schichtnormalisierung (TD-LN) ein, einen parameter-effizienten Ansatz, der zeitabhängige Parameter in die Schichtnormalisierung integriert, um Zeitinformationen einzuführen und eine überlegene Leistung zu erzielen. Die Wirksamkeit unserer Methode wird anhand des klassenbedingten ImageNet-Generierungstests demonstriert, bei dem DiMR-XL-Varianten frühere Diffusionsmodelle übertreffen und neue FID-Bestwerte von 1,70 auf ImageNet 256 x 256 und 2,89 auf ImageNet 512 x 512 setzen. Projektseite: https://qihao067.github.io/projects/DiMR
Große Sprachmodelle (LLMs) haben bemerkenswerte Argumentationsfähigkeiten gezeigt, bleiben jedoch anfällig für Fehler, insbesondere bei zeitlichen Argumentationsaufgaben, die komplexe zeitliche Logik beinhalten. Die bestehende Forschung hat die Leistung von LLMs bei zeitlicher Argumentation unter Verwendung verschiedener Datensätze und Benchmarks untersucht. Diese Studien stützen sich jedoch oft auf realweltliche Daten, die LLMs während des Vortrainings begegnet sein könnten, oder verwenden Anonymisierungstechniken, die unbeabsichtigt sachliche Inkonsistenzen einführen können. In dieser Arbeit begegnen wir diesen Einschränkungen, indem wir neuartige synthetische Datensätze vorstellen, die speziell zur Bewertung der zeitlichen Argumentationsfähigkeiten von LLMs in verschiedenen Szenarien konzipiert sind. Die Vielfalt der Fragetypen in diesen Datensätzen ermöglicht eine systematische Untersuchung der Auswirkungen der Problemstruktur, Größe, Fragetypen, Faktanordnung und anderer Faktoren auf die Leistung von LLMs. Unsere Ergebnisse liefern wertvolle Einblicke in die Stärken und Schwächen aktueller LLMs bei zeitlichen Argumentationsaufgaben. Um weitere Forschung in diesem Bereich zu fördern, stellen wir die in unseren Experimenten verwendeten Datensätze und Bewertungsrahmen als Open Source zur Verfügung: https://huggingface.co/datasets/baharef/ToT.
Diffusions-Transformer (DiT) zeichnen sich bei der Bild- und Videogenerierung aus, stehen jedoch vor Rechenschwierigkeiten aufgrund der quadratischen Komplexität der Selbst-Aufmerksamkeit. Wir schlagen DiTFastAttn vor, eine neuartige Methode zur Nachbearbeitungskompression, um das Rechenengpass von DiT zu lindern. Wir identifizieren drei Schlüsselredundanzen bei der Aufmerksamkeitsberechnung während der DiT-Inferenz: 1. räumliche Redundanz, bei der viele Aufmerksamkeitsköpfe sich auf lokale Informationen konzentrieren; 2. zeitliche Redundanz, mit hoher Ähnlichkeit zwischen den Ausgaben der benachbarten Schritte der Aufmerksamkeit; 3. bedingte Redundanz, bei der bedingte und unbedingte Inferenzen eine signifikante Ähnlichkeit aufweisen. Um diesen Redundanzen zu begegnen, schlagen wir drei Techniken vor: 1. Fensteraufmerksamkeit mit Restcaching zur Reduzierung der räumlichen Redundanz; 2. Reduzierung der zeitlichen Ähnlichkeit zur Nutzung der Ähnlichkeit zwischen den Schritten; 3. Beseitigung der bedingten Redundanz zur Überspringung redundanter Berechnungen während der bedingten Generierung. Um die Wirksamkeit von DiTFastAttn zu demonstrieren, wenden wir es auf DiT, PixArt-Sigma für Bildgenerierungsaufgaben und OpenSora für Videogenerierungsaufgaben an. Die Evaluierungsergebnisse zeigen, dass unser Verfahren bei der Bildgenerierung bis zu 88\% der FLOPs reduziert und bei der Generierung mit hoher Auflösung bis zu 1,6-fache Beschleunigung erreicht.
Menschen zeichnen, um das Denken zu erleichtern: Wir ziehen Hilfslinien, wenn wir geometrische Probleme lösen; wir markieren und umkreisen, wenn wir auf Karten argumentieren; wir verwenden Skizzen, um unsere Ideen zu verdeutlichen und unser begrenztes Arbeitsgedächtnis zu entlasten. Diese Aktionen fehlen jedoch in aktuellen multimodalen Sprachmodellen (LMs). Die aktuellen Denk- und Werkzeugnutzungsparadigmen verwenden nur Text als Zwischenschritte des Denkprozesses. In dieser Arbeit stellen wir Sketchpad vor, ein Framework, das multimodalen LMs einen visuellen Skizzenblock und Werkzeuge zum Zeichnen auf dem Skizzenblock bietet. Das LM plant und argumentiert gemäß den visuellen Artefakten, die es gezeichnet hat. Im Gegensatz zu früheren Arbeiten, die Text-zu-Bild-Modelle verwenden, um LMs zum Zeichnen zu befähigen, ermöglicht es Sketchpad LMs, mit Linien, Kästchen, Markierungen usw. zu zeichnen, was dem menschlichen Skizzieren näherkommt und das Denken besser unterstützt. Sketchpad kann auch spezialisierte Bildmodelle während des Skizzierens nutzen (z. B. Bounding Boxes mit Objekterkennungsmodellen zeichnen, Masken mit Segmentierungsmodellen zeichnen), um die visuelle Wahrnehmung und das Denken weiter zu verbessern. Wir experimentieren mit einer Vielzahl von mathematischen Aufgaben (einschließlich Geometrie, Funktionen, Graphen und Schach) und komplexen visuellen Denkaufgaben. Sketchpad verbessert die Leistung bei allen Aufgaben erheblich gegenüber starken Basismodellen ohne Skizzierung und erzielt einen durchschnittlichen Gewinn von 12,7% bei mathematischen Aufgaben und 8,6% bei visuellen Aufgaben. GPT-4o mit Sketchpad setzt einen neuen Stand der Technik bei allen Aufgaben, einschließlich V*Bench (80,3%), BLINK räumliches Denken (83,9%) und visuelle Korrespondenz (80,8%). Alle Codes und Daten finden sich unter https://visualsketchpad.github.io/.
Wir untersuchen den Raum der Gewichte, der von einer großen Sammlung von individuellen Diffusionsmodellen aufgespannt wird. Wir bevölkern diesen Raum, indem wir einen Datensatz von über 60.000 Modellen erstellen, von denen jedes ein Basismodell ist, das feinabgestimmt wurde, um die visuelle Identität einer anderen Person einzufügen. Wir modellieren die zugrunde liegende Mannigfaltigkeit dieser Gewichte als Unterraum, den wir als Gewichte-zu-Gewichte bezeichnen. Wir demonstrieren drei unmittelbare Anwendungen dieses Raums - Abtasten, Bearbeiten und Umkehrung. Zunächst entspricht jeder Punkt im Raum einer Identität, und das Abtasten eines Satzes von Gewichten daraus führt zu einem Modell, das eine neue Identität kodiert. Als nächstes finden wir lineare Richtungen in diesem Raum, die semantischen Bearbeitungen der Identität entsprechen (z. B. das Hinzufügen eines Bartes). Diese Bearbeitungen bleiben im Aussehen über generierte Proben hinweg bestehen. Schließlich zeigen wir, dass die Umkehrung eines einzelnen Bildes in diesen Raum eine realistische Identität rekonstruiert, selbst wenn das Eingabebild außerhalb der Verteilung liegt (z. B. ein Gemälde). Unsere Ergebnisse deuten darauf hin, dass der Gewichtraum feinabgestimmter Diffusionsmodelle als interpretierbarer latenter Raum von Identitäten fungiert.
Wir stellen MuirBench vor, einen umfassenden Benchmark, der sich auf robuste multi-image Verständnisfähigkeiten von multimodalen LLMs konzentriert. MuirBench besteht aus 12 verschiedenen multi-image Aufgaben (z. B. Szenenverständnis, Anordnung), die 10 Kategorien von multi-image Beziehungen (z. B. Multiview, zeitliche Beziehungen) umfassen. Mit 11.264 Bildern und 2.600 Multiple-Choice-Fragen wird MuirBench paarweise erstellt, wobei jede Standardinstanz mit einer nicht beantwortbaren Variante gepaart ist, die minimale semantische Unterschiede aufweist, um eine zuverlässige Bewertung zu gewährleisten. Bei der Auswertung von 20 aktuellen multi-modalen LLMs zeigen unsere Ergebnisse, dass selbst die leistungsstärksten Modelle wie GPT-4o und Gemini Pro Schwierigkeiten haben, MuirBench zu lösen, wobei sie eine Genauigkeit von 68,0 % bzw. 49,3 % erreichen. Open-Source multimodale LLMs, die auf einzelnen Bildern trainiert sind, können sich kaum auf multi-image Fragen verallgemeinern und erreichen eine Genauigkeit von unter 33,3 %. Diese Ergebnisse unterstreichen die Bedeutung von MuirBench, um die Community dazu zu ermutigen, multimodale LLMs zu entwickeln, die über ein einzelnes Bild hinausblicken können, und schlagen potenzielle Wege für zukünftige Verbesserungen vor.
Hochwertige Präferenzdatensätze sind entscheidend für das Training von Belohnungsmodellen, die große Sprachmodelle effektiv anleiten können, um hochwertige Antworten zu generieren, die mit menschlichen Präferenzen übereinstimmen. Mit zunehmender Stärke und besserer Ausrichtung der Sprachmodelle müssen permissiv lizenzierte Präferenzdatensätze wie Open Assistant, HH-RLHF und HelpSteer aktualisiert werden, um für das Belohnungsmodellieren wirksam zu bleiben. Methoden, die Präferenzdaten aus proprietären Sprachmodellen wie GPT-4 extrahieren, unterliegen Beschränkungen hinsichtlich der kommerziellen Nutzung, die von den Modellanbietern auferlegt werden. Um sowohl die generierten Antworten als auch die Qualität der Attributkennzeichnung zu verbessern, veröffentlichen wir HelpSteer2, einen permissiv lizenzierten Präferenzdatensatz (CC-BY-4.0). Mit einem leistungsstarken internen Basismodell, das auf HelpSteer2 trainiert ist, erreichen wir den SOTA-Score (92,0%) auf dem primären Datensatz von Reward-Bench und übertreffen derzeit gelistete offene und proprietäre Modelle, Stand 12. Juni 2024. Beachtenswert ist, dass HelpSteer2 nur zehntausend Antwortpaare umfasst, eine Größenordnung weniger als bestehende Präferenzdatensätze (z. B. HH-RLHF), was es äußerst effizient für das Training von Belohnungsmodellen macht. Unsere umfangreichen Experimente zeigen, dass Belohnungsmodelle, die mit HelpSteer2 trainiert sind, effektiv sind, um die Sprachmodelle auszurichten. Insbesondere schlagen wir SteerLM 2.0 vor, einen Modellausrichtungsansatz, der den reichhaltigen Multi-Attribut-Score nutzt, der von unseren Belohnungsmodellen vorhergesagt wird. HelpSteer2 ist unter https://huggingface.co/datasets/nvidia/HelpSteer2 verfügbar, und der Code ist unter https://github.com/NVIDIA/NeMo-Aligner verfügbar.
Multimodale Large Language Models (mLLMs) werden auf einer großen Menge von Text-Bild-Daten trainiert. Während die meisten mLLMs nur auf datenähnlichen Bildunterschriften trainiert sind, zeigten Alayrac et al. [2022], dass zusätzliches Training mit ineinander verschachtelten Sequenzen von Text und Bildern zur Entwicklung von Lernfähigkeiten im Kontext führen kann. Allerdings ist der von ihnen verwendete Datensatz, M3W, nicht öffentlich und nur in englischer Sprache verfügbar. Es gab Versuche, ihre Ergebnisse zu reproduzieren, aber die veröffentlichten Datensätze sind nur auf Englisch verfügbar. Im Gegensatz dazu bestehen aktuelle mehrsprachige und multimodale Datensätze entweder nur aus datenähnlichen Bildunterschriften oder aus mittelgroßen oder vollständig privaten Daten. Dies beschränkt die mLLM-Forschung auf die 7.000 anderen Sprachen, die auf der Welt gesprochen werden. Wir stellen daher mOSCAR vor, nach unserem Kenntnisstand das erste groß angelegte mehrsprachige und multimodale Dokumentenkorpus, das aus dem Web gecrawlt wurde. Es umfasst 163 Sprachen, 315 Mio. Dokumente, 214 Mrd. Tokens und 1,2 Mrd. Bilder. Wir führen sorgfältig eine Reihe von Filterungs- und Evaluierungsschritten durch, um sicherzustellen, dass mOSCAR ausreichend sicher, vielfältig und von guter Qualität ist. Zusätzlich trainieren wir zwei Arten von mehrsprachigen Modellen, um die Vorteile von mOSCAR zu belegen: (1) ein Modell, das auf einem Teil von mOSCAR und Bildunterschriften-Daten trainiert ist, und (2) ein Modell, das nur auf Bildunterschriften-Daten trainiert ist. Das Modell, das zusätzlich mit mOSCAR trainiert wurde, zeigt eine deutliche Steigerung der Few-Shot-Lernleistung bei verschiedenen mehrsprachigen Bild-Text-Aufgaben und Benchmarks und bestätigt frühere Ergebnisse für ausschließlich englischsprachige mLLMs.
Die Informatik (CS) steht als Zeugnis für die Feinheiten menschlicher Intelligenz, die die Entwicklung der künstlichen Intelligenz und der modernen Gesellschaft maßgeblich vorantreibt. Allerdings konzentriert sich die aktuelle Gemeinschaft großer Sprachmodelle (LLMs) übermäßig auf Benchmarks zur Analyse spezifischer grundlegender Fähigkeiten (z. B. Mathematik und Code-Generierung), vernachlässigt jedoch eine umfassende Bewertung des Informatikbereichs. Um diese Lücke zu schließen, stellen wir CS-Bench vor, den ersten zweisprachigen (Chinesisch-Englisch) Benchmark, der der Bewertung der Leistung von LLMs in der Informatik gewidmet ist. CS-Bench umfasst etwa 5.000 sorgfältig ausgewählte Testbeispiele, die 26 Teilbereiche in 4 Schlüsselbereichen der Informatik abdecken, verschiedene Aufgabenformen und Wissens- sowie Schlussfolgerungsbereiche einschließen. Unter Verwendung von CS-Bench führen wir eine umfassende Bewertung von über 30 gängigen LLMs durch, die die Beziehung zwischen der Leistung in der Informatik und den Modellgrößen aufzeigen. Wir analysieren auch quantitativ die Gründe für das Versagen bestehender LLMs und heben Verbesserungsrichtungen hervor, einschließlich Wissensergänzung und Informatik-spezifischer Schlussfolgerung. Weitere Experimente zur Kreuzfähigkeit zeigen eine hohe Korrelation zwischen den Fähigkeiten von LLMs in der Informatik und ihren Fähigkeiten in Mathematik und Codierung. Darüber hinaus zeigen spezialisierte LLMs für Mathematik und Codierung auch starke Leistungen in mehreren Teilbereichen der Informatik. In Zukunft sehen wir CS-Bench als Grundpfeiler für LLM-Anwendungen im Bereich der Informatik und als Wegbereiter für die Bewertung der vielfältigen Schlussfolgerungsfähigkeiten von LLMs. Die CS-Bench-Daten und Evaluationscode sind unter https://github.com/csbench/csbench verfügbar.
Aktuelle multimodale und multitask-Grundlagenmodelle wie 4M oder UnifiedIO zeigen vielversprechende Ergebnisse, aber in der Praxis sind ihre Out-of-the-Box-Fähigkeiten, verschiedene Eingaben zu akzeptieren und verschiedene Aufgaben auszuführen, aufgrund der (in der Regel eher geringen) Anzahl der Modalitäten und Aufgaben, auf die sie trainiert sind, begrenzt. In diesem Paper erweitern wir ihre Fähigkeiten, indem wir ein einziges Modell auf dutzende hochgradig diverse Modalitäten trainieren und Co-Training auf groß angelegten multimodalen Datensätzen und Textkorpora durchführen. Dies beinhaltet das Training auf mehreren semantischen und geometrischen Modalitäten, Merkmalskarten von aktuellen State-of-the-Art-Modellen wie DINOv2 und ImageBind, Pseudo-Labels von Spezialmodellen wie SAM und 4DHumans sowie eine Reihe neuer Modalitäten, die neue Möglichkeiten bieten, mit dem Modell zu interagieren und die Generierung zu steuern, beispielsweise Bildmetadaten oder Farbpaletten. Ein entscheidender Schritt in diesem Prozess ist die Durchführung einer diskreten Tokenisierung auf verschiedenen Modalitäten, sei es bildähnliche Daten, Merkmalskarten neuronaler Netzwerke, Vektoren, strukturierte Daten wie Instanzsegmentierung oder menschliche Posen oder Daten, die als Text dargestellt werden können. Dadurch erweitern wir die Out-of-the-Box-Fähigkeiten von multimodalen Modellen und zeigen speziell die Möglichkeit, ein Modell zu trainieren, um mindestens 3x mehr Aufgaben/Modalitäten zu lösen als bestehende Modelle, und dies ohne Leistungsverlust. Dies ermöglicht feiner abgestimmte und kontrollierbare multimodale Generierungsfähigkeiten und ermöglicht es uns, die Destillation von Modellen, die auf vielfältigen Daten und Zielen trainiert sind, in ein vereinheitlichtes Modell zu untersuchen. Wir skalieren das Training erfolgreich auf ein Modell mit drei Milliarden Parametern unter Verwendung von dutzenden Modalitäten und verschiedenen Datensätzen. Die resultierenden Modelle und der Trainingscode sind unter 4m.epfl.ch Open Source verfügbar.
In jüngster Zeit haben Fortschritte in der Bildgenerierung die Erstellung hochwertiger Bilder aus Textbedingungen ermöglicht. Bei der Bewältigung multimodaler Bedingungen, wie Text in Kombination mit Referenzerscheinungen, haben bestehende Methoden Schwierigkeiten, mehrere Bedingungen effektiv auszubalancieren und zeigen in der Regel eine Präferenz für eine Modalität gegenüber anderen. Um diese Herausforderung anzugehen, stellen wir EMMA vor, ein neuartiges Bildgenerierungsmodell, das multimodale Eingaben akzeptiert und auf dem modernsten Text-zu-Bild (T2I) Diffusionsmodell, ELLA, aufbaut. EMMA integriert nahtlos zusätzliche Modalitäten neben Text, um die Bildgenerierung durch ein innovatives Multi-modal Feature Connector-Design zu lenken, das textuelle und ergänzende Modalinformationen effektiv mithilfe eines speziellen Aufmerksamkeitsmechanismus integriert. Durch das Einfrieren aller Parameter im ursprünglichen T2I Diffusionsmodell und nur Anpassen einiger zusätzlicher Schichten enthüllen wir eine interessante Entdeckung, dass das vorab trainierte T2I Diffusionsmodell heimlich multimodale Eingaben akzeptieren kann. Diese interessante Eigenschaft erleichtert die Anpassung an verschiedene bestehende Frameworks und macht EMMA zu einem flexiblen und effektiven Werkzeug zur Erzeugung personalisierter und kontextbewusster Bilder und sogar Videos. Darüber hinaus stellen wir eine Strategie vor, um gelernte EMMA-Module zusammenzusetzen, um Bilder gleichzeitig auf mehrere Modalitäten bedingt zu erzeugen, wodurch die Notwendigkeit für zusätzliches Training mit gemischten multimodalen Eingaben entfällt. Umfangreiche Experimente zeigen die Wirksamkeit von EMMA bei der Aufrechterhaltung hoher Treue und Detailtreue in generierten Bildern und zeigen ihr Potenzial als robuste Lösung für fortgeschrittene multimodale bedingte Bildgenerierungsaufgaben.
Wir schlagen vor, eine omni-modale Intelligenz aufzubauen, die in der Lage ist, jede Modalität zu verstehen und universelle Repräsentationen zu erlernen. Konkret schlagen wir ein skalierbares Vortrainingsparadigma namens Multimodal Context (MiCo) vor, das die Anzahl der Modalitäten und die Datenmenge sowie die Modellparameter im Vortrainingsprozess skalieren kann. Mit MiCo zeigen die vortrainierten Modelle signifikante emergente Fähigkeiten im multimodalen Lernen, die anhand der folgenden Aufgaben evaluiert werden: i) Einzelmodalitäts-Wahrnehmungs-Benchmarks von 10 verschiedenen Modalitäten, ii) 25 Kreismodalitäts-Verständnisaufgaben wie Retrieval, Frage-Antwort, Beschriftung und iii) 18 multimodale große Sprachmodell-Benchmarks. Unsere Modelle stellen 37 neue Rekorde für Spitzenleistungen auf. Wir hoffen, dass unsere Forschung zur Entwicklung einer omni-modalen Intelligenz beitragen könnte. Code und Modelle sind unter https://github.com/invictus717/MiCo verfügbar.
Eine der vorherrschenden Methoden zur Schulung von Weltmodellen ist die autoregressive Vorhersage im Ausgaberaum des nächsten Elements einer Sequenz. In der natürlichen Sprachverarbeitung (NLP) nimmt dies die Form von Großen Sprachmodellen (LLMs) an, die das nächste Token vorhersagen; in der Computer Vision (CV) nimmt dies die Form von autoregressiven Modellen an, die das nächste Frame/Token/Pixel vorhersagen. Dieser Ansatz unterscheidet sich jedoch in mehreren Aspekten von der menschlichen Kognition. Erstens beeinflussen menschliche Vorhersagen über die Zukunft aktiv interne kognitive Prozesse. Zweitens bewerten Menschen natürlich die Plausibilität von Vorhersagen über zukünftige Zustände. Basierend auf dieser Fähigkeit und drittens, indem sie beurteilen, wann Vorhersagen ausreichend sind, weisen Menschen eine dynamische Menge Zeit zur Vorhersage zu. Dieser adaptive Prozess ist analog zum System-2-Denken in der Psychologie. All diese Fähigkeiten sind fundamental für den Erfolg von Menschen bei hochrangigem Denken und Planen. Daher führen wir zur Bewältigung der Einschränkungen traditioneller autoregressiver Modelle, die diese menschenähnlichen Fähigkeiten nicht aufweisen, Energy-Based World Models (EBWM) ein. EBWM beinhaltet das Training eines Energiebasierten Modells (EBM), um die Kompatibilität eines gegebenen Kontexts und eines vorhergesagten zukünftigen Zustands vorherzusagen. Auf diese Weise ermöglicht EBWM Modellen, alle drei Facetten der menschlichen Kognition zu erreichen, die beschrieben wurden. Darüber hinaus haben wir eine Variante des traditionellen autoregressiven Transformers entwickelt, die speziell für Energiebasierte Modelle geeignet ist, genannt den Energy-Based Transformer (EBT). Unsere Ergebnisse zeigen, dass EBWM besser mit Daten und GPU-Stunden skaliert als traditionelle autoregressive Transformer in der CV und dass EBWM vielversprechende frühe Skalierung in der NLP bietet. Folglich bietet dieser Ansatz einen spannenden Weg zur Schulung zukünftiger Modelle, die in der Lage sind, System-2-Denken zu entwickeln und intelligent über Zustandsräume zu suchen.
Trotz der Fortschritte bei Large Language Models (LLMs), wie sie beispielsweise bei Modellen wie GPT-4 und Claude zu sehen sind, haben kleinere LLMs wie Llama und Mistral oft Schwierigkeiten, tiefgründige und kohärente Dialoge zu generieren. In diesem Paper wird ein neuartiges zweistufiges Grob-zu-Fein-Akteur-Modell vorgestellt, um den inhärenten Einschränkungen in den konversationellen und analytischen Fähigkeiten von kleinformatigen LLMs entgegenzuwirken. Unser Ansatz beginnt mit dem Richtlinienbasierten Groben Akteur, der eine von uns als "Continuous Maximization" bezeichnete Technik einsetzt. Der Grobe Akteur etabliert einen verbesserten, wissensreichen Pool, der in der Lage ist, sich mit menschlichen Präferenzstilen in Analyse und Argumentation zu vereinigen. Durch den RLHF-Prozess verwendet er Continuous Maximization, eine Strategie, die dynamisch und adaptiv die Ausgabelängenbeschränkung erweitert und somit die Generierung von detaillierteren und analytischeren Inhalten ermöglicht. Anschließend verfeinert der Feine Akteur diese analytischen Inhalte, um die Generierung von übermäßig redundanten Informationen des Groben Akteurs zu adressieren. Wir stellen einen "Knowledge Residue Merger"-Ansatz vor, der die Inhalte des Groben Akteurs verfeinert und mit einem bestehenden Instruktionsmodell fusioniert, um Qualität, Korrektheit und Redundanzen zu reduzieren. Wir haben unsere Methodik auf das beliebte Mistral-Modell angewendet und Mistral-C2F entwickelt, das eine herausragende Leistung bei 11 allgemeinen Sprachaufgaben und der MT-Bench-Dialogaufgabe gezeigt hat und ähnlich dimensionierte Modelle sowie sogar größere Modelle mit 13B und 30B Parametern übertroffen hat. Unser Modell hat die konversationellen und analytischen Argumentationsfähigkeiten signifikant verbessert.
Wir präsentieren eine neue Aufgabe und Benchmark zur Bewertung der Fähigkeit von Text-zu-Bild (T2I)-Generationsmodellen, Bilder zu erzeugen, die dem gesunden Menschenverstand im wirklichen Leben entsprechen, die wir Commonsense-T2I nennen. Anhand von zwei gegnerischen Texteingaben, die einen identischen Satz von Handlungswörtern mit geringfügigen Unterschieden enthalten, wie z.B. "eine Glühbirne ohne Strom" vs. "eine Glühbirne mit Strom", bewerten wir, ob T2I-Modelle visuell-gesunden Menschenverstand anwenden können, z.B. Bilder erzeugen, die entsprechend "die Glühbirne ist nicht beleuchtet" vs. "die Glühbirne ist beleuchtet" passen. Commonsense-T2I stellt eine gegnerische Herausforderung dar, indem es paarweise Texteingaben zusammen mit erwarteten Ausgaben bereitstellt. Der Datensatz wird sorgfältig von Experten kuratiert und mit feingranulierten Labels, wie gesunder Menschenverstandstyp und Wahrscheinlichkeit der erwarteten Ausgaben, annotiert, um die Analyse des Modellverhaltens zu unterstützen. Wir bewerten eine Vielzahl von State-of-the-Art (SOTA) T2I-Modellen und stellen überraschenderweise fest, dass es immer noch eine große Kluft zwischen der Bildsynthese und echten Fotos gibt - selbst das DALL-E 3-Modell konnte nur 48,92% bei Commonsense-T2I erreichen, und das stabile Diffusion XL-Modell erreicht nur eine Genauigkeit von 24,92%. Unsere Experimente zeigen, dass GPT-angereicherte Eingaben diese Herausforderung nicht lösen können, und wir führen eine detaillierte Analyse über mögliche Gründe für eine solche Unzulänglichkeit durch. Wir streben an, dass Commonsense-T2I als Benchmark von hoher Qualität für die Überprüfung des gesunden Menschenverstands bei T2I dient und Fortschritte bei der Bildgenerierung im wirklichen Leben fördert.
Die Videogenerierung birgt viele einzigartige Herausforderungen, die über die der Bildgenerierung hinausgehen. Die zeitliche Dimension führt zu umfangreichen möglichen Variationen zwischen den Frames, bei denen Konsistenz und Kontinuität verletzt werden können. In dieser Studie gehen wir über die Bewertung einfacher Aktionen hinaus und argumentieren, dass generierte Videos das Entstehen neuer Konzepte und deren Übergänge wie in realen Videos im Laufe der Zeit integrieren sollten. Zur Bewertung der zeitlichen Kompositionsstruktur von Videogenerierungsmodellen schlagen wir TC-Bench vor, einen Benchmark mit sorgfältig erstellten Textvorgaben, entsprechenden Ground-Truth-Videos und robusten Bewertungsmetriken. Die Vorgaben verdeutlichen die Anfangs- und Endzustände von Szenen und reduzieren so effektiv Unklarheiten für die Frame-Entwicklung und vereinfachen die Bewertung des Übergangsabschlusses. Darüber hinaus erweitern wir durch die Sammlung von realen Videos, die den Vorgaben entsprechen, die Anwendbarkeit von TC-Bench von textbedingten Modellen auf bildbedingte Modelle, die generative Frame-Interpolation durchführen können. Wir entwickeln auch neue Metriken zur Messung der Vollständigkeit von Komponentenübergängen in generierten Videos, die eine signifikant höhere Korrelation mit menschlichen Bewertungen aufweisen als bestehende Metriken. Unsere umfassenden experimentellen Ergebnisse zeigen, dass die meisten Videogeneratoren weniger als 20% der Kompositionsänderungen erreichen, was einen enormen Raum für zukünftige Verbesserungen aufzeigt. Unsere Analyse deutet darauf hin, dass aktuelle Videogenerierungsmodelle Schwierigkeiten haben, Beschreibungen von Kompositionsänderungen zu interpretieren und verschiedene Komponenten über verschiedene Zeitschritte hinweg zu synthetisieren.
Die Standardstrategie zur Schulung von Large Reconstruction Models (LRMs) mit einem einzigen Ansichtspunkt folgt dem vollständig überwachten Ansatz unter Verwendung von umfangreichen Datensätzen synthetischer 3D-Objekte oder Mehrfachansichtsaufnahmen. Obwohl diese Ressourcen das Schulungsverfahren vereinfachen, sind sie schwer über die bestehenden Datensätze hinaus zu skalieren und repräsentieren nicht unbedingt die tatsächliche Verteilung von Objektformen. Um diese Einschränkungen zu bewältigen, stellen wir in diesem Papier Real3D vor, das erste LRM-System, das mit Einzelansicht realer Bilder trainiert werden kann. Real3D führt ein neuartiges Selbstschulungs-Framework ein, das sowohl von den vorhandenen synthetischen Daten als auch von verschiedenen Einzelansichtsrealbildern profitieren kann. Wir schlagen zwei unüberwachte Verluste vor, die es uns ermöglichen, LRMs auf Pixel- und semantischer Ebene zu überwachen, selbst für Schulungsbeispiele ohne 3D-Grundwahrheit oder neuartige Ansichten. Um die Leistung weiter zu verbessern und die Bilddaten zu skalieren, entwickeln wir einen automatischen Datenkuratierungsansatz, um hochwertige Beispiele aus Bildern in freier Wildbahn zu sammeln. Unsere Experimente zeigen, dass Real3D in vier verschiedenen Evaluierungseinstellungen, die reale und synthetische Daten sowie sowohl in- als auch out-of-domain Formen umfassen, konsistent bessere Leistungen erbringt als frühere Arbeiten. Der Code und das Modell sind hier zu finden: https://hwjiang1510.github.io/Real3D/
Diese Arbeit befasst sich mit der Schätzung der Halluzinationsrate für das kontextbezogene Lernen (ICL) mit Generative AI. Im ICL wird ein bedingtes generatives Modell (CGM) mit einem Datensatz versehen und aufgefordert, eine Vorhersage basierend auf diesem Datensatz zu treffen. Die bayesianische Interpretation des ICL geht davon aus, dass das CGM eine a-posteriori-prädiktive Verteilung über einem unbekannten bayesianischen Modell eines latenten Parameters und Daten berechnet. Aus dieser Perspektive definieren wir eine Halluzination als eine generierte Vorhersage, die unter dem wahren latenten Parameter eine geringe Wahrscheinlichkeit aufweist. Wir entwickeln eine neue Methode, die ein ICL-Problem - das heißt ein CGM, einen Datensatz und eine Vorhersagefrage - annimmt und die Wahrscheinlichkeit schätzt, dass ein CGM eine Halluzination generiert. Unsere Methode erfordert lediglich das Generieren von Abfragen und Antworten aus dem Modell und die Auswertung der Antwort-Log-Wahrscheinlichkeit. Wir evaluieren unsere Methode empirisch an synthetischen Regressions- und natürlichsprachlichen ICL-Aufgaben unter Verwendung großer Sprachmodelle.
Die autoregressive Inferenz von Transformatoren profitiert erheblich von Key-Value (KV)-Caching, kann jedoch bei wachsender Modellgröße, Batchgröße und Sequenzlänge zu erheblichen Speicherengpässen führen. Wir stellen Multi-Layer Key-Value (MLKV)-Sharing vor, einen innovativen Ansatz, der das KV-Sharing über Transformer-Schichten hinweg erweitert, um den Speicherverbrauch über das hinaus zu reduzieren, was mit Multi-Query Attention (MQA) und Grouped-Query Attention (GQA) möglich war. Evaluationen an verschiedenen NLP-Benchmarks und Inferenzmetriken unter Verwendung von trainierten Pythia-160M-Varianten zeigen, dass MLKV den Speicherverbrauch signifikant reduziert, bei minimalem Leistungsverlust, wodurch die KV-Cache-Größe im Vergleich zu MQA um den Faktor 6x verringert wird. Diese Ergebnisse unterstreichen das Potenzial von MLKV für eine effiziente Bereitstellung von Transformer-Modellen im großen Maßstab. Wir stellen den Code unter https://github.com/zaydzuhri/pythia-mlkv zur Verfügung.
Der rasante Fortschritt großer Sprachmodelle (LLMs) erfordert robuste und anspruchsvolle Benchmarks. Bestenlisten wie Chatbot Arena bewerten LLMs anhand der Übereinstimmung ihrer Antworten mit menschlichen Präferenzen. Viele Aufgaben, wie solche im Zusammenhang mit emotionaler Intelligenz, kreativem Schreiben oder Überzeugungskraft, sind jedoch äußerst subjektiv und weisen oft keine einheitliche menschliche Zustimmung auf. Richter können unüberbrückbare Meinungsverschiedenheiten darüber haben, was eine bessere Antwort ausmacht. Um der Herausforderung gerecht zu werden, LLMs in hochgradig subjektiven Aufgaben zu bewerten, schlagen wir einen neuartigen Benchmarking-Ansatz vor, den Sprachmodellrat (LMC). Der LMC arbeitet durch einen demokratischen Prozess, um: 1) einen Testdatensatz durch gleichberechtigte Beteiligung zu formulieren, 2) den Test unter den Ratsmitgliedern durchzuführen und 3) Antworten als kollektive Jury zu bewerten. Wir setzen einen Rat von 20 neuesten LLMs auf einer offenen emotionalen Intelligenzaufgabe ein: Reaktionen auf zwischenmenschliche Dilemmata. Unsere Ergebnisse zeigen, dass der LMC Rankings erzeugt, die trennsamer, robuster und weniger voreingenommen sind als die von einzelnen LLM-Richtern, und im Vergleich zu anderen Benchmarks konsistenter mit einer von Menschen erstellten Bestenliste sind.
Die visuelle Frage-Antwort (VQA) ist eine wichtige Aufgabe in der multimodalen KI und wird häufig verwendet, um die Fähigkeit von Bildsprachmodellen zu testen, Wissen in visuellen und textuellen Daten zu verstehen und zu begründen. Die meisten aktuellen VQA-Modelle verwenden jedoch Datensätze, die hauptsächlich auf Englisch und einigen großen Weltsprachen fokussiert sind, mit Bildern, die typischerweise westlich-zentriert sind. Obwohl in jüngster Zeit Anstrengungen unternommen wurden, die Anzahl der abgedeckten Sprachen in VQA-Datensätzen zu erhöhen, fehlt es immer noch an Vielfalt in Sprachen mit geringen Ressourcen. Vor allem erweitern diese Datensätze oft ihren sprachlichen Bereich durch Übersetzung oder andere Ansätze, behalten jedoch in der Regel die gleichen Bilder bei, was zu einer engen kulturellen Repräsentation führt. Um diese Einschränkungen zu adressieren, haben wir CVQA konstruiert, einen neuen kulturell vielfältigen multilingualen visuellen Frage-Antwort-Benchmark, der entwickelt wurde, um eine breite Palette von Sprachen und Kulturen abzudecken, wobei wir Muttersprachler und Kulturexperten in den Datensammlungsprozess einbeziehen. Als Ergebnis beinhaltet CVQA kulturell geprägte Bilder und Fragen aus 28 Ländern auf vier Kontinenten, die 26 Sprachen mit 11 Skripten abdecken und insgesamt 9k Fragen bereitstellen. Anschließend bewerten wir mehrere multimodale große Sprachmodelle (MLLMs) anhand von CVQA und zeigen, dass der Datensatz für die aktuellen State-of-the-Art-Modelle eine Herausforderung darstellt. Dieser Benchmark kann als eine prüfende Bewertungssuite dienen, um die kulturelle Fähigkeit und Voreingenommenheit von multimodalen Modellen zu bewerten und hoffentlich mehr Forschungsbemühungen zur Steigerung des kulturellen Bewusstseins und der sprachlichen Vielfalt in diesem Bereich anzuregen.
Wir präsentieren LRM-Zero, ein Großes Rekonstruktionsmodell (LRM), das ausschließlich an synthetischen 3D-Daten trainiert wurde und eine hochwertige dünn besiedelte 3D-Rekonstruktion erreicht. Der Kern von LRM-Zero ist unser prozedurales 3D-Datenset, Zeroverse, das automatisch aus einfachen Grundformen mit zufälliger Texturierung und Erweiterungen (z. B. Höhenfelder, boolesche Differenzen und Drahtgitter) synthetisiert wird. Im Gegensatz zu früheren 3D-Datensets (z. B. Objaverse), die oft von Menschen erfasst oder erstellt werden, um reale 3D-Daten zu approximieren, ignoriert Zeroverse vollständig realistische globale Semantik, ist jedoch reich an komplexen geometrischen und texturierten Details, die lokal ähnlich oder sogar komplexer als reale Objekte sind. Wir zeigen, dass unser LRM-Zero, trainiert mit unserem vollständig synthetisierten Zeroverse, eine hohe visuelle Qualität bei der Rekonstruktion von realen Objekten erreichen kann, die mit Modellen, die auf Objaverse trainiert sind, wettbewerbsfähig ist. Wir analysieren auch mehrere kritische Designentscheidungen von Zeroverse, die zur Leistungsfähigkeit und Trainingsstabilität von LRM-Zero beitragen. Unsere Arbeit zeigt, dass die 3D-Rekonstruktion, eine der Kernaufgaben in der 3D-Vision, potenziell ohne die Semantik realer Objekte behandelt werden kann. Der prozedurale Synthesecode von Zeroverse und die interaktive Visualisierung sind verfügbar unter: https://desaixie.github.io/lrm-zero/.
Im allgemeinen Sprachgebrauch wird häufig davon gesprochen, dass Bildgenerierungsmodelle, die auf Diffusionsprozessen basieren, "Halluzinationen" zeigen, also Proben, die nie in den Trainingsdaten auftreten könnten. Aber woher kommen solche Halluzinationen? In diesem Paper untersuchen wir einen bestimmten Fehlermodus in Diffusionsmodellen, den wir als Modusinterpolation bezeichnen. Konkret stellen wir fest, dass Diffusionsmodelle sanft zwischen benachbarten Datenmodi im Trainingsset "interpolieren", um Proben zu generieren, die vollständig außerhalb der Trägermenge der ursprünglichen Trainingsverteilung liegen. Dieses Phänomen führt dazu, dass Diffusionsmodelle Artefakte generieren, die in realen Daten nie existierten (d. h. Halluzinationen). Wir untersuchen systematisch die Gründe für dieses Phänomen und seine Manifestation. Durch Experimente mit 1D- und 2D-Gaußverteilungen zeigen wir, wie eine diskontinuierliche Verlustlandschaft im Decoder des Diffusionsmodells zu einer Region führt, in der jede glatte Approximation solche Halluzinationen verursachen wird. Durch Experimente mit künstlichen Datensätzen verschiedener Formen zeigen wir, wie Halluzinationen zur Generierung von Kombinationen von Formen führen, die nie existierten. Schließlich zeigen wir, dass Diffusionsmodelle tatsächlich erkennen, wenn sie die Trägermenge verlassen und halluzinieren. Dies wird durch die hohe Varianz in der Trajektorie der generierten Probe in den letzten wenigen rückwärtigen Abtastprozessen erfasst. Unter Verwendung eines einfachen Maßes zur Erfassung dieser Varianz können wir über 95% der Halluzinationen zur Generierungszeit entfernen, während wir 96% der in der Trägermenge liegenden Proben beibehalten. Wir schließen unsere Untersuchung ab, indem wir die Auswirkungen solcher Halluzinationen (und ihrer Entfernung) auf den Zusammenbruch (und die Stabilisierung) des rekursiven Trainings anhand synthetischer Daten mit Experimenten an MNIST und dem 2D-Gauß-Datensatz zeigen. Wir veröffentlichen unseren Code unter https://github.com/locuslab/diffusion-model-hallucination.
Die Kompression von Bildern mit ultraniedriger Bitrate ist ein anspruchsvolles und anspruchsvolles Thema. Mit der Entwicklung von großen multimodalen Modellen (LMMs) ist ein Paradigma der Cross-Modalitätskompression (CMC) von Bild-Text-Bild entstanden. Im Vergleich zu traditionellen Codecs kann diese semantische Kompression das Bildformat auf 0,1\% oder sogar weniger reduzieren, was starke potenzielle Anwendungen hat. Allerdings weist CMC bestimmte Mängel in der Konsistenz mit dem Originalbild und der Wahrnehmungsqualität auf. Um dieses Problem zu lösen, führen wir CMC-Bench ein, einen Leistungsbenchmark für die kooperative Leistung von Bild-zu-Text (I2T) und Text-zu-Bild (T2I) Modellen für die Bildkompression. Dieser Benchmark umfasst jeweils 18.000 und 40.000 Bilder, um 6 gängige I2T- und 12 T2I-Modelle zu überprüfen, einschließlich 160.000 subjektiver Präferenzbewertungen, die von menschlichen Experten annotiert wurden. Bei ultraniedrigen Bitraten zeigt diese Arbeit, dass die Kombination einiger I2T- und T2I-Modelle die fortschrittlichsten visuellen Signalcodecs übertroffen hat; gleichzeitig wird hervorgehoben, wo LMMs weiter optimiert werden können, um die Kompressionaufgabe zu verbessern. Wir ermutigen LMM-Entwickler, an diesem Test teilzunehmen, um die Evolution der Protokolle für visuelle Signalcodecs voranzutreiben.
In textgesteuerter Bildgenerierung haben aktuelle Arbeiten durch das Training des Modells auf synthetischen Datensätzen mit zahlreichen Bildpaaren eine überragende Leistung erzielt. Generative Modelle, die auf diesen Datensätzen trainiert sind, können textausgerichtete Bilder für ein spezifisches Thema aus beliebigen Testbildern in einer Zero-Shot-Manier erzeugen. Sie übertreffen sogar Methoden, die zusätzliches Feintuning auf Testbildern erfordern. Allerdings ist der Aufwand für die Erstellung solcher Datensätze für die meisten Forscher unerschwinglich. Um ein einzelnes Trainingspaar zu generieren, feintunen aktuelle Methoden ein vortrainiertes Text-zu-Bild-Modell auf das Thema des Bildes, um fein abgestimmte Details zu erfassen, und verwenden dann das feinabgestimmte Modell, um Bilder für dasselbe Thema basierend auf kreativen Textvorgaben zu erstellen. Folglich kann die Konstruktion eines groß angelegten Datensatzes mit Millionen von Themen Hunderttausende von GPU-Stunden erfordern. Um dieses Problem anzugehen, schlagen wir Toffee vor, eine effiziente Methode zur Erstellung von Datensätzen für themenorientierte Bearbeitung und Generierung. Speziell erfordert unsere Datensatzkonstruktion kein Feintuning auf Themen-Ebene. Nach dem Vortraining von zwei generativen Modellen können wir eine unendliche Anzahl hochwertiger Proben generieren. Wir erstellen den ersten groß angelegten Datensatz für themenorientierte Bildbearbeitung und Generierung, der 5 Millionen Bildpaare, Textvorgaben und Masken enthält. Unser Datensatz ist 5-mal so groß wie der bisher größte Datensatz, jedoch sind unsere Kosten um Zehntausende von GPU-Stunden niedriger. Um den vorgeschlagenen Datensatz zu testen, schlagen wir auch ein Modell vor, das sowohl themenorientierte Bildbearbeitung als auch Generierung ermöglicht. Durch einfaches Training des Modells auf unserem vorgeschlagenen Datensatz erzielt es wettbewerbsfähige Ergebnisse und verdeutlicht die Wirksamkeit des vorgeschlagenen Datensatzkonstruktions-Frameworks.