Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Magicoder vor, eine Reihe vollständig quelloffener (Code, Gewichte und Daten) Large Language Models (LLMs) für Code, die die Lücke zu den führenden Code-Modellen erheblich verringern, während sie nicht mehr als 7B Parameter aufweisen. Die Magicoder-Modelle werden mit 75K synthetischen Instruktionsdaten trainiert, die mithilfe von OSS-Instruct generiert wurden, einem neuartigen Ansatz, der LLMs mit Open-Source-Codeausschnitten anreichert, um hochwertige Instruktionsdaten für Code zu erzeugen. Unsere Hauptmotivation besteht darin, die inhärente Verzerrung der von LLMs generierten synthetischen Daten zu verringern, indem wir sie mit einer Fülle von Open-Source-Referenzen ausstatten, um vielfältigere, realistischere und kontrollierbarere Daten zu produzieren. Die Orthogonalität von OSS-Instruct und anderen Datengenerierungsmethoden wie Evol-Instruct ermöglicht es uns zudem, ein verbessertes MagicoderS zu entwickeln. Sowohl Magicoder als auch MagicoderS übertreffen deutlich die state-of-the-art Code-Modelle mit ähnlicher oder sogar größerer Größe in einer Vielzahl von Coding-Benchmarks, einschließlich Python-Text-zu-Code-Generierung, mehrsprachigem Coding und der Vervollständigung von Data-Science-Programmen. Bemerkenswerterweise übertrifft MagicoderS-CL-7B, basierend auf CodeLlama, sogar das renommierte ChatGPT auf HumanEval+ (66,5 vs. 65,9 in pass@1). Insgesamt eröffnet OSS-Instruct eine neue Richtung für die Instruktionsfeinabstimmung mit geringer Verzerrung und hoher Qualität unter Verwendung reichhaltiger Open-Source-Referenzen.
Text-to-Video-Diffusionsmodelle haben die Videogenerierung erheblich vorangetrieben. Allerdings stellt die Anpassung dieser Modelle zur Erzeugung von Videos mit maßgeschneiderten Bewegungen eine erhebliche Herausforderung dar. Insbesondere stoßen sie auf Hindernisse bei (a) der präzisen Reproduktion von Bewegungen aus einem Zielvideo und (b) der Erzeugung vielfältiger visueller Variationen. Beispielsweise führen einfache Erweiterungen von Methoden zur Anpassung statischer Bilder auf Videos oft zu komplexen Verflechtungen von Erscheinungsbild- und Bewegungsdaten. Um dies zu bewältigen, stellen wir hier das Video Motion Customization (VMC)-Framework vor, einen neuartigen One-Shot-Tuning-Ansatz, der entwickelt wurde, um temporale Aufmerksamkeitsschichten innerhalb von Video-Diffusionsmodellen anzupassen. Unser Ansatz führt ein neuartiges Bewegungsdestillationsziel ein, das Restvektoren zwischen aufeinanderfolgenden Frames als Bewegungsreferenz verwendet. Der Diffusionsprozess bewahrt dann niederfrequente Bewegungspfade, während hochfrequentes bewegungsunabhängiges Rauschen im Bildraum reduziert wird. Wir validieren unsere Methode im Vergleich zu modernsten Video-Generierungsmodellen über verschiedene reale Bewegungen und Kontexte hinweg. Unsere Codes, Daten und die Projekt-Demo sind unter https://video-motion-customization.github.io zu finden.
Der Abstimmungsprozess (Alignment) großer Sprachmodelle (LLMs) umfasst in der Regel Instruktionslernen durch überwachtes Fein-Tuning (SFT) und Präferenzabstimmung mittels Verstärkungslernen aus menschlichem Feedback (RLHF). Eine aktuelle Studie, LIMA (Zhou et al. 2023), zeigt, dass bereits die Verwendung von nur 1.000 Beispielen für SFT eine signifikante Abstimmungsleistung erzielen kann, was darauf hindeutet, dass der Effekt des Alignment-Tunings möglicherweise „oberflächlich“ ist. Dies wirft Fragen darüber auf, wie genau das Alignment-Tuning ein Basismodell (Base LLM) transformiert. Wir analysieren den Effekt des Alignment-Tunings, indem wir die Verschiebung der Token-Verteilung zwischen Basismodellen und ihren abgestimmten Versionen untersuchen. Unsere Ergebnisse zeigen, dass Basismodelle und ihre alignment-getunten Versionen bei der Dekodierung der meisten Token-Positionen nahezu identisch abschneiden. Die meisten Verteilungsverschiebungen treten bei stilistischen Token auf. Diese direkten Beweise stützen die von LIMA vorgeschlagene Oberflächliche-Alignment-Hypothese stark. Basierend auf diesen Erkenntnissen hinterfragen wir das Alignment von LLMs, indem wir die Forschungsfrage stellen: Wie effektiv können wir Basismodelle ohne SFT oder RLHF abstimmen? Um dies zu beantworten, führen wir eine einfache, tuning-freie Alignment-Methode namens URIAL ein. URIAL erreicht eine effektive Abstimmung ausschließlich durch In-Context-Lernen (ICL) mit Basismodellen, wobei nur drei konstante stilistische Beispiele und ein System-Prompt benötigt werden. Wir führen eine feingranulare und interpretierbare Evaluation anhand einer vielfältigen Beispielsammlung namens JUST-EVAL-INSTRUCT durch. Die Ergebnisse zeigen, dass Basismodelle mit URIAL die Leistung von mit SFT oder SFT+RLHF abgestimmten LLMs erreichen oder sogar übertreffen können. Wir zeigen, dass die Lücke zwischen tuning-freien und tuning-basierten Alignment-Methoden durch strategisches Prompting und ICL erheblich verringert werden kann. Unsere Erkenntnisse über die oberflächliche Natur des Alignment-Tunings sowie die Ergebnisse mit URIAL legen nahe, dass eine tiefere Analyse und ein theoretisches Verständnis des Alignments für zukünftige LLM-Forschung entscheidend sind.
Diese Studie untersucht die identitätserhaltende Bildsynthese, eine faszinierende Aufgabe in der Bildgenerierung, die darauf abzielt, die Identität eines Subjekts zu bewahren, während ein persönlicher, stilistischer Touch hinzugefügt wird. Traditionelle Methoden wie Textual Inversion und DreamBooth haben Fortschritte in der Erstellung benutzerdefinierter Bilder gemacht, weisen jedoch erhebliche Nachteile auf. Dazu gehören der Bedarf an umfangreichen Ressourcen und Zeit für das Feinabstimmen sowie die Notwendigkeit mehrerer Referenzbilder. Um diese Herausforderungen zu bewältigen, führt unsere Forschung einen neuartigen Ansatz zur identitätserhaltenden Synthese ein, mit einem besonderen Fokus auf menschliche Bilder. Unser Modell nutzt einen direkten Feed-Forward-Mechanismus, der den Bedarf an intensivem Feinabstimmen umgeht und dadurch eine schnelle und effiziente Bildgenerierung ermöglicht. Kern unserer Innovation ist ein hybrides Leitungsrahmenwerk, das stilisierte Bilder, Gesichtsbilder und textuelle Eingabeaufforderungen kombiniert, um den Bildgenerierungsprozess zu steuern. Diese einzigartige Kombination ermöglicht es unserem Modell, eine Vielzahl von Anwendungen zu erzeugen, wie beispielsweise künstlerische Porträts und identitätsverschmolzene Bilder. Unsere experimentellen Ergebnisse, einschließlich qualitativer und quantitativer Bewertungen, demonstrieren die Überlegenheit unserer Methode gegenüber bestehenden Basismodellen und früheren Arbeiten, insbesondere in Bezug auf ihre bemerkenswerte Effizienz und die Fähigkeit, die Identität des Subjekts mit hoher Treue zu bewahren.
Diffusionsmodelle haben in jüngster Zeit aufgrund ihrer bemerkenswerten generativen Fähigkeiten im Bereich der Bildsynthese beispiellose Aufmerksamkeit erlangt. Trotz ihrer Stärken verursachen diese Modelle oft erhebliche Rechenkosten, die hauptsächlich auf den sequenziellen Entrauschungsprozess und die umfangreiche Modellgröße zurückzuführen sind. Traditionelle Methoden zur Komprimierung von Diffusionsmodellen beinhalten in der Regel umfangreiche Nachschulungen, was Kosten- und Machbarkeitsprobleme mit sich bringt. In diesem Artikel stellen wir DeepCache vor, ein neuartiges, trainingsfreies Paradigma, das Diffusionsmodelle aus der Perspektive der Modellarchitektur beschleunigt. DeepCache nutzt die inhärente zeitliche Redundanz, die in den sequenziellen Entrauschungsschritten von Diffusionsmodellen beobachtet wird, indem es Merkmale über benachbarte Entrauschungsstufen zwischenspeichert und abruft, wodurch redundante Berechnungen reduziert werden. Unter Ausnutzung der Eigenschaften des U-Nets verwenden wir die hochrangigen Merkmale erneut, während wir die niedrigrangigen Merkmale auf sehr kostengünstige Weise aktualisieren. Diese innovative Strategie ermöglicht eine Beschleunigung um den Faktor 2,3 für Stable Diffusion v1.5 bei nur einem Rückgang von 0,05 im CLIP-Score und um den Faktor 4,1 für LDM-4-G bei einer leichten Verschlechterung von 0,22 im FID auf ImageNet. Unsere Experimente zeigen auch die Überlegenheit von DeepCache gegenüber bestehenden Beschneidungs- und Destillationsmethoden, die eine Nachschulung erfordern, sowie seine Kompatibilität mit aktuellen Sampling-Techniken. Darüber hinaus stellen wir fest, dass DeepCache bei gleichem Durchsatz vergleichbare oder sogar leicht verbesserte Ergebnisse mit DDIM oder PLMS effektiv erzielt. Der Code ist verfügbar unter https://github.com/horseee/DeepCache.
Aktuelle, auf Diffusion basierende Video-Bearbeitung konzentriert sich hauptsächlich auf struktur-erhaltende Bearbeitung, indem verschiedene dichte Korrespondenzen genutzt werden, um zeitliche Konsistenz und Bewegungsausrichtung zu gewährleisten. Diese Ansätze sind jedoch oft unwirksam, wenn die gewünschte Bearbeitung eine Formänderung beinhaltet. Um die Video-Bearbeitung mit Formänderung zu ermöglichen, untersuchen wir in dieser Arbeit das angepasste Austauschen von Video-Subjekten, bei dem wir das Hauptsubjekt in einem Quellvideo durch ein Zielsubjekt mit einer anderen Identität und potenziell unterschiedlicher Form ersetzen möchten. Im Gegensatz zu früheren Methoden, die auf dichten Korrespondenzen basieren, führen wir das VideoSwap-Framework ein, das semantische Punktkorrespondenzen nutzt, inspiriert durch unsere Beobachtung, dass nur eine kleine Anzahl semantischer Punkte notwendig ist, um die Bewegungsbahn des Subjekts auszurichten und seine Form zu verändern. Wir führen auch verschiedene Benutzerpunkt-Interaktionen ein (z. B. das Entfernen und Verschieben von Punkten), um verschiedene semantische Punktkorrespondenzen zu adressieren. Umfangreiche Experimente demonstrieren state-of-the-art Ergebnisse beim Austauschen von Video-Subjekten in einer Vielzahl von realen Videos.
Wir schlagen eine Methode vor, um das Segment Anything Model (SAM) effizient mit der Fähigkeit zur Erstellung regionaler Bildbeschreibungen auszustatten. SAM zeigt eine starke Generalisierbarkeit bei der Segmentierung beliebiger Objekte, verfügt jedoch nur über begrenzte Fähigkeiten zur semantischen Interpretation. Durch die Einführung eines leichtgewichtigen, abfragebasierten Feature-Mixers richten wir die regionsspezifischen Merkmale im Einbettungsraum von Sprachmodellen aus, um anschließend Bildbeschreibungen zu generieren. Da die Anzahl der trainierbaren Parameter gering ist (typischerweise in der Größenordnung von zehn Millionen), erfordert dies weniger Rechenleistung, weniger Speicherbedarf und weniger Kommunikationsbandbreite, was sowohl zu schnellem als auch skalierbarem Training führt. Um das Problem der Knappheit von Daten für regionale Bildbeschreibungen zu adressieren, schlagen wir vor, unser Modell zunächst auf Objekterkennungs- und Segmentierungsaufgaben vorzutrainieren. Wir bezeichnen diesen Schritt als Schwachüberwachungs-Vortraining, da die Vortrainingsdaten nur Kategorienamen anstelle von vollständigen Satzbeschreibungen enthalten. Das Schwachüberwachungs-Vortraining ermöglicht es uns, viele öffentlich verfügbare Datensätze zur Objekterkennung und Segmentierung zu nutzen. Wir führen umfangreiche Experimente durch, um die Überlegenheit unserer Methode zu demonstrieren und jede Designentscheidung zu validieren. Diese Arbeit dient als Schrittstein zur Skalierung von Daten für regionale Bildbeschreibungen und beleuchtet die Erforschung effizienter Wege, SAM mit regionaler Semantik zu erweitern. Die Projektseite sowie der zugehörige Code sind über den folgenden Link zugänglich: https://xk-huang.github.io/segment-caption-anything/.
Trotz der jüngsten Fortschritte in der Text-zu-Video-Generierung übersehen bestehende Studien häufig das Problem, dass in synthetisierten Videos nur räumliche Inhalte, nicht jedoch zeitliche Bewegungen durch den Text gesteuert werden. Um dieser Herausforderung zu begegnen, stellt diese Arbeit ein praktisches System namens LivePhoto vor, das es Benutzern ermöglicht, ein Bild von Interesse mit Textbeschreibungen zu animieren. Zunächst etablieren wir eine starke Baseline, die einem gut trainierten Text-zu-Bild-Generator (z. B. Stable Diffusion) ermöglicht, ein Bild als zusätzliche Eingabe zu verwenden. Anschließend statten wir den verbesserten Generator mit einem Bewegungsmodul für die zeitliche Modellierung aus und schlagen eine sorgfältig gestaltete Trainingspipeline vor, um Texte und Bewegungen besser zu verknüpfen. Insbesondere berücksichtigen wir die Tatsachen, dass (1) Text Bewegungen nur grob beschreiben kann (z. B. unabhängig von der Bewegungsgeschwindigkeit) und (2) Text sowohl Inhalts- als auch Bewegungsbeschreibungen enthalten kann. Daher führen wir ein Modul zur Schätzung der Bewegungsintensität sowie ein Textgewichtungsmodul ein, um die Mehrdeutigkeit der Text-zu-Bewegungs-Zuordnung zu verringern. Empirische Belege legen nahe, dass unser Ansatz in der Lage ist, bewegungsbezogene textuelle Anweisungen wie Aktionen, Kamerabewegungen oder sogar das Erschaffen neuer Inhalte aus dem Nichts (z. B. das Eingießen von Wasser in ein leeres Glas) gut in Videos zu dekodieren. Interessanterweise bietet unser System den Benutzern dank des vorgeschlagenen Intensitätslernmechanismus ein zusätzliches Steuersignal (d. h. die Bewegungsintensität) neben dem Text zur Anpassung von Videos.
Reinforcement Learning from Human Feedback (RLHF) hat sich als das vorherrschende Paradigma für die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen etabliert. Typischerweise umfasst RLHF den ersten Schritt des Lernens eines Belohnungsmodells aus menschlichem Feedback, das oft in Form von Präferenzen zwischen Paaren von Textgenerierungen eines vortrainierten LLMs ausgedrückt wird. Anschließend wird die Policy des LLMs durch Optimierung feinabgestimmt, um das Belohnungsmodell durch einen Reinforcement-Learning-Algorithmus zu maximieren. Eine inhärente Einschränkung aktueller Belohnungsmodelle ist jedoch ihre Unfähigkeit, die Vielfalt menschlicher Präferenzen vollständig abzubilden, sowie ihre Abhängigkeit von der Stichprobenverteilung. In dieser Studie stellen wir eine alternative Pipeline für die Feinabstimmung von LLMs unter Verwendung von paarweisem menschlichem Feedback vor. Unser Ansatz beinhaltet das initiale Lernen eines Präferenzmodells, das auf zwei Eingaben basierend auf einem Prompt konditioniert ist, gefolgt von der Suche nach einer Policy, die konsequent Antworten generiert, die gegenüber denen einer konkurrierenden Policy bevorzugt werden, wodurch das Nash-Gleichgewicht dieses Präferenzmodells definiert wird. Wir bezeichnen diesen Ansatz als Nash Learning from Human Feedback (NLHF). Im Kontext einer tabellarischen Policy-Darstellung präsentieren wir eine neuartige algorithmische Lösung, Nash-MD, die auf den Prinzipien des Mirror Descent basiert. Dieser Algorithmus erzeugt eine Folge von Policies, wobei die letzte Iteration zum regularisierten Nash-Gleichgewicht konvergiert. Zusätzlich untersuchen wir parametrische Darstellungen von Policies und führen Gradientenabstiegsalgorithmen für Deep-Learning-Architekturen ein. Um die Wirksamkeit unseres Ansatzes zu demonstrieren, präsentieren wir experimentelle Ergebnisse zur Feinabstimmung eines LLMs für eine Textzusammenfassungsaufgabe. Wir glauben, dass NLHF einen überzeugenden Weg für das Lernen von Präferenzen und die Policy-Optimierung bietet, mit dem Potenzial, das Feld der Ausrichtung von LLMs an menschlichen Präferenzen voranzubringen.
Wie unterscheiden sich zwei Bildersätze? Die Erkennung von Unterschieden auf Satzebene ist entscheidend für das Verständnis von Modellverhalten und die Analyse von Datensätzen, doch das manuelle Durchsuchen von Tausenden von Bildern ist unpraktisch. Um diesen Entdeckungsprozess zu unterstützen, untersuchen wir die Aufgabe, die Unterschiede zwischen zwei Bildersätzen automatisch zu beschreiben, was wir als Set Difference Captioning bezeichnen. Diese Aufgabe nimmt die Bildersätze D_A und D_B als Eingabe und gibt eine Beschreibung aus, die häufiger auf D_A als auf D_B zutrifft. Wir skizzieren einen zweistufigen Ansatz, der zunächst Kandidaten für Unterschiedsbeschreibungen aus den Bildersätzen vorschlägt und diese Kandidaten dann neu bewertet, indem überprüft wird, wie gut sie die beiden Sätze unterscheiden können. Wir stellen VisDiff vor, das zunächst die Bilder beschreibt und ein Sprachmodell dazu anregt, Kandidatenbeschreibungen vorzuschlagen, und diese Beschreibungen dann mithilfe von CLIP neu bewertet. Um VisDiff zu evaluieren, sammeln wir VisDiffBench, einen Datensatz mit 187 gepaarten Bildersätzen und zugehörigen Ground-Truth-Unterschiedsbeschreibungen. Wir wenden VisDiff auf verschiedene Domänen an, wie den Vergleich von Datensätzen (z. B. ImageNet vs. ImageNetV2), den Vergleich von Klassifikationsmodellen (z. B. Zero-Shot CLIP vs. überwachtes ResNet), die Zusammenfassung von Modellfehlermodi (überwachtes ResNet), die Charakterisierung von Unterschieden zwischen generativen Modellen (z. B. StableDiffusionV1 und V2) und die Entdeckung dessen, was Bilder einprägsam macht. Mit VisDiff können wir interessante und bisher unbekannte Unterschiede in Datensätzen und Modellen finden, was seinen Nutzen bei der Aufdeckung nuancenreicher Erkenntnisse demonstriert.
Diffusionsmodelle mit ihrer mächtigen Ausdrucksfähigkeit und hohen Probenqualität haben viele neue Anwendungen und Anwendungsfälle in verschiedenen Domänen ermöglicht. Für die Probenerzeugung verlassen sich diese Modelle auf ein denoisierendes neuronales Netzwerk, das Bilder durch iteratives Entrauschen erzeugt. Dennoch ist die Rolle der Architektur des denoisierenden Netzwerks nicht gut erforscht, wobei sich die meisten Bemühungen auf faltungsbasierte Residual-U-Nets stützen. In diesem Artikel untersuchen wir die Effektivität von Vision Transformern im diffusionsbasierten generativen Lernen. Insbesondere schlagen wir ein neues Modell vor, das als Diffusion Vision Transformers (DiffiT) bezeichnet wird und aus einer hybriden hierarchischen Architektur mit einem U-förmigen Encoder und Decoder besteht. Wir führen ein neuartiges zeitabhängiges Self-Attention-Modul ein, das es Attention-Schichten ermöglicht, ihr Verhalten in verschiedenen Phasen des Entrauschungsprozesses effizient anzupassen. Wir stellen auch latent DiffiT vor, das aus einem Transformermodell mit den vorgeschlagenen Self-Attention-Schichten besteht und für die Erzeugung hochauflösender Bilder verwendet wird. Unsere Ergebnisse zeigen, dass DiffiT überraschend effektiv bei der Erzeugung hochwertiger Bilder ist und state-of-the-art (SOTA) Benchmarks bei einer Vielzahl von klassenbedingten und unbedingten Syntheseaufgaben erreicht. Im latenten Raum erreicht DiffiT einen neuen SOTA FID-Score von 1,73 auf dem ImageNet-256-Datensatz. Repository: https://github.com/NVlabs/DiffiT
Listwise-Reranker, die auf großen Sprachmodellen (LLM) basieren, sind der Zero-Shot-Standard der Technik. Allerdings hängen aktuelle Arbeiten in diesem Bereich ausschließlich von GPT-Modellen ab, was sie zu einem Single Point of Failure in der wissenschaftlichen Reproduzierbarkeit macht. Darüber hinaus besteht die Sorge, dass die aktuellen Forschungsergebnisse nur für GPT-Modelle gelten und nicht für LLM im Allgemeinen. In dieser Arbeit heben wir diese Voraussetzung auf und entwickeln erstmals effektive Listwise-Reranker ohne jegliche Abhängigkeit von GPT. Unsere Experimente zur Passagenretrieval zeigen, dass unser bester Listwise-Reranker die auf GPT-3.5 basierenden Listwise-Reranker um 13 % übertrifft und 97 % der Effektivität der auf GPT-4 basierenden Modelle erreicht. Unsere Ergebnisse zeigen auch, dass die bestehenden Trainingsdatensätze, die ausdrücklich für punktweises Ranking konstruiert wurden, für den Aufbau solcher Listwise-Reranker unzureichend sind. Stattdessen sind hochwertige Listwise-Ranking-Daten erforderlich und entscheidend, was weitere Arbeiten zum Aufbau von menschlich annotierten Listwise-Datenressourcen erfordert.
Mit den jüngsten bedeutenden Fortschritten bei großen multimodalen Modellen (LMMs) wird die Bedeutung ihrer Verankerungsfähigkeit im visuellen Chat zunehmend erkannt. Trotz aktueller Bemühungen, LMMs die Unterstützung von Verankerung zu ermöglichen, sind ihre Fähigkeiten für Verankerung und Chat meist getrennt, und ihre Chat-Leistung sinkt dramatisch, wenn sie zur Verankerung aufgefordert werden. Das Problem ist das Fehlen eines Datensatzes für verankerten visuellen Chat (GVC). Bestehende Verankerungsdatensätze enthalten nur kurze Beschreibungen. Um dieses Problem zu lösen, haben wir GVC-Daten erstellt, die die Kombination von Verankerungs- und Chat-Fähigkeiten ermöglichen. Um die GVC-Fähigkeiten besser zu bewerten, haben wir einen Benchmark namens Grounding-Bench eingeführt. Zusätzlich haben wir ein Modelldesign vorgeschlagen, das GVC und verschiedene Arten von visuellen Prompts unterstützen kann, indem Segmentierungsmodelle mit Sprachmodellen verbunden werden. Experimentelle Ergebnisse zeigen, dass unser Modell andere LMMs auf Grounding-Bench übertrifft. Darüber hinaus erzielt unser Modell eine wettbewerbsfähige Leistung auf klassischen Verankerungs-Benchmarks wie RefCOCO/+/g und Flickr30K Entities. Unser Code wird unter https://github.com/UX-Decoder/LLaVA-Grounding veröffentlicht.
Wir präsentieren einen neuen Ansatz, genannt GPS-Gaussian, zur Synthese neuer Ansichten einer Figur in Echtzeit. Die vorgeschlagene Methode ermöglicht das Rendering in 2K-Auflösung unter einer spärlichen Kameraperspektive. Im Gegensatz zum ursprünglichen Gaussian Splatting oder neuronalen impliziten Rendering-Verfahren, die eine Optimierung pro Subjekt erfordern, führen wir Gaußsche Parameterkarten ein, die auf den Quellansichten definiert sind, und regressieren direkt die Eigenschaften des Gaussian Splatting für die sofortige Synthese neuer Ansichten ohne jegliche Feinabstimmung oder Optimierung. Zu diesem Zweck trainieren wir unser Gaußsches Parameter-Regressionsmodul auf einer großen Menge von menschlichen Scan-Daten, gemeinsam mit einem Tiefenschätzmodul, um 2D-Parameterkarten in den 3D-Raum zu überführen. Das vorgeschlagene Framework ist vollständig differenzierbar, und Experimente auf mehreren Datensätzen zeigen, dass unsere Methode den Stand der Technik übertrifft und dabei eine außergewöhnliche Rendering-Geschwindigkeit erreicht.
Wir stellen einen Ansatz vor, der Objekterkennung als Vorhersage des nächsten Tokens formuliert. Die Idee besteht darin, einen Sprachdecoder anzuwenden, der autoregressiv Texttokens aus Bild-Einbettungen vorhersagt, um Labels zu bilden. Um diesen Vorhersageprozess in der Autoregression zu verankern, passen wir eine nicht-kausale Aufmerksamkeitsmaske für den Decoder an, die zwei Schlüsselmerkmale integriert: die Modellierung von Tokens aus verschiedenen Labels als unabhängig und die Behandlung von Bildtokens als Präfix. Dieser Maskierungsmechanismus inspiriert eine effiziente Methode – das One-Shot-Sampling –, um Tokens mehrerer Labels parallel zu sammeln und die generierten Labels während der Inferenz nach ihren Wahrscheinlichkeiten zu sortieren. Um die Effizienz weiter zu steigern, schlagen wir eine einfache Strategie vor, um einen kompakten Decoder zu konstruieren, indem einfach die Zwischenblöcke eines vortrainierten Sprachmodells verworfen werden. Dieser Ansatz führt zu einem Decoder, der die Leistung des vollständigen Modells erreicht, dabei jedoch deutlich effizienter ist. Der Code ist unter https://github.com/kaiyuyue/nxtp verfügbar.
Die Text-zu-Video-Generierung hat vielversprechende Ergebnisse gezeigt. Allerdings haben Benutzer oft Schwierigkeiten, detaillierte Informationen bereitzustellen, um die Ausgabe des Modells präzise zu steuern, wenn nur natürliche Sprache als Eingabe verwendet wird. In dieser Arbeit schlagen wir die fein abgestimmte kontrollierbare Video-Generierung (FACTOR) vor, um eine detaillierte Steuerung zu erreichen. Konkret zielt FACTOR darauf ab, das Erscheinungsbild und den Kontext von Objekten, einschließlich ihrer Position und Kategorie, in Verbindung mit dem Textprompt zu kontrollieren. Um eine detaillierte Steuerung zu erreichen, schlagen wir ein einheitliches Framework vor, das Steuersignale gemeinsam in das bestehende Text-zu-Video-Modell einfügt. Unser Modell besteht aus einem gemeinsamen Encoder und adaptiven Cross-Attention-Schichten. Durch die Optimierung des Encoders und der eingefügten Schicht passen wir das Modell an, um Videos zu generieren, die sowohl mit den Textprompts als auch mit der fein abgestimmten Steuerung übereinstimmen. Im Vergleich zu bestehenden Methoden, die auf dichten Steuersignalen wie Kantenkarten basieren, bieten wir eine intuitivere und benutzerfreundlichere Schnittstelle, um eine objektbezogene fein abgestimmte Steuerung zu ermöglichen. Unsere Methode erreicht die Kontrollierbarkeit des Erscheinungsbilds von Objekten ohne Feinabstimmung, was den Optimierungsaufwand pro Subjekt für die Benutzer reduziert. Umfangreiche Experimente auf Standard-Benchmark-Datensätzen und benutzerbereitgestellten Eingaben bestätigen, dass unser Modell eine Verbesserung von 70 % in den Kontrollierbarkeitsmetriken gegenüber konkurrenzfähigen Baselines erzielt.
Wir stellen generative Transformer mit unendlichem Vokabular (GIVT) vor, die Vektorsequenzen mit reellwertigen Einträgen erzeugen, anstatt diskrete Tokens aus einem endlichen Vokabular. Dazu schlagen wir zwei überraschend einfache Modifikationen an Decoder-only-Transformer vor: 1) am Eingang ersetzen wir die Lookup-Tabelle für das endliche Vokabular durch eine lineare Projektion der Eingangsvektoren; und 2) am Ausgang ersetzen wir die Logits-Vorhersage (die üblicherweise auf eine kategorische Verteilung abgebildet wird) durch die Parameter eines multivariaten Gaußschen Mischmodells. Inspiriert durch das Bildgenerierungsparadigma von VQ-GAN und MaskGIT, bei dem Transformer verwendet werden, um die diskreten latenten Sequenzen eines VQ-VAE zu modellieren, nutzen wir GIVT, um die nicht quantisierten reellwertigen latenten Sequenzen eines VAE zu modellieren. Bei der Anwendung von GIVT auf die klassenbedingte Bildgenerierung mit iterativem Masked Modeling zeigen wir wettbewerbsfähige Ergebnisse im Vergleich zu MaskGIT, während unser Ansatz sowohl VQ-GAN als auch MaskGIT bei der Anwendung für kausale Modellierung übertrifft. Schließlich erzielen wir wettbewerbsfähige Ergebnisse außerhalb der Bildgenerierung, wenn wir unseren Ansatz auf panoptische Segmentierung und Tiefenschätzung mit einer VAE-basierten Variante des UViM-Frameworks anwenden.
Die Synthese neuer Ansichten aus einem In-the-Wild-Video ist aufgrund von Herausforderungen wie Szenendynamik und mangelnder Parallaxe schwierig. Obwohl bestehende Methoden mit impliziten neuronalen Strahlungsfeldern vielversprechende Ergebnisse gezeigt haben, sind sie langsam in Training und Darstellung. Dieses Papier untersucht explizite Videodarstellungen erneut, um hochwertige neue Ansichten aus einem monokularen Video effizient zu synthetisieren. Wir behandeln statische und dynamische Videoinhalte separat. Insbesondere erstellen wir ein globales statisches Szenenmodell unter Verwendung einer erweiterten, ebenenbasierten Szenendarstellung, um zeitlich kohärente neue Videos zu synthetisieren. Unsere ebenenbasierte Szenendarstellung wird mit sphärischen Harmonischen und Verschiebungskarten erweitert, um sichtabhängige Effekte zu erfassen und nicht-ebene komplexe Oberflächengeometrien zu modellieren. Wir entscheiden uns dafür, den dynamischen Inhalt aus Effizienzgründen als pro-Frame-Punktwolken darzustellen. Obwohl solche Darstellungen anfällig für Inkonsistenzen sind, werden geringfügige zeitliche Inkonsistenzen aufgrund von Bewegung wahrnehmungsmäßig maskiert. Wir entwickeln eine Methode, um eine solche hybride Videodarstellung schnell zu schätzen und neue Ansichten in Echtzeit zu rendern. Unsere Experimente zeigen, dass unsere Methode hochwertige neue Ansichten aus einem In-the-Wild-Video mit vergleichbarer Qualität zu state-of-the-art-Methoden rendern kann, während sie 100x schneller im Training ist und Echtzeit-Rendering ermöglicht.
Groß angelegte Text-zu-Bild (T2I)-Modelle haben in kreativen Bereichen schnell an Bedeutung gewonnen, indem sie visuell ansprechende Ergebnisse aus textuellen Eingabeaufforderungen erzeugen. Die Kontrolle dieser Modelle, um einen konsistenten Stil zu gewährleisten, bleibt jedoch eine Herausforderung, da bestehende Methoden Feinabstimmung und manuelle Eingriffe erfordern, um Inhalt und Stil zu entwirren. In diesem Artikel stellen wir StyleAligned vor, eine neuartige Technik, die darauf abzielt, eine Stilausrichtung innerhalb einer Reihe generierter Bilder zu erreichen. Durch den Einsatz minimaler „Attention Sharing“ während des Diffusionsprozesses gewährleistet unsere Methode die Stilkonsistenz über Bilder hinweg in T2I-Modellen. Dieser Ansatz ermöglicht die Erstellung stilkonformer Bilder mithilfe eines Referenzstils durch eine einfache Inversionsoperation. Die Bewertung unserer Methode über verschiedene Stile und Textaufforderungen hinweg zeigt eine hochwertige Synthese und Treue, was ihre Wirksamkeit bei der Erzielung eines konsistenten Stils über verschiedene Eingaben hinweg unterstreicht.
Traditionelle 3D-Content-Erstellungstools ermöglichen es Nutzern, ihre Vorstellungen zum Leben zu erwecken, indem sie direkte Kontrolle über die Geometrie, das Erscheinungsbild, die Bewegung und den Kamerapfad einer Szene bieten. Die Erstellung computergenerierter Videos ist jedoch ein mühsamer manueller Prozess, der durch aufkommende Text-zu-Video-Diffusionsmodelle automatisiert werden kann. Trotz ihres großen Potenzials sind Video-Diffusionsmodelle schwer zu kontrollieren, was es Nutzern erschwert, ihre eigene Kreativität anzuwenden, anstatt sie zu verstärken. Um diese Herausforderung zu bewältigen, präsentieren wir einen neuartigen Ansatz, der die Kontrollierbarkeit dynamischer 3D-Meshes mit der Ausdruckskraft und Bearbeitbarkeit aufkommender Diffusionsmodelle kombiniert. Zu diesem Zweck nimmt unser Ansatz ein animiertes, niedrig aufgelöstes gerendertes Mesh als Eingabe und injiziert die aus dem dynamischen Mesh gewonnenen Ground-Truth-Korrespondenzinformationen in verschiedene Stufen eines vortrainierten Text-zu-Bild-Generierungsmodells, um hochwertige und zeitlich konsistente Frames zu erzeugen. Wir demonstrieren unseren Ansatz anhand verschiedener Beispiele, in denen Bewegung durch die Animation riggter Assets oder die Änderung des Kamerapfads erzielt werden kann.
Im Bereich der Text-zu-3D-Generierung führt die Nutzung von 2D-Diffusionsmodellen durch Score Distillation Sampling (SDS) häufig zu Problemen wie verschwommenen Darstellungen und mehrfachgesichtigen Geometrien, was hauptsächlich auf den inhärent verrauschten Charakter des SDS-Verlusts zurückzuführen ist. Unsere Analyse identifiziert den Kern dieser Herausforderungen in der Wechselwirkung zwischen den Rauschpegeln im 2D-Diffusionsprozess, der Architektur des Diffusionsnetzwerks und der 3D-Modellrepräsentation. Um diese Einschränkungen zu überwinden, präsentieren wir StableDreamer, eine Methode, die drei Fortschritte integriert. Erstens, inspiriert von InstructNeRF2NeRF, formalisieren wir die Äquivalenz des SDS-Generierungs-Priors und eines einfachen überwachten L2-Rekonstruktionsverlusts. Diese Erkenntnis bietet ein neuartiges Werkzeug zur Fehlerbehebung bei SDS, das wir nutzen, um die Auswirkungen zeitlich abgestufter Rauschpegel auf die Reduzierung mehrfachgesichtiger Geometrien zu zeigen. Zweitens zeigt unsere Analyse, dass während die Bildraum-Diffusion zur geometrischen Präzision beiträgt, die Latentraum-Diffusion entscheidend für die lebendige Farbwiedergabe ist. Basierend auf dieser Beobachtung führt StableDreamer eine zweistufige Trainingsstrategie ein, die diese Aspekte effektiv kombiniert und zu hochwertigen 3D-Modellen führt. Drittens verwenden wir eine anisotrope 3D-Gaußsche Repräsentation, die Neural Radiance Fields (NeRFs) ersetzt, um die Gesamtqualität zu verbessern, den Speicherverbrauch während des Trainings zu reduzieren, die Renderinggeschwindigkeiten zu erhöhen und halbtransparente Objekte besser zu erfassen. StableDreamer reduziert mehrfachgesichtige Geometrien, erzeugt feine Details und konvergiert stabil.
Interaktive 3D-Segmentierung in Radiance Fields ist eine ansprechende Aufgabe, da sie für das Verständnis und die Manipulation von 3D-Szenen von großer Bedeutung ist. Allerdings stehen bestehende Methoden vor Herausforderungen, entweder feinkörnige, multi-granulare Segmentierung zu erreichen oder mit erheblichem Rechenaufwand umzugehen, was Echtzeit-Interaktionen verhindert. In diesem Artikel stellen wir Segment Any 3D GAussians (SAGA) vor, einen neuartigen Ansatz zur interaktiven 3D-Segmentierung, der nahtlos ein 2D-Segmentierungs-Grundmodell mit 3D Gaussian Splatting (3DGS), einem kürzlichen Durchbruch in Radiance Fields, verbindet. SAGA integriert effizient multi-granulare 2D-Segmentierungsergebnisse, die vom Segmentierungs-Grundmodell generiert werden, durch gut durchdachtes kontrastives Training in 3D-Gaußsche Punktmerkmale. Die Auswertung auf bestehenden Benchmarks zeigt, dass SAGA eine wettbewerbsfähige Leistung im Vergleich zu state-of-the-art Methoden erzielen kann. Darüber hinaus ermöglicht SAGA multi-granulare Segmentierung und unterstützt verschiedene Eingabeformen, einschließlich Punkte, Scribbles und 2D-Masken. Bemerkenswert ist, dass SAGA die 3D-Segmentierung in Millisekunden abschließen kann, was eine Beschleunigung um fast das 1000-fache im Vergleich zu früheren SOTA-Methoden darstellt. Die Projektseite befindet sich unter https://jumpat.github.io/SAGA.
Große Sprachmodelle (LLMs) lösen Probleme genauer und interpretierbarer, wenn sie angewiesen werden, die Antwort Schritt für Schritt mithilfe eines „Chain-of-Thought“ (CoT)-Prompts zu erarbeiten. Die Leistung von LLMs bei einer bestimmten Aufgabe kann auch durch überwachtes Feinabstimmen verbessert werden, d.h. durch die Verwendung von Gradientenanstieg auf einigen anpassbaren Parametern, um die durchschnittliche Log-Wahrscheinlichkeit korrekter Antworten aus einem gelabelten Trainingsdatensatz zu maximieren. Die naive Kombination von CoT mit überwachtem Feinabstimmen erfordert nicht nur die Überwachung der korrekten Antworten, sondern auch detaillierter Begründungen, die zu diesen Antworten führen; diese Begründungen sind jedoch aufwendig manuell zu erstellen. Stattdessen schlagen wir eine Feinabstimmungsstrategie vor, die versucht, die marginale Log-Wahrscheinlichkeit der Generierung einer korrekten Antwort mithilfe von CoT-Prompting zu maximieren, wobei annähernd über alle möglichen Begründungen gemittelt wird. Die zentrale Herausforderung besteht darin, aus der Posterior-Verteilung über die Begründungen, bedingt auf die korrekte Antwort, zu sampeln; wir lösen dies mithilfe eines einfachen Markov-Chain-Monte-Carlo (MCMC)-Expectation-Maximization (EM)-Algorithmus, der vom selbstlernenden Denker (STaR), memoized wake-sleep, Markovian score climbing und persistent contrastive divergence inspiriert ist. Dieser Algorithmus ermöglicht auch eine neuartige Kontrollvariablen-Technik, die die Varianz unserer Gradientenschätzungen auf Null reduziert, wenn sich das Modell verbessert. Durch die Anwendung unserer Technik auf GSM8K und die Aufgaben in BIG-Bench Hard stellen wir fest, dass diese MCMC-EM-Feinabstimmungstechnik die Genauigkeit des Modells bei zurückgehaltenen Beispielen typischerweise stärker verbessert als STaR oder Prompt-Tuning mit oder ohne CoT.
Multimodale Large Language Models (MLLMs) haben sich bei der 2D-Bild-Text-Verarbeitung und Bildgenerierung hervorgetan, doch ihr Verständnis der 3D-Welt ist deutlich unzureichend, was den Fortschritt im Bereich des 3D-Sprachverständnisses und der -generierung einschränkt. Um dieses Problem zu lösen, stellen wir GPT4Point vor, ein innovatives und bahnbrechendes Punkt-Sprache-Multimodell, das speziell für das einheitliche Verständnis und die Generierung von 3D-Objekten innerhalb des MLLM-Rahmens entwickelt wurde. GPT4Point, ein leistungsstarkes 3D-MLLM, kann nahtlos eine Vielzahl von Punkt-Text-Referenzaufgaben wie Punktwolken-Beschriftung und Frage-Antwort-Systeme ausführen. Darüber hinaus verfügt GPT4Point über fortschrittliche Fähigkeiten zur kontrollierbaren 3D-Generierung und kann hochwertige Ergebnisse durch die Nutzung von niedrigqualitativen Punkt-Text-Merkmalen erzielen, wobei geometrische Formen und Farben erhalten bleiben. Um den umfangreichen Bedarf an 3D-Objekt-Text-Paaren zu unterstützen, entwickeln wir Pyramid-XL, ein Punkt-Sprache-Datensatz-Annotationswerkzeug. Es erstellt eine groß angelegte Datenbank mit über 1M Objekten unterschiedlicher Textgranularitätsstufen aus dem Objaverse-XL-Datensatz, die für das Training von GPT4Point unerlässlich ist. Ein umfassender Benchmark wurde vorgeschlagen, um die Fähigkeiten im 3D-Punkt-Sprache-Verständnis zu bewerten. In umfangreichen Evaluierungen hat GPT4Point überlegene Leistungen im Verständnis und in der Generierung demonstriert.
Die bemerkenswerten Fähigkeiten großer Sprachmodelle (LLMs) wie GPT-4 resultieren teilweise aus Nachbearbeitungsprozessen wie Reinforcement Learning from Human Feedback (RLHF), bei denen menschliche Präferenzen in einem Belohnungsmodell kodiert werden. Diese Belohnungsmodelle (RMs) verfügen jedoch oft nicht über direktes Wissen darüber, warum oder nach welchen Prinzipien die Präferenzannotationen vorgenommen wurden. In dieser Studie identifizieren wir Prinzipien, die RMs dabei leiten, besser mit menschlichen Präferenzen übereinzustimmen, und entwickeln dann ein axiomatisches Framework, um eine Vielzahl von Präferenzsignalen zu erzeugen, die diese Prinzipien unterstützen. Wir verwenden diese axiomatischen Signale, um ein Modell zur Bewertung von Antworten auf umfangreiche Fragen zu trainieren. Unser Ansatz führt zu einem Präferenzmodell mit nur etwa 220M Parametern, das häufiger mit goldstandardisierten, menschlich annotierten Präferenzlabels übereinstimmt als GPT-4. Die Beiträge dieser Arbeit umfassen: das Training eines eigenständigen Präferenzmodells, das menschlich und von LLMs generierte Antworten auf derselben Skala bewerten kann; die Entwicklung eines axiomatischen Frameworks zur Erzeugung von Trainingsdatenpaaren, die auf bestimmte Prinzipien zugeschnitten sind; und den Nachweis, dass eine kleine Menge axiomatischer Signale kleinen Modellen helfen kann, GPT-4 in der Präferenzbewertung zu übertreffen. Wir veröffentlichen unser Modell auf huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
Das Training mit mehreren Eingabemodalitäten kann die Fähigkeiten eines Sprachmodells erweitern. Hier untersuchen wir, ob ein solches Trainingsregime auch die Qualität und Effizienz dieser Systeme verbessern kann. Wir konzentrieren uns auf Text-Audio und stellen Whisbert vor, das vom Text-Bild-Ansatz von FLAVA (singh_flava_2022) inspiriert ist. In Übereinstimmung mit den Richtlinien von Babylm (warstadt2023papers) pretrainieren wir Whisbert auf einem Datensatz, der nur 100 Millionen Wörter sowie die entsprechenden Sprachaufnahmen aus der wortausgerichteten Version des People's Speech-Datensatzes (galvez_peoples_2021) umfasst. Um die Auswirkungen von Multimodalität zu bewerten, vergleichen wir Versionen des Modells, die entweder nur auf Text oder gleichzeitig auf Audio und Text trainiert werden. Wir stellen fest, dass Whisbert zwar gut auf multimodales Masked Modeling abschneidet und die Babylm-Baselines in den meisten Benchmark-Aufgaben übertrifft, es jedoch Schwierigkeiten hat, sein komplexes Ziel zu optimieren und seine textbasierte Whisbert-Baseline zu übertreffen.
Neural Radiance Fields (NeRFs) zeichnen sich durch die fotorealistische Darstellung statischer Szenen aus. Die Wiedergabe dynamischer, lang andauernder Radiance Fields auf allgegenwärtigen Geräten bleibt jedoch aufgrund von Datenspeicherung und Rechenbeschränkungen eine Herausforderung. In diesem Artikel stellen wir VideoRF vor, den ersten Ansatz, der das Echtzeit-Streaming und Rendering dynamischer Radiance Fields auf mobilen Plattformen ermöglicht. Im Kern steht ein serialisierter 2D-Feature-Bildstrom, der das 4D-Radiance Field in einem darstellt. Wir führen ein speziell angepasstes Trainingsschema ein, das direkt auf diesen 2D-Bereich angewendet wird, um die zeitliche und räumliche Redundanz des Feature-Bildstroms zu gewährleisten. Durch die Nutzung dieser Redundanz zeigen wir, dass der Feature-Bildstrom effizient mit 2D-Videocodecs komprimiert werden kann, was es uns ermöglicht, Video-Hardwarebeschleuniger zu nutzen, um eine Echtzeit-Dekodierung zu erreichen. Andererseits schlagen wir basierend auf dem Feature-Bildstrom eine neuartige Rendering-Pipeline für VideoRF vor, die spezialisierte Raumabbildungen verwendet, um Radiance-Eigenschaften effizient abzufragen. In Kombination mit einem Deferred-Shading-Modell ermöglicht VideoRF dank seiner Effizienz das Echtzeit-Rendering auf mobilen Geräten. Wir haben einen Echtzeit-Interaktiven-Player entwickelt, der das Online-Streaming und Rendering dynamischer Szenen ermöglicht und ein nahtloses und immersives Free-Viewpoint-Erlebnis über eine Reihe von Geräten hinweg bietet, von Desktops bis hin zu Mobiltelefonen.
Wir stellen eine Methode vor, die ein Text-zu-Bild-Modell verwendet, um konsistente Inhalte über mehrere Bildskalen hinweg zu erzeugen, wodurch extreme semantische Zooms in eine Szene ermöglicht werden, z. B. von einer Weitwinkel-Landschaftsansicht eines Waldes bis hin zu einer Makroaufnahme eines Insekts, das auf einem der Baumzweige sitzt. Dies erreichen wir durch einen gemeinsamen Multi-Skalen-Diffusionssampling-Ansatz, der Konsistenz über verschiedene Skalen hinweg fördert, während die Integrität jedes einzelnen Sampling-Prozesses erhalten bleibt. Da jede erzeugte Skala durch einen anderen Text-Prompt gesteuert wird, ermöglicht unsere Methode tiefere Zoomstufen als traditionelle Super-Resolution-Methoden, die Schwierigkeiten haben könnten, neue kontextuelle Strukturen bei stark unterschiedlichen Skalen zu erzeugen. Wir vergleichen unsere Methode qualitativ mit alternativen Techniken in der Bildsuperauflösung und dem Outpainting und zeigen, dass unsere Methode am effektivsten konsistente Inhalte über mehrere Skalen hinweg erzeugt.
Kürzlich hat das Segment Anything Model (SAM) bemerkenswerte Fähigkeiten in der Zero-Shot-Segmentierung gezeigt, während NeRF (Neural Radiance Fields) als Methode für verschiedene 3D-Probleme jenseits der Neuansichtssynthese an Popularität gewonnen hat. Obwohl es bereits erste Versuche gibt, diese beiden Methoden in die 3D-Segmentierung zu integrieren, stehen sie vor der Herausforderung, Objekte in komplexen Szenarien präzise und konsistent zu segmentieren. In diesem Artikel stellen wir Segment Anything for NeRF in High Quality (SANeRF-HQ) vor, um eine hochwertige 3D-Segmentierung beliebiger Objekte in einer gegebenen Szene zu erreichen. SANeRF-HQ nutzt SAM für die Open-World-Objekterkennung, die durch benutzerdefinierte Eingaben gesteuert wird, während es NeRF einsetzt, um Informationen aus verschiedenen Blickwinkeln zu aggregieren. Um die genannten Herausforderungen zu bewältigen, verwenden wir Dichtefelder und RGB-Ähnlichkeit, um die Genauigkeit der Segmentierungsgrenze während der Aggregation zu verbessern. Mit einem Schwerpunkt auf der Segmentierungsgenauigkeit bewerten wir unsere Methode quantitativ anhand mehrerer NeRF-Datensätze, in denen hochwertige Ground-Truth-Daten verfügbar oder manuell annotiert sind. SANeRF-HQ zeigt eine signifikante Qualitätsverbesserung gegenüber bisherigen State-of-the-Art-Methoden in der NeRF-Objekterkennung, bietet eine höhere Flexibilität bei der Objektlokalisierung und ermöglicht eine konsistentere Objekterkennung über mehrere Ansichten hinweg. Weitere Informationen finden Sie unter https://lyclyc52.github.io/SANeRF-HQ/.
Dieses Papier verbessert image-GPT (iGPT), eine der wegweisenden Arbeiten, die autoregressives Pretraining zur Vorhersage der nächsten Pixel für das Lernen visueller Repräsentationen einführen. Es werden zwei einfache, aber wesentliche Änderungen vorgenommen. Erstens verlagern wir das Vorhersageziel von rohen Pixeln zu semantischen Tokens, was ein höheres Verständnis des visuellen Inhalts ermöglicht. Zweitens ergänzen wir das autoregressive Modellieren, indem wir das Modell anweisen, nicht nur die nächsten Tokens, sondern auch die sichtbaren Tokens vorherzusagen. Diese Pipeline ist besonders effektiv, wenn semantische Tokens durch diskriminativ trainierte Modelle wie CLIP kodiert werden. Wir führen diesen neuartigen Ansatz als D-iGPT ein. Umfangreiche Experimente zeigen, dass D-iGPT als starker Lerner visueller Repräsentationen hervorragt: Eine bemerkenswerte Leistung von D-iGPT ist seine überzeugende Leistung auf dem ImageNet-1K-Datensatz – durch das Training auf öffentlich verfügbaren Datensätzen erreicht D-iGPT eine Top-1-Genauigkeit von 89,5 % mit einem einfachen ViT-Large-Modell. Dieses Modell zeigt auch eine starke Generalisierung bei nachgelagerten Aufgaben und Robustheit bei Out-of-Distribution-Stichproben. Der Code ist verfügbar unter https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
In diesem Artikel widmen wir uns der Aufgabe des adaptiven, quellgetriebenen 3D-Szenen-Editing, indem wir ein CustomNeRF-Modell vorschlagen, das eine Textbeschreibung oder ein Referenzbild als Bearbeitungsaufforderung vereinheitlicht. Es ist jedoch nicht trivial, gewünschte Bearbeitungsergebnisse zu erzielen, die mit der Bearbeitungsaufforderung übereinstimmen, da zwei wesentliche Herausforderungen bestehen: die präzise Bearbeitung ausschließlich der Vordergrundregionen und die Multi-View-Konsistenz bei einem Single-View-Referenzbild. Um die erste Herausforderung zu bewältigen, schlagen wir ein Local-Global Iterative Editing (LGIE)-Trainingsschema vor, das zwischen der Bearbeitung der Vordergrundregion und der Bearbeitung des gesamten Bildes wechselt, um eine ausschließliche Manipulation des Vordergrunds bei gleichzeitiger Erhaltung des Hintergrunds zu erreichen. Für die zweite Herausforderung entwerfen wir außerdem eine klassenorientierte Regularisierung, die Klassenprioritäten innerhalb des Generierungsmodells nutzt, um das Inkonsistenzproblem zwischen verschiedenen Ansichten beim bildgestützten Editing zu mildern. Umfangreiche Experimente zeigen, dass unser CustomNeRF präzise Bearbeitungsergebnisse in verschiedenen realen Szenarien sowohl für text- als auch bildgestützte Einstellungen liefert.
Die Suche nach Möglichkeiten, die Texteingabe für Menschen mit schweren motorischen Einschränkungen zu beschleunigen, ist seit langem ein Forschungsgebiet. Die Schließung der Geschwindigkeitslücke bei unterstützenden und alternativen Kommunikationsgeräten (AAC), wie z. B. Eye-Tracking-Tastaturen, ist entscheidend, um die Lebensqualität dieser Personen zu verbessern. Jüngste Fortschritte bei neuronalen Netzwerken für natürliche Sprache bieten neue Möglichkeiten, Strategien und Benutzeroberflächen für eine verbesserte Texteingabe für AAC-Nutzer neu zu denken. In diesem Artikel stellen wir SpeakFaster vor, das aus großen Sprachmodellen (LLMs) und einer gemeinsam entwickelten Benutzeroberfläche für die Texteingabe in stark abgekürzter Form besteht und es ermöglicht, 57 % mehr motorische Aktionen im Vergleich zu traditionellen prädiktiven Tastaturen in einer Offline-Simulation einzusparen. Eine Pilotstudie mit 19 Nicht-AAC-Teilnehmern, die per Hand auf einem Mobilgerät tippten, zeigte Einsparungen bei den motorischen Aktionen, die mit der Offline-Simulation übereinstimmten, während die Gesamttippgeschwindigkeit nur relativ geringfügig beeinflusst wurde. Labortests und Feldversuche mit zwei Eye-Gaze-Tippern, die an Amyotropher Lateralsklerose (ALS) leiden, ergaben Texteingaberaten, die 29–60 % schneller waren als traditionelle Vergleichswerte, was auf die erhebliche Einsparung von aufwendigen Tastenanschlägen durch kontextbewusste Phrasen- und Wortvorhersagen der LLMs zurückzuführen ist. Diese Ergebnisse bieten eine solide Grundlage für die weitere Erforschung einer deutlich beschleunigten Textkommunikation für motorisch eingeschränkte Nutzer und zeigen eine Richtung für die Anwendung von LLMs auf textbasierte Benutzeroberflächen auf.
Große Sprachmodelle (LLMs) haben aufgrund ihrer zunehmend präzisen Antworten und kohärenten Denkfähigkeiten großes Interesse in praktischen Anwendungen geweckt. Angesichts ihrer Natur als Blackbox-Modelle, die komplexe Denkprozesse auf ihre Eingaben anwenden, ist es unvermeidlich, dass die Nachfrage nach skalierbaren und zuverlässigen Erklärungen für die von LLMs generierten Inhalte weiter wachsen wird. In den letzten zehn Jahren gab es bedeutende Entwicklungen in der Erklärbarkeit von neuronalen Netzwerkmodellen. Unter diesen haben sich post-hoc-Erklärungsmethoden, insbesondere Shapley-Werte, als effektiv für die Interpretation von Deep-Learning-Modellen erwiesen. Es gibt jedoch große Herausforderungen bei der Skalierung von Shapley-Werten für LLMs, insbesondere bei der Verarbeitung langer Eingabekontexte mit Tausenden von Tokens und autoregressiv generierten Ausgabesequenzen. Darüber hinaus ist oft unklar, wie die generierten Erklärungen effektiv genutzt werden können, um die Leistung von LLMs zu verbessern. In diesem Artikel stellen wir TextGenSHAP vor, eine effiziente post-hoc-Erklärungsmethode, die spezifische Techniken für Sprachmodelle integriert. Wir zeigen, dass dies zu erheblichen Geschwindigkeitssteigerungen im Vergleich zu herkömmlichen Shapley-Wert-Berechnungen führt, wobei die Verarbeitungszeiten für Token-Erklärungen von Stunden auf Minuten und für Dokument-Erklärungen auf Sekunden reduziert werden. Zusätzlich demonstrieren wir, wie Echtzeit-Shapley-Werte in zwei wichtigen Szenarien genutzt werden können: zur besseren Verständlichkeit von Fragenbeantwortungen in langen Dokumenten durch die Lokalisierung wichtiger Wörter und Sätze; und zur Verbesserung bestehender Dokumentenabrufsysteme durch die Erhöhung der Genauigkeit ausgewählter Passagen und letztlich der endgültigen Antworten.