Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen LlamaGen vor, eine neue Familie von Bildgenerierungsmodellen, die das originale „next-token prediction“-Paradigma großer Sprachmodelle auf den visuellen Generierungsbereich anwenden. Es ist eine bejahende Antwort darauf, ob einfache autoregressive Modelle, z. B. Llama, ohne induktive Voreingenommenheiten gegenüber visuellen Signalen Spitzenleistungen bei der Bildgenerierung erzielen können, wenn sie ordnungsgemäß skaliert werden. Wir überprüfen erneut die Designräume von Bild-Tokenizern, die Skalierungseigenschaften von Bildgenerierungsmodellen und die Qualität ihrer Trainingsdaten. Das Ergebnis dieser Untersuchung besteht aus: (1) Einem Bild-Tokenizer mit einer Downsample-Rate von 16, einer Rekonstruktionsqualität von 0,94 rFID und einer Codebuchnutzung von 97% im ImageNet-Benchmark. (2) Eine Reihe von klassenkonditionalen Bildgenerierungsmodellen mit 111M bis 3,1B Parametern, die auf ImageNet 256x256-Benchmarks 2,18 FID erreichen und die beliebten Diffusionsmodelle wie LDM, DiT übertreffen. (3) Ein textkonditionales Bildgenerierungsmodell mit 775M Parametern, das durch zweistufiges Training an LAION-COCO und hochästhetischen Bildern die Wettbewerbsfähigkeit bei visueller Qualität und Textausrichtung demonstriert. (4) Wir bestätigen die Wirksamkeit von LLM-Service-Frameworks bei der Optimierung der Inferenzgeschwindigkeit von Bildgenerierungsmodellen und erzielen eine Beschleunigung von 326% - 414%. Wir veröffentlichen alle Modelle und Codes, um die Open-Source-Community der visuellen Generierung und multimodalen Grundlagenmodelle zu unterstützen.
Sprachagenten führen komplexe Aufgaben aus, indem sie Werkzeuge verwenden, um jeden Schritt präzise auszuführen. Die meisten bestehenden Agenten basieren jedoch auf proprietären Modellen oder sind darauf ausgelegt, spezifische Aufgaben wie Mathematik oder Fragestellungen mit mehreren Schritten zu bearbeiten. Wir stellen Husky vor, einen ganzheitlichen, Open-Source-Sprachagenten, der lernt, über einen vereinheitlichten Aktionsraum zu argumentieren, um eine vielfältige Palette komplexer Aufgaben zu bewältigen, die numerisches, tabellarisches und wissensbasiertes Denken erfordern. Husky wechselt zwischen zwei Phasen: 1) Generierung der nächsten Aktion zur Lösung einer gegebenen Aufgabe und 2) Ausführung der Aktion mithilfe von Expertenmodellen und Aktualisierung des aktuellen Lösungszustands. Wir identifizieren eine umfassende Ontologie von Aktionen zur Bewältigung komplexer Aufgaben und kuratieren hochwertige Daten zur Schulung von Expertenmodellen zur Ausführung dieser Aktionen. Unsere Experimente zeigen, dass Husky im Vergleich zu früheren Sprachagenten auf 14 Evaluierungsdatensätzen besser abschneidet. Darüber hinaus stellen wir HuskyQA vor, einen neuen Evaluierungssatz, der Sprachagenten auf gemischte Werkzeugargumentation testet, mit Schwerpunkt auf dem Abrufen fehlenden Wissens und der Durchführung numerischer Argumentation. Trotz Verwendung von 7B-Modellen erreicht oder übertrifft Husky Leistungsgrenzen wie GPT-4 bei diesen Aufgaben, was die Wirksamkeit unseres ganzheitlichen Ansatzes zur Bewältigung komplexer Denkprobleme zeigt. Unser Code und unsere Modelle sind unter https://github.com/agent-husky/Husky-v1 verfügbar.
Fortschritte im multimodalen Lernen, insbesondere im Bereich der Videoverarbeitung und -erzeugung, erfordern hochwertige Video-Text-Datensätze zur Verbesserung der Modellleistung. Vript begegnet diesem Problem mit einem sorgfältig annotierten Korpus von 12K hochauflösenden Videos, die detaillierte, dichte und skriptähnliche Untertitel für über 420K Clips bieten. Jeder Clip hat einen Untertitel von ~145 Wörtern, was über 10-mal länger ist als die meisten Video-Text-Datensätze. Im Gegensatz zu Untertiteln, die nur statische Inhalte in früheren Datensätzen dokumentieren, verbessern wir die Video-Untertitelung zu Video-Skripting, indem wir nicht nur den Inhalt, sondern auch die Kameraoperationen dokumentieren, einschließlich der Aufnahmetypen (mittlere Aufnahme, Nahaufnahme usw.) und Kamerabewegungen (Schwenken, Neigen usw.). Durch die Nutzung des Vript untersuchen wir drei Trainingsparadigmen, um mehr Text mit der Video-Modalität anstatt von Clip-Untertitel-Paaren abzustimmen. Dies führt zu Vriptor, einem leistungsstarken Video-Untertitelungsmodell unter Open-Source-Modellen, vergleichbar mit GPT-4V in der Leistung. Vriptor ist auch ein leistungsstarkes Modell, das in der Lage ist, dichte und detaillierte Untertitel für lange Videos end-to-end zu generieren. Darüber hinaus führen wir Vript-Hard ein, einen Benchmark, der aus drei Videoverständnis-Aufgaben besteht, die anspruchsvoller sind als bestehende Benchmarks: Vript-HAL ist der erste Benchmark, der Handlungs- und Objekthalluzinationen in Video-LLMs bewertet, Vript-RR kombiniert Schlussfolgerungen mit Abruf, um Frageambiguitäten in langen Video-Fragen und -Antworten zu lösen, und Vript-ERO ist eine neue Aufgabe zur Bewertung des zeitlichen Verständnisses von Ereignissen in langen Videos anstelle von Handlungen in kurzen Videos in früheren Arbeiten. Der gesamte Code, Modelle und Datensätze sind unter https://github.com/mutonix/Vript verfügbar.
Im Gesundheitsbereich lag der Schwerpunkt der Forschung zu großen Sprachmodellen (LLM) hauptsächlich auf klinischen Aufgaben. Mobile und tragbare Geräte, die selten in solche Aufgaben integriert sind, liefern jedoch umfangreiche, longitudinale Daten für die persönliche Gesundheitsüberwachung. Hier präsentieren wir das Personal Health Large Language Model (PH-LLM), das von Gemini feinabgestimmt wurde, um numerische Zeitreihen persönlicher Gesundheitsdaten zu verstehen und zu analysieren. Wir haben drei Datensätze erstellt und kuratiert, die 1) die Erstellung personalisierter Einblicke und Empfehlungen aus Schlafmustern, körperlicher Aktivität und physiologischen Reaktionen, 2) das Expertenwissen und 3) die Vorhersage selbstberichteter Schlafergebnisse testen. Für die erste Aufgabe haben wir in Zusammenarbeit mit Fachexperten 857 Fallstudien entworfen, um reale Szenarien im Schlaf und Fitness zu bewerten. Durch umfassende Evaluation von domänenspezifischen Bewertungskriterien stellten wir fest, dass Gemini Ultra 1.0 und PH-LLM statistisch gesehen keine Unterschiede zur Expertenleistung in Fitness aufweisen, während Experten im Bereich Schlaf überlegen bleiben. Die Feinabstimmung von PH-LLM führte jedoch zu signifikanten Verbesserungen bei der Nutzung relevanter Domänenkenntnisse und der Personalisierung von Informationen für Schlafanalysen. Wir bewerteten das Domänenwissen von PH-LLM anhand von Multiple-Choice-Schlafmedizin- und Fitnessprüfungen. PH-LLM erzielte 79 % bei Schlaf und 88 % bei Fitness und übertraf damit die durchschnittlichen Punktzahlen einer Stichprobe von menschlichen Experten. Schließlich haben wir PH-LLM darauf trainiert, selbstberichtete Schlafqualitätsergebnisse aus textuellen und multimodalen Kodierungsrepräsentationen von tragbaren Daten vorherzusagen und gezeigt, dass multimodale Kodierung erforderlich ist, um die Leistung spezialisierter diskriminativer Modelle zu erreichen. Obwohl weitere Entwicklung und Evaluation im sicherheitskritischen Bereich der persönlichen Gesundheit erforderlich sind, zeigen diese Ergebnisse sowohl das breite Wissen und die Fähigkeiten der Gemini-Modelle als auch den Nutzen der Kontextualisierung physiologischer Daten für persönliche Gesundheitsanwendungen, wie es bei PH-LLM durchgeführt wurde.
Volumetrische Rendering-basierte Methoden, wie NeRF, zeichnen sich bei der HDR-Bildsynthese aus RAW-Bildern, insbesondere für nächtliche Szenen, aus. Allerdings leiden sie unter langen Trainingszeiten und können aufgrund hoher Abtastanforderungen keine Echtzeit-Rendering durchführen. Das Aufkommen von 3D-Gaußscher Splatting (3DGS) ermöglicht Echtzeit-Rendering und schnellere Schulung. Die direkte Implementierung der RAW-Bild-basierten Ansichtssynthese mit 3DGS ist jedoch aufgrund ihrer inhärenten Nachteile herausfordernd: 1) In nächtlichen Szenen führt eine extrem niedrige SNR zu einer schlechten Struktur-aus-Bewegung (SfM)-Schätzung in entfernten Ansichten; 2) die begrenzte Darstellungskapazität der sphärischen Harmonien (SH)-Funktion ist ungeeignet für den linearen RAW-Farbraum; und 3) eine ungenaue Szenenstruktur beeinträchtigt nachgelagerte Aufgaben wie die Fokussierung. Um diese Probleme anzugehen, schlagen wir LE3D (Lighting Every darkness with 3DGS) vor. Unsere Methode schlägt Cone Scatter Initialization vor, um die Schätzung von SfM zu bereichern, und ersetzt SH durch ein Color MLP zur Darstellung des linearen RAW-Farbraums. Darüber hinaus führen wir Tiefenverzerrung und Nah-Fern-Regularisierungen ein, um die Genauigkeit der Szenenstruktur für nachgelagerte Aufgaben zu verbessern. Diese Entwürfe ermöglichen es LE3D, Echtzeit-Novel-View-Synthese, HDR-Rendering, Fokussierung und Tonwertänderungen durchzuführen. Im Vergleich zu früheren volumetrischen Rendering-basierten Methoden reduziert LE3D die Trainingszeit auf 1% und verbessert die Rendering-Geschwindigkeit um bis zu 4.000 Mal für 2K-Auflösungsbilder in Bezug auf FPS. Der Code und der Viewer sind unter https://github.com/Srameo/LE3D verfügbar.
Die Entwicklung von Therapeutika ist ein langwieriger und kostspieliger Prozess, der die Erfüllung vieler verschiedener Kriterien erfordert, und KI-Modelle, die in der Lage sind, diesen Prozess zu beschleunigen, wären von unschätzbarem Wert. Allerdings befassen sich die meisten aktuellen KI-Ansätze nur mit einem eng definierten Satz von Aufgaben, die oft innerhalb eines bestimmten Bereichs begrenzt sind. Um diese Lücke zu überbrücken, stellen wir Tx-LLM vor, ein allgemeines großes Sprachmodell (LLM), das aus PaLM-2 feinabgestimmt wurde und Wissen über verschiedene therapeutische Modalitäten codiert. Tx-LLM wird mit einer Sammlung von 709 Datensätzen trainiert, die 66 Aufgaben umfassen, die verschiedene Stadien des Wirkstoffentdeckungsprozesses abdecken. Mit einem einzigen Satz von Gewichten verarbeitet Tx-LLM gleichzeitig eine Vielzahl von chemischen oder biologischen Entitäten (kleine Moleküle, Proteine, Nukleinsäuren, Zelllinien, Krankheiten), die mit Freitext durchsetzt sind, und kann so eine breite Palette von zugehörigen Eigenschaften vorhersagen. Dabei erreicht es eine wettbewerbsfähige Leistung bei 43 von 66 Aufgaben und übertrifft die SOTA bei 22 Aufgaben. Insbesondere bei Aufgaben, die molekulare SMILES-Repräsentationen mit Text wie Zellliniennamen oder Krankheitsnamen kombinieren, ist Tx-LLM besonders leistungsstark und übertrifft im Durchschnitt die Bestleistung. Wir beobachten Hinweise auf positive Übertragung zwischen Aufgaben mit verschiedenen Arten von Arzneimitteln (z. B. Aufgaben mit kleinen Molekülen und Aufgaben mit Proteinen) und untersuchen den Einfluss von Modellgröße, Feinabstimmung im Bereich und Aufforderungsstrategien auf die Leistung. Wir glauben, dass Tx-LLM einen wichtigen Schritt in Richtung LLMs darstellt, die biochemisches Wissen codieren, und in Zukunft eine Rolle als End-to-End-Tool im gesamten Wirkstoffentwicklungsprozess spielen könnte.
Dieses Papier stellt VALL-E 2 vor, den neuesten Fortschritt in neuronalen Codec-Sprachmodellen, der einen Meilenstein in der Null-Schuss-Text-zu-Sprache-Synthese (TTS) darstellt und erstmals die menschliche Parität erreicht. Basierend auf seinem Vorgänger, VALL-E, führt die neue Iteration zwei bedeutende Verbesserungen ein: Die Wiederholungsbewusste Abtastung verfeinert den ursprünglichen Nukleus-Abtastprozess, indem sie die Token-Wiederholung in der Dekodierungshistorie berücksichtigt. Dies stabilisiert nicht nur die Dekodierung, sondern umgeht auch das Problem der unendlichen Schleife. Das Gruppierte Code-Modellieren organisiert Codec-Codes in Gruppen, um die Sequenzlänge effektiv zu verkürzen, was nicht nur die Inferenzgeschwindigkeit steigert, sondern auch den Herausforderungen der langen Sequenzmodellierung entgegenwirkt. Unsere Experimente mit den LibriSpeech- und VCTK-Datensätzen zeigen, dass VALL-E 2 bisherige Systeme in der Sprachrobustheit, Natürlichkeit und Sprecherähnlichkeit übertrifft. Es ist das erste seiner Art, das die menschliche Parität in diesen Benchmarks erreicht. Darüber hinaus synthetisiert VALL-E 2 konsistent hochwertige Sprache, selbst für Sätze, die aufgrund ihrer Komplexität oder wiederholten Phrasen traditionell herausfordernd sind. Die Vorteile dieser Arbeit könnten wertvolle Bemühungen unterstützen, wie beispielsweise die Erzeugung von Sprache für Personen mit Aphasie oder Menschen mit amyotropher Lateralsklerose. Demos von VALL-E 2 werden unter https://aka.ms/valle2 veröffentlicht.
Moderne Ausrichtungstechniken basierend auf menschlichen Präferenzen, wie RLHF und DPO, verwenden in der Regel Divergenzregularisierung relativ zum Referenzmodell, um die Trainingsstabilität zu gewährleisten. Dies beschränkt jedoch oft die Flexibilität der Modelle während der Ausrichtung, insbesondere wenn es eine klare Verteilungsabweichung zwischen den Präferenzdaten und dem Referenzmodell gibt. In diesem Paper konzentrieren wir uns auf die Ausrichtung von aktuellen Text-zu-Bild-Diffusionsmodellen, wie Stable Diffusion XL (SDXL), und stellen fest, dass dieses "Referenzmismatch" tatsächlich ein signifikantes Problem bei der Ausrichtung dieser Modelle aufgrund der unstrukturierten Natur der visuellen Modalitäten ist: z.B. kann eine Präferenz für einen bestimmten stilistischen Aspekt leicht eine solche Diskrepanz hervorrufen. Angeregt durch diese Beobachtung schlagen wir eine neuartige und speichereffiziente Präferenzausrichtungsmethode für Diffusionsmodelle vor, die nicht von einem Referenzmodell abhängt, genannt margin-aware preference optimization (MaPO). MaPO maximiert gemeinsam den Wahrscheinlichkeitsabstand zwischen den bevorzugten und nicht bevorzugten Bildersets und die Wahrscheinlichkeit der bevorzugten Sets, wobei gleichzeitig allgemeine stilistische Merkmale und Präferenzen gelernt werden. Zur Evaluation führen wir zwei neue paarweise Präferenzdatensätze ein, die selbstgenerierte Bildpaare von SDXL, Pick-Style und Pick-Safety, umfassen und verschiedene Szenarien des Referenzmismatches simulieren. Unsere Experimente bestätigen, dass MaPO die Ausrichtung bei Pick-Style und Pick-Safety sowie die allgemeine Präferenzausrichtung bei Verwendung von Pick-a-Pic v2 signifikant verbessern kann, wobei SDXL und andere bestehende Methoden übertroffen werden. Unser Code, Modelle und Datensätze sind öffentlich über https://mapo-t2i.github.io verfügbar.
Große Sprachmodelle (LLMs) haben beeindruckende Leistungen bei Sprachaufgaben gezeigt, stehen jedoch vor Herausforderungen bei der Bereitstellung auf ressourcenbeschränkten Geräten aufgrund ihrer umfangreichen Parameter und der Abhängigkeit von dichten Multiplikationen, was zu hohen Speicheranforderungen und Latenzengpässen führt. Die Reparametrisierung durch Verschieben und Addieren bietet eine vielversprechende Lösung, indem teure Multiplikationen in hardwarefreundliche Primitiven in den Aufmerksamkeits- und Mehrschichtperzeptron (MLP)-Schichten eines LLMs ersetzt werden. Aktuelle Reparametrisierungstechniken erfordern jedoch ein Training von Grund auf oder eine vollständige Feinabstimmung der Parameter, um die Genauigkeit wiederherzustellen, was für LLMs ressourcenintensiv ist. Um dies zu lösen, schlagen wir vor, vortrainierte LLMs durch nachträgliches Training mit Verschieben-und-Addieren-Reparametrisierung zu beschleunigen und effiziente Multiplikationsfreie Modelle zu erstellen, genannt ShiftAddLLM. Konkret quantisieren wir jede Gewichtsmatrix in binäre Matrizen, die mit gruppenweisen Skalierungsfaktoren gepaart sind. Die zugehörigen Multiplikationen werden in (1) Verschiebungen zwischen Aktivierungen und Skalierungsfaktoren und (2) Abfragen und Additionen gemäß den binären Matrizen reparametrisiert. Um den Genauigkeitsverlust zu reduzieren, präsentieren wir eine Multi-Objektiv-Optimierungsmethode, um sowohl Gewichts- als auch Ausgangsaktivierungsreparametrisierungsfehler zu minimieren. Darüber hinaus entwickeln wir basierend auf unterschiedlichen Empfindlichkeiten in den Schichten gegenüber der Reparametrisierung eine automatisierte Bit-Allokationsstrategie, um den Speicherverbrauch und die Latenz weiter zu reduzieren. Experimente mit fünf LLM-Familien und acht Aufgaben bestätigen konsistent die Wirksamkeit von ShiftAddLLM, wobei durchschnittliche Verbesserungen der Verwirrung von 5,6 bzw. 22,7 Punkten bei vergleichbarer oder niedrigerer Latenz im Vergleich zu den wettbewerbsfähigsten quantisierten LLMs mit 3 bzw. 2 Bits erzielt werden, sowie mehr als 80% Speicher- und Energieeinsparungen gegenüber den originalen LLMs. Codes und Modelle sind verfügbar unter https://github.com/GATECH-EIC/ShiftAddLLM.
Wie Menschen Bilder effizient und effektiv erwerben können, war schon immer eine grundlegende Frage. Eine typische Lösung ist die Text-zu-Bild-Suche in einer vorhandenen Datenbank anhand der Textabfrage; jedoch fehlt es der begrenzten Datenbank in der Regel an Kreativität. Im Gegensatz dazu haben jüngste Durchbrüche in der Text-zu-Bild-Erzeugung es möglich gemacht, ausgefallene und vielfältige visuelle Inhalte zu produzieren, aber es gibt Herausforderungen bei der Synthese von wissensintensiven Bildern. In dieser Arbeit überdenken wir das Verhältnis zwischen Text-zu-Bild-Erzeugung und -Suche und schlagen einen vereinheitlichten Rahmen im Kontext von Multimodalen Großen Sprachmodellen (MLLMs) vor. Speziell untersuchen wir zunächst die intrinsischen diskriminativen Fähigkeiten von MLLMs und führen eine generative Suchmethode ein, um die Suche auf eine trainingsfreie Weise durchzuführen. Anschließend vereinen wir Erzeugung und Suche auf eine autoregressive Weise und schlagen ein autonomes Entscheidungsmodul vor, um das am besten passende Bild zwischen erzeugten und abgerufenen Bildern als Antwort auf die Textabfrage auszuwählen. Darüber hinaus erstellen wir eine Benchmark namens TIGeR-Bench, die kreative und wissensintensive Bereiche umfasst, um die Bewertung der vereinheitlichten Text-zu-Bild-Erzeugung und -Suche zu standardisieren. Umfangreiche experimentelle Ergebnisse auf TIGeR-Bench und zwei Such-Benchmarks, nämlich Flickr30K und MS-COCO, belegen die Überlegenheit und Wirksamkeit unserer vorgeschlagenen Methode.
Bestehende Methoden zur Synthese von beleuchtungsvariablen Ansichten - unter Verwendung einer Reihe von Bildern eines Objekts unter unbekannter Beleuchtung, um eine 3D-Repräsentation wiederherzustellen, die aus neuen Blickwinkeln unter einer Zielbeleuchtung gerendert werden kann - basieren auf inverser Darstellung und versuchen, die Objektgeometrie, Materialien und Beleuchtung zu entwirren, die die Eingabebilder erklären. Darüber hinaus beinhaltet dies typischerweise Optimierung durch differenzierbares Monte Carlo-Rendering, das spröde und rechenaufwendig ist. In dieser Arbeit schlagen wir einen einfacheren Ansatz vor: Wir beleuchten zunächst jedes Eingabebild mithilfe eines Bildverdünnungsmodells, das auf Beleuchtung konditioniert ist, und rekonstruieren dann ein Neuronales Strahlungsfeld (NeRF) mit diesen beleuchteten Bildern, aus dem wir neue Ansichten unter der Zielbeleuchtung rendern. Wir zeigen, dass diese Strategie überraschend wettbewerbsfähig ist und Spitzenresultate in mehreren Beleuchtungs-Benchmarks erzielt. Bitte besuchen Sie unsere Projektseite unter https://illuminerf.github.io/.
Die Destillation großer latenter Diffusionsmodelle (LDMs) in solche, aus denen schnell Proben entnommen werden können, erregt zunehmendes Forschungsinteresse. Allerdings stehen die meisten bestehenden Methoden vor einem Dilemma, bei dem sie entweder (i) von mehreren einzelnen destillierten Modellen abhängen, um unterschiedliche Probenahmebudgets zu bewältigen, oder (ii) die Generationsqualität mit begrenzten (z. B. 2-4) und/oder moderaten (z. B. 5-8) Probenahmeschritten opfern. Um diesen Herausforderungen zu begegnen, erweitern wir die kürzlich vorgestellte Mehrschritt-Konsistenzdestillationsstrategie (MCD) auf repräsentative LDMs und etablieren den Ansatz der Mehrschritt-Latenz-Konsistenzmodelle (MLCMs) für die kostengünstige und hochwertige Bildsynthese. MLCM dient als einheitliches Modell für verschiedene Probenahmeschritte aufgrund der vielversprechenden Eigenschaften von MCD. Wir erweitern MCD weiterhin um eine progressive Trainingstrategie, um die Zwischensegmentkonsistenz zu stärken und die Qualität von Generierungen mit wenigen Schritten zu verbessern. Wir verwenden die Zustände aus den Probenahmetrajektorien des Lehrmodells als Trainingsdaten für MLCMs, um die Anforderungen an hochwertige Trainingsdatensätze zu erhöhen und die Kluft zwischen dem Training und der Inferenz des destillierten Modells zu überbrücken. MLCM ist kompatibel mit Präferenzlernstrategien zur weiteren Verbesserung der visuellen Qualität und ästhetischen Anziehungskraft. Empirisch gesehen kann MLCM hochwertige, ansprechende Bilder mit nur 2-8 Probenahmeschritten generieren. Auf dem MSCOCO-2017-5K-Benchmark erzielt MLCM, das aus SDXL destilliert wurde, einen CLIP-Score von 33,30, einen ästhetischen Score von 6,19 und eine Bildbelohnung von 1,20 mit nur 4 Schritten und übertrifft damit deutlich den 4-Schritt-LCM [23], den 8-Schritt-SDXL-Lightning [17] und den 8-Schritt-HyperSD [33]. Wir zeigen auch die Vielseitigkeit von MLCMs in Anwendungen wie kontrollierter Generierung, Bildstiletransfer und chinesischer-zu-Bild-Generierung.
Wir schlagen ExtraNeRF vor, eine neuartige Methode zur Extrapolation des Blickfelds, das von einem Neuralen Strahlungsfeld (NeRF) behandelt wird. Unsere Hauptidee besteht darin, NeRFs zu nutzen, um szenenspezifische, fein abgestufte Details zu modellieren, und gleichzeitig Diffusionsmodelle zu nutzen, um über unsere beobachteten Daten hinaus zu extrapolieren. Eine Schlüsselkomponente besteht darin, die Sichtbarkeit zu verfolgen, um zu bestimmen, welche Teile der Szene nicht beobachtet wurden, und sich darauf zu konzentrieren, diese Regionen konsistent mit Diffusionsmodellen zu rekonstruieren. Unsere Hauptbeiträge umfassen ein sichtbarkeitsbewusstes, auf Diffusion basierendes Inpainting-Modul, das auf den Eingangsbildern feinabgestimmt ist und einen anfänglichen NeRF mit mäßiger Qualität (oft unscharfe) Inpainting-Regionen liefert, gefolgt von einem zweiten Diffusionsmodell, das auf den Eingangsbildern trainiert ist, um die Inpainting-Bilder aus dem ersten Durchgang konsistent zu verbessern, insbesondere zu schärfen. Wir zeigen hochwertige Ergebnisse, die über eine kleine Anzahl von (typischerweise sechs oder weniger) Eingangsansichten hinausgehen, indem wir effektiv über das NeRF hinausgehen und neu verdeckte Regionen innerhalb des ursprünglichen Betrachtungsvolumens inpainten. Wir vergleichen quantitativ und qualitativ mit verwandten Arbeiten und zeigen signifikante Fortschritte gegenüber dem Stand der Technik.
Wir schlagen einen neuartigen Ansatz für die 3D-Mesh-Rekonstruktion aus Multi-View-Bildern vor. Unser Verfahren orientiert sich an großen Rekonstruktionsmodellen wie LRM, die einen Transformer-basierten Triplane-Generator und ein Neural Radiance Field (NeRF)-Modell verwenden, das auf Multi-View-Bildern trainiert ist. Allerdings führen wir in unserem Verfahren mehrere wichtige Modifikationen ein, die es uns ermöglichen, die Qualität der 3D-Rekonstruktion signifikant zu verbessern. Zunächst analysieren wir die ursprüngliche LRM-Architektur und identifizieren einige Schwachstellen. Anschließend führen wir entsprechende Modifikationen an der LRM-Architektur ein, die zu einer verbesserten Repräsentation von Multi-View-Bildern und einer effizienteren Schulung führen. Zweitens extrahieren wir zur Verbesserung der geometrischen Rekonstruktion und zur Ermöglichung der Überwachung bei voller Bildauflösung Meshes aus dem NeRF-Feld auf differenzierbare Weise und feinabstimmen das NeRF-Modell durch Mesh-Rendering. Diese Modifikationen ermöglichen es uns, Spitzenleistungen bei beiden 2D- und 3D-Evaluierungsmetriken zu erzielen, wie z.B. einem PSNR von 28,67 auf dem Google Scanned Objects (GSO)-Datensatz. Trotz dieser überlegenen Ergebnisse hat unser Feed-Forward-Modell immer noch Schwierigkeiten, komplexe Texturen wie Text und Porträts auf Assets zu rekonstruieren. Um dies zu lösen, führen wir ein leichtgewichtiges Texturfeinabstimmungsverfahren pro Instanz ein. Dieses Verfahren verfeinert die Triplane-Repräsentation und das NeRF-Farbschätzmodell auf der Mesh-Oberfläche unter Verwendung der Eingabe-Multi-View-Bilder in nur 4 Sekunden. Diese Verfeinerung verbessert den PSNR auf 29,79 und ermöglicht eine getreue Rekonstruktion komplexer Texturen wie Text. Darüber hinaus ermöglicht unser Ansatz verschiedene nachgelagerte Anwendungen, einschließlich der Text- oder Bild-zu-3D-Generierung.