Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Neuere Arbeiten haben die Hypothese der linearen Repräsentation vorgeschlagen: dass Sprachmodelle Berechnungen durchführen, indem sie eindimensionale Repräsentationen von Konzepten ("Merkmale") im Aktivierungsbereich manipulieren. Im Gegensatz dazu untersuchen wir, ob einige Sprachmodellrepräsentationen möglicherweise von Natur aus mehrdimensional sind. Wir beginnen damit, eine strenge Definition von unzerlegbaren mehrdimensionalen Merkmalen zu entwickeln, basierend darauf, ob sie in unabhängige oder nicht gleichzeitig auftretende niedrigdimensionale Merkmale zerlegt werden können. Motiviert durch diese Definitionen entwerfen wir eine skalierbare Methode, die spärliche Autoencoder verwendet, um automatisch mehrdimensionale Merkmale in GPT-2 und Mistral 7B zu finden. Diese automatisch entdeckten Merkmale umfassen bemerkenswert interpretierbare Beispiele, z. B. kreisförmige Merkmale, die Tage der Woche und Monate des Jahres repräsentieren. Wir identifizieren Aufgaben, bei denen diese exakten Kreise verwendet werden, um Rechenaufgaben mit modularem Rechnen an Tagen der Woche und Monaten des Jahres zu lösen. Schließlich liefern wir Beweise dafür, dass diese kreisförmigen Merkmale tatsächlich die grundlegende Recheneinheit in diesen Aufgaben sind, mit Interventionsversuchen an Mistral 7B und Llama 3 8B, und wir finden weitere kreisförmige Darstellungen, indem wir die verborgenen Zustände für diese Aufgaben in interpretierbare Komponenten zerlegen.
Beweisassistenten wie Lean haben die mathematische Beweisüberprüfung revolutioniert und gewährleisten eine hohe Genauigkeit und Zuverlässigkeit. Obwohl große Sprachmodelle (LLMs) vielversprechend für mathematisches Denken sind, wird ihr Fortschritt in der formalen Theorembeweisführung durch einen Mangel an Trainingsdaten behindert. Um dieses Problem zu lösen, stellen wir einen Ansatz vor, um umfangreiche Lean 4 Beweisdaten zu generieren, die von mathematischen Wettbewerbsproblemen auf Gymnasial- und Bachelor-Niveau abgeleitet sind. Dieser Ansatz beinhaltet die Übersetzung von Problemsätzen in formale Aussagen, die Filterung von minderwertigen Aussagen und die Generierung von Beweisen zur Erstellung synthetischer Daten. Nach Feinabstimmung des DeepSeekMath 7B-Modells auf diesem synthetischen Datensatz, der 8 Millionen formale Aussagen mit Beweisen umfasst, erreichte unser Modell Gesamtbeweisgenerierungsgenauigkeiten von 46,3% mit 64 Beispielen und kumulativ 52% im Lean 4 miniF2F-Test, wobei der Basiswert von GPT-4 bei 23,0% mit 64 Beispielen und einer Baumsuchverstärkungsmethode bei 41,0% lag. Darüber hinaus konnte unser Modell erfolgreich 5 von 148 Problemen im Lean 4 Formalized International Mathematical Olympiad (FIMO) Benchmark beweisen, während GPT-4 keine beweisen konnte. Diese Ergebnisse zeigen das Potenzial der Nutzung von groß angelegten synthetischen Daten zur Verbesserung der Theorembeweisfähigkeiten in LLMs. Sowohl der synthetische Datensatz als auch das Modell werden zur Verfügung gestellt, um weitere Forschung in diesem vielversprechenden Bereich zu erleichtern.
Trotz bedeutender Fortschritte bei der Videogenerierung und -bearbeitung mithilfe von Diffusionsmodellen bleibt die präzise und lokalisierte Videobearbeitung eine erhebliche Herausforderung. Darüber hinaus konzentrieren sich die meisten bestehenden Videobearbeitungsmethoden hauptsächlich auf die Änderung des visuellen Inhalts, während es nur begrenzte Forschung zur Bewegungsbearbeitung gibt. In diesem Artikel präsentieren wir einen neuartigen Ansatz zur Neugestaltung eines Videos (ReVideo), der sich von bestehenden Methoden abhebt, indem er präzise Videobearbeitung in spezifischen Bereichen durch die Spezifikation von Inhalt und Bewegung ermöglicht. Die Inhaltsbearbeitung wird durch die Modifikation des ersten Frames erleichtert, während die bewegungsbasierte Bewegungssteuerung eine intuitive Benutzerinteraktion bietet. ReVideo behandelt eine neue Aufgabe, die das Koppeln und das Trainingsungleichgewicht zwischen Inhalt und Bewegungssteuerung beinhaltet. Um dies zu bewältigen, entwickeln wir eine dreistufige Schulungsstrategie, die diese beiden Aspekte progressiv von grob bis fein entkoppelt. Darüber hinaus schlagen wir ein räumlich-zeitliches adaptives Fusionmodul vor, um Inhalt und Bewegungssteuerung über verschiedene Abtastschritte und räumliche Positionen zu integrieren. Umfangreiche Experimente zeigen, dass unser ReVideo vielversprechende Leistungen bei mehreren präzisen Videobearbeitungsanwendungen aufweist, nämlich (1) lokales Ändern des Videoinhalts bei gleichbleibender Bewegung, (2) Beibehalten des Inhalts und Anpassen neuer Bewegungstrajectories, (3) Modifizieren von Inhalt und Bewegungstrajectories. Unsere Methode kann diese Anwendungen auch nahtlos auf Multi-Bereich-Bearbeitung ohne spezifisches Training erweitern und zeigt damit ihre Flexibilität und Robustheit.
Nutzen wir das volle Potenzial des visuellen Encoders in Multimodalen Großen Sprachmodellen (MLLMs) aus? Die kürzlich herausragende Leistung von MLLMs in der multimodalen Verständnis hat breite Aufmerksamkeit sowohl in der akademischen Welt als auch in der Industrie auf sich gezogen. Im aktuellen Wettlauf der MLLMs liegt der Fokus anscheinend hauptsächlich auf der linguistischen Seite. Wir beobachten den Aufstieg von größeren und qualitativ hochwertigeren Anweisungsdatensätzen sowie die Beteiligung von größeren LLMs. Dennoch wurde nur wenig Aufmerksamkeit auf die visuellen Signale gerichtet, die von MLLMs genutzt werden, die oft als die endgültigen hochrangigen Merkmale angesehen werden, die von einem eingefrorenen visuellen Encoder extrahiert werden. In diesem Paper stellen wir den Dense Connector vor - einen einfachen, effektiven und Plug-and-Play Vision-Sprach-Connector, der bestehende MLLMs signifikant verbessert, indem er mehrschichtige visuelle Merkmale nutzt, mit minimalem zusätzlichen Rechenaufwand. Darüber hinaus zeigt unser Modell, das ausschließlich auf Bildern trainiert wurde, bemerkenswerte Zero-Shot-Fähigkeiten im Verständnis von Videos. Experimentelle Ergebnisse über verschiedene Vision-Encoder, Bildauflösungen, Trainingsdatensatzskalen, unterschiedliche Größen von LLMs (2,7 Mrd. -> 70 Mrd.) und diverse Architekturen von MLLMs (z. B. LLaVA und Mini-Gemini) bestätigen die Vielseitigkeit und Skalierbarkeit unseres Ansatzes und erzielen Spitzenleistungen auf insgesamt 19 Bild- und Video-Benchmarks. Wir hoffen, dass diese Arbeit wertvolle Erfahrungen bietet und als Grundmodul für zukünftige MLLM-Entwicklungen dient.
Fortschritte in latenten Diffusionsmodellen (LDMs) haben die Generierung hochauflösender Bilder revolutioniert, aber der Gestaltungsraum des Autoencoders, der für diese Systeme zentral ist, bleibt untererforscht. In diesem Artikel stellen wir LiteVAE vor, eine Familie von Autoencodern für LDMs, die die 2D-diskrete Wavelet-Transformation nutzen, um die Skalierbarkeit und Rechenleistung im Vergleich zu herkömmlichen Variationalen Autoencodern (VAEs) zu verbessern, ohne dabei die Ausgabequalität zu beeinträchtigen. Wir untersuchen auch die Trainingsmethoden und die Decoder-Architektur von LiteVAE und schlagen mehrere Verbesserungen vor, die die Trainingsdynamik und die Rekonstruktionsqualität verbessern. Unser Basis-LiteVAE-Modell erreicht die Qualität der etablierten VAEs in aktuellen LDMs bei einer sechsfachen Reduzierung der Encoder-Parameter, was zu schnellerem Training und geringeren GPU-Speicheranforderungen führt, während unser größeres Modell VAEs vergleichbarer Komplexität in allen bewerteten Metriken (rFID, LPIPS, PSNR und SSIM) übertrifft.
Die Beschleunigung der Inferenz großer Sprachmodelle (LLMs) ist eine wichtige Herausforderung in der künstlichen Intelligenz. Dieses Papier stellt das verteilte spekulative Inferenzverfahren (DSI) vor, einen neuartigen verteilten Inferenzalgorithmus, der nachweislich schneller ist als das spekulative Inferenzverfahren (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] und das traditionelle autoregressive Inferenzverfahren (nicht-SI). Ähnlich wie andere SI-Algorithmen arbeitet DSI mit eingefrorenen LLMs, erfordert keine Schulung oder architektonische Modifikationen und erhält die Zielverteilung. Frühere Studien zum SI haben empirische Beschleunigungen gezeigt (im Vergleich zu nicht-SI), erfordern jedoch ein schnelles und genaues Entwurfs-LLM. In der Praxis haben Standard-LLMs oft keine passenden Entwürfe, die ausreichend schnell und genau sind. Wir zeigen eine Lücke: SI wird langsamer als nicht-SI, wenn langsamere oder weniger genaue Entwürfe verwendet werden. Wir schließen diese Lücke, indem wir nachweisen, dass DSI schneller ist als sowohl SI als auch nicht-SI bei Verwendung beliebiger Entwürfe. Durch die Orchestrierung mehrerer Instanzen des Ziel- und Entwurfs-LLMs ist DSI nicht nur schneller als SI, sondern unterstützt auch LLMs, die mit SI nicht beschleunigt werden können. Unsere Simulationen zeigen Beschleunigungen von Standard-LLMs in realistischen Szenarien: DSI ist 1,29-1,92-mal schneller als SI.
Diffusionsmodelle haben große Erfolge bei der Bildgenerierung erzielt, wobei sich das Grundgerüst von U-Net zu Vision-Transformern entwickelt hat. Die Rechenkosten von Transformatoren sind jedoch quadratisch zur Anzahl der Tokens, was zu erheblichen Herausforderungen bei der Bearbeitung von hochauflösenden Bildern führt. In dieser Arbeit schlagen wir Diffusion Mamba (DiM) vor, das die Effizienz von Mamba, einem Sequenzmodell basierend auf Zustandsraummodellen (SSM), mit der Ausdruckskraft von Diffusionsmodellen für eine effiziente Bildsynthese hoher Auflösung kombiniert. Um das Problem anzugehen, dass Mamba nicht auf 2D-Signale verallgemeinern kann, haben wir mehrere Architekturentwürfe erstellt, darunter multidirektionale Scans, erlernbare Padding-Tokens am Ende jeder Zeile und Spalte sowie eine leichte lokale Merkmalsverbesserung. Unsere DiM-Architektur erreicht Effizienz zur Inferenzzeit für hochauflösende Bilder. Darüber hinaus untersuchen wir zur weiteren Verbesserung der Trainingseffizienz für die Bildgenerierung hoher Auflösung mit DiM eine „schwach-zu-stark“-Trainingsstrategie, die DiM auf niedrigauflösenden Bildern (256mal 256) vorab trainiert und dann auf hochauflösenden Bildern (512 mal 512) feinabstimmt. Wir erforschen außerdem trainingsfreie Upsampling-Strategien, um dem Modell die Generierung von Bildern mit höherer Auflösung (z. B. 1024mal 1024 und 1536mal 1536) ohne weitere Feinabstimmung zu ermöglichen. Experimente zeigen die Wirksamkeit und Effizienz unseres DiM.
Zweitordnungsmethoden haben bessere Konvergenzeigenschaften als Gradientenabstieg, werden jedoch aufgrund ihres Rechenaufwands selten in der Praxis für das Training im großen Maßstab verwendet. Dies kann als eine Hardware-Beschränkung (die von digitalen Computern auferlegt wird) betrachtet werden. Hier zeigen wir, dass der natürliche Gradientenabstieg (NGD), eine Methode zweiter Ordnung, eine ähnliche Rechenkomplexität pro Iteration wie eine Methode erster Ordnung aufweisen kann, wenn geeignete Hardware verwendet wird. Wir präsentieren einen neuen hybriden digital-analogen Algorithmus zur Schulung neuronaler Netzwerke, der in einem bestimmten Parameterbereich dem NGD entspricht, jedoch kostspielige lineare Gleichungssysteme vermeidet. Unser Algorithmus nutzt die thermodynamischen Eigenschaften eines analogen Systems im Gleichgewicht und erfordert daher einen analogen thermodynamischen Computer. Das Training erfolgt in einer hybriden digital-analogen Schleife, in der der Gradient und die Fisher-Informationsmatrix (oder eine andere positiv semidefinite Krümmungsmatrix) in bestimmten Zeitintervallen berechnet werden, während die analogen Dynamiken stattfinden. Wir zeigen numerisch die Überlegenheit dieses Ansatzes gegenüber modernsten digitalen Trainingsmethoden erster und zweiter Ordnung bei Klassifizierungsaufgaben und Feinabstimmungsaufgaben für Sprachmodelle.
Neuere Ansätze haben vielversprechende Ergebnisse gezeigt, indem sie Diffusionsmodelle in effiziente Ein-Schritt-Generatoren destillieren. Unter ihnen produziert die Distribution Matching Distillation (DMD) Ein-Schritt-Generatoren, die sich in ihrer Verteilung mit dem Lehrer angleichen, ohne eine eins-zu-eins-Korrespondenz mit den Abtasttrajektorien ihrer Lehrer durchzusetzen. Allerdings erfordert DMD zur Sicherstellung eines stabilen Trainings eine zusätzliche Regressionsverlustberechnung unter Verwendung eines großen Satzes von Rauschbildpaaren, die vom Lehrer mit vielen Schritten eines deterministischen Samplers generiert wurden. Dies ist kostspielig für die Synthese von Text-zu-Bild auf großer Skala und begrenzt die Qualität des Schülers, da er zu eng an den ursprünglichen Abtastpfaden des Lehrers gebunden ist. Wir stellen DMD2 vor, eine Reihe von Techniken, die diese Einschränkung aufheben und das DMD-Training verbessern. Erstens beseitigen wir den Regressionsverlust und die Notwendigkeit für die aufwendige Datensatzkonstruktion. Wir zeigen, dass die resultierende Instabilität darauf zurückzuführen ist, dass der Fake-Kritiker die Verteilung der generierten Proben nicht genau schätzt, und schlagen eine Zwei-Zeit-Skalen-Aktualisierungsregel als Abhilfe vor. Zweitens integrieren wir einen GAN-Verlust in das Destillationsverfahren, der zwischen generierten Proben und echten Bildern unterscheidet. Dies ermöglicht es uns, das Studentenmodell mit echten Daten zu trainieren, wodurch die unvollkommene reale Punktschätzung des Lehrermodells gemildert und die Qualität verbessert wird. Schließlich modifizieren wir das Schulungsverfahren, um Mehrschritt-Abtastung zu ermöglichen. Wir identifizieren und lösen das Problem des Trainings-Inferenz-Eingabemissverhältnisses in dieser Einstellung, indem wir während der Trainingszeit Inferenzzeit-Generatorproben simulieren. Zusammenfassend setzen unsere Verbesserungen neue Maßstäbe in der Ein-Schritt-Bildgenerierung, mit FID-Punkten von 1,28 auf ImageNet-64x64 und 8,35 auf Zero-Shot COCO 2014, wodurch der ursprüngliche Lehrer trotz einer 500-fachen Reduzierung der Inferenzkosten übertroffen wird. Darüber hinaus zeigen wir, dass unser Ansatz Megapixel-Bilder durch Destillation von SDXL generieren kann, was eine außergewöhnliche visuelle Qualität unter den wenige-Schritte-Methoden demonstriert.
In den letzten Jahren haben diffusion-basierte generative Modelle aufgrund realistischer Generierungsergebnisse und einer Vielzahl von personalisierten Anwendungen sowohl im visuellen als auch im auditiven Generierungsbereich enorme Aufmerksamkeit erregt. Im Vergleich zu den beträchtlichen Fortschritten bei der Text-zu-Bild- oder Text-zu-Audio-Generierung verlief die Forschung zur Audio-zu-Video- oder Video-zu-Audio-Generierung relativ langsam. Die aktuellen audiovisuellen Generierungsmethoden greifen in der Regel auf riesige Sprachmodelle oder zusammensetzbare Diffusionsmodelle zurück. Anstatt ein weiteres riesiges Modell für die Audio-Visual-Generierung zu entwerfen, zeigen wir in diesem Papier einen Schritt zurück, indem wir einen einfachen und leichtgewichtigen generativen Transformer präsentieren, der in der multimodalen Generierung noch nicht vollständig erforscht wurde und hervorragende Ergebnisse in der Bild-zu-Audio-Generierung erzielen kann. Der Transformer arbeitet im diskreten Audio- und visuellen Vektor-Quantized-GAN-Raum und wird in maskenbasiertem Rauschunterdrückungsverfahren trainiert. Nach dem Training kann die leitlinienfreie Steuerung sofort eingesetzt werden, um bessere Leistungen zu erzielen, ohne zusätzliches Training oder Änderungen. Da das Transformer-Modell modalitätssymmetrisch ist, kann es auch direkt für die Audio-zu-Bild-Generierung und Ko-Generierung eingesetzt werden. In den Experimenten zeigen wir, dass unsere einfache Methode aktuelle Bild-zu-Audio-Generierungsmethoden übertrifft. Generierte Audio-Beispiele finden Sie unter https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
Multimodale Large Language Models (MLLMs) gelten weithin als entscheidend für die Erforschung der Künstlichen Allgemeinen Intelligenz (AGI). Der Kern der MLLMs liegt in ihrer Fähigkeit, eine kreuzmodale Ausrichtung zu erreichen. Um dieses Ziel zu erreichen, folgen aktuelle MLLMs in der Regel einem Zwei-Phasen-Trainingsparadigma: der Vor-Trainingsphase und der Anweisungsfeinabstimmungsphase. Trotz ihres Erfolgs gibt es Mängel bei der Modellierung von Ausrichtungsfähigkeiten innerhalb dieser Modelle. Erstens geht das Modell während der Vor-Trainingsphase in der Regel davon aus, dass alle Bild-Text-Paare gleichmäßig ausgerichtet sind, aber tatsächlich ist der Grad der Ausrichtung zwischen verschiedenen Bild-Text-Paaren inkonsistent. Zweitens berücksichtigen die derzeit verwendeten Anweisungen für die Feinabstimmung eine Vielzahl von Aufgaben; die Anweisungen verschiedener Aufgaben erfordern in der Regel unterschiedliche Ebenen von Ausrichtungsfähigkeiten, aber bisher haben frühere MLLMs diese differenzierten Ausrichtungsbedürfnisse übersehen. Um diese Probleme anzugehen, schlagen wir ein neues multimodales großes Sprachmodell AlignGPT vor. In der Vor-Trainingsphase weisen wir anstatt alle Bild-Text-Paare gleich zu behandeln, verschiedenen Bild-Text-Paaren unterschiedliche Ebenen von Ausrichtungsfähigkeiten zu. Dann kombinieren wir in der Anweisungsfeinabstimmungsphase adaptiv diese verschiedenen Ebenen von Ausrichtungsfähigkeiten, um den dynamischen Ausrichtungsbedürfnissen unterschiedlicher Anweisungen gerecht zu werden. Umfangreiche experimentelle Ergebnisse zeigen, dass unser Modell eine wettbewerbsfähige Leistung auf 12 Benchmarks erzielt.
Die Anpassung von Diffusionsmodellen zur Erzeugung identitätserhaltender Bilder aus vom Benutzer bereitgestellten Referenzbildern ist ein faszinierendes neues Problem. Die vorherrschenden Ansätze erfordern in der Regel ein Training an umfangreichen domänenspezifischen Bildern, um die Identität zu bewahren, was jedoch an Flexibilität über verschiedene Anwendungsfälle hinweg mangelt. Um dieses Problem zu lösen, nutzen wir den Klassifizierer-Leitfaden, eine trainingsfreie Technik, die Diffusionsmodelle mithilfe eines vorhandenen Klassifizierers lenkt, für die personalisierte Bildgenerierung. Unsere Studie zeigt, dass basierend auf einem kürzlich entwickelten rektifizierten Flussrahmenwerk die Hauptbeschränkung des einfachen Klassifizierer-Leitfadens, der einen speziellen Klassifizierer erfordert, mit einer einfachen Fixpunkt-Lösung gelöst werden kann, was eine flexible Personalisierung mit handelsüblichen Bilddiskriminatoren ermöglicht. Darüber hinaus erweist sich das Lösungsverfahren als stabil, wenn es an einer Referenzflussbahn verankert ist, mit einer Konvergenzgarantie. Die abgeleitete Methode wird auf rektifiziertem Fluss mit verschiedenen handelsüblichen Bilddiskriminatoren implementiert und liefert vorteilhafte Personalisierungsergebnisse für menschliche Gesichter, lebendige Subjekte und bestimmte Objekte. Der Code ist verfügbar unter https://github.com/feifeiobama/RectifID.
Wir erweitern multimodale Transformer, um 3D-Kamerabewegungen als Konditionierungssignal für die Aufgabe der Videogenerierung einzubeziehen. Generative Videomodelle werden zunehmend leistungsfähiger, wodurch Forschungsanstrengungen auf Methoden zur Steuerung der Ausgabe solcher Modelle gerichtet werden. Wir schlagen vor, virtuelle 3D-Kamerasteuerungen zu generativen Videomethoden hinzuzufügen, indem das generierte Video an einer Kodierung der dreidimensionalen Kamerabewegung im Verlauf des generierten Videos konditioniert wird. Die Ergebnisse zeigen, dass wir (1) in der Lage sind, die Kamera während der Videogenerierung erfolgreich zu steuern, ausgehend von einem einzigen Frame und einem Kamerasignal, und (2) wir die Genauigkeit der generierten 3D-Kamerapfade mithilfe traditioneller Methoden der Computer Vision demonstrieren.
Wir untersuchen die Aufgabe, Bild-generative Modelle an verschiedene Datensätze anzupassen, ohne Feinabstimmung. Zu diesem Zweck stellen wir Semantica vor, ein bildkonditioniertes Diffusionsmodell, das in der Lage ist, Bilder basierend auf der Semantik eines konditionierenden Bildes zu generieren. Semantica wird ausschließlich an Bildpaaren im Web-Maßstab trainiert, d. h. es erhält ein zufälliges Bild von einer Webseite als bedingte Eingabe und modelliert ein anderes zufälliges Bild von derselben Webseite. Unsere Experimente heben die Ausdruckskraft vortrainierter Bildkodierer und die Notwendigkeit der semantikbasierten Datensortierung zur Erzielung hochwertiger Bildgenerierung hervor. Einmal trainiert, kann es adaptiv neue Bilder aus einem Datensatz generieren, indem es einfach Bilder aus diesem Datensatz als Eingabe verwendet. Wir untersuchen die Übertragungseigenschaften von Semantica auf ImageNet, LSUN-Kirchen, LSUN-Schlafzimmer und SUN397.
Neuronale Strahlungsfelder (NeRFs) haben in der Regel Schwierigkeiten, hochspektrale Objekte zu rekonstruieren und darzustellen, deren Erscheinungsbild sich schnell mit Änderungen des Blickwinkels ändert. In jüngsten Arbeiten wurde die Fähigkeit von NeRF verbessert, detaillierte spektrale Erscheinungsbilder der Beleuchtung der entfernten Umgebung darzustellen, jedoch können konsistente Reflexionen von näherem Inhalt nicht synthetisiert werden. Darüber hinaus beruhen diese Techniken auf großen, rechenaufwändigen neuronalen Netzwerken zur Modellierung der ausgehenden Strahlung, was die Optimierung und Rendergeschwindigkeit erheblich einschränkt. Wir begegnen diesen Problemen mit einem auf Strahlenverfolgung basierenden Ansatz: Anstatt ein teures neuronales Netzwerk nach der ausgehenden, blickwinkelabhängigen Strahlung an Punkten entlang jedes Kamerarays abzufragen, wirft unser Modell Reflexionsstrahlen von diesen Punkten aus und verfolgt sie durch die NeRF-Repräsentation, um Merkmalsvektoren zu rendern, die mithilfe eines kleinen, kostengünstigen Netzwerks in Farben umgewandelt werden. Wir zeigen, dass unser Modell bisherige Methoden für die Ansichtssynthese von Szenen mit glänzenden Objekten übertrifft und dass es die einzige vorhandene NeRF-Methode ist, die photorealistische spektrale Erscheinungsbilder und Reflexionen in realen Szenen synthetisieren kann, während sie eine vergleichbare Optimierungszeit wie aktuelle Spitzenmodelle für die Ansichtssynthese erfordert.
Die Synthese von Ansichten von spiegelnden Objekten wie glänzenden Metallen oder glänzenden Lacken bleibt eine bedeutende Herausforderung. Nicht nur das glänzende Erscheinungsbild, sondern auch globale Beleuchtungseffekte, einschließlich Reflexionen anderer Objekte in der Umgebung, sind entscheidende Komponenten, um eine Szene originalgetreu wiederzugeben. In diesem Paper präsentieren wir das Neural Directional Encoding (NDE), eine ansichtsabhängige Erscheinungscodierung neuronaler Strahlungsfelder (NeRF) zur Darstellung von spiegelnden Objekten. NDE überträgt das Konzept der Merkmalsraster-basierten räumlichen Codierung in den Winkelbereich und verbessert damit signifikant die Fähigkeit, hochfrequente Winkelsignale zu modellieren. Im Gegensatz zu früheren Methoden, die Codierungsfunktionen mit nur winkelabhängigem Input verwenden, verfolgen wir zusätzlich räumliche Merkmale mit Kegelverfolgung, um eine räumlich variierende Richtungscodierung zu erhalten, die die herausfordernden Interreflexionseffekte bewältigt. Umfangreiche Experimente mit sowohl synthetischen als auch realen Datensätzen zeigen, dass ein NeRF-Modell mit NDE (1) die State-of-the-Art-Methoden bei der Ansichtssynthese von spiegelnden Objekten übertrifft und (2) mit kleinen Netzwerken arbeitet, um schnelle (Echtzeit-)Inferenzen zu ermöglichen. Die Projektwebseite und der Quellcode sind verfügbar unter: https://lwwu2.github.io/nde/.
In diesem Paper präsentieren wir ein kostengünstiges und authentisches bidirektionales Telepräsenzsystem, Tele-Aloha, das auf Peer-to-Peer-Kommunikationsszenarien abzielt. Im Vergleich zu früheren Systemen verwendet Tele-Aloha nur vier spärliche RGB-Kameras, eine GPU für Endverbraucher und einen autostereoskopischen Bildschirm, um eine hochauflösende (2048x2048), echtzeitfähige (30 fps), latenzarme (weniger als 150 ms) und robuste Fernkommunikation zu erreichen. Als Kernstück von Tele-Aloha schlagen wir einen effizienten neuartigen Ansichtssynthesealgorithmus für den Oberkörper vor. Zunächst entwerfen wir einen gestuften Disparitätsschätzer zur Erlangung eines robusten geometrischen Hinweises. Darüber hinaus wird ein neuronaler Rasterisierer über Gaussches Splatting eingeführt, um latente Merkmale auf die Zielansicht zu projizieren und in eine reduzierte Auflösung zu decodieren. Weiterhin nutzen wir aufgrund der hochwertigen erfassten Daten einen gewichteten Mischmechanismus, um das decodierte Bild in die endgültige Auflösung von 2K zu verfeinern. Durch die Nutzung führender autostereoskopischer Displays und der latenzarmen Irisverfolgung können Benutzer ein starkes dreidimensionales Gefühl erleben, selbst ohne eine tragbare Head-Mounted-Display-Vorrichtung. Insgesamt zeigt unser Telepräsenzsystem in realen Experimenten ein Gefühl der Mitpräsenz und inspiriert die nächste Generation der Kommunikation.