Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir postulieren, dass zukünftige Modelle übermenschliches Feedback benötigen, um übermenschliche Agenten zu erreichen und ein angemessenes Trainingssignal zu liefern. Aktuelle Ansätze trainieren Belohnungsmodelle häufig aus menschlichen Präferenzen, die dann durch das menschliche Leistungsniveau begrenzt sein können, und zweitens können diese separaten, eingefrorenen Belohnungsmodelle während des LLM-Trainings nicht lernen, sich zu verbessern. In dieser Arbeit untersuchen wir selbstbelohnende Sprachmodelle, bei denen das Sprachmodell selbst über LLM-as-a-Judge-Prompting verwendet wird, um während des Trainings seine eigenen Belohnungen zu liefern. Wir zeigen, dass während des iterativen DPO-Trainings nicht nur die Fähigkeit zur Befolgung von Anweisungen verbessert wird, sondern auch die Fähigkeit, sich selbst hochwertige Belohnungen zu geben. Die Feinabstimmung von Llama 2 70B über drei Iterationen unseres Ansatzes ergibt ein Modell, das viele bestehende Systeme auf der AlpacaEval 2.0-Rangliste übertrifft, darunter Claude 2, Gemini Pro und GPT-4 0613. Obwohl es sich nur um eine vorläufige Studie handelt, öffnet diese Arbeit die Tür zur Möglichkeit von Modellen, die sich kontinuierlich in beiden Achsen verbessern können.
Kürzlich haben State-Space-Modelle (SSMs) mit effizienten, hardwarebewussten Designs, wie z. B. Mamba, großes Potenzial für die Modellierung langer Sequenzen gezeigt. Die Entwicklung effizienter und generischer Vision-Backbones, die ausschließlich auf SSMs basieren, ist eine vielversprechende Richtung. Die Darstellung visueller Daten stellt jedoch eine Herausforderung für SSMs dar, da visuelle Daten positionssensitiv sind und ein globaler Kontext für das visuelle Verständnis erforderlich ist. In diesem Artikel zeigen wir, dass die Abhängigkeit des visuellen Repräsentationslernens von Self-Attention nicht notwendig ist, und schlagen einen neuen generischen Vision-Backbone mit bidirektionalen Mamba-Blöcken (Vim) vor, der die Bildsequenzen mit Positions-Einbettungen markiert und die visuelle Repräsentation mit bidirektionalen State-Space-Modellen komprimiert. Bei Aufgaben wie ImageNet-Klassifikation, COCO-Objekterkennung und ADE20k-Semantiksegmentierung erzielt Vim eine höhere Leistung im Vergleich zu etablierten Vision-Transformern wie DeiT und zeigt gleichzeitig eine deutlich verbesserte Rechen- und Speichereffizienz. Beispielsweise ist Vim 2,8-mal schneller als DeiT und spart 86,8 % GPU-Speicher, wenn Batch-Inferenz zur Merkmalsextraktion auf Bildern mit einer Auflösung von 1248×1248 durchgeführt wird. Die Ergebnisse zeigen, dass Vim in der Lage ist, die Rechen- und Speicherbeschränkungen bei der Durchführung von Transformer-artigem Verständnis für hochauflösende Bilder zu überwinden, und großes Potenzial hat, das nächste Backbone für Vision-Foundation-Modelle zu werden. Der Code ist verfügbar unter https://github.com/hustvl/Vim.
In dieser Arbeit stellen wir ChatQA vor, eine Familie von Modellen für konversationelle Frage-Antwort-Systeme (QA), die Genauigkeiten auf GPT-4-Niveau erreichen. Insbesondere schlagen wir eine zweistufige Instruktionsfeinabstimmungsmethode vor, die die Zero-Shot-Ergebnisse von großen Sprachmodellen (LLMs) für konversationelle QA erheblich verbessern kann. Um die Retrieval-Komponente in konversationellen QA-Systemen zu handhaben, feinabstimmen wir einen dichten Retriever auf einem Multi-Turn-QA-Datensatz, was vergleichbare Ergebnisse liefert wie die Verwendung des aktuellsten Query-Rewriting-Modells, dabei jedoch die Bereitstellungskosten erheblich reduziert. Bemerkenswerterweise kann unser ChatQA-70B GPT-4 in Bezug auf den Durchschnittswert auf 10 konversationellen QA-Datensätzen übertreffen (54,14 vs. 53,90), ohne dabei auf synthetische Daten von OpenAI-GPT-Modellen angewiesen zu sein.
Eine Möglichkeit, die Fähigkeit zur logischen Schlussfolgerung von Large Language Models (LLMs) zu verbessern, besteht darin, Supervised Fine-Tuning (SFT) mit Chain-of-Thought (CoT)-Annotationen durchzuführen. Dieser Ansatz zeigt jedoch keine ausreichend starke Generalisierungsfähigkeit, da das Training ausschließlich auf den gegebenen CoT-Daten basiert. Bei der Lösung mathematischer Probleme gibt es beispielsweise in den Trainingsdaten in der Regel nur einen annotierten Lösungsweg für jede Frage. Intuitiv wäre es besser, wenn der Algorithmus aus mehreren annotierten Lösungswegen lernen könnte, die zu einer Frage gegeben sind. Um dieses Problem zu lösen, schlagen wir einen einfachen, aber effektiven Ansatz namens Reinforced Fine-Tuning (ReFT) vor, der die Generalisierungsfähigkeit von LLMs beim logischen Schlussfolgern verbessert, wobei wir die Lösung mathematischer Probleme als Beispiel verwenden. ReFT wärmt das Modell zunächst mit SFT auf und setzt dann Online-Reinforcement-Learning, speziell den PPO-Algorithmus in diesem Artikel, ein, um das Modell weiter zu verfeinern. Dabei werden automatisch zahlreiche Lösungswege zu einer Frage generiert, und die Belohnungen werden natürlich aus den korrekten Antworten abgeleitet. Umfangreiche Experimente mit den Datensätzen GSM8K, MathQA und SVAMP zeigen, dass ReFT SFT deutlich übertrifft und die Leistung potenziell weiter gesteigert werden kann, indem Inferenzzeitstrategien wie Mehrheitsabstimmung und Neubewertung kombiniert werden. Es ist zu beachten, dass ReFT die Verbesserung erzielt, indem es dieselben Trainingsfragen wie SFT verwendet, ohne auf zusätzliche oder erweiterte Trainingsfragen angewiesen zu sein. Dies deutet auf eine überlegene Generalisierungsfähigkeit von ReFT hin.
Gruppierung ist von Natur aus mehrdeutig, da eine Szene auf mehreren Granularitätsebenen zerlegt werden kann – sollten die Räder eines Baggers als separate Einheiten oder als Teil des Ganzen betrachtet werden? Wir präsentieren Group Anything with Radiance Fields (GARField), einen Ansatz zur Zerlegung von 3D-Szenen in eine Hierarchie semantisch bedeutsamer Gruppen aus gerichteten Bildinputs. Hierbei nutzen wir die Mehrdeutigkeit der Gruppierung durch physische Skalierung: Durch die Optimierung eines skalierungsbedingten 3D-Affinitätsmerkmal-Feldes kann ein Punkt in der Welt zu verschiedenen Gruppen unterschiedlicher Größe gehören. Wir optimieren dieses Feld anhand einer Reihe von 2D-Masken, die von Segment Anything (SAM) bereitgestellt werden, wobei wir eine grob- bis fein-granulare Hierarchie berücksichtigen und die Skalierung nutzen, um widersprüchliche Masken aus verschiedenen Blickwinkeln konsistent zu fusionieren. Aus diesem Feld können wir eine Hierarchie möglicher Gruppierungen durch automatische Baumkonstruktion oder Benutzerinteraktion ableiten. Wir evaluieren GARField anhand einer Vielzahl von Szenen in natürlicher Umgebung und stellen fest, dass es effektiv Gruppen auf vielen Ebenen extrahiert: Objektcluster, Objekte und verschiedene Unterteile. GARField repräsentiert inhärent konsistente Gruppierungen aus mehreren Blickwinkeln und erzeugt Gruppen mit höherer Detailtreue als die Eingabe-SAM-Masken. Die hierarchische Gruppierung von GARField könnte spannende nachgelagerte Anwendungen wie die Extraktion von 3D-Assets oder das dynamische Verständnis von Szenen ermöglichen. Weitere Informationen finden Sie auf der Projektwebsite unter https://www.garfield.studio/.
Die 3D-Vision-Sprache-Verankerung, die sich auf die Ausrichtung von Sprache an der 3D-physischen Umgebung konzentriert, stellt einen Eckpfeiler in der Entwicklung verkörperter Agenten dar. Im Vergleich zu den jüngsten Fortschritten im 2D-Bereich steht die Verankerung von Sprache in 3D-Szenen vor mehreren bedeutenden Herausforderungen: (i) die inhärente Komplexität von 3D-Szenen aufgrund der vielfältigen Objektkonfigurationen, ihrer reichen Attribute und komplexen Beziehungen; (ii) die Knappheit gepaarter 3D-Vision-Sprache-Daten, um verankertes Lernen zu unterstützen; und (iii) das Fehlen eines einheitlichen Lernrahmens, um Wissen aus verankerten 3D-Daten zu destillieren. In dieser Arbeit zielen wir darauf ab, diese drei großen Herausforderungen in der 3D-Vision-Sprache zu bewältigen, indem wir das Potenzial einer systematischen Skalierung des 3D-Vision-Sprache-Lernens in Innenräumen untersuchen. Wir stellen den ersten Millionen-skaligen 3D-Vision-Sprache-Datensatz, SceneVerse, vor, der etwa 68.000 3D-Innenraumszenen umfasst und aus 2,5 Millionen Vision-Sprache-Paaren besteht, die sowohl aus menschlichen Annotationen als auch aus unserem skalierbaren szenengraphbasierten Generierungsansatz stammen. Wir zeigen, dass diese Skalierung einen einheitlichen Vorausbildungsrahmen, Grounded Pre-training for Scenes (GPS), für das 3D-Vision-Sprache-Lernen ermöglicht. Durch umfangreiche Experimente demonstrieren wir die Wirksamkeit von GPS, indem wir Spitzenleistungen in allen bestehenden 3D-Visual-Grounding-Benchmarks erreichen. Das enorme Potenzial von SceneVerse und GPS wird durch Zero-Shot-Transfer-Experimente in den anspruchsvollen 3D-Vision-Sprache-Aufgaben offenbart. Projektwebsite: https://scene-verse.github.io.
Weltmodelle spielen eine entscheidende Rolle beim Verständnis und der Vorhersage der Dynamik der Welt, was für die Videogenerierung von zentraler Bedeutung ist. Bisherige Weltmodelle sind jedoch auf spezifische Szenarien wie Gaming oder Fahren beschränkt, was ihre Fähigkeit einschränkt, die Komplexität allgemeiner dynamischer Umgebungen zu erfassen. Daher stellen wir WorldDreamer vor, ein wegweisendes Weltmodell, das ein umfassendes Verständnis der allgemeinen Weltphysik und -bewegungen fördert und die Fähigkeiten der Videogenerierung erheblich verbessert. Inspiriert vom Erfolg großer Sprachmodelle, formuliert WorldDreamer die Weltmodellierung als eine unüberwachte Herausforderung der visuellen Sequenzmodellierung. Dies wird erreicht, indem visuelle Eingaben auf diskrete Tokens abgebildet und die maskierten vorhergesagt werden. In diesem Prozess integrieren wir multimodale Prompts, um die Interaktion innerhalb des Weltmodells zu erleichtern. Unsere Experimente zeigen, dass WorldDreamer bei der Generierung von Videos in verschiedenen Szenarien, einschließlich natürlicher Landschaften und Fahrumgebungen, hervorragende Leistungen erbringt. WorldDreamer demonstriert seine Vielseitigkeit bei der Ausführung von Aufgaben wie Text-zu-Video-Konvertierung, Bild-zu-Video-Synthese und Videobearbeitung. Diese Ergebnisse unterstreichen die Effektivität von WorldDreamer bei der Erfassung dynamischer Elemente in vielfältigen allgemeinen Weltumgebungen.
Diffusionsbasierte Videogenerierung hat sowohl in der akademischen als auch in der industriellen Gemeinschaft große Aufmerksamkeit erregt und beträchtliche Erfolge erzielt. Allerdings konzentrieren sich die aktuellen Bemühungen hauptsächlich auf die Einzelziel- oder Einzelaufgaben-Videogenerierung, wie beispielsweise die durch Text, durch Bilder oder durch eine Kombination aus Text und Bildern gesteuerte Generierung. Dies kann den Anforderungen realer Anwendungsszenarien nicht vollständig gerecht werden, da Benutzer wahrscheinlich Bilder und Textbedingungen auf flexible Weise, entweder einzeln oder in Kombination, eingeben. Um dies zu adressieren, schlagen wir ein Unified-modal Video Generation-System vor, das in der Lage ist, mehrere Videogenerierungsaufgaben über Text- und Bildmodalitäten hinweg zu bewältigen. Zu diesem Zweck betrachten wir die verschiedenen Videogenerierungsaufgaben innerhalb unseres Systems aus der Perspektive der generativen Freiheit und klassifizieren sie in Kategorien der hochfreien und niedrigfreien Videogenerierung. Für die hochfreie Videogenerierung verwenden wir Multi-condition Cross Attention, um Videos zu erzeugen, die mit der Semantik der Eingabebilder oder -texte übereinstimmen. Für die niedrigfreie Videogenerierung führen wir Biased Gaussian Noise ein, um das rein zufällige Gaußsche Rauschen zu ersetzen, was dazu beiträgt, den Inhalt der Eingabebedingungen besser zu bewahren. Unsere Methode erreicht den niedrigsten Fréchet Video Distance (FVD) auf dem öffentlichen akademischen Benchmark MSR-VTT, übertrifft die aktuellen Open-Source-Methoden in menschlichen Bewertungen und steht auf Augenhöhe mit der aktuellen Closed-Source-Methode Gen2. Weitere Beispiele finden Sie unter https://univg-baidu.github.io.
Die Bereitstellung und Skalierung großer Sprachmodelle (LLMs) hat zunehmend an Bedeutung gewonnen, da sie in verschiedenen Anwendungen eingesetzt werden und Systeme mit hohem Durchsatz und geringer Latenz erfordern. Bestehende Frameworks haben Schwierigkeiten, diese Anforderungen zu erfüllen, insbesondere bei Workloads mit langen Prompts. Dieses Paper stellt DeepSpeed-FastGen vor, ein System, das Dynamic SplitFuse, eine neuartige Strategie zur Zusammensetzung von Prompts und Generierung, einsetzt, um einen bis zu 2,3-fach höheren effektiven Durchsatz, eine durchschnittlich 2-fach geringere Latenz und eine bis zu 3,7-fach geringere (Token-Level-)Tail-Latenz im Vergleich zu state-of-the-art Systemen wie vLLM zu erreichen. Wir nutzen eine synergetische Kombination aus DeepSpeed-MII und DeepSpeed-Inference, um ein effizientes und benutzerfreundliches Bereitstellungssystem für LLMs anzubieten. Die fortschrittliche Implementierung von DeepSpeed-FastGen unterstützt eine Vielzahl von Modellen und bietet sowohl nicht-persistente als auch persistente Bereitstellungsoptionen, die verschiedene Nutzerszenarien von interaktiven Sitzungen bis hin zu langlaufenden Anwendungen abdecken. Wir präsentieren eine detaillierte Benchmarking-Methodik, analysieren die Leistung anhand von Latenz-Durchsatz-Kurven und untersuchen die Skalierbarkeit durch Lastverteilung. Unsere Auswertungen zeigen erhebliche Verbesserungen in Bezug auf Durchsatz und Latenz über verschiedene Modelle und Hardwarekonfigurationen hinweg. Wir diskutieren unseren Fahrplan für zukünftige Verbesserungen, einschließlich einer breiteren Modellunterstützung und neuer Hardware-Backends. Der Code von DeepSpeed-FastGen ist für die Beteiligung und Beiträge der Community frei verfügbar.
Die Text-zu-Video-Generierung zielt darauf ab, ein Video basierend auf einem gegebenen Prompt zu erzeugen. In letzter Zeit konnten mehrere kommerzielle Videomodelle plausible Videos mit minimalem Rauschen, exzellenten Details und hohen ästhetischen Bewertungen generieren. Diese Modelle stützen sich jedoch auf groß angelegte, gut gefilterte, hochwertige Videos, die der Community nicht zugänglich sind. Viele bestehende Forschungsarbeiten, die Modelle mit dem qualitativ minderwertigen WebVid-10M-Datensatz trainieren, haben Schwierigkeiten, hochwertige Videos zu erzeugen, da die Modelle darauf optimiert sind, WebVid-10M anzupassen. In dieser Arbeit untersuchen wir das Trainingsschema von Videomodellen, die von Stable Diffusion abgeleitet sind, und erforschen die Machbarkeit, qualitativ niedrigwertige Videos und synthetisierte hochwertige Bilder zu nutzen, um ein hochwertiges Videomodell zu erhalten. Wir analysieren zunächst die Verbindung zwischen den räumlichen und zeitlichen Modulen von Videomodellen und der Verlagerung der Verteilung hin zu qualitativ niedrigwertigen Videos. Wir beobachten, dass das vollständige Training aller Module zu einer stärkeren Kopplung zwischen räumlichen und zeitlichen Modulen führt als das Training nur der zeitlichen Module. Basierend auf dieser stärkeren Kopplung verschieben wir die Verteilung hin zu höherer Qualität, ohne eine Verschlechterung der Bewegung, indem wir räumliche Module mit hochwertigen Bildern feintunen, was zu einem generischen hochwertigen Videomodell führt. Es werden Bewertungen durchgeführt, um die Überlegenheit der vorgeschlagenen Methode insbesondere in Bezug auf Bildqualität, Bewegung und Konzeptkomposition zu demonstrieren.
Wir präsentieren Scalable Interpolant Transformers (SiT), eine Familie von generativen Modellen, die auf dem Rückgrat von Diffusion Transformers (DiT) aufbauen. Das Interpolant-Framework, das es ermöglicht, zwei Verteilungen auf flexiblere Weise zu verbinden als Standard-Diffusionsmodelle, ermöglicht eine modulare Untersuchung verschiedener Designentscheidungen, die sich auf generative Modelle auswirken, die auf dynamischem Transport basieren: die Verwendung von diskretem vs. kontinuierlichem Zeitlernen, die Festlegung des Ziels, das das Modell lernen soll, die Wahl des Interpolanten, der die Verteilungen verbindet, und der Einsatz eines deterministischen oder stochastischen Samplers. Durch die sorgfältige Einführung der oben genannten Komponenten übertrifft SiT DiT einheitlich über alle Modellgrößen hinweg auf dem konditionalen ImageNet 256x256-Benchmark unter Verwendung des exakt gleichen Rückgrats, der gleichen Anzahl von Parametern und GFLOPs. Durch die Untersuchung verschiedener Diffusionskoeffizienten, die separat vom Lernen angepasst werden können, erreicht SiT einen FID-50K-Score von 2,06.
Wir präsentieren TextureDreamer, eine neuartige, bildgestützte Textursynthesemethode, um beleuchtungsfähige Texturen von einer kleinen Anzahl von Eingabebildern (3 bis 5) auf Ziel-3D-Formen über beliebige Kategorien hinweg zu übertragen. Die Texturerstellung ist eine zentrale Herausforderung in der Bildverarbeitung und Grafik. Industrieunternehmen beschäftigen erfahrene Künstler, um manuell Texturen für 3D-Assets zu erstellen. Klassische Methoden erfordern dicht abgetastete Ansichten und präzise ausgerichtete Geometrie, während lernbasierte Methoden auf kategoriespezifische Formen innerhalb des Datensatzes beschränkt sind. Im Gegensatz dazu kann TextureDreamer hochdetaillierte, komplexe Texturen aus realen Umgebungen mit nur wenigen beiläufig aufgenommenen Bildern auf beliebige Objekte übertragen, was die Texturerstellung potenziell erheblich demokratisiert. Unser Kernkonzept, die personalisierte geometrie-bewusste Score-Destillation (PGSD), schöpft Inspiration aus jüngsten Fortschritten in Diffusionsmodellen, einschließlich personalisierter Modellierung zur Extraktion von Texturinformationen, variativer Score-Destillation für die Synthese detaillierter Erscheinungsbilder und expliziter Geometrie-Führung mit ControlNet. Unsere Integration und mehrere wesentliche Modifikationen verbessern die Texturqualität erheblich. Experimente mit realen Bildern aus verschiedenen Kategorien zeigen, dass TextureDreamer erfolgreich hochrealistische, semantisch bedeutungsvolle Texturen auf beliebige Objekte übertragen kann und dabei die visuelle Qualität bisheriger State-of-the-Art-Methoden übertrifft.
Lokaler stochastischer Gradientenabstieg (Local-SGD), auch bekannt als federiertes Durchschnittsverfahren, ist ein Ansatz zur verteilten Optimierung, bei dem jedes Gerät mehr als einen SGD-Update-Schritt pro Kommunikation durchführt. Diese Arbeit präsentiert eine empirische Studie zu {\it asynchronem} Local-SGD für das Training von Sprachmodellen; das heißt, jeder Worker aktualisiert die globalen Parameter, sobald er seine SGD-Schritte abgeschlossen hat. Wir führen eine umfassende Untersuchung durch, indem wir analysieren, wie die Heterogenität der Worker-Hardware, die Modellgröße, die Anzahl der Worker und der Optimierer die Lernleistung beeinflussen können. Wir stellen fest, dass bei naiven Implementierungen asynchrones Local-SGD trotz häufigerer Aktualisierung der (globalen) Modellparameter mehr Iterationen benötigt, um zu konvergieren, als sein synchrones Gegenstück. Wir identifizieren die Momentum-Beschleunigung bei den globalen Parametern, wenn die Worker-Gradienten veraltet sind, als eine zentrale Herausforderung. Wir schlagen eine neuartige Methode vor, die ein verzögertes Nesterov-Momentum-Update nutzt und die lokalen Trainingsschritte der Worker basierend auf ihrer Rechengeschwindigkeit anpasst. Dieser Ansatz, der mit Modellen bis zu 150M Parametern auf dem C4-Datensatz evaluiert wurde, erreicht die Leistung von synchronem Local-SGD in Bezug auf die Perplexität pro Update-Schritt und übertrifft es signifikant in Bezug auf die Echtzeit.
Um die Grenzen von Text als Quelle für eine genaue Layoutdarstellung in textbedingten Diffusionsmodellen zu überwinden, integrieren viele Arbeiten zusätzliche Signale, um bestimmte Attribute innerhalb eines generierten Bildes zu steuern. Obwohl erfolgreich, berücksichtigen frühere Arbeiten nicht die spezifische Lokalisierung dieser Attribute, die in die dreidimensionale Ebene erweitert wird. In diesem Zusammenhang präsentieren wir ein bedingtes Diffusionsmodell, das die Kontrolle über die dreidimensionale Objektplatzierung mit entkoppelten Darstellungen globaler stilistischer Semantik aus mehreren Beispielbildern vereint. Konkret führen wir zunächst ein Training zur Tiefenentkopplung ein, um die relative Tiefe von Objekten als Schätzer zu nutzen, wodurch das Modell die absoluten Positionen unbekannter Objekte durch die Verwendung synthetischer Bildtripletts identifizieren kann. Wir stellen auch die Methode der weichen Steuerung vor, die globale Semantik auf gezielte Regionen überträgt, ohne zusätzliche Lokalisierungshinweise zu verwenden. Unser integriertes Framework, Compose and Conquer (CnC), vereint diese Techniken, um mehrere Bedingungen auf entkoppelte Weise zu lokalisieren. Wir zeigen, dass unser Ansatz die Wahrnehmung von Objekten in unterschiedlichen Tiefen ermöglicht und gleichzeitig ein vielseitiges Framework für die Komposition lokalisierter Objekte mit verschiedenen globalen Semantiken bietet. Code: https://github.com/tomtom1103/compose-and-conquer/
Neural Radiance Fields (NeRF) zeigen bemerkenswerte Leistung bei der Synthese neuer Ansichten (Novel View Synthesis, NVS) basierend auf einer Menge von 2D-Bildern. Allerdings erfordert das Training von NeRF genaue Kameraposen für jede Eingabeansicht, die typischerweise durch Structure-from-Motion (SfM)-Verfahren ermittelt werden. Neuere Arbeiten haben versucht, diese Einschränkung zu lockern, aber sie verlassen sich dennoch oft auf brauchbare Initialposen, die sie verfeinern können. Hier streben wir an, die Notwendigkeit einer Pose-Initialisierung vollständig zu entfernen. Wir präsentieren Incremental CONfidence (ICON), ein Optimierungsverfahren zum Training von NeRFs aus 2D-Videobildern. ICON geht lediglich von einer sanften Kamerabewegung aus, um eine erste Schätzung für die Posen zu ermitteln. Darüber hinaus führt ICON „Confidence“ ein: ein adaptives Maß für die Modellqualität, das verwendet wird, um Gradienten dynamisch neu zu gewichten. ICON stützt sich auf hochvertrauenswürdige Posen, um NeRF zu lernen, und auf hochvertrauenswürdige 3D-Strukturen (wie sie durch NeRF kodiert werden), um Posen zu lernen. Wir zeigen, dass ICON ohne vorherige Pose-Initialisierung sowohl in CO3D als auch in HO3D eine überlegene Leistung gegenüber Methoden erzielt, die SfM-Posen verwenden.