Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Mit der Entwicklung großer Sprachmodelle (LLM) gewinnt die Ausrichtung auf menschliche Präferenzen zunehmend an Bedeutung. Wir schlagen stepwise DPO (sDPO) vor, eine Erweiterung der kürzlich populär gewordenen direkten Präferenzoptimierung (DPO) zur Ausrichtungsanpassung. Dieser Ansatz beinhaltet die Aufteilung der verfügbaren Präferenzdatensätze und deren schrittweise Nutzung, anstatt sie auf einmal zu verwenden. Wir zeigen, dass diese Methode die Verwendung präziser ausgerichteter Referenzmodelle im DPO-Trainingsrahmen erleichtert. Darüber hinaus trainiert sDPO das endgültige Modell so, dass es leistungsstärker wird und sogar andere populäre LLMs mit mehr Parametern übertrifft.
3D-Gauß-Splatting (GS) hat in Bezug auf 3D-Anpassungsgenauigkeit und Rendering-Geschwindigkeit erhebliche Verbesserungen gegenüber Neural Radiance Fields erzielt. Diese unstrukturierte Darstellung mit verstreuten Gaußschen Funktionen stellt jedoch eine bedeutende Herausforderung für die generative Modellierung dar. Um das Problem anzugehen, führen wir GaussianCube ein, eine strukturierte GS-Darstellung, die sowohl leistungsstark als auch effizient für die generative Modellierung ist. Dies erreichen wir, indem wir zunächst einen modifizierten Dichtebeschränkten GS-Anpassungsalgorithmus vorschlagen, der hochwertige Anpassungsergebnisse unter Verwendung einer festen Anzahl freier Gaußscher Funktionen liefern kann, und dann die Gaußschen Funktionen über Optimal Transport in ein vordefiniertes Voxelgitter umordnen. Die strukturierte Gitterdarstellung ermöglicht es uns, den Standard-3D-U-Net als Backbone in der diffusiven generativen Modellierung ohne aufwändige Designs zu verwenden. Umfangreiche Experimente, die an ShapeNet und OmniObject3D durchgeführt wurden, zeigen, dass unser Modell sowohl qualitativ als auch quantitativ Spitzenresultate in der Generierung erzielt und das Potenzial von GaussianCube als leistungsstarke und vielseitige 3D-Darstellung unterstreichen.
Es hat enorme Fortschritte bei multimodalen Large Language Models (LLMs) gegeben. Aktuelle Arbeiten haben diese Modelle auf Videoeingaben mit vielversprechenden Anweisungsfolge-Fähigkeiten erweitert. Ein wichtiges fehlendes Element ist jedoch die zeitliche Lokalisierung. Diese Modelle können die "Wann?"-Fragen nicht genau beantworten. Wir identifizieren drei Schlüsselfaktoren, die ihre zeitlichen Lokalisierungsfähigkeiten einschränken: (i) Zeitdarstellung, (ii) Architektur und (iii) Daten. Wir beheben diese Mängel, indem wir den Language Instructed Temporal-Localization Assistant (LITA) mit den folgenden Merkmalen vorschlagen: (1) Wir führen Zeit-Token ein, die Zeitstempel relativ zur Videolänge codieren, um die Zeit in Videos besser darzustellen. (2) Wir führen SlowFast-Token in die Architektur ein, um zeitliche Informationen mit feiner zeitlicher Auflösung zu erfassen. (3) Wir legen den Schwerpunkt auf zeitliche Lokalisierungsdaten für LITA. Neben der Nutzung vorhandener Videodatensätze mit Zeitstempeln schlagen wir eine neue Aufgabe, Reasoning Temporal Localization (RTL), zusammen mit dem Datensatz ActivityNet-RTL vor, um diese Aufgabe zu erlernen und zu bewerten. Das Schlussfolgern der zeitlichen Lokalisierung erfordert sowohl das Schlussfolgern als auch die zeitliche Lokalisierung von Video-LLMs. LITA zeigt eine starke Leistung bei dieser anspruchsvollen Aufgabe, wobei die zeitliche mittlere Intersection-over-Union (mIoU) der Baselines fast verdoppelt wird. Darüber hinaus zeigen wir, dass unser Schwerpunkt auf der zeitlichen Lokalisierung auch die videobasierte Textgenerierung im Vergleich zu bestehenden Video-LLMs erheblich verbessert, einschließlich einer 36%igen relativen Verbesserung des Temporal Understanding. Der Code ist verfügbar unter: https://github.com/NVlabs/LITA
Text-zu-Bild-generative Modelle auf Diffusionsbasis, z. B. Stable Diffusion, haben das Feld der Inhaltegenerierung revolutioniert und signifikante Fortschritte in Bereichen wie Bildbearbeitung und Videosynthese ermöglicht. Trotz ihrer beeindruckenden Fähigkeiten sind diese Modelle nicht ohne ihre Einschränkungen. Es bleibt nach wie vor eine Herausforderung, ein Bild zu synthetisieren, das gut mit dem Eingabetext übereinstimmt, und mehrere Durchläufe mit sorgfältig ausgearbeiteten Anfragen sind erforderlich, um zufriedenstellende Ergebnisse zu erzielen. Um diese Einschränkungen zu mildern, haben zahlreiche Studien versucht, die vortrainierten Diffusionsmodelle, d. h. UNet, unter Verwendung verschiedener Technologien zu feinabzustimmen. Doch inmitten dieser Bemühungen bleibt eine entscheidende Frage zur Schulung von Text-zu-Bild-Diffusionsmodellen weitgehend unerforscht: Ist es möglich und sinnvoll, den Textkodierer zu feinabstimmen, um die Leistung der Text-zu-Bild-Diffusionsmodelle zu verbessern? Unsere Ergebnisse zeigen, dass wir anstelle des CLIP-Textkodierers, der in Stable Diffusion verwendet wird, durch unseren vorgeschlagenen Feinabstimmungsansatz, TextCraftor, verbessern können, was zu erheblichen Verbesserungen bei quantitativen Benchmarks und menschlichen Bewertungen führt. Interessanterweise ermöglicht unsere Technik auch eine kontrollierbare Bildgenerierung durch die Interpolation verschiedener Textkodierer, die mit verschiedenen Belohnungen feinabgestimmt wurden. Wir zeigen auch, dass TextCraftor orthogonal zur Feinabstimmung von UNet ist und kombiniert werden kann, um die generative Qualität weiter zu verbessern.
Wir präsentieren Mesh2NeRF, einen Ansatz zur Ableitung von Ground-Truth-Radiance-Feldern aus texturierten Meshes für 3D-Generierungsaufgaben. Viele 3D-generative Ansätze stellen 3D-Szenen als Radiance-Felder für das Training dar. Deren Ground-Truth-Radiance-Felder werden in der Regel aus Multi-View-Renderings aus einem groß angelegten synthetischen 3D-Datensatz angepasst, was häufig zu Artefakten aufgrund von Okklusionen oder Unteranpassungsproblemen führt. In Mesh2NeRF schlagen wir eine analytische Lösung vor, um Ground-Truth-Radiance-Felder direkt aus 3D-Meshes zu erhalten, wobei das Dichtefeld mit einer Besetzungs-Funktion charakterisiert wird, die eine definierte Oberflächendicke aufweist, und die ansichtsabhängige Farbe durch eine Reflexionsfunktion bestimmt wird, die sowohl das Mesh als auch die Umgebungsbeleuchtung berücksichtigt. Mesh2NeRF extrahiert genaue Radiance-Felder, die eine direkte Aufsicht für das Training generativer NeRFs und die einzeilige Szenendarstellung bieten. Wir validieren die Wirksamkeit von Mesh2NeRF in verschiedenen Aufgaben und erzielen eine bemerkenswerte Verbesserung von 3,12 dB im PSNR für die Ansichtssynthese in der einzeiligen Szenendarstellung auf dem ABO-Datensatz, eine PSNR-Verbesserung von 0,69 bei der einzeiligen bedingten Generierung von ShapeNet Cars und eine deutlich verbesserte Mesh-Extraktion aus NeRF bei der bedingungslosen Generierung von Objaverse Mugs.