papers.description
Neueste Fortschritte in der generativen Modellierung ermöglichen nun die Erstellung von 4D-Inhalten (bewegliche 3D-Objekte), die mit Texteingaben gesteuert werden. Die 4D-Generierung birgt großes Potenzial in Anwendungen wie virtuellen Welten, Medien und Spielen, jedoch bieten bestehende Methoden nur eine begrenzte Kontrolle über das Aussehen und die Geometrie der generierten Inhalte. In dieser Arbeit stellen wir eine Methode zur Animation von vom Benutzer bereitgestellten 3D-Objekten vor, die durch textuelle Eingaben zur Steuerung der 4D-Generierung führt, wodurch benutzerdefinierte Animationen ermöglicht werden, während die Identität des Originalobjekts erhalten bleibt. Zunächst wandeln wir ein 3D-Gitter in ein "statisches" 4D-Neural Radiance Field (NeRF) um, das die visuellen Merkmale des Eingabeobjekts bewahrt. Anschließend animieren wir das Objekt mithilfe eines Bild-zu-Video-Diffusionsmodells, das durch Text gesteuert wird. Zur Verbesserung der Bewegungsrealität führen wir ein inkrementelles Blickwinkelauswahlprotokoll zur Auswahl von Perspektiven ein, um lebensechte Bewegungen zu fördern, sowie einen maskierten Score Distillation Sampling (SDS)-Verlust, der Aufmerksamkeitskarten nutzt, um die Optimierung auf relevante Regionen zu fokussieren. Wir evaluieren unser Modell hinsichtlich zeitlicher Kohärenz, Einhaltung der Eingabeaufforderungen und visueller Treue und stellen fest, dass unsere Methode Baselines, die auf anderen Ansätzen basieren, übertrifft, indem sie bis zu dreifache Verbesserungen bei der Identitätserhaltung erzielt, gemessen an LPIPS-Werten, und visuelle Qualität effektiv mit dynamischen Inhalten ausbalanciert.
Die bemerkenswerte Leistung von Modellen wie dem OpenAI o1 kann auf ihre Fähigkeit zurückgeführt werden, menschenähnliches Langzeitdenken während der Inferenz zu emulieren. Diese Modelle verwenden erweiterte Denkprozesse (Chain-of-Thought, CoT), um mehrere Strategien zu erkunden und die Problemlösungsfähigkeiten zu verbessern. Eine entscheidende Frage bleibt jedoch offen: Wie lassen sich die Rechenressourcen während der Tests intelligent und effizient skalieren? Dieser Artikel präsentiert die erste umfassende Studie zum weit verbreiteten Problem des Überdenkens in diesen Modellen, bei dem übermäßige Rechenressourcen für einfache Probleme mit minimalem Nutzen allokiert werden. Wir führen neue Effizienzmetriken aus Ergebnis- und Prozessperspektiven ein, um den rationalen Einsatz von Rechenressourcen durch o1-ähnliche Modelle zu bewerten. Unter Verwendung eines Selbsttrainingsparadigmas schlagen wir Strategien vor, um das Überdenken zu reduzieren, die Denkprozesse zu optimieren, ohne die Genauigkeit zu beeinträchtigen. Experimentelle Ergebnisse zeigen, dass unser Ansatz den Rechenaufwand erfolgreich reduziert, während die Modellleistung über eine Reihe von Testsets mit unterschiedlichen Schwierigkeitsgraden wie GSM8K, MATH500, GPQA und AIME erhalten bleibt.
Wir stellen TangoFlux vor, ein effizientes Text-zu-Audio (TTA) Generativmodell mit 515 Millionen Parametern, das in der Lage ist, innerhalb von nur 3,7 Sekunden auf einer einzelnen A40 GPU bis zu 30 Sekunden 44,1 kHz Audio zu generieren. Eine zentrale Herausforderung bei der Ausrichtung von TTA-Modellen besteht in der Schwierigkeit, Präferenzpaare zu erstellen, da TTA keine strukturierten Mechanismen wie überprüfbare Belohnungen oder Goldstandard-Antworten bietet, die für große Sprachmodelle (LLMs) verfügbar sind. Um diesem Problem zu begegnen, schlagen wir CLAP-Ranked Preference Optimization (CRPO) vor, ein neuartiges Framework, das iterativ Präferenzdaten generiert und optimiert, um die Ausrichtung von TTA zu verbessern. Wir zeigen, dass das mit CRPO generierte Audio-Präferenzdatenset bestehende Alternativen übertrifft. Mit diesem Framework erzielt TangoFlux Spitzenleistungen in objektiven und subjektiven Benchmarks. Wir stellen den gesamten Code und die Modelle als Open Source zur Verfügung, um weitere Forschung in der TTA-Generierung zu unterstützen.
Wir präsentieren SWE-Gym, die erste Umgebung zur Schulung von Agenten für Softwaretechnik (SWE) in der realen Welt. SWE-Gym enthält 2.438 Python-Aufgaben aus der realen Welt, von denen jede eine Codebasis mit einer ausführbaren Laufzeitumgebung, Modultests und eine in natürlicher Sprache spezifizierte Aufgabe umfasst. Wir verwenden SWE-Gym zur Schulung von auf Sprachmodellen basierenden SWE-Agenten und erzielen dabei bis zu 19% absolute Verbesserungen der Lösungsrate auf den beliebten SWE-Bench Verified und Lite Testsets. Wir experimentieren auch mit der Skalierung zur Inferenzzeit durch Verifizierer, die auf Agententrajektorien trainiert sind, die aus SWE-Gym entnommen wurden. In Kombination mit unseren feinabgestimmten SWE-Agenten erreichen wir 32,0% bzw. 26,0% auf SWE-Bench Verified und Lite und setzen damit einen neuen Stand der Technik für offengewichtige SWE-Agenten. Um weitere Forschung zu erleichtern, veröffentlichen wir SWE-Gym, Modelle und Agententrajektorien öffentlich.