papers.description
Die Musikgenerierung hat mit den Fortschritten bei tiefen generativen Modellen zunehmendes Interesse geweckt. Die Erzeugung von Musik, die auf textuellen Beschreibungen basiert, bekannt als Text-zu-Musik, bleibt jedoch aufgrund der Komplexität musikalischer Strukturen und der hohen Anforderungen an die Abtastrate eine Herausforderung. Trotz der Bedeutung dieser Aufgabe weisen vorherrschende generative Modelle Einschränkungen in Bezug auf Musikqualität, Recheneffizienz und Generalisierung auf. Dieses Papier stellt JEN-1 vor, ein universelles Hochfidelitätsmodell für die Text-zu-Musik-Generierung. JEN-1 ist ein Diffusionsmodell, das sowohl autoregressives als auch nicht-autoregressives Training integriert. Durch In-Context-Learning führt JEN-1 verschiedene Generierungsaufgaben durch, darunter textgesteuerte Musikgenerierung, Musikinpainting und Fortsetzung. Evaluierungen zeigen, dass JEN-1 in Bezug auf Text-Musik-Alignment und Musikqualität state-of-the-art-Methoden übertrifft und dabei die Recheneffizienz beibehält. Unsere Demos sind verfügbar unter http://futureverse.com/research/jen/demos/jen1.
Da große Sprachmodelle immer besser werden, wächst das Interesse an Techniken, die die Fähigkeiten dieser Modelle nutzen, um ihre eigenen Ausgaben zu verfeinern. In dieser Arbeit stellen wir Shepherd vor, ein Sprachmodell, das speziell darauf abgestimmt ist, Antworten zu kritisieren und Verbesserungsvorschläge zu machen. Es geht dabei über die Fähigkeiten eines nicht angepassten Modells hinaus, indem es diverse Fehler identifiziert und Vorschläge zu deren Behebung liefert. Kern unseres Ansatzes ist ein hochwertiges Feedback-Datenset, das wir aus Community-Feedback und menschlichen Annotationen kuratieren. Obwohl Shepherd klein ist (7B Parameter), sind seine Kritiken entweder gleichwertig oder werden denen etablierter Modelle wie ChatGPT vorgezogen. Bei der Bewertung mit GPT-4 erreicht Shepherd eine durchschnittliche Gewinnrate von 53-87 % im Vergleich zu konkurrierenden Alternativen. In der menschlichen Bewertung übertrifft Shepherd andere Modelle deutlich und liegt im Durchschnitt nahezu gleichauf mit ChatGPT.
Jüngste Fortschritte bei großen Sprachmodellen (LLM) verdeutlichen deren vielfältige Fähigkeiten. Wir schlagen einen neuartigen Algorithmus vor, das gestufte spekulative Decodieren, um die Inferenz von LLM in Szenarien mit kleinen Batch-Größen und auf Endgeräten zu beschleunigen. Wir adressieren die geringe arithmetische Intensität der Inferenz mit kleinen Batch-Größen, indem wir frühere Arbeiten zum spekulativen Decodieren verbessern. Zunächst strukturieren wir den spekulativen Batch als Baum um, was die Generierungskosten reduziert und die erwarteten Tokens pro Batch erhöht. Zweitens fügen wir eine zweite Stufe des spekulativen Decodierens hinzu. Zusammengenommen reduzieren wir die Latenz beim Decodieren eines einzelnen Batches um das 3,16-fache bei einem GPT-2-L-Modell mit 762M Parametern, während die Ausgabequalität perfekt erhalten bleibt.
False Negatives (FN) in der 3D-Objekterkennung, {\em z.B.}, fehlende Vorhersagen von Fußgängern, Fahrzeugen oder anderen Hindernissen, können in der autonomen Fahrzeugführung zu potenziell gefährlichen Situationen führen. Obwohl dieses Problem kritisch ist, wird es in vielen aktuellen 3D-Erkennungsmethoden nicht ausreichend untersucht. In dieser Arbeit schlagen wir Hard Instance Probing (HIP) vor, eine allgemeine Pipeline, die FN in mehreren Stufen identifiziert und die Modelle dazu anleitet, sich auf die Erkennung schwieriger Instanzen zu konzentrieren. Für die 3D-Objekterkennung implementieren wir diese Methode als FocalFormer3D, einen einfachen, aber effektiven Detektor, der sich besonders gut darin auszeichnet, schwierige Objekte zu erkennen und die Vorhersagegenauigkeit zu verbessern. FocalFormer3D zeichnet sich durch eine mehrstufige Abfragegenerierung zur Entdeckung schwer erkennbarer Objekte und einen Box-Level-Transformer-Decoder aus, der effizient Objekte aus einer großen Anzahl von Kandidaten unterscheidet. Experimentelle Ergebnisse auf den nuScenes- und Waymo-Datensätzen bestätigen die überlegene Leistung von FocalFormer3D. Dieser Vorteil führt zu starken Ergebnissen sowohl in der Erkennung als auch im Tracking, sowohl in LiDAR- als auch in multimodalen Einstellungen. Bemerkenswert ist, dass FocalFormer3D auf dem nuScenes-Erkennungsbenchmark einen mAP von 70,5 und einen NDS von 73,9 erreicht, während der nuScenes-Tracking-Benchmark einen AMOTA von 72,1 zeigt, was beide den ersten Platz auf der nuScenes-LiDAR-Rangliste belegt. Unser Code ist verfügbar unter https://github.com/NVlabs/FocalFormer3D.