Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Anpassung von Anweisungen wurde weit verbreitet übernommen, um sicherzustellen, dass große Sprachmodelle (LLMs) Benutzeranweisungen effektiv befolgen. Die daraus resultierenden Anweisungsfolgefähigkeiten von LLMs hängen stark von den für die Anpassung verwendeten Anweisungsdatensätzen ab. In letzter Zeit sind synthetische Anweisungsdatensätze als wirtschaftlich tragfähige Lösung aufgetaucht, um LLMs vielfältige und qualitativ hochwertige Anweisungen bereitzustellen. Allerdings gehen bestehende Ansätze typischerweise davon aus, dass größere oder stärkere Modelle bessere Lehrer für die Anpassung von Anweisungen sind und daher einfach diese Modelle als Antwortgeneratoren für die synthetischen Anweisungen übernehmen. In diesem Artikel fordern wir diese häufig angenommene Annahme heraus. Unsere umfangreichen Experimente über fünf Basismodelle und zwanzig Antwortgeneratoren zeigen, dass größere und stärkere Modelle nicht unbedingt bessere Lehrer für kleinere Modelle sind. Wir bezeichnen dieses Phänomen als das Paradox der größeren Modelle. Wir stellen fest, dass bestehende Metriken die Effektivität von Antwortgeneratoren nicht genau vorhersagen können, da sie die Kompatibilität zwischen Lehrern und den Basismodellen, die feinabgestimmt werden, ignorieren. Daher entwickeln wir eine neue Metrik namens Kompatibilitätsangepasste Belohnung (CAR), um die Effektivität von Antwortgeneratoren zu messen. Unsere Experimente über fünf Basismodelle zeigen, dass CAR fast alle Baselines übertrifft.
Wir präsentieren JanusFlow, ein leistungsstarkes Framework, das Bildverständnis und -generierung in einem einzigen Modell vereint. JanusFlow führt eine minimalistische Architektur ein, die autoregressive Sprachmodelle mit rektifiziertem Fluss integriert, einer hochmodernen Methode im generativen Modellieren. Unsere Haupterkenntnis zeigt, dass rektifizierter Fluss innerhalb des großen Sprachmodell-Frameworks einfach trainiert werden kann, ohne komplexe architektonische Modifikationen erforderlich zu machen. Um die Leistung unseres vereinheitlichten Modells weiter zu verbessern, übernehmen wir zwei Schlüsselstrategien: (i) Entkopplung der Verständnis- und Generierungs-Encoder und (ii) Ausrichtung ihrer Repräsentationen während des vereinheitlichten Trainings. Umfangreiche Experimente zeigen, dass JanusFlow vergleichbare oder überlegene Leistungen im Vergleich zu spezialisierten Modellen in ihren jeweiligen Bereichen erzielt, während es bestehende vereinheitlichte Ansätze bei Standard-Benchmarks signifikant übertrifft. Diese Arbeit stellt einen Schritt hin zu effizienteren und vielseitigeren Bild-Sprach-Modellen dar.
Die Segmentierung von 3D-Teilen ist eine entscheidende und anspruchsvolle Aufgabe in der 3D-Wahrnehmung und spielt eine wichtige Rolle in Anwendungen wie Robotik, 3D-Generierung und 3D-Bearbeitung. Aktuelle Methoden nutzen leistungsstarke Vision Language Models (VLMs) für die Wissensdestillation von 2D zu 3D und erreichen eine Zero-Shot-Segmentierung von 3D-Teilen. Diese Methoden sind jedoch durch ihre Abhängigkeit von Texteingaben eingeschränkt, was die Skalierbarkeit auf groß angelegte unbeschriftete Datensätze und die Flexibilität im Umgang mit Teilambiguitäten einschränkt. In dieser Arbeit stellen wir SAMPart3D vor, ein skalierbares Zero-Shot-3D-Teilsegmentierungsframework, das jedes 3D-Objekt in semantische Teile in mehreren Granularitäten segmentiert, ohne vordefinierte Teilbezeichnungssets als Texteingaben zu benötigen. Für die Skalierbarkeit verwenden wir textagnostische Vision-Grundlagenmodelle, um ein 3D-Feature-Extraktionsrückgrat zu destillieren, das eine Skalierung auf große unbeschriftete 3D-Datensätze ermöglicht, um reiche 3D-Prioritäten zu lernen. Für die Flexibilität destillieren wir skalakonditionierte, teilbewusste 3D-Merkmale für die 3D-Teilsegmentierung in verschiedenen Granularitäten. Sobald die segmentierten Teile aus den skalakonditionierten, teilbewussten 3D-Merkmalen erhalten sind, verwenden wir VLMs, um semantische Bezeichnungen für jeden Teil basierend auf den Multi-View-Renderings zuzuweisen. Im Vergleich zu früheren Methoden kann unser SAMPart3D auf den aktuellen groß angelegten 3D-Objektdatensatz Objaverse skalieren und komplexe, nicht alltägliche Objekte verarbeiten. Darüber hinaus tragen wir mit einem neuen Benchmark zur 3D-Teilsegmentierung bei, um den Mangel an Vielfalt und Komplexität von Objekten und Teilen in bestehenden Benchmarks zu adressieren. Experimente zeigen, dass unser SAMPart3D signifikant bessere Leistungen als bestehende Zero-Shot-3D-Teilsegmentierungsmethoden erbringt und verschiedene Anwendungen wie die Bearbeitung auf Teilebene und die interaktive Segmentierung erleichtern kann.
Wir stellen BLIP3-KALE vor, ein Datensatz von 218 Millionen Bild-Text-Paaren, der die Kluft zwischen beschreibenden synthetischen Bildunterschriften und faktischen webbasierten Alternativtexten überbrückt. KALE erweitert synthetische dichte Bildunterschriften mit webbasierten Alternativtexten im großen Maßstab, um faktisch fundierte Bildunterschriften zu generieren. Unser zweistufiger Ansatz nutzt große Vision-Sprach-Modelle und Sprachmodelle, um wissensgestützte Untertitel zu erstellen, die dann verwendet werden, um ein spezialisiertes VLM für die Skalierung des Datensatzes zu trainieren. Wir trainieren Vision-Sprach-Modelle auf KALE und zeigen Verbesserungen bei Vision-Sprach-Aufgaben. Unsere Experimente zeigen den Nutzen von KALE für das Training von leistungsfähigeren und kenntnisreicheren multimodalen Modellen. Wir veröffentlichen den KALE-Datensatz unter https://huggingface.co/datasets/Salesforce/blip3-kale.
In diesem Artikel argumentieren wir, dass die iterative Berechnung mit Diffusionsmodellen ein leistungsstarkes Paradigma nicht nur für die Generierung, sondern auch für visuelle Wahrnehmungsaufgaben darstellt. Wir vereinen Aufgaben wie Tiefenschätzung, optischer Fluss und Segmentierung unter Bild-zu-Bild-Übersetzung und zeigen, wie Diffusionsmodelle von der Skalierung des Trainings und der Rechenzeit bei diesen Wahrnehmungsaufgaben profitieren. Durch eine sorgfältige Analyse dieser Skalierungsverhalten präsentieren wir verschiedene Techniken, um Diffusionsmodelle effizient für visuelle Wahrnehmungsaufgaben zu trainieren. Unsere Modelle erzielen eine verbesserte oder vergleichbare Leistung im Vergleich zu State-of-the-Art-Methoden unter Verwendung von signifikant weniger Daten und Rechenleistung. Um unseren Code und unsere Modelle zu verwenden, besuchen Sie https://scaling-diffusion-perception.github.io.
Groß angelegte 3D-generative Modelle erfordern erhebliche Rechenressourcen, können jedoch oft feine Details und komplexe Geometrien bei hohen Auflösungen nicht vollständig erfassen. Wir führen diese Einschränkung auf die Ineffizienz der aktuellen Darstellungen zurück, die nicht die erforderliche Kompaktheit aufweisen, um die generativen Modelle effektiv zu modellieren. Um dies zu lösen, stellen wir einen neuartigen Ansatz namens Wavelet Latent Diffusion, oder WaLa, vor, der 3D-Formen in waveletbasierte, kompakte latente Kodierungen umwandelt. Konkret komprimieren wir ein 256^3-Signed-Distance-Feld in ein 12^3-mal-4-latentes Raster und erreichen ein beeindruckendes Kompressionsverhältnis von 2427x bei minimalem Detailverlust. Dieses hohe Maß an Kompression ermöglicht es unserer Methode, große generative Netzwerke effizient zu trainieren, ohne die Inferenzzeit zu erhöhen. Unsere Modelle, sowohl bedingt als auch unbedingt, enthalten ungefähr eine Milliarde Parameter und generieren erfolgreich hochwertige 3D-Formen mit einer Auflösung von 256^3. Darüber hinaus bietet WaLa eine schnelle Inferenz, die Formen innerhalb von zwei bis vier Sekunden je nach Bedingung erzeugt, trotz des Maßstabs des Modells. Wir zeigen eine Spitzenleistung über mehrere Datensätze hinweg mit signifikanten Verbesserungen in der Generierungsqualität, Vielfalt und Recheneffizienz. Wir stellen unseren Code als Open Source zur Verfügung und veröffentlichen, nach unserem besten Wissen, die größten vorab trainierten 3D-generativen Modelle über verschiedene Modalitäten hinweg.
Eine realistische Audio-Synthese, die genaue akustische Phänomene erfasst, ist entscheidend für die Schaffung immersiver Erlebnisse in virtueller und erweiterter Realität. Die Synthese des Tons, der an jeder Position empfangen wird, beruht auf der Schätzung der Impulsantwort (IR), die charakterisiert, wie der Ton in einer Szene entlang verschiedener Pfade propagiert, bevor er die Hörposition erreicht. In diesem Artikel präsentieren wir Acoustic Volume Rendering (AVR), einen neuartigen Ansatz, der Volumen-Rendering-Techniken anpasst, um akustische Impulsantworten zu modellieren. Während Volumen-Rendering erfolgreich bei der Modellierung von Strahlungsfeldern für Bilder und neuronale Szenedarstellungen war, stellen IRs aufgrund ihrer Zeitreihensignale einzigartige Herausforderungen dar. Um diesen Herausforderungen zu begegnen, führen wir Frequenzbereich-Volumen-Rendering ein und verwenden sphärische Integration, um die IR-Messungen anzupassen. Unsere Methode konstruiert ein Impulsantwortfeld, das die Wellenausbreitungsprinzipien inhärent kodiert und eine Spitzenleistung bei der Synthese von Impulsantworten für neue Positionen erreicht. Experimente zeigen, dass AVR die derzeit führenden Methoden deutlich übertrifft. Zusätzlich entwickeln wir eine akustische Simulationsplattform, AcoustiX, die genauere und realistischere IR-Simulationen als vorhandene Simulatoren bietet. Der Code für AVR und AcoustiX ist unter https://zitonglan.github.io/avr verfügbar.
Es ist heutzutage eine gängige Geschäftspraxis, den Zugriff auf große Sprachmodell-Inferenzen (LLM) zu kaufen, anstatt sie selbst zu hosten, aufgrund erheblicher anfänglicher Hardware-Infrastruktur- und Energiekosten. Als Käufer gibt es jedoch keinen Mechanismus, um die Echtheit des beworbenen Dienstes zu überprüfen, einschließlich der verwendeten Hardware-Plattform, z.B. ob tatsächlich ein NVIDIA H100 verwendet wird. Darüber hinaus gibt es Berichte, die nahelegen, dass Modellanbieter Modelle liefern könnten, die geringfügig von den beworbenen abweichen, oft um sie auf kostengünstigerer Hardware auszuführen. Auf diese Weise zahlt ein Kunde einen Aufpreis für den Zugriff auf ein leistungsfähiges Modell auf teurerer Hardware, wird jedoch letztendlich von einem (potenziell weniger leistungsfähigen) günstigeren Modell auf billigerer Hardware bedient. In diesem Papier stellen wir \textbf{Hardware- und Software-Plattform-Inferenz (HSPI)} vor - eine Methode zur Identifizierung der zugrunde liegenden Architektur und Software-Struktur eines (Black-Box-) maschinellen Lernmodells ausschließlich basierend auf seinem Ein-Ausgabeverhalten. Unsere Methode nutzt die inhärenten Unterschiede verschiedener Architekturen und Compiler, um zwischen verschiedenen Typen und Software-Strukturen zu unterscheiden. Durch die Analyse der numerischen Muster in den Ausgaben des Modells schlagen wir ein Klassifizierungsframework vor, das in der Lage ist, den für die Modellinferenz verwendeten Typ sowie die zugrunde liegende Software-Konfiguration genau zu identifizieren. Unsere Ergebnisse zeigen die Machbarkeit der Inferenz des Typs aus Black-Box-Modellen. Wir evaluieren HSPI gegen Modelle, die auf verschiedenen realen Hardware-Plattformen ausgeführt werden, und stellen fest, dass wir in einer White-Box-Umgebung zwischen verschiedenen Typen mit einer Genauigkeit von 83,9% bis 100% unterscheiden können. Selbst in einer Black-Box-Umgebung können wir Ergebnisse erzielen, die bis zu drei Mal höher sind als die zufällige Rate.