Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In letzter Zeit gibt es ein wachsendes Interesse daran, zu untersuchen, wie man bessere Code-Anweisungen für die Feinabstimmung von Daten erstellen kann. Allerdings stellen wir fest, dass Code-Modelle, die mit diesen Datensätzen trainiert wurden, eine hohe Leistung bei HumanEval zeigen, aber schlechter bei anderen Benchmarks wie LiveCodeBench abschneiden. Bei genauerer Untersuchung stellen wir fest, dass viele Datensätze unter starkem Datenleck leiden. Nachdem wir die meisten durchgesickerten Daten bereinigt haben, zeigen einige bekannte hochwertige Datensätze eine schlechte Leistung. Diese Entdeckung offenbart eine neue Herausforderung: die Identifizierung von Datensätzen, die tatsächlich als hochwertige Code-Anweisungsdaten gelten. Um dies zu lösen, schlagen wir eine effiziente Strategie zur Bereinigung von Code-Daten vor, um gute Beispiele auszuwählen. Unser Ansatz basiert auf drei Dimensionen: Anweisungskomplexität, Antwortqualität und Anweisungsvielfalt. Basierend auf unseren ausgewählten Daten präsentieren wir XCoder, eine Familie von Modellen, die aus LLaMA3 feinabgestimmt wurden. Unsere Experimente zeigen, dass XCoder eine neue Bestleistung erzielt, indem weniger Trainingsdaten verwendet werden, was die Wirksamkeit unserer Datenstrategie bestätigt. Darüber hinaus führen wir eine umfassende Analyse der Datenzusammensetzung durch und stellen fest, dass vorhandene Code-Datensätze je nach ihren Konstruktionsmethoden unterschiedliche Eigenschaften aufweisen, was neue Erkenntnisse für zukünftige Code-LLMs liefert. Unsere Modelle und Datensätze sind unter https://github.com/banksy23/XCoder veröffentlicht.
Fortschritte bei LLMs haben kürzlich Herausforderungen im Zusammenhang mit Rechenleistung und kontinuierlicher Skalierbarkeit aufgedeckt, aufgrund ihrer Anforderungen an riesige Parameter, was die Anwendungen und die Entwicklung dieser Modelle auf Geräten mit begrenzten Rechenressourcen und in Szenarien, die verschiedene Fähigkeiten erfordern, zunehmend umständlich macht. Inspiriert von der Modularität im menschlichen Gehirn gibt es einen wachsenden Trend, LLMs in zahlreiche funktionale Module zu zerlegen, um Inferenzen mit Teilen von Modulen und die dynamische Zusammenstellung von Modulen zur Bewältigung komplexer Aufgaben, wie Mischung-von-Experten, zu ermöglichen. Um die inhärente Effizienz und Komponierbarkeit des modularen Ansatzes hervorzuheben, prägen wir den Begriff "Brick", um jedes funktionale Modul zu repräsentieren, und bezeichnen die modularisierte Struktur als konfigurierbare Grundlagenmodelle. In diesem Papier bieten wir einen umfassenden Überblick und eine Untersuchung des Aufbaus, der Nutzung und der Einschränkungen konfigurierbarer Grundlagenmodelle. Wir formalisieren zunächst Module in aufkommende Bricks - funktionale Neuronenpartitionen, die während der Vor-Trainingsphase entstehen, und angepasste Bricks - Bricks, die durch zusätzliches Post-Training konstruiert werden, um die Fähigkeiten und das Wissen von LLMs zu verbessern. Basierend auf verschiedenen funktionalen Bricks präsentieren wir vier brick-orientierte Operationen: Abruf und Routing, Zusammenführen, Aktualisieren und Wachsen. Diese Operationen ermöglichen eine dynamische Konfiguration von LLMs basierend auf Anweisungen zur Bewältigung komplexer Aufgaben. Zur Überprüfung unserer Perspektive führen wir eine empirische Analyse an weit verbreiteten LLMs durch. Wir stellen fest, dass die FFN-Schichten modulare Muster mit funktionaler Spezialisierung von Neuronen und funktionalen Neuronenpartitionen aufweisen. Schließlich heben wir mehrere offene Fragen und Richtungen für zukünftige Forschung hervor. Insgesamt zielt dieses Papier darauf ab, eine frische modulare Perspektive auf bestehende LLM-Forschung zu bieten und die zukünftige Schaffung effizienterer und skalierbarer Grundlagenmodelle zu inspirieren.
Wir präsentieren Open-MAGVIT2, eine Familie von autoregressiven Bildgenerierungsmodellen mit einer Kapazität von 300M bis 1.5B. Das Open-MAGVIT2-Projekt erstellt eine Open-Source-Replikation des MAGVIT-v2-Tokenizers von Google, einem Tokenizer mit einem sehr großen Codebuch (d.h. 2^{18} Codes), und erzielt eine Spitzenleistung bei der Rekonstruktion (1.17 rFID) auf ImageNet 256 mal 256. Darüber hinaus erforschen wir seine Anwendung in einfachen autoregressiven Modellen und validieren Skalierungseigenschaften. Um autoregressive Modelle bei der Vorhersage mit einem sehr großen Vokabular zu unterstützen, faktorisieren wir es in zwei Teilvokabulare unterschiedlicher Größe durch asymmetrische Tokenfaktorisierung und führen zusätzlich die "next sub-token prediction" ein, um die Interaktion zwischen Teil-Token zur Verbesserung der Generierungsqualität zu verstärken. Wir veröffentlichen alle Modelle und Codes, um Innovation und Kreativität im Bereich der autoregressiven visuellen Generierung zu fördern.
Der globale Selbst-Aufmerksamkeitsmechanismus in Diffusions-Transformern beinhaltet redundante Berechnungen aufgrund der spärlichen und redundanten Natur visueller Informationen, und die Aufmerksamkeitskarte von Tokens innerhalb eines räumlichen Fensters zeigt eine signifikante Ähnlichkeit. Um diese Redundanz zu adressieren, schlagen wir den Proxy-Token-Diffusions-Transformer (PT-DiT) vor, der eine spärliche repräsentative Token-Aufmerksamkeit (wobei die Anzahl der repräsentativen Tokens wesentlich kleiner ist als die Gesamtanzahl der Tokens) verwendet, um globale visuelle Informationen effizient zu modellieren. Spezifisch wird in jedem Transformer-Block ein Token aus jedem räumlich-zeitlichen Fenster zufällig ausgewählt, um als Proxy-Token für diese Region zu dienen. Die globalen Semantiken werden durch die Selbst-Aufmerksamkeit dieser Proxy-Tokens erfasst und dann über Kreuz-Aufmerksamkeit in alle latenten Tokens injiziert. Gleichzeitig führen wir Fenster- und Verschiebungs-Fenster-Aufmerksamkeit ein, um den Einschränkungen im detaillierten Modellieren aufgrund des spärlichen Aufmerksamkeitsmechanismus entgegenzuwirken. Aufbauend auf dem gut durchdachten PT-DiT entwickeln wir die Qihoo-T2X-Familie weiter, die eine Vielzahl von Modellen für T2I-, T2V- und T2MV-Aufgaben umfasst. Experimentelle Ergebnisse zeigen, dass PT-DiT eine wettbewerbsfähige Leistung erzielt, während die Rechenkomplexität sowohl bei der Bild- als auch bei der Videogenerierung reduziert wird (z. B. eine Reduzierung um 48 % im Vergleich zu DiT und eine Reduzierung um 35 % im Vergleich zu Pixart-alpha). Unser Quellcode ist verfügbar unter https://github.com/360CVGroup/Qihoo-T2X.
Die Rekonstruktion realistischer 3D-Menschemodelle aus monokularen Bildern hat bedeutende Anwendungen in kreativen Branchen, Mensch-Computer-Schnittstellen und im Gesundheitswesen. Unsere Arbeit basiert auf 3D-Gauß-Splatting (3DGS), einer Szenendarstellung, die aus einer Mischung von Gaußschen Funktionen besteht. Die Vorhersage solcher Mischungen für einen Menschen aus einem einzelnen Eingabebild ist herausfordernd, da es sich um eine nicht-uniforme Dichte handelt (mit einer Viel-zu-Eins-Beziehung zu Eingabepixeln) mit strengen physikalischen Einschränkungen. Gleichzeitig muss sie flexibel sein, um eine Vielzahl von Kleidungsstücken und Posen zu berücksichtigen. Unsere Schlüsselbeobachtung ist, dass die Eckpunkte standardisierter menschlicher Gitter (wie SMPL) eine angemessene Dichte und eine ungefähre Ausgangsposition für Gaußsche Funktionen liefern können. Wir können dann ein Transformer-Modell trainieren, um gemeinsam vergleichsweise kleine Anpassungen an diesen Positionen vorherzusagen, sowie die Attribute der anderen Gaußschen Funktionen und die SMPL-Parameter. Wir zeigen empirisch, dass diese Kombination (unter Verwendung nur von Multi-View-Überwachung) eine schnelle Inferenz von 3D-Menschmodellen aus einem einzigen Bild ohne Optimierung zur Testzeit, teure Diffusionsmodelle oder 3D-Punkte-Überwachung erreichen kann. Wir zeigen auch, dass sie die 3D-Posenschätzung verbessern kann, indem sie besser passende menschliche Modelle berücksichtigt, die Kleidung und andere Variationen berücksichtigen. Der Code ist auf der Projektwebsite https://abdullahamdi.com/gst/ verfügbar.
Die Fähigkeiten von Sprachmodellen mit langem Kontext (LMs) werden oft anhand des "Nadel-im-Heuhaufen" (NIAH) Tests bewertet, der Aufgaben umfasst, die entworfen wurden, um die Fähigkeit eines Modells zu bewerten, spezifische Informationen ("Nadel") innerhalb großer Textsequenzen ("Heuhaufen") zu identifizieren. Während diese Benchmarks messen, wie gut Modelle lange Kontexteingabesequenzen verstehen, bewerten sie nicht effektiv die Qualität der Generierung von Langtexten - ein entscheidender Aspekt für Anwendungen wie Designvorschläge und kreatives Schreiben. Um diese Lücke zu schließen, haben wir einen neuen Bewertungsmaßstab für Langtexte eingeführt, Spinning the Golden Thread (SGT), der die Fähigkeit von Modellen testet, spezifische Ereignisse in generierten Langtextsequenzen zu identifizieren. In diesem Benchmark fordern wir Langtext-LMs auf, Langtexte zu erstellen, die bestimmte Ereignisse oder Einschränkungen enthalten müssen, und bewerten ihre Fähigkeit, diese Elemente einzubeziehen. Wir haben zehn Langtext-LMs in vier verschiedenen Szenarien, drei Arten von Aufforderungsanweisungen und zwei verschiedenen Generierungslängeneinstellungen (16K und 32K) bewertet. Obwohl diese Modelle in NIAH-Benchmarks gut abschneiden, zeigte keines eine zufriedenstellende Leistung beim Spinning the Golden Thread, was Bedenken hinsichtlich ihrer Fähigkeit aufwirft, kohärente Langtexte zu generieren, die Anweisungen folgen. Darüber hinaus zeigen alle Modelle eine signifikante Leistungsabnahme, wenn die Länge des generierten Textes zunimmt.