Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle sind zum Eckpfeiler der natürlichen Sprachverarbeitung geworden, doch ihr Einsatz ist mit erheblichen Kosten in Bezug auf Rechen- und Speicherressourcen verbunden. Sparsifizierung bietet eine Lösung, um diese Ressourcenbeschränkungen zu mildern, und neuere Arbeiten haben gezeigt, dass trainierte Modelle nachträglich sparsifiziert werden können. Bestehende Sparsifizierungstechniken stehen vor Herausforderungen, da sie zusätzliche Datenstrukturen benötigen und mit aktueller Hardware nur begrenzte Beschleunigung bieten. In diesem Artikel stellen wir SliceGPT vor, ein neues nachträgliches Sparsifizierungsschema, das jede Gewichtsmatrix durch eine kleinere (dichte) Matrix ersetzt und dadurch die Einbettungsdimension des Netzwerks reduziert. Durch umfangreiche Experimente zeigen wir, dass SliceGPT bis zu 25 % der Modellparameter (einschließlich Einbettungen) für die Modelle LLAMA2-70B, OPT 66B und Phi-2 entfernen kann, während jeweils 99 %, 99 % und 90 % der Zero-Shot-Aufgabenleistung des dichten Modells erhalten bleiben. Unsere geschnittenen Modelle laufen auf weniger GPUs und sind schneller, ohne dass zusätzliche Code-Optimierungen erforderlich sind: Auf 24GB Consumer-GPUs reduzieren wir den gesamten Rechenaufwand für Inferenz auf LLAMA2-70B auf 64 % des dichten Modells; auf 40GB A100-GPUs reduzieren wir ihn auf 66 %. Wir bieten eine neue Erkenntnis, die rechnerische Invarianz in Transformernetzwerken, die SliceGPT ermöglicht, und hoffen, dass sie zukünftige Wege zur Reduzierung des Speicher- und Rechenbedarfs für vortrainierte Modelle inspirieren und ermöglichen wird. Der Code ist verfügbar unter: https://github.com/microsoft/TransformerCompression
Meta-Learning hat sich als leistungsstarker Ansatz etabliert, um neuronale Netze darauf zu trainieren, neue Aufgaben schnell aus begrenzten Daten zu erlernen. Die breite Exposition gegenüber verschiedenen Aufgaben führt zu vielseitigen Repräsentationen, die allgemeine Problemlösungen ermöglichen. Doch wo liegen die Grenzen des Meta-Learnings? In dieser Arbeit untersuchen wir das Potenzial, den leistungsfähigsten universellen Prädiktor, nämlich die Solomonoff-Induktion (SI), durch die Ausschöpfung der Grenzen des Meta-Learnings in neuronale Netze zu amortisieren. Wir verwenden Universelle Turingmaschinen (UTMs), um Trainingsdaten zu generieren, die Netze einer breiten Palette von Mustern aussetzen. Wir bieten eine theoretische Analyse der UTM-Datengenerierungsprozesse und Meta-Trainingsprotokolle. Wir führen umfassende Experimente mit neuronalen Architekturen (z. B. LSTMs, Transformers) und algorithmischen Datengeneratoren unterschiedlicher Komplexität und Universalität durch. Unsere Ergebnisse deuten darauf hin, dass UTM-Daten eine wertvolle Ressource für Meta-Learning sind und verwendet werden können, um neuronale Netze zu trainieren, die universelle Vorhersagestrategien erlernen können.
Die auto-regressive Decodierung macht die Inferenz von Large Language Models (LLMs) zeitaufwendig. Wir schlagen ein einfaches Framework vor, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), für eine verlustfreie Beschleunigung. Im Gegensatz zu traditionellen spekulativen Sampling-Methoden führt EAGLE den Drafting-Prozess auto-regressiv auf der regelmäßigeren (zweithöchsten) Feature-Ebene durch und adressiert die Unsicherheitsprobleme bei der Vorhersage des nächsten Features durch die Integration von Tokens aus einem Zeitschritt im Voraus. Die von EAGLE bereitgestellte Beschleunigung ist verlustfrei: Sie erfordert kein Fine-Tuning des Ziel-LLMs, und der generierte Text behält die gleiche Verteilung wie bei der herkömmlichen auto-regressiven Decodierung. Zum Zeitpunkt der Einreichung dieses Artikels ist EAGLE das schnellste bekannte Framework innerhalb der Familie der spekulativen Sampling-Methoden. Auf MT-bench ist EAGLE 3x schneller als die herkömmliche Decodierung, 2x schneller als Lookahead und 1,6x schneller als Medusa. Mit gpt-fast erreicht EAGLE durchschnittlich 160 Tokens/s mit LLaMA2-Chat 13B auf einer einzelnen RTX 3090 GPU, verglichen mit 24 Tokens/s der Implementierungen von Huggingface.
Jüngste Fortschritte in Text-zu-Bild-Modellen haben die Bildgenerierungsfähigkeiten erheblich verbessert, doch besteht weiterhin eine bemerkenswerte Lücke bei Open-Source-Modellen in Bezug auf bilinguale oder chinesische Sprachunterstützung. Um diesen Bedarf zu decken, präsentieren wir Taiyi-Diffusion-XL, ein neues chinesisch-englisches bilinguales Text-zu-Bild-Modell, das durch die Erweiterung der Fähigkeiten von CLIP und Stable-Diffusion-XL mittels eines Prozesses des bilingualen kontinuierlichen Vortrainings entwickelt wurde. Dieser Ansatz umfasst die effiziente Erweiterung des Vokabulars durch die Integration der am häufigsten verwendeten chinesischen Zeichen in den Tokenizer und die Embedding-Schichten von CLIP, gekoppelt mit einer Erweiterung der absoluten Positionskodierung. Zusätzlich bereichern wir Textprompts durch ein großes Vision-Sprache-Modell, was zu besseren Bildbeschreibungen und einer höheren visuellen Qualität führt. Diese Verbesserungen werden anschließend auf nachgelagerte Text-zu-Bild-Modelle angewendet. Unsere empirischen Ergebnisse zeigen, dass das entwickelte CLIP-Modell in der bilingualen Bild-Text-Retrieval überragt. Darüber hinaus übertreffen die bilingualen Bildgenerierungsfähigkeiten von Taiyi-Diffusion-XL frühere Modelle. Diese Forschung führt zur Entwicklung und Open-Source-Bereitstellung des Taiyi-Diffusion-XL-Modells, was einen bemerkenswerten Fortschritt im Bereich der Bildgenerierung, insbesondere für chinesische Sprachanwendungen, darstellt. Dieser Beitrag ist ein Schritt nach vorn, um den Bedarf an vielfältigerer Sprachunterstützung in der multimodalen Forschung zu adressieren. Das Modell und die Demonstration sind öffentlich verfügbar unter https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{diese https URL}, was weitere Forschung und Zusammenarbeit in diesem Bereich fördert.
Textgesteuerte 3D-Szenenbearbeitung hat aufgrund ihrer Bequemlichkeit und Benutzerfreundlichkeit erhebliche Aufmerksamkeit erlangt. Allerdings mangelt es bestehenden Methoden noch an präziser Kontrolle über das spezifizierte Aussehen und die Position des Bearbeitungsergebnisses, was auf die inhärenten Grenzen der Textbeschreibung zurückzuführen ist. Zu diesem Zweck schlagen wir ein 3D-Szenenbearbeitungsframework, TIPEditor, vor, das sowohl Text- als auch Bildprompts sowie einen 3D-Begrenzungsrahmen zur Spezifizierung des Bearbeitungsbereichs akzeptiert. Mit dem Bildprompt können Benutzer bequem das detaillierte Aussehen/den Stil des Zielinhalts ergänzend zur Textbeschreibung festlegen, was eine präzise Kontrolle des Aussehens ermöglicht. Insbesondere verwendet TIP-Editor eine schrittweise 2D-Personalisierungsstrategie, um die Darstellung der bestehenden Szene und des Referenzbildes besser zu erlernen, wobei ein Lokalisierungsverlust vorgeschlagen wird, um die korrekte Platzierung des Objekts gemäß dem Begrenzungsrahmen zu fördern. Zusätzlich nutzt TIPEditor explizites und flexibles 3D-Gaussian-Splatting als 3D-Darstellung, um lokale Bearbeitungen zu erleichtern, während der Hintergrund unverändert bleibt. Umfangreiche Experimente haben gezeigt, dass TIP-Editor präzise Bearbeitungen gemäß den Text- und Bildprompts im spezifizierten Begrenzungsrahmenbereich durchführt und die Baselines in Bezug auf Bearbeitungsqualität und Übereinstimmung mit den Prompts sowohl qualitativ als auch quantitativ konsequent übertrifft.
Menschen setzen ausdrucksstarke Verhaltensweisen ein, um effektiv zu kommunizieren und ihre Handlungen mit anderen zu koordinieren, wie beispielsweise Nicken, um eine Person anzuerkennen, die sie anschaut, oder „Entschuldigung“ zu sagen, um in einem belebten Korridor an anderen vorbeizugehen. Wir möchten, dass Roboter ebenfalls ausdrucksstarke Verhaltensweisen in der Mensch-Roboter-Interaktion zeigen. Bisherige Ansätze schlagen regelbasierte Methoden vor, die Schwierigkeiten haben, auf neue Kommunikationsmodalitäten oder soziale Situationen zu skalieren, während datengetriebene Methoden spezialisierte Datensätze für jede soziale Situation erfordern, in der der Roboter eingesetzt wird. Wir schlagen vor, den reichen sozialen Kontext großer Sprachmodelle (LLMs) und deren Fähigkeit, Bewegungen basierend auf Anweisungen oder Benutzerpräferenzen zu generieren, zu nutzen, um ausdrucksvolle Roboterbewegungen zu erzeugen, die anpassungsfähig und komponierbar sind und aufeinander aufbauen. Unser Ansatz verwendet Few-Shot-Chain-of-Thought-Prompting, um menschliche Sprachanweisungen in parametrisierten Steuerungscode zu übersetzen, der die verfügbaren und erlernten Fähigkeiten des Roboters nutzt. Durch Benutzerstudien und Simulationsexperimente zeigen wir, dass unser Ansatz Verhaltensweisen erzeugt, die von Benutzern als kompetent und leicht verständlich empfunden werden. Ergänzendes Material finden Sie unter https://generative-expressive-motion.github.io/.