Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Optimierung ist allgegenwärtig. Während derivativebasierte Algorithmen leistungsstarke Werkzeuge für verschiedene Probleme darstellen, stellt das Fehlen von Gradienten eine Herausforderung für viele reale Anwendungen dar. In dieser Arbeit schlagen wir Optimization by PROmpting (OPRO) vor, einen einfachen und effektiven Ansatz, um große Sprachmodelle (LLMs) als Optimierer zu nutzen, wobei die Optimierungsaufgabe in natürlicher Sprache beschrieben wird. In jedem Optimierungsschritt generiert das LLM neue Lösungen aus dem Prompt, der zuvor generierte Lösungen mit ihren Werten enthält. Anschließend werden die neuen Lösungen bewertet und dem Prompt für den nächsten Optimierungsschritt hinzugefügt. Wir demonstrieren OPRO zunächst anhand von linearen Regressionen und dem Problem des Handlungsreisenden, bevor wir uns der Prompt-Optimierung widmen, bei der es darum geht, Anweisungen zu finden, die die Aufgabengenauigkeit maximieren. Mit einer Vielzahl von LLMs zeigen wir, dass die besten durch OPRO optimierten Prompts menschengestaltete Prompts um bis zu 8 % auf GSM8K und um bis zu 50 % auf Big-Bench-Hard-Aufgaben übertreffen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge in NLP- und multimodalen Aufgaben erzielt. Trotz dieser Erfolge stehen ihrer Entwicklung zwei Hauptherausforderungen gegenüber: (i) hohe Rechenkosten; und (ii) Schwierigkeiten bei der Durchführung fairer und objektiver Bewertungen. LLMs sind extrem kostspielig, was es nur wenigen großen Akteuren ermöglicht, deren Training durchzuführen, wodurch sowohl Forschungs- als auch Anwendungsmöglichkeiten eingeschränkt werden. Dies unterstreicht die Bedeutung kosteneffizienten LLM-Trainings. In diesem Artikel nutzen wir eine Wachstumsstrategie, um die LLM-Trainingskosten erheblich zu senken. Wir zeigen, dass ein LLM mit 101B Parametern und 0,31TB Tokens mit einem Budget von 100K trainiert werden kann. Wir führen auch ein systematisches Bewertungsparadigma für die IQ-Bewertung von LLMs ein, das bestehende Bewertungen ergänzt, die sich stärker auf wissensorientierte Fähigkeiten konzentrieren. Wir stellen unseren Benchmark vor, der Bewertungen wichtiger Aspekte der Intelligenz umfasst, darunter symbolische Abbildung, Regelverständnis, Mustererkennung und Anti-Interferenz. Solche Bewertungen minimieren die potenzielle Auswirkung von Auswendiglernen. Experimentelle Ergebnisse zeigen, dass unser Modell FLM-101B, das mit einem Budget von 100K trainiert wurde, eine vergleichbare Leistung zu leistungsstarken und bekannten Modellen wie GPT-3 und GLM-130B erzielt, insbesondere in den IQ-Benchmark-Bewertungen mit Kontexten, die in den Trainingsdaten nicht vorkamen. Der Checkpoint von FLM-101B wird unter https://huggingface.co/CofeAI/FLM-101B open-source veröffentlicht.
Trotz ihrer beeindruckenden Fähigkeiten neigen große Sprachmodelle (LLMs) zu Halluzinationen, d.h. zur Erzeugung von Inhalten, die von den während des Vortrainings gesehenen Fakten abweichen. Wir schlagen eine einfache Dekodierungsstrategie zur Reduzierung von Halluzinationen bei vortrainierten LLMs vor, die weder eine Konditionierung auf abgerufenes externes Wissen noch zusätzliches Fine-Tuning erfordert. Unser Ansatz ermittelt die nächste-Token-Verteilung, indem die Unterschiede in den Logits, die durch die Projektion der späteren Schichten im Vergleich zu den früheren Schichten in den Vokabularraum erhalten werden, kontrastiert werden. Dabei wird die Tatsache ausgenutzt, dass sich faktisches Wissen in LLMs in der Regel auf bestimmte Transformer-Schichten konzentriert. Wir stellen fest, dass dieser Ansatz des Dekodierens durch Kontrastierung von Schichten (Decoding by Contrasting Layers, DoLa) in der Lage ist, faktisches Wissen besser hervorzuheben und die Erzeugung falscher Fakten zu reduzieren. DoLa verbessert kontinuierlich die Wahrhaftigkeit bei Multiple-Choice-Aufgaben und offenen Generierungsaufgaben. So steigert es beispielsweise die Leistung der LLaMA-Modellfamilie bei TruthfulQA um 12-17 Prozentpunkte, was sein Potenzial zeigt, LLMs zuverlässig wahrheitsgemäße Fakten generieren zu lassen.
Trainingsdaten für die Videosegmentierung sind kostspielig zu annotieren. Dies behindert die Erweiterung von End-to-End-Algorithmen auf neue Videosegmentierungsaufgaben, insbesondere in Umgebungen mit großem Vokabular. Um „alles verfolgen“ zu können, ohne für jede einzelne Aufgabe auf Videodaten trainieren zu müssen, entwickeln wir einen entkoppelten Ansatz zur Videosegmentierung (DEVA), der aus aufgabenbezogener Bildsegmentierung und klassen-/aufgabenunabhängiger bidirektionaler zeitlicher Propagation besteht. Aufgrund dieses Designs benötigen wir nur ein bildbasiertes Modell für die Zielaufgabe (das kostengünstiger zu trainieren ist) und ein universelles zeitliches Propagationsmodell, das einmal trainiert wird und sich auf verschiedene Aufgaben verallgemeinern lässt. Um diese beiden Module effektiv zu kombinieren, verwenden wir bidirektionale Propagation zur (halb-)online Fusion von Segmentierungshypothesen aus verschiedenen Frames, um eine kohärente Segmentierung zu erzeugen. Wir zeigen, dass diese entkoppelte Formulierung in mehreren datenarmen Aufgaben, einschließlich großvolumiger videopannotischer Segmentierung, Open-World-Videosegmentierung, referenzieller Videosegmentierung und unüberwachter Videoobjektsegmentierung, günstig im Vergleich zu End-to-End-Ansätzen abschneidet. Der Code ist verfügbar unter: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
Flow-basierte Propagation und spatiotemporale Transformer sind zwei gängige Mechanismen in der Videoinpainting (VI). Trotz der Effektivität dieser Komponenten leiden sie immer noch unter einigen Einschränkungen, die ihre Leistung beeinträchtigen. Bisherige propagationsbasierte Ansätze wurden entweder im Bild- oder im Feature-Domänen separat durchgeführt. Globale Bildpropagation, die vom Lernen isoliert ist, kann aufgrund ungenauer optischer Flüsse zu räumlichen Fehlausrichtungen führen. Darüber hinaus begrenzen Speicher- oder Rechenbeschränkungen den zeitlichen Bereich der Feature-Propagation und des Video-Transformers, was die Erkundung von Korrespondenzinformationen aus entfernten Frames verhindert. Um diese Probleme zu lösen, schlagen wir ein verbessertes Framework namens ProPainter vor, das eine verbesserte Propagation und einen effizienten Transformer umfasst. Insbesondere führen wir eine Dual-Domain-Propagation ein, die die Vorteile von Bild- und Feature-Warping kombiniert und globale Korrespondenzen zuverlässig nutzt. Wir schlagen auch einen maskengeführten spärlichen Video-Transformer vor, der durch das Verwerfen unnötiger und redundanter Token hohe Effizienz erreicht. Mit diesen Komponenten übertrifft ProPainter bisherige Ansätze mit einem deutlichen Vorsprung von 1,46 dB in PSNR bei gleichzeitiger Beibehaltung einer ansprechenden Effizienz.
Wir präsentieren ImageBind-LLM, eine Multi-Modalitäts-Instruktionsfeinabstimmungsmethode für große Sprachmodelle (LLMs) mittels ImageBind. Bestehende Arbeiten konzentrieren sich hauptsächlich auf die Sprach- und Bild-Instruktionsfeinabstimmung, während unser ImageBind-LLM auf Multi-Modalitätsbedingungen reagieren kann, einschließlich Audio, 3D-Punktwolken, Video und deren Einbettungsraum-Arithmetik, allein durch Bild-Text-Ausrichtungstraining. Während des Trainings verwenden wir ein lernfähiges Bindungsnetzwerk, um den Einbettungsraum zwischen LLaMA und dem Bildencoder von ImageBind auszurichten. Anschließend werden die durch das Bindungsnetzwerk transformierten Bildmerkmale zu den Wort-Tokens aller Schichten in LLaMA hinzugefügt, wodurch visuelle Instruktionen schrittweise über einen aufmerksamkeitsfreien und null-initialisierten Gating-Mechanismus injiziert werden. Unterstützt durch die gemeinsame Einbettung von ImageBind, ermöglicht das einfache Bild-Text-Training unserem Modell, überlegene Multi-Modalitäts-Instruktionsbefolgungskapazitäten zu zeigen. Während der Inferenz werden die Multi-Modalitäts-Eingaben in die entsprechenden ImageBind-Encoder eingespeist und von einem vorgeschlagenen visuellen Cache-Modell zur weiteren cross-modalen Einbettungsverbesserung verarbeitet. Das trainingsfreie Cache-Modell ruft aus drei Millionen von ImageBind extrahierten Bildmerkmalen ab, was die Diskrepanz zwischen Trainings- und Inferenzmodalität effektiv mildert. Bemerkenswerterweise kann ImageBind-LLM mit unserem Ansatz auf Instruktionen verschiedener Modalitäten reagieren und eine signifikante Sprachgenerationsqualität demonstrieren. Der Code ist unter https://github.com/OpenGVLab/LLaMA-Adapter veröffentlicht.
Wir präsentieren InstructDiffusion, ein vereinheitlichendes und generisches Framework zur Ausrichtung von Computer-Vision-Aufgaben an menschlichen Anweisungen. Im Gegensatz zu bestehenden Ansätzen, die Vorwissen integrieren und den Ausgaberaum (z. B. Kategorien und Koordinaten) für jede Vision-Aufgabe vordefinieren, fassen wir diverse Vision-Aufgaben in einen menschenintuitiven Bildbearbeitungsprozess zusammen, dessen Ausgaberaum ein flexibler und interaktiver Pixelraum ist. Konkret basiert das Modell auf dem Diffusionsprozess und wird darauf trainiert, Pixel gemäß Benutzeranweisungen vorherzusagen, wie z. B. die linke Schulter des Mannes rot zu umkreisen oder eine blaue Maske auf das linke Auto anzuwenden. InstructDiffusion kann eine Vielzahl von Vision-Aufgaben bewältigen, darunter Verständnisaufgaben (wie Segmentierung und Keypoint-Erkennung) und generative Aufgaben (wie Bearbeitung und Verbesserung). Es zeigt sogar die Fähigkeit, unbekannte Aufgaben zu bewältigen, und übertrifft bisherige Methoden auf neuen Datensätzen. Dies stellt einen bedeutenden Schritt in Richtung einer generalistischen Modellierungsschnittstelle für Vision-Aufgaben dar und fördert die künstliche allgemeine Intelligenz im Bereich der Computer Vision.
In diesem Artikel stellen wir ein neuartiges Diffusionsmodell vor, das multiview-konsistente Bilder aus einem Einzelbild erzeugt. Unter Verwendung von vortrainierten großskaligen 2D-Diffusionsmodellen zeigt die aktuelle Arbeit Zero123 die Fähigkeit, plausible neue Ansichten aus einem Einzelbild eines Objekts zu generieren. Die Konsistenz in Geometrie und Farben für die generierten Bilder bleibt jedoch eine Herausforderung. Um dieses Problem zu lösen, schlagen wir ein synchronisiertes Multiview-Diffusionsmodell vor, das die gemeinsame Wahrscheinlichkeitsverteilung von Multiview-Bildern modelliert und so die Erzeugung von multiview-konsistenten Bildern in einem einzigen Rückwärtsprozess ermöglicht. SyncDreamer synchronisiert die Zwischenzustände aller generierten Bilder in jedem Schritt des Rückwärtsprozesses durch einen 3D-bewussten Feature-Attentionsmechanismus, der die entsprechenden Merkmale über verschiedene Ansichten hinweg korreliert. Experimente zeigen, dass SyncDreamer Bilder mit hoher Konsistenz über verschiedene Ansichten hinweg erzeugt, wodurch es sich gut für verschiedene 3D-Generierungsaufgaben wie Novel-View-Synthese, Text-zu-3D und Bild-zu-3D eignet.
Jüngste Fortschritte bei Diffusionsmodellen wie ControlNet haben eine geometrisch steuerbare, hochwertige Text-zu-Bild-Generierung ermöglicht. Allerdings hat bisher keines dieser Modelle die Frage behandelt, wie eine solche Steuerbarkeit auf die Text-zu-3D-Generierung übertragen werden kann. Als Antwort darauf schlagen wir Text2Control3D vor, eine steuerbare Methode zur Generierung von 3D-Avataren aus Text, deren Gesichtsausdrücke basierend auf einem mit einer Handkamera aufgenommenen monokularen Video kontrolliert werden können. Unsere Hauptstrategie besteht darin, den 3D-Avatar in Neural Radiance Fields (NeRF) zu konstruieren, die mit einer Reihe von steuerbaren, blickpunktabhängigen Bildern optimiert werden, die wir aus ControlNet generieren. Als Eingabe für die Steuerung dient dabei die Tiefenkarte, die aus dem Eingabevideo extrahiert wird. Bei der Generierung der blickpunktabhängigen Bilder nutzen wir Cross-Reference-Attention, um gut kontrollierte, referenzielle Gesichtsausdrücke und das Erscheinungsbild über Cross-Attention einzubringen. Zudem führen wir eine Tiefpassfilterung des Gaußschen latenten Raums des Diffusionsmodells durch, um das Problem der blickpunktunabhängigen Textur zu mildern, das wir in unserer empirischen Analyse beobachtet haben, bei der die blickpunktabhängigen Bilder identische Texturen an identischen Pixelpositionen aufweisen, die in 3D nicht nachvollziehbar sind. Schließlich berücksichtigt unser Ansatz, um NeRF mit Bildern zu trainieren, die blickpunktabhängig sind, aber nicht streng geometrisch konsistent, die geometrische Variation pro Bild als eine Ansicht der Verformung aus einem gemeinsamen 3D-Kanonischen Raum. Folglich konstruieren wir den 3D-Avatar in einem kanonischen Raum eines deformierbaren NeRF, indem wir eine Reihe von Bild-spezifischen Verformungen über eine Verformungsfeldtabelle lernen. Wir präsentieren die empirischen Ergebnisse und diskutieren die Wirksamkeit unserer Methode.
Große Sprachmodelle (LLMs) sind in verschiedenen Bereichen allgegenwärtig und verändern die Art und Weise, wie wir mit Informationen interagieren und Forschung betreiben. Die meisten leistungsstarken LLMs bleiben jedoch hinter proprietären Mauern verborgen, was den wissenschaftlichen Fortschritt behindert. Die meisten Open-Source-LLMs hingegen sind in ihrer Fähigkeit eingeschränkt, längere Sequenzlängen zu unterstützen, was eine wesentliche Voraussetzung für viele Aufgaben ist, die eine Inferenz über einen Eingabekontext erfordern. Um dies zu adressieren, haben wir XGen trainiert, eine Reihe von 7B-Parameter-Modellen mit einer Sequenzlänge von bis zu 8K und bis zu 1,5T Tokens. Wir haben die XGen-Modelle auch auf öffentlich zugänglichen Instruktionsdaten feinabgestimmt, wodurch ihre instruktionsoptimierten Gegenstücke (XGen-Inst) entstanden. Wir stellen unsere Modelle sowohl für Forschungsfortschritte als auch für kommerzielle Anwendungen als Open Source zur Verfügung. Unsere Bewertung auf Standard-Benchmarks zeigt, dass die XGen-Modelle vergleichbare oder bessere Ergebnisse erzielen, wenn sie mit state-of-the-art Open-Source-LLMs verglichen werden. Unsere gezielte Bewertung von Aufgaben zur Modellierung langer Sequenzen zeigt die Vorteile unserer 8K-Sequenzmodelle gegenüber 2K-Sequenz-Open-Source-LLMs.
Wir präsentieren eine detaillierte Analyse eines realen Robotik-Lernsystems, das in früheren Arbeiten gezeigt hat, dass es in der Lage ist, Hunderte von Tischtennis-Rallys mit einem Menschen zu spielen und den Ball präzise zu vorgegebenen Zielen zurückzuspielen. Dieses System kombiniert ein hochoptimiertes Wahrnehmungssubsystem, einen Hochgeschwindigkeits-Robotercontroller mit geringer Latenz, ein Simulationsparadigma, das Schäden in der realen Welt verhindern und gleichzeitig Richtlinien für den Null-Shot-Transfer trainieren kann, sowie automatisierte Resets der realen Umgebung, die autonomes Training und die Bewertung auf physischen Robotern ermöglichen. Wir ergänzen eine vollständige Systembeschreibung, einschließlich zahlreicher Designentscheidungen, die typischerweise nicht weit verbreitet sind, mit einer Sammlung von Studien, die die Bedeutung der Minderung verschiedener Latenzquellen, der Berücksichtigung von Verschiebungen zwischen Trainings- und Einsatzverteilungen, der Robustheit des Wahrnehmungssystems, der Empfindlichkeit gegenüber Richtlinien-Hyperparametern und der Wahl des Aktionsraums verdeutlichen. Ein Video, das die Komponenten des Systems und Details der experimentellen Ergebnisse zeigt, ist unter https://youtu.be/uFcnWjB42I0 zu finden.
Inspiriert vom bemerkenswerten Erfolg von Latent Diffusion Models (LDMs) in der Bildsynthese untersuchen wir LDMs für die Text-zu-Video-Generierung, was aufgrund der rechen- und speicherintensiven Anforderungen sowohl während des Modelltrainings als auch der Inferenz eine große Herausforderung darstellt. Ein einzelnes LDM ist in der Regel nur in der Lage, eine sehr begrenzte Anzahl von Videobildern zu erzeugen. Einige bestehende Arbeiten konzentrieren sich auf separate Vorhersagemodelle zur Generierung weiterer Videobilder, die jedoch zusätzliche Trainingskosten und Frame-Level-Jittering verursachen. In diesem Artikel schlagen wir ein Framework namens „Reuse and Diffuse“ (VidRD) vor, um mehr Bilder basierend auf den bereits von einem LDM erzeugten Bildern zu produzieren. Basierend auf einem anfänglichen Videoclip mit einer geringen Anzahl von Bildern werden zusätzliche Bilder iterativ erzeugt, indem die ursprünglichen latenten Merkmale wiederverwendet und der vorherige Diffusionsprozess fortgesetzt wird. Darüber hinaus fügen wir für den Autoencoder, der für die Übersetzung zwischen Pixelraum und latentem Raum verwendet wird, temporale Schichten in seinen Decoder ein und feintunen diese Schichten für eine höhere zeitliche Konsistenz. Wir schlagen auch eine Reihe von Strategien für die Zusammenstellung von Video-Text-Daten vor, die vielfältige Inhalte aus mehreren bestehenden Datensätzen umfassen, darunter Videodatensätze für die Aktionserkennung und Bild-Text-Datensätze. Umfangreiche Experimente zeigen, dass unsere Methode sowohl in quantitativen als auch in qualitativen Bewertungen gute Ergebnisse erzielt. Unsere Projektseite ist verfügbar unter https://anonymous0x233.github.io/ReuseAndDiffuse/{hier}.