Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
ChatGPT-ähnliche Modelle haben verschiedene Anwendungen in der künstlichen Intelligenz revolutioniert, von Zusammenfassungen und Programmierung bis hin zu Übersetzungen, wobei sie menschliche Leistungen erreichen oder sogar übertreffen. Allerdings fehlt im derzeitigen Umfeld eine zugängliche, effiziente und kostengünstige End-to-End-RLHF-Trainingspipeline (Reinforcement Learning with Human Feedback) für diese leistungsstarken Modelle, insbesondere beim Training im Maßstab von Milliarden Parametern. Dieses Papier stellt DeepSpeed-Chat vor, ein neuartiges System, das RLHF-Training demokratisiert und es der KI-Community zugänglich macht. DeepSpeed-Chat bietet drei Schlüsselfähigkeiten: eine benutzerfreundliche Trainings- und Inferenzerfahrung für ChatGPT-ähnliche Modelle, eine DeepSpeed-RLHF-Pipeline, die den Trainingsprozess von InstructGPT nachbildet, sowie ein robustes DeepSpeed-RLHF-System, das verschiedene Optimierungen für Training und Inferenz auf einheitliche Weise kombiniert. Das System bietet beispiellose Effizienz und Skalierbarkeit und ermöglicht das Training von Modellen mit Hunderten von Milliarden Parametern in Rekordzeit und zu einem Bruchteil der Kosten. Mit dieser Entwicklung ebnet DeepSpeed-Chat den Weg für einen breiteren Zugang zu fortgeschrittenem RLHF-Training, selbst für Datenwissenschaftler mit begrenzten Ressourcen, und fördert so Innovation und Weiterentwicklung im Bereich der KI.
Sparse Mixture of Expert-Architekturen (MoEs) skalieren die Modellkapazität ohne große Steigerungen der Trainings- oder Inferenzkosten. Trotz ihres Erfolgs leiden MoEs unter einer Reihe von Problemen: Trainingsinstabilität, Token-Dropping, Unfähigkeit, die Anzahl der Experten zu skalieren, oder ineffektives Fine-Tuning. In dieser Arbeit schlagen wir Soft MoE vor, einen vollständig differenzierbaren, sparsamen Transformer, der diese Herausforderungen bewältigt, während die Vorteile von MoEs erhalten bleiben. Soft MoE führt eine implizite Soft-Zuweisung durch, indem es unterschiedlich gewichtete Kombinationen aller Eingabe-Tokens an jeden Experten weitergibt. Wie in anderen MoE-Arbeiten verarbeiten Experten in Soft MoE nur eine Teilmenge der (kombinierten) Tokens, was eine größere Modellkapazität bei geringeren Inferenzkosten ermöglicht. Im Kontext der visuellen Erkennung übertrifft Soft MoE Standard-Transformer (ViTs) und beliebte MoE-Varianten (Tokens Choice und Experts Choice) deutlich. Beispielsweise benötigt Soft MoE-Base/16 10,5x geringere Inferenzkosten (5,7x geringere Echtzeit) als ViT-Huge/14, während es dessen Leistung nach ähnlichem Training erreicht. Soft MoE skaliert auch gut: Soft MoE Huge/14 mit 128 Experten in 16 MoE-Schichten hat über 40x mehr Parameter als ViT Huge/14, während die Inferenzzeitkosten nur um 2 % steigen, und es schneidet deutlich besser ab.
Während die sprachgesteuerte Bildmanipulation bemerkenswerte Fortschritte gemacht hat, bleibt die Herausforderung bestehen, den Manipulationsprozess so zu steuern, dass er die menschlichen Absichten treu widerspiegelt. Eine präzise und umfassende Beschreibung einer Manipulationsaufgabe mithilfe natürlicher Sprache ist mühsam und manchmal sogar unmöglich, vor allem aufgrund der inhärenten Unsicherheit und Mehrdeutigkeit, die in sprachlichen Ausdrücken vorhanden ist. Ist es möglich, Bildmanipulationen ohne Rückgriff auf externe cross-modale Sprachinformationen durchzuführen? Wenn diese Möglichkeit besteht, würde die inhärente Modallitätslücke mühelos überwunden werden. In diesem Artikel schlagen wir eine neuartige Manipulationsmethodik vor, die wir ImageBrush nennen und die visuelle Anweisungen für eine präzisere Bildbearbeitung erlernt. Unser zentraler Ansatz besteht darin, ein Paar von Transformationsbildern als visuelle Anweisungen zu verwenden, die nicht nur die menschliche Absicht präzise erfassen, sondern auch die Zugänglichkeit in realen Szenarien erleichtern. Die Erfassung visueller Anweisungen ist besonders herausfordernd, da sie das Extrahieren der zugrunde liegenden Absichten ausschließlich aus visuellen Demonstrationen und die anschließende Anwendung dieser Operation auf ein neues Bild beinhaltet. Um diese Herausforderung zu bewältigen, formulieren wir das Lernen visueller Anweisungen als ein diffusionsbasiertes Inpainting-Problem, bei dem die kontextuellen Informationen durch einen iterativen Generierungsprozess vollständig ausgeschöpft werden. Ein visueller Prompting-Encoder wird sorgfältig entwickelt, um die Fähigkeit des Modells zu verbessern, die menschliche Absicht hinter den visuellen Anweisungen zu entschlüsseln. Umfangreiche Experimente zeigen, dass unsere Methode ansprechende Manipulationsergebnisse erzeugt, die den in den Demonstrationen enthaltenen Transformationen entsprechen. Darüber hinaus zeigt unser Modell robuste Generalisierungsfähigkeiten bei verschiedenen Downstream-Aufgaben wie Posentransfer, Bildübersetzung und Video-Inpainting.
Unser Ansatz, den wir Embeddings for Language/Image-aligned X-Rays (ELIXR) nennen, nutzt einen sprachausgerichteten Bildencoder, der mit einem festen Large Language Model (LLM), PaLM 2, kombiniert oder darauf aufgesetzt wird, um eine Vielzahl von Aufgaben zu bewältigen. Wir trainieren diese leichtgewichtige Adapter-Architektur mit Bildern, die mit entsprechenden Freitext-Radiologieberichten aus dem MIMIC-CXR-Datensatz gepaart sind. ELIXR erzielte state-of-the-art Leistungen bei der Zero-Shot-Klassifikation von Thorax-Röntgenbildern (CXR) (mittlere AUC von 0,850 über 13 Befunde), dateneffizienter CXR-Klassifikation (mittlere AUCs von 0,893 und 0,898 über fünf Befunde (Atelektase, Kardiomegalie, Konsolidierung, Pleuraerguss und Lungenödem) für 1 % (~2.200 Bilder) und 10 % (~22.000 Bilder) Trainingsdaten) und semantischer Suche (0,76 normalisierter diskontierter kumulativer Gewinn (NDCG) über neunzehn Abfragen, einschließlich perfekter Retrieval-Ergebnisse bei zwölf davon). Im Vergleich zu bestehenden dateneffizienten Methoden, einschließlich Supervised Contrastive Learning (SupCon), benötigte ELIXR zwei Größenordnungen weniger Daten, um eine ähnliche Leistung zu erreichen. ELIXR zeigte auch vielversprechende Ergebnisse bei CXR-Vision-Language-Aufgaben, mit Gesamtgenauigkeiten von 58,7 % und 62,5 % bei visuellen Frage-Antwort-Aufgaben und Berichtsqualitätssicherungsaufgaben. Diese Ergebnisse deuten darauf hin, dass ELIXR ein robuster und vielseitiger Ansatz für KI in der CXR-Analyse ist.
Angeregt durch die Tatsache, dass DETR-basierte Ansätze neue Rekorde auf den COCO-Erkennungs- und Segmentierungs-Benchmarks aufgestellt haben, zeigen viele aktuelle Bestrebungen zunehmendes Interesse daran, wie DETR-basierte Ansätze weiter verbessert werden können, indem der Transformer auf selbstüberwachte Weise vortrainiert wird, während das Backbone eingefroren bleibt. Einige Studien haben bereits signifikante Verbesserungen in der Genauigkeit behauptet. In diesem Papier werfen wir einen genaueren Blick auf ihre experimentelle Methodik und überprüfen, ob ihre Ansätze auf dem neuesten Stand der Technik, wie z. B. H-Deformable-DETR, noch effektiv sind. Wir führen umfangreiche Experimente zu COCO-Objekterkennungsaufgaben durch, um den Einfluss der Wahl der Vortrainingsdatensätze, der Lokalisierung und der Klassifizierungszielgenerierungsschemata zu untersuchen. Leider stellen wir fest, dass der bisherige repräsentative selbstüberwachte Ansatz wie DETReg die Leistung der starken DETR-basierten Ansätze im vollen Datenregime nicht steigern kann. Wir analysieren weiter die Gründe und finden heraus, dass die einfache Kombination eines genaueren Box-Vorhersagemodells und des Objects365-Benchmarks die Ergebnisse in nachfolgenden Experimenten signifikant verbessern kann. Wir demonstrieren die Wirksamkeit unseres Ansatzes, indem wir starke Objekterkennungsergebnisse von AP=59,3 % auf dem COCO-Val-Set erzielen, was H-Deformable-DETR + Swin-L um +1,4 % übertrifft. Schließlich generieren wir eine Reihe von synthetischen Vortrainingsdatensätzen, indem wir die neuesten Bild-zu-Text-Beschreibungsmodelle (LLaVA) und Text-zu-Bild-Generierungsmodelle (SDXL) kombinieren. Bemerkenswerterweise führt das Vortraining auf diesen synthetischen Datensätzen zu bemerkenswerten Verbesserungen in der Objekterkennungsleistung. In Zukunft erwarten wir erhebliche Vorteile durch die zukünftige Erweiterung des synthetischen Vortrainingsdatensatzes.
CLIP, als grundlegendes Vision-Sprachmodell, wird aufgrund seiner Fähigkeit, verschiedene visuelle Konzepte und natürliche Sprachbeschreibungen zu verstehen, häufig in der Zero-Shot-Bildklassifizierung eingesetzt. Dennoch bleibt die Frage offen, wie man die beispiellosen, menschenähnlichen Verständnisfähigkeiten von CLIP vollständig nutzen kann, um eine bessere Zero-Shot-Klassifizierung zu erreichen. Diese Arbeit lässt sich vom menschlichen visuellen Wahrnehmungsprozess inspirieren: Eine moderne neurowissenschaftliche Sichtweise legt nahe, dass Menschen bei der Klassifizierung eines Objekts zunächst dessen klassenunabhängige Attribute (z. B. Hintergrund und Ausrichtung) ableiten, die helfen, das Vordergrundobjekt vom Hintergrund zu trennen, und dann auf Basis dieser Informationen Entscheidungen treffen. Inspiriert davon beobachten wir, dass die Bereitstellung von kontextuellen Attributen für CLIP die Zero-Shot-Klassifizierung verbessert und die Abhängigkeit von irreführenden Merkmalen verringert. Wir stellen außerdem fest, dass CLIP selbst in der Lage ist, die Attribute aus einem Bild vernünftig abzuleiten. Aufgrund dieser Beobachtungen schlagen wir eine trainingsfreie, zweistufige Zero-Shot-Klassifizierungsmethode namens PerceptionCLIP vor. Bei einem Bild leitet sie zunächst kontextuelle Attribute (z. B. Hintergrund) ab und führt dann die Objektklassifizierung unter Berücksichtigung dieser Attribute durch. Unsere Experimente zeigen, dass PerceptionCLIP eine bessere Generalisierung, Gruppenrobustheit und Interpretierbarkeit erreicht. Beispielsweise verbessert PerceptionCLIP mit ViT-L/14 die Genauigkeit der schlechtesten Gruppe um 16,5 % auf dem Waterbirds-Datensatz und um 3,5 % auf CelebA.