papers.description
Dieser Bericht stellt xGen-MM (auch bekannt als BLIP-3) vor, ein Framework zur Entwicklung großer multimodaler Modelle (LMMs). Das Framework umfasst sorgfältig kuratierte Datensätze, ein Schulungsrezept, Modellarchitekturen und eine Reihe von LMMs. xGen-MM, kurz für xGen-MultiModal, erweitert die Salesforce xGen-Initiative zu Grundlagen-KI-Modellen. Unsere Modelle durchlaufen eine gründliche Bewertung über eine Vielzahl von Aufgaben, einschließlich Einzel- und Mehrbild-Benchmarks. Unser vorab trainiertes Basismodell zeigt starke Fähigkeiten zum kontextbezogenen Lernen, und das instruktionsangepasste Modell zeigt eine wettbewerbsfähige Leistung im Vergleich zu Open-Source-LMMs ähnlicher Modellgrößen. Darüber hinaus stellen wir ein sicherheitsangepasstes Modell mit DPO vor, das darauf abzielt, schädliches Verhalten wie Halluzinationen zu mildern und die Sicherheit zu verbessern. Wir stellen unsere Modelle, sorgfältig kuratierte Datensätze im großen Maßstab und unsere Feinabstimmungs-Codebasis als Open Source zur Verfügung, um weitere Fortschritte in der LMM-Forschung zu erleichtern. Zugehörige Ressourcen werden auf unserer Projektseite oben verfügbar sein.
In der jüngsten Arbeit zur Bild- und Videogenerierung wird zunehmend die autoregressive LLM-Architektur aufgrund ihrer Allgemeingültigkeit und der potenziell einfachen Integration in multimodale Systeme verwendet. Der Kernpunkt der Anwendung des autoregressiven Trainings in der Sprachgenerierung auf die visuelle Generierung ist die Diskretisierung - die Darstellung kontinuierlicher Daten wie Bilder und Videos als diskrete Tokens. Häufige Methoden zur Diskretisierung von Bildern und Videos umfassen die Modellierung von Rohpixelwerten, die unverhältnismäßig lang sind, oder die Vektorquantisierung, die eine aufwändige Vorphasenschulung erfordert. In dieser Arbeit schlagen wir vor, Bilder und Videos direkt als komprimierte Dateien zu modellieren, die auf Computern über kanonische Codecs (z. B. JPEG, AVC/H.264) gespeichert sind. Unter Verwendung der Standard-LLama-Architektur ohne visionsspezifische Modifikationen, haben wir JPEG-LM von Grund auf vortrainiert, um Bilder zu generieren (und AVC-LM als Proof of Concept zur Generierung von Videos), indem wir direkt komprimierte Dateibytes im JPEG- und AVC-Format ausgeben. Die Auswertung der Bildgenerierung zeigt, dass dieser einfache und geradlinige Ansatz effektiver ist als die modellbasierte Modellierung von Pixeln und ausgefeilte Vektorquantisierungsbasen (auf denen unsere Methode eine 31%ige Reduzierung des FID erzielt). Unsere Analyse zeigt, dass JPEG-LM einen besonderen Vorteil gegenüber Vektorquantisierungsmodellen bei der Generierung von langschwänzigen visuellen Elementen hat. Insgesamt zeigen wir, dass die Verwendung von kanonischen Codec-Repräsentationen dazu beitragen kann, die Barrieren zwischen Sprachgenerierung und visueller Generierung abzubauen und zukünftige Forschung an multimodalen Sprach-/Bild-/Video-LLMs zu erleichtern.
Forscher investieren erhebliche Anstrengungen in die Entwicklung leistungsstarker allgemeiner Agenten, bei denen Foundation Models als Module innerhalb agentischer Systeme (z. B. Chain-of-Thought, Self-Reflection, Toolformer) verwendet werden. Die Geschichte des maschinellen Lernens lehrt uns jedoch, dass von Hand entworfene Lösungen letztendlich durch erlernte Lösungen ersetzt werden. Wir formulieren ein neues Forschungsgebiet, die Automatisierte Gestaltung von agentischen Systemen (ADAS), das darauf abzielt, automatisch leistungsstarke Designs für agentische Systeme zu erstellen, einschließlich der Erfindung neuartiger Bausteine und/oder ihrer Kombination auf neue Weise. Wir zeigen weiterhin, dass es einen noch unerforschten, aber vielversprechenden Ansatz innerhalb von ADAS gibt, bei dem Agenten im Code definiert werden können und neue Agenten automatisch von einem Meta-Agenten programmiert werden können, der immer bessere im Code erstellt. Da Programmiersprachen Turing-vollständig sind, ermöglicht dieser Ansatz theoretisch das Lernen jedes möglichen agentischen Systems: einschließlich neuartiger Aufforderungen, Werkzeugverwendung, Steuerflüsse und deren Kombinationen. Wir präsentieren einen einfachen, aber effektiven Algorithmus namens Meta Agent Search, um diese Idee zu veranschaulichen, bei dem ein Meta-Agent iterativ interessante neue Agenten basierend auf einem stetig wachsenden Archiv früherer Entdeckungen programmiert. Durch umfangreiche Experimente in verschiedenen Bereichen, einschließlich Codierung, Wissenschaft und Mathematik, zeigen wir, dass unser Algorithmus allmählich Agenten mit neuartigen Designs erfinden kann, die die handentworfenen Agenten auf dem neuesten Stand der Technik deutlich übertreffen. Wichtig ist, dass wir konsistent das überraschende Ergebnis beobachten, dass von Meta Agent Search erfundene Agenten auch bei der Übertragung über verschiedene Bereiche und Modelle hinweg eine überlegene Leistung beibehalten, was ihre Robustheit und Allgemeingültigkeit zeigt. Vorausgesetzt, wir entwickeln es sicher, illustriert unsere Arbeit das Potenzial einer aufregenden neuen Forschungsrichtung zur automatischen Gestaltung immer leistungsstärkerer agentischer Systeme zum Wohle der Menschheit.
Die Segmentierung von chirurgischen Videos ist eine entscheidende Aufgabe in der computerunterstützten Chirurgie und trägt wesentlich zur Verbesserung der chirurgischen Qualität und der Patientenergebnisse bei. In letzter Zeit hat das Segment Anything Model 2 (SAM2)-Framework überlegene Fortschritte in der Bild- und Videosegmentierung gezeigt. Allerdings hat SAM2 aufgrund der hohen Rechenanforderungen bei der Verarbeitung von hochauflösenden Bildern und komplexen sowie langreichweitigen zeitlichen Dynamiken in chirurgischen Videos mit Effizienzproblemen zu kämpfen. Um diesen Herausforderungen zu begegnen, stellen wir Surgical SAM 2 (SurgSAM-2) vor, ein fortschrittliches Modell zur Nutzung von SAM2 mit einem Mechanismus für effizientes Frame-Pruning (EFP), um die Echtzeit-Segmentierung von chirurgischen Videos zu erleichtern. Der EFP-Mechanismus verwaltet dynamisch den Speicherspeicher, indem er selektiv nur die informativsten Frames behält, was den Speicherverbrauch und die Rechenkosten reduziert, während die hohe Segmentierungsgenauigkeit beibehalten wird. Unsere umfangreichen Experimente zeigen, dass SurgSAM-2 sowohl die Effizienz als auch die Segmentierungsgenauigkeit im Vergleich zum Standard-SAM2 signifikant verbessert. Bemerkenswerterweise erreicht SurgSAM-2 eine 3-fache Bildrate im Vergleich zu SAM2 und liefert auch nach Feinabstimmung mit Daten niedrigerer Auflösung eine Spitzenleistung. Diese Fortschritte etablieren SurgSAM-2 als führendes Modell für die Analyse chirurgischer Videos und machen die Echtzeit-Segmentierung von chirurgischen Videos in ressourcenbeschränkten Umgebungen zu einer realistischen Möglichkeit.
Wir adressieren die Herausforderungen der präzisen Bildumkehr und der entwirrten Bildbearbeitung im Kontext von Diffusionsmodellen mit wenigen Schritten. Wir stellen eine iterative Umkehrtechnik auf Basis eines Encoders vor. Das Umkehrnetzwerk ist abhängig vom Eingangsbild und dem rekonstruierten Bild des vorherigen Schritts, was eine Korrektur der nächsten Rekonstruktion in Richtung des Eingangsbildes ermöglicht. Wir zeigen, dass entwirrte Steuerungen im Diffusionsmodell mit wenigen Schritten leicht erreicht werden können, indem sie auf einen (automatisch generierten) detaillierten Texthinweis konditioniert sind. Um das umgekehrte Bild zu manipulieren, frieren wir die Rauschkarten ein und ändern ein Attribut im Texthinweis (entweder manuell oder über eine instruktionsbasierte Bearbeitung, gesteuert durch ein LLM), was zur Erzeugung eines neuen Bildes führt, das dem Eingangsbild ähnlich ist, jedoch nur ein Attribut geändert wurde. Es ermöglicht zudem die Steuerung der Bearbeitungsstärke und akzeptiert instruktive Texthinweise. Unser Ansatz erleichtert realistische textgesteuerte Bildbearbeitungen in Echtzeit und erfordert nur 8 Funktionsauswertungen (NFEs) bei der Umkehrung (Einmalkosten) und 4 NFEs pro Bearbeitung. Unsere Methode ist nicht nur schnell, sondern übertrifft auch signifikant die modernsten mehrstufigen Diffusionsbearbeitungstechniken.
Das Training von großen Sprachmodellen (Large Language Models, LLMs) verursacht erhebliche datenbezogene Kosten, was die Entwicklung dateneffizienter Trainingsmethoden durch optimierte Datenreihenfolge und Auswahl vorantreibt. Menschlich inspirierte Lernstrategien wie Curriculum Learning bieten Möglichkeiten für effizientes Training, indem Daten gemäß gängiger menschlicher Lernpraktiken organisiert werden. Obwohl Hinweise darauf vorliegen, dass Feinabstimmung mit Curriculum Learning die Leistung von LLMs bei Aufgaben zum Verständnis natürlicher Sprache verbessert, wird ihre Wirksamkeit in der Regel anhand eines einzelnen Modells bewertet. In dieser Arbeit erweitern wir frühere Forschung, indem wir sowohl curriculumbasierte als auch nicht-curriculumbasierte Lernstrategien über mehrere LLMs hinweg evaluieren, wobei menschlich definierte und automatisierte Datenetiketten für die medizinische Fragebeantwortung verwendet werden. Unsere Ergebnisse deuten auf einen moderaten Einfluss der Verwendung von menschlich inspirierten Lernstrategien für die Feinabstimmung von LLMs hin, mit maximalen Genauigkeitssteigerungen von 1,77 % pro Modell und 1,81 % pro Datensatz. Entscheidend ist, dass wir zeigen, dass die Wirksamkeit dieser Strategien je nach Modell-Datensatz-Kombinationen signifikant variiert, was betont, dass die Vorteile einer spezifischen menschlich inspirierten Strategie für die Feinabstimmung von LLMs nicht verallgemeinert werden können. Darüber hinaus finden wir Hinweise darauf, dass Curriculum Learning unter Verwendung von vom LLM definierten Frage-Schwierigkeiten besser abschneidet als menschlich definierte Schwierigkeiten, was das Potenzial der Verwendung von modellgenerierten Maßen für eine optimale Curriculumgestaltung hervorhebt.
Offline-Verstärkungslernalgorithmen versprechen, datengesteuerte RL-Methoden zu ermöglichen, die keine kostspielige oder gefährliche Erkundung in der realen Welt erfordern und von großen vorausgesammelten Datensätzen profitieren. Dies kann wiederum reale Anwendungen erleichtern sowie einen standardisierteren Ansatz für die RL-Forschung ermöglichen. Darüber hinaus können Offline-RL-Methoden effektive Initialisierungen für die Online-Feinabstimmung bereitstellen, um Herausforderungen bei der Erkundung zu überwinden. Die Bewertung des Fortschritts bei Offline-RL-Algorithmen erfordert jedoch effektive und anspruchsvolle Benchmarks, die Eigenschaften von realen Aufgaben erfassen, eine Vielzahl von Aufgabenschwierigkeiten bieten und eine Reihe von Herausforderungen sowohl in Bezug auf die Parameter des Bereichs (z. B. Länge des Horizonts, Spärlichkeit der Belohnungen) als auch in Bezug auf die Parameter der Daten (z. B. schmale Demonstrationsdaten oder breite explorative Daten) abdecken. Während in den letzten Jahren erhebliche Fortschritte bei Offline-RL durch einfachere Benchmark-Aufgaben ermöglicht wurden, sind die am weitesten verbreiteten Datensätze zunehmend in der Leistung gesättigt und können Eigenschaften realistischer Aufgaben möglicherweise nicht widerspiegeln. Wir schlagen einen neuen Benchmark für Offline-RL vor, der sich auf realistische Simulationen von robotischer Manipulation und Fortbewegungsumgebungen konzentriert, basierend auf Modellen realer robotischer Systeme und eine Vielzahl von Datenquellen umfasst, einschließlich skriptbasierter Daten, spielbasierter Daten, die von menschlichen Fernbedienern gesammelt wurden, und anderen Datenquellen. Unser vorgeschlagener Benchmark umfasst zustandsbasierte und bildbasierte Bereiche und unterstützt sowohl die Bewertung von Offline-RL als auch die Online-Feinabstimmung, wobei einige Aufgaben speziell darauf ausgelegt sind, sowohl Vorabtraining als auch Feinabstimmung zu erfordern. Wir hoffen, dass unser vorgeschlagener Benchmark den Fortschritt sowohl bei Offline-RL als auch bei Feinabstimmungsalgorithmen weiter vorantreiben wird. Die Website mit Code, Beispielen, Aufgaben und Daten ist unter https://sites.google.com/view/d5rl/ verfügbar.