Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Angetrieben durch das Pre-Training mit großen Datenmengen hat sich das Segment Anything Model (SAM) als ein leistungsstarkes und promptfähiges Framework erwiesen, das die Segmentierungsmodelle revolutioniert. Trotz seiner Allgemeingültigkeit ist die Anpassung von SAM für spezifische visuelle Konzepte ohne manuelle Prompting-Unterstützung noch wenig erforscht, z.B. die automatische Segmentierung des eigenen Haustierhundes in verschiedenen Bildern. In diesem Artikel schlagen wir einen trainingsfreien Personalisierungsansatz für SAM vor, der als PerSAM bezeichnet wird. Mit nur einem einzelnen Bild und einer Referenzmaske lokalisiert PerSAM zunächst das Zielkonzept durch eine Lokalisierungsprämisse und segmentiert es in anderen Bildern oder Videos mittels drei Techniken: zielgeführtes Attention, zielsemantisches Prompting und kaskadierter Post-Refinement. Auf diese Weise passen wir SAM effektiv für den privaten Gebrauch an, ohne jegliches Training. Um die Maskenunschärfe weiter zu verringern, präsentieren wir eine effiziente One-Shot-Fine-Tuning-Variante, PerSAM-F. Indem wir das gesamte SAM einfrieren, führen wir zwei lernbare Gewichte für Multi-Scale-Masken ein und trainieren nur 2 Parameter innerhalb von 10 Sekunden für eine verbesserte Leistung. Um unsere Wirksamkeit zu demonstrieren, erstellen wir einen neuen Segmentierungsdatensatz, PerSeg, für die personalisierte Bewertung und testen unsere Methoden auf der Video-Objektsegmentierung mit wettbewerbsfähiger Leistung. Darüber hinaus kann unser Ansatz auch DreamBooth verbessern, um Stable Diffusion für die Text-zu-Bild-Generierung zu personalisieren, wodurch die Hintergrundstörung für ein besseres Erscheinungslernen des Ziels eliminiert wird. Der Code ist unter https://github.com/ZrrSkywalker/Personalize-SAM verfügbar.
Die Anpassung der Ausgaben großer Sprachmodelle wie ChatGPT an spezifische Benutzerbedürfnisse bleibt trotz ihrer beeindruckenden Generierungsqualität eine Herausforderung. In diesem Artikel schlagen wir eine Tri-Agenten-Generierungspipeline vor, die aus einem Generator, einem Instruktor und einem Editor besteht, um die Anpassung der generierten Ausgaben zu verbessern. Der Generator erzeugt eine erste Ausgabe, der benutzerspezifische Instruktor generiert Bearbeitungsanweisungen, und der Editor erstellt eine überarbeitete Ausgabe, die den Benutzerpräferenzen entspricht. Das inferenzbasierte große Sprachmodell (ChatGPT) fungiert sowohl als Generator als auch als Editor, während ein kleineres Modell als benutzerspezifischer Instruktor dient, um den Generierungsprozess an die Benutzerbedürfnisse anzupassen. Der Instruktor wird mittels editorgesteuertem Reinforcement Learning trainiert, wobei Feedback vom großskaligen Editor-Modell genutzt wird, um die Anweisungsgenerierung zu optimieren. Experimentelle Ergebnisse auf zwei abstraktiven Zusammenfassungsdatensätzen demonstrieren die Effektivität unseres Ansatzes bei der Erzeugung von Ausgaben, die die Erwartungen der Benutzer besser erfüllen.
Wir stellen Shap-E vor, ein bedingtes generatives Modell für 3D-Assets. Im Gegensatz zu aktuellen Arbeiten zu 3D-generativen Modellen, die eine einzige Ausgabedarstellung erzeugen, generiert Shap-E direkt die Parameter impliziter Funktionen, die sowohl als texturierte Meshes als auch als neuronale Strahlungsfelder gerendert werden können. Wir trainieren Shap-E in zwei Stufen: Zuerst trainieren wir einen Encoder, der 3D-Assets deterministisch in die Parameter einer impliziten Funktion abbildet; anschließend trainieren wir ein bedingtes Diffusionsmodell auf den Ausgaben des Encoders. Wenn das Modell auf einem großen Datensatz gepaarter 3D- und Textdaten trainiert wird, ist es in der Lage, komplexe und vielfältige 3D-Assets in Sekundenschnelle zu generieren. Im Vergleich zu Point-E, einem expliziten generativen Modell für Punktwolken, konvergiert Shap-E schneller und erreicht eine vergleichbare oder bessere Probenqualität, obwohl es einen höherdimensionalen, mehrrepräsentativen Ausgaberaum modelliert. Wir veröffentlichen Modellgewichte, Inferenzcode und Beispiele unter https://github.com/openai/shap-e.
Aktuelle KI-Assistenzagenten wie ChatGPT stützen sich überwiegend auf überwachtes Fein-Tuning (SFT) mit menschlichen Annotationen und Reinforcement Learning aus menschlichem Feedback (RLHF), um die Ausgaben großer Sprachmodelle (LLMs) mit menschlichen Intentionen in Einklang zu bringen und sicherzustellen, dass sie hilfreich, ethisch und zuverlässig sind. Diese Abhängigkeit kann jedoch das wahre Potenzial von KI-Assistenzagenten erheblich einschränken, da die Beschaffung menschlicher Aufsicht hohe Kosten verursacht und Probleme in Bezug auf Qualität, Zuverlässigkeit, Vielfalt, Selbstkonsistenz und unerwünschte Verzerrungen mit sich bringt. Um diese Herausforderungen zu bewältigen, schlagen wir einen neuartigen Ansatz namens SELF-ALIGN vor, der prinzipiengeleitetes Denken und die generative Kraft von LLMs kombiniert, um die Selbstausrichtung von KI-Agenten mit minimaler menschlicher Aufsicht zu ermöglichen. Unser Ansatz umfasst vier Stufen: Zunächst verwenden wir ein LLM, um synthetische Prompts zu generieren, und eine themengeleitete Methode, um die Vielfalt der Prompts zu erhöhen. Zweitens nutzen wir eine kleine Menge von menschlich formulierten Prinzipien, die KI-Modelle befolgen sollen, und leiten das LLM durch In-Context-Lernen anhand von Demonstrationen (zur Anwendung der Prinzipien) an, um hilfreiche, ethische und zuverlässige Antworten auf Benutzeranfragen zu erzeugen. Drittens feintunen wir das ursprüngliche LLM mit den hochwertigen, selbstausgerichteten Antworten, sodass das resultierende Modell wünschenswerte Antworten für jede Anfrage direkt generieren kann, ohne die Prinzipien und Demonstrationen weiterhin zu benötigen. Schließlich bieten wir einen Verfeinerungsschritt an, um Probleme mit zu knappen oder indirekten Antworten zu beheben. Durch die Anwendung von SELF-ALIGN auf das Basissprachmodell LLaMA-65b entwickeln wir einen KI-Assistenten namens Dromedary. Mit weniger als 300 Zeilen menschlicher Annotationen (einschließlich < 200 Seed-Prompts, 16 allgemeiner Prinzipien und 5 Beispielen für In-Context-Lernen) übertrifft Dromedary die Leistung mehrerer modernster KI-Systeme, darunter Text-Davinci-003 und Alpaca, auf Benchmark-Datensätzen unter verschiedenen Einstellungen deutlich.