Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Segment Anything Model (SAM) hat sich als leistungsstarkes Zero-Shot-Bildsegmentierungsmodell etabliert, das interaktive Prompts wie Punkte zur Erzeugung von Masken verwendet. Dieses Papier stellt SAM-PT vor, eine Methode, die die Fähigkeiten von SAM auf die Verfolgung und Segmentierung von Objekten in dynamischen Videos erweitert. SAM-PT nutzt robuste und spärliche Punktauswahl- und -propagierungstechniken zur Maskenerzeugung und zeigt, dass ein auf SAM basierender Segmentierungs-Tracker eine starke Zero-Shot-Leistung über beliebte Video-Objektsegmentierungs-Benchmarks wie DAVIS, YouTube-VOS und MOSE erzielen kann. Im Vergleich zu traditionellen objektzentrierten Maskenpropagierungsstrategien verwenden wir einzigartig die Punktpropagierung, um lokale Strukturinformationen zu nutzen, die unabhängig von der Objektsemantik sind. Wir heben die Vorteile der punktbasierten Verfolgung durch direkte Evaluierung auf dem Zero-Shot-Open-World-Benchmark Unidentified Video Objects (UVO) hervor. Um unseren Ansatz weiter zu verbessern, nutzen wir K-Medoids-Clustering für die Punktinitialisierung und verfolgen sowohl positive als auch negative Punkte, um das Zielobjekt klar zu unterscheiden. Wir verwenden außerdem mehrere Maskendecoding-Durchläufe zur Maskenverfeinerung und entwickeln eine Punkt-Reinitialisierungsstrategie, um die Verfolgungsgenauigkeit zu erhöhen. Unser Code integriert verschiedene Punkt-Tracker und Video-Segmentierungs-Benchmarks und wird unter https://github.com/SysCV/sam-pt veröffentlicht.
Aktuelle groß angelegte textgesteuerte Diffusionsmodelle bieten leistungsstarke Bildgenerierungsfähigkeiten. Derzeit wird ein erheblicher Aufwand betrieben, um die Bearbeitung dieser Bilder ausschließlich mittels Text zu ermöglichen, um intuitive und vielseitige Bearbeitungsmöglichkeiten zu bieten. Allerdings erweist sich die Bearbeitung für diese generativen Modelle als schwierig, da die inhärente Natur der Bearbeitungstechniken die Bewahrung bestimmter Inhalte des Originalbilds erfordert. Im Gegensatz dazu führen bei textbasierten Modellen bereits geringfügige Änderungen am Textprompt häufig zu einem völlig anderen Ergebnis, was die Erzielung einer One-Shot-Generierung, die genau der Benutzerabsicht entspricht, äußerst schwierig macht. Darüber hinaus muss man, um ein reales Bild mit diesen modernsten Werkzeugen zu bearbeiten, das Bild zunächst in den Bereich des vortrainierten Modells invertieren – was einen weiteren Faktor darstellt, der die Bearbeitungsqualität sowie die Latenz beeinflusst. In diesem explorativen Bericht schlagen wir LEDITS vor – einen kombinierten, leichtgewichtigen Ansatz für die Bearbeitung realer Bilder, der die Edit Friendly DDPM-Inversionstechnik mit semantischer Führung kombiniert und somit die semantische Führung auf die Bearbeitung realer Bilder ausdehnt, während gleichzeitig die Bearbeitungsfähigkeiten der DDPM-Inversion genutzt werden. Dieser Ansatz ermöglicht vielseitige Bearbeitungen, sowohl subtile als auch umfangreiche, sowie Änderungen in Komposition und Stil, ohne dass Optimierungen oder Erweiterungen der Architektur erforderlich sind.
Generative KI hat bedeutende Fortschritte in der Computer Vision gemacht, insbesondere bei der Bild-/Videosynthese, die auf Textbeschreibungen basiert. Trotz dieser Fortschritte bleibt es eine Herausforderung, insbesondere bei der Erzeugung von menschenzentrierten Inhalten wie der Tanzsynthese. Bestehende Methoden zur Tanzsynthese kämpfen mit der Lücke zwischen synthetisierten Inhalten und realen Tanzszenarien. In diesem Artikel definieren wir ein neues Problemfeld: Referring Human Dance Generation, das sich auf reale Tanzszenarien mit drei wichtigen Eigenschaften konzentriert: (i) Treue: Die Synthese sollte das Erscheinungsbild sowohl des menschlichen Vordergrunds als auch des Hintergrunds des Referenzbildes beibehalten und die Zielpose genau einhalten; (ii) Generalisierbarkeit: Das Modell sollte auf unbekannte menschliche Subjekte, Hintergründe und Posen verallgemeinern können; (iii) Kompositionalität: Es sollte die Komposition von bekannten/unbekannten Subjekten, Hintergründen und Posen aus verschiedenen Quellen ermöglichen. Um diese Herausforderungen zu bewältigen, stellen wir einen neuartigen Ansatz vor, DISCO, der eine neuartige Modellarchitektur mit entkoppelter Steuerung umfasst, um die Treue und Kompositionalität der Tanzsynthese zu verbessern, sowie ein effektives Pre-Training für menschliche Attribute für eine bessere Generalisierbarkeit auf unbekannte Menschen. Umfangreiche qualitative und quantitative Ergebnisse zeigen, dass DISCO hochwertige Tanzbilder und -videos mit vielfältigen Erscheinungsbildern und flexiblen Bewegungen erzeugen kann. Code, Demo, Video und Visualisierung sind verfügbar unter: https://disco-dance.github.io/.
Die Einführung großer Sprachmodelle (Large Language Models, LLMs) hat die natürliche Sprachverarbeitung revolutioniert und ermöglicht die Erzeugung von kohärentem und kontextuell relevantem Text. Da LLMs zunehmend als Grundlage für Konversationsagenten dienen, rückt die synthetisierte Persönlichkeit, die diesen Modellen durch das Training auf großen Mengen menschlich generierter Daten eingebettet ist, in den Fokus. Da Persönlichkeit ein wichtiger Faktor für die Effektivität von Kommunikation ist, präsentieren wir eine umfassende Methode zur Durchführung validierter psychometrischer Tests sowie zur Quantifizierung, Analyse und Gestaltung von Persönlichkeitsmerkmalen, die in Texten weit verbreiteter LLMs zum Ausdruck kommen. Wir stellen fest, dass: 1) die in den Ausgaben einiger LLMs (unter spezifischen Prompt-Konfigurationen) simulierte Persönlichkeit zuverlässig und valide ist; 2) die Evidenz für die Zuverlässigkeit und Validität der simulierten Persönlichkeit bei größeren und instruktionsfeinabgestimmten Modellen stärker ist; und 3) die Persönlichkeit in den Ausgaben von LLMs entlang gewünschter Dimensionen gestaltet werden kann, um spezifische Persönlichkeitsprofile nachzuahmen. Wir diskutieren zudem potenzielle Anwendungen und ethische Implikationen unseres Mess- und Gestaltungsrahmens, insbesondere im Hinblick auf den verantwortungsvollen Einsatz von LLMs.
Während die jüngsten Fortschritte in Vision-Sprache-Modellen das multimodale Verständnis revolutioniert haben, bleibt unklar, ob sie die Fähigkeit besitzen, die generierten Bilder zu verstehen. Im Vergleich zu realen Daten weisen synthetische Bilder einen höheren Grad an Vielfalt in Bezug auf Inhalt und Stil auf, was für die Modelle erhebliche Schwierigkeiten darstellt, sie vollständig zu erfassen. Zu diesem Zweck stellen wir einen groß angelegten Datensatz, JourneyDB, für das multimodale visuelle Verständnis in generierten Bildern vor. Unser kuratierter Datensatz umfasst 4 Millionen vielfältige und hochwertige generierte Bilder, die mit den Textprompts gepaart sind, die zu ihrer Erstellung verwendet wurden. Wir entwerfen weiterhin 4 Benchmarks, um die Leistung des Verständnisses generierter Bilder in Bezug auf Inhalts- und Stilinterpretation zu quantifizieren. Diese Benchmarks umfassen Prompt-Inversion, Stil-Retrieval, Bildbeschreibung und visuelle Fragebeantwortung. Schließlich bewerten wir die Leistung aktueller state-of-the-art multimodaler Modelle, wenn sie auf JourneyDB angewendet werden, und bieten eine detaillierte Analyse ihrer Stärken und Schwächen im Verständnis generierter Inhalte. Wir hoffen, dass der vorgeschlagene Datensatz und die Benchmarks die Forschung im Bereich des Verständnisses generierter Inhalte fördern werden. Der Datensatz wird unter https://journeydb.github.io verfügbar sein.
Dieses Papier stellt MVDiffusion vor, eine einfache, aber effektive Methode zur Multi-View-Bildgenerierung für Szenarien, in denen Pixel-zu-Pixel-Korrespondenzen verfügbar sind, wie beispielsweise perspektivische Ausschnitte aus Panoramen oder Multi-View-Bildern mit vorgegebener Geometrie (Tiefenkarten und Kameraposen). Im Gegensatz zu früheren Modellen, die auf iterativer Bildverzerrung und Inpainting basieren, generiert MVDiffusion alle Bilder gleichzeitig mit einem globalen Bewusstsein, das hohe Auflösung und reichhaltige Inhalte umfasst, und behebt effektiv die Fehlerakkumulation, die in früheren Modellen vorherrschte. MVDiffusion integriert speziell einen korrespondenzbewussten Aufmerksamkeitsmechanismus, der eine effektive interaktive Kommunikation zwischen den Ansichten ermöglicht. Dieser Mechanismus unterstützt drei zentrale Module: 1) ein Generierungsmodul, das niedrigauflösende Bilder erzeugt und dabei globale Korrespondenzen beibehält, 2) ein Interpolationsmodul, das die räumliche Abdeckung zwischen den Bildern verdichtet, und 3) ein Super-Resolution-Modul, das die Bilder in hochauflösende Ausgaben hochskaliert. Im Hinblick auf Panoramabilder kann MVDiffusion hochauflösende, fotorealistische Bilder bis zu 1024x1024 Pixeln erzeugen. Für die geometrie-bedingte Multi-View-Bildgenerierung zeigt MVDiffusion die erste Methode, die in der Lage ist, eine texturierte Karte eines Szenen-Meshes zu generieren. Die Projektseite befindet sich unter https://mvdiffusion.github.io.
Lernbasierte Ansätze zur monokularen Bewegungsaufnahme haben kürzlich vielversprechende Ergebnisse gezeigt, indem sie gelernt haben, auf datengetriebene Weise zu regressieren. Aufgrund der Herausforderungen bei der Datenerfassung und Netzwerkdesigns bleibt es jedoch schwierig, mit bestehenden Lösungen eine Echtzeit-Erfassung des gesamten Körpers zu erreichen, die gleichzeitig im Weltraum präzise ist. In dieser Arbeit tragen wir ein sequenzielles Proxy-zu-Bewegung-Lernschema zusammen mit einem Proxy-Datensatz von 2D-Skelettsequenzen und 3D-Rotationsbewegungen im Weltraum bei. Solche Proxy-Daten ermöglichen es uns, ein lernbasiertes Netzwerk mit präziser Ganzkörperüberwachung zu erstellen und gleichzeitig die Generalisierungsprobleme zu mildern. Für genauere und physikalisch plausiblere Vorhersagen wird in unserem Netzwerk ein kontaktbewusstes neuronales Bewegungsabstiegsmodul vorgeschlagen, damit es sich des Fuß-Boden-Kontakts und der Bewegungsfehlausrichtung mit den Proxy-Beobachtungen bewusst sein kann. Zusätzlich teilen wir die Körper-Hand-Kontextinformationen in unserem Netzwerk, um eine kompatiblere Wiederherstellung der Handgelenkposen mit dem Ganzkörpermodell zu ermöglichen. Mit dem vorgeschlagenen lernbasierten Ansatz demonstrieren wir das erste Echtzeit-Monokular-Ganzkörper-Erfassungssystem mit plausiblen Fuß-Boden-Kontakten im Weltraum. Weitere Videoergebnisse finden Sie auf unserer Projektseite: https://liuyebin.com/proxycap.
Vortrainierte Sprachmodelle (PLMs) sind heute das primäre Modell für die Verarbeitung natürlicher Sprache. Trotz ihrer beeindruckenden Leistung bei nachgelagerten Aufgaben kann es schwierig sein, PLMs auf neue Sprachen anzuwenden, was eine Barriere für den universellen Zugang zu ihren Fähigkeiten darstellt. Während frühere Arbeiten gezeigt haben, dass dieses Problem durch das Lernen einer neuen Einbettungsschicht für die neue Sprache angegangen werden kann, ist dies sowohl in Bezug auf Daten als auch auf Rechenleistung ineffizient. Wir schlagen vor, einen aktiven Vergessensmechanismus während des Vortrainings zu verwenden, um auf einfache Weise PLMs zu erstellen, die sich schnell an neue Sprachen anpassen können. Konkret fördern wir durch das Zurücksetzen der Einbettungsschicht alle K Updates während des Vortrainings die Fähigkeit des PLMs, neue Einbettungen innerhalb einer begrenzten Anzahl von Updates zu lernen, ähnlich einem Meta-Lern-Effekt. Experimente mit RoBERTa zeigen, dass Modelle, die mit unserem Vergessensmechanismus vortrainiert wurden, nicht nur eine schnellere Konvergenz während der Sprachanpassung aufweisen, sondern auch Standardmodelle in einem datenarmen Regime übertreffen, insbesondere für Sprachen, die weit von Englisch entfernt sind.
Große Sprachmodelle zeigen beeindruckende Ergebnisse bei Few-Shot-NLP-Aufgaben. Allerdings sind diese Modelle speicher- und rechenintensiv. Meta-Training ermöglicht es, kleinere Modelle für die Few-Shot-Generalisierung auf eine domänenübergreifende und aufgabenunabhängige Weise zu nutzen; jedoch führen diese Methoden allein zu Modellen, die möglicherweise nicht über ausreichende Parametrisierung oder Wissen verfügen, um sich schnell an eine Vielzahl von Aufgaben anzupassen. Um dieses Problem zu überwinden, schlagen wir Meta-Training mit Demonstrationsabruf vor, bei dem wir einen dichten Passagenabrufer verwenden, um semantisch ähnliche, beschriftete Demonstrationen zu jedem Beispiel für eine vielfältigere Überwachung abzurufen. Indem wir externes Wissen von den Modellparametern trennen, können wir Meta-Training nutzen, um parameter-effiziente Modelle zu trainieren, die sich gut auf eine größere Vielfalt von Aufgaben verallgemeinern lassen. Wir erstellen einen Meta-Trainingsdatensatz aus UnifiedQA und CrossFit und schlagen eine Demonstrationsbank basierend auf UnifiedQA-Aufgaben vor. Unseres Wissens ist unsere Arbeit die erste, die Abruf mit Meta-Training kombiniert, DPR-Modelle zum Abrufen von Demonstrationen verwendet und Demonstrationen aus vielen Aufgaben gleichzeitig nutzt, anstatt zufällig Demonstrationen aus dem Trainingsdatensatz der Zielaufgabe zu ziehen. Unser Ansatz übertrifft eine Vielzahl von gezielten parameter-effizienten und abrufgestützten Few-Shot-Methoden bei QA-, NLI- und Textklassifizierungsaufgaben (einschließlich SQuAD, QNLI und TREC). Unser Ansatz kann schnell auf einer einzelnen GPU meta-trainiert und feinabgestimmt werden.
Unser Ziel ist es, dass Roboter natürliche Sprachbefehle wie „Lege das Handtuch neben die Mikrowelle“ befolgen können. Die Beschaffung großer Mengen an annotierten Daten, also Daten, die Demonstrationen von Aufgaben enthalten, die mit den Sprachbefehlen versehen sind, ist jedoch äußerst aufwendig. Im Gegensatz dazu ist es viel einfacher, Richtlinien zu erhalten, die auf Bildziele reagieren, da jeder autonome Versuch oder jede Demonstration im Nachhinein mit ihrem Endzustand als Ziel annotiert werden kann. In dieser Arbeit stellen wir eine Methode vor, die auf gemeinsam bild- und zielgesteuerte Richtlinien mit Sprache zugreift und dabei nur eine geringe Menge an Sprachdaten benötigt. Frühere Arbeiten haben Fortschritte in diesem Bereich erzielt, indem sie Vision-Sprache-Modelle verwendet oder gemeinsam sprach- und zielgesteuerte Richtlinien trainiert haben, aber bisher hat keine der Methoden effektiv auf reale Robotertasks ohne umfangreiche menschliche Annotation skaliert. Unsere Methode erreicht robuste Leistungen in der realen Welt, indem sie aus den annotierten Daten eine Einbettung lernt, die Sprache nicht auf das Zielbild, sondern auf die gewünschte Veränderung zwischen dem Start- und dem Zielbild ausrichtet, die der Befehl beschreibt. Anschließend trainieren wir eine Richtlinie auf dieser Einbettung: Die Richtlinie profitiert von allen nicht annotierten Daten, aber die ausgerichtete Einbettung bietet eine Schnittstelle, über die Sprache die Richtlinie steuern kann. Wir zeigen die Befolgung von Anweisungen über eine Vielzahl von Manipulationsaufgaben in verschiedenen Szenen hinweg, mit Generalisierung auf Sprachbefehle außerhalb der annotierten Daten. Videos und Code für unseren Ansatz finden Sie auf unserer Website: http://tiny.cc/grif.
Die Modellierung von 3D-Avataren bietet Vorteile für verschiedene Anwendungsszenarien wie AR/VR, Gaming und Filmproduktion. Charaktergesichter tragen als wesentlicher Bestandteil von Avataren erheblich zur Vielfalt und Lebendigkeit bei. Allerdings erfordert die Erstellung von 3D-Gesichtsmodellen für Charaktere in der Regel einen hohen Arbeitsaufwand mit kommerziellen Tools, selbst für erfahrene Künstler. Verschiedene bestehende skizzenbasierte Tools unterstützen Amateure nicht ausreichend bei der Modellierung unterschiedlicher Gesichtsformen und reichhaltiger geometrischer Details. In diesem Artikel präsentieren wir SketchMetaFace – ein Skizzensystem, das sich an Amateure richtet, um hochwertige 3D-Gesichter in Minuten zu modellieren. Wir haben sowohl die Benutzeroberfläche als auch den zugrunde liegenden Algorithmus sorgfältig gestaltet. Erstens werden krümmungsbewusste Striche verwendet, um die Kontrollierbarkeit beim Herausarbeiten von Gesichtsdetails besser zu unterstützen. Zweitens entwickeln wir, unter Berücksichtigung des Schlüsselproblems der Abbildung einer 2D-Skizze auf ein 3D-Modell, eine neuartige lernbasierte Methode namens „Implicit and Depth Guided Mesh Modeling“ (IDGMM). Diese vereint die Vorteile von Mesh-, Implicit- und Tiefendarstellungen, um hochwertige Ergebnisse mit hoher Effizienz zu erzielen. Darüber hinaus präsentieren wir zur weiteren Verbesserung der Benutzerfreundlichkeit ein grob- bis feinabgestuftes 2D-Skizzenschnittstellen-Design und ein datengestütztes Strichvorschlagstool. Benutzerstudien demonstrieren die Überlegenheit unseres Systems gegenüber bestehenden Modellierungstools in Bezug auf die Benutzerfreundlichkeit und die visuelle Qualität der Ergebnisse. Experimentelle Analysen zeigen auch, dass IDGMM eine bessere Balance zwischen Genauigkeit und Effizienz erreicht. SketchMetaFace ist verfügbar unter https://zhongjinluo.github.io/SketchMetaFace/.