Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Erkennung von Texten, die von modernen großen Sprachmodellen generiert wurden, gilt als schwierig, da sowohl LLMs als auch Menschen ein breites Spektrum komplexer Verhaltensweisen zeigen können. Wir stellen jedoch fest, dass ein Score, der auf dem Vergleich zweier eng verwandter Sprachmodelle basiert, äußerst genau darin ist, menschlich generierte und maschinell generierte Texte zu unterscheiden. Basierend auf diesem Mechanismus schlagen wir einen neuartigen LLM-Detektor vor, der nur einfache Berechnungen mit einem Paar vortrainierter LLMs erfordert. Die Methode, genannt Binoculars, erreicht state-of-the-art Genauigkeit ohne jegliche Trainingsdaten. Sie ist in der Lage, maschinell erzeugte Texte einer Reihe moderner LLMs zu erkennen, ohne dass modellspezifische Anpassungen erforderlich sind. Wir evaluieren Binoculars umfassend anhand verschiedener Textquellen und in unterschiedlichen Situationen. Über eine breite Palette von Dokumenttypen hinweg erkennt Binoculars über 90 % der generierten Proben von ChatGPT (und anderen LLMs) bei einer falsch-positiven Rate von 0,01 %, obwohl es nicht auf ChatGPT-Daten trainiert wurde.
Erhebliche Anstrengungen wurden unternommen, um die Rollenspielfähigkeiten von Open-Source-Großsprachmodellen (LLMs) zu verbessern, indem proprietäre Gegenstücke nachgeahmt wurden. Dennoch vertreten wir die Ansicht, dass LLMs von Natur aus Rollenspielfähigkeiten besitzen, da sie über umfangreiches Wissen über Charaktere und potenzielle Dialoge verfügen, das in ihren umfangreichen Trainingskorpora verankert ist. Daher stellen wir in dieser Studie Ditto vor, eine Methode zur Selbstausrichtung für das Rollenspiel. Ditto nutzt das Charakterwissen und ermutigt ein befehlsfolgendes LLM, Rollenspieldialoge als Variante des Leseverständnisses zu simulieren. Diese Methode erstellt einen Rollenspiel-Trainingsdatensatz, der 4.000 Charaktere umfasst und die Anzahl der Rollen im Vergleich zu derzeit verfügbaren Datensätzen um das Zehnfache übertrifft. Anschließend wird das LLM mit diesem selbst generierten Datensatz feinabgestimmt, um seine Rollenspielfähigkeiten zu verbessern. Bei der Bewertung unseres sorgfältig konstruierten und reproduzierbaren Rollenspiel-Benchmarks sowie der Rollenspiel-Teilmenge von MT-Bench zeigt Ditto in verschiedenen Parametergrößen eine konsistente Rollenidentität und liefert präzises rollenspezifisches Wissen in mehrteiligen Rollenspielgesprächen. Bemerkenswerterweise übertrifft es alle Open-Source-Rollenspiel-Baselines und zeigt Leistungsniveaus, die mit fortschrittlichen proprietären Chatbots vergleichbar sind. Darüber hinaus präsentieren wir das erste umfassende Cross-Supervision-Alignment-Experiment im Bereich des Rollenspiels, das zeigt, dass die intrinsischen Fähigkeiten von LLMs das Wissen im Rollenspiel begrenzen. Gleichzeitig können die Rollenspielstile leicht mit der Anleitung kleinerer Modelle erworben werden. Wir stellen die relevanten Ressourcen unter https://github.com/OFA-Sys/Ditto als Open Source zur Verfügung.
Wir stellen Meta-Prompting vor, eine effektive Scaffolding-Technik, die entwickelt wurde, um die Funktionalität von Sprachmodellen (LMs) zu verbessern. Dieser Ansatz verwandelt ein einzelnes LM in einen vielseitigen Dirigenten, der geschickt mehrere unabhängige LM-Abfragen verwaltet und integriert. Durch den Einsatz von hochrangigen Anweisungen leitet Meta-Prompting das LM an, komplexe Aufgaben in kleinere, besser handhabbare Teilaufgaben zu zerlegen. Diese Teilaufgaben werden dann von verschiedenen „Experten“-Instanzen desselben LM bearbeitet, die jeweils unter spezifischen, maßgeschneiderten Anweisungen operieren. Kern dieses Prozesses ist das LM selbst in seiner Rolle als Dirigent, das eine nahtlose Kommunikation und effektive Integration der Ausgaben dieser Expertenmodelle sicherstellt. Es nutzt zudem seine inhärenten Fähigkeiten zum kritischen Denken und robuste Verifizierungsprozesse, um das Endergebnis zu verfeinern und zu authentifizieren. Dieser kollaborative Prompting-Ansatz befähigt ein einzelnes LM, gleichzeitig als umfassender Orchestrator und als Panel diverser Experten zu agieren, wodurch seine Leistung über eine breite Palette von Aufgaben signifikant gesteigert wird. Die Zero-Shot-, Aufgaben-agnostische Natur von Meta-Prompting vereinfacht die Benutzerinteraktion erheblich, da detaillierte, aufgabenbezogene Anweisungen entfallen. Darüber hinaus zeigt unsere Forschung die nahtlose Integration externer Tools, wie beispielsweise eines Python-Interpreters, in das Meta-Prompting-Framework, wodurch dessen Anwendbarkeit und Nutzen erweitert werden. Durch rigorose Experimente mit GPT-4 belegen wir die Überlegenheit von Meta-Prompting gegenüber konventionellen Scaffolding-Methoden: Im Durchschnitt über alle Aufgaben, einschließlich des Spiels der 24, Schachmatt-in-Einem und Python-Programmierrätsel, übertrifft Meta-Prompting, erweitert um eine Python-Interpreter-Funktionalität, Standard-Prompting um 17,1 %, Expert (Dynamic)-Prompting um 17,3 % und Multipersona-Prompting um 15,2 %.
Diffusionsmodelle haben außergewöhnliche Leistungen in der Text-zu-Bild-Generierung und -Bearbeitung gezeigt. Allerdings stoßen bestehende Methoden oft auf Herausforderungen, wenn es darum geht, komplexe Textanweisungen zu verarbeiten, die mehrere Objekte mit mehreren Attributen und Beziehungen beinhalten. In diesem Artikel schlagen wir ein völlig neues trainingsfreies Framework für die Text-zu-Bild-Generierung und -Bearbeitung vor, nämlich Recaption, Plan and Generate (RPG), das die leistungsstarke Chain-of-Thought-Fähigkeit multimodaler LLMs nutzt, um die Kompositionalität von Text-zu-Bild-Diffusionsmodellen zu verbessern. Unser Ansatz verwendet das MLLM als globalen Planer, um den Prozess der Generierung komplexer Bilder in mehrere einfachere Generierungsaufgaben innerhalb von Teilbereichen zu zerlegen. Wir schlagen eine komplementäre regionale Diffusion vor, um eine regionsweise kompositionelle Generierung zu ermöglichen. Darüber hinaus integrieren wir textgesteuerte Bildgenerierung und -bearbeitung innerhalb des vorgeschlagenen RPG in einer geschlossenen Schleife, wodurch die Generalisierungsfähigkeit verbessert wird. Umfangreiche Experimente zeigen, dass unser RPG die derzeit besten Text-zu-Bild-Diffusionsmodelle, einschließlich DALL-E 3 und SDXL, insbesondere bei der Komposition von Objekten mehrerer Kategorien und der semantischen Ausrichtung von Text und Bild, übertrifft. Bemerkenswert ist, dass unser RPG-Framework eine breite Kompatibilität mit verschiedenen MLLM-Architekturen (z. B. MiniGPT-4) und Diffusions-Backbones (z. B. ControlNet) aufweist. Unser Code ist verfügbar unter: https://github.com/YangLing0818/RPG-DiffusionMaster
Text-to-Image-Diffusionsmodelle sind eine Klasse von tiefen generativen Modellen, die eine beeindruckende Fähigkeit zur Erzeugung hochwertiger Bilder gezeigt haben. Diese Modelle sind jedoch anfällig für implizite Verzerrungen, die aus web-skaligen Text-Bild-Trainingspaaren entstehen und Aspekte von Bildern, die uns wichtig sind, möglicherweise ungenau abbilden. Dies kann zu suboptimalen Ergebnissen, Modellverzerrungen und Bildern führen, die nicht mit menschlichen ethischen Standards und Präferenzen übereinstimmen. In diesem Artikel präsentieren wir einen effektiven und skalierbaren Algorithmus zur Verbesserung von Diffusionsmodellen mithilfe von Reinforcement Learning (RL) über eine Vielzahl von Belohnungsfunktionen, wie menschliche Präferenzen, Kompositionalität und Fairness, die auf Millionen von Bildern angewendet werden. Wir zeigen, wie unser Ansatz bestehende Methoden zur Ausrichtung von Diffusionsmodellen an menschlichen Präferenzen deutlich übertrifft. Darüber hinaus demonstrieren wir, wie dies vortrainierte Stable Diffusion (SD)-Modelle erheblich verbessert, indem Proben erzeugt werden, die in 80,3 % der Fälle gegenüber denen des Basis-SD-Modells von Menschen bevorzugt werden, während gleichzeitig sowohl die Komposition als auch die Vielfalt der generierten Proben verbessert werden.
Das Verständnis und die Schlussfolgerung räumlicher Beziehungen ist eine grundlegende Fähigkeit für Visual Question Answering (VQA) und Robotik. Obwohl Vision-Language-Modelle (VLM) bemerkenswerte Leistungen in bestimmten VQA-Benchmarks gezeigt haben, mangelt es ihnen immer noch an Fähigkeiten im Bereich des 3D-räumlichen Denkens, wie z.B. der Erkennung quantitativer Beziehungen physischer Objekte wie Entfernungen oder Größenunterschiede. Wir stellen die Hypothese auf, dass die begrenzte räumliche Denkfähigkeit von VLMs auf den Mangel an 3D-räumlichem Wissen in den Trainingsdaten zurückzuführen ist, und zielen darauf ab, dieses Problem zu lösen, indem wir VLMs mit internetweiten Daten zum räumlichen Denken trainieren. Zu diesem Zweck präsentieren wir ein System, das diesen Ansatz ermöglicht. Zunächst entwickeln wir ein automatisches Framework zur Generierung von 3D-räumlichen VQA-Daten, das auf 2 Milliarden VQA-Beispiele auf 10 Millionen realen Bildern skaliert. Anschließend untersuchen wir verschiedene Faktoren im Trainingsrezept, einschließlich Datenqualität, Trainingspipeline und VLM-Architektur. Unsere Arbeit präsentiert den ersten internetweiten 3D-räumlichen Denkdatensatz im metrischen Raum. Durch das Training eines VLM mit solchen Daten verbessern wir dessen Fähigkeiten sowohl im qualitativen als auch im quantitativen räumlichen VQA erheblich. Schließlich zeigen wir, dass dieses VLM aufgrund seiner quantitativen Schätzfähigkeit neue Anwendungen im Bereich des kausalen räumlichen Denkens und der Robotik ermöglicht. Projektwebsite: https://spatial-vlm.github.io/
Mit den fortlaufenden Fortschritten der Fähigkeiten großer multimodaler Modelle (LMMs) wird die Bewertung ihrer Leistung zunehmend notwendig. Darüber hinaus besteht eine noch größere Lücke bei der Bewertung der fortgeschrittenen Wissens- und Denkfähigkeiten von LMMs in nicht-englischen Kontexten wie Chinesisch. Wir stellen CMMMU vor, einen neuen chinesischen Benchmark für massives multidisziplinäres multimodales Verständnis, der entwickelt wurde, um LMMs bei Aufgaben zu bewerten, die Hochschulwissen und gezieltes Denken in einem chinesischen Kontext erfordern. CMMMU ist inspiriert von und folgt strikt dem Annotations- und Analysemuster von MMMU. CMMMU umfasst 12.000 manuell gesammelte multimodale Fragen aus Hochschulprüfungen, Tests und Lehrbüchern, die sechs Kernbereiche abdecken: Kunst & Design, Wirtschaft, Naturwissenschaften, Gesundheit & Medizin, Geistes- und Sozialwissenschaften sowie Technik & Ingenieurwesen, ähnlich wie sein Gegenstück MMMU. Diese Fragen erstrecken sich über 30 Fächer und bestehen aus 39 hochgradig heterogenen Bildtypen wie Diagrammen, Karten, Tabellen, Notenblättern und chemischen Strukturen. CMMMU konzentriert sich auf komplexe Wahrnehmung und Denkfähigkeiten mit domänenspezifischem Wissen im chinesischen Kontext. Wir bewerten 11 Open-Source-LLMs und ein proprietäres GPT-4V(ision). Selbst GPT-4V erreicht nur Genauigkeiten von 42 %, was auf einen großen Verbesserungsbedarf hinweist. CMMMU wird die Gemeinschaft dazu anregen, die nächste Generation von LMMs in Richtung Experten-Künstlicher Intelligenz zu entwickeln und die Demokratisierung von LMMs durch die Bereitstellung diverser Sprachkontexte fördern.
Röntgenaufnahmen des Brustkorbs (CXRs) sind die am häufigsten durchgeführte bildgebende Untersuchung in der klinischen Praxis. Jüngste Fortschritte in der Entwicklung von Vision-Language-Foundation-Modellen (FMs) eröffnen die Möglichkeit, eine automatisierte CXR-Interpretation durchzuführen, die Ärzte bei klinischen Entscheidungen unterstützen und die Patientenergebnisse verbessern kann. Die Entwicklung von FMs, die CXRs präzise interpretieren können, ist jedoch aufgrund der (1) begrenzten Verfügbarkeit groß angelegter Vision-Language-Datensätze im Bereich der medizinischen Bildgebung, (2) des Mangels an Vision- und Language-Encodern, die die Komplexität medizinischer Daten erfassen können, und (3) des Fehlens von Bewertungsrahmen zur Benchmarking der Fähigkeiten von FMs bei der CXR-Interpretation eine Herausforderung. In dieser Arbeit gehen wir auf diese Herausforderungen ein, indem wir zunächst CheXinstruct vorstellen – einen groß angelegten Instruction-Tuning-Datensatz, der aus 28 öffentlich verfügbaren Datensätzen zusammengestellt wurde. Anschließend präsentieren wir CheXagent – ein instruction-getuntes FM, das in der Lage ist, CXRs zu analysieren und zusammenzufassen. Um CheXagent zu entwickeln, entwerfen wir ein klinisches Large Language Model (LLM) zur Analyse von Radiologieberichten, einen Vision-Encoder zur Darstellung von CXR-Bildern und ein Netzwerk, das die Vision- und Language-Modalitäten verbindet. Schließlich führen wir CheXbench ein – einen neuartigen Benchmark, der entwickelt wurde, um FMs systematisch über 8 klinisch relevante CXR-Interpretationsaufgaben zu bewerten. Umfangreiche quantitative Bewertungen und qualitative Überprüfungen durch fünf erfahrene Radiologen zeigen, dass CheXagent zuvor entwickelte allgemeine und medizinische FMs bei den CheXbench-Aufgaben übertrifft. Darüber hinaus führen wir eine Fairness-Bewertung über die Faktoren Geschlecht, Rasse und Alter durch, um potenzielle Leistungsunterschiede aufzuzeigen und die Transparenz des Modells zu verbessern. Unser Projekt ist unter https://stanford-aimi.github.io/chexagent.html verfügbar.
Wir präsentieren den Hourglass Diffusion Transformer (HDiT), ein Bildgenerierungsmodell, das eine lineare Skalierung mit der Pixelanzahl aufweist und das Training in hoher Auflösung (z.B. 1024 mal 1024) direkt im Pixelraum unterstützt. Basierend auf der Transformer-Architektur, die für ihre Skalierbarkeit auf Milliarden von Parametern bekannt ist, schließt HDiT die Lücke zwischen der Effizienz von konvolutionalen U-Nets und der Skalierbarkeit von Transformern. HDiT trainiert erfolgreich ohne typische Hochauflösungstechniken wie mehrstufige Architekturen, latente Autoencoder oder Selbstkonditionierung. Wir zeigen, dass HDiT auf ImageNet 256^2 wettbewerbsfähig mit bestehenden Modellen abschneidet und einen neuen State-of-the-Art für Diffusionsmodelle auf FFHQ-1024^2 setzt.
Wir schlagen Diffusion Inference-Time T-Optimization (DITTO) vor, ein allgemeines Framework zur Steuerung vortrainierter Text-zu-Musik-Diffusionsmodelle während der Inferenz durch Optimierung der initialen Rausch-Latents. Unsere Methode kann verwendet werden, um durch jeden differenzierbaren Feature-Matching-Verlust zu optimieren, um ein Ziel (stilisiertes) Ergebnis zu erreichen, und nutzt Gradient Checkpointing für Speichereffizienz. Wir demonstrieren eine überraschend breite Palette von Anwendungen für die Musikerzeugung, einschließlich Inpainting, Outpainting und Looping sowie Intensitäts-, Melodie- und musikalische Struktursteuerung – alles ohne jemals das zugrunde liegende Modell feinzutunen. Wenn wir unseren Ansatz mit verwandten Methoden basierend auf Training, Guidance und Optimierung vergleichen, stellen wir fest, dass DITTO in nahezu allen Aufgaben state-of-the-art Leistungen erzielt, einschließlich der Überlegenheit gegenüber vergleichbaren Ansätzen in Bezug auf Steuerbarkeit, Audioqualität und Recheneffizienz. Dies öffnet die Tür für hochwertige, flexible, trainingsfreie Steuerung von Diffusionsmodellen. Klangbeispiele finden Sie unter https://DITTO-Music.github.io/web/.
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen durch Reinforcement Learning (RLHF) kann zu Reward Hacking führen, bei dem LLMs Schwächen im Reward-Modell (RM) ausnutzen, um scheinbar hohe Belohnungen zu erzielen, ohne die zugrunde liegenden Ziele zu erreichen. Wir identifizieren zwei Hauptherausforderungen bei der Gestaltung von RMs zur Minderung von Reward Hacking: Verteilungsverschiebungen während des RL-Prozesses und Inkonsistenzen in menschlichen Präferenzen. Als Lösung schlagen wir Weight Averaged Reward Models (WARM) vor, bei denen zunächst mehrere RMs feinabgestimmt und dann im Gewichtsraum gemittelt werden. Diese Strategie basiert auf der Beobachtung, dass feinabgestimmte Gewichte linear modusverbunden bleiben, wenn sie dasselbe Pre-Training teilen. Durch die Mittelung der Gewichte verbessert WARM die Effizienz im Vergleich zum traditionellen Ensembling von Vorhersagen und erhöht gleichzeitig die Zuverlässigkeit bei Verteilungsverschiebungen und die Robustheit gegenüber Präferenzinkonsistenzen. Unsere Experimente zu Zusammenfassungsaufgaben, bei denen Best-of-N- und RL-Methoden verwendet werden, zeigen, dass WARM die Gesamtqualität und Ausrichtung der LLM-Vorhersagen verbessert; beispielsweise hat eine mit WARM feinabgestimmte RL-Policy eine Gewinnrate von 79,4 % gegenüber einer mit einem einzelnen RM feinabgestimmten RL-Policy.
Diffusionsmodelle haben in letzter Zeit zunehmend Forschungsaufmerksamkeit erhalten, insbesondere aufgrund ihrer bemerkenswerten Transferfähigkeiten bei Aufgaben der semantischen Segmentierung. Die Erzeugung fein abgestufter Segmentierungsmasken mit Diffusionsmodellen erfordert jedoch oft zusätzliches Training auf annotierten Datensätzen, wodurch unklar bleibt, inwieweit vortrainierte Diffusionsmodelle allein die semantischen Beziehungen ihrer generierten Bilder verstehen. Um diese Frage zu beantworten, nutzen wir das semantische Wissen, das aus Stable Diffusion (SD) extrahiert wird, und streben die Entwicklung eines Bildsegmentierers an, der fein abgestufte Segmentierungskarten ohne zusätzliches Training erzeugen kann. Die Hauptschwierigkeit besteht darin, dass semantisch bedeutsame Merkmalskarten typischerweise nur in den räumlich niedrigdimensionalen Schichten existieren, was die direkte Extraktion pixelweiser semantischer Beziehungen aus diesen Merkmalskarten erschwert. Um dieses Problem zu überwinden, identifiziert unser Framework semantische Korrespondenzen zwischen Bildpixeln und räumlichen Positionen der niedrigdimensionalen Merkmalskarten, indem es den Generierungsprozess von SD nutzt, und verwendet diese zur Konstruktion von bildauflösenden Segmentierungskarten. In umfangreichen Experimenten zeigen die erzeugten Segmentierungskarten eine klare Abgrenzung und erfassen detaillierte Bildteile, was auf die Existenz hochgenauer pixelweiser semantischer Kenntnisse in Diffusionsmodellen hinweist.
Erhebliche Fortschritte wurden beim Training großer generativer Modelle für natürliche Sprache und Bilder erzielt. Dennoch wird die Weiterentwicklung von 3D-generativen Modellen durch ihren erheblichen Ressourcenbedarf für das Training sowie durch ineffiziente, nicht kompakte und weniger ausdrucksstarke Repräsentationen behindert. Dieses Paper stellt Make-A-Shape vor, ein neues 3D-generatives Modell, das für effizientes Training in großem Maßstab entwickelt wurde und in der Lage ist, 10 Millionen öffentlich verfügbare Formen zu nutzen. Technisch gesehen führen wir zunächst eine Wavelet-Baum-Repräsentation ein, um Formen kompakt zu kodieren, indem wir ein Subband-Koeffizienten-Filterungsschema formulieren, um die Beziehungen zwischen den Koeffizienten effizient auszunutzen. Anschließend machen wir die Repräsentation durch ein Diffusionsmodell generierbar, indem wir ein Subband-Koeffizienten-Packungsschema entwickeln, um die Repräsentation in einem niedrigauflösenden Raster anzuordnen. Darüber hinaus leiten wir eine Subband-adaptive Trainingsstrategie ab, um unser Modell effektiv zu trainieren, grobe und detaillierte Wavelet-Koeffizienten zu generieren. Schließlich erweitern wir unser Framework, um es durch zusätzliche Eingabebedingungen steuern zu können, sodass es Formen aus verschiedenen Modalitäten generieren kann, z. B. Einzel-/Mehransichtsbilder, Punktwolken und niedrigauflösende Voxel. In unseren umfangreichen Experimenten demonstrieren wir verschiedene Anwendungen, wie unkonditionierte Generierung, Formvervollständigung und konditionierte Generierung über eine breite Palette von Modalitäten hinweg. Unser Ansatz übertrifft nicht nur den Stand der Technik in der Lieferung hochwertiger Ergebnisse, sondern generiert auch effizient Formen innerhalb weniger Sekunden, oft in nur 2 Sekunden für die meisten Bedingungen.
In dieser Studie stellen wir Orion-14B vor, eine Sammlung multilingualer Large Language Models mit 14 Milliarden Parametern. Wir verwenden einen Data-Scheduling-Ansatz, um ein Basismodell auf einem vielfältigen Korpus von 2,5 Billionen Tokens zu trainieren, der aus Texten in Englisch, Chinesisch, Japanisch, Koreanisch und anderen Sprachen stammt. Zusätzlich haben wir eine Reihe von Modellen für Konversationsanwendungen und andere spezifische Anwendungsfälle feinabgestimmt. Unsere Evaluierungsergebnisse zeigen, dass Orion-14B state-of-the-art Leistungen über ein breites Spektrum von Aufgaben hinweg erzielt. Wir stellen die Orion-14B-Modellfamilie und den zugehörigen Code öffentlich zugänglich unter https://github.com/OrionStarAI/Orion, mit dem Ziel, zukünftige Forschung und praktische Anwendungen in diesem Bereich zu inspirieren.
Jüngste Fortschritte bei Sprachmodellen (LM) haben beeindruckende Zero-Shot-Leistungen bei der Sprachumwandlung (Voice Conversion, VC) gezeigt. Bestehende LM-basierte VC-Modelle wenden jedoch üblicherweise eine Offline-Umwandlung von Quellsemantik zu akustischen Merkmalen an, was das vollständige Quellsprachsignal erfordert und ihren Einsatz in Echtzeitanwendungen einschränkt. In diesem Artikel stellen wir StreamVoice vor, ein neuartiges Streaming-Modell für Zero-Shot-VC auf LM-Basis, das eine Echtzeitumwandlung bei beliebigen Sprecherprompts und Quellsprache ermöglicht. Um Streaming-Fähigkeit zu erreichen, verwendet StreamVoice ein vollständig kausales kontextbewusstes LM mit einem zeitlich unabhängigen akustischen Prädiktor, während es semantische und akustische Merkmale in jedem Zeitschritt der Autoregression abwechselnd verarbeitet, wodurch die Abhängigkeit vom vollständigen Quellsprachsignal entfällt. Um die potenzielle Leistungsminderung durch unvollständigen Kontext bei der Streaming-Verarbeitung zu adressieren, verbessern wir die Kontextbewusstheit des LM durch zwei Strategien: 1) leitergestützte Kontextvorausschau, bei der ein Lehrermodell während des Trainings den gegenwärtigen und zukünftigen semantischen Kontext zusammenfasst, um die Vorhersage des Modells für fehlenden Kontext zu leiten; 2) semantische Maskierungsstrategie, die die akustische Vorhersage aus vorhergehenden verfälschten semantischen und akustischen Eingaben fördert und die Fähigkeit zum Kontextlernen verbessert. Bemerkenswerterweise ist StreamVoice das erste LM-basierte Streaming-Modell für Zero-Shot-VC ohne jeglichen Vorausblick in die Zukunft. Experimentelle Ergebnisse demonstrieren die Streaming-Umwandlungsfähigkeit von StreamVoice bei gleichzeitiger Aufrechterhaltung einer Zero-Shot-Leistung, die mit nicht-streaming VC-Systemen vergleichbar ist.
In den letzten Jahren wurden bemerkenswerte Fortschritte in den Bereichen Sehen, Sprache und Robotik erzielt. Wir verfügen nun über Bilderkennungsmodelle, die Objekte basierend auf Sprachabfragen identifizieren können, Navigationssysteme, die mobile Systeme effektiv steuern, und Greifmodelle, die eine Vielzahl von Objekten handhaben können. Trotz dieser Fortschritte hinken allgemeine Anwendungen der Robotik noch hinterher, obwohl sie auf diesen grundlegenden Fähigkeiten der Erkennung, Navigation und des Greifens basieren. In diesem Artikel verfolgen wir einen systemorientierten Ansatz, um ein neues Open-Knowledge-basiertes Robotik-Framework namens OK-Robot zu entwickeln. Durch die Kombination von Vision-Language-Modellen (VLMs) für die Objekterkennung, Navigationsprimitiven für die Bewegung und Greifprimitiven für die Objektmanipulation bietet OK-Robot eine integrierte Lösung für Pick-and-Drop-Operationen, ohne dass ein Training erforderlich ist. Um die Leistung zu bewerten, setzen wir OK-Robot in 10 realen Haushaltsumgebungen ein. Die Ergebnisse zeigen, dass OK-Robot eine Erfolgsquote von 58,5 % bei offenen Pick-and-Drop-Aufgaben erreicht, was einen neuen Stand der Technik in der Open Vocabulary Mobile Manipulation (OVMM) darstellt und nahezu das 1,8-fache der Leistung früherer Arbeiten erreicht. In sauberen, aufgeräumten Umgebungen steigt die Leistung von OK-Robot auf 82 %. Die wichtigste Erkenntnis aus OK-Robot ist jedoch die entscheidende Rolle von nuancenreichen Details bei der Kombination von Open-Knowledge-Systemen wie VLMs mit Robotikmodulen. Videos unserer Experimente sind auf unserer Website verfügbar: https://ok-robot.github.io
Jüngste Fortschritte in der Generierung von 3D-Avataren haben erhebliche Aufmerksamkeit erregt. Diese Durchbrüche zielen darauf ab, realistischere und animierbare Avatare zu erzeugen, wodurch die Lücke zwischen virtuellen und realen Erfahrungen verringert wird. Die meisten bestehenden Ansätze verwenden den Score Distillation Sampling (SDS)-Verlust, kombiniert mit einem differenzierbaren Renderer und Textbedingungen, um ein Diffusionsmodell bei der Generierung von 3D-Avataren zu steuern. SDS führt jedoch oft zu übermäßig geglätteten Ergebnissen mit wenigen Gesichtsdetails, wodurch die Vielfalt im Vergleich zum ancestral sampling eingeschränkt ist. Andere Ansätze generieren 3D-Avatare aus einem einzelnen Bild, wobei die Herausforderungen unerwünschter Lichteffekte, perspektivischer Ansichten und minderwertiger Bildqualität die zuverlässige Rekonstruktion von 3D-Gesichtsnetzen mit ausgerichteten vollständigen Texturen erschweren. In diesem Artikel schlagen wir einen neuartigen Ansatz zur 3D-Avatar-Generierung vor, genannt UltrAvatar, mit verbesserter geometrischer Genauigkeit und überlegener Qualität von physikalisch basierten Rendering (PBR)-Texturen ohne unerwünschte Beleuchtung. Zu diesem Zweck präsentiert der vorgeschlagene Ansatz ein Modell zur Extraktion der diffusen Farbe und ein authentizitätsgeführtes Textur-Diffusionsmodell. Ersteres entfernt unerwünschte Lichteffekte, um die wahre diffuse Farbe offenzulegen, sodass die generierten Avatare unter verschiedenen Lichtbedingungen gerendert werden können. Letzteres folgt zwei gradientenbasierten Leitlinien zur Generierung von PBR-Texturen, um vielfältige Gesichtsidentitätsmerkmale und Details besser an die 3D-Netzgeometrie anzupassen. Wir demonstrieren die Wirksamkeit und Robustheit der vorgeschlagenen Methode, die in den Experimenten die state-of-the-art-Methoden deutlich übertrifft.
In diesem Artikel stellen wir Human-LRM vor, ein einstufiges, vorwärtsgerichtetes Large Reconstruction Model, das darauf ausgelegt ist, menschliche Neural Radiance Fields (NeRF) aus einem einzelnen Bild vorherzusagen. Unser Ansatz zeigt eine bemerkenswerte Anpassungsfähigkeit beim Training mit umfangreichen Datensätzen, die 3D-Scans und Multi-View-Aufnahmen enthalten. Darüber hinaus schlagen wir eine neuartige Strategie vor, um die Anwendbarkeit des Modells für reale Szenarien, insbesondere bei Verdeckungen, zu verbessern. Diese Strategie destilliert Multi-View-Rekonstruktionen in eine Single-View-Rekonstruktion mittels eines bedingten Triplane-Diffusionsmodells. Diese generative Erweiterung adressiert die inhärenten Variationen in menschlichen Körperformen bei der Betrachtung aus einem einzelnen Blickwinkel und ermöglicht es, den gesamten Körper aus einem verdeckten Bild zu rekonstruieren. Durch umfangreiche Experimente zeigen wir, dass Human-LRM bisherige Methoden auf mehreren Benchmarks deutlich übertrifft.
Die präzise Simulation der Dynamik realer Objekte ist entscheidend für verschiedene Anwendungen wie Robotik, Ingenieurwesen, Grafik und Design. Um komplexe reale Dynamiken wie Kontakt und Reibung besser zu erfassen, haben auf Graphnetzwerken basierte gelernte Simulatoren in letzter Zeit großes Potenzial gezeigt. Die Anwendung dieser gelernten Simulatoren auf reale Szenen bringt jedoch zwei große Herausforderungen mit sich: erstens die Skalierung der gelernten Simulatoren, um die Komplexität realer Szenen zu bewältigen, die Hunderte von Objekten mit komplizierten 3D-Formen umfassen können, und zweitens die Verarbeitung von Eingaben aus der Wahrnehmung anstelle von 3D-Zustandsinformationen. Hier stellen wir eine Methode vor, die den Speicherbedarf für die Ausführung von graphbasierten gelernten Simulatoren erheblich reduziert. Basierend auf diesem speichereffizienten Simulationsmodell präsentieren wir dann eine Wahrnehmungsschnittstelle in Form von editierbaren NeRFs, die reale Szenen in eine strukturierte Darstellung umwandeln kann, die von einem Graphnetzwerk-Simulator verarbeitet werden kann. Wir zeigen, dass unsere Methode deutlich weniger Speicher benötigt als bisherige graphbasierte Simulatoren, während sie deren Genauigkeit beibehält, und dass die in synthetischen Umgebungen gelernten Simulatoren auf reale Szenen angewendet werden können, die aus mehreren Kamerawinkeln aufgenommen wurden. Dies ebnet den Weg für die Erweiterung der Anwendung gelernten Simulatoren auf Szenarien, in denen zum Zeitpunkt der Inferenz nur Wahrnehmungsinformationen verfügbar sind.
Virtual Reality (VR) verspricht soziale Interaktionen, die immersiver wirken können als andere Medien. Entscheidend hierfür ist die Fähigkeit, ein fotorealistisches Avatar-Abbild der eigenen Person präzise zu animieren, während man ein VR-Headset trägt. Obwohl eine hochwertige Registrierung personenspezifischer Avatare zu den Bildern einer am Headset montierten Kamera (HMC) in einer Offline-Umgebung möglich ist, verschlechtert sich die Leistung generischer Echtzeitmodelle erheblich. Die Online-Registrierung ist aufgrund schräger Kameraperspektiven und Unterschiede in der Modalität ebenfalls herausfordernd. In dieser Arbeit zeigen wir zunächst, dass die Domänenlücke zwischen dem Avatar und den Headset-Kamerabildern eine der Hauptschwierigkeiten darstellt, wobei eine Transformer-basierte Architektur bei domänenkonsistenten Daten hohe Genauigkeit erreicht, jedoch abbaut, wenn die Domänenlücke wieder eingeführt wird. Aufbauend auf dieser Erkenntnis entwickeln wir ein Systemdesign, das das Problem in zwei Teile entkoppelt: 1) ein iteratives Verfeinerungsmodul, das domäneninterne Eingaben verarbeitet, und 2) ein generisches Avatar-gesteuertes Bild-zu-Bild-Styletransfermodul, das auf der aktuellen Schätzung von Gesichtsausdruck und Kopfpose basiert. Diese beiden Module verstärken sich gegenseitig, da der Bildstiltransfer einfacher wird, wenn nahezu echte Beispiele gezeigt werden, und eine bessere Beseitigung der Domänenlücke die Registrierung unterstützt. Unser System erzeugt effizient hochwertige Ergebnisse und macht die kostspielige Offline-Registrierung zur Erzeugung personalisierter Labels überflüssig. Wir validieren die Genauigkeit und Effizienz unseres Ansatzes durch umfangreiche Experimente auf einem handelsüblichen Headset und zeigen signifikante Verbesserungen gegenüber direkten Regressionsmethoden sowie der Offline-Registrierung.