Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren Video-LLaMA, ein multimodales Framework, das Large Language Models (LLMs) die Fähigkeit verleiht, sowohl visuelle als auch auditive Inhalte in Videos zu verstehen. Video-LLaMA startet das Cross-Modal-Training mit eingefrorenen, vortrainierten visuellen und auditiven Encodern sowie eingefrorenen LLMs. Im Gegensatz zu früheren Vision-LLMs, die sich auf das Verständnis statischer Bilder wie MiniGPT-4~zhu2023minigpt und LLaVA~liu2023visualit konzentrieren, adressiert Video-LLaMA zwei Herausforderungen beim Video-Verständnis: (1) die Erfassung zeitlicher Veränderungen in visuellen Szenen und (2) die Integration von audiovisuellen Signalen. Für die erste Herausforderung schlagen wir den Video Q-former vor, um den vortrainierten Bild-Encoder zu einem Video-Encoder zu erweitern, und führen eine Video-zu-Text-Generierungsaufgabe ein, um die Video-Sprache-Korrespondenz zu lernen. Für die zweite Herausforderung nutzen wir ImageBind~girdhar2023imagebind als vortrainierten Audio-Encoder, der besonders gut darin ist, verschiedene Modalitäten in einen gemeinsamen Einbettungsraum auszurichten. Anschließend führen wir einen Audio Q-former ein, um auditive Abfrage-Token zu lernen. Um die Ausgaben sowohl des visuellen als auch des auditiven Encoders mit dem Einbettungsraum des LLM abzugleichen, trainieren wir Video-LLaMA auf einem groß angelegten Vision-Caption-Datensatz und einem hochwertigen Vision-Instruction-Tuning-Datensatz. Wir fanden heraus, dass Video-LLaMA die Fähigkeit zeigt, Videoinhalte wahrzunehmen und zu verstehen, und sinnvolle Antworten generiert, die auf den visuellen und auditiven Informationen in den Videos basieren. Dies unterstreicht das Potenzial von Video-LLaMA als vielversprechenden Prototyp für audiovisuelle KI-Assistenten. Unser Code, das vortrainierte Modell und die Demo sind verfügbar unter https://github.com/DAMO-NLP-SG/Video-LLaMA.
Polyglot ist ein wegweisendes Projekt, das darauf abzielt, die Leistung mehrsprachiger Sprachmodelle in nicht-englischen Sprachen zu verbessern. Trotz der Verfügbarkeit verschiedener mehrsprachiger Modelle wie mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) und BLOOM (Scao et al., 2022) greifen Forscher und Entwickler oft auf den Bau monolingualer Modelle in ihren jeweiligen Sprachen zurück, da sie mit den Fähigkeiten der aktuellen mehrsprachigen Modelle in nicht-englischen Sprachen unzufrieden sind. Um diese Lücke zu schließen, streben wir die Entwicklung fortschrittlicher mehrsprachiger Sprachmodelle an, die eine verbesserte Leistung in nicht-englischen Sprachen bieten. In diesem Artikel stellen wir die Polyglot-Koreanisch-Modelle vor, die einen spezifischen Fokus darstellen und nicht von Natur aus mehrsprachig sind. In Zusammenarbeit mit TUNiB hat unser Team 1,2 TB koreanischer Daten gesammelt, die sorgfältig für unsere Forschungsreise kuratiert wurden. Wir haben bewusst entschieden, die Entwicklung koreanischer Modelle zu priorisieren, bevor wir uns an mehrsprachige Modelle wagen. Diese Entscheidung wurde durch mehrere Faktoren motiviert: Erstens ermöglichten die koreanischen Modelle Leistungsvergleiche mit bestehenden mehrsprachigen Modellen; und schließlich entsprachen sie den spezifischen Bedürfnissen koreanischer Unternehmen und Forscher. Dieser Artikel präsentiert unsere Arbeit an der Entwicklung der Polyglot-Koreanisch-Modelle, die einige Schritte zur Schließung der Leistungslücke in nicht-englischen Sprachen bei mehrsprachigen Sprachmodellen vorschlagen.
Große Sprachmodelle (LLMs) profitieren erheblich von Chain-of-Thought (CoT)-Prompting bei der Durchführung verschiedener Denkaufgaben. Während CoT es Modellen ermöglicht, umfassendere Denkprozesse zu erzeugen, kann die Betonung von Zwischenschritten im Denkprozess unbeabsichtigt Halluzinationen und kumulierte Fehler einführen, wodurch die Fähigkeit der Modelle, komplexe Denkaufgaben zu lösen, eingeschränkt wird. Inspiriert davon, wie Menschen sorgfältige und akribische deduktive logische Denkprozesse zur Lösung von Aufgaben einsetzen, streben wir danach, Sprachmodelle in die Lage zu versetzen, explizite und rigorose deduktive Schlussfolgerungen durchzuführen und gleichzeitig die Vertrauenswürdigkeit ihres Denkprozesses durch Selbstüberprüfung sicherzustellen. Allerdings ist die direkte Überprüfung der Gültigkeit eines gesamten deduktiven Denkprozesses selbst mit fortschrittlichen Modellen wie ChatGPT eine Herausforderung. Vor diesem Hintergrund schlagen wir vor, einen Denküberprüfungsprozess in eine Reihe von schrittweisen Teilprozessen zu zerlegen, von denen jeder nur den notwendigen Kontext und die erforderlichen Prämissen erhält. Um dieses Verfahren zu erleichtern, schlagen wir Natural Program vor, ein auf natürlicher Sprache basierendes deduktives Denkformat. Unser Ansatz ermöglicht es Modellen, präzise Denkschritte zu generieren, bei denen nachfolgende Schritte strenger auf vorherigen Schritten aufbauen. Darüber hinaus befähigt er Sprachmodelle, die Denküberprüfung in einem schrittweisen Verfahren durchzuführen. Durch die Integration dieses Überprüfungsprozesses in jede Stufe des deduktiven Denkens verbessern wir die Strenge und Vertrauenswürdigkeit der generierten Denkschritte erheblich. Im Zuge dieses Prozesses verbessern wir auch die Antwortgenauigkeit bei komplexen Denkaufgaben. Der Code wird unter https://github.com/lz1oceani/verify_cot veröffentlicht.
Die Skalierung von Text-zu-Sprache (Text-to-Speech, TTS) auf einen großen und heterogenen Datensatz hat sich als äußerst effektiv erwiesen, um eine Generalisierung von Klangfarbe und Sprechstil zu erreichen, insbesondere im Kontext von Zero-Shot-TTS. Bisherige Arbeiten kodieren Sprache jedoch üblicherweise in latente Merkmale mithilfe von Audiocodecs und verwenden autoregressive Sprachmodelle oder Diffusionsmodelle zur Generierung, wodurch die intrinsische Natur von Sprache ignoriert wird und dies zu minderwertigen oder unkontrollierbaren Ergebnissen führen kann. Wir argumentieren, dass Sprache in mehrere Attribute (z. B. Inhalt, Klangfarbe, Prosodie und Phase) zerlegt werden kann und jedes dieser Attribute mit einem Modul mit geeigneten induktiven Verzerrungen modelliert werden sollte. Aus dieser Perspektive entwerfen wir sorgfältig ein neuartiges und umfangreiches Zero-Shot-TTS-System namens Mega-TTS, das mit groß angelegten, heterogenen Daten trainiert wird und verschiedene Attribute auf unterschiedliche Weise modelliert: 1) Anstelle von latenten Merkmalen, die durch Audiocodecs kodiert werden, wählen wir weiterhin Spektrogramme als Zwischenmerkmale, da sie Phase und andere Attribute sehr gut trennen. Die Phase kann durch einen GAN-basierten Vocoder angemessen konstruiert werden und muss nicht durch das Sprachmodell modelliert werden. 2) Wir modellieren die Klangfarbe mithilfe globaler Vektoren, da Klangfarbe ein globales Attribut ist, das sich langsam über die Zeit ändert. 3) Wir verwenden weiterhin ein VQGAN-basiertes akustisches Modell zur Generierung des Spektrogramms und ein latentes Code-Sprachmodell, um die Verteilung der Prosodie anzupassen, da sich die Prosodie innerhalb eines Satzes schnell ändert und Sprachmodelle sowohl lokale als auch langreichweitige Abhängigkeiten erfassen können. Wir skalieren Mega-TTS auf Multi-Domain-Datensätze mit 20.000 Stunden Sprachdaten und evaluieren seine Leistung bei unbekannten Sprechern. Experimentelle Ergebnisse zeigen, dass Mega-TTS state-of-the-art-TTS-Systeme in den Bereichen Zero-Shot-TTS, Sprachbearbeitung und cross-lingualem TTS übertrifft, mit überlegener Natürlichkeit, Robustheit und Sprecherähnlichkeit aufgrund der geeigneten induktiven Verzerrung jedes Moduls. Audiobeispiele sind verfügbar unter https://mega-tts.github.io/demo-page.
Wir präsentieren MotionDiffuser, eine auf Diffusion basierende Repräsentation für die gemeinsame Verteilung zukünftiger Trajektorien über mehrere Agenten hinweg. Eine solche Repräsentation bietet mehrere entscheidende Vorteile: Erstens lernt unser Modell eine hochgradig multimodale Verteilung, die diverse zukünftige Szenarien erfasst. Zweitens erfordert das einfache Prädiktordesign lediglich ein einzelnes L2-Verlust-Trainingsziel und ist unabhängig von Trajektorienankern. Drittens ist unser Modell in der Lage, die gemeinsame Verteilung für die Bewegung mehrerer Agenten auf eine permutationsinvariante Weise zu lernen. Darüber hinaus nutzen wir eine komprimierte Trajektoriendarstellung mittels PCA, die die Modellleistung verbessert und eine effiziente Berechnung der exakten Log-Wahrscheinlichkeit von Stichproben ermöglicht. Anschließend schlagen wir einen allgemeinen Rahmen für eingeschränktes Sampling vor, der kontrolliertes Trajektorien-Sampling basierend auf differenzierbaren Kostenfunktionen ermöglicht. Diese Strategie eröffnet eine Vielzahl von Anwendungen, wie die Durchsetzung von Regeln und physikalischen Vorannahmen oder die Erstellung maßgeschneiderter Simulationsszenarien. MotionDiffuser kann mit bestehenden Backbone-Architekturen kombiniert werden, um Spitzenergebnisse in der Bewegungsvorhersage zu erzielen. Wir erzielen state-of-the-art Ergebnisse für die Multi-Agenten-Bewegungsvorhersage auf dem Waymo Open Motion Dataset.
Kürzlich haben textgesteuerte 3D-Generierungsmethoden bemerkenswerte Fortschritte bei der Erzeugung hochwertiger Texturen und Geometrien gemacht, indem sie die Verbreitung großer Vision-Language- und Bilddiffusionsmodelle nutzen. Allerdings haben bestehende Methoden immer noch Schwierigkeiten, hochwertige 3D-Kopfavatare in zwei Aspekten zu erstellen: (1) Sie stützen sich hauptsächlich auf ein vortrainiertes Text-zu-Bild-Diffusionsmodell, während ihnen das notwendige 3D-Bewusstsein und Kopf-Priors fehlen. Dies führt zu Inkonsistenzen und geometrischen Verzerrungen in den generierten Avataren. (2) Sie sind in der feinkörnigen Bearbeitung unzureichend. Dies liegt hauptsächlich an den vererbten Einschränkungen der vortrainierten 2D-Bilddiffusionsmodelle, die bei 3D-Kopfavataren noch deutlicher werden. In dieser Arbeit gehen wir diese Herausforderungen an, indem wir eine vielseitige Grob-zu-Fein-Pipeline namens HeadSculpt einführen, um 3D-Kopfavatare aus textuellen Eingabeaufforderungen zu erstellen (d.h. zu generieren und zu bearbeiten). Konkret statten wir zunächst das Diffusionsmodell mit 3D-Bewusstsein aus, indem wir landmark-basierte Steuerung und eine gelernte textuelle Einbettung nutzen, die das Erscheinungsbild der Rückansicht von Köpfen repräsentiert, wodurch 3D-konsistente Kopfavatar-Generationen ermöglicht werden. Weiterhin schlagen wir eine neuartige identitätsbewusste Bearbeitungsstrategie zur Score-Destillation vor, um ein texturiertes Mesh mit einer hochauflösenden differenzierbaren Rendering-Technik zu optimieren. Dies ermöglicht die Bewahrung der Identität, während die Bearbeitungsanweisung befolgt wird. Wir demonstrieren die überlegene Qualität und Bearbeitungsfähigkeiten von HeadSculpt durch umfassende Experimente und Vergleiche mit bestehenden Methoden.
Wir stellen PolyVoice vor, ein auf Sprachmodellen basierendes Framework für ein Sprach-zu-Sprach-Übersetzungssystem (S2ST). Unser Framework besteht aus zwei Sprachmodellen: einem Übersetzungs-Sprachmodell und einem Sprachsynthese-Sprachmodell. Wir verwenden diskretisierte Spracheinheiten, die auf vollständig unüberwachte Weise generiert werden, wodurch unser Framework auch für nicht verschriftlichte Sprachen eingesetzt werden kann. Für den Sprachsynthese-Teil übernehmen wir den bestehenden VALL-E X-Ansatz und entwickeln ein einheitenbasiertes Audio-Sprachmodell. Dies verleiht unserem Framework die Fähigkeit, die Stimmcharakteristika und den Sprechstil der ursprünglichen Sprache zu bewahren. Wir testen unser System anhand der Sprachpaare Chinesisch → Englisch und Englisch → Spanisch. Die experimentellen Ergebnisse zeigen, dass unser System Sprache mit hoher Übersetzungsqualität und Audioqualität erzeugen kann. Sprachbeispiele sind unter https://speechtranslation.github.io/polyvoice verfügbar.
Große Sprachmodelle, die auf Code trainiert wurden, haben ein großes Potenzial gezeigt, die Produktivität von Softwareentwicklern zu steigern. Es wurden mehrere ausführungsbasierte Benchmarks vorgeschlagen, um die funktionale Korrektheit von modellgeneriertem Code bei einfachen Programmierproblemen zu bewerten. Dennoch ist es kostspielig, dieselbe Bewertung für komplexe, realweltliche Projekte durchzuführen, wenn man die Ausführungskosten berücksichtigt. Im Gegensatz dazu wurden statische Analysetools wie Linter, die Fehler erkennen können, ohne das Programm auszuführen, noch nicht umfassend für die Bewertung von Codegenerierungsmodellen untersucht. In dieser Arbeit schlagen wir ein statisches Evaluationsframework vor, um statische Fehler in Python-Code-Vervollständigungen zu quantifizieren, indem wir Abstract Syntax Trees nutzen. Im Vergleich zur ausführungsbasierten Bewertung ist unsere Methode nicht nur effizienter, sondern auch auf Code in der Praxis anwendbar. Für Experimente sammeln wir Code-Kontexte aus Open-Source-Repositories, um eine Million Funktionskörper mit öffentlichen Modellen zu generieren. Unsere statische Analyse zeigt, dass „Undefined Name“ und „Unused Variable“ die häufigsten Fehler unter den von Sprachmodellen gemachten Fehlern sind. Durch umfangreiche Studien zeigen wir auch die Auswirkungen der Sampling-Temperatur, der Modellgröße und des Kontexts auf statische Fehler in Code-Vervollständigungen.
Denoising-Diffusion-Wahrscheinlichkeitsmodelle haben die Bildgeneration durch ihre beeindruckende Detailtreue und Vielfalt revolutioniert. Wir zeigen, dass sie auch bei der Schätzung von optischem Fluss und monokularer Tiefe hervorragende Ergebnisse liefern – und das überraschenderweise ohne aufgabenspezifische Architekturen und Verlustfunktionen, die für diese Aufgaben üblich sind. Im Vergleich zu den Punkt-Schätzungen konventioneller regressionsbasierter Methoden ermöglichen Diffusionsmodelle auch Monte-Carlo-Inferenz, z. B. zur Erfassung von Unsicherheit und Mehrdeutigkeit in Fluss und Tiefe. Durch selbstüberwachtes Vor-Training, die kombinierte Nutzung von synthetischen und realen Daten für überwachtes Training sowie technische Innovationen (Infilling und Step-Unrolled Denoising Diffusion Training) zur Handhabung von verrauschten und unvollständigen Trainingsdaten sowie eine einfache Form der grob-zu-fein-Verfeinerung lassen sich state-of-the-art Diffusionsmodelle für die Schätzung von Tiefe und optischem Fluss trainieren. Umfangreiche Experimente konzentrieren sich auf die quantitative Leistung gegenüber Benchmarks, Ablationen sowie die Fähigkeit des Modells, Unsicherheit und Multimodalität zu erfassen und fehlende Werte zu imputieren. Unser Modell, DDVM (Denoising Diffusion Vision Model), erreicht einen state-of-the-art relativen Tiefenfehler von 0,074 auf dem Indoor-NYU-Benchmark und eine Fl-all-Ausreißerrate von 3,26 % auf dem KITTI-Optical-Flow-Benchmark, was etwa 25 % besser ist als die bisher beste veröffentlichte Methode. Für einen Überblick siehe https://diffusion-vision.github.io.
Ternäre und binäre neuronale Netze ermöglichen eine multiplikationsfreie Berechnung und versprechen Effizienzgewinne um mehrere Größenordnungen im Vergleich zu Netzen mit voller Präzision, sofern sie auf spezialisierter Hardware implementiert werden. Da jedoch sowohl der Parameter- als auch der Ausgaberaum stark diskretisiert sind, hat sich die Optimierung solcher Netze als äußerst schwierig erwiesen. Diese Schwierigkeiten verstärken sich bei der Klasse von Transformer-Modellen zur Textgenerierung aufgrund der Empfindlichkeit der Attention-Operation gegenüber Quantisierung und der rauschverstärkenden Effekte des autoregressiven Decodings im hochkardinalen Ausgaberaum. Wir nähern uns dem Problem mit einer Mischung aus statistisch basierter Quantisierung der Gewichte und elastischer Quantisierung der Aktivierungen und demonstrieren die ersten ternären und binären Transformer-Modelle für die nachgelagerten Aufgaben der Zusammenfassung und maschinellen Übersetzung. Unser ternäres BART-Base-Modell erreicht einen R1-Score von 41 auf dem CNN/DailyMail-Benchmark, was lediglich 3,9 Punkte hinter dem vollständigen Modell liegt, während es 16-mal effizienter ist. Unser binäres Modell, obwohl weniger genau, erreicht einen beachtlichen Score von 35,6. Für die maschinelle Übersetzung erzielten wir BLEU-Scores von 21,7 und 17,6 auf dem WMT16 En-Ro-Benchmark, verglichen mit einem Score von 26,8 für das vollpräzise mBART-Modell. Wir vergleichen unseren Ansatz auch im 8-Bit-Aktivierungssetting, wo unsere ternären und sogar binären Gewichtsmodelle die besten existierenden 8-Bit-Gewichtsmodelle in der Literatur erreichen oder übertreffen können. Unser Code und unsere Modelle sind verfügbar unter: https://github.com/facebookresearch/Ternary_Binary_Transformer
Konzeptlöschung zielt darauf ab, bestimmte Merkmale aus einer Repräsentation zu entfernen. Sie kann verwendet werden, um Fairness zu verbessern (z. B. zu verhindern, dass ein Klassifikator Geschlecht oder Rasse verwendet) und Interpretierbarkeit zu erhöhen (z. B. ein Konzept zu entfernen, um Veränderungen im Modellverhalten zu beobachten). In diesem Artikel stellen wir LEAst-squares Concept Erasure (LEACE) vor, eine geschlossene Methode, die nachweislich verhindert, dass lineare Klassifikatoren ein Konzept erkennen, während gleichzeitig der geringstmögliche Schaden an der Repräsentation verursacht wird. Wir wenden LEACE auf große Sprachmodelle mit einem neuartigen Verfahren namens "Konzeptreinigung" an, das Zielkonzeptinformationen aus jeder Schicht des Netzwerks entfernt. Wir demonstrieren den Nutzen unserer Methode anhand zweier Aufgaben: die Messung der Abhängigkeit von Sprachmodellen von Wortarteninformationen und die Reduzierung von Geschlechterverzerrungen in BERT-Einbettungen. Der Code ist verfügbar unter https://github.com/EleutherAI/concept-erasure.
Wir stellen Semantic Interpreter vor, ein KI-System für Produktivitätssoftware wie Microsoft Office, das benutzerfreundlich für natürliche Sprache ist und große Sprachmodelle (LLMs) nutzt, um Benutzerabsichten über Anwendungsfunktionen hinweg auszuführen. Während LLMs hervorragend darin sind, Benutzerabsichten zu verstehen, die in natürlicher Sprache ausgedrückt werden, reichen sie allein nicht aus, um anwendungsspezifische Benutzerabsichten zu erfüllen, die mehr als Text-zu-Text-Transformationen erfordern. Daher führen wir die Office Domain Specific Language (ODSL) ein, eine prägnante, hochrangige Sprache, die speziell für die Ausführung von Aktionen und die Interaktion mit Entitäten in Office-Anwendungen entwickelt wurde. Semantic Interpreter nutzt eine Analyse-Retrieval-Prompt-Konstruktionsmethode mit LLMs für die Programmsynthese, indem es Benutzeräußerungen in natürlicher Sprache in ODSL-Programme übersetzt, die dann in Anwendungs-APIs transpiliert und ausgeführt werden können. Unsere Diskussion konzentriert sich hauptsächlich auf eine Forschungsexploration für Microsoft PowerPoint.
Große Sprachmodelle für Code (Code-LLMs) haben in letzter Zeit enorme Fortschritte bei der Code-Vervollständigung gebracht, einer grundlegenden Funktion von Programmierassistenz und Code-Intelligenz. Die meisten bestehenden Arbeiten ignorieren jedoch die mögliche Präsenz von Fehlern im Code-Kontext für die Generierung, die in der Softwareentwicklung unvermeidlich sind. Daher führen wir das Problem der fehlerhaften Code-Vervollständigung ein und untersuchen es, inspiriert durch das realistische Szenario der Echtzeit-Code-Vorschläge, bei dem der Code-Kontext potenzielle Fehler enthält – Anti-Patterns, die zu Fehlern im vervollständigten Programm führen können. Um die Aufgabe systematisch zu untersuchen, stellen wir zwei Datensätze vor: einen mit synthetischen Fehlern, die aus semantikverändernden Operatoränderungen abgeleitet sind (buggy-HumanEval), und einen mit realistischen Fehlern, die aus Benutzereinreichungen zu Codierungsproblemen stammen (buggy-FixEval). Wir stellen fest, dass die Präsenz potenzieller Fehler die Generierungsleistung der leistungsstarken Code-LLMs erheblich beeinträchtigt. Beispielsweise sinken die Erfolgsraten von CodeGen-2B-mono bei den Testfällen von buggy-HumanEval um mehr als 50 %, wenn ein einziger potenzieller Fehler im Kontext vorhanden ist. Schließlich untersuchen wir mehrere nachträgliche Methoden zur Minderung der negativen Auswirkungen potenzieller Fehler und stellen fest, dass eine große Lücke in der Leistung nach der Minderung bleibt.
Die neuronale Oberflächenrekonstruktion hat sich als leistungsstark erwiesen, um dichte 3D-Oberflächen durch bildbasierte neuronale Rendering-Verfahren wiederherzustellen. Aktuelle Methoden haben jedoch Schwierigkeiten, detaillierte Strukturen realer Szenen zu erfassen. Um dieses Problem zu lösen, präsentieren wir Neuralangelo, das die Darstellungsfähigkeit von mehrstufigen 3D-Hash-Grids mit dem neuronalen Oberflächenrendering kombiniert. Zwei Schlüsselelemente ermöglichen unseren Ansatz: (1) numerische Gradienten zur Berechnung höherer Ableitungen als Glättungsoperation und (2) eine grob- bis feinabgestufte Optimierung der Hash-Grids, die unterschiedliche Detailstufen steuern. Selbst ohne zusätzliche Eingaben wie Tiefeninformationen kann Neuralangelo effektiv dichte 3D-Oberflächenstrukturen aus Multi-View-Bildern mit einer Detailtreue rekonstruieren, die bisherige Methoden deutlich übertrifft, und ermöglicht so die detaillierte Rekonstruktion großflächiger Szenen aus RGB-Videoaufnahmen.
Mit der Entwicklung großer Sprachmodelle haben viele bemerkenswerte linguistische Systeme wie ChatGPT einen Aufschwung erlebt und erstaunliche Erfolge bei zahlreichen Aufgaben erzielt, was die unglaubliche Leistungsfähigkeit von Foundation-Modellen unterstreicht. Im Geiste der Nutzbarmachung der Fähigkeiten von Foundation-Modellen für visuelle Aufgaben wurde kürzlich das Segment Anything Model (SAM), ein Foundation-Modell für die Bildsegmentierung, vorgeschlagen, das eine starke Zero-Shot-Fähigkeit bei vielen nachgelagerten 2D-Aufgaben zeigt. Ob SAM jedoch für 3D-Vision-Aufgaben, insbesondere für die 3D-Objekterkennung, adaptiert werden kann, ist noch nicht erforscht. Inspiriert von dieser Frage untersuchen wir in diesem Artikel die Anpassung der Zero-Shot-Fähigkeit von SAM für die 3D-Objekterkennung. Wir schlagen eine SAM-basierte BEV-Verarbeitungspipeline vor, um Objekte zu erkennen, und erzielen vielversprechende Ergebnisse auf dem groß angelegten Waymo Open Dataset. Als früher Versuch macht unsere Methode einen Schritt in Richtung 3D-Objekterkennung mit visuellen Foundation-Modellen und zeigt die Möglichkeit auf, deren Potenzial für 3D-Vision-Aufgaben zu erschließen. Der Code ist unter https://github.com/DYZhang09/SAM3D verfügbar.
Dieses technische Papier stellt ein Chatbot-System vor, das die jüngsten Fortschritte in großskaligen Sprachmodellen (Large-Scale Language Models, LLMs) wie GPT-3 und ChatGPT nutzt. Das System ist mit einem Co-Speech-Gestenerzeugungssystem integriert, das geeignete Gestalten basierend auf der konzeptionellen Bedeutung der Sprache auswählt. Unser Ziel ist es, Möglichkeiten zu erforschen, die jüngsten Fortschritte in LLMs für praktische robotische Anwendungen zu nutzen, was sowohl die Entwicklung von Chatbots als auch von LLMs vorantreibt. Insbesondere ermöglicht es die Entwicklung hochgradig reaktionsfähiger Chatbot-Systeme durch die Nutzung von LLMs und fügt visuelle Effekte zur Benutzeroberfläche von LLMs als zusätzlichen Mehrwert hinzu. Der Quellcode für das System ist auf GitHub für unseren hauseigenen Roboter (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) und auf GitHub für den Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures) verfügbar.
Autoregressive Modelle für Texte erzeugen manchmal repetitive und qualitativ minderwertige Ausgaben, da sich Fehler während der Generationsschritte ansammeln. Dieses Problem wird oft auf den Exposure Bias zurückgeführt – die Diskrepanz zwischen der Art und Weise, wie ein Modell trainiert wird und wie es während der Inferenz verwendet wird. Denoising-Diffusionsmodelle bieten einen alternativen Ansatz, bei dem ein Modell seine Ausgabe überarbeiten und revidieren kann. Allerdings können sie rechenintensiv sein, und bisherige Bemühungen im Bereich Text haben zu Modellen geführt, die weniger flüssige Ausgaben im Vergleich zu autoregressiven Modellen erzeugen, insbesondere bei längeren Texten und Absätzen. In diesem Artikel schlagen wir PLANNER vor, ein Modell, das latente semantische Diffusion mit autoregressiver Generierung kombiniert, um flüssigen Text zu erzeugen und gleichzeitig eine globale Kontrolle über Absätze auszuüben. Das Modell erreicht dies durch die Kombination eines autoregressiven „Decoding“-Moduls mit einem „Planning“-Modul, das latente Diffusion verwendet, um semantische Absatz-Embeddings in einem grob-zu-fein-Ansatz zu generieren. Die vorgeschlagene Methode wird auf verschiedenen bedingten Generierungsaufgaben evaluiert, und die Ergebnisse in den Bereichen semantische Generierung, Textvervollständigung und Zusammenfassung zeigen ihre Effektivität bei der Erzeugung hochwertiger Langformtexte auf effiziente Weise.
Vision-Language-Modelle (VLMs), die diskriminativ mit kontrastiven Bild-Text-Abgleichverlusten wie P(match|Text, Bild) vortrainiert wurden, wurden dafür kritisiert, dass sie kein kompositionelles Verständnis besitzen. Dies bedeutet, dass sie ähnliche Scores ausgeben könnten, selbst wenn die ursprüngliche Bildbeschreibung in eine andere semantische Aussage umgeordnet wird. Um dies zu adressieren, schlagen wir die Verwendung des {bf V}isualen {bf G}enerativen {bf P}re-{bf T}raining-Scores ({bf VisualGPTScore}) von P(Text|Bild) vor, eines multimodalen generativen Scores, der die Wahrscheinlichkeit einer Textbeschreibung unter der Bedingung eines Bildes mithilfe eines bildgesteuerten Sprachmodells erfasst. Entgegen der Annahme, dass VLMs lediglich Bag-of-Words-Modelle sind, zeigt unser direkt einsetzbarer VisualGPTScore Spitzenleistungen auf kürzlich vorgeschlagenen Bild-Text-Retrieval-Benchmarks wie ARO und Crepe, die kompositionelles Denken bewerten. Darüber hinaus zerlegen wir den VisualGPTScore in ein Produkt aus der marginalen Wahrscheinlichkeit P(Text) und der punktweisen gegenseitigen Information (PMI). Dies hilft dabei, (a) Datensätze mit starker Sprachverzerrung zu diagnostizieren und (b) Ergebnisse auf anderen Benchmarks wie Winoground mithilfe eines informationstheoretischen Frameworks zu entzerren. Der VisualGPTScore liefert wertvolle Einblicke und dient als starke Baseline für die zukünftige Bewertung visio-linguistischer Kompositionalität.
Große Text-zu-Video-Modelle, die mit internetweiten Daten trainiert wurden, haben außergewöhnliche Fähigkeiten bei der Erstellung hochwertiger Videos aus beliebigen Textbeschreibungen gezeigt. Die Anpassung dieser Modelle auf Aufgaben mit begrenzten domänenspezifischen Daten, wie Animationen oder Robotik-Videos, stellt jedoch eine erhebliche rechnerische Herausforderung dar, da das Feinabstimmen eines vortrainierten großen Modells oft unverhältnismäßig teuer ist. Inspiriert davon, wie eine kleine anpassbare Komponente (z. B. Prompts, Prefix-Tuning) ein großes Sprachmodell an neue Aufgaben anpassen kann, ohne Zugriff auf die Modellgewichte zu benötigen, untersuchen wir, wie ein großes vortrainiertes Text-zu-Video-Modell an verschiedene nachgelagerte Domänen und Aufgaben angepasst werden kann, ohne es feinabzustimmen. Zur Beantwortung dieser Frage schlagen wir Video Adapter vor, der die Score-Funktion eines großen vortrainierten Video-Diffusionsmodells als probabilistische Priorität nutzt, um die Erstellung eines aufgaben-spezifischen kleinen Videomodells zu leiten. Unsere Experimente zeigen, dass Video Adapter in der Lage ist, das breite Wissen und die hohe Qualität eines großen vortrainierten Videomodells in einem aufgaben-spezifischen kleinen Videomodell zu integrieren, das hochwertige, aber spezialisierte Videos für eine Vielzahl von Aufgaben wie Animation, egozentrische Modellierung sowie die Modellierung von simulierten und realen Robotikdaten erzeugen kann. Weitere Videos finden Sie auf der Website https://video-adapter.github.io/.
Software-Schwachstellen verursachen Unternehmen erhebliche Kosten. Trotz umfangreicher Anstrengungen in Forschung und Entwicklung von Methoden zur Erkennung von Software-Schwachstellen setzen unentdeckte Schwachstellen Software-Besitzer und -Nutzer weiterhin einem Risiko aus. Viele derzeitige Methoden zur Schwachstellenerkennung erfordern, dass Code-Snippets kompilierbar und ausführbar sind, bevor eine Erkennung versucht wird. Dies führt leider zu einer langen Latenzzeit zwischen dem Zeitpunkt, an dem eine Schwachstelle eingeführt wird, und dem Zeitpunkt, an dem sie behoben wird, was die Kosten für die Behebung einer Schwachstelle erheblich erhöhen kann. Wir erkennen, dass die aktuellen Fortschritte im Bereich des maschinellen Lernens genutzt werden können, um anfällige Codemuster in syntaktisch unvollständigen Code-Snippets zu erkennen, während der Entwickler den Code schreibt, also zur EditTime. In diesem Artikel präsentieren wir ein praktisches System, das Deep Learning auf einem umfangreichen Datensatz von anfälligen Codemustern nutzt, um komplexe Manifestationen von mehr als 250 Schwachstellentypen zu erlernen und anfällige Codemuster zur EditTime zu erkennen. Wir diskutieren Zero-Shot-, Few-Shot- und Fine-Tuning-Ansätze auf dem neuesten Stand der Technik vortrainierter Large Language Models (LLMs). Wir zeigen, dass unser Ansatz im Vergleich zu den derzeit besten Modellen zur Schwachstellenerkennung den Stand der Technik um 10 % verbessert. Wir evaluieren unseren Ansatz auch zur Erkennung von Schwachstellen in automatisch generiertem Code durch Code-LLMs. Die Auswertung auf einem Benchmark von Hochrisiko-Code-Szenarien zeigt eine Reduzierung der Schwachstellen um bis zu 90 %.