Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die kostspieligen Self-Attention-Schichten in modernen Transformern erfordern Speicher und Rechenleistung, die quadratisch mit der Sequenzlänge wachsen. Bestehende Approximationsmethoden schneiden in der Regel schlechter ab und erzielen in der Praxis keine signifikanten Beschleunigungen. Hier präsentieren wir SwitchHead – eine neuartige Methode, die sowohl den Rechen- als auch den Speicherbedarf reduziert und eine Beschleunigung der Echtzeitleistung erreicht, während sie die Sprachmodellierungsleistung von Baseline-Transformern mit demselben Parameterbudget erreicht. SwitchHead verwendet Mixture-of-Experts (MoE)-Schichten für die Wert- und Ausgangsprojektionen und benötigt 4 bis 8 Mal weniger Attention-Matrizen als Standard-Transformer. Unsere neuartige Attention kann auch mit MoE-MLP-Schichten kombiniert werden, was zu einem effizienten vollständig-MoE „SwitchAll“-Transformer-Modell führt. Unser Code ist öffentlich zugänglich.
Obwohl die diffusionsbasierte Videogenerierung rasante Fortschritte gemacht hat, zeigen die Inferenzergebnisse bestehender Modelle immer noch unbefriedigende zeitliche Konsistenz und unnatürliche Dynamik. In diesem Artikel untersuchen wir die Rauschinitialisierung von Video-Diffusionsmodellen eingehend und entdecken eine implizite Trainings-Inferenz-Lücke, die für die unbefriedigende Inferenzqualität verantwortlich ist. Unsere zentralen Erkenntnisse sind: 1) Die räumlich-zeitliche Frequenzverteilung des initialen latenten Zustands während der Inferenz unterscheidet sich grundlegend von der während des Trainings, und 2) der Denoising-Prozess wird signifikant durch die niederfrequenten Komponenten des initialen Rauschens beeinflusst. Motiviert durch diese Beobachtungen schlagen wir eine prägnante, aber effektive Inferenz-Sampling-Strategie vor, FreeInit, die die zeitliche Konsistenz von durch Diffusionsmodelle generierten Videos erheblich verbessert. Durch die iterative Verfeinerung der räumlich-zeitlichen niederfrequenten Komponenten des initialen latenten Zustands während der Inferenz ist FreeInit in der Lage, die Initialisierungslücke zwischen Training und Inferenz auszugleichen und dadurch das Erscheinungsbild des Subjekts sowie die zeitliche Konsistenz der Generierungsergebnisse effektiv zu verbessern. Umfangreiche Experimente zeigen, dass FreeInit die Generierungsergebnisse verschiedener Text-zu-Video-Generierungsmodelle konsistent verbessert, ohne zusätzliches Training zu erfordern.
Visuelle Sprachmodelle (VLMs) haben mit dem jüngsten Erfolg großer Sprachmodelle rasante Fortschritte gemacht. Es gab zunehmende Bemühungen im Bereich des visuellen Instruction Tunings, um das LLM mit visuellen Eingaben zu erweitern, doch es fehlt eine eingehende Untersuchung des visuellen Sprach-Pre-Training-Prozesses, bei dem das Modell lernt, gemeinsame Modellierung für beide Modalitäten durchzuführen. In dieser Arbeit untersuchen wir die Designoptionen für das VLM-Pre-Training, indem wir das LLM schrittweise durch kontrollierte Vergleiche zu einem VLM erweitern. Wir präsentieren drei zentrale Erkenntnisse: (1) Das Einfrieren von LLMs während des Pre-Trainings kann eine akzeptable Zero-Shot-Leistung erzielen, jedoch fehlt die Fähigkeit zum In-Context-Learning, was das Auftauen des LLMs erfordert; (2) Interleaved Pre-Training-Daten sind vorteilhaft, während Bild-Text-Paare allein nicht optimal sind; (3) Das erneute Einbinden von textbasierten Instruktionsdaten in Bild-Text-Daten während des Instruction Fine-Tunings behebt nicht nur die Verschlechterung bei reinen Textaufgaben, sondern steigert auch die Genauigkeit bei VLM-Aufgaben. Mit einem verbesserten Pre-Training-Rezept entwickeln wir VILA, eine Familie von visuellen Sprachmodellen, die durchweg die State-of-the-Art-Modelle, z.B. LLaVA-1.5, in den wichtigsten Benchmarks ohne zusätzliche Raffinessen übertrifft. Multi-modales Pre-Training hilft auch dabei, ansprechende Eigenschaften von VILA zu enthüllen, darunter Multi-Bild-Schlussfolgerungen, verbessertes In-Context-Learning und besseres Weltwissen.
Diffusion-Modelle haben eine bemerkenswerte Bildgenerierungsqualität erreicht, die frühere generative Modelle übertrifft. Ein wesentlicher Nachteil von Diffusion-Modellen im Vergleich zu GANs ist jedoch ihre Schwierigkeit, nahtlos zwischen zwei Bildbeispielen zu interpolieren, was auf ihren stark unstrukturierten latenten Raum zurückzuführen ist. Eine solche glatte Interpolation ist besonders interessant, da sie natürlicherweise eine Lösung für die Aufgabe des Bildmorphings mit vielen Anwendungen darstellt. In dieser Arbeit präsentieren wir DiffMorpher, den ersten Ansatz, der eine glatte und natürliche Bildinterpolation mit Diffusion-Modellen ermöglicht. Unser zentraler Gedanke besteht darin, die Semantik der beiden Bilder zu erfassen, indem jeweils zwei LoRAs an sie angepasst werden, und sowohl zwischen den LoRA-Parametern als auch den latenten Rauschen zu interpolieren, um einen fließenden semantischen Übergang zu gewährleisten, bei dem die Korrespondenz automatisch entsteht, ohne dass Annotationen erforderlich sind. Darüber hinaus schlagen wir eine Technik zur Interpolation und Injektion von Aufmerksamkeit sowie einen neuen Sampling-Zeitplan vor, um die Glätte zwischen aufeinanderfolgenden Bildern weiter zu verbessern. Umfangreiche Experimente zeigen, dass DiffMorpher deutlich bessere Bildmorphing-Effekte als bisherige Methoden über eine Vielzahl von Objektkategorien hinweg erzielt und damit eine kritische Funktionslücke schließt, die Diffusion-Modelle von GANs unterschieden hat.
Aktuelle Ansätze wie ControlNet bieten Nutzern eine fein abgestimmte räumliche Kontrolle über Text-zu-Bild (T2I) Diffusionsmodelle. Allerdings müssen für jede Art von räumlicher Bedingung, Modellarchitektur und Checkpoint zusätzliche Module trainiert werden, was sie in Konflikt mit den vielfältigen Absichten und Präferenzen bringt, die ein menschlicher Designer den KI-Modellen während des Inhaltserstellungsprozesses vermitteln möchte. In dieser Arbeit präsentieren wir FreeControl, einen trainingsfreien Ansatz für kontrollierbare T2I-Generierung, der mehrere Bedingungen, Architekturen und Checkpoints gleichzeitig unterstützt. FreeControl entwirft Strukturführung, um die Strukturausrichtung mit einem Führungsbild zu erleichtern, und Erscheinungsführung, um die Erscheinungsteilung zwischen Bildern, die mit demselben Seed erzeugt wurden, zu ermöglichen. Umfangreiche qualitative und quantitative Experimente demonstrieren die überlegene Leistung von FreeControl über eine Vielzahl von vortrainierten T2I-Modellen hinweg. Insbesondere ermöglicht FreeControl eine bequeme trainingsfreie Kontrolle über viele verschiedene Architekturen und Checkpoints, erlaubt die Verwendung von anspruchsvollen Eingabebedingungen, bei denen die meisten bestehenden trainingsfreien Methoden scheitern, und erreicht eine wettbewerbsfähige Synthesequalität im Vergleich zu trainingsbasierten Ansätzen.
Die Bewertung großer Sprachmodelle (LLMs) ist entscheidend, um ihre Leistung zu beurteilen und potenzielle Sicherheitsrisiken zu mindern. In diesem Artikel stellen wir PromptBench vor, eine einheitliche Bibliothek zur Bewertung von LLMs. Sie besteht aus mehreren Schlüsselkomponenten, die von Forschern einfach genutzt und erweitert werden können: Prompt-Konstruktion, Prompt-Engineering, Laden von Datensätzen und Modellen, adversariale Prompt-Angriffe, dynamische Bewertungsprotokolle und Analysewerkzeuge. PromptBench ist als offene, allgemeine und flexible Codebasis für Forschungszwecke konzipiert, die originelle Studien bei der Erstellung neuer Benchmarks, der Bereitstellung von Downstream-Anwendungen und der Gestaltung neuer Bewertungsprotokolle unterstützen kann. Der Code ist verfügbar unter: https://github.com/microsoft/promptbench und wird kontinuierlich unterstützt.
Wir untersuchen Anwendungen vortrainierter Foundation-Modelle in der Robotik. Traditionelle Deep-Learning-Modelle in der Robotik werden auf kleinen Datensätzen trainiert, die für spezifische Aufgaben zugeschnitten sind, was ihre Anpassungsfähigkeit über verschiedene Anwendungen hinweg einschränkt. Im Gegensatz dazu scheinen Foundation-Modelle, die auf internetgroßen Daten vortrainiert wurden, überlegene Generalisierungsfähigkeiten zu besitzen und zeigen in einigen Fällen sogar die Fähigkeit, Zero-Shot-Lösungen für Probleme zu finden, die nicht in den Trainingsdaten enthalten sind. Foundation-Modelle könnten das Potenzial haben, verschiedene Komponenten des Robotik-Autonomie-Stacks zu verbessern, von der Wahrnehmung über die Entscheidungsfindung bis hin zur Steuerung. Beispielsweise können große Sprachmodelle Code generieren oder gesunden Menschenverstand bereitstellen, während Vision-Sprach-Modelle eine offene Vokabelerkennung ermöglichen. Es bleiben jedoch bedeutende offene Forschungsherausforderungen, insbesondere im Hinblick auf die Knappheit roboterrelevanter Trainingsdaten, Sicherheitsgarantien und Unsicherheitsquantifizierung sowie Echtzeitausführung. In dieser Untersuchung analysieren wir aktuelle Arbeiten, die Foundation-Modelle verwendet oder entwickelt haben, um Robotikprobleme zu lösen. Wir erforschen, wie Foundation-Modelle dazu beitragen, die Fähigkeiten von Robotern in den Bereichen Wahrnehmung, Entscheidungsfindung und Steuerung zu verbessern. Wir diskutieren die Herausforderungen, die die Einführung von Foundation-Modellen in der Robotik-Autonomie behindern, und bieten Möglichkeiten sowie potenzielle Wege für zukünftige Fortschritte. Das GitHub-Projekt, das dieser Arbeit entspricht (Vorläufige Veröffentlichung. Wir sind bestrebt, diese Arbeit weiter zu verbessern und zu aktualisieren, um ihre Qualität und Relevanz sicherzustellen), ist hier zu finden: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
Aufgrund des erheblichen Umfangs von Large Language Models (LLMs) erweist sich die direkte Anwendung konventioneller Kompressionsmethoden als unpraktikabel. Die rechenintensiven Anforderungen, die selbst bei minimalen Gradientenaktualisierungen entstehen, stellen insbesondere auf Consumer-Hardware eine Herausforderung dar. Dieses Papier stellt einen innovativen Ansatz zur parametrischen und praktischen Kompression von LLMs vor, der auf reduzierter Ordnungsmodellierung basiert. Dies beinhaltet eine Niedrigrang-Zerlegung im Merkmalsraum und eine Neuparametrisierung im Gewichtsraum. Bemerkenswerterweise arbeitet diese Kompressionstechnik schichtweise, wodurch die Notwendigkeit einer GPU entfällt und die Kompression von Milliarden-skaligen Modellen unter strengen Speicher- und Zeitbeschränkungen ermöglicht wird. Unser Verfahren stellt einen bedeutenden Fortschritt in der Modellkompression dar, indem es Matrixzerlegung nutzt und eine überlegene Effizienz im Vergleich zur derzeit führenden strukturierten Beschneidungsmethode demonstriert.
Aktuelle Forschungen haben bedeutende Fortschritte bei der Anwendung von Alignment-Techniken erzielt, um die Hilfsbereitschaft und Schadlosigkeit großer Sprachmodelle (LLMs) in Übereinstimmung mit menschlichen Absichten zu verbessern. In diesem Papier argumentieren wir für die Bedeutung des Alignments für Ehrlichkeit, um sicherzustellen, dass LLMs proaktiv Fragen ablehnen, wenn ihnen das Wissen fehlt, ohne dabei übermäßig konservativ zu sein. Ein entscheidender Aspekt des Alignments für Ehrlichkeit besteht jedoch darin, die Grenzen des Wissens eines LLMs zu erkennen, was keineswegs einfach ist. Diese Herausforderung erfordert umfassende Lösungen in Bezug auf die Entwicklung von Metriken, die Erstellung von Benchmarks und Trainingsmethoden. In diesem Papier gehen wir auf diese Herausforderungen ein, indem wir zunächst eine präzise Problemdefinition erstellen und „Ehrlichkeit“ anhand der Analekten des Konfuzius definieren. Dies dient als Grundlage für die Entwicklung von Metriken, die die Ehrlichkeit eines LLMs effektiv messen, indem sie dessen Fortschritte nach dem Alignment quantifizieren. Darüber hinaus stellen wir ein flexibles Trainingsframework vor, das durch mehrere effiziente Fine-Tuning-Techniken weiter konkretisiert wird, die die Ehrlichkeit betonen, ohne die Leistung bei anderen Aufgaben zu beeinträchtigen. Unsere umfangreichen Experimente zeigen, dass diese alignierten Modelle eine deutliche Steigerung der Ehrlichkeit aufweisen, wie durch unsere vorgeschlagenen Metriken angezeigt wird. Wir stellen eine Vielzahl von Ressourcen zur Verfügung, um zukünftige Forschungen zu erleichtern, darunter ehrlichkeitsalignierte Modelle, Trainings- und Evaluierungsdatensätze für Ehrlichkeitsalignment, ein Konzeptglossar sowie den gesamten relevanten Quellcode unter https://github.com/GAIR-NLP/alignment-for-honesty.
Wir stellen FIND vor, eine generalisierte Schnittstelle zur Ausrichtung von Embeddings von Foundation-Modellen. Wie in der Teaser-Abbildung gezeigt, reicht ein leichtgewichtiges Transformer-Interface, ohne die Gewichte eines Foundation-Modells anzupassen, für ein einheitliches Verständnis auf Bild- (Segmentierung) und Datensatzebene (Retrieval) aus. Die vorgeschlagene Schnittstelle weist folgende vorteilhafte Eigenschaften auf: (1) Generalisierbar. Sie ist auf verschiedene Aufgaben wie Retrieval, Segmentierung usw. unter derselben Architektur und denselben Gewichten anwendbar. (2) Prototypisierbar. Verschiedene Aufgaben können durch das Prototyping von Aufmerksamkeitsmasken und Embedding-Typen implementiert werden. (3) Erweiterbar. Die vorgeschlagene Schnittstelle ist anpassungsfähig für neue Aufgaben und neue Modelle. (4) Verflechtbar. Mit dem Vorteil des Multi-Task-Multi-Modal-Trainings schafft die vorgeschlagene Schnittstelle einen verflochtenen gemeinsamen Embedding-Raum. Im Hinblick auf den verflochtenen Embedding-Raum führen wir das FIND-Bench ein, das neue Trainings- und Evaluierungsanmerkungen zum COCO-Datensatz für die verflochtene Segmentierung und das Retrieval hinzufügt. Unser Ansatz erreicht state-of-the-art Leistung auf FIND-Bench und wettbewerbsfähige Leistung in standardmäßigen Retrieval- und Segmentierungsszenarien. Der Trainings-, Evaluierungs- und Demo-Code sowie der Datensatz wurden unter https://github.com/UX-Decoder/FIND veröffentlicht.
Während das neuronale Rendering beeindruckende Fortschritte in der Szenenrekonstruktion und der Synthese neuer Ansichten ermöglicht hat, ist es stark auf präzise vorberechnete Kameraposen angewiesen. Um diese Einschränkung zu lockern, wurden mehrere Ansätze entwickelt, um Neural Radiance Fields (NeRFs) ohne vorverarbeitete Kameraposen zu trainieren. Allerdings stellen die impliziten Darstellungen von NeRFs zusätzliche Herausforderungen dar, um die 3D-Struktur und die Kameraposen gleichzeitig zu optimieren. Andererseits bietet das kürzlich vorgeschlagene 3D Gaussian Splatting neue Möglichkeiten aufgrund seiner expliziten Punktwolkendarstellungen. Diese Arbeit nutzt sowohl die explizite geometrische Darstellung als auch die Kontinuität des Eingabevideostreams, um die Synthese neuer Ansichten ohne jegliche SfM-Vorverarbeitung durchzuführen. Wir verarbeiten die Eingabebilder sequenziell und erweitern schrittweise die Menge der 3D-Gaussians, indem wir jeweils ein Eingabebild aufnehmen, ohne die Kameraposen vorberechnen zu müssen. Unsere Methode verbessert die Ansichtssynthese und die Kameraposenschätzung bei großen Bewegungsänderungen erheblich im Vergleich zu früheren Ansätzen. Unsere Projektseite ist https://oasisyang.github.io/colmap-free-3dgs.
Consistency Models (CMs) haben sich als vielversprechend erwiesen, um visuelle Inhalte effizient und in hoher Qualität zu erzeugen. Allerdings wurde die Möglichkeit, neue bedingte Steuerungen zu vortrainierten CMs hinzuzufügen, bisher nicht untersucht. In diesem technischen Bericht betrachten wir alternative Strategien zur Hinzufügung von ControlNet-ähnlicher bedingter Steuerung zu CMs und präsentieren drei bedeutende Erkenntnisse. 1) ControlNet, das für Diffusionsmodelle (DMs) trainiert wurde, kann direkt auf CMs angewendet werden, um semantische Steuerungen auf hoher Ebene zu ermöglichen, hat jedoch Schwierigkeiten mit der Steuerung von Details und Realismus auf niedriger Ebene. 2) CMs bilden eine eigenständige Klasse von generativen Modellen, auf deren Basis ControlNet von Grund auf mithilfe des von Song et al. vorgeschlagenen Consistency Trainings trainiert werden kann. 3) Ein leichtgewichtiger Adapter kann unter mehreren Bedingungen gemeinsam durch Consistency Training optimiert werden, was eine schnelle Übertragung von DMs-basiertem ControlNet auf CMs ermöglicht. Wir untersuchen diese drei Lösungsansätze für verschiedene bedingte Steuerungen, darunter Kanten, Tiefe, menschliche Pose, niedrigauflösende Bilder und maskierte Bilder mit text-zu-bild latenten Konsistenzmodellen.
Wir stellen Contrastive Activation Addition (CAA) vor, eine innovative Methode zur Steuerung von Sprachmodellen durch die Modifikation von Aktivierungen während ihrer Vorwärtsdurchläufe. CAA berechnet „Steuerungsvektoren“, indem der Unterschied in den Aktivierungen des Residualstroms zwischen Paaren von positiven und negativen Beispielen eines bestimmten Verhaltens, wie beispielsweise faktischen versus halluzinatorischen Antworten, gemittelt wird. Während der Inferenz werden diese Steuerungsvektoren an allen Token-Positionen nach dem Benutzerprompt mit entweder einem positiven oder negativen Koeffizienten addiert, wodurch eine präzise Kontrolle über das Ausmaß des angestrebten Verhaltens ermöglicht wird. Wir evaluieren die Wirksamkeit von CAA anhand von Llama 2 Chat unter Verwendung sowohl von Multiple-Choice-Verhaltensfrage-Datensätzen als auch von offenen Generierungsaufgaben. Wir zeigen, dass CAA das Modellverhalten signifikant verändert, traditionelle Methoden wie Finetuning und Few-Shot-Prompting übertrifft und die Fähigkeiten des Modells nur minimal reduziert. Darüber hinaus gewinnen wir durch den Einsatz verschiedener Methoden zur Interpretation des Aktivierungsraums tiefere Einblicke in die Mechanismen von CAA. CAA steuert nicht nur die Modellausgaben präzise, sondern gibt auch Aufschluss darüber, wie hochrangige Konzepte in Large Language Models (LLMs) repräsentiert werden.
In Multimodal Large Language Models (MLLMs) spielt ein visueller Projektor eine entscheidende Rolle bei der Verbindung vortrainierter Vision-Encoder mit LLMs, wodurch ein tiefgreifendes visuelles Verständnis ermöglicht wird, während die robusten Fähigkeiten der LLMs genutzt werden. Trotz der Bedeutung des visuellen Projektors wurde dieser bisher relativ wenig erforscht. In dieser Studie identifizieren wir zunächst zwei wesentliche Eigenschaften des Projektors: (i) Flexibilität bei der Verwaltung der Anzahl visueller Tokens, die für die Gesamteffizienz von MLLMs entscheidend ist, und (ii) die Bewahrung des lokalen Kontexts aus visuellen Merkmalen, die für das räumliche Verständnis von zentraler Bedeutung ist. Basierend auf diesen Erkenntnissen schlagen wir ein neuartiges Projektor-Design vor, das sowohl flexibel als auch lokalitätsverstärkt ist und damit die beiden wünschenswerten Eigenschaften effektiv erfüllt. Zusätzlich präsentieren wir umfassende Strategien zur effektiven Nutzung von mehreren und vielseitigen Instruktionsdatensätzen. Durch umfangreiche Experimente untersuchen wir die Auswirkungen einzelner Designentscheidungen. Schließlich übertrifft unser vorgeschlagener MLLM, Honeybee, bemerkenswert die bisherigen State-of-the-Art-Methoden in verschiedenen Benchmarks, darunter MME, MMBench, SEED-Bench und LLaVA-Bench, und erreicht dabei eine deutlich höhere Effizienz. Code und Modelle sind verfügbar unter https://github.com/kakaobrain/honeybee.
In jüngster Zeit gab es erhebliche Fortschritte in der Text-zu-Video-Generierung, wobei state-of-the-art Modelle in der Lage sind, hochwertige, realistische Videos zu erzeugen. Allerdings fehlt diesen Modellen die Fähigkeit, Nutzern eine interaktive Steuerung und Generierung von Videos zu ermöglichen, was potenziell neue Anwendungsbereiche erschließen könnte. Als ersten Schritt in Richtung dieses Ziels widmen wir uns dem Problem, diffusionsbasierte Video-Generierungsmodelle mit interaktiver räumlich-zeitlicher Kontrolle über ihre Ausgabe auszustatten. Dazu lassen wir uns von den jüngsten Fortschritten in der Segmentierungsforschung inspirieren und schlagen ein neuartiges räumlich-zeitliches Masked-Attention-Modul vor – Peekaboo. Dieses Modul ist eine trainingsfreie, inferenzüberkopf-freie Ergänzung zu Standard-Video-Generierungsmodellen, die eine räumlich-zeitliche Steuerung ermöglicht. Wir schlagen außerdem einen Evaluierungsbenchmark für die Aufgabe der interaktiven Video-Generierung vor. Durch umfangreiche qualitative und quantitative Bewertungen zeigen wir, dass Peekaboo die kontrollierte Video-Generierung ermöglicht und sogar eine Steigerung von bis zu 3,8x im mIoU gegenüber Baseline-Modellen erzielt.
Im Bereich des maschinellen Lernens ist die Generalisierung gegenüber Verteilungsverschiebungen – bei denen die Einsatzbedingungen von den Trainingsszenarien abweichen – von entscheidender Bedeutung, insbesondere in Bereichen wie Klimamodellierung, Biomedizin und autonomes Fahren. Die Entstehung von Foundation-Modellen, die sich durch umfangreiches Pretraining und Aufgabenvielfalt auszeichnen, hat zu einem gesteigerten Interesse an ihrer Anpassungsfähigkeit gegenüber Verteilungsverschiebungen geführt. GPT-4V(ision) fungiert als das fortschrittlichste öffentlich zugängliche multimodale Foundation-Modell mit breiten Anwendungen in verschiedenen Domänen, einschließlich Anomalieerkennung, Videoverständnis, Bildgenerierung und medizinischer Diagnostik. Allerdings ist seine Robustheit gegenüber Datenverteilungen weitgehend unerforscht. Um diese Lücke zu schließen, bewertet diese Studie rigoros die Anpassungsfähigkeit und Generalisierungsfähigkeiten von GPT-4V in dynamischen Umgebungen und vergleicht es mit prominenten Modellen wie CLIP und LLaVA. Wir untersuchen die Zero-Shot-Generalisierung von GPT-4V über 13 diverse Datensätze, die natürliche, medizinische und molekulare Domänen abdecken. Darüber hinaus untersuchen wir seine Anpassungsfähigkeit gegenüber kontrollierten Datenstörungen und prüfen die Wirksamkeit von In-Context-Learning als Werkzeug zur Verbesserung seiner Anpassung. Unsere Ergebnisse skizzieren die Fähigkeitsgrenzen von GPT-4V bei Verteilungsverschiebungen und beleuchten seine Stärken und Schwächen in verschiedenen Szenarien. Wichtig ist, dass diese Untersuchung zu unserem Verständnis beiträgt, wie KI-Foundation-Modelle auf Verteilungsverschiebungen generalisieren, und entscheidende Einblicke in ihre Anpassungsfähigkeit und Robustheit bietet. Der Code ist öffentlich verfügbar unter https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
Diffusion Transformers haben kürzlich bemerkenswerte Effektivität bei der Erzeugung hochwertiger 3D-Punktwolken gezeigt. Das Training von voxelbasierten Diffusionsmodellen für hochauflösende 3D-Voxel bleibt jedoch aufgrund der kubischen Komplexität der Aufmerksamkeitsoperatoren, die sich aus der zusätzlichen Dimension der Voxel ergibt, prohibitv teuer. Motiviert durch die inhärente Redundanz von 3D im Vergleich zu 2D, schlagen wir FastDiT-3D vor, einen neuartigen maskierten Diffusion Transformer, der für die effiziente Erzeugung von 3D-Punktwolken optimiert ist und die Trainingskosten erheblich reduziert. Insbesondere lassen wir uns von maskierten Autoencodern inspirieren, um den Denoising-Prozess dynamisch auf maskierten voxelisierten Punktwolken durchzuführen. Wir schlagen auch eine neuartige voxelbewusste Maskierungsstrategie vor, um Hintergrund-/Vordergrundinformationen aus voxelisierten Punktwolken adaptiv zu aggregieren. Unsere Methode erreicht state-of-the-art Leistung mit einem extremen Maskierungsverhältnis von fast 99%. Darüber hinaus führen wir Mixture-of-Expert (MoE) in 3D-Diffusionsmodellen ein, um die Erzeugung mehrerer Kategorien zu verbessern. Jede Kategorie kann einen eigenen Diffusionspfad mit verschiedenen Experten lernen, wodurch Gradientenkonflikte gelindert werden. Experimentelle Ergebnisse auf dem ShapeNet-Datensatz zeigen, dass unsere Methode state-of-the-art Leistung bei der Erzeugung hochwertiger und vielfältiger 3D-Punktwolken erreicht. Unser FastDiT-3D verbessert die 1-Nearest Neighbor Accuracy und Coverage Metriken bei der Erzeugung von 128-Auflösungs-Voxel-Punktwolken und verwendet dabei nur 6,5% der ursprünglichen Trainingskosten.
Ein entscheidender Faktor für den Erfolg von Entscheidungsunterstützungssystemen ist die präzise Modellierung von Benutzerpräferenzen. Die psychologische Forschung hat gezeigt, dass Benutzer ihre Präferenzen oft während des Eruierungsprozesses entwickeln, was die zentrale Rolle der System-Benutzer-Interaktion bei der Entwicklung personalisierter Systeme unterstreicht. Dieses Papier stellt einen neuartigen Ansatz vor, der Large Language Models (LLMs) mit Constraint Programming kombiniert, um interaktive Entscheidungsunterstützung zu ermöglichen. Wir untersuchen diesen hybriden Rahmen am Beispiel der Terminplanung, einer zeitaufwändigen täglichen Aktivität, mit der eine Vielzahl von Informationsarbeitern konfrontiert ist. Wir führen drei Studien durch, um das neuartige Framework zu bewerten, darunter eine Tagebuchstudie (n=64) zur Charakterisierung kontextbezogener Planungspräferenzen, eine quantitative Bewertung der Systemleistung und eine Benutzerstudie (n=10) mit einem Prototyp-System. Unsere Arbeit verdeutlicht das Potenzial eines hybriden Ansatzes aus LLM und Optimierung für die iterative Präferenzeruierung sowie Designüberlegungen für den Aufbau von Systemen, die menschlich-system-kollaborative Entscheidungsprozesse unterstützen.