Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diffusionsmodelle sind der de-facto-Ansatz zur Erzeugung hochwertiger Bilder und Videos, doch das Lernen hochdimensionaler Modelle bleibt aufgrund von Rechen- und Optimierungsherausforderungen eine schwierige Aufgabe. Bestehende Methoden greifen oft darauf zurück, kaskadierte Modelle im Pixelraum zu trainieren oder einen heruntergerechneten latenten Raum eines separat trainierten Autoencoders zu verwenden. In diesem Artikel stellen wir Matryoshka-Diffusionsmodelle (MDM) vor, ein End-to-End-Framework für die Synthese hochauflösender Bilder und Videos. Wir schlagen einen Diffusionsprozess vor, der Eingaben in mehreren Auflösungen gemeinsam entrauscht und eine NestedUNet-Architektur verwendet, bei der Merkmale und Parameter für kleinere Eingaben in denen für größere Eingaben verschachtelt sind. Darüber hinaus ermöglicht MDM einen progressiven Trainingsplan von niedrigeren zu höheren Auflösungen, was zu erheblichen Verbesserungen bei der Optimierung für die Hochauflösungsgenerierung führt. Wir demonstrieren die Wirksamkeit unseres Ansatzes anhand verschiedener Benchmarks, einschließlich klassenbedingter Bildgenerierung, hochauflösender Text-zu-Bild- und Text-zu-Video-Anwendungen. Bemerkenswerterweise können wir ein einzelnes Pixelraummodell bei Auflösungen von bis zu 1024x1024 Pixeln trainieren und zeigen eine starke Zero-Shot-Generalisierung mit dem CC12M-Datensatz, der nur 12 Millionen Bilder enthält.
Große Sprachmodelle (LLMs), nachdem sie mit Vision-Modellen abgestimmt und in Vision-Sprach-Modelle (VLMs) integriert wurden, können beeindruckende Verbesserungen bei Bildverständnisaufgaben bewirken. Dies wurde durch die kürzlich veröffentlichten Modelle GPT-4V(ison) und LLaVA-1.5 gezeigt. Allerdings kann der starke Sprachprior in diesen State-of-the-Art LVLMs ein zweischneidiges Schwert sein: Sie könnten den Bildkontext ignorieren und sich ausschließlich auf den (möglicherweise widersprüchlichen) Sprachprior für die Schlussfolgerung verlassen. Im Gegensatz dazu sind die Vision-Module in VLMs schwächer als LLMs und können zu irreführenden visuellen Darstellungen führen, die dann von den LLMs in selbstbewusste Fehler übersetzt werden. Um diese beiden Arten von VLM-Fehlern, nämlich Sprachhalluzination und visuelle Illusion, zu untersuchen, haben wir HallusionBench entwickelt, einen Benchmark für Bildkontextverständnis, der selbst für GPT-4V und LLaVA-1.5 noch herausfordernd ist. Wir bieten eine detaillierte Analyse der Beispiele in HallusionBench, die neue Einblicke in die Illusionen oder Halluzinationen von VLMs liefert und wie sie in Zukunft verbessert werden können. Der Benchmark und die Codebasis werden unter https://github.com/tianyi-lab/HallusionBench veröffentlicht.
Wir stellen DEsignBench vor, einen Text-zu-Bild (T2I)-Generierungs-Benchmark, der speziell für visuelle Design-Szenarien entwickelt wurde. Aktuelle T2I-Modelle wie DALL-E 3 und andere haben bemerkenswerte Fähigkeiten bei der Erzeugung fotorealistischer Bilder gezeigt, die eng mit textuellen Eingaben übereinstimmen. Während die Faszination, visuell beeindruckende Bilder zu erstellen, unbestreitbar ist, geht unser Fokus über bloß ästhetischen Genuss hinaus. Wir streben an, das Potenzial dieser leistungsstarken Modelle in authentischen Designkontexten zu untersuchen. Um dieses Ziel zu erreichen, entwickeln wir DEsignBench, das Testbeispiele enthält, die darauf ausgelegt sind, T2I-Modelle sowohl hinsichtlich ihrer „technischen Designfähigkeit“ als auch ihrer „Designanwendungsszenarien“ zu bewerten. Jede dieser beiden Dimensionen wird durch eine Vielzahl spezifischer Designkategorien unterstützt. Wir untersuchen DALL-E 3 zusammen mit anderen führenden T2I-Modellen auf DEsignBench, was zu einer umfassenden visuellen Galerie für direkte Vergleiche führt. Für das Benchmarking von DEsignBench führen wir menschliche Bewertungen der generierten Bilder in der DEsignBench-Galerie durch, basierend auf den Kriterien Bild-Text-Übereinstimmung, visuelle Ästhetik und Designkreativität. Unsere Bewertung berücksichtigt auch andere spezialisierte Designfähigkeiten, darunter Textdarstellung, Layoutkomposition, Farbharmonie, 3D-Design und Medium-Stil. Neben menschlichen Bewertungen führen wir den ersten automatischen Bildgenerierungsbewerter ein, der von GPT-4V unterstützt wird. Dieser Bewerter liefert Bewertungen, die gut mit menschlichen Urteilen übereinstimmen, dabei leicht reproduzierbar und kosteneffizient sind. Eine hochauflösende Version ist verfügbar unter https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
Mit der Verfügbarkeit groß angelegter Videodatensätze und den Fortschritten bei Diffusionsmodellen hat die textgesteuerte Videogenerierung erhebliche Fortschritte erzielt. Allerdings werden bestehende Videogenerierungsmodelle typischerweise mit einer begrenzten Anzahl von Frames trainiert, was dazu führt, dass sie während der Inferenz keine hochwertigen langen Videos erzeugen können. Darüber hinaus unterstützen diese Modelle nur Einzeltextbedingungen, während reale Szenarien oft Mehrfachtextbedingungen erfordern, da sich der Videoinhalt im Laufe der Zeit ändert. Um diese Herausforderungen zu bewältigen, untersucht diese Studie das Potenzial, die textgesteuerte Fähigkeit zur Generierung längerer Videos unter Berücksichtigung mehrerer Texte zu erweitern. 1) Zunächst analysieren wir die Auswirkungen des initialen Rauschens in Video-Diffusionsmodellen. Basierend auf der Beobachtung des Rauschens schlagen wir FreeNoise vor, ein abstimmungsfreies und zeiteffizientes Paradigma, um die generativen Fähigkeiten vortrainierter Video-Diffusionsmodelle zu verbessern, während die Inhaltskonsistenz erhalten bleibt. Konkret initialisieren wir nicht das Rauschen für alle Frames, sondern planen eine Sequenz von Rauschen für langreichweitige Korrelationen und führen eine zeitliche Aufmerksamkeit über sie durch eine fensterbasierte Funktion aus. 2) Zusätzlich entwerfen wir eine neuartige Methode zur Bewegungseinspritzung, um die Generierung von Videos unter Berücksichtigung mehrerer Textprompts zu unterstützen. Umfangreiche Experimente bestätigen die Überlegenheit unseres Paradigmas bei der Erweiterung der generativen Fähigkeiten von Video-Diffusionsmodellen. Es ist bemerkenswert, dass im Vergleich zur bisher besten Methode, die einen zusätzlichen Zeitaufwand von 255 % verursachte, unser Ansatz nur einen vernachlässigbaren Zeitaufwand von etwa 17 % verursacht. Generierte Videobeispiele sind auf unserer Website verfügbar: http://haonanqiu.com/projects/FreeNoise.html.
Der jüngste Erfolg von allgemeinen großen Sprachmodellen (LLMs) hat das Paradigma der natürlichen Sprachverarbeitung erheblich verändert, hin zu einem einheitlichen Basismodell über Domänen und Anwendungen hinweg. In diesem Artikel konzentrieren wir uns auf die Bewertung der Leistung von GPT-4, dem bisher leistungsfähigsten LLM, bei textbasierten Anwendungen für Radiologieberichte, im Vergleich zu state-of-the-art (SOTA) radiologiespezifischen Modellen. Durch die Untersuchung verschiedener Prompting-Strategien haben wir GPT-4 bei einer Vielzahl gängiger radiologischer Aufgaben evaluiert und festgestellt, dass GPT-4 entweder besser abschneidet oder mit den aktuellen SOTA-Radiologiemodellen gleichauf liegt. Mit Zero-Shot-Prompting erzielt GPT-4 bereits erhebliche Verbesserungen (ca. 10 % absoluter Zuwachs) gegenüber Radiologiemodellen bei der Klassifikation der zeitlichen Satzähnlichkeit (Genauigkeit) und der natürlichen Sprachinferenz (F_1). Bei Aufgaben, die das Lernen eines datensatzspezifischen Stils oder Schemas erfordern (z. B. Zusammenfassung von Befunden), verbessert sich GPT-4 mit beispielbasiertem Prompting und erreicht das Niveau von überwachten SOTA-Modellen. Unsere umfangreiche Fehleranalyse mit einem zertifizierten Radiologen zeigt, dass GPT-4 über ein ausreichendes Maß an radiologischem Wissen verfügt, mit nur gelegentlichen Fehlern in komplexen Kontexten, die nuanziertes Domänenwissen erfordern. Bei der Zusammenfassung von Befunden werden die Ausgaben von GPT-4 insgesamt als vergleichbar mit bestehenden manuell verfassten Impressionen bewertet.
Wir präsentieren Habitat 3.0: eine Simulationsplattform zur Erforschung von kollaborativen Mensch-Roboter-Aufgaben in häuslichen Umgebungen. Habitat 3.0 bietet Beiträge in drei Dimensionen: (1) Präzise humanoide Simulation: Bewältigung der Herausforderungen bei der Modellierung komplexer deformierbarer Körper sowie der Vielfalt in Aussehen und Bewegung, bei gleichzeitiger Gewährleistung einer hohen Simulationsgeschwindigkeit. (2) Human-in-the-loop-Infrastruktur: Ermöglicht die Interaktion echter Menschen mit simulierten Robotern über Maus/Tastatur oder eine VR-Schnittstelle, was die Bewertung von Roboterverhaltensstrategien mit menschlichem Input erleichtert. (3) Kollaborative Aufgaben: Untersuchung von zwei kollaborativen Aufgaben, Social Navigation und Social Rearrangement. Social Navigation erforscht die Fähigkeit eines Roboters, humanoide Avatare in unbekannten Umgebungen zu lokalisieren und zu verfolgen, während Social Rearrangement die Zusammenarbeit zwischen einem humanoiden Avatar und einem Roboter bei der Umgestaltung einer Szene behandelt. Diese Beiträge ermöglichen es uns, end-to-end gelernte und heuristische Baselines für die Mensch-Roboter-Kollaboration eingehend zu untersuchen sowie sie mit Menschen in der Schleife zu bewerten. Unsere Experimente zeigen, dass gelernte Roboterverhaltensstrategien zu einer effizienten Aufgabenbewältigung führen, wenn sie mit unbekannten humanoiden Agenten und menschlichen Partnern zusammenarbeiten, die möglicherweise Verhaltensweisen zeigen, die der Roboter zuvor nicht gesehen hat. Zudem beobachten wir emergente Verhaltensweisen während der kollaborativen Aufgabenausführung, wie etwa, dass der Roboter Platz macht, wenn er einen humanoiden Agenten behindert, wodurch der humanoide Agent die Aufgabe effektiv abschließen kann. Darüber hinaus zeigen unsere Experimente mit dem Human-in-the-loop-Tool, dass unsere automatisierte Bewertung mit humanoiden Agenten eine Indikation für die relative Reihenfolge verschiedener Strategien liefern kann, wenn sie mit echten menschlichen Kollaboratoren bewertet werden. Habitat 3.0 erschließt interessante neue Funktionen in Simulatoren für Embodied AI, und wir hoffen, dass es den Weg für eine neue Ära von verkörperten Mensch-KI-Interaktionsfähigkeiten ebnet.
Große Sprachmodelle (LLMs) werden häufig für vielseitige Sprachgenerierungs- und Bewertungsaufgaben eingesetzt, bei denen komplexe Benutzeranforderungen erfüllt oder mehrere Aspekte und Kriterien berücksichtigt werden müssen. Ihre Leistung kann jedoch aufgrund mangelnder Kohärenz und der Unfähigkeit des Modells, das Problem zu planen und zu zerlegen, unzureichend sein. Wir schlagen Branch-Solve-Merge (BSM) vor, ein Programm für große Sprachmodelle (Schlag et al., 2023), um solche anspruchsvollen natürlichen Sprachaufgaben zu bewältigen. Es besteht aus Branch-, Solve- und Merge-Modulen, die mit spezifischen Prompts für das Basismodell parametrisiert sind. Diese drei Module planen eine Zerlegung der Aufgabe in mehrere parallele Teilaufgaben, lösen diese unabhängig voneinander und fügen die Lösungen der Teilaufgaben zusammen. Wir wenden unsere Methode auf die Aufgaben der LLM-Antwortbewertung und der eingeschränkten Textgenerierung an und bewerten ihre Wirksamkeit mit mehreren LLMs, darunter Vicuna, LLaMA-2-chat und GPT-4. BSM verbessert die Korrektheit und Konsistenz der Bewertung für jedes LLM, indem es die Übereinstimmung zwischen Mensch und LLM um bis zu 26 % erhöht, Längen- und paarweise Positionsverzerrungen um bis zu 50 % reduziert und es LLaMA-2-chat ermöglicht, GPT-4 in den meisten Domänen zu erreichen oder zu übertreffen. Bei der Aufgabe der eingeschränkten Geschichtengenerierung verbessert BSM die Kohärenz der Geschichten und steigert gleichzeitig die Einhaltung der Einschränkungen um 12 %.
Wir präsentieren TexFusion (Texture Diffusion), eine neue Methode zur Synthese von Texturen für gegebene 3D-Geometrien unter Verwendung großskaliger, textgeführter Bilddiffusionsmodelle. Im Gegensatz zu aktuellen Ansätzen, die 2D-Text-zu-Bild-Diffusionsmodelle nutzen, um 3D-Objekte durch einen langsamen und fehleranfälligen Optimierungsprozess zu destillieren, führt TexFusion eine neue 3D-konsistente Generierungstechnik speziell für die Textursynthese ein. Diese Technik verwendet reguläre Diffusionsmodell-Sampling auf verschiedenen 2D-gerenderten Ansichten. Konkret nutzen wir latente Diffusionsmodelle, wenden den Denoiser des Diffusionsmodells auf eine Reihe von 2D-Renderings des 3D-Objekts an und aggregieren die verschiedenen Denoising-Vorhersagen auf einer gemeinsamen latenten Texturkarte. Die finalen RGB-Texturen werden durch die Optimierung eines intermediären neuronalen Farbfelds auf den Dekodierungen der 2D-Renderings der latenten Textur erzeugt. Wir validieren TexFusion umfassend und zeigen, dass wir effizient diverse, hochwertige und global kohärente Texturen generieren können. Wir erreichen state-of-the-art Leistung bei der textgeführten Textursynthese unter ausschließlicher Verwendung von Bilddiffusionsmodellen, während wir die Fallstricke bisheriger Destillationsmethoden vermeiden. Die Textkonditionierung bietet detaillierte Kontrolle, und wir verlassen uns auch nicht auf Ground-Truth-3D-Texturen für das Training. Dies macht unsere Methode vielseitig und anwendbar auf eine breite Palette von Geometrie- und Texturtypen. Wir hoffen, dass TexFusion die KI-basierte Texturierung von 3D-Assets für Anwendungen in Virtual Reality, Spieldesign, Simulation und mehr vorantreiben wird.
Text-to-Image-Diffusionsmodelle wie Stable-Diffusion und Imagen haben eine beispiellose Qualität der Fotorealismus mit state-of-the-art FID-Scores auf MS-COCO und anderen Generierungsbenchmarks erreicht. Bei der Bildgenerierung aus einer Bildunterschrift ist detailliertes Wissen über Attribute wie Objektstruktur, Stil und Blickwinkel erforderlich. Wo befindet sich diese Information in Text-to-Image-Generierungsmodellen? In unserem Artikel gehen wir dieser Frage nach und untersuchen, wie Wissen zu verschiedenen visuellen Attributen in großskaligen Text-to-Image-Diffusionsmodellen gespeichert ist. Wir passen die Kausale Mediationsanalyse für Text-to-Image-Modelle an und verfolgen Wissen über unterschiedliche visuelle Attribute zu verschiedenen (kausalen) Komponenten in (i) der UNet und (ii) dem Text-Encoder des Diffusionsmodells. Insbesondere zeigen wir, dass im Gegensatz zu generativen großen Sprachmodellen Wissen über verschiedene Attribute nicht in isolierten Komponenten lokalisiert ist, sondern stattdessen auf eine Reihe von Komponenten in der bedingten UNet verteilt ist. Diese Komponenten sind oft für verschiedene visuelle Attribute unterschiedlich. Bemerkenswerterweise stellen wir fest, dass der CLIP-Text-Encoder in öffentlichen Text-to-Image-Modellen wie Stable-Diffusion nur einen kausalen Zustand über verschiedene visuelle Attribute hinweg enthält, und dies ist die erste Self-Attention-Schicht, die dem letzten Subjekttoken des Attributs in der Bildunterschrift entspricht. Dies steht in starkem Kontrast zu den kausalen Zuständen in anderen Sprachmodellen, bei denen es sich oft um mittlere MLP-Schichten handelt. Basierend auf dieser Beobachtung von nur einem kausalen Zustand im Text-Encoder führen wir eine schnelle, datenfreie Methode zur Modellbearbeitung ein, Diff-QuickFix, die Konzepte in Text-to-Image-Modellen effektiv bearbeiten kann. Diff-QuickFix kann Konzepte in weniger als einer Sekunde mit einer geschlossenen Aktualisierung bearbeiten (ablieren) und bietet eine signifikante 1000-fache Beschleunigung bei vergleichbarer Bearbeitungsleistung zu bestehenden feinabstimmungsbasierten Bearbeitungsmethoden.
Durch die Verwendung von In-Context-Learning (ICL) zur Datengenerierung können Techniken wie Self-Instruct (Wang et al., 2023) oder das darauf aufbauende Alpaca (Taori et al., 2023) leistungsstarke Konversationsagenten mit nur geringer menschlicher Aufsicht trainieren. Eine Einschränkung dieser Ansätze besteht darin, dass sie auf sehr große Sprachmodelle (mit etwa 175 Milliarden Parametern) zurückgreifen, die zudem proprietär und nicht öffentlich zugänglich sind. Hier untersuchen wir die Anwendung solcher Techniken auf Sprachmodelle, die deutlich kleiner sind (etwa 10–40 Milliarden Parameter) und unter freizügigen Lizenzen stehen. Wir stellen fest, dass der Self-Instruct-Ansatz bei diesen Größen weniger effektiv ist und schlagen neue ICL-Methoden vor, die auf zwei Hauptideen basieren: (a) Kategorisierung und Vereinfachung der ICL-Vorlagen, um das Prompt-Lernen für das Sprachmodell zu erleichtern, und (b) Ensembling über mehrere Modellausgaben, um hochwertige synthetische Beispiele auszuwählen. Unser Algorithmus nutzt die 175 Self-Instruct-Startaufgaben und verwendet separate Pipelines für Anweisungen, die eine Eingabe erfordern, und solche, die dies nicht tun. Empirische Untersuchungen mit verschiedenen Sprachmodellen zeigen: (1) Unsere vorgeschlagene Methode liefert qualitativ hochwertigere Daten für das Instruction-Tuning als Self-Instruct, (2) Sie verbessert die Leistung sowohl von Standard- als auch von Instruction-getunten Sprachmodellen erheblich, und (3) Kleinere Instruction-getunte Sprachmodelle erzeugen nützlichere Ausgaben als ihre größeren, nicht getunten Gegenstücke. Unser Codebase ist unter https://github.com/IBM/ensemble-instruct verfügbar.
Menschliches Feedback kann offensichtlich schädliche Äußerungen in Konversationsmodellen verhindern, aber es kann subtile problematische Verhaltensweisen wie den geäußerten Wunsch nach Selbsterhaltung oder Macht nicht automatisch abmildern. Constitutional AI bietet eine Alternative, indem es menschliches Feedback durch Feedback von KI-Modellen ersetzt, die lediglich auf eine Liste schriftlicher Prinzipien konditioniert sind. Wir stellen fest, dass dieser Ansatz effektiv die Äußerung solcher Verhaltensweisen verhindert. Der Erfolg einfacher Prinzipien motiviert uns zu fragen: Können Modelle allgemeine ethische Verhaltensweisen aus nur einem einzigen schriftlichen Prinzip lernen? Um dies zu testen, führen wir Experimente mit einem Prinzip durch, das grob als „Tue das, was am besten für die Menschheit ist“ formuliert ist. Wir stellen fest, dass die größten Dialogmodelle aus dieser kurzen Verfassung verallgemeinern können, was zu harmlosen Assistenten führt, die kein ausdrückliches Interesse an spezifischen Motivationen wie Macht haben. Ein allgemeines Prinzip könnte somit teilweise die Notwendigkeit einer langen Liste von Verfassungen vermeiden, die potenziell schädliche Verhaltensweisen ansprechen. Dennoch verbessern detailliertere Verfassungen die fein abgestimmte Kontrolle über spezifische Arten von Schäden. Dies deutet darauf hin, dass sowohl allgemeine als auch spezifische Prinzipien einen Wert für die sichere Steuerung von KI haben.
Mit der Weiterentwicklung von Large Language Models (LLMs) können wir zunehmend komplexere NLP-Aufgaben in verschiedenen Domänen lösen, einschließlich Tabellenkalkulationen. Diese Arbeit untersucht, ob LLMs Code (Excel OfficeScripts, eine TypeScript-API zur Ausführung zahlreicher Aufgaben in Excel) generieren können, der Excel-spezifische Aufgaben löst, die über natürliche Sprachbefehle des Benutzers bereitgestellt werden. Dazu führen wir einen neuen groß angelegten Benchmark, InstructExcel, ein, der durch die Nutzung der „Automatisieren“-Funktion in Excel erstellt wurde, um OfficeScripts automatisch aus den Aktionen der Benutzer zu generieren. Unser Benchmark umfasst über 10.000 Beispiele, die mehr als 170 Excel-Operationen in 2.000 öffentlich verfügbaren Excel-Tabellen abdecken. Experimente in verschiedenen Zero-Shot- und Few-Shot-Szenarien zeigen, dass InstructExcel ein anspruchsvoller Benchmark für state-of-the-art Modelle wie GPT-4 ist. Wir beobachten, dass (1) die Verwendung von GPT-4 gegenüber GPT-3.5, (2) die Bereitstellung von mehr In-Context-Beispielen und (3) dynamisches Prompting die Leistung in diesem Benchmark verbessern können.