Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle Forschungen, wie beispielsweise BitNet, ebnen den Weg für eine neue Ära von 1-Bit-Large Language Models (LLMs). In dieser Arbeit stellen wir eine 1-Bit-LLM-Variante vor, nämlich BitNet b1.58, bei der jeder einzelne Parameter (oder Gewicht) des LLM ternär ist {-1, 0, 1}. Es erreicht die Leistung eines vollpräzisen (d.h. FP16 oder BF16) Transformer-LLMs mit derselben Modellgröße und Trainings-Tokens sowohl in Bezug auf Perplexität als auch auf die Leistung bei Endaufgaben, während es gleichzeitig deutlich kosteneffizienter in Bezug auf Latenz, Speicher, Durchsatz und Energieverbrauch ist. Noch bedeutender ist, dass das 1,58-Bit-LLM ein neues Skalierungsgesetz und eine neue Methode für das Training neuer Generationen von LLMs definiert, die sowohl leistungsstark als auch kosteneffizient sind. Darüber hinaus ermöglicht es ein neues Rechenparadigma und öffnet die Tür für die Entwicklung spezieller Hardware, die für 1-Bit-LLMs optimiert ist.
In dieser Arbeit widmen wir uns der Herausforderung, den Realismus und die Ausdrucksstärke bei der Generierung von Talking-Head-Videos zu verbessern, indem wir uns auf die dynamische und nuancierte Beziehung zwischen Audiohinweisen und Gesichtsbewegungen konzentrieren. Wir identifizieren die Grenzen traditioneller Techniken, die oft das gesamte Spektrum menschlicher Ausdrücke und die Einzigartigkeit individueller Gesichtsstile nicht erfassen können. Um diese Probleme zu lösen, schlagen wir EMO vor, ein neuartiges Framework, das einen direkten Audio-zu-Video-Syntheseansatz nutzt und dabei auf Zwischenschritte wie 3D-Modelle oder Gesichtslandmarken verzichtet. Unsere Methode gewährleistet nahtlose Übergänge zwischen den Bildern und eine konsistente Identitätserhaltung im gesamten Video, was zu hochgradig ausdrucksstarken und lebensechten Animationen führt. Experimentelle Ergebnisse zeigen, dass EMO nicht nur überzeugende Sprechvideos, sondern auch Gesangsvideos in verschiedenen Stilen erzeugen kann und dabei bestehende state-of-the-art Methoden in Bezug auf Ausdruckskraft und Realismus deutlich übertrifft.
Sora ist ein text-zu-video-generatives KI-Modell, das von OpenAI im Februar 2024 veröffentlicht wurde. Das Modell ist darauf trainiert, Videos von realistischen oder imaginativen Szenen aus Textanweisungen zu generieren und zeigt Potenzial in der Simulation der physischen Welt. Basierend auf öffentlichen technischen Berichten und Reverse Engineering präsentiert dieses Papier eine umfassende Übersicht über den Hintergrund des Modells, verwandte Technologien, Anwendungen, verbleibende Herausforderungen und zukünftige Entwicklungen von text-zu-video-KI-Modellen. Wir verfolgen zunächst die Entwicklung von Sora und untersuchen die zugrunde liegenden Technologien, die zur Erstellung dieses „Weltsimulators“ verwendet wurden. Anschließend beschreiben wir detailliert die Anwendungen und das Potenzial von Sora in verschiedenen Branchen, von Filmproduktion und Bildung bis hin zu Marketing. Wir diskutieren die Hauptherausforderungen und -beschränkungen, die angegangen werden müssen, um Sora weitreichend einzusetzen, wie beispielsweise die Sicherstellung einer sicheren und unvoreingenommenen Videogenerierung. Schließlich erörtern wir die zukünftige Entwicklung von Sora und Videogenerationsmodellen im Allgemeinen und wie Fortschritte auf diesem Gebiet neue Formen der Mensch-KI-Interaktion ermöglichen könnten, wodurch die Produktivität und Kreativität der Videogenerierung gesteigert werden könnte.
Seit Jahrzehnten basiert die Mensch-Computer-Interaktion im Wesentlichen auf manuellen Eingaben. Selbst heute erfordert nahezu jede produktive Arbeit am Computer menschliche Eingaben in jedem Schritt. Autonome virtuelle Agenten stellen einen spannenden Schritt dar, um viele dieser monotonen Aufgaben zu automatisieren. Virtuelle Agenten würden Benutzern mit begrenzten technischen Kenntnissen ermöglichen, die vollen Möglichkeiten von Computersystemen zu nutzen. Sie könnten auch die effiziente Optimierung zahlreicher Computeraufgaben ermöglichen, von der Kalenderverwaltung bis hin zu komplexen Reisebuchungen, mit minimalem menschlichen Eingriff. In diesem Artikel stellen wir OmniACT vor, das erste seiner Art Datensatz und Benchmark zur Bewertung der Fähigkeit eines Agenten, ausführbare Programme zur Erledigung von Computeraufgaben zu generieren. Unser Umfang geht über die traditionelle Webautomatisierung hinaus und deckt eine Vielzahl von Desktop-Anwendungen ab. Der Datensatz besteht aus grundlegenden Aufgaben wie „Spiele den nächsten Song ab“ sowie längerfristigen Aufgaben wie „Sende eine E-Mail an John Doe mit der Zeit und dem Ort des Treffens“. Konkret besteht das Ziel darin, bei einem Paar aus Bildschirmbild und einer visuell verankerten natürlichen Sprachaufgabe ein Skript zu generieren, das in der Lage ist, die Aufgabe vollständig auszuführen. Wir testen mehrere starke Baseline-Sprachmodell-Agenten auf unserem Benchmark. Der stärkste Baseline-Agent, GPT-4, schneidet auf unserem Benchmark am besten ab. Sein Leistungsniveau erreicht jedoch nur 15 % der menschlichen Fähigkeit, ausführbare Skripte zu generieren, die die Aufgabe erledigen können, was die Herausforderung unserer Aufgabe für konventionelle Web-Agenten verdeutlicht. Unser Benchmark bietet eine Plattform, um den Fortschritt von Sprachmodell-Agenten bei der Automatisierung von Computeraufgaben zu messen und zu bewerten, und motiviert zukünftige Arbeiten zum Aufbau multimodaler Modelle, die große Sprachmodelle und die visuelle Verankerung von Computerbildschirmen verbinden.
Während große Sprachmodelle (LLMs) häufig Feintuning verwenden, um ihre Fähigkeiten für nachgelagerte Anwendungen freizuschalten, ist unser Verständnis der induktiven Verzerrungen (insbesondere der Skalierungseigenschaften) verschiedener Feintuning-Methoden noch begrenzt. Um diese Lücke zu schließen, führen wir systematische Experimente durch, in denen wir untersuchen, ob und wie verschiedene Skalierungsfaktoren, einschließlich der Modellgröße des LLM, der Größe der Vortrainingsdaten, der Größe der neuen Feintuning-Parameter und der Größe der Feintuning-Daten, die Feintuning-Leistung beeinflussen. Wir betrachten zwei Arten von Feintuning – vollständiges Modelltuning (FMT) und parameter-effizientes Tuning (PET, einschließlich Prompt-Tuning und LoRA) – und untersuchen ihr Skalierungsverhalten im datenlimitierten Regime, in dem die Modellgröße des LLM die Größe der Feintuning-Daten erheblich übersteigt. Basierend auf zwei Sätzen vortrainierter bilingualer LLMs von 1B bis 16B und Experimenten mit Benchmarks für bilinguale maschinelle Übersetzung und mehrsprachige Zusammenfassung stellen wir fest, dass 1) das Feintuning von LLMs einem potenzbasierten multiplikativen gemeinsamen Skalierungsgesetz zwischen der Größe der Feintuning-Daten und jedem anderen Skalierungsfaktor folgt; 2) das Feintuning von LLMs mehr von der Skalierung der Modellgröße des LLM profitiert als von der Skalierung der Vortrainingsdaten, und die Skalierung der PET-Parameter im Allgemeinen unwirksam ist; und 3) die optimale Feintuning-Methode stark aufgaben- und feintuning-datenabhängig ist. Wir hoffen, dass unsere Erkenntnisse dazu beitragen können, das Verständnis, die Auswahl und die Entwicklung von Feintuning-Methoden für LLMs zu erleichtern.
Die Fähigkeit von Large Language Models (LLMs), kohärenten Text zu verarbeiten und zu generieren, wird deutlich geschwächt, wenn die Anzahl der Eingabe-Tokens ihre Vortrainingslänge überschreitet. Angesichts des hohen Aufwands für das Feinabstimmen großskaliger Modelle mit längeren Sequenzen schlagen wir Dual Chunk Attention (DCA) vor, das Llama2 70B ermöglicht, Kontextfenster von mehr als 100.000 Tokens ohne kontinuierliches Training zu unterstützen. Indem die Aufmerksamkeitsberechnung für lange Sequenzen in chunk-basierte Module zerlegt wird, gelingt es DCA effektiv, die relative Positionsinformation von Tokens innerhalb desselben Chunks (Intra-Chunk) und über verschiedene Chunks hinweg (Inter-Chunk) zu erfassen, sowie sich nahtlos mit Flash Attention zu integrieren. Neben seiner beeindruckenden Extrapolationsfähigkeit erreicht DCA bei praktischen Aufgaben mit langem Kontext eine Leistung, die mit der von feinabgestimmten Modellen vergleichbar oder sogar besser ist. Im Vergleich zu proprietären Modellen erreicht unser trainingsfreies 70B-Modell 94 % der Leistung von gpt-3.5-16k, was darauf hindeutet, dass es eine praktikable Open-Source-Alternative darstellt. Der gesamte Code und die in dieser Arbeit verwendeten Daten sind unter https://github.com/HKUNLP/ChunkLlama veröffentlicht.
Im Bereich der subjektgesteuerten Text-zu-Bild (T2I) Generativmodelle haben jüngste Entwicklungen wie DreamBooth und BLIP-Diffusion beeindruckende Ergebnisse erzielt, stoßen jedoch aufgrund ihrer intensiven Feinabstimmungsanforderungen und erheblichen Parameterbedarfe an Grenzen. Während das Low-Rank-Adaptation (LoRA)-Modul in DreamBooth eine Reduzierung der trainierbaren Parameter bietet, führt es zu einer ausgeprägten Sensitivität gegenüber Hyperparametern, was einen Kompromiss zwischen Parametereffizienz und der Qualität der personalisierten T2I-Bildsynthese darstellt. Um diese Einschränkungen zu überwinden, stellen wir \textit{DiffuseKronA} vor, ein neuartiges Kronecker-Produkt-basiertes Adaptationsmodul, das nicht nur die Parameteranzahl um 35\% bzw. 99,947\% im Vergleich zu LoRA-DreamBooth und dem ursprünglichen DreamBooth signifikant reduziert, sondern auch die Qualität der Bildsynthese verbessert. Entscheidend ist, dass DiffuseKronA das Problem der Hyperparameter-Sensitivität mildert und konsistent hochwertige Generationen über einen breiten Bereich von Hyperparametern liefert, wodurch die Notwendigkeit für umfangreiche Feinabstimmung verringert wird. Darüber hinaus macht eine besser kontrollierbare Zerlegung DiffuseKronA interpretierbarer und kann sogar eine Reduzierung von bis zu 50\% bei Ergebnissen erzielen, die mit LoRA-DreamBooth vergleichbar sind. Bei der Bewertung anhand vielfältiger und komplexer Eingabebilder und Textprompts übertrifft DiffuseKronA durchweg bestehende Modelle, erzeugt diverse Bilder von höherer Qualität mit verbesserter Treue und einer genaueren Farbverteilung von Objekten, während gleichzeitig eine außergewöhnliche Parametereffizienz aufrechterhalten wird. Dies stellt einen bedeutenden Fortschritt im Bereich der T2I-Generativmodellierung dar. Unsere Projektseite, bestehend aus Links zum Code und vortrainierten Checkpoints, ist verfügbar unter https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
Sowohl Text- als auch Videodaten sind im Internet reichlich vorhanden und unterstützen groß angelegtes selbstüberwachtes Lernen durch die Vorhersage des nächsten Tokens oder Frames. Allerdings wurden sie nicht gleichermaßen genutzt: Sprachmodelle haben erhebliche Auswirkungen in der realen Welt gezeigt, während die Videogenerierung weitgehend auf den Bereich der Medienunterhaltung beschränkt blieb. Dennoch erfassen Videodaten wichtige Informationen über die physische Welt, die sich nur schwer in Sprache ausdrücken lassen. Um diese Lücke zu schließen, diskutieren wir eine unterschätzte Möglichkeit, die Videogenerierung zur Lösung von Aufgaben in der realen Welt zu erweitern. Wir beobachten, wie Video, ähnlich wie Sprache, als einheitliche Schnittstelle dienen kann, die Wissen aus dem Internet aufnehmen und vielfältige Aufgaben darstellen kann. Darüber hinaus zeigen wir, wie die Videogenerierung, ähnlich wie Sprachmodelle, als Planer, Agenten, Rechenmaschinen und Umgebungssimulatoren fungieren kann, durch Techniken wie In-Context-Lernen, Planung und bestärkendes Lernen. Wir identifizieren bedeutende Anwendungsmöglichkeiten in Bereichen wie Robotik, autonomes Fahren und Wissenschaft, gestützt durch aktuelle Arbeiten, die zeigen, dass solche fortgeschrittenen Fähigkeiten in der Videogenerierung durchaus erreichbar sind. Schließlich benennen wir zentrale Herausforderungen in der Videogenerierung, die den Fortschritt behindern. Die Bewältigung dieser Herausforderungen wird es Videogenerierungsmodellen ermöglichen, einen einzigartigen Wert neben Sprachmodellen in einer breiteren Palette von KI-Anwendungen zu demonstrieren.
Bestehende Arbeiten zu langfristigen Open-Domain-Dialogen konzentrieren sich auf die Bewertung von Modellantworten in Kontexten, die nicht mehr als fünf Chat-Sitzungen umfassen. Trotz Fortschritten bei Large Language Models (LLMs) mit langem Kontext und Retrieval-Augmented Generation (RAG)-Techniken bleibt ihre Wirksamkeit in sehr langfristigen Dialogen unerforscht. Um diese Forschungslücke zu schließen, führen wir eine Maschinen-Mensch-Pipeline ein, um hochwertige, sehr langfristige Dialoge zu generieren, indem wir LLM-basierte Agentenarchitekturen nutzen und ihre Dialoge auf Personas und zeitliche Ereignisgraphen abstützen. Darüber hinaus statten wir jeden Agenten mit der Fähigkeit aus, Bilder zu teilen und darauf zu reagieren. Die generierten Gespräche werden von menschlichen Annotatoren auf langfristige Konsistenz und Verankerung in den Ereignisgraphen überprüft und bearbeitet. Mit dieser Pipeline sammeln wir LoCoMo, einen Datensatz sehr langfristiger Gespräche, die jeweils durchschnittlich 300 Turns und 9K Tokens über bis zu 35 Sitzungen umfassen. Basierend auf LoCoMo präsentieren wir einen umfassenden Evaluationsbenchmark, um das Langzeitgedächtnis von Modellen zu messen, der Frage-Antwort-Aufgaben, Ereigniszusammenfassungen und multimodale Dialoggenerationsaufgaben umfasst. Unsere experimentellen Ergebnisse zeigen, dass LLMs Schwierigkeiten haben, lange Gespräche zu verstehen und langfristige zeitliche und kausale Dynamiken in Dialogen zu erfassen. Strategien wie LLMs mit langem Kontext oder RAG können Verbesserungen bieten, aber diese Modelle liegen immer noch deutlich hinter der menschlichen Leistung zurück.
Diese Arbeit untersucht die allgemeinen Prinzipien zur Verbesserung des Lernens von Sprachmodellen (Language Models, LMs), mit dem Ziel, die notwendigen Trainingsschritte zur Erreichung überlegener Leistung zu reduzieren. Konkret präsentieren wir eine Theorie für das optimale Lernen von LMs. Zunächst schlagen wir ein Ziel vor, das das Lernen von LMs optimiert, indem es das Datenkompressionsverhältnis in einer "LM-Training-als-verlustfreie-Kompression"-Sicht maximiert. Anschließend leiten wir ein Theorem, genannt Lern-Gesetz, ab, um die Eigenschaften der Dynamik im optimalen Lernprozess unter unserem Ziel aufzuzeigen. Das Theorem wird dann durch Experimente zu einer linearen Klassifikation und einer realen Sprachmodellierungsaufgabe validiert. Schließlich verifizieren wir empirisch, dass das optimale Lernen von LMs im Wesentlichen aus der Verbesserung der Koeffizienten im Skalierungsgesetz von LMs resultiert, was großes Potenzial und Bedeutung für die Entwicklung praktischer Methoden zur Lernbeschleunigung aufzeigt. Unser Code ist unter https://aka.ms/LearningLaw verfügbar.
Das kürzlich entwickelte Sora-Modell [1] hat bemerkenswerte Fähigkeiten in der Videogenerierung gezeigt, was intensive Diskussionen über seine Fähigkeit zur Simulation realer Phänomene ausgelöst hat. Trotz seiner zunehmenden Beliebtheit gibt es einen Mangel an etablierten Metriken, um seine Treue zur realen Physik quantitativ zu bewerten. In diesem Artikel stellen wir einen neuen Benchmark vor, der die Qualität der generierten Videos anhand ihrer Übereinstimmung mit den Prinzipien der realen Physik bewertet. Wir verwenden eine Methode, die die generierten Videos in 3D-Modelle umwandelt, wobei wir die Prämisse nutzen, dass die Genauigkeit der 3D-Rekonstruktion stark von der Videoqualität abhängt. Aus der Perspektive der 3D-Rekonstruktion verwenden wir die Treue der geometrischen Einschränkungen, die von den konstruierten 3D-Modellen erfüllt werden, als Proxy, um das Ausmaß zu messen, in dem die generierten Videos den Regeln der realen Physik entsprechen. Projektseite: https://sora-geometrical-consistency.github.io/
Die Erstellung von Video- und Audioinhalten bildet die Kernmethode für die Filmindustrie und professionelle Anwender. Bisherige, auf Diffusion basierende Ansätze behandeln die Video- und Audioerzeugung getrennt, was den Technologietransfer von der Wissenschaft in die Industrie behindert. In dieser Arbeit zielen wir darauf ab, diese Lücke zu schließen, indem wir ein sorgfältig entworfenes, optimierungsbasiertes Framework für die cross-visuell-auditive und gemeinsame visuell-auditive Erzeugung vorstellen. Wir beobachten die leistungsstarke Erzeugungsfähigkeit von verfügbaren Video- oder Audioerzeugungsmodellen. Daher schlagen wir vor, anstatt riesige Modelle von Grund auf zu trainieren, die bestehenden starken Modelle über einen gemeinsamen latenten Repräsentationsraum zu verbinden. Konkret schlagen wir einen multimodalen latenten Ausrichter mit dem vortrainierten ImageBind-Modell vor. Unser latenter Ausrichter teilt einen ähnlichen Kern wie die Klassifikatorführung, die den Diffusionsentrauschungsprozess während der Inferenzzeit steuert. Durch eine sorgfältig gestaltete Optimierungsstrategie und Verlustfunktionen zeigen wir die überlegene Leistung unserer Methode bei der gemeinsamen Video-Audio-Erzeugung, der visuell gesteuerten Audioerzeugung und der audio-gesteuerten visuellen Erzeugung. Die Projektwebsite ist unter https://yzxing87.github.io/Seeing-and-Hearing/ zu finden.
In dieser Arbeit teilen wir drei Erkenntnisse, um eine erstklassige ästhetische Qualität in text-zu-bild-generativen Modellen zu erreichen. Wir konzentrieren uns auf drei entscheidende Aspekte zur Verbesserung des Modells: die Steigerung von Farbe und Kontrast, die Verbesserung der Generierung über mehrere Seitenverhältnisse hinweg und die Optimierung feiner, menschenzentrierter Details. Zunächst untersuchen wir die Bedeutung des Rauschzeitplans beim Training eines Diffusionsmodells und zeigen dessen tiefgreifenden Einfluss auf Realismus und visuelle Qualität. Zweitens gehen wir auf die Herausforderung ein, verschiedene Seitenverhältnisse bei der Bildgenerierung zu berücksichtigen, und betonen die Bedeutung eines ausgewogenen, in Buckets organisierten Datensatzes. Schließlich untersuchen wir die entscheidende Rolle der Ausrichtung der Modellausgaben an menschlichen Präferenzen, um sicherzustellen, dass generierte Bilder den menschlichen Wahrnehmungserwartungen entsprechen. Durch umfangreiche Analysen und Experimente zeigt Playground v2.5 eine erstklassige Leistung in Bezug auf ästhetische Qualität unter verschiedenen Bedingungen und Seitenverhältnissen und übertrifft sowohl weit verbreitete Open-Source-Modelle wie SDXL und Playground v2 als auch proprietäre kommerzielle Systeme wie DALLE 3 und Midjourney v5.2. Unser Modell ist Open-Source, und wir hoffen, dass die Entwicklung von Playground v2.5 wertvolle Leitlinien für Forscher bietet, die die ästhetische Qualität diffusionsbasierter Bildgenerierungsmodelle verbessern möchten.
Wir stellen eine Methode vor, um 3D-Szenen zu erzeugen, die in ihre einzelnen Objekte zerlegt sind. Diese Zerlegung erfolgt unüberwacht und stützt sich ausschließlich auf das Wissen eines großen, vortrainierten Text-zu-Bild-Modells. Unsere zentrale Erkenntnis ist, dass Objekte entdeckt werden können, indem Teile einer 3D-Szene identifiziert werden, die bei räumlicher Neuanordnung weiterhin gültige Konfigurationen derselben Szene ergeben. Konkret optimiert unsere Methode mehrere NeRFs (Neural Radiance Fields) gleichzeitig von Grund auf – wobei jedes NeRF ein eigenes Objekt repräsentiert – zusammen mit einer Reihe von Layouts, die diese Objekte zu Szenen zusammensetzen. Wir fördern dann, dass diese zusammengesetzten Szenen gemäß dem Bildgenerator innerhalb der Verteilung liegen. Wir zeigen, dass unser Ansatz trotz seiner Einfachheit erfolgreich 3D-Szenen erzeugt, die in einzelne Objekte zerlegt sind, und damit neue Möglichkeiten in der Text-zu-3D-Inhaltserstellung ermöglicht. Für Ergebnisse und eine interaktive Demo besuchen Sie unsere Projektseite unter https://dave.ml/layoutlearning/.
Bestehende NeRF-basierte Methoden für die Rekonstruktion großer Szenen weisen oft Einschränkungen in Bezug auf die visuelle Qualität und die Render-Geschwindigkeit auf. Während das kürzlich entwickelte 3D Gaussian Splatting gut für kleinere, objektzentrierte Szenen funktioniert, stellt die Skalierung auf große Szenen aufgrund begrenzten Video-Speichers, langer Optimierungszeiten und deutlicher Erscheinungsvariationen eine Herausforderung dar. Um diese Herausforderungen zu bewältigen, präsentieren wir VastGaussian, die erste Methode für hochwertige Rekonstruktion und Echtzeit-Rendering großer Szenen basierend auf 3D Gaussian Splatting. Wir schlagen eine progressive Partitionierungsstrategie vor, um eine große Szene in mehrere Zellen zu unterteilen, wobei die Trainingskameras und die Punktwolke mit einem luftraumbezogenen Sichtbarkeitskriterium angemessen verteilt werden. Diese Zellen werden nach einer parallelen Optimierung zu einer vollständigen Szene zusammengeführt. Zudem integrieren wir eine entkoppelte Erscheinungsmodellierung in den Optimierungsprozess, um Erscheinungsvariationen in den gerenderten Bildern zu reduzieren. Unser Ansatz übertrifft bestehende NeRF-basierte Methoden und erzielt state-of-the-art Ergebnisse auf mehreren großen Szenen-Datensätzen, wodurch eine schnelle Optimierung und hochauflösendes Echtzeit-Rendering ermöglicht wird.