Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
In diesem Paper stellen wir Writing in the Margins (WiM) vor, ein neues Inferenzmuster für Large Language Models, das darauf abzielt, die Handhabung langer Eingabesequenzen in auf Abruf ausgerichteten Aufgaben zu optimieren. Dieser Ansatz nutzt die segmentweise Inferenz durch die vorgefüllte Chunkung des Schlüssel-Wert-Caches, um eine effiziente Verarbeitung umfangreicher Kontexte sowie die Generierung und Klassifizierung von Zwischeninformationen ("Margen") zu ermöglichen, die das Modell auf spezifische Aufgaben lenken. Diese Methode erhöht den Rechenaufwand geringfügig, während sie die Leistung von Standardmodellen signifikant verbessert, ohne dass Feinabstimmungen erforderlich sind. Insbesondere beobachten wir, dass WiM eine durchschnittliche Verbesserung der Genauigkeit um 7,5% für Schlussfolgerungsfähigkeiten (HotpotQA, MultiHop-RAG) und eine Steigerung des F1-Scores um mehr als 30,0% für Aggregationsaufgaben (CWE) bietet. Darüber hinaus zeigen wir, wie das vorgeschlagene Muster in ein interaktives Abrufdesign passt, das Endbenutzern laufende Updates über den Fortschritt der Kontextverarbeitung bietet und die Integration relevanter Informationen in die endgültige Antwort hervorhebt. Wir veröffentlichen unsere Implementierung von WiM unter Verwendung der Hugging Face Transformers-Bibliothek auf https://github.com/writer/writing-in-the-margins.
Wir präsentieren GameNGen, den ersten Spiel-Engine, der vollständig von einem neuronalen Modell betrieben wird, das eine Echtzeit-Interaktion mit einer komplexen Umgebung über lange Trajektorien in hoher Qualität ermöglicht. GameNGen kann das klassische Spiel DOOM interaktiv mit über 20 Bildern pro Sekunde auf einer einzelnen TPU simulieren. Die Vorhersage des nächsten Bildes erreicht einen PSNR von 29,4, vergleichbar mit verlustbehafteter JPEG-Kompression. Menschliche Bewerter sind nur geringfügig besser als zufällige Auswahl bei der Unterscheidung kurzer Clips des Spiels von Clips der Simulation. GameNGen wird in zwei Phasen trainiert: (1) Ein RL-Agent lernt, das Spiel zu spielen, und die Trainingssitzungen werden aufgezeichnet, und (2) ein Diffusionsmodell wird trainiert, um das nächste Bild zu erzeugen, abhängig von der Sequenz vergangener Bilder und Aktionen. Konditionierungsverstärkungen ermöglichen eine stabile autoregressive Generierung über lange Trajektorien.
Lineare RNN-Architekturen wie Mamba können im Bereich der Sprachmodellierung wettbewerbsfähig mit Transformer-Modellen sein und dabei vorteilhafte Bereitstellungseigenschaften aufweisen. Angesichts des Fokus auf das Training von groß angelegten Transformer-Modellen betrachten wir die Herausforderung, diese vorab trainierten Modelle für den Einsatz umzuwandeln. Wir zeigen, dass es machbar ist, große Transformer in lineare RNNs zu destillieren, indem wir die linearen Projektionsgewichte aus den Aufmerksamkeitsschichten mit akademischen GPU-Ressourcen wiederverwenden. Das resultierende Hybridmodell, das ein Viertel der Aufmerksamkeitsschichten integriert, erzielt eine vergleichbare Leistung wie der originale Transformer in Chat-Benchmarks und übertrifft Open-Source-Hybridmodelle von Mamba, die von Grund auf mit Billionen von Tokens trainiert wurden, sowohl in Chat-Benchmarks als auch in allgemeinen Benchmarks. Darüber hinaus stellen wir einen hardwarebewussten spekulativen Decodierungsalgorithmus vor, der die Inferenzgeschwindigkeit von Mamba und Hybridmodellen beschleunigt. Insgesamt zeigen wir, wie wir mit begrenzten Rechenressourcen viele der ursprünglichen Aufmerksamkeitsschichten entfernen und aus dem resultierenden Modell effizienter generieren können. Unser leistungsstärkstes Modell, destilliert aus Llama3-8B-Instruct, erzielt eine Gewinnrate von 29,61 bei Längensteuerung in AlpacaEval 2 gegenüber GPT-4 und 7,35 bei MT-Bench und übertrifft das beste anweisungsgesteuerte lineare RNN-Modell.
Wir präsentieren eine Methode zur Erzeugung von Videosequenzen mit kohärenter Bewegung zwischen einem Paar von Eingangs-Schlüsselbildern. Wir passen ein vortrainiertes groß angelegtes Bild-zu-Video-Diffusionsmodell an (ursprünglich trainiert, um Videos vorwärts in der Zeit von einem einzelnen Eingangsbild zu generieren) für die Schlüsselbild-Interpolation an, d.h., um ein Video zwischen zwei Eingabebildern zu erzeugen. Wir erreichen diese Anpassung durch eine leichtgewichtige Feinabstimmungstechnik, die eine Version des Modells erzeugt, die stattdessen Videos rückwärts in der Zeit von einem einzelnen Eingangsbild vorhersagt. Dieses Modell (zusammen mit dem ursprünglichen vorwärtsgerichteten Modell) wird anschließend in einem dualrichtungs Diffusionsabtastungsprozess verwendet, der die sich überschneidenden Modellschätzungen kombiniert, die jeweils von den beiden Schlüsselbildern ausgehen. Unsere Experimente zeigen, dass unsere Methode sowohl bestehende diffusionsbasierte Methoden als auch traditionelle Frame-Interpolations-Techniken übertrifft.
KI-Systeme, die natürlichsprachliche Fragen über Datenbanken beantworten, versprechen enormen Mehrwert zu schaffen. Solche Systeme würden es Benutzern ermöglichen, die leistungsstarken Argumentations- und Wissensfähigkeiten von Sprachmodellen (LMs) neben der skalierbaren Rechenleistung von Datenverwaltungssystemen zu nutzen. Diese kombinierten Fähigkeiten würden Benutzer befähigen, beliebige natürlichsprachliche Fragen über benutzerdefinierte Datenquellen zu stellen. Allerdings erforschen bestehende Methoden und Benchmarks dieses Szenario unzureichend. Text2SQL-Methoden konzentrieren sich ausschließlich auf natürlichsprachliche Fragen, die in relationaler Algebra ausgedrückt werden können, was nur eine kleine Teilmenge der Fragen darstellt, die echte Benutzer stellen möchten. Ebenso berücksichtigt das Retrieval-Augmented Generation (RAG) nur die begrenzte Teilmenge von Abfragen, die mit Punktlookups zu einem oder wenigen Datensätzen in der Datenbank beantwortet werden können. Wir schlagen Table-Augmented Generation (TAG) vor, ein vereinheitlichtes und allgemeines Paradigma zur Beantwortung natürlichsprachlicher Fragen über Datenbanken. Das TAG-Modell repräsentiert eine breite Palette von Interaktionen zwischen dem LM und der Datenbank, die zuvor unerforscht waren, und schafft spannende Forschungsmöglichkeiten, um das Weltwissen und die Argumentationsfähigkeiten von LMs über Daten zu nutzen. Wir entwickeln systematisch Benchmarks, um das TAG-Problem zu untersuchen, und stellen fest, dass Standardmethoden nicht mehr als 20% der Abfragen korrekt beantworten, was die Notwendigkeit weiterer Forschung in diesem Bereich bestätigt. Wir veröffentlichen den Code für den Benchmark unter https://github.com/TAG-Research/TAG-Bench.
Wir schlagen einen auf Diffusion basierenden Ansatz für die Generierung von Text-zu-Bild (T2I) mit interaktiver 3D-Layoutsteuerung vor. Die Layoutsteuerung wurde weitreichend untersucht, um die Mängel von T2I-Diffusionsmodellen im Verständnis der Platzierung von Objekten und Beziehungen aus Textbeschreibungen zu lindern. Dennoch sind bestehende Ansätze für die Layoutsteuerung auf 2D-Layouts beschränkt, erfordern, dass der Benutzer zuvor ein statisches Layout bereitstellt, und versagen dabei, generierte Bilder unter Layoutänderungen beizubehalten. Dies macht diese Ansätze ungeeignet für Anwendungen, die eine 3D-Objektsteuerung und iterative Verfeinerungen erfordern, z. B. Innenarchitektur und komplexe Szenengenerierung. Zu diesem Zweck nutzen wir die jüngsten Fortschritte in T2I-Modellen, die von der Tiefe abhängen, und schlagen einen neuartigen Ansatz für die interaktive 3D-Layoutsteuerung vor. Wir ersetzen die traditionellen 2D-Boxen, die bei der Layoutsteuerung verwendet werden, durch 3D-Boxen. Darüber hinaus gestalten wir die T2I-Aufgabe als einen mehrstufigen Generierungsprozess, bei dem der Benutzer in jedem Stadium ein Objekt in 3D einfügen, ändern und verschieben kann, während Objekte aus früheren Stadien beibehalten werden. Dies erreichen wir durch unser vorgeschlagenes Dynamisches Selbst-Aufmerksamkeits (DSA)-Modul und die konsistente 3D-Objektübersetzungsstrategie. Experimente zeigen, dass unser Ansatz komplexe Szenen basierend auf 3D-Layouts generieren kann, wodurch die Erfolgsrate der Objektgenerierung im Vergleich zu den Standard-T2I-Methoden, die von der Tiefe abhängen, um das 2-fache erhöht wird. Darüber hinaus übertrifft er andere Methoden im Bezug auf die Beibehaltung von Objekten unter Layoutänderungen. Projektseite: https://abdo-eldesokey.github.io/build-a-scene/
Foto-realistische und steuerbare 3D-Avatare sind entscheidend für verschiedene Anwendungen wie virtuelle und gemischte Realität (VR/MR), Telepräsenz, Gaming und Filmproduktion. Traditionelle Methoden zur Avatar-Erstellung beinhalten oft zeitaufwändige Scan- und Rekonstruktionsprozesse für jeden Avatar, was ihre Skalierbarkeit einschränkt. Darüber hinaus bieten diese Methoden nicht die Flexibilität, neue Identitäten zu generieren oder bestehende zu modifizieren. Andererseits bieten generative Modelle durch das Erlernen einer starken Priori aus Daten eine vielversprechende Alternative zu traditionellen Rekonstruktionsmethoden, was die zeitlichen Einschränkungen sowohl bei der Datenerfassung als auch bei der Verarbeitung erleichtert. Darüber hinaus ermöglichen generative Methoden Anwendungen über die Rekonstruktion hinaus, wie Bearbeitung und Stilisierung. Dennoch steckt die Forschung zu generativen 3D-Avataren noch in den Kinderschuhen, und daher haben aktuelle Methoden noch Einschränkungen wie die Erstellung statischer Avatare, mangelnde Foto-Realismus, unvollständige Gesichtsdetails oder begrenzte Steuerbarkeit. Um dies zu lösen, schlagen wir ein textkonditioniertes generatives Modell vor, das foto-realistische Gesichtsavatare verschiedener Identitäten generieren kann, mit vollständigeren Details wie Haaren, Augen und Mundinnerem, und die durch einen leistungsstarken nicht-parametrischen latenten Ausdrucksraum gesteuert werden können. Speziell integrieren wir die generativen und Bearbeitungsfähigkeiten von latenten Diffusionsmodellen mit einem starken Priori-Modell für die Steuerung des Avatar-Ausdrucks. Unser Modell kann hochwertige Avatare generieren und steuern, selbst solche außerhalb der Verteilung. Wir heben auch sein Potenzial für Anwendungen hervor, einschließlich Avatar-Bearbeitung und Einzelbild-Avatar-Rekonstruktion.
Das Lesen von Texten aus Bildern (entweder natürlichen Szenen oder Dokumenten) ist seit Jahrzehnten ein langjähriges Forschungsthema aufgrund der hohen technischen Herausforderung und des breiten Anwendungsbereichs. Früher wurden einzelne Spezialmodelle entwickelt, um die Teilaufgaben des Textlesens zu bewältigen (z. B. Szenentexterkennung, Handschrifterkennung und mathematische Ausdruckserkennung). Solche Spezialmodelle können jedoch in der Regel nicht effektiv über verschiedene Teilaufgaben generalisieren. In letzter Zeit haben Generalistenmodelle (wie z. B. GPT-4V), die auf umfangreichen Daten auf einheitliche Weise trainiert wurden, ein enormes Potenzial beim Lesen von Texten in verschiedenen Szenarien gezeigt, jedoch mit den Nachteilen einer begrenzten Genauigkeit und geringen Effizienz. In dieser Arbeit schlagen wir Platypus vor, ein generalisiertes Spezialmodell für das Textlesen. Speziell kombiniert Platypus das Beste aus beiden Welten: Es ist in der Lage, Texte verschiedener Formen mit einer einzigen vereinheitlichten Architektur zu erkennen und dabei eine ausgezeichnete Genauigkeit und hohe Effizienz zu erreichen. Um den Vorteil von Platypus besser auszunutzen, erstellen wir auch einen Textlese-Datensatz (genannt Worms), dessen Bilder aus früheren Datensätzen kuratiert und teilweise neu beschriftet wurden. Experimente an Standard-Benchmarks zeigen die Wirksamkeit und Überlegenheit des vorgeschlagenen Platypus-Modells. Modell und Daten werden öffentlich verfügbar gemacht unter https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
Wir stellen SHADOW vor, ein feinabgestimmtes Sprachmodell, das auf einer Zwischenaufgabe mit assoziativer deduktiver Schlussfolgerung trainiert wurde, und messen seine Leistung bei einer Wissensbasis-Konstruktion mit der Vervollständigung von Wikidata-Tripeln. Wir evaluieren SHADOW in der LM-KBC 2024 Herausforderung und zeigen, dass es die Baseline-Lösung um 20% mit einem F1-Score von 68,72% übertrifft.
Wir stellen semantische Türme vor, eine extrinsische Wissensrepräsentationsmethode, und vergleichen sie mit intrinsischem Wissen in großen Sprachmodellen für die Ontologie-Lernung. Unsere Experimente zeigen einen Kompromiss zwischen Leistung und semantischer Verankerung für extrinsisches Wissen im Vergleich zu einem feinabgestimmten Modell mit intrinsischem Wissen. Wir berichten über unsere Ergebnisse in der Herausforderung Große Sprachmodelle für Ontologie-Lernen (LLMs4OL) 2024.
Dieses Papier befasst sich mit der 3D-Rekonstruktion von Seevögeln, die in letzter Zeit in den Fokus von Umweltwissenschaftlern gerückt sind, da sie wertvolle Bioindikatoren für Umweltveränderungen darstellen. Solche 3D-Informationen sind vorteilhaft für die Analyse des Verhaltens und der physiologischen Form der Vögel, beispielsweise durch die Verfolgung von Bewegungen, Formen und Erscheinungsänderungen. Aus der Perspektive der Computer Vision sind Vögel aufgrund ihrer schnellen und oft nicht starren Bewegungen besonders anspruchsvoll. Wir schlagen einen Ansatz zur Rekonstruktion der 3D-Haltung und Form aus monokularen Videos einer spezifischen Art von Seevögeln - dem Tordalk - vor. Unser Ansatz umfasst eine vollständige Pipeline zur Detektion, Verfolgung, Segmentierung und zeitlich konsistenten 3D-Rekonstruktion. Darüber hinaus schlagen wir einen zeitlichen Verlust vor, der die aktuellen 3D-Vogelhaltungsschätzer für Einzelbilder in den zeitlichen Bereich erweitert. Darüber hinaus stellen wir einen realen Datensatz von durchschnittlich 10000 Videoframes zur Verfügung, die neun Vögel gleichzeitig erfassen, darunter eine große Vielfalt an Bewegungen und Interaktionen, einschließlich eines kleineren Testsets mit vogelspezifischen Schlüsselpunktetiketten. Durch unsere zeitliche Optimierung erzielen wir eine Spitzenleistung für die anspruchsvollen Sequenzen in unserem Datensatz.
Die Industrie 4.0 hat die Fertigung revolutioniert, indem sie die Digitalisierung vorangetrieben und das Paradigma hin zur additiven Fertigung (AM) verschoben hat. Die Fused Deposition Modeling (FDM), eine wichtige AM-Technologie, ermöglicht die Herstellung hochgradig angepasster, kostengünstiger Produkte mit minimalem Materialverlust durch schichtweisen Extrusionsprozess und stellt eine bedeutende Herausforderung für traditionelle subtraktive Methoden dar. Die Anfälligkeit von Materialextrusionstechniken für Fehler erfordert jedoch oft Experteneingriffe zur Erkennung und Behebung von Mängeln, die die Produktqualität erheblich beeinträchtigen können. Obwohl automatisierte Fehlererkennung und maschinelles Lernen existieren, ist ihre Generalisierbarkeit über verschiedene 3D-Drucker-Setups, Firmware und Sensoren begrenzt, und Deep-Learning-Methoden erfordern umfangreiche gelabelte Datensätze, was die Skalierbarkeit und Anpassungsfähigkeit behindert. Um diese Herausforderungen anzugehen, präsentieren wir ein Prozessüberwachungs- und -steuerungsframework, das auf vorab trainierten Large Language Models (LLMs) neben 3D-Druckern basiert, um Druckfehler zu erkennen und zu beheben. Das LLM bewertet die Druckqualität, indem es Bilder analysiert, die nach jeder Schicht oder jedem Drucksegment aufgenommen wurden, Fehlermodi identifiziert und den Drucker nach relevanten Parametern abfragt. Anschließend erstellt und führt es einen Korrekturaktionsplan aus. Wir haben die Wirksamkeit des vorgeschlagenen Frameworks bei der Identifizierung von Mängeln validiert, indem wir es mit einer Kontrollgruppe von Ingenieuren mit unterschiedlicher AM-Expertise verglichen haben. Unsere Evaluation zeigte, dass auf LLM basierende Agenten nicht nur gängige 3D-Druckfehler wie inkonsistente Extrusion, Fädenziehen, Verzug und Schichthaftung genau identifizieren, sondern auch effektiv die Parameter bestimmen, die diese Fehler verursachen, und sie autonom korrigieren, ohne dass menschliches Eingreifen erforderlich ist.