Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Retrieval-augmentierte Sprachmodelle können sich besser an Veränderungen im Weltzustand anpassen und langfristiges Wissen integrieren. Die meisten bestehenden Methoden rufen jedoch nur kurze, zusammenhängende Textabschnitte aus einem Retrieval-Korpus ab, was das ganzheitliche Verständnis des Gesamtkontexts eines Dokuments einschränkt. Wir führen einen neuartigen Ansatz ein, bei dem Textabschnitte rekursiv eingebettet, geclustert und zusammengefasst werden, wodurch ein Baum mit unterschiedlichen Zusammenfassungsebenen von unten nach oben aufgebaut wird. Zum Zeitpunkt der Inferenz greift unser RAPTOR-Modell auf diesen Baum zu und integriert Informationen aus umfangreichen Dokumenten auf verschiedenen Abstraktionsebenen. Kontrollierte Experimente zeigen, dass das Retrieval mit rekursiven Zusammenfassungen signifikante Verbesserungen gegenüber traditionellen retrieval-augmentierten Sprachmodellen bei mehreren Aufgaben bietet. Bei Frage-Antwort-Aufgaben, die komplexe, mehrstufige Schlussfolgerungen erfordern, erzielen wir state-of-the-art Ergebnisse; beispielsweise können wir durch die Kombination von RAPTOR-Retrieval mit GPT-4 die beste Leistung auf dem QuALITY-Benchmark um 20 % in absoluter Genauigkeit verbessern.
Sind n-Gramm-Sprachmodelle in dieser Ära von neuronalen großen Sprachmodellen (LLMs) noch relevant? Unsere Antwort lautet ja, und wir zeigen ihren Wert sowohl in der Textanalyse als auch bei der Verbesserung neuronaler LLMs. Dies erfordert jedoch eine Modernisierung von n-Gramm-Modellen in zwei Aspekten. Erstens trainieren wir sie im gleichen Datenumfang wie neuronale LLMs – 1,4 Billionen Tokens. Dies ist das größte jemals gebaute n-Gramm-Modell. Zweitens verwenden bestehende n-Gramm-Modelle kleine n-Werte, was ihre Leistung beeinträchtigt; wir erlauben stattdessen, dass n beliebig groß sein kann, indem wir ein neues infty-Gramm-LM mit Backoff einführen. Anstatt n-Gramm-Zähltabellen vorab zu berechnen (was sehr kostspielig wäre), entwickeln wir eine Engine namens infini-gram – angetrieben durch Suffix-Arrays –, die infty-Gramm- (sowie n-Gramm- mit beliebigem n) Wahrscheinlichkeiten mit Millisekunden-Latenz berechnen kann. Das infty-Gramm-Framework und die infini-gram-Engine ermöglichen es uns, viele neue und interessante Analysen von menschengeschriebenem und maschinell generiertem Text durchzuführen: Wir stellen fest, dass das infty-Gramm-LM eine recht hohe Genauigkeit bei der Vorhersage des nächsten Tokens aufweist (47 %) und neuronale LLMs ergänzen kann, um deren Sprachmodellierungs-Perplexitäten erheblich zu reduzieren. Bei der Analyse von maschinell generiertem Text beobachten wir auch Unregelmäßigkeiten in der Übereinstimmungsstufe zwischen Maschine und infty-Gramm in Bezug auf die Suffixlänge, was auf Mängel im Pretraining neuronaler LLMs und in den Positions-Embeddings von Transformern hinweist. Wir veröffentlichen unsere infini-gram-Engine als Open Source in der Hoffnung, weitere Studien darüber zu ermöglichen, wie man wortgetreue Informationen aus großen Textkorpora am besten nutzen kann.
Beinroboter, die in unübersichtlichen Umgebungen navigieren, müssen gleichzeitig agil sein, um Aufgaben effizient auszuführen, und sicher, um Kollisionen mit Hindernissen oder Menschen zu vermeiden. Bisherige Studien entwickeln entweder konservative Controller (< 1,0 m/s), um Sicherheit zu gewährleisten, oder konzentrieren sich auf Agilität, ohne potenziell gefährliche Kollisionen zu berücksichtigen. Dieses Paper stellt Agile But Safe (ABS) vor, ein lernbasiertes Steuerungsframework, das agile und kollisionsfreie Fortbewegung für vierbeinige Roboter ermöglicht. ABS umfasst eine agile Policy zur Ausführung agiler Motorikfähigkeiten inmitten von Hindernissen und eine Recovery Policy, um Fehler zu verhindern, wodurch gemeinsam eine schnelle und kollisionsfreie Navigation erreicht wird. Der Policy-Wechsel in ABS wird durch ein gelerntes, kontrolltheoretisches Reach-Avoid-Wertnetzwerk gesteuert, das auch die Recovery Policy als Zielfunktion leitet und so den Roboter in einer geschlossenen Schleife schützt. Der Trainingsprozess umfasst das Erlernen der agilen Policy, des Reach-Avoid-Wertnetzwerks, der Recovery Policy und eines Exterozeptions-Repräsentationsnetzwerks, alles in der Simulation. Diese trainierten Module können direkt in der realen Welt mit Onboard-Sensorik und -Berechnung eingesetzt werden, was zu schneller und kollisionsfreier Navigation in engen Innen- und Außenbereichen mit sowohl statischen als auch dynamischen Hindernissen führt.
Video-Diffusionsmodelle haben zunehmend Aufmerksamkeit erregt, da sie in der Lage sind, sowohl kohärente als auch hochwertige Videos zu erzeugen. Der iterative Entrauschungsprozess macht sie jedoch rechenintensiv und zeitaufwendig, was ihre Anwendungsmöglichkeiten einschränkt. Inspiriert vom Consistency Model (CM), das vortrainierte Bild-Diffusionsmodelle destilliert, um das Sampling mit minimalen Schritten zu beschleunigen, und dessen erfolgreicher Erweiterung, dem Latent Consistency Model (LCM) für die bedingte Bildgenerierung, schlagen wir AnimateLCM vor, das eine hochwertige Videogenerierung in minimalen Schritten ermöglicht. Anstatt direkt Konsistenzlernen auf dem Rohvideodatensatz durchzuführen, schlagen wir eine entkoppelte Konsistenzlernstrategie vor, die die Destillation von Bildgenerierungs-Priors und Bewegungsgenerierungs-Priors entkoppelt, was die Trainings effizienz verbessert und die visuelle Qualität der Generierung steigert. Zusätzlich schlagen wir eine effiziente Strategie vor, um bestehende Plug-and-Play-Adapter aus der Stable-Diffusion-Community (z. B. ControlNet für kontrollierbare Generierung) an unser destilliertes textbedingtes Video-Consistency-Modell anzupassen oder Adapter von Grund auf zu trainieren, ohne die Sampling-Geschwindigkeit zu beeinträchtigen. Wir validieren die vorgeschlagene Strategie in der bildbedingten Videogenerierung und der layoutbedingten Videogenerierung, wobei in allen Fällen erstklassige Ergebnisse erzielt werden. Experimentelle Ergebnisse bestätigen die Effektivität unserer Methode. Code und Gewichte werden öffentlich zugänglich gemacht. Weitere Details sind unter https://github.com/G-U-N/AnimateLCM verfügbar.
Die Erweiterung großer Sprachmodelle, um lange Kontexte effektiv zu verarbeiten, erfordert eine Instruktions-Feinabstimmung auf Eingabesequenzen ähnlicher Länge. Um dies zu erreichen, präsentieren wir LongAlign – ein Rezept für Instruktionsdaten, Training und Evaluation zur Ausrichtung auf lange Kontexte. Zunächst erstellen wir einen langen Instruktionsfolge-Datensatz mit Self-Instruct. Um die Datenvielfalt sicherzustellen, deckt er eine breite Palette von Aufgaben aus verschiedenen langen Kontextquellen ab. Zweitens verwenden wir die Strategien des Packens und sortierten Batchings, um das überwachte Feinabstimmen auf Daten mit variierenden Längenverteilungen zu beschleunigen. Zusätzlich entwickeln wir eine Methode zur Gewichtung des Verlusts, um den Beitrag zum Verlust über verschiedene Sequenzen während des Packtrainings auszugleichen. Drittens führen wir den LongBench-Chat-Benchmark ein, um die Fähigkeiten zur Instruktionsfolge bei Abfragen mit einer Länge von 10k bis 100k zu bewerten. Experimente zeigen, dass LongAlign bestehende Rezepte für LLMs in Aufgaben mit langen Kontexten um bis zu 30\% übertrifft, während gleichzeitig die Kompetenz im Umgang mit kurzen, generischen Aufgaben erhalten bleibt. Der Code, die Daten und die langausgerichteten Modelle sind unter https://github.com/THUDM/LongAlign quelloffen verfügbar.
Um eine zuverlässige Argumentation zu erreichen, die den menschlichen Erwartungen entspricht, müssen große Sprachmodelle (LLMs) ihre Argumentation auf reales Wissen stützen (z. B. Web-Fakten, mathematische und physikalische Regeln). Werkzeuge helfen LLMs, auf dieses externe Wissen zuzugreifen, aber es gibt weiterhin Herausforderungen bei der Feinabstimmung von LLM-Agenten (z. B. Toolformer), um Werkzeuge in mehrstufigen Argumentationsproblemen aufzurufen, bei denen miteinander verbundene Werkzeugaufrufe eine ganzheitliche und effiziente Planung der Werkzeugnutzung erfordern. In dieser Arbeit schlagen wir eine neue Methode vor, mit der LLMs Werkzeuge in mehrstufigen Argumentationen besser nutzen können. Unsere Methode, Chain-of-Abstraction (CoA), trainiert LLMs, zunächst Argumentationsketten mit abstrakten Platzhaltern zu dekodieren und dann domänenspezifische Werkzeuge aufzurufen, um jede Argumentationskette durch das Einfügen spezifischen Wissens zu konkretisieren. Diese Planung mit abstrakten Ketten ermöglicht es LLMs, allgemeinere Argumentationsstrategien zu erlernen, die robust gegenüber Verschiebungen des domänenspezifischen Wissens (z. B. mathematische Ergebnisse) sind, die für verschiedene Argumentationsfragen relevant sind. Sie ermöglicht es LLMs auch, die Dekodierung und den Aufruf externer Werkzeuge parallel durchzuführen, wodurch die Verzögerung bei der Inferenz vermieden wird, die durch das Warten auf Werkzeugantworten entsteht. In den Bereichen mathematische Argumentation und Wiki-QA zeigen wir, dass unsere Methode durchweg frühere Chain-of-Thought- und werkzeuggestützte Baselines sowohl auf In-Distribution- als auch auf Out-of-Distribution-Testsets übertrifft, mit einer durchschnittlichen Verbesserung der QA-Genauigkeit von ~6 % absolut. LLM-Agenten, die mit unserer Methode trainiert wurden, zeigen auch eine effizientere Werkzeugnutzung, wobei die Inferenzgeschwindigkeit im Durchschnitt ~1,4-mal schneller ist als bei werkzeuggestützten LLM-Baselines.
Die Erzeugung von 3D-Modellen steht im Zentrum der Computergrafik und war über Jahrzehnte hinweg Gegenstand intensiver Forschung. Mit dem Aufkommen fortschrittlicher neuronaler Repräsentationen und generativer Modelle entwickelt sich das Feld der 3D-Inhaltserzeugung rasant und ermöglicht die Erstellung immer hochwertigerer und vielfältigerer 3D-Modelle. Das schnelle Wachstum dieses Bereichs macht es schwierig, alle aktuellen Entwicklungen im Blick zu behalten. In dieser Übersichtsarbeit möchten wir die grundlegenden Methodologien der 3D-Generierung vorstellen und einen strukturierten Fahrplan etablieren, der 3D-Repräsentationen, Generierungsmethoden, Datensätze und entsprechende Anwendungen umfasst. Insbesondere führen wir die 3D-Repräsentationen ein, die als Rückgrat für die 3D-Generierung dienen. Darüber hinaus bieten wir einen umfassenden Überblick über die schnell wachsende Literatur zu Generierungsmethoden, kategorisiert nach Art der algorithmischen Paradigmen, einschließlich Feedforward-Generierung, optimierungsbasierter Generierung, prozeduraler Generierung und generativer Neuansichtssynthese. Schließlich diskutieren wir verfügbare Datensätze, Anwendungen und offene Herausforderungen. Wir hoffen, dass diese Übersichtsarbeit den Lesern hilft, dieses spannende Thema zu erkunden und weitere Fortschritte im Bereich der 3D-Inhaltserzeugung zu fördern.
Die rasante Entwicklung von Large Language Models (LLMs), verkörpert durch Architekturen wie GPT-4, hat die Landschaft der natürlichen Sprachverarbeitung neu gestaltet. Dieses Papier stellt einen bahnbrechenden Ansatz vor, um die Effizienzprobleme im Zusammenhang mit dem Pre-Training von LLMs zu adressieren, und schlägt die Verwendung von Knowledge Distillation für den architekturübergreifenden Transfer vor. Indem wir Erkenntnisse aus dem effizienten Hyena-Mechanismus nutzen, ersetzen wir in unserem Ansatz die Attention Heads in Transformer-Modellen durch Hyena, was eine kostengünstige Alternative zum traditionellen Pre-Training bietet und gleichzeitig die Herausforderung der Verarbeitung langer kontextueller Informationen, die in quadratischen Attention-Mechanismen inhärent ist, bewältigt. Im Gegensatz zu herkömmlichen, auf Kompression fokussierten Methoden verbessert unsere Technik nicht nur die Inferenzgeschwindigkeit, sondern übertrifft das Pre-Training auch in Bezug auf Genauigkeit und Effizienz. In der Ära der sich weiterentwickelnden LLMs trägt unsere Arbeit zur Verfolgung nachhaltiger KI-Lösungen bei und schafft ein Gleichgewicht zwischen Rechenleistung und Umweltauswirkungen.
Realistische Videosimulation hat ein erhebliches Potenzial in verschiedenen Anwendungsbereichen gezeigt, von der virtuellen Realität bis hin zur Filmproduktion. Dies gilt insbesondere für Szenarien, in denen die Aufnahme von Videos in realen Umgebungen unpraktisch oder kostspielig ist. Bestehende Ansätze in der Videosimulation scheitern oft daran, die Beleuchtungsumgebung präzise zu modellieren, die Objektgeometrie korrekt darzustellen oder ein hohes Maß an Fotorealismus zu erreichen. In diesem Artikel stellen wir Anything in Any Scene vor, ein neuartiges und generisches Framework für realistische Videosimulation, das nahtlos jedes Objekt in ein bestehendes dynamisches Video einfügt, wobei ein besonderer Schwerpunkt auf physikalischem Realismus liegt. Unser vorgeschlagenes allgemeines Framework umfasst drei Schlüsselprozesse: 1) die Integration eines realistischen Objekts in ein gegebenes Szenenvideo mit korrekter Platzierung, um geometrischen Realismus zu gewährleisten; 2) die Schätzung der Himmels- und Umgebungsbeleuchtungsverteilung sowie die Simulation realistischer Schatten, um den Lichtrealismus zu verbessern; 3) die Verwendung eines Stiltransfer-Netzwerks, das das endgültige Videoausgabesignal verfeinert, um den Fotorealismus zu maximieren. Wir demonstrieren experimentell, dass das Anything in Any Scene Framework simulierte Videos mit hohem geometrischem Realismus, Lichtrealismus und Fotorealismus erzeugt. Indem es die Herausforderungen im Zusammenhang mit der Videodatengenerierung erheblich reduziert, bietet unser Framework eine effiziente und kostengünstige Lösung zur Beschaffung hochwertiger Videos. Darüber hinaus reichen seine Anwendungen weit über die Videodatenaugmentation hinaus und zeigen vielversprechendes Potenzial in der virtuellen Realität, Videobearbeitung und verschiedenen anderen videobasierten Anwendungen. Bitte besuchen Sie unsere Projektwebsite https://anythinginanyscene.github.io, um auf unseren Projektcode und weitere hochauflösende Videoergebnisse zuzugreifen.
Wir stellen das ReplaceAnything3D-Modell (RAM3D) vor, eine neuartige textgesteuerte Methode zur Bearbeitung von 3D-Szenen, die den Austausch spezifischer Objekte innerhalb einer Szene ermöglicht. Bei Eingabe von Mehransichtsbildern einer Szene, einem Textprompt, der das zu ersetzende Objekt beschreibt, und einem Textprompt, der das neue Objekt beschreibt, kann unser Erase-and-Replace-Ansatz Objekte in der Szene effektiv durch neu generierte Inhalte ersetzen, wobei die 3D-Konsistenz über mehrere Blickwinkel hinweg erhalten bleibt. Wir demonstrieren die Vielseitigkeit von ReplaceAnything3D, indem wir es auf verschiedene realistische 3D-Szenen anwenden und Ergebnisse zeigen, bei denen modifizierte Vordergrundobjekte nahtlos in den Rest der Szene integriert sind, ohne deren Gesamtintegrität zu beeinträchtigen.
Wir präsentieren CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, eine Methode zur Vorhersage zukünftiger 3D-Szenen basierend auf vergangenen Beobachtungen, wie beispielsweise 2D-egozentrischen Bildern. Unsere Methode bildet ein Bild auf eine Verteilung über plausible 3D-latente Szenenkonfigurationen ab, indem ein probabilistischer Encoder verwendet wird, und sagt die Entwicklung der hypothetisierten Szenen über die Zeit voraus. Unsere latente Szenendarstellung konditioniert ein globales Neural Radiance Field (NeRF), um ein 3D-Szenenmodell darzustellen, was erklärbare Vorhersagen und unkomplizierte nachgelagerte Anwendungen ermöglicht. Dieser Ansatz geht über bisherige Arbeiten im Bereich des neuronalen Renderings hinaus, indem komplexe Szenarien von Unsicherheiten in Umweltzuständen und -dynamiken berücksichtigt werden. Wir verwenden ein zweistufiges Training von Pose-Conditional-VAE und NeRF, um 3D-Darstellungen zu erlernen. Zusätzlich sagen wir latente Szenendarstellungen autoregressiv als teilweise beobachtbaren Markov-Entscheidungsprozess voraus, wobei ein Mixture Density Network eingesetzt wird. Wir demonstrieren den Nutzen unserer Methode in realistischen Szenarien mithilfe des CARLA-Fahrsimulators, wo CARFF verwendet werden kann, um effiziente Trajektorien- und Notfallplanung in komplexen Multi-Agenten-Szenarien des autonomen Fahrens mit visuellen Verdeckungen zu ermöglichen.