HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

11 papers found

RAPTOR: Rekursives abstraktives Verarbeitungsverfahren für baumorganisierte Informationsbeschaffung
RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

Jan 31

ByParth Sarthi, Salman Abdullah, Aditi Tuli, Shubh Khanna, Anna Goldie, Christopher D. Manning

Retrieval-augmentierte Sprachmodelle können sich besser an Veränderungen im Weltzustand anpassen und langfristiges Wissen integrieren. Die meisten bestehenden Methoden rufen jedoch nur kurze, zusammenhängende Textabschnitte aus einem Retrieval-Korpus ab, was das ganzheitliche Verständnis des Gesamtkontexts eines Dokuments einschränkt. Wir führen einen neuartigen Ansatz ein, bei dem Textabschnitte rekursiv eingebettet, geclustert und zusammengefasst werden, wodurch ein Baum mit unterschiedlichen Zusammenfassungsebenen von unten nach oben aufgebaut wird. Zum Zeitpunkt der Inferenz greift unser RAPTOR-Modell auf diesen Baum zu und integriert Informationen aus umfangreichen Dokumenten auf verschiedenen Abstraktionsebenen. Kontrollierte Experimente zeigen, dass das Retrieval mit rekursiven Zusammenfassungen signifikante Verbesserungen gegenüber traditionellen retrieval-augmentierten Sprachmodellen bei mehreren Aufgaben bietet. Bei Frage-Antwort-Aufgaben, die komplexe, mehrstufige Schlussfolgerungen erfordern, erzielen wir state-of-the-art Ergebnisse; beispielsweise können wir durch die Kombination von RAPTOR-Retrieval mit GPT-4 die beste Leistung auf dem QuALITY-Benchmark um 20 % in absoluter Genauigkeit verbessern.

Infini-gram: Skalierung unbegrenzter n-Gramm-Sprachmodelle auf eine Billion Tokens
Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

Jan 30

ByJiacheng Liu, Sewon Min, Luke Zettlemoyer, Yejin Choi, Hannaneh Hajishirzi

Sind n-Gramm-Sprachmodelle in dieser Ära von neuronalen großen Sprachmodellen (LLMs) noch relevant? Unsere Antwort lautet ja, und wir zeigen ihren Wert sowohl in der Textanalyse als auch bei der Verbesserung neuronaler LLMs. Dies erfordert jedoch eine Modernisierung von n-Gramm-Modellen in zwei Aspekten. Erstens trainieren wir sie im gleichen Datenumfang wie neuronale LLMs – 1,4 Billionen Tokens. Dies ist das größte jemals gebaute n-Gramm-Modell. Zweitens verwenden bestehende n-Gramm-Modelle kleine n-Werte, was ihre Leistung beeinträchtigt; wir erlauben stattdessen, dass n beliebig groß sein kann, indem wir ein neues infty-Gramm-LM mit Backoff einführen. Anstatt n-Gramm-Zähltabellen vorab zu berechnen (was sehr kostspielig wäre), entwickeln wir eine Engine namens infini-gram – angetrieben durch Suffix-Arrays –, die infty-Gramm- (sowie n-Gramm- mit beliebigem n) Wahrscheinlichkeiten mit Millisekunden-Latenz berechnen kann. Das infty-Gramm-Framework und die infini-gram-Engine ermöglichen es uns, viele neue und interessante Analysen von menschengeschriebenem und maschinell generiertem Text durchzuführen: Wir stellen fest, dass das infty-Gramm-LM eine recht hohe Genauigkeit bei der Vorhersage des nächsten Tokens aufweist (47 %) und neuronale LLMs ergänzen kann, um deren Sprachmodellierungs-Perplexitäten erheblich zu reduzieren. Bei der Analyse von maschinell generiertem Text beobachten wir auch Unregelmäßigkeiten in der Übereinstimmungsstufe zwischen Maschine und infty-Gramm in Bezug auf die Suffixlänge, was auf Mängel im Pretraining neuronaler LLMs und in den Positions-Embeddings von Transformern hinweist. Wir veröffentlichen unsere infini-gram-Engine als Open Source in der Hoffnung, weitere Studien darüber zu ermöglichen, wie man wortgetreue Informationen aus großen Textkorpora am besten nutzen kann.

Agil aber sicher: Erlernen kollisionsfreier Hochgeschwindigkeitsfortbewegung mit Beinrobotern
Agile But Safe: Learning Collision-Free High-Speed Legged Locomotion

Jan 31

ByTairan He, Chong Zhang, Wenli Xiao, Guanqi He, Changliu Liu, Guanya Shi

Beinroboter, die in unübersichtlichen Umgebungen navigieren, müssen gleichzeitig agil sein, um Aufgaben effizient auszuführen, und sicher, um Kollisionen mit Hindernissen oder Menschen zu vermeiden. Bisherige Studien entwickeln entweder konservative Controller (< 1,0 m/s), um Sicherheit zu gewährleisten, oder konzentrieren sich auf Agilität, ohne potenziell gefährliche Kollisionen zu berücksichtigen. Dieses Paper stellt Agile But Safe (ABS) vor, ein lernbasiertes Steuerungsframework, das agile und kollisionsfreie Fortbewegung für vierbeinige Roboter ermöglicht. ABS umfasst eine agile Policy zur Ausführung agiler Motorikfähigkeiten inmitten von Hindernissen und eine Recovery Policy, um Fehler zu verhindern, wodurch gemeinsam eine schnelle und kollisionsfreie Navigation erreicht wird. Der Policy-Wechsel in ABS wird durch ein gelerntes, kontrolltheoretisches Reach-Avoid-Wertnetzwerk gesteuert, das auch die Recovery Policy als Zielfunktion leitet und so den Roboter in einer geschlossenen Schleife schützt. Der Trainingsprozess umfasst das Erlernen der agilen Policy, des Reach-Avoid-Wertnetzwerks, der Recovery Policy und eines Exterozeptions-Repräsentationsnetzwerks, alles in der Simulation. Diese trainierten Module können direkt in der realen Welt mit Onboard-Sensorik und -Berechnung eingesetzt werden, was zu schneller und kollisionsfreier Navigation in engen Innen- und Außenbereichen mit sowohl statischen als auch dynamischen Hindernissen führt.

AnimateLCM: Beschleunigung der Animation personalisierter Diffusionsmodelle und Adapter durch entkoppeltes Konsistenzlernen
AnimateLCM: Accelerating the Animation of Personalized Diffusion Models and Adapters with Decoupled Consistency Learning

Feb 1

ByFu-Yun Wang, Zhaoyang Huang, Xiaoyu Shi, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li

Video-Diffusionsmodelle haben zunehmend Aufmerksamkeit erregt, da sie in der Lage sind, sowohl kohärente als auch hochwertige Videos zu erzeugen. Der iterative Entrauschungsprozess macht sie jedoch rechenintensiv und zeitaufwendig, was ihre Anwendungsmöglichkeiten einschränkt. Inspiriert vom Consistency Model (CM), das vortrainierte Bild-Diffusionsmodelle destilliert, um das Sampling mit minimalen Schritten zu beschleunigen, und dessen erfolgreicher Erweiterung, dem Latent Consistency Model (LCM) für die bedingte Bildgenerierung, schlagen wir AnimateLCM vor, das eine hochwertige Videogenerierung in minimalen Schritten ermöglicht. Anstatt direkt Konsistenzlernen auf dem Rohvideodatensatz durchzuführen, schlagen wir eine entkoppelte Konsistenzlernstrategie vor, die die Destillation von Bildgenerierungs-Priors und Bewegungsgenerierungs-Priors entkoppelt, was die Trainings effizienz verbessert und die visuelle Qualität der Generierung steigert. Zusätzlich schlagen wir eine effiziente Strategie vor, um bestehende Plug-and-Play-Adapter aus der Stable-Diffusion-Community (z. B. ControlNet für kontrollierbare Generierung) an unser destilliertes textbedingtes Video-Consistency-Modell anzupassen oder Adapter von Grund auf zu trainieren, ohne die Sampling-Geschwindigkeit zu beeinträchtigen. Wir validieren die vorgeschlagene Strategie in der bildbedingten Videogenerierung und der layoutbedingten Videogenerierung, wobei in allen Fällen erstklassige Ergebnisse erzielt werden. Experimentelle Ergebnisse bestätigen die Effektivität unserer Methode. Code und Gewichte werden öffentlich zugänglich gemacht. Weitere Details sind unter https://github.com/G-U-N/AnimateLCM verfügbar.

LongAlign: Ein Rezept für die Langkontext-Ausrichtung von großen Sprachmodellen
LongAlign: A Recipe for Long Context Alignment of Large Language Models

Jan 31

ByYushi Bai, Xin Lv, Jiajie Zhang, Yuze He, Ji Qi, Lei Hou, Jie Tang, Yuxiao Dong, Juanzi Li

Die Erweiterung großer Sprachmodelle, um lange Kontexte effektiv zu verarbeiten, erfordert eine Instruktions-Feinabstimmung auf Eingabesequenzen ähnlicher Länge. Um dies zu erreichen, präsentieren wir LongAlign – ein Rezept für Instruktionsdaten, Training und Evaluation zur Ausrichtung auf lange Kontexte. Zunächst erstellen wir einen langen Instruktionsfolge-Datensatz mit Self-Instruct. Um die Datenvielfalt sicherzustellen, deckt er eine breite Palette von Aufgaben aus verschiedenen langen Kontextquellen ab. Zweitens verwenden wir die Strategien des Packens und sortierten Batchings, um das überwachte Feinabstimmen auf Daten mit variierenden Längenverteilungen zu beschleunigen. Zusätzlich entwickeln wir eine Methode zur Gewichtung des Verlusts, um den Beitrag zum Verlust über verschiedene Sequenzen während des Packtrainings auszugleichen. Drittens führen wir den LongBench-Chat-Benchmark ein, um die Fähigkeiten zur Instruktionsfolge bei Abfragen mit einer Länge von 10k bis 100k zu bewerten. Experimente zeigen, dass LongAlign bestehende Rezepte für LLMs in Aufgaben mit langen Kontexten um bis zu 30\% übertrifft, während gleichzeitig die Kompetenz im Umgang mit kurzen, generischen Aufgaben erhalten bleibt. Der Code, die Daten und die langausgerichteten Modelle sind unter https://github.com/THUDM/LongAlign quelloffen verfügbar.

Effiziente Werkzeugnutzung durch Kette-der-Abstraktion-Denken
Efficient Tool Use with Chain-of-Abstraction Reasoning

Jan 30

BySilin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang

Um eine zuverlässige Argumentation zu erreichen, die den menschlichen Erwartungen entspricht, müssen große Sprachmodelle (LLMs) ihre Argumentation auf reales Wissen stützen (z. B. Web-Fakten, mathematische und physikalische Regeln). Werkzeuge helfen LLMs, auf dieses externe Wissen zuzugreifen, aber es gibt weiterhin Herausforderungen bei der Feinabstimmung von LLM-Agenten (z. B. Toolformer), um Werkzeuge in mehrstufigen Argumentationsproblemen aufzurufen, bei denen miteinander verbundene Werkzeugaufrufe eine ganzheitliche und effiziente Planung der Werkzeugnutzung erfordern. In dieser Arbeit schlagen wir eine neue Methode vor, mit der LLMs Werkzeuge in mehrstufigen Argumentationen besser nutzen können. Unsere Methode, Chain-of-Abstraction (CoA), trainiert LLMs, zunächst Argumentationsketten mit abstrakten Platzhaltern zu dekodieren und dann domänenspezifische Werkzeuge aufzurufen, um jede Argumentationskette durch das Einfügen spezifischen Wissens zu konkretisieren. Diese Planung mit abstrakten Ketten ermöglicht es LLMs, allgemeinere Argumentationsstrategien zu erlernen, die robust gegenüber Verschiebungen des domänenspezifischen Wissens (z. B. mathematische Ergebnisse) sind, die für verschiedene Argumentationsfragen relevant sind. Sie ermöglicht es LLMs auch, die Dekodierung und den Aufruf externer Werkzeuge parallel durchzuführen, wodurch die Verzögerung bei der Inferenz vermieden wird, die durch das Warten auf Werkzeugantworten entsteht. In den Bereichen mathematische Argumentation und Wiki-QA zeigen wir, dass unsere Methode durchweg frühere Chain-of-Thought- und werkzeuggestützte Baselines sowohl auf In-Distribution- als auch auf Out-of-Distribution-Testsets übertrifft, mit einer durchschnittlichen Verbesserung der QA-Genauigkeit von ~6 % absolut. LLM-Agenten, die mit unserer Methode trainiert wurden, zeigen auch eine effizientere Werkzeugnutzung, wobei die Inferenzgeschwindigkeit im Durchschnitt ~1,4-mal schneller ist als bei werkzeuggestützten LLM-Baselines.

Fortschritte in der 3D-Generierung: Ein Überblick
Advances in 3D Generation: A Survey

Jan 31

ByXiaoyu Li, Qi Zhang, Di Kang, Weihao Cheng, Yiming Gao, Jingbo Zhang, Zhihao Liang, Jing Liao, Yan-Pei Cao, Ying Shan

Die Erzeugung von 3D-Modellen steht im Zentrum der Computergrafik und war über Jahrzehnte hinweg Gegenstand intensiver Forschung. Mit dem Aufkommen fortschrittlicher neuronaler Repräsentationen und generativer Modelle entwickelt sich das Feld der 3D-Inhaltserzeugung rasant und ermöglicht die Erstellung immer hochwertigerer und vielfältigerer 3D-Modelle. Das schnelle Wachstum dieses Bereichs macht es schwierig, alle aktuellen Entwicklungen im Blick zu behalten. In dieser Übersichtsarbeit möchten wir die grundlegenden Methodologien der 3D-Generierung vorstellen und einen strukturierten Fahrplan etablieren, der 3D-Repräsentationen, Generierungsmethoden, Datensätze und entsprechende Anwendungen umfasst. Insbesondere führen wir die 3D-Repräsentationen ein, die als Rückgrat für die 3D-Generierung dienen. Darüber hinaus bieten wir einen umfassenden Überblick über die schnell wachsende Literatur zu Generierungsmethoden, kategorisiert nach Art der algorithmischen Paradigmen, einschließlich Feedforward-Generierung, optimierungsbasierter Generierung, prozeduraler Generierung und generativer Neuansichtssynthese. Schließlich diskutieren wir verfügbare Datensätze, Anwendungen und offene Herausforderungen. Wir hoffen, dass diese Übersichtsarbeit den Lesern hilft, dieses spannende Thema zu erkunden und weitere Fortschritte im Bereich der 3D-Inhaltserzeugung zu fördern.

Alles in jeder Szene: Fotorealistische Videoobjekteinfügung
Anything in Any Scene: Photorealistic Video Object Insertion

Jan 30

ByChen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu

Realistische Videosimulation hat ein erhebliches Potenzial in verschiedenen Anwendungsbereichen gezeigt, von der virtuellen Realität bis hin zur Filmproduktion. Dies gilt insbesondere für Szenarien, in denen die Aufnahme von Videos in realen Umgebungen unpraktisch oder kostspielig ist. Bestehende Ansätze in der Videosimulation scheitern oft daran, die Beleuchtungsumgebung präzise zu modellieren, die Objektgeometrie korrekt darzustellen oder ein hohes Maß an Fotorealismus zu erreichen. In diesem Artikel stellen wir Anything in Any Scene vor, ein neuartiges und generisches Framework für realistische Videosimulation, das nahtlos jedes Objekt in ein bestehendes dynamisches Video einfügt, wobei ein besonderer Schwerpunkt auf physikalischem Realismus liegt. Unser vorgeschlagenes allgemeines Framework umfasst drei Schlüsselprozesse: 1) die Integration eines realistischen Objekts in ein gegebenes Szenenvideo mit korrekter Platzierung, um geometrischen Realismus zu gewährleisten; 2) die Schätzung der Himmels- und Umgebungsbeleuchtungsverteilung sowie die Simulation realistischer Schatten, um den Lichtrealismus zu verbessern; 3) die Verwendung eines Stiltransfer-Netzwerks, das das endgültige Videoausgabesignal verfeinert, um den Fotorealismus zu maximieren. Wir demonstrieren experimentell, dass das Anything in Any Scene Framework simulierte Videos mit hohem geometrischem Realismus, Lichtrealismus und Fotorealismus erzeugt. Indem es die Herausforderungen im Zusammenhang mit der Videodatengenerierung erheblich reduziert, bietet unser Framework eine effiziente und kostengünstige Lösung zur Beschaffung hochwertiger Videos. Darüber hinaus reichen seine Anwendungen weit über die Videodatenaugmentation hinaus und zeigen vielversprechendes Potenzial in der virtuellen Realität, Videobearbeitung und verschiedenen anderen videobasierten Anwendungen. Bitte besuchen Sie unsere Projektwebsite https://anythinginanyscene.github.io, um auf unseren Projektcode und weitere hochauflösende Videoergebnisse zuzugreifen.

Aasgeier: Destillieren von Transformern in Langfaltungsmodelle
Scavenging Hyena: Distilling Transformers into Long Convolution Models

Jan 31

ByTokiniaina Raharison Ralambomihanta, Shahrad Mohammadzadeh, Mohammad Sami Nur Islam, Wassim Jabbour, Laurence Liang

Die rasante Entwicklung von Large Language Models (LLMs), verkörpert durch Architekturen wie GPT-4, hat die Landschaft der natürlichen Sprachverarbeitung neu gestaltet. Dieses Papier stellt einen bahnbrechenden Ansatz vor, um die Effizienzprobleme im Zusammenhang mit dem Pre-Training von LLMs zu adressieren, und schlägt die Verwendung von Knowledge Distillation für den architekturübergreifenden Transfer vor. Indem wir Erkenntnisse aus dem effizienten Hyena-Mechanismus nutzen, ersetzen wir in unserem Ansatz die Attention Heads in Transformer-Modellen durch Hyena, was eine kostengünstige Alternative zum traditionellen Pre-Training bietet und gleichzeitig die Herausforderung der Verarbeitung langer kontextueller Informationen, die in quadratischen Attention-Mechanismen inhärent ist, bewältigt. Im Gegensatz zu herkömmlichen, auf Kompression fokussierten Methoden verbessert unsere Technik nicht nur die Inferenzgeschwindigkeit, sondern übertrifft das Pre-Training auch in Bezug auf Genauigkeit und Effizienz. In der Ära der sich weiterentwickelnden LLMs trägt unsere Arbeit zur Verfolgung nachhaltiger KI-Lösungen bei und schafft ein Gleichgewicht zwischen Rechenleistung und Umweltauswirkungen.

ReplaceAnything3D: Textgesteuerte 3D-Szenenbearbeitung mit kompositionellen neuronalen Strahlungsfeldern
ReplaceAnything3D:Text-Guided 3D Scene Editing with Compositional Neural Radiance Fields

Jan 31

ByEdward Bartrum, Thu Nguyen-Phuoc, Chris Xie, Zhengqin Li, Numair Khan, Armen Avetisyan, Douglas Lanman, Lei Xiao

Wir stellen das ReplaceAnything3D-Modell (RAM3D) vor, eine neuartige textgesteuerte Methode zur Bearbeitung von 3D-Szenen, die den Austausch spezifischer Objekte innerhalb einer Szene ermöglicht. Bei Eingabe von Mehransichtsbildern einer Szene, einem Textprompt, der das zu ersetzende Objekt beschreibt, und einem Textprompt, der das neue Objekt beschreibt, kann unser Erase-and-Replace-Ansatz Objekte in der Szene effektiv durch neu generierte Inhalte ersetzen, wobei die 3D-Konsistenz über mehrere Blickwinkel hinweg erhalten bleibt. Wir demonstrieren die Vielseitigkeit von ReplaceAnything3D, indem wir es auf verschiedene realistische 3D-Szenen anwenden und Ergebnisse zeigen, bei denen modifizierte Vordergrundobjekte nahtlos in den Rest der Szene integriert sind, ohne deren Gesamtintegrität zu beeinträchtigen.

CARFF: Bedingtes auto-kodiertes Strahlungsfeld für die 3D-Szenenvorhersage
CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting

Jan 31

ByJiezhi Yang, Khushi Desai, Charles Packer, Harshil Bhatia, Nicholas Rhinehart, Rowan McAllister, Joseph Gonzalez

Wir präsentieren CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, eine Methode zur Vorhersage zukünftiger 3D-Szenen basierend auf vergangenen Beobachtungen, wie beispielsweise 2D-egozentrischen Bildern. Unsere Methode bildet ein Bild auf eine Verteilung über plausible 3D-latente Szenenkonfigurationen ab, indem ein probabilistischer Encoder verwendet wird, und sagt die Entwicklung der hypothetisierten Szenen über die Zeit voraus. Unsere latente Szenendarstellung konditioniert ein globales Neural Radiance Field (NeRF), um ein 3D-Szenenmodell darzustellen, was erklärbare Vorhersagen und unkomplizierte nachgelagerte Anwendungen ermöglicht. Dieser Ansatz geht über bisherige Arbeiten im Bereich des neuronalen Renderings hinaus, indem komplexe Szenarien von Unsicherheiten in Umweltzuständen und -dynamiken berücksichtigt werden. Wir verwenden ein zweistufiges Training von Pose-Conditional-VAE und NeRF, um 3D-Darstellungen zu erlernen. Zusätzlich sagen wir latente Szenendarstellungen autoregressiv als teilweise beobachtbaren Markov-Entscheidungsprozess voraus, wobei ein Mixture Density Network eingesetzt wird. Wir demonstrieren den Nutzen unserer Methode in realistischen Szenarien mithilfe des CARLA-Fahrsimulators, wo CARFF verwendet werden kann, um effiziente Trajektorien- und Notfallplanung in komplexen Multi-Agenten-Szenarien des autonomen Fahrens mit visuellen Verdeckungen zu ermöglichen.

Alles in jeder Szene: Fotorealistische Videoobjekteinfügung
Anything in Any Scene: Photorealistic Video Object Insertion

Jan 30

ByChen Bai, Zeman Shao, Guoxiang Zhang, Di Liang, Jie Yang, Zhuorui Zhang, Yujian Guo, Chengzhang Zhong, Yiqiao Qiu, Zhendong Wang, Yichen Guan, Xiaoyin Zheng, Tao Wang, Cheng Lu