HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

21 papers found

TRAUBE: Verallgemeinerung von Roboterpolitik durch Präferenzabstimmung
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

Trotz der jüngsten Fortschritte von Modellen für Vision-Sprache-Aktion (VLA) bei einer Vielzahl von Robotikaufgaben leiden sie unter kritischen Problemen wie mangelnder Verallgemeinerbarkeit auf unbekannte Aufgaben, aufgrund ihrer ausschließlichen Abhängigkeit von Verhaltensklonung ausschließlich von erfolgreichen Durchläufen. Darüber hinaus werden sie typischerweise feinabgestimmt, um Demonstrationen nachzubilden, die von Experten unter verschiedenen Einstellungen gesammelt wurden, wodurch Verteilungsvoreingenommenheit eingeführt wird und ihre Anpassungsfähigkeit an vielfältige Manipulationsziele wie Effizienz, Sicherheit und Aufgabenerfüllung eingeschränkt wird. Um diese Lücke zu überbrücken, stellen wir GRAPE vor: Generalisierung von Roboterpolitik durch Präferenzausrichtung. Speziell richtet GRAPE VLAs auf Trajektorienebene aus und modelliert implizit Belohnungen aus sowohl erfolgreichen als auch fehlgeschlagenen Versuchen, um die Verallgemeinerbarkeit auf vielfältige Aufgaben zu steigern. Darüber hinaus zerlegt GRAPE komplexe Manipulationsaufgaben in unabhängige Stufen und leitet die Präferenzmodellierung automatisch durch angepasste raumzeitliche Einschränkungen mit von einem großen Vision-Sprache-Modell vorgeschlagenen Schlüsselpunkten. Diese Einschränkungen sind flexibel und können angepasst werden, um das Modell mit unterschiedlichen Zielen wie Sicherheit, Effizienz oder Aufgabenerfolg in Einklang zu bringen. Wir evaluieren GRAPE über eine Vielzahl von Aufgaben in sowohl realen als auch simulierten Umgebungen. Experimentelle Ergebnisse zeigen, dass GRAPE die Leistung von modernsten VLA-Modellen verbessert, indem die Erfolgsraten bei in-domain und unbekannten Manipulationsaufgaben um 51,79 % bzw. 60,36 % gesteigert werden. Darüber hinaus kann GRAPE mit verschiedenen Zielen wie Sicherheit und Effizienz in Einklang gebracht werden, wodurch Kollisionsraten um 44,31 % bzw. Durchlaufschrittlängen um 11,15 % reduziert werden. Der gesamte Code, Modelle und Daten sind unter https://grape-vla.github.io/ verfügbar.

Video-Tiefe ohne Videomodelle
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

Die Tiefenschätzung von Videos hebt monokulare Videoclips auf 3D, indem sie dichte Tiefenwerte in jedem Frame ableitet. Die jüngsten Fortschritte in der Tiefenschätzung aus Einzelbildern, die durch den Aufstieg großer Grundlagenmodelle und die Verwendung synthetischer Trainingsdaten vorangetrieben wurden, haben das Interesse an der Tiefenschätzung von Videos wiederbelebt. Allerdings vernachlässigt die naive Anwendung eines Einzelbild-Tiefenschätzers auf jeden Frame eines Videos die zeitliche Kontinuität, was nicht nur zu Flackern führt, sondern auch versagen kann, wenn Kamerabewegungen plötzliche Änderungen im Tiefenbereich verursachen. Eine offensichtliche und fundierte Lösung wäre, aufbauend auf Videogundelagenmodellen zu arbeiten, aber diese haben ihre eigenen Einschränkungen; darunter teures Training und Inferenz, unvollkommene 3D-Konsistenz und Stitching-Routinen für die festen (kurzen) Ausgaben. Wir gehen einen Schritt zurück und zeigen, wie man ein Einzelbild-Latenzdiffusionsmodell (LDM) in einen hochmodernen Video-Tiefenschätzer umwandeln kann. Unser Modell, das wir RollingDepth nennen, hat zwei Hauptbestandteile: (i) ein Multi-Frame-Tiefenschätzer, der von einem Einzelbild-LDM abgeleitet ist und sehr kurze Videoclips (typischerweise Frame-Triplets) in Tiefenclips umwandelt. (ii) ein robuster, auf Optimierung basierender Registrierungsalgorithmus, der Tiefenclips, die mit verschiedenen Bildraten abgetastet wurden, optimal zu einem konsistenten Video zusammensetzt. RollingDepth ist in der Lage, lange Videos mit Hunderten von Frames effizient zu verarbeiten und liefert genauere Tiefenvideos als dedizierte Video-Tiefenschätzer und leistungsstarke Einzelbildmodelle. Projektseite: rollingdepth.github.io.

Über Beispiele hinaus: Hochrangiges automatisches Schlussfolgerungsschema im Kontextlernen mittels MCTS
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

In-Context Learning (ICL) ermöglicht es großen Sprachmodellen (LLMs), sich mit nachgelagerten Aufgaben durch ausgefeilte Aufforderungen und hochwertige Demonstrationen zu befassen. Allerdings zeigt dieses traditionelle ICL-Paradigma Grenzen auf, wenn es um komplexe mathematische Schlussfolgerungsaufgaben geht, hauptsächlich aufgrund seiner starken Abhängigkeit von der Qualität der Beispiele und der Notwendigkeit menschlichen Eingreifens in herausfordernden Szenarien. Um diese Einschränkungen anzugehen, präsentiert dieser Artikel HiAR-ICL, ein High-level Automated Reasoning-Paradigma im ICL, das den Fokus von spezifischen Beispielen auf abstraktes Denken verlagert und das herkömmliche Konzept des Kontexts im ICL erweitert. HiAR-ICL führt fünf atomare Schlussfolgerungsaktionen als grundlegende Komponenten zur Konstruktion von kettenstrukturierten Mustern ein. Unter Verwendung der Monte-Carlo-Baumsuche untersuchen wir Schlussfolgerungswege und konstruieren Gedankenkarten, um nachfolgende Inferenzen zu leiten. Anschließend entwickeln wir einen kognitiven Komplexitätsrahmen, der Probleme dynamisch mit geeigneten Gedankenkarten abgleicht. Experimentelle Ergebnisse zeigen die Wirksamkeit von HiAR-ICL, das eine Genauigkeit von 79,6% auf dem MATH-Benchmark mit Qwen2.5-7B-Instruct erreicht und damit GPT-4o (76,6%) und Claude 3.5 (71,1%) übertrifft.

Zur domänenspezifischen Feinabstimmung für multimodale große Sprachmodelle
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

In den letzten Jahren hat die rasante Entwicklung von allgemeinen multimodalen großen Sprachmodellen (MLLMs) stattgefunden. Die Anpassung allgemeiner MLLMs an spezifische Bereiche wie wissenschaftliche Gebiete und industrielle Anwendungen ist jedoch weniger erforscht. Diese Arbeit untersucht systematisch die Domänenanpassung von MLLMs durch Nachtraining und konzentriert sich auf die Datensynthese, Trainingspipelines und Aufgabenauswertung. (1) Datensynthese: Unter Verwendung von Open-Source-Modellen entwickeln wir einen visuellen Anweisungssynthesizer, der effektiv vielfältige visuelle Anweisungsaufgaben aus domänenspezifischen Bildunterschriften generiert. Unsere synthetischen Aufgaben übertreffen diejenigen, die durch manuelle Regeln, GPT-4 und GPT-4V generiert wurden, bei der Verbesserung der domänenspezifischen Leistung von MLLMs. (2) Trainingspipeline: Während das zweistufige Training - zunächst auf Bildunterschriften, gefolgt von visuellen Anweisungsaufgaben - üblicherweise für die Entwicklung allgemeiner MLLMs verwendet wird, wenden wir eine einstufige Trainingspipeline an, um die Aufgabenvielfalt für das domänenspezifische Nachtraining zu verbessern. (3) Aufgabenauswertung: Wir führen Experimente in zwei Bereichen, Biomedizin und Lebensmittel, durch, indem wir MLLMs unterschiedlicher Quellen und Skalen (z. B. Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) nachtrainieren und dann die Leistung der MLLMs bei verschiedenen domänenspezifischen Aufgaben auswerten. Um weitere Forschung in der Domänenanpassung von MLLMs zu unterstützen, werden wir unsere Implementierungen als Open Source veröffentlichen.

Yi-Blitz Technischer Bericht
Yi-Lightning Technical Report

Dec 2

By01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang

Dieser technische Bericht präsentiert Yi-Lightning, unser neuestes Flaggschiffmodell für große Sprachmodelle (LLM). Es erzielt eine herausragende Leistung und belegt insgesamt den 6. Platz in der Chatbot Arena, mit besonders starken Ergebnissen (Platz 2 bis 4) in spezialisierten Kategorien wie Chinesisch, Mathematik, Codierung und schwierigen Anfragen. Yi-Lightning nutzt eine verbesserte Mixture-of-Experts (MoE) Architektur, die fortschrittliche Expertensegmentierung und Routing-Mechanismen in Verbindung mit optimierten KV-Caching-Techniken bietet. Unser Entwicklungsprozess umfasst umfassendes Pre-Training, überwachtes Feintuning (SFT) und Verstärkungslernen aus menschlichem Feedback (RLHF), bei dem wir gezielte Strategien für das mehrstufige Training, die Konstruktion synthetischer Daten und die Modellierung von Belohnungen entwickeln. Darüber hinaus implementieren wir RAISE (Responsible AI Safety Engine), ein vierkomponentiges Framework zur Bewältigung von Sicherheitsproblemen in den Phasen des Pre-Trainings, Post-Trainings und des Betriebs. Gestärkt durch unsere skalierbare Supercomputing-Infrastruktur reduzieren all diese Innovationen erheblich die Schulungs-, Bereitstellungs- und Inferenzkosten, während gleichzeitig hohe Leistungsstandards aufrechterhalten werden. Durch weitere Evaluierungen an öffentlichen akademischen Benchmarks zeigt Yi-Lightning eine wettbewerbsfähige Leistung gegenüber erstklassigen LLMs, wobei wir eine bemerkenswerte Diskrepanz zwischen traditionellen, statischen Benchmark-Ergebnissen und den dynamischen menschlichen Präferenzen in der realen Welt beobachten. Diese Beobachtung fordert eine kritische Neubewertung des Nutzens konventioneller Benchmarks bei der Entwicklung intelligenterer und leistungsstärkerer KI-Systeme für praktische Anwendungen an. Yi-Lightning ist jetzt über unsere Entwicklerplattform unter https://platform.lingyiwanwu.com verfügbar.

Spatiotemporaler Skip-Leitfaden zur Verbesserung der Video-Diffusionssampling
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

Diffusionsmodelle haben sich als leistungsstarkes Werkzeug zur Erzeugung hochwertiger Bilder, Videos und 3D-Inhalte etabliert. Während Abtastführungstechniken wie CFG die Qualität verbessern, reduzieren sie Vielfalt und Bewegung. Autoguidance mildert diese Probleme, erfordert jedoch zusätzliches Training eines schwachen Modells, was seine Praktikabilität für groß angelegte Modelle einschränkt. In dieser Arbeit stellen wir Spatiotemporal Skip Guidance (STG) vor, eine einfache, trainingfreie Abtastführungsmethode zur Verbesserung von Video-Diffusionsmodellen auf Basis von Transformatoren. STG verwendet ein implizites schwaches Modell durch Selbststörung und vermeidet so die Notwendigkeit externer Modelle oder zusätzlichen Trainings. Durch selektives Überspringen von spatiotemporalen Schichten erzeugt STG eine ausgerichtete, degradierte Version des Originalmodells, um die Qualität der Proben zu steigern, ohne Vielfalt oder Dynamik zu beeinträchtigen. Unsere Beiträge umfassen: (1) die Einführung von STG als effiziente, leistungsstarke Führungstechnik für Video-Diffusionsmodelle, (2) die Beseitigung des Bedarfs an Hilfsmodellen durch Simulation eines schwachen Modells durch Schichtüberspringen und (3) die Sicherstellung einer qualitätsverbesserten Führung, ohne die Vielfalt oder Dynamik der Proben zu beeinträchtigen, im Gegensatz zu CFG. Für weitere Ergebnisse besuchen Sie https://junhahyung.github.io/STGuidance.

Umgekehrtes Denken macht LLMs zu stärkeren Denkern.
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

Das umgekehrte Denken spielt eine entscheidende Rolle im menschlichen Denken. Menschen können nicht nur von einem Problem zu einer Lösung schlussfolgern, sondern auch umgekehrt, d.h. von der Lösung aus zum Problem gelangen. Dies verbessert oft die Gesamtleistung des Denkens, da es Konsistenzprüfungen zwischen ihrem Vorwärts- und Rückwärtsdenken ermöglicht. Um Große Sprachmodelle (LLMs) dazu zu befähigen, umgekehrtes Denken durchzuführen, stellen wir Reverse-Enhanced Thinking (RevThink) vor, ein Framework, das aus Datenanreicherung und Lernzielen besteht. In RevThink erweitern wir den Datensatz, indem wir strukturiertes Vorwärts-Rückwärts-Denken von einem Lehrmodell sammeln, bestehend aus: (1) der ursprünglichen Frage, (2) Vorwärtsdenken, (3) Rückwärtsfrage und (4) Rückwärtsdenken. Anschließend verwenden wir drei Ziele, um ein kleineres Schülermodell in einem Multi-Task-Learning-Stil zu trainieren: (a) Vorwärtsdenken aus einer Frage generieren, (b) eine Rückwärtsfrage aus einer Frage generieren und (c) Rückwärtsdenken aus der Rückwärtsfrage generieren. Experimente über 12 Datensätze, die Allgemeinwissen, Mathematik und logisches Denken abdecken, zeigen eine durchschnittliche Verbesserung von 13,53% gegenüber der Nullschussleistung des Schülermodells und eine Verbesserung von 6,84% gegenüber den stärksten Wissensverdichtungs-Baselines. Darüber hinaus zeigt unsere Methode eine Muster-Effizienz - unter Verwendung von nur 10% des korrekten Vorwärtsdenkens aus den Trainingsdaten übertrifft sie eine Standard-Feinabstimmungsmethode, die auf 10-mal mehr Vorwärtsdenken trainiert wurde. RevThink zeigt auch eine starke Verallgemeinerung auf außerhalb der Verteilung gehaltene Datensätze.

Zeitschritteinbettung sagt: Es ist Zeit, für das Video-Diffusionsmodell zu zwischenspeichern.
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

Als grundlegende Grundlage für die Videogenerierung werden Diffusionsmodelle durch die geringe Inferenzgeschwindigkeit aufgrund der sequenziellen Natur des Denoisings herausgefordert. Frühere Methoden beschleunigen die Modelle, indem sie Modellausgaben zwischenspeichern und wiederverwenden, die gleichmäßig ausgewählten Zeitpunkten entsprechen. Diese Strategie vernachlässigt jedoch die Tatsache, dass die Unterschiede zwischen den Modellausgaben nicht gleichmäßig über die Zeitpunkte verteilt sind, was die Auswahl der geeigneten Modellausgaben zum Zwischenspeichern erschwert und zu einem schlechten Gleichgewicht zwischen Inferenzeffizienz und visueller Qualität führt. In dieser Studie stellen wir Timestep Embedding Aware Cache (TeaCache) vor, einen trainingsfreien Zwischenspeicherungsansatz, der die schwankenden Unterschiede zwischen den Modellausgaben über die Zeitpunkte hinweg schätzt und nutzt. Anstatt die zeitaufwändigen Modellausgaben direkt zu verwenden, konzentriert sich TeaCache auf die Modellinputs, die eine starke Korrelation mit den Modellausgaben aufweisen und dabei vernachlässigbare Rechenkosten verursachen. TeaCache moduliert zunächst die rauschhaften Inputs mithilfe der Zeitpunkt-Einbettungen, um sicherzustellen, dass ihre Unterschiede diejenigen der Modellausgaben besser approximieren. Anschließend führt TeaCache eine Skalierungsstrategie ein, um die geschätzten Unterschiede zu verfeinern und nutzt sie zur Anzeige der Ausgabenzwischenspeicherung. Experimente zeigen, dass TeaCache eine Beschleunigung um bis zu 4,41-fache gegenüber Open-Sora-Plan erreicht, bei vernachlässigbarer (-0,07% Vbench-Score) Verschlechterung der visuellen Qualität.

FAM-Diffusion: Frequenz- und Aufmerksamkeitsmodulation für die Generierung hochauflösender Bilder mit stabiler Diffusion
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

Diffusionsmodelle sind effizient bei der Erzeugung hochwertiger Bilder. Sie sind jedoch nur wirksam, wenn sie mit der Auflösung arbeiten, die während des Trainings verwendet wurde. Inferenz bei skalierten Auflösungen führt zu sich wiederholenden Mustern und strukturellen Verzerrungen. Ein erneutes Training bei höheren Auflösungen wird schnell unerschwinglich. Daher sind Methoden, die es bereits vorhandenen Diffusionsmodellen ermöglichen, bei flexiblen Testzeitauflösungen zu arbeiten, äußerst wünschenswert. Frühere Arbeiten leiden unter häufigen Artefakten und führen oft zu großen Latenzzeiten. Wir schlagen zwei einfache Module vor, die kombiniert werden, um diese Probleme zu lösen. Wir führen ein Frequenzmodulations (FM)-Modul ein, das die Fourier-Domäne nutzt, um die globale Strukturkonsistenz zu verbessern, und ein Aufmerksamkeitsmodulations (AM)-Modul, das die Konsistenz lokaler Texturmuster verbessert, ein Problem, das in früheren Arbeiten weitgehend ignoriert wurde. Unsere Methode, genannt Fam-Diffusion, kann nahtlos in jedes latente Diffusionsmodell integriert werden und erfordert kein zusätzliches Training. Umfangreiche qualitative Ergebnisse heben die Wirksamkeit unserer Methode bei der Bewältigung struktureller und lokaler Artefakte hervor, während quantitative Ergebnisse eine Spitzenleistung zeigen. Außerdem vermeidet unsere Methode redundante Inferenztricks zur Verbesserung der Konsistenz, wie etwa patchbasierte oder progressive Generierung, was zu vernachlässigbaren Latenzzeiten führt.

Rätsel: Distillationsbasierte NAS zur Inferenz-optimierten LLMs
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

ByAkhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, aber ihre Übernahme wird durch hohe Rechenkosten während der Inferenz eingeschränkt. Während eine Erhöhung der Parameteranzahl die Genauigkeit verbessert, vergrößert sie auch die Kluft zwischen den modernsten Fähigkeiten und der praktischen Einsatzfähigkeit. Wir stellen Puzzle vor, ein Framework zur Beschleunigung der LLM-Inferenz auf spezifischer Hardware, während ihre Fähigkeiten erhalten bleiben. Durch eine innovative Anwendung der neuronalen Architektursuche (NAS) in einem beispiellosen Maßstab optimiert Puzzle systematisch Modelle mit zig Milliarden Parametern unter Hardwarebeschränkungen. Unser Ansatz nutzt blockweise lokale Wissensvermittlung (BLD) für parallele Architekturerkundung und setzt gemischt-ganzzahlige Programmierung für präzise Beschränkungsoptimierung ein. Wir zeigen den realen Einfluss unseres Frameworks durch Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), ein öffentlich verfügbares Modell, abgeleitet von Llama-3.1-70B-Instruct. Nemotron-51B erreicht eine 2,17-fache Beschleunigung der Inferenzdurchsatzgeschwindigkeit, passt auf eine einzelne NVIDIA H100 GPU und erhält dabei 98,4% der Fähigkeiten des Originalmodells. Nemotron-51B gilt derzeit als das genaueste Sprachmodell, das Inferenz auf einer einzelnen GPU mit großen Batch-Größen ermöglicht. Bemerkenswerterweise erforderte diese Transformation nur 45B Trainings-Token im Vergleich zu über 15T Token, die für das 70B-Modell verwendet wurden, von dem es abgeleitet wurde. Dies etabliert ein neues Paradigma, bei dem leistungsstarke Modelle für eine effiziente Bereitstellung optimiert werden können, mit nur vernachlässigbaren Kompromissen bei ihren Fähigkeiten, und zeigt, dass die Inferenzleistung, nicht allein die Parameteranzahl, die Modellauswahl leiten sollte. Mit der Veröffentlichung von Nemotron-51B und der Präsentation des Puzzle-Frameworks bieten wir Praktikern sofortigen Zugang zu modernsten Sprachmodellierungsfähigkeiten zu deutlich reduzierten Rechenkosten.

Trajektorien-Aufmerksamkeit für feinkörnige Steuerung der Videobewegung
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

Die jüngsten Fortschritte in der Videogenerierung wurden maßgeblich von Videodiffusionsmodellen vorangetrieben, wobei die Steuerung der Kamerabewegung als eine entscheidende Herausforderung bei der Erstellung von anpassbaren visuellen Inhalten gilt. Dieser Artikel stellt die Trajektorien-Aufmerksamkeit vor, einen neuartigen Ansatz, der Aufmerksamkeit entlang verfügbarer Pixeltrajektorien für eine fein abgestimmte Steuerung der Kamerabewegung ausführt. Im Gegensatz zu bestehenden Methoden, die häufig ungenaue Ausgaben liefern oder zeitliche Korrelationen vernachlässigen, besitzt unser Ansatz eine stärkere induktive Verzerrung, die Trajektorieninformationen nahtlos in den Videogenerierungsprozess einbringt. Wichtig ist, dass unser Ansatz die Trajektorien-Aufmerksamkeit als einen Hilfszweig neben der traditionellen zeitlichen Aufmerksamkeit modelliert. Dieses Design ermöglicht es der ursprünglichen zeitlichen Aufmerksamkeit und der Trajektorien-Aufmerksamkeit, synergistisch zu arbeiten, um sowohl präzise Bewegungssteuerung als auch neue Generierungsfähigkeiten sicherzustellen, was entscheidend ist, wenn die Trajektorie nur teilweise verfügbar ist. Experimente zur Kamerabewegungssteuerung für Bilder und Videos zeigen signifikante Verbesserungen in Präzision und Langstreckenkonsistenz bei gleichzeitiger Aufrechterhaltung einer hochwertigen Generierung. Darüber hinaus zeigen wir, dass unser Ansatz auf andere Videobewegungssteuerungsaufgaben ausgeweitet werden kann, wie z.B. die Videobearbeitung mit dem ersten Bild als Leitfaden, wo er sich durch die Aufrechterhaltung der Inhaltskonsistenz über große räumliche und zeitliche Bereiche auszeichnet.

Skalierung von Transformatoren für die Codierung von Sprache mit niedriger Bitrate und hoher Qualität
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

Die Tokenisierung von Sprache mit neuronalen Audiocodec-Modellen ist ein wesentlicher Bestandteil moderner KI-Pipelines zur Generierung oder zum Verständnis von Sprache, allein oder in einem multimodalen Kontext. Traditionell haben solche Tokenisierungsmodelle auf Architekturen mit niedriger Parameteranzahl gesetzt, die nur Komponenten mit starken induktiven Verzerrungen verwenden. In dieser Arbeit zeigen wir, dass es durch Skalierung einer Transformer-Architektur mit großer Parameteranzahl für dieses Problem und die Anwendung eines flexiblen Bottlenecks auf Basis der Finite Scalar Quantization (FSQ) möglich ist, eine Spitzenqualität der Sprache bei extrem niedrigen Bitraten von 400 oder 700 Bits pro Sekunde zu erreichen. Die trainierten Modelle übertreffen bestehende Baselines deutlich sowohl in objektiven als auch in subjektiven Tests.

DisCoRD: Diskrete Token zu kontinuierlicher Bewegung durch rektifizierten Fluss Dekodierung
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

Menschliche Bewegung, die von Natur aus kontinuierlich und dynamisch ist, stellt signifikante Herausforderungen für generative Modelle dar. Trotz ihrer Dominanz leiden diskrete Quantisierungsmethoden wie VQ-VAEs unter inhärenten Einschränkungen, darunter eingeschränkte Ausdruckskraft und rahmenweise Rauschartefakte. Kontinuierliche Ansätze, die zwar glattere und natürlichere Bewegungen erzeugen, scheitern oft aufgrund hoher dimensionsbezogener Komplexität und begrenzter Trainingsdaten. Um diesen "Widerspruch" zwischen diskreten und kontinuierlichen Darstellungen aufzulösen, stellen wir DisCoRD vor: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, eine neuartige Methode, die diskrete Bewegungstoken in kontinuierliche Bewegungen durch rektifizierten Fluss decodiert. Durch den Einsatz eines iterativen Verfeinerungsprozesses im kontinuierlichen Raum erfasst DisCoRD feingliedrige Dynamiken und gewährleistet glattere und natürlichere Bewegungen. Kompatibel mit jedem auf Diskreten basierenden Framework verbessert unsere Methode die Natürlichkeit, ohne die Treue zu den Konditionierungssignalen zu beeinträchtigen. Umfangreiche Bewertungen zeigen, dass DisCoRD eine Spitzenleistung erzielt, mit einem FID von 0,032 auf HumanML3D und 0,169 auf KIT-ML. Diese Ergebnisse festigen DisCoRD als robuste Lösung zur Überbrückung der Kluft zwischen diskreter Effizienz und kontinuierlichem Realismus. Unsere Projektseite ist verfügbar unter: https://whwjdqls.github.io/discord.github.io/.

Betrachten Sie jedes Frame gleichzeitig: Video-Ma^2mba für effizientes Verstehen von Langformvideos mit Multi-Achsen-Gradienten-Checkpointing.
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

Mit dem zunehmenden Umfang und der Komplexität von Videodaten stellen die effiziente Verarbeitung langer Videosequenzen aufgrund des quadratischen Anstiegs des Speicher- und Rechenbedarfs bei bestehenden Transformer-basierten Large Multi-modal Models (LMMs) erhebliche Herausforderungen dar. Um diesen Problemen zu begegnen, stellen wir Video-Ma^2mba vor, eine neuartige Architektur, die State Space Models (SSMs) innerhalb des Mamba-2-Frameworks integriert und die Aufmerksamkeitsmechanismen ersetzt. Dies ermöglicht den LMMs, linear in Bezug auf Zeit- und Speicheranforderungen zu skalieren, was es ermöglicht, Videoinhalte mit langer Dauer zu verarbeiten. Darüber hinaus verbessern wir die Speichereffizienz durch die Einführung der Multi-Axis Gradient Checkpointing (MA-GC) Methode, die den Speicher strategisch verwaltet, indem nur wesentliche Aktivierungen über mehrere Rechenachsen hinweg beibehalten werden. Unser Ansatz reduziert den Speicherbedarf signifikant im Vergleich zum Standard-Gradient-Checkpointing. Empirische Analysen zeigen, dass Video-Ma^2mba umfangreiche Videosequenzen verarbeiten kann - äquivalent zu Millionen von Tokens oder über zwei Stunden kontinuierlicher Sequenzen mit 1 FPS - auf einer einzelnen GPU. Durch die detaillierte Erfassung der zeitlichen Dynamik verbessert unser Modell die Genauigkeit und Relevanz von Antworten bei langen Videoverständnisaufgaben und zeigt wesentliche Vorteile gegenüber bestehenden Frameworks.

MATATA: Ein schwach überwachtes mathematisches Tool-gestütztes Argumentationswerkzeug für tabellarische Anwendungen.
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

Die mathematischen Schlussfolgerungsfähigkeiten nehmen mit sprachgestützten Werkzeugen zu, aber die Methoden stützen sich oft entweder auf Closed-Source- oder große Modelle, externe Daten oder umfangreiche Eingabeaufforderungs-Engineering. Diese Arbeit stellt MATATA vor, eine neuartige kostengünstige Methode zur Schulung von LLM-Agenten für tabellarische Datenprobleme durch Schlussfolgerungen, Planung und Werkzeugnutzung. Mit einem progressiven Selbstverbesserungsparadigma und einer iterativen schwachen Überwachung ermöglicht es 3,8B/8B Small Language Models (SLMs), die besonders für lokale Hosting- und sensible Geschäftskontexte geeignet sind, in denen der Datenschutz entscheidend ist. Durch den Einsatz flexibler und wiederverwendbarer Werkzeuge über verschiedene Datensätze hinweg erzielt es robuste Leistungen mit effektiver Skalierbarkeit über gemeinsame Aufgaben. Experimente zeigen, dass MATATA Spitzenleistungen bei FinQA und TAT-QA unter den auf Open-Source-Modellen basierenden Schlussfolgerungsrahmen erreicht. Darüber hinaus konkurrieren MATATA-Modelle mit auf GPT-4 basierenden Rahmenbedingungen bei TabMWP, während sie SLMs sind.

AC3D: Analyse und Verbesserung der 3D-Kamerasteuerung in Video-Übertragungstransformatoren
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

In zahlreichen Arbeiten wurde in letzter Zeit die Integration der 3D-Kamerasteuerung in grundlegende Text-zu-Video-Modelle durchgeführt, jedoch ist die resultierende Kamerasteuerung oft ungenau, was zu einer Beeinträchtigung der Videoerzeugungsqualität führt. In dieser Arbeit analysieren wir die Kamerabewegung aus einer Erstprinzipien-Perspektive und gewinnen Erkenntnisse, die eine präzise 3D-Kameramanipulation ermöglichen, ohne die Qualität der Synthese zu beeinträchtigen. Zunächst bestimmen wir, dass die durch Kamerabewegungen in Videos verursachte Bewegung von niedriger Frequenz ist. Dies motiviert uns dazu, die Trainings- und Test-Posenkonditionierungsschemata anzupassen, um das Trainingskonvergenz zu beschleunigen und die visuelle und Bewegungsqualität zu verbessern. Anschließend, durch die Untersuchung der Repräsentationen eines bedingungslosen Video-Diffusions-Transformators, stellen wir fest, dass sie implizit eine Kamerapositionsschätzung durchführen, und nur ein Teil ihrer Schichten die Kamerainformationen enthalten. Dies veranlasste uns, die Injektion der Kamerakonditionierung auf einen Teil der Architektur zu beschränken, um Interferenzen mit anderen Video-Merkmalen zu verhindern, was zu einer 4-fachen Reduzierung der Trainingsparameter, einer verbesserten Trainingsschnelligkeit und einer 10% höheren visuellen Qualität führt. Schließlich ergänzen wir das typische Datenset für das Lernen der Kamerasteuerung um ein kuratiertes Datenset von 20.000 verschiedenen dynamischen Videos mit stationären Kameras. Dies hilft dem Modell, den Unterschied zwischen Kamera- und Szenenbewegung zu klären und die Dynamik der generierten posenkonditionierten Videos zu verbessern. Wir kombinieren diese Erkenntnisse, um die Advanced 3D Camera Control (AC3D)-Architektur zu entwerfen, das neue State-of-the-Art-Modell für generative Videomodellierung mit Kamerasteuerung.

AlphaTablets: Eine generische Ebenendarstellung für die 3D-planare Rekonstruktion aus monokularen Videos
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

Wir stellen AlphaTablets vor, eine neuartige und generische Darstellung von 3D-Ebenen, die eine kontinuierliche 3D-Oberfläche und präzise Begrenzungslinien aufweist. Indem 3D-Ebenen als Rechtecke mit Alphakanälen dargestellt werden, kombinieren AlphaTablets die Vorteile der aktuellen 2D- und 3D-Ebenen-Darstellungen und ermöglichen eine genaue, konsistente und flexible Modellierung von 3D-Ebenen. Wir leiten differenzierbare Rasterisierung auf Basis von AlphaTablets ab, um 3D-Ebenen effizient in Bilder zu rendern, und schlagen eine neuartige Bottom-up-Pipeline für die 3D-Ebenenrekonstruktion aus monokularen Videos vor. Ausgehend von 2D-Superpixeln und geometrischen Hinweisen aus vorab trainierten Modellen initialisieren wir 3D-Ebenen als AlphaTablets und optimieren sie über differenzierbares Rendern. Ein effektives Verschmelzungsschema wird eingeführt, um das Wachstum und die Verfeinerung der AlphaTablets zu erleichtern. Durch iterative Optimierung und Verschmelzung rekonstruieren wir vollständige und präzise 3D-Ebenen mit soliden Oberflächen und klaren Begrenzungen. Umfangreiche Experimente am ScanNet-Datensatz zeigen eine erstklassige Leistung bei der 3D-Ebenenrekonstruktion und unterstreichen das große Potenzial von AlphaTablets als generische 3D-Ebenen-Darstellung für verschiedene Anwendungen. Die Projektseite ist verfügbar unter: https://hyzcluster.github.io/alphatablets

LLM-Lehrer-Schüler-Rahmenwerk für Textklassifizierung ohne manuell annotierte Daten: Eine Fallstudie zur Klassifizierung von IPTC-Nachrichtenthemen
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

Mit der stetig wachsenden Anzahl von Online-Nachrichten ist die Klassifizierung nach Themen, unabhängig von der Sprache, in der sie verfasst sind, entscheidend, um den Zugang der Leser zu relevanten Inhalten zu verbessern. Um dieser Herausforderung zu begegnen, schlagen wir ein Lehrer-Schüler-Framework auf Basis großer Sprachmodelle (LLMs) vor, um mehrsprachige Nachrichtenklassifikationsmodelle von angemessener Größe ohne manuelle Datenannotation zu entwickeln. Das Framework nutzt ein Generatives Vortrainiertes Transformer (GVT) Modell als Lehrermodell, um einen IPTC Media Topic Trainingsdatensatz durch automatische Annotation von Nachrichtenartikeln in Slowenisch, Kroatisch, Griechisch und Katalanisch zu erstellen. Das Lehrermodell zeigt eine hohe Zero-Shot-Performance in allen vier Sprachen. Seine Übereinstimmung mit menschlichen Annotatoren ist vergleichbar mit der zwischen den menschlichen Annotatoren selbst. Um die Rechenbeschränkungen im Zusammenhang mit der Verarbeitung von Millionen von Texten täglich zu mildern, werden kleinere BERT-ähnliche Schülermodelle auf dem GVT-annotierten Datensatz feinabgestimmt. Diese Schülermodelle erreichen eine hohe Leistung, vergleichbar mit dem Lehrermodell. Darüber hinaus untersuchen wir die Auswirkungen der Größe der Trainingsdaten auf die Leistung der Schülermodelle und untersuchen deren monolinguale, mehrsprachige und Zero-Shot-Querlingualfähigkeiten. Die Ergebnisse zeigen, dass Schülermodelle mit einer relativ geringen Anzahl von Trainingsinstanzen eine hohe Leistung erzielen können und starke Zero-Shot-Querlingualfähigkeiten aufweisen. Schließlich veröffentlichen wir den leistungsstärksten Nachrichtenthemenklassifikator, der eine mehrsprachige Klassifizierung mit den obersten Kategorien des IPTC Media Topic-Schemas ermöglicht.

DeMo: Entkoppelte Momentum-Optimierung
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

Das Training großer neuronaler Netzwerke erfordert in der Regel den Austausch von Gradienten zwischen Beschleunigern über spezialisierte Hochgeschwindigkeitsverbindungen. Unter Bezugnahme auf die Signalverarbeitungsprinzipien der Frequenzzerlegung und Energiekompaktierung zeigen wir, dass eine Synchronisierung vollständiger Optimiererzustände und Modellparameter während des Trainings nicht erforderlich ist. Durch die Entkopplung von Momentum-Updates und die Zulassung kontrollierter Divergenz in den Optimiererzuständen zwischen den Beschleunigern erzielen wir eine verbesserte Konvergenz im Vergleich zu modernsten Optimierern. Wir stellen {De}coupled {Mo}mentum (DeMo) vor, einen fusionierten Optimierer und datenparallelen Algorithmus, der die Anforderungen an die Kommunikation zwischen den Beschleunigern um mehrere Größenordnungen reduziert. Dies ermöglicht das Training großer neuronaler Netzwerke auch bei begrenzter Netzwerkbandbreite und heterogener Hardware. Unsere Methode ist topologieagnostisch und architekturunabhängig und unterstützt skalierbares, taktsynchrones verteiltes Training mit vernachlässigbarem Rechenaufwand und Speicheroverhead. Empirische Ergebnisse zeigen, dass mit DeMo trainierte Modelle die Leistung äquivalenter Modelle, die mit AdamW trainiert wurden, erreichen oder übertreffen, während die Notwendigkeit für Hochgeschwindigkeitsverbindungen beim Vor-Training großer Grundlagenmodelle entfällt. Eine Open-Source-Referenzimplementierung in PyTorch wurde auf GitHub veröffentlicht unter https://github.com/bloc97/DeMo

SpotLight: Schatten-geführte Objektbeleuchtung durch Diffusion
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Neueste Arbeiten haben gezeigt, dass Diffusionsmodelle als leistungsstarke neuronale Rendering-Engines eingesetzt werden können, die dazu genutzt werden können, virtuelle Objekte in Bilder einzufügen. Im Gegensatz zu typischen physikbasierten Renderern sind neuronale Rendering-Engines jedoch durch den Mangel an manueller Steuerung über das Beleuchtungssetup begrenzt, was oft entscheidend ist, um das gewünschte Bildergebnis zu verbessern oder zu personalisieren. In diesem Paper zeigen wir, dass eine präzise Steuerung der Beleuchtung für das Umgestalten von Objekten einfach durch die Spezifizierung der gewünschten Schatten des Objekts erreicht werden kann. Überraschenderweise zeigen wir, dass allein das Einbringen des Schattens des Objekts in einen vortrainierten, auf Diffusion basierenden neuronalen Renderer es ermöglicht, das Objekt genau entsprechend der gewünschten Lichtposition zu schattieren, während es das Objekt (und seinen Schatten) harmonisch in das Hintergrundbild einfügt. Unsere Methode, SpotLight, nutzt bestehende neuronale Rendering-Ansätze und erzielt steuerbare Ergebnisse beim Umgestalten ohne zusätzliches Training. Insbesondere demonstrieren wir die Anwendung mit zwei neuronalen Renderern aus der aktuellen Literatur. Wir zeigen, dass SpotLight überlegene Objekt-Kompositionsergebnisse erzielt, sowohl quantitativ als auch wahrnehmungsmäßig, wie von einer Benutzerstudie bestätigt, und dabei bestehende, speziell für das Umgestalten konzipierte, auf Diffusion basierende Modelle übertrifft.

Training von Rausch-Token-Pruning
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer

In der vorliegenden Arbeit stellen wir das Training Noise Token (TNT) Pruning für Vision-Transformer vor. Unsere Methode entspannt die Bedingung des diskreten Token-Droppings zu kontinuierlichem additiven Rauschen, was eine reibungslose Optimierung im Training ermöglicht, während die diskreten Dropping-Rechenleistungsvorteile in Bereitstellungsszenarien beibehalten werden. Wir stellen theoretische Verbindungen zur Rate-Distortion-Literatur her und führen empirische Bewertungen anhand des ImageNet-Datensatzes unter Verwendung der ViT- und DeiT-Architekturen durch, um die Vorteile von TNT gegenüber früheren Pruning-Methoden zu demonstrieren.

Rätsel: Distillationsbasierte NAS zur Inferenz-optimierten LLMs
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28