Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz der jüngsten Fortschritte von Modellen für Vision-Sprache-Aktion (VLA) bei einer Vielzahl von Robotikaufgaben leiden sie unter kritischen Problemen wie mangelnder Verallgemeinerbarkeit auf unbekannte Aufgaben, aufgrund ihrer ausschließlichen Abhängigkeit von Verhaltensklonung ausschließlich von erfolgreichen Durchläufen. Darüber hinaus werden sie typischerweise feinabgestimmt, um Demonstrationen nachzubilden, die von Experten unter verschiedenen Einstellungen gesammelt wurden, wodurch Verteilungsvoreingenommenheit eingeführt wird und ihre Anpassungsfähigkeit an vielfältige Manipulationsziele wie Effizienz, Sicherheit und Aufgabenerfüllung eingeschränkt wird. Um diese Lücke zu überbrücken, stellen wir GRAPE vor: Generalisierung von Roboterpolitik durch Präferenzausrichtung. Speziell richtet GRAPE VLAs auf Trajektorienebene aus und modelliert implizit Belohnungen aus sowohl erfolgreichen als auch fehlgeschlagenen Versuchen, um die Verallgemeinerbarkeit auf vielfältige Aufgaben zu steigern. Darüber hinaus zerlegt GRAPE komplexe Manipulationsaufgaben in unabhängige Stufen und leitet die Präferenzmodellierung automatisch durch angepasste raumzeitliche Einschränkungen mit von einem großen Vision-Sprache-Modell vorgeschlagenen Schlüsselpunkten. Diese Einschränkungen sind flexibel und können angepasst werden, um das Modell mit unterschiedlichen Zielen wie Sicherheit, Effizienz oder Aufgabenerfolg in Einklang zu bringen. Wir evaluieren GRAPE über eine Vielzahl von Aufgaben in sowohl realen als auch simulierten Umgebungen. Experimentelle Ergebnisse zeigen, dass GRAPE die Leistung von modernsten VLA-Modellen verbessert, indem die Erfolgsraten bei in-domain und unbekannten Manipulationsaufgaben um 51,79 % bzw. 60,36 % gesteigert werden. Darüber hinaus kann GRAPE mit verschiedenen Zielen wie Sicherheit und Effizienz in Einklang gebracht werden, wodurch Kollisionsraten um 44,31 % bzw. Durchlaufschrittlängen um 11,15 % reduziert werden. Der gesamte Code, Modelle und Daten sind unter https://grape-vla.github.io/ verfügbar.
Die Tiefenschätzung von Videos hebt monokulare Videoclips auf 3D, indem sie dichte Tiefenwerte in jedem Frame ableitet. Die jüngsten Fortschritte in der Tiefenschätzung aus Einzelbildern, die durch den Aufstieg großer Grundlagenmodelle und die Verwendung synthetischer Trainingsdaten vorangetrieben wurden, haben das Interesse an der Tiefenschätzung von Videos wiederbelebt. Allerdings vernachlässigt die naive Anwendung eines Einzelbild-Tiefenschätzers auf jeden Frame eines Videos die zeitliche Kontinuität, was nicht nur zu Flackern führt, sondern auch versagen kann, wenn Kamerabewegungen plötzliche Änderungen im Tiefenbereich verursachen. Eine offensichtliche und fundierte Lösung wäre, aufbauend auf Videogundelagenmodellen zu arbeiten, aber diese haben ihre eigenen Einschränkungen; darunter teures Training und Inferenz, unvollkommene 3D-Konsistenz und Stitching-Routinen für die festen (kurzen) Ausgaben. Wir gehen einen Schritt zurück und zeigen, wie man ein Einzelbild-Latenzdiffusionsmodell (LDM) in einen hochmodernen Video-Tiefenschätzer umwandeln kann. Unser Modell, das wir RollingDepth nennen, hat zwei Hauptbestandteile: (i) ein Multi-Frame-Tiefenschätzer, der von einem Einzelbild-LDM abgeleitet ist und sehr kurze Videoclips (typischerweise Frame-Triplets) in Tiefenclips umwandelt. (ii) ein robuster, auf Optimierung basierender Registrierungsalgorithmus, der Tiefenclips, die mit verschiedenen Bildraten abgetastet wurden, optimal zu einem konsistenten Video zusammensetzt. RollingDepth ist in der Lage, lange Videos mit Hunderten von Frames effizient zu verarbeiten und liefert genauere Tiefenvideos als dedizierte Video-Tiefenschätzer und leistungsstarke Einzelbildmodelle. Projektseite: rollingdepth.github.io.
In-Context Learning (ICL) ermöglicht es großen Sprachmodellen (LLMs), sich mit nachgelagerten Aufgaben durch ausgefeilte Aufforderungen und hochwertige Demonstrationen zu befassen. Allerdings zeigt dieses traditionelle ICL-Paradigma Grenzen auf, wenn es um komplexe mathematische Schlussfolgerungsaufgaben geht, hauptsächlich aufgrund seiner starken Abhängigkeit von der Qualität der Beispiele und der Notwendigkeit menschlichen Eingreifens in herausfordernden Szenarien. Um diese Einschränkungen anzugehen, präsentiert dieser Artikel HiAR-ICL, ein High-level Automated Reasoning-Paradigma im ICL, das den Fokus von spezifischen Beispielen auf abstraktes Denken verlagert und das herkömmliche Konzept des Kontexts im ICL erweitert. HiAR-ICL führt fünf atomare Schlussfolgerungsaktionen als grundlegende Komponenten zur Konstruktion von kettenstrukturierten Mustern ein. Unter Verwendung der Monte-Carlo-Baumsuche untersuchen wir Schlussfolgerungswege und konstruieren Gedankenkarten, um nachfolgende Inferenzen zu leiten. Anschließend entwickeln wir einen kognitiven Komplexitätsrahmen, der Probleme dynamisch mit geeigneten Gedankenkarten abgleicht. Experimentelle Ergebnisse zeigen die Wirksamkeit von HiAR-ICL, das eine Genauigkeit von 79,6% auf dem MATH-Benchmark mit Qwen2.5-7B-Instruct erreicht und damit GPT-4o (76,6%) und Claude 3.5 (71,1%) übertrifft.
In den letzten Jahren hat die rasante Entwicklung von allgemeinen multimodalen großen Sprachmodellen (MLLMs) stattgefunden. Die Anpassung allgemeiner MLLMs an spezifische Bereiche wie wissenschaftliche Gebiete und industrielle Anwendungen ist jedoch weniger erforscht. Diese Arbeit untersucht systematisch die Domänenanpassung von MLLMs durch Nachtraining und konzentriert sich auf die Datensynthese, Trainingspipelines und Aufgabenauswertung. (1) Datensynthese: Unter Verwendung von Open-Source-Modellen entwickeln wir einen visuellen Anweisungssynthesizer, der effektiv vielfältige visuelle Anweisungsaufgaben aus domänenspezifischen Bildunterschriften generiert. Unsere synthetischen Aufgaben übertreffen diejenigen, die durch manuelle Regeln, GPT-4 und GPT-4V generiert wurden, bei der Verbesserung der domänenspezifischen Leistung von MLLMs. (2) Trainingspipeline: Während das zweistufige Training - zunächst auf Bildunterschriften, gefolgt von visuellen Anweisungsaufgaben - üblicherweise für die Entwicklung allgemeiner MLLMs verwendet wird, wenden wir eine einstufige Trainingspipeline an, um die Aufgabenvielfalt für das domänenspezifische Nachtraining zu verbessern. (3) Aufgabenauswertung: Wir führen Experimente in zwei Bereichen, Biomedizin und Lebensmittel, durch, indem wir MLLMs unterschiedlicher Quellen und Skalen (z. B. Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) nachtrainieren und dann die Leistung der MLLMs bei verschiedenen domänenspezifischen Aufgaben auswerten. Um weitere Forschung in der Domänenanpassung von MLLMs zu unterstützen, werden wir unsere Implementierungen als Open Source veröffentlichen.
Dieser technische Bericht präsentiert Yi-Lightning, unser neuestes Flaggschiffmodell für große Sprachmodelle (LLM). Es erzielt eine herausragende Leistung und belegt insgesamt den 6. Platz in der Chatbot Arena, mit besonders starken Ergebnissen (Platz 2 bis 4) in spezialisierten Kategorien wie Chinesisch, Mathematik, Codierung und schwierigen Anfragen. Yi-Lightning nutzt eine verbesserte Mixture-of-Experts (MoE) Architektur, die fortschrittliche Expertensegmentierung und Routing-Mechanismen in Verbindung mit optimierten KV-Caching-Techniken bietet. Unser Entwicklungsprozess umfasst umfassendes Pre-Training, überwachtes Feintuning (SFT) und Verstärkungslernen aus menschlichem Feedback (RLHF), bei dem wir gezielte Strategien für das mehrstufige Training, die Konstruktion synthetischer Daten und die Modellierung von Belohnungen entwickeln. Darüber hinaus implementieren wir RAISE (Responsible AI Safety Engine), ein vierkomponentiges Framework zur Bewältigung von Sicherheitsproblemen in den Phasen des Pre-Trainings, Post-Trainings und des Betriebs. Gestärkt durch unsere skalierbare Supercomputing-Infrastruktur reduzieren all diese Innovationen erheblich die Schulungs-, Bereitstellungs- und Inferenzkosten, während gleichzeitig hohe Leistungsstandards aufrechterhalten werden. Durch weitere Evaluierungen an öffentlichen akademischen Benchmarks zeigt Yi-Lightning eine wettbewerbsfähige Leistung gegenüber erstklassigen LLMs, wobei wir eine bemerkenswerte Diskrepanz zwischen traditionellen, statischen Benchmark-Ergebnissen und den dynamischen menschlichen Präferenzen in der realen Welt beobachten. Diese Beobachtung fordert eine kritische Neubewertung des Nutzens konventioneller Benchmarks bei der Entwicklung intelligenterer und leistungsstärkerer KI-Systeme für praktische Anwendungen an. Yi-Lightning ist jetzt über unsere Entwicklerplattform unter https://platform.lingyiwanwu.com verfügbar.
Diffusionsmodelle haben sich als leistungsstarkes Werkzeug zur Erzeugung hochwertiger Bilder, Videos und 3D-Inhalte etabliert. Während Abtastführungstechniken wie CFG die Qualität verbessern, reduzieren sie Vielfalt und Bewegung. Autoguidance mildert diese Probleme, erfordert jedoch zusätzliches Training eines schwachen Modells, was seine Praktikabilität für groß angelegte Modelle einschränkt. In dieser Arbeit stellen wir Spatiotemporal Skip Guidance (STG) vor, eine einfache, trainingfreie Abtastführungsmethode zur Verbesserung von Video-Diffusionsmodellen auf Basis von Transformatoren. STG verwendet ein implizites schwaches Modell durch Selbststörung und vermeidet so die Notwendigkeit externer Modelle oder zusätzlichen Trainings. Durch selektives Überspringen von spatiotemporalen Schichten erzeugt STG eine ausgerichtete, degradierte Version des Originalmodells, um die Qualität der Proben zu steigern, ohne Vielfalt oder Dynamik zu beeinträchtigen. Unsere Beiträge umfassen: (1) die Einführung von STG als effiziente, leistungsstarke Führungstechnik für Video-Diffusionsmodelle, (2) die Beseitigung des Bedarfs an Hilfsmodellen durch Simulation eines schwachen Modells durch Schichtüberspringen und (3) die Sicherstellung einer qualitätsverbesserten Führung, ohne die Vielfalt oder Dynamik der Proben zu beeinträchtigen, im Gegensatz zu CFG. Für weitere Ergebnisse besuchen Sie https://junhahyung.github.io/STGuidance.
Das umgekehrte Denken spielt eine entscheidende Rolle im menschlichen Denken. Menschen können nicht nur von einem Problem zu einer Lösung schlussfolgern, sondern auch umgekehrt, d.h. von der Lösung aus zum Problem gelangen. Dies verbessert oft die Gesamtleistung des Denkens, da es Konsistenzprüfungen zwischen ihrem Vorwärts- und Rückwärtsdenken ermöglicht. Um Große Sprachmodelle (LLMs) dazu zu befähigen, umgekehrtes Denken durchzuführen, stellen wir Reverse-Enhanced Thinking (RevThink) vor, ein Framework, das aus Datenanreicherung und Lernzielen besteht. In RevThink erweitern wir den Datensatz, indem wir strukturiertes Vorwärts-Rückwärts-Denken von einem Lehrmodell sammeln, bestehend aus: (1) der ursprünglichen Frage, (2) Vorwärtsdenken, (3) Rückwärtsfrage und (4) Rückwärtsdenken. Anschließend verwenden wir drei Ziele, um ein kleineres Schülermodell in einem Multi-Task-Learning-Stil zu trainieren: (a) Vorwärtsdenken aus einer Frage generieren, (b) eine Rückwärtsfrage aus einer Frage generieren und (c) Rückwärtsdenken aus der Rückwärtsfrage generieren. Experimente über 12 Datensätze, die Allgemeinwissen, Mathematik und logisches Denken abdecken, zeigen eine durchschnittliche Verbesserung von 13,53% gegenüber der Nullschussleistung des Schülermodells und eine Verbesserung von 6,84% gegenüber den stärksten Wissensverdichtungs-Baselines. Darüber hinaus zeigt unsere Methode eine Muster-Effizienz - unter Verwendung von nur 10% des korrekten Vorwärtsdenkens aus den Trainingsdaten übertrifft sie eine Standard-Feinabstimmungsmethode, die auf 10-mal mehr Vorwärtsdenken trainiert wurde. RevThink zeigt auch eine starke Verallgemeinerung auf außerhalb der Verteilung gehaltene Datensätze.
Als grundlegende Grundlage für die Videogenerierung werden Diffusionsmodelle durch die geringe Inferenzgeschwindigkeit aufgrund der sequenziellen Natur des Denoisings herausgefordert. Frühere Methoden beschleunigen die Modelle, indem sie Modellausgaben zwischenspeichern und wiederverwenden, die gleichmäßig ausgewählten Zeitpunkten entsprechen. Diese Strategie vernachlässigt jedoch die Tatsache, dass die Unterschiede zwischen den Modellausgaben nicht gleichmäßig über die Zeitpunkte verteilt sind, was die Auswahl der geeigneten Modellausgaben zum Zwischenspeichern erschwert und zu einem schlechten Gleichgewicht zwischen Inferenzeffizienz und visueller Qualität führt. In dieser Studie stellen wir Timestep Embedding Aware Cache (TeaCache) vor, einen trainingsfreien Zwischenspeicherungsansatz, der die schwankenden Unterschiede zwischen den Modellausgaben über die Zeitpunkte hinweg schätzt und nutzt. Anstatt die zeitaufwändigen Modellausgaben direkt zu verwenden, konzentriert sich TeaCache auf die Modellinputs, die eine starke Korrelation mit den Modellausgaben aufweisen und dabei vernachlässigbare Rechenkosten verursachen. TeaCache moduliert zunächst die rauschhaften Inputs mithilfe der Zeitpunkt-Einbettungen, um sicherzustellen, dass ihre Unterschiede diejenigen der Modellausgaben besser approximieren. Anschließend führt TeaCache eine Skalierungsstrategie ein, um die geschätzten Unterschiede zu verfeinern und nutzt sie zur Anzeige der Ausgabenzwischenspeicherung. Experimente zeigen, dass TeaCache eine Beschleunigung um bis zu 4,41-fache gegenüber Open-Sora-Plan erreicht, bei vernachlässigbarer (-0,07% Vbench-Score) Verschlechterung der visuellen Qualität.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, aber ihre Übernahme wird durch hohe Rechenkosten während der Inferenz eingeschränkt. Während eine Erhöhung der Parameteranzahl die Genauigkeit verbessert, vergrößert sie auch die Kluft zwischen den modernsten Fähigkeiten und der praktischen Einsatzfähigkeit. Wir stellen Puzzle vor, ein Framework zur Beschleunigung der LLM-Inferenz auf spezifischer Hardware, während ihre Fähigkeiten erhalten bleiben. Durch eine innovative Anwendung der neuronalen Architektursuche (NAS) in einem beispiellosen Maßstab optimiert Puzzle systematisch Modelle mit zig Milliarden Parametern unter Hardwarebeschränkungen. Unser Ansatz nutzt blockweise lokale Wissensvermittlung (BLD) für parallele Architekturerkundung und setzt gemischt-ganzzahlige Programmierung für präzise Beschränkungsoptimierung ein. Wir zeigen den realen Einfluss unseres Frameworks durch Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), ein öffentlich verfügbares Modell, abgeleitet von Llama-3.1-70B-Instruct. Nemotron-51B erreicht eine 2,17-fache Beschleunigung der Inferenzdurchsatzgeschwindigkeit, passt auf eine einzelne NVIDIA H100 GPU und erhält dabei 98,4% der Fähigkeiten des Originalmodells. Nemotron-51B gilt derzeit als das genaueste Sprachmodell, das Inferenz auf einer einzelnen GPU mit großen Batch-Größen ermöglicht. Bemerkenswerterweise erforderte diese Transformation nur 45B Trainings-Token im Vergleich zu über 15T Token, die für das 70B-Modell verwendet wurden, von dem es abgeleitet wurde. Dies etabliert ein neues Paradigma, bei dem leistungsstarke Modelle für eine effiziente Bereitstellung optimiert werden können, mit nur vernachlässigbaren Kompromissen bei ihren Fähigkeiten, und zeigt, dass die Inferenzleistung, nicht allein die Parameteranzahl, die Modellauswahl leiten sollte. Mit der Veröffentlichung von Nemotron-51B und der Präsentation des Puzzle-Frameworks bieten wir Praktikern sofortigen Zugang zu modernsten Sprachmodellierungsfähigkeiten zu deutlich reduzierten Rechenkosten.
Diffusionsmodelle sind effizient bei der Erzeugung hochwertiger Bilder. Sie sind jedoch nur wirksam, wenn sie mit der Auflösung arbeiten, die während des Trainings verwendet wurde. Inferenz bei skalierten Auflösungen führt zu sich wiederholenden Mustern und strukturellen Verzerrungen. Ein erneutes Training bei höheren Auflösungen wird schnell unerschwinglich. Daher sind Methoden, die es bereits vorhandenen Diffusionsmodellen ermöglichen, bei flexiblen Testzeitauflösungen zu arbeiten, äußerst wünschenswert. Frühere Arbeiten leiden unter häufigen Artefakten und führen oft zu großen Latenzzeiten. Wir schlagen zwei einfache Module vor, die kombiniert werden, um diese Probleme zu lösen. Wir führen ein Frequenzmodulations (FM)-Modul ein, das die Fourier-Domäne nutzt, um die globale Strukturkonsistenz zu verbessern, und ein Aufmerksamkeitsmodulations (AM)-Modul, das die Konsistenz lokaler Texturmuster verbessert, ein Problem, das in früheren Arbeiten weitgehend ignoriert wurde. Unsere Methode, genannt Fam-Diffusion, kann nahtlos in jedes latente Diffusionsmodell integriert werden und erfordert kein zusätzliches Training. Umfangreiche qualitative Ergebnisse heben die Wirksamkeit unserer Methode bei der Bewältigung struktureller und lokaler Artefakte hervor, während quantitative Ergebnisse eine Spitzenleistung zeigen. Außerdem vermeidet unsere Methode redundante Inferenztricks zur Verbesserung der Konsistenz, wie etwa patchbasierte oder progressive Generierung, was zu vernachlässigbaren Latenzzeiten führt.
Die Tokenisierung von Sprache mit neuronalen Audiocodec-Modellen ist ein wesentlicher Bestandteil moderner KI-Pipelines zur Generierung oder zum Verständnis von Sprache, allein oder in einem multimodalen Kontext. Traditionell haben solche Tokenisierungsmodelle auf Architekturen mit niedriger Parameteranzahl gesetzt, die nur Komponenten mit starken induktiven Verzerrungen verwenden. In dieser Arbeit zeigen wir, dass es durch Skalierung einer Transformer-Architektur mit großer Parameteranzahl für dieses Problem und die Anwendung eines flexiblen Bottlenecks auf Basis der Finite Scalar Quantization (FSQ) möglich ist, eine Spitzenqualität der Sprache bei extrem niedrigen Bitraten von 400 oder 700 Bits pro Sekunde zu erreichen. Die trainierten Modelle übertreffen bestehende Baselines deutlich sowohl in objektiven als auch in subjektiven Tests.
Die jüngsten Fortschritte in der Videogenerierung wurden maßgeblich von Videodiffusionsmodellen vorangetrieben, wobei die Steuerung der Kamerabewegung als eine entscheidende Herausforderung bei der Erstellung von anpassbaren visuellen Inhalten gilt. Dieser Artikel stellt die Trajektorien-Aufmerksamkeit vor, einen neuartigen Ansatz, der Aufmerksamkeit entlang verfügbarer Pixeltrajektorien für eine fein abgestimmte Steuerung der Kamerabewegung ausführt. Im Gegensatz zu bestehenden Methoden, die häufig ungenaue Ausgaben liefern oder zeitliche Korrelationen vernachlässigen, besitzt unser Ansatz eine stärkere induktive Verzerrung, die Trajektorieninformationen nahtlos in den Videogenerierungsprozess einbringt. Wichtig ist, dass unser Ansatz die Trajektorien-Aufmerksamkeit als einen Hilfszweig neben der traditionellen zeitlichen Aufmerksamkeit modelliert. Dieses Design ermöglicht es der ursprünglichen zeitlichen Aufmerksamkeit und der Trajektorien-Aufmerksamkeit, synergistisch zu arbeiten, um sowohl präzise Bewegungssteuerung als auch neue Generierungsfähigkeiten sicherzustellen, was entscheidend ist, wenn die Trajektorie nur teilweise verfügbar ist. Experimente zur Kamerabewegungssteuerung für Bilder und Videos zeigen signifikante Verbesserungen in Präzision und Langstreckenkonsistenz bei gleichzeitiger Aufrechterhaltung einer hochwertigen Generierung. Darüber hinaus zeigen wir, dass unser Ansatz auf andere Videobewegungssteuerungsaufgaben ausgeweitet werden kann, wie z.B. die Videobearbeitung mit dem ersten Bild als Leitfaden, wo er sich durch die Aufrechterhaltung der Inhaltskonsistenz über große räumliche und zeitliche Bereiche auszeichnet.
Mit dem zunehmenden Umfang und der Komplexität von Videodaten stellen die effiziente Verarbeitung langer Videosequenzen aufgrund des quadratischen Anstiegs des Speicher- und Rechenbedarfs bei bestehenden Transformer-basierten Large Multi-modal Models (LMMs) erhebliche Herausforderungen dar. Um diesen Problemen zu begegnen, stellen wir Video-Ma^2mba vor, eine neuartige Architektur, die State Space Models (SSMs) innerhalb des Mamba-2-Frameworks integriert und die Aufmerksamkeitsmechanismen ersetzt. Dies ermöglicht den LMMs, linear in Bezug auf Zeit- und Speicheranforderungen zu skalieren, was es ermöglicht, Videoinhalte mit langer Dauer zu verarbeiten. Darüber hinaus verbessern wir die Speichereffizienz durch die Einführung der Multi-Axis Gradient Checkpointing (MA-GC) Methode, die den Speicher strategisch verwaltet, indem nur wesentliche Aktivierungen über mehrere Rechenachsen hinweg beibehalten werden. Unser Ansatz reduziert den Speicherbedarf signifikant im Vergleich zum Standard-Gradient-Checkpointing. Empirische Analysen zeigen, dass Video-Ma^2mba umfangreiche Videosequenzen verarbeiten kann - äquivalent zu Millionen von Tokens oder über zwei Stunden kontinuierlicher Sequenzen mit 1 FPS - auf einer einzelnen GPU. Durch die detaillierte Erfassung der zeitlichen Dynamik verbessert unser Modell die Genauigkeit und Relevanz von Antworten bei langen Videoverständnisaufgaben und zeigt wesentliche Vorteile gegenüber bestehenden Frameworks.
Menschliche Bewegung, die von Natur aus kontinuierlich und dynamisch ist, stellt signifikante Herausforderungen für generative Modelle dar. Trotz ihrer Dominanz leiden diskrete Quantisierungsmethoden wie VQ-VAEs unter inhärenten Einschränkungen, darunter eingeschränkte Ausdruckskraft und rahmenweise Rauschartefakte. Kontinuierliche Ansätze, die zwar glattere und natürlichere Bewegungen erzeugen, scheitern oft aufgrund hoher dimensionsbezogener Komplexität und begrenzter Trainingsdaten. Um diesen "Widerspruch" zwischen diskreten und kontinuierlichen Darstellungen aufzulösen, stellen wir DisCoRD vor: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, eine neuartige Methode, die diskrete Bewegungstoken in kontinuierliche Bewegungen durch rektifizierten Fluss decodiert. Durch den Einsatz eines iterativen Verfeinerungsprozesses im kontinuierlichen Raum erfasst DisCoRD feingliedrige Dynamiken und gewährleistet glattere und natürlichere Bewegungen. Kompatibel mit jedem auf Diskreten basierenden Framework verbessert unsere Methode die Natürlichkeit, ohne die Treue zu den Konditionierungssignalen zu beeinträchtigen. Umfangreiche Bewertungen zeigen, dass DisCoRD eine Spitzenleistung erzielt, mit einem FID von 0,032 auf HumanML3D und 0,169 auf KIT-ML. Diese Ergebnisse festigen DisCoRD als robuste Lösung zur Überbrückung der Kluft zwischen diskreter Effizienz und kontinuierlichem Realismus. Unsere Projektseite ist verfügbar unter: https://whwjdqls.github.io/discord.github.io/.
Die mathematischen Schlussfolgerungsfähigkeiten nehmen mit sprachgestützten Werkzeugen zu, aber die Methoden stützen sich oft entweder auf Closed-Source- oder große Modelle, externe Daten oder umfangreiche Eingabeaufforderungs-Engineering. Diese Arbeit stellt MATATA vor, eine neuartige kostengünstige Methode zur Schulung von LLM-Agenten für tabellarische Datenprobleme durch Schlussfolgerungen, Planung und Werkzeugnutzung. Mit einem progressiven Selbstverbesserungsparadigma und einer iterativen schwachen Überwachung ermöglicht es 3,8B/8B Small Language Models (SLMs), die besonders für lokale Hosting- und sensible Geschäftskontexte geeignet sind, in denen der Datenschutz entscheidend ist. Durch den Einsatz flexibler und wiederverwendbarer Werkzeuge über verschiedene Datensätze hinweg erzielt es robuste Leistungen mit effektiver Skalierbarkeit über gemeinsame Aufgaben. Experimente zeigen, dass MATATA Spitzenleistungen bei FinQA und TAT-QA unter den auf Open-Source-Modellen basierenden Schlussfolgerungsrahmen erreicht. Darüber hinaus konkurrieren MATATA-Modelle mit auf GPT-4 basierenden Rahmenbedingungen bei TabMWP, während sie SLMs sind.
In zahlreichen Arbeiten wurde in letzter Zeit die Integration der 3D-Kamerasteuerung in grundlegende Text-zu-Video-Modelle durchgeführt, jedoch ist die resultierende Kamerasteuerung oft ungenau, was zu einer Beeinträchtigung der Videoerzeugungsqualität führt. In dieser Arbeit analysieren wir die Kamerabewegung aus einer Erstprinzipien-Perspektive und gewinnen Erkenntnisse, die eine präzise 3D-Kameramanipulation ermöglichen, ohne die Qualität der Synthese zu beeinträchtigen. Zunächst bestimmen wir, dass die durch Kamerabewegungen in Videos verursachte Bewegung von niedriger Frequenz ist. Dies motiviert uns dazu, die Trainings- und Test-Posenkonditionierungsschemata anzupassen, um das Trainingskonvergenz zu beschleunigen und die visuelle und Bewegungsqualität zu verbessern. Anschließend, durch die Untersuchung der Repräsentationen eines bedingungslosen Video-Diffusions-Transformators, stellen wir fest, dass sie implizit eine Kamerapositionsschätzung durchführen, und nur ein Teil ihrer Schichten die Kamerainformationen enthalten. Dies veranlasste uns, die Injektion der Kamerakonditionierung auf einen Teil der Architektur zu beschränken, um Interferenzen mit anderen Video-Merkmalen zu verhindern, was zu einer 4-fachen Reduzierung der Trainingsparameter, einer verbesserten Trainingsschnelligkeit und einer 10% höheren visuellen Qualität führt. Schließlich ergänzen wir das typische Datenset für das Lernen der Kamerasteuerung um ein kuratiertes Datenset von 20.000 verschiedenen dynamischen Videos mit stationären Kameras. Dies hilft dem Modell, den Unterschied zwischen Kamera- und Szenenbewegung zu klären und die Dynamik der generierten posenkonditionierten Videos zu verbessern. Wir kombinieren diese Erkenntnisse, um die Advanced 3D Camera Control (AC3D)-Architektur zu entwerfen, das neue State-of-the-Art-Modell für generative Videomodellierung mit Kamerasteuerung.
Wir stellen AlphaTablets vor, eine neuartige und generische Darstellung von 3D-Ebenen, die eine kontinuierliche 3D-Oberfläche und präzise Begrenzungslinien aufweist. Indem 3D-Ebenen als Rechtecke mit Alphakanälen dargestellt werden, kombinieren AlphaTablets die Vorteile der aktuellen 2D- und 3D-Ebenen-Darstellungen und ermöglichen eine genaue, konsistente und flexible Modellierung von 3D-Ebenen. Wir leiten differenzierbare Rasterisierung auf Basis von AlphaTablets ab, um 3D-Ebenen effizient in Bilder zu rendern, und schlagen eine neuartige Bottom-up-Pipeline für die 3D-Ebenenrekonstruktion aus monokularen Videos vor. Ausgehend von 2D-Superpixeln und geometrischen Hinweisen aus vorab trainierten Modellen initialisieren wir 3D-Ebenen als AlphaTablets und optimieren sie über differenzierbares Rendern. Ein effektives Verschmelzungsschema wird eingeführt, um das Wachstum und die Verfeinerung der AlphaTablets zu erleichtern. Durch iterative Optimierung und Verschmelzung rekonstruieren wir vollständige und präzise 3D-Ebenen mit soliden Oberflächen und klaren Begrenzungen. Umfangreiche Experimente am ScanNet-Datensatz zeigen eine erstklassige Leistung bei der 3D-Ebenenrekonstruktion und unterstreichen das große Potenzial von AlphaTablets als generische 3D-Ebenen-Darstellung für verschiedene Anwendungen. Die Projektseite ist verfügbar unter: https://hyzcluster.github.io/alphatablets
Das Training großer neuronaler Netzwerke erfordert in der Regel den Austausch von Gradienten zwischen Beschleunigern über spezialisierte Hochgeschwindigkeitsverbindungen. Unter Bezugnahme auf die Signalverarbeitungsprinzipien der Frequenzzerlegung und Energiekompaktierung zeigen wir, dass eine Synchronisierung vollständiger Optimiererzustände und Modellparameter während des Trainings nicht erforderlich ist. Durch die Entkopplung von Momentum-Updates und die Zulassung kontrollierter Divergenz in den Optimiererzuständen zwischen den Beschleunigern erzielen wir eine verbesserte Konvergenz im Vergleich zu modernsten Optimierern. Wir stellen {De}coupled {Mo}mentum (DeMo) vor, einen fusionierten Optimierer und datenparallelen Algorithmus, der die Anforderungen an die Kommunikation zwischen den Beschleunigern um mehrere Größenordnungen reduziert. Dies ermöglicht das Training großer neuronaler Netzwerke auch bei begrenzter Netzwerkbandbreite und heterogener Hardware. Unsere Methode ist topologieagnostisch und architekturunabhängig und unterstützt skalierbares, taktsynchrones verteiltes Training mit vernachlässigbarem Rechenaufwand und Speicheroverhead. Empirische Ergebnisse zeigen, dass mit DeMo trainierte Modelle die Leistung äquivalenter Modelle, die mit AdamW trainiert wurden, erreichen oder übertreffen, während die Notwendigkeit für Hochgeschwindigkeitsverbindungen beim Vor-Training großer Grundlagenmodelle entfällt. Eine Open-Source-Referenzimplementierung in PyTorch wurde auf GitHub veröffentlicht unter https://github.com/bloc97/DeMo
Mit der stetig wachsenden Anzahl von Online-Nachrichten ist die Klassifizierung nach Themen, unabhängig von der Sprache, in der sie verfasst sind, entscheidend, um den Zugang der Leser zu relevanten Inhalten zu verbessern. Um dieser Herausforderung zu begegnen, schlagen wir ein Lehrer-Schüler-Framework auf Basis großer Sprachmodelle (LLMs) vor, um mehrsprachige Nachrichtenklassifikationsmodelle von angemessener Größe ohne manuelle Datenannotation zu entwickeln. Das Framework nutzt ein Generatives Vortrainiertes Transformer (GVT) Modell als Lehrermodell, um einen IPTC Media Topic Trainingsdatensatz durch automatische Annotation von Nachrichtenartikeln in Slowenisch, Kroatisch, Griechisch und Katalanisch zu erstellen. Das Lehrermodell zeigt eine hohe Zero-Shot-Performance in allen vier Sprachen. Seine Übereinstimmung mit menschlichen Annotatoren ist vergleichbar mit der zwischen den menschlichen Annotatoren selbst. Um die Rechenbeschränkungen im Zusammenhang mit der Verarbeitung von Millionen von Texten täglich zu mildern, werden kleinere BERT-ähnliche Schülermodelle auf dem GVT-annotierten Datensatz feinabgestimmt. Diese Schülermodelle erreichen eine hohe Leistung, vergleichbar mit dem Lehrermodell. Darüber hinaus untersuchen wir die Auswirkungen der Größe der Trainingsdaten auf die Leistung der Schülermodelle und untersuchen deren monolinguale, mehrsprachige und Zero-Shot-Querlingualfähigkeiten. Die Ergebnisse zeigen, dass Schülermodelle mit einer relativ geringen Anzahl von Trainingsinstanzen eine hohe Leistung erzielen können und starke Zero-Shot-Querlingualfähigkeiten aufweisen. Schließlich veröffentlichen wir den leistungsstärksten Nachrichtenthemenklassifikator, der eine mehrsprachige Klassifizierung mit den obersten Kategorien des IPTC Media Topic-Schemas ermöglicht.
Neueste Arbeiten haben gezeigt, dass Diffusionsmodelle als leistungsstarke neuronale Rendering-Engines eingesetzt werden können, die dazu genutzt werden können, virtuelle Objekte in Bilder einzufügen. Im Gegensatz zu typischen physikbasierten Renderern sind neuronale Rendering-Engines jedoch durch den Mangel an manueller Steuerung über das Beleuchtungssetup begrenzt, was oft entscheidend ist, um das gewünschte Bildergebnis zu verbessern oder zu personalisieren. In diesem Paper zeigen wir, dass eine präzise Steuerung der Beleuchtung für das Umgestalten von Objekten einfach durch die Spezifizierung der gewünschten Schatten des Objekts erreicht werden kann. Überraschenderweise zeigen wir, dass allein das Einbringen des Schattens des Objekts in einen vortrainierten, auf Diffusion basierenden neuronalen Renderer es ermöglicht, das Objekt genau entsprechend der gewünschten Lichtposition zu schattieren, während es das Objekt (und seinen Schatten) harmonisch in das Hintergrundbild einfügt. Unsere Methode, SpotLight, nutzt bestehende neuronale Rendering-Ansätze und erzielt steuerbare Ergebnisse beim Umgestalten ohne zusätzliches Training. Insbesondere demonstrieren wir die Anwendung mit zwei neuronalen Renderern aus der aktuellen Literatur. Wir zeigen, dass SpotLight überlegene Objekt-Kompositionsergebnisse erzielt, sowohl quantitativ als auch wahrnehmungsmäßig, wie von einer Benutzerstudie bestätigt, und dabei bestehende, speziell für das Umgestalten konzipierte, auf Diffusion basierende Modelle übertrifft.
In der vorliegenden Arbeit stellen wir das Training Noise Token (TNT) Pruning für Vision-Transformer vor. Unsere Methode entspannt die Bedingung des diskreten Token-Droppings zu kontinuierlichem additiven Rauschen, was eine reibungslose Optimierung im Training ermöglicht, während die diskreten Dropping-Rechenleistungsvorteile in Bereitstellungsszenarien beibehalten werden. Wir stellen theoretische Verbindungen zur Rate-Distortion-Literatur her und führen empirische Bewertungen anhand des ImageNet-Datensatzes unter Verwendung der ViT- und DeiT-Architekturen durch, um die Vorteile von TNT gegenüber früheren Pruning-Methoden zu demonstrieren.