papers.description
Yume zielt darauf ab, Bilder, Texte oder Videos zu nutzen, um eine interaktive, realistische und dynamische Welt zu erschaffen, die Erkundung und Steuerung über Peripheriegeräte oder neuronale Signale ermöglicht. In diesem Bericht präsentieren wir eine Vorabversion von \method, die aus einem Eingabebild eine dynamische Welt erzeugt und die Erkundung dieser Welt über Tastatureingaben ermöglicht. Um diese hochwertige und interaktive Videoweltgenerierung zu erreichen, führen wir ein durchdachtes Framework ein, das aus vier Hauptkomponenten besteht: Kamerabewegungsquantisierung, Videogenerierungsarchitektur, fortschrittlicher Sampler und Modellbeschleunigung. Zunächst quantisieren wir Kamerabewegungen für stabiles Training und benutzerfreundliche Interaktion über Tastatureingaben. Anschließend stellen wir den Masked Video Diffusion Transformer (MVDT) mit einem Speichermodul für die unendliche Videogenerierung in autoregressiver Weise vor. Danach werden das trainingsfreie Anti-Artifact Mechanism (AAM) und das Time Travel Sampling basierend auf stochastischen Differentialgleichungen (TTS-SDE) in den Sampler integriert, um eine bessere visuelle Qualität und präzisere Steuerung zu erreichen. Darüber hinaus untersuchen wir die Modellbeschleunigung durch synergetische Optimierung von adversarieller Destillation und Caching-Mechanismen. Wir verwenden den hochwertigen Welt-Explorationsdatensatz \sekai, um \method zu trainieren, und erzielen bemerkenswerte Ergebnisse in verschiedenen Szenen und Anwendungen. Alle Daten, Codebasen und Modellgewichte sind auf https://github.com/stdstu12/YUME verfügbar. Yume wird monatlich aktualisiert, um sein ursprüngliches Ziel zu erreichen. Projektseite: https://stdstu12.github.io/YUME-Project/.
Die Erreichung einer menschenähnlichen Wahrnehmung und Denkfähigkeit in Multimodalen Großen Sprachmodellen (MLLMs) bleibt eine zentrale Herausforderung in der künstlichen Intelligenz. Während sich die jüngste Forschung hauptsächlich auf die Verbesserung der Denkfähigkeiten von MLLMs konzentriert hat, bleibt eine grundlegende Frage bestehen: Können Multimodale Große Sprachmodelle die Welt wirklich so wahrnehmen wie Menschen? Diese Arbeit verlagert den Fokus vom Denken zur Wahrnehmung. Anstatt speziell für das Denken entwickelte Benchmarks zu konstruieren, führen wir den Turing Eye Test (TET) ein, einen anspruchsvollen, wahrnehmungsorientierten Benchmark, der aus vier diagnostischen Aufgaben besteht, die die Leistung von MLLMs anhand von synthetischen Bildern bewerten, die Menschen intuitiv verarbeiten. Unsere Ergebnisse zeigen, dass state-of-the-art MLLMs bei unseren Wahrnehmungsaufgaben, die für Menschen trivial sind, katastrophale Fehler aufweisen. Sowohl In-Context-Lernen als auch das Training auf der Sprachbasis – effektiv für frühere Benchmarks – verbessern die Leistung bei unseren Aufgaben nicht, während das Feinabstimmen des Vision-Towers eine schnelle Anpassung ermöglicht. Dies deutet darauf hin, dass unser Benchmark Herausforderungen für die Generalisierung des Vision-Towers darstellt und nicht für das Wissen und die Denkfähigkeiten der Sprachbasis – eine entscheidende Lücke zwischen aktuellen MLLMs und der menschlichen Wahrnehmung. In dieser Version veröffentlichen wir eine repräsentative Teilmenge der TET-Aufgaben und werden in zukünftigen Arbeiten vielfältigere Aufgaben und Methoden einführen, um die visuelle Generalisierung zu verbessern.
Die Erstellung hochwertiger Präsentationsfolien kann für Nicht-Experten aufgrund der Komplexität bei der Navigation durch verschiedene Designentscheidungen eine Herausforderung darstellen. Zahlreiche automatisierte Tools können Layouts und Farbschemata vorschlagen, doch fehlt ihnen oft die Fähigkeit, ihre eigenen Ergebnisse zu verfeinern, was ein zentraler Aspekt in realen Arbeitsabläufen ist. Wir schlagen DesignLab vor, das den Designprozess in zwei Rollen unterteilt: den Designprüfer, der designbezogene Probleme identifiziert, und den Designmitwirkenden, der diese korrigiert. Diese Aufteilung ermöglicht eine iterative Schleife, in der der Prüfer kontinuierlich Probleme erkennt und der Mitwirkende sie behebt, wodurch ein Entwurf mit jeder Iteration weiter verfeinert wird und Qualitäten erreicht, die zuvor unerreichbar waren. Wir feintunen große Sprachmodelle für diese Rollen und simulieren Zwischenentwürfe durch kontrollierte Störungen, wodurch der Designprüfer lernt, Designfehler zu erkennen, und der Mitwirkende lernt, wie man sie behebt. Unsere Experimente zeigen, dass DesignLab bestehende Design-Generierungsmethoden, einschließlich eines kommerziellen Tools, übertrifft, indem es die iterative Natur des Designs berücksichtigt, was zu polierten, professionellen Folien führen kann.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als ein leistungsstarkes Paradigma zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens etabliert. Bisherige Forschung konzentrierte sich hauptsächlich auf isolierte Anwendungsbereiche wie mathematische Problemlösung, Programmieraufgaben oder logisches Denken. Allerdings erfordern reale Denkszenarien eine integrierte Anwendung multipler kognitiver Fähigkeiten. Dennoch ist das Zusammenspiel dieser Denkfähigkeiten unter Reinforcement Learning noch weitgehend unverstanden. Um diese Lücke zu schließen, präsentieren wir eine systematische Untersuchung von Multi-Domain-Denken innerhalb des RLVR-Frameworks, mit einem expliziten Fokus auf drei primäre Domänen: mathematisches Denken, Code-Generierung und das Lösen logischer Rätsel. Wir führen eine umfassende Studie durch, die vier Schlüsselkomponenten umfasst: (1) Unter Nutzung des GRPO-Algorithmus und der Qwen-2.5-7B-Modellfamilie evaluiert unsere Studie gründlich die domänenspezifischen Verbesserungen und die domänenübergreifenden Generalisierungsfähigkeiten der Modelle, wenn sie auf Single-Domain-Datensätzen trainiert werden. (2) Zusätzlich untersuchen wir die komplexen Interaktionen, einschließlich gegenseitiger Verbesserungen und Konflikte, die während des kombinierten domänenübergreifenden Trainings auftreten. (3) Um den Einfluss von Supervised Fine-Tuning (SFT) auf RL besser zu verstehen, analysieren und vergleichen wir auch Leistungsunterschiede zwischen Basis- und Instruktionsmodellen unter identischen RL-Konfigurationen. (4) Darüber hinaus gehen wir auf kritische Details des RL-Trainings ein und untersuchen systematisch die Auswirkungen von Curriculum-Learning-Strategien, Variationen im Belohnungsdesign und sprachspezifischen Faktoren. Durch umfangreiche Experimente bieten unsere Ergebnisse bedeutende Einblicke in die Dynamik der Domäneninteraktionen und enthüllen Schlüsselfaktoren, die sowohl spezialisierte als auch generalisierbare Denkleistungen beeinflussen. Diese Erkenntnisse liefern wertvolle Leitlinien für die Optimierung von RL-Methoden, um umfassende, multi-domänenübergreifende Denkfähigkeiten in LLMs zu fördern.
Jüngste Fortschritte in der Darstellung spärlicher Voxel haben die Qualität der 3D-Inhaltsgenerierung erheblich verbessert und ermöglichen eine hochauflösende Modellierung mit fein abgestufter Geometrie. Bestehende Frameworks leiden jedoch unter erheblichen Rechenineffizienzen aufgrund der quadratischen Komplexität von Aufmerksamkeitsmechanismen in ihren zweistufigen Diffusionspipelines. In dieser Arbeit stellen wir Ultra3D vor, ein effizientes 3D-Generierungsframework, das die Modellierung spärlicher Voxel erheblich beschleunigt, ohne die Qualität zu beeinträchtigen. Unsere Methode nutzt die kompakte VecSet-Darstellung, um in der ersten Stufe effizient ein grobes Objektlayout zu generieren, wodurch die Token-Anzahl reduziert und die Vorhersage von Voxelkoordinaten beschleunigt wird. Um die latenten Merkmale pro Voxel in der zweiten Stufe zu verfeinern, führen wir Part Attention ein, einen geometriebewussten lokalisierten Aufmerksamkeitsmechanismus, der die Aufmerksamkeitsberechnung auf semantisch konsistente Teilregionen beschränkt. Dieser Ansatz bewahrt die strukturelle Kontinuität, während unnötige globale Aufmerksamkeit vermieden wird, was eine Beschleunigung der latenten Generierung um bis zu das 6,7-fache ermöglicht. Um diesen Mechanismus zu unterstützen, entwickeln wir eine skalierbare Pipeline zur Teileannotation, die Rohmeshes in teilmarkierte spärliche Voxel umwandelt. Umfangreiche Experimente zeigen, dass Ultra3D die hochauflösende 3D-Generierung bei einer Auflösung von 1024 unterstützt und sowohl in Bezug auf die visuelle Qualität als auch auf die Benutzerpräferenz state-of-the-art Leistungen erzielt.
Agentische Suche, als ein autonomeres und adaptiveres Paradigma der Retrieval-Augmentierung, treibt die Entwicklung intelligenter Suchsysteme voran. Allerdings stimmen bestehende Evaluierungsrahmen nicht gut mit den Zielen der agentischen Suche überein. Erstens weichen die komplexen Abfragen, die in aktuellen Benchmarks häufig verwendet werden, oft von realistischen Nutzersuch-Szenarien ab. Zweitens neigen frühere Ansätze dazu, Rauschen einzuführen, wenn Ground Truth für End-to-End-Evaluierungen extrahiert wird, was zu verzerrten Bewertungen auf einer feinkörnigen Ebene führt. Drittens konzentrieren sich die meisten aktuellen Rahmen ausschließlich auf die Qualität der endgültigen Antworten und vernachlässigen die Bewertung des iterativen Prozesses, der der agentischen Suche innewohnt. Um diese Einschränkungen zu adressieren, schlagen wir RAVine vor – einen Realitäts-Aligneden Evaluierungsrahmen für agentische LLMs mit Suche. RAVine zielt auf Multipunkt-Abfragen und Langform-Antworten ab, die die Nutzerabsichten besser widerspiegeln, und führt eine zuschreibbare Ground-Truth-Konstruktionsstrategie ein, um die Genauigkeit der feinkörnigen Bewertung zu verbessern. Darüber hinaus untersucht RAVine die Interaktion des Modells mit Suchtools während des iterativen Prozesses und berücksichtigt Effizienzfaktoren. Wir benchmarken eine Reihe von Modellen mit RAVine und leiten mehrere Erkenntnisse ab, die wir hoffen, zur Weiterentwicklung agentischer Suchsysteme beizutragen. Der Code und die Datensätze sind unter https://github.com/SwordFaith/RAVine verfügbar.
Bestehende Large Language Models (LLMs), die auf informeller Sprache (z.B. menschlicher Sprache) basieren und mit Reinforcement Learning (RL) trainiert wurden, stehen vor einer erheblichen Herausforderung: Ihre Verifizierungsprozesse, die entscheidende Trainingssignale liefern, sind weder zuverlässig noch skalierbar. Tatsächlich können die weit verbreiteten großen proprietären Modelle kaum verifizierbare Programme erzeugen. Eine vielversprechende, aber weitgehend unerforschte Alternative ist das formale sprachbasierte Reasoning. Die Verankerung von LLMs in rigorosen formalen Systemen, in denen generative Modelle in formalen Sprachräumen (z.B. Dafny) operieren, ermöglicht die automatische und mathematisch beweisbare Verifizierung ihrer Denkprozesse und Ergebnisse. Diese Fähigkeit ist entscheidend für die Erreichung einer großflächigen, zuverlässigen formalen Softwareverifizierung. Es ist gängige Praxis, menschlich annotierte Gedankenketten (Chain-of-Thought) und andere menschliche Vorannahmen zu verwenden, um die Reasoning- und Programmierfähigkeiten von LLMs zu fördern. Leider wird es unannehmbar aufwendig, solche Vorannahmen für die Überwachung komplexer Programmieraufgaben bereitzustellen. In dieser Arbeit untersuchen wir systematisch Möglichkeiten, menschliche Vorannahmen zu reduzieren, wobei wir die formale Sprache Dafny als Hauptumgebung für unsere Pilotstudie verwenden. Unsere Pipeline stützt sich hauptsächlich auf die Einführung einer automatischen und skalierbaren Datenkuratierungspipeline sowie auf sorgfältige RL-Designs, die mit Feedback des formalen Sprachverifizierers integriert sind. Wir stellen DafnyComp vor, einen Benchmark für kompositionelle formale Programme mit automatisch formalisierten Spezifikationen für die Spezifikationslogik. Unser überwachter Feinabstimmungsprozess (Supervised Fine-Tuning, SFT) ermöglicht es sogar kleinen Modellen (z.B. 0,5B), syntaktisch gültigen und verifizierbaren Dafny-Code zu generieren, wodurch proprietäre Modelle übertroffen werden. RL mit Regularisierung verbessert die Leistung weiter und erreicht eine stärkere Generalisierung auf Aufgaben außerhalb des Trainingsbereichs, wobei alle starken Baseline-Modelle auf dem anspruchsvollen DafnyComp-Benchmark übertroffen werden.
Große Sprachmodelle (LLMs) erzielen die besten Ergebnisse mit sorgfältig formulierten Prompts, doch das Prompt-Engineering bleibt manuell, inkonsistent und für Nicht-Experten schwer zugänglich. Wir stellen Promptomatix vor, ein automatisches Prompt-Optimierungsframework, das natürliche Sprachaufgabenbeschreibungen in hochwertige Prompts umwandelt, ohne manuelle Anpassungen oder Domänenexpertise zu erfordern. Promptomatix unterstützt sowohl einen leichtgewichtigen Meta-Prompt-basierten Optimierer als auch einen DSPy-betriebenen Compiler, wobei das modulare Design zukünftige Erweiterungen auf fortschrittlichere Frameworks ermöglicht. Das System analysiert die Benutzerabsicht, generiert synthetische Trainingsdaten, wählt Prompting-Strategien aus und verfeinert Prompts unter Berücksichtigung kostenbewusster Ziele. In Evaluierungen über fünf Aufgabenkategorien hinweg erzielt Promptomatix eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu bestehenden Bibliotheken, während es die Prompt-Länge und den Rechenaufwand reduziert, wodurch die Prompt-Optimierung skalierbar und effizient wird.
Hochwertige 3D-Assets sind für verschiedene Anwendungen in der Computergrafik und 3D-Vision unerlässlich, bleiben jedoch aufgrund der erheblichen Beschaffungskosten knapp. Um diesen Mangel zu beheben, stellen wir Elevate3D vor, ein neuartiges Framework, das leicht zugängliche, qualitativ minderwertige 3D-Assets in höherwertige Modelle transformiert. Kern von Elevate3D ist HFS-SDEdit, eine spezialisierte Methode zur Texturverbesserung, die die Texturqualität erheblich steigert, während das Erscheinungsbild und die Geometrie erhalten bleiben und deren Mängel behoben werden. Darüber hinaus arbeitet Elevate3D in einem Ansicht-für-Ansicht-Verfahren, das zwischen Textur- und Geometrieverfeinerung wechselt. Im Gegensatz zu früheren Methoden, die die Geometrieverfeinerung weitgehend vernachlässigt haben, nutzt unser Framework geometrische Hinweise aus Bildern, die mit HFS-SDEdit verfeinert wurden, indem es modernste monokulare Geometrievorhersagen einsetzt. Dieser Ansatz gewährleistet detaillierte und präzise Geometrie, die nahtlos mit der verbesserten Textur übereinstimmt. Elevate3D übertrifft aktuelle Konkurrenzmethoden, indem es Spitzenqualität in der 3D-Modellverfeinerung erreicht und so effektiv die Knappheit hochwertiger Open-Source-3D-Assets adressiert.
Die rasante Weiterentwicklung von Video-Diffusionsmodellen wurde durch grundlegende Einschränkungen in der zeitlichen Modellierung behindert, insbesondere durch die starre Synchronisation der Rahmenentwicklung, die durch konventionelle skalare Zeitschrittvariablen auferlegt wird. Obwohl aufgabenspezifische Anpassungen und autoregressive Modelle versucht haben, diese Herausforderungen zu bewältigen, bleiben sie durch Rechenineffizienz, katastrophales Vergessen oder begrenzte Anwendbarkeit eingeschränkt. In dieser Arbeit präsentieren wir Pusa, ein bahnbrechendes Paradigma, das die vektorisierte Zeitschrittadaptation (VTA) nutzt, um eine fein abgestimmte zeitliche Kontrolle innerhalb eines einheitlichen Video-Diffusionsrahmens zu ermöglichen. Darüber hinaus ist VTA eine zerstörungsfreie Anpassung, was bedeutet, dass sie die Fähigkeiten des Basismodells vollständig erhält. Durch das Feinabstimmen des SOTA-Modells Wan2.1-T2V-14B mit VTA erreichen wir eine beispiellose Effizienz – wir übertreffen die Leistung von Wan-I2V-14B mit ≤ 1/200 der Trainingskosten (\500 vs. \geq 100.000) und ≤ 1/2500 der Datensatzgröße (4K vs. \geq 10M Proben). Pusa setzt nicht nur einen neuen Standard für die Bild-zu-Video-Generierung (I2V) und erreicht einen VBench-I2V-Gesamtwert von 87,32\% (vs. 86,86\% von Wan-I2V-14B), sondern erschließt auch viele Zero-Shot-Multitasking-Fähigkeiten wie Start-End-Rahmen und Videoerweiterung – alles ohne aufgabenspezifisches Training. Gleichzeitig kann Pusa weiterhin Text-zu-Video-Generierung durchführen. Mechanistische Analysen zeigen, dass unser Ansatz die generativen Prioritäten des Basismodells bewahrt, während zeitliche Dynamiken gezielt eingeführt werden, wodurch die kombinatorische Explosion vermieden wird, die vektorisierte Zeitschritte inhärent ist. Diese Arbeit etabliert ein skalierbares, effizientes und vielseitiges Paradigma für die nächste Generation der Videosynthese und demokratisiert die hochauflösende Videogenerierung sowohl für die Forschung als auch für die Industrie. Der Code ist unter https://github.com/Yaofang-Liu/Pusa-VidGen quelloffen verfügbar.
Text-to-Image-Diffusionsmodelle (DMs) haben bemerkenswerte Erfolge in der Bildgenerierung erzielt. Dennoch bestehen Bedenken hinsichtlich Datenschutz und geistigem Eigentum, da sie potenziell Trainingsdaten unbeabsichtigt memorieren und replizieren können. Jüngste Bemühungen zur Minderung dieses Problems konzentrierten sich auf die Identifizierung und das Beschneiden von Gewichten, die für die Auslösung von Replikationen verantwortlich sind, basierend auf der Annahme, dass Memorierung lokalisiert werden kann. Unsere Forschung bewertet die Robustheit dieser beschneidungsbasierten Ansätze. Wir zeigen, dass selbst nach dem Beschneiden geringfügige Anpassungen an den Text-Einbettungen der Eingabeaufforderungen ausreichen, um die Datenreplikation erneut auszulösen, was die Fragilität dieser Abwehrmechanismen verdeutlicht. Darüber hinaus stellen wir die grundlegende Annahme der Lokalität der Memorierung in Frage, indem wir zeigen, dass Replikationen von verschiedenen Stellen innerhalb des Text-Einbettungsraums ausgelöst werden können und unterschiedliche Pfade im Modell folgen. Unsere Ergebnisse deuten darauf hin, dass bestehende Minderungsstrategien unzureichend sind und die Notwendigkeit von Methoden unterstreichen, die memorierte Inhalte tatsächlich entfernen, anstatt zu versuchen, deren Abruf zu unterdrücken. Als ersten Schritt in diese Richtung führen wir eine neuartige adversarielle Feinabstimmungsmethode ein, die iterativ nach Replikationsauslösern sucht und das Modell aktualisiert, um die Robustheit zu erhöhen. Durch unsere Forschung liefern wir neue Einblicke in die Natur der Memorierung in Text-to-Image-DMs und eine Grundlage für die Entwicklung vertrauenswürdigerer und konformer generativer KI.