papers.description
Test-Time-Scaling zielt darauf ab, die Schlussfolgerungsleistung großer Sprachmodelle (LLMs) durch die Hinzufügung von Rechenressourcen zu verbessern. Ein verbreiteter Ansatz in diesem Bereich sind sampling-basierte Test-Time-Scaling-Methoden, die die Schlussfolgerungsfähigkeit verbessern, indem sie während der Inferenz mehrere Schlussfolgerungspfade für eine gegebene Eingabe generieren. Trotz des praktischen Erfolgs dieser Methoden bleiben die theoretischen Grundlagen jedoch weitgehend unerforscht. In diesem Artikel stellen wir den ersten theoretischen Rahmen zur Analyse von sampling-basierten Test-Time-Scaling-Methoden vor, der auf der Perspektive der Konfidenzschätzung basiert. Auf Grundlage dieses Rahmens analysieren wir zwei dominante Paradigmen: Selbstkonsistenz und Perplexität, und decken wesentliche Einschränkungen auf: Selbstkonsistenz leidet unter einem hohen Schätzfehler, während Perplexität erhebliche Modellierungsfehler aufweist und möglicherweise die Konvergenz des Schätzfehlers verschlechtert. Um diese Einschränkungen zu überwinden, führen wir RPC ein, eine hybride Methode, die unsere theoretischen Erkenntnisse durch zwei Schlüsselkomponenten nutzt: Perplexity Consistency und Reasoning Pruning. Perplexity Consistency kombiniert die Stärken von Selbstkonsistenz und Perplexität, beschleunigt die Konvergenzrate des Schätzfehlers von linear auf exponentiell und bewahrt dabei den Modellfehler. Reasoning Pruning verhindert eine Verschlechterung, indem es unwahrscheinliche Schlussfolgerungspfage eliminiert. Sowohl theoretische Analysen als auch empirische Ergebnisse über sieben Benchmark-Datensätze zeigen, dass RPC ein großes Potenzial zur Reduzierung von Schlussfolgerungsfehlern besitzt. Bemerkenswerterweise erreicht RPC eine vergleichbare Schlussfolgerungsleistung wie Selbstkonsistenz, verbessert jedoch nicht nur die Zuverlässigkeit der Konfidenz, sondern reduziert auch die Sampling-Kosten um 50%. Der Code und die Ressourcen sind unter https://wnjxyk.github.io/RPC verfügbar.
Die Weiterentwicklung der maschinellen Intelligenz erfordert die Fähigkeit, über mehrere Modalitäten hinweg wahrzunehmen, ähnlich wie Menschen die Welt erfassen. Wir stellen OmniVinci vor, eine Initiative zur Schaffung eines leistungsstarken, quelloffenen, omni-modalen LLM. Wir untersuchen sorgfältig die Designentscheidungen in Bezug auf Modellarchitektur und Datenkuratierung. Für die Modellarchitektur präsentieren wir drei Schlüsselinnovationen: (i) OmniAlignNet zur Stärkung der Ausrichtung zwischen visuellen und auditiven Embeddings in einem gemeinsamen omni-modalen latenten Raum; (ii) Temporal Embedding Grouping zur Erfassung der relativen zeitlichen Ausrichtung zwischen visuellen und auditiven Signalen; und (iii) Constrained Rotary Time Embedding zur Kodierung absoluter zeitlicher Informationen in omni-modalen Embeddings. Wir führen eine Kuratierungs- und Synthese-Pipeline ein, die 24M einmodale und omni-modale Konversationen generiert. Wir stellen fest, dass sich die Modalitäten sowohl in der Wahrnehmung als auch im Denken gegenseitig verstärken. Unser Modell, OmniVinci, übertrifft Qwen2.5-Omni mit +19,05 auf DailyOmni (cross-modales Verständnis), +1,7 auf MMAR (Audio) und +3,9 auf Video-MME (Vision), während es nur 0,2T Trainings-Tokens verwendet – eine Reduktion um das Sechsfache im Vergleich zu Qwen2.5-Omni mit 1,2T. Schließlich demonstrieren wir die Vorteile der Omni-Modalität in nachgelagerten Anwendungen, die Robotik, medizinische KI und intelligente Fabriken umfassen.
Die Bearbeitung von 3D-Objekten ist entscheidend für die Erstellung interaktiver Inhalte in den Bereichen Gaming, Animation und Robotik. Dennoch sind aktuelle Ansätze ineffizient, inkonsistent und scheitern oft daran, unveränderte Bereiche zu bewahren. Die meisten Methoden basieren auf der Bearbeitung von Multi-View-Renderings, gefolgt von einer Rekonstruktion, was Artefakte einführt und die Praktikabilität einschränkt. Um diese Herausforderungen zu bewältigen, schlagen wir Nano3D vor, ein trainingsfreies Framework für präzise und kohärente 3D-Objektbearbeitung ohne Masken. Nano3D integriert FlowEdit in TRELLIS, um lokalisierte Bearbeitungen anhand von Front-View-Renderings durchzuführen, und führt zusätzlich regionsbewusste Merging-Strategien ein, Voxel/Slat-Merge, die die strukturelle Treue adaptiv bewahren, indem sie die Konsistenz zwischen bearbeiteten und unveränderten Bereichen sicherstellen. Experimente zeigen, dass Nano3D im Vergleich zu bestehenden Methoden eine überlegene 3D-Konsistenz und visuelle Qualität erreicht. Basierend auf diesem Framework erstellen wir den ersten groß angelegten 3D-Bearbeitungsdatensatz Nano3D-Edit-100k, der über 100.000 hochwertige 3D-Bearbeitungspaare enthält. Diese Arbeit adressiert langjährige Herausforderungen sowohl im Algorithmen-Design als auch in der Datenverfügbarkeit, verbessert die Allgemeingültigkeit und Zuverlässigkeit der 3D-Bearbeitung erheblich und legt die Grundlage für die Entwicklung von Feed-Forward-3D-Bearbeitungsmodellen. Projektseite: https://jamesyjl.github.io/Nano3D
Instruktionsbasiertes Video-Editing verspricht, die Inhaltserstellung zu demokratisieren, doch sein Fortschritt wird erheblich durch den Mangel an groß angelegten, hochwertigen Trainingsdaten behindert. Wir stellen Ditto vor, ein ganzheitliches Framework, das entwickelt wurde, um diese grundlegende Herausforderung zu bewältigen. Im Kern von Ditto befindet sich eine neuartige Daten-Generierungspipeline, die die kreative Vielfalt eines führenden Bildeditors mit einem In-Context-Video-Generator kombiniert und so die begrenzten Möglichkeiten bestehender Modelle überwindet. Um diesen Prozess praktikabel zu machen, löst unser Framework den problematischen Kompromiss zwischen Kosten und Qualität durch den Einsatz einer effizienten, destillierten Modellarchitektur, die durch einen temporalen Enhancer ergänzt wird. Dies reduziert gleichzeitig den Rechenaufwand und verbessert die zeitliche Kohärenz. Schließlich wird die gesamte Pipeline von einem intelligenten Agenten gesteuert, der vielfältige Anweisungen erstellt und die Ausgabe rigoros filtert, um eine Qualitätskontrolle im großen Maßstab zu gewährleisten. Mit diesem Framework haben wir über 12.000 GPU-Tage investiert, um Ditto-1M zu erstellen, einen neuen Datensatz mit einer Million hochwertiger Video-Editing-Beispiele. Wir haben unser Modell, Editto, auf Ditto-1M mit einer Curriculum-Learning-Strategie trainiert. Die Ergebnisse zeigen eine überlegene Fähigkeit zur Befolgung von Anweisungen und setzen einen neuen Maßstab im instruktionsbasierten Video-Editing.
Aktuelle Arbeiten haben gezeigt, dass enges Feinabstimmen breit fehlausgerichtete LLMs (Large Language Models) erzeugen kann, ein Phänomen, das als emergente Fehlausrichtung (Emergent Misalignment, EM) bezeichnet wird. Obwohl besorgniserregend, waren diese Erkenntnisse auf Feinabstimmen und Aktivierungssteuerung beschränkt und ließen das In-Context-Lernen (In-Context Learning, ICL) außer Acht. Daher stellen wir die Frage: Tritt EM im ICL auf? Wir stellen fest, dass dies der Fall ist: Über drei Datensätze hinweg erzeugen drei fortschrittliche Modelle breit fehlausgerichtete Antworten mit Raten zwischen 2 % und 17 % bei 64 engen In-Context-Beispielen und bis zu 58 % bei 256 Beispielen. Wir untersuchen auch die Mechanismen von EM, indem wir schrittweises Denken hervorrufen (während die In-Context-Beispiele unverändert bleiben). Die manuelle Analyse der resultierenden Gedankenkette zeigt, dass 67,5 % der fehlausgerichteten Spuren schädliche Ausgaben explizit rechtfertigen, indem sie eine rücksichtslose oder gefährliche „Persona“ annehmen, was frühere Ergebnisse zur EM durch Feinabstimmen widerspiegelt.
Die Synthese großflächiger, erkundbarer und geometrisch präziser 3D-Stadtszenen ist eine anspruchsvolle, aber wertvolle Aufgabe, um immersive und verkörperte Anwendungen zu ermöglichen. Die Herausforderungen liegen in der fehlenden Verfügbarkeit großflächiger und hochwertiger 3D-Scans der realen Welt, die für das Training generalisierbarer generativer Modelle benötigt werden. In diesem Artikel schlagen wir einen alternativen Ansatz vor, um großflächige 3D-Szenen zu erstellen, indem wir die leicht verfügbaren Satellitenbilder, die realistische grobe Geometrie liefern, mit dem Open-Domain-Diffusionsmodell zur Erstellung hochwertiger Nahaufnahmen kombinieren. Wir präsentieren Skyfall-GS, das erste Framework zur Erstellung von 3D-Szenen im Maßstab eines Stadtblocks ohne kostspielige 3D-Annotationen, das zudem eine Echtzeit- und immersive 3D-Erkundung ermöglicht. Wir entwickeln eine curriculumgesteuerte iterative Verfeinerungsstrategie, um die geometrische Vollständigkeit und fotorealistische Texturen schrittweise zu verbessern. Umfangreiche Experimente zeigen, dass Skyfall-GS im Vergleich zu modernsten Ansätzen eine verbesserte konsistente Geometrie über verschiedene Blickwinkel und realistischere Texturen bietet. Projektseite: https://skyfall-gs.jayinnn.dev/
Jüngste Fortschritte in der diffusionsbasierten visuellen Generierung beruhen weitgehend auf latenten Diffusionsmodellen mit Variations-Autoencodern (VAEs). Obwohl effektiv für die hochauflösende Synthese, leidet dieses VAE+Diffusions-Paradigma unter begrenzter Trainings effizienz, langsamer Inferenz und schlechter Übertragbarkeit auf breitere Vision-Aufgaben. Diese Probleme resultieren aus einer zentralen Einschränkung der VAE-Latenzräume: dem Fehlen einer klaren semantischen Trennung und einer starken diskriminativen Struktur. Unsere Analyse bestätigt, dass diese Eigenschaften nicht nur für Wahrnehmungs- und Verständnisaufgaben entscheidend sind, sondern auch für das stabile und effiziente Training latenter Diffusionsmodelle. Motiviert durch diese Erkenntnis führen wir SVG ein, ein neuartiges latentes Diffusionsmodell ohne Variations-Autoencoder, das selbstüberwachte Repräsentationen für die visuelle Generierung nutzt. SVG konstruiert einen Merkmalsraum mit klarer semantischer Diskriminierbarkeit durch die Verwendung eingefrorener DINO-Merkmale, während ein leichtgewichtiger Residualzweig feinkörnige Details für die hochauflösende Rekonstruktion erfasst. Diffusionsmodelle werden direkt auf diesem semantisch strukturierten latenten Raum trainiert, um ein effizienteres Lernen zu ermöglichen. Dadurch ermöglicht SVG beschleunigtes Diffusionstraining, unterstützt die Probenahme in wenigen Schritten und verbessert die generative Qualität. Experimentelle Ergebnisse zeigen weiterhin, dass SVG die semantischen und diskriminativen Fähigkeiten der zugrunde liegenden selbstüberwachten Repräsentationen bewahrt und einen prinzipiellen Weg hin zu aufgabengenerellen, hochwertigen visuellen Repräsentationen bietet.
Sprachwissenschaftliche Kommentare zu LLMs, die stark von den theoretischen Rahmenwerken de Saussures und Chomskys beeinflusst sind, sind oft spekulativ und wenig produktiv. Kritiker stellen infrage, ob LLMs Sprache legitim modellieren können, indem sie die Notwendigkeit von „Tiefenstruktur“ oder „Verankerung“ betonen, um eine idealisierte linguistische „Kompetenz“ zu erreichen. Wir plädieren für einen radikalen Perspektivwechsel hin zu den empiristischen Prinzipien von Witold Mańczak, einem bedeutenden Allgemein- und Historiolinguisten. Er definiert Sprache nicht als ein „System von Zeichen“ oder ein „computationales System des Gehirns“, sondern als die Gesamtheit alles Gesagten und Geschriebenen. Vor allem identifiziert er die Häufigkeit der Verwendung bestimmter Sprachelemente als das primäre Steuerungsprinzip der Sprache. Unter Verwendung seines Rahmenwerks hinterfragen wir frühere Kritiken an LLMs und bieten einen konstruktiven Leitfaden für die Gestaltung, Bewertung und Interpretation von Sprachmodellen.
Linsenreflexe beeinträchtigen die Bildqualität erheblich und wirken sich auf kritische Computer-Vision-Aufgaben wie Objekterkennung und autonomes Fahren aus. Aktuelle Methoden zur Entfernung von Reflexen aus Einzelbildern (Single Image Flare Removal, SIFR) schneiden schlecht ab, wenn Lichtquellen außerhalb des Bildrahmens unvollständig oder nicht vorhanden sind. Wir stellen LightsOut vor, ein auf Diffusion basierendes Outpainting-Framework, das speziell entwickelt wurde, um SIFR durch die Rekonstruktion von Lichtquellen außerhalb des Bildrahmens zu verbessern. Unser Ansatz nutzt ein Multitask-Regressionsmodul und ein mit LoRA feinabgestimmtes Diffusionsmodell, um realistische und physikalisch konsistente Outpainting-Ergebnisse zu gewährleisten. Umfassende Experimente zeigen, dass LightsOut die Leistung bestehender SIFR-Methoden in anspruchsvollen Szenarien konsistent steigert, ohne zusätzliches Nachtraining zu erfordern, und somit als universell anwendbare Plug-and-Play-Vorverarbeitungslösung dient. Projektseite: https://ray-1026.github.io/lightsout/
Große Sprachmodelle lassen sich in zwei Familien unterteilen: reasoning-zentrierte LLMs, die die interne Kettenfolge des Denkens stärken, jedoch keine externen Werkzeuge aufrufen können, und agentische LLMs, die lernen, mit Umgebungen zu interagieren und Werkzeuge zu nutzen, aber oft in tiefgreifendem Denken zurückbleiben. Diese Kluft entsteht durch grundlegend unterschiedliche Trainingsziele, was zu unausgewogenen Stärken und Ineffizienz bei einfachen Anfragen führt, bei denen beide Familien dazu neigen, zu viel nachzudenken oder zu viele Werkzeuge aufzurufen. In dieser Arbeit präsentieren wir das Adaptive Agent Foundation Model (A²FM), ein einheitliches Framework, das einem Route-then-Align-Prinzip folgt: Das Modell lernt zunächst aufgabenbewusstes Routing und richtet dann modusspezifische Trajektorien unter einer gemeinsamen Basis aus. Um die Ineffizienzlücke zu schließen, führen wir einen dritten Modus ein – den Instant-Modus –, der einfache Anfragen direkt bearbeitet und so unnötiges Denken oder Werkzeugaufrufe verhindert, während er die agentischen und reasoning-Modi ergänzt. Um Genauigkeit und Effizienz gemeinsam zu verbessern, schlagen wir die Adaptive Policy Optimization (APO) vor, die eine adaptive Stichprobenziehung über die Modi hinweg erzwingt und eine kostenregulierte Belohnung anwendet. Im Maßstab von 32B erreicht A²FM 13,4 % bei BrowseComp, 70,4 % bei AIME25 und 16,7 % bei HLE, was neue SOTA-Werte unter vergleichbaren Modellen setzt und sich wettbewerbsfähig mit führenden LLMs über agentische, reasoning- und allgemeine Benchmarks hinweg zeigt. Besonders bemerkenswert ist, dass die adaptive Ausführung Kosten von nur 0,00487 $ pro korrekter Antwort erreicht – eine Kostensenkung um 45,2 % im Vergleich zum reasoning-Modus und 33,5 % im Vergleich zum agentischen Modus – und somit eine deutlich höhere Kosteneffizienz bei vergleichbarer Genauigkeit liefert.
Akademische Projektwebsites können Forschung effektiver verbreiten, wenn sie Kerninhalte klar präsentieren und intuitive Navigation sowie Interaktion ermöglichen. Aktuelle Ansätze wie die direkte Generierung durch Large Language Models (LLMs), Vorlagen oder direkte HTML-Konvertierung haben jedoch Schwierigkeiten, layoutbewusste und interaktive Websites zu erstellen, und es fehlt an einem umfassenden Bewertungsrahmen für diese Aufgabe. In diesem Artikel stellen wir Paper2Web vor, einen Benchmark-Datensatz und ein mehrdimensionales Bewertungsframework zur Beurteilung der Generierung akademischer Webseiten. Es umfasst regelbasierte Metriken wie Konnektivität, Vollständigkeit und durch Menschen verifizierte LLM-as-a-Judge-Bewertungen (die Interaktivität, Ästhetik und Informationsgehalt abdecken) sowie PaperQuiz, das das Behalten von Wissen auf Papierebene misst. Darüber hinaus präsentieren wir PWAgent, eine autonome Pipeline, die wissenschaftliche Arbeiten in interaktive und multimediale akademische Homepages umwandelt. Der Agent verfeinert sowohl Inhalte als auch Layout iterativ durch MCP-Tools, die Betonung, Ausgewogenheit und Präsentationsqualität verbessern. Unsere Experimente zeigen, dass PWAgent End-to-End-Baselines wie vorlagenbasierte Webseiten und arXiv/alphaXiv-Versionen durchgehend deutlich übertrifft, bei gleichzeitig niedrigen Kosten und der Erreichung der Pareto-Front in der Generierung akademischer Webseiten.
Wir präsentieren BLIP3o-NEXT, ein vollständig quelloffenes Basismodell der BLIP3-Serie, das die nächste Grenze der nativen Bildgenerierung vorantreibt. BLIP3o-NEXT vereint Text-zu-Bild-Generierung und Bildbearbeitung in einer einzigen Architektur und zeigt dabei starke Fähigkeiten in beiden Bereichen. Bei der Entwicklung des modernsten Modells für native Bildgenerierung haben wir vier zentrale Erkenntnisse gewonnen: (1) Die meisten architektonischen Entscheidungen führen zu vergleichbarer Leistung; eine Architektur kann als effektiv betrachtet werden, sofern sie effizient skaliert und schnelle Inferenz unterstützt. (2) Die erfolgreiche Anwendung von Reinforcement Learning kann die Grenzen der nativen Bildgenerierung weiter verschieben. (3) Bildbearbeitung bleibt eine herausfordernde Aufgabe, doch die Befolgung von Anweisungen und die Konsistenz zwischen generierten und Referenzbildern können durch Nachtraining und Datenengine signifikant verbessert werden. (4) Datenqualität und -umfang bleiben entscheidende Faktoren, die die Obergrenze der Modellleistung bestimmen. Aufbauend auf diesen Erkenntnissen nutzt BLIP3o-NEXT eine autoregressive + Diffusions-Architektur, bei der ein autoregressives Modell zunächst diskrete Bild-Tokens basierend auf multimodalen Eingaben generiert, deren versteckte Zustände dann als Konditionierungssignale für ein Diffusionsmodell verwendet werden, um hochauflösende Bilder zu erzeugen. Diese Architektur integriert die Stärken des logischen Schließens und der Anweisungsbefolgung autoregressiver Modelle mit der Fähigkeit von Diffusionsmodellen, feine Details darzustellen, und erreicht damit ein neues Niveau an Kohärenz und Realismus. Umfangreiche Bewertungen verschiedener Text-zu-Bild- und Bildbearbeitungs-Benchmarks zeigen, dass BLIP3o-NEXT eine überlegene Leistung gegenüber bestehenden Modellen erzielt.
Mit der Weiterentwicklung leistungsstarker großskaliger Reasoning-Modelle ist die effektive Bewertung der Reasoning-Fähigkeiten dieser Modelle zunehmend wichtig geworden. Bestehende Benchmarks, die zur Bewertung der Reasoning-Fähigkeiten großer Modelle entwickelt wurden, sind jedoch oft in ihrem Umfang begrenzt und bieten nicht die Flexibilität, ihre Schwierigkeit an die sich entwickelnden Reasoning-Kapazitäten der Modelle anzupassen. Um dies zu adressieren, schlagen wir MorphoBench vor, einen Benchmark, der multidisziplinäre Fragen integriert, um die Reasoning-Fähigkeiten großer Modelle zu bewerten und die Schwierigkeit der Fragen basierend auf den Reasoning-Fähigkeiten fortschrittlicher Modelle anpassen und aktualisieren kann. Konkret kuratieren wir den Benchmark, indem wir komplexe Reasoning-Fragen aus bestehenden Benchmarks und Quellen wie Olympiade-Wettbewerben auswählen und sammeln. Zudem passt MorphoBench die analytische Herausforderung der Fragen adaptiv an, indem es Schlüsselaussagen nutzt, die während des Reasoning-Prozesses des Modells generiert werden. Darüber hinaus enthält es Fragen, die mit Simulationssoftware generiert wurden, was eine dynamische Anpassung der Benchmark-Schwierigkeit mit minimalem Ressourcenverbrauch ermöglicht. Wir haben über 1.300 Testfragen gesammelt und die Schwierigkeit von MorphoBench iterativ basierend auf den Reasoning-Fähigkeiten von Modellen wie o3 und GPT-5 angepasst. MorphoBench verbessert die Umfassendheit und Validität der Bewertung von Modell-Reasoning und bietet zuverlässige Anleitung zur Verbesserung sowohl der Reasoning-Fähigkeiten als auch der wissenschaftlichen Robustheit großer Modelle. Der Code wurde unter https://github.com/OpenDCAI/MorphoBench veröffentlicht.
Trotz rasanter Fortschritte in der Text-zu-Video-Synthese bleibt die Qualität der generierten Videos entscheidend von präzisen Benutzeranweisungen abhängig. Bestehende Optimierungsmethoden zur Laufzeit, die in anderen Bereichen erfolgreich sind, scheitern an der vielschichtigen Natur von Videos. In dieser Arbeit stellen wir VISTA (Video Iterative Self-improvemenT Agent) vor, ein neuartiges Multi-Agenten-System, das die Videogenerierung autonom durch die iterative Verfeinerung von Anweisungen in einer Schleife verbessert. VISTA zerlegt zunächst eine Benutzeridee in einen strukturierten zeitlichen Plan. Nach der Generierung wird das beste Video durch ein robustes paarweises Turnier identifiziert. Dieses siegreiche Video wird dann von einem Trio spezialisierter Agenten bewertet, die sich auf visuelle, auditive und kontextuelle Treue konzentrieren. Schließlich synthetisiert ein logischer Agent dieses Feedback, um die Anweisung für den nächsten Generierungszyklus introspektiv umzuschreiben und zu verbessern. Experimente in Szenarien zur Generierung von Einzel- und Mehrszenenvideos zeigen, dass VISTA im Gegensatz zu früheren Methoden, die inkonsistente Verbesserungen erzielen, die Videoqualität und die Übereinstimmung mit der Benutzerabsicht konsequent steigert und dabei eine paarweise Gewinnrate von bis zu 60 % gegenüber modernsten Vergleichsverfahren erreicht. Menschliche Bewerter stimmen dem zu und bevorzugen die Ausgaben von VISTA in 66,4 % der Vergleiche.
Foundation Models (FMs), wie GPT-4 und AlphaFold, verändern die Landschaft der wissenschaftlichen Forschung grundlegend. Neben der Beschleunigung von Aufgaben wie Hypothesengenerierung, experimentellem Design und Ergebnisinterpretation werfen sie eine grundlegendere Frage auf: Verbessern FMs lediglich bestehende wissenschaftliche Methoden, oder definieren sie die Art und Weise, wie Wissenschaft betrieben wird, neu? In diesem Papier argumentieren wir, dass FMs einen Übergang zu einem neuen wissenschaftlichen Paradigma katalysieren. Wir stellen ein dreistufiges Rahmenwerk vor, um diese Entwicklung zu beschreiben: (1) Meta-Wissenschaftliche Integration, bei der FMs Arbeitsabläufe innerhalb traditioneller Paradigmen verbessern; (2) Hybride Mensch-KI-Ko-Kreation, bei der FMs zu aktiven Partnern bei der Problemformulierung, Argumentation und Entdeckung werden; und (3) Autonome Wissenschaftliche Entdeckung, bei der FMs als unabhängige Akteure agieren, die mit minimaler menschlicher Intervention neues wissenschaftliches Wissen generieren können. Durch diese Linse betrachten wir aktuelle Anwendungen und aufkommende Fähigkeiten von FMs in bestehenden wissenschaftlichen Paradigmen. Darüber hinaus identifizieren wir Risiken und zukünftige Richtungen für die FM-gestützte wissenschaftliche Entdeckung. Dieses Positionspapier zielt darauf ab, die wissenschaftliche Gemeinschaft dabei zu unterstützen, die transformative Rolle von FMs zu verstehen, und die Reflexion über die Zukunft der wissenschaftlichen Entdeckung zu fördern. Unser Projekt ist verfügbar unter https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.
Reasoning-Sprachmodelle wie OpenAI-o1, DeepSeek-R1 und Qwen erzielen starke Leistungen durch erweiterte Gedankenketten, generieren jedoch oft unnötig lange Ausgaben. Die Maximierung der Intelligenz pro Token – Genauigkeit im Verhältnis zur Antwortlänge – bleibt ein ungelöstes Problem. Wir untersuchen Reinforcement Learning (RL) erneut mit der einfachsten Längenstrafe – der Kürzung – und zeigen, dass die Genauigkeitsabnahme nicht auf das Fehlen ausgefeilter Strafen, sondern auf eine unzureichende RL-Optimierung zurückzuführen ist. Wir identifizieren drei zentrale Herausforderungen: (i) große Verzerrungen in der Vorteilsschätzung, (ii) Entropiekollaps und (iii) spärliche Belohnungssignale. Wir adressieren diese mit „Doing Length pEnalty Right“ (DLER), einem Trainingsrezept, das batchweise Belohnungsnormalisierung, höheres Clipping, dynamisches Sampling und eine einfache Kürzungsstrafe kombiniert. DLER erreicht state-of-the-art Kompromisse zwischen Genauigkeit und Effizienz, reduziert die Ausgabelänge um über 70 Prozent und übertrifft dabei alle bisherigen Basisgenauigkeiten. Es verbessert auch die Skalierung zur Testzeit: Im Vergleich zu DeepSeek-R1-7B generiert DLER-7B mehrere prägnante Antworten parallel mit 28 Prozent höherer Genauigkeit und geringerer Latenz. Wir führen zudem „Difficulty-Aware DLER“ ein, das die Kürzung bei einfacheren Fragen adaptiv verschärft, um zusätzliche Effizienzgewinne zu erzielen. Außerdem schlagen wir eine aktualisierungsselektive Zusammenführungsmethode vor, die die Basisgenauigkeit bewahrt, während die prägnante Argumentationsfähigkeit des DLER-Modells erhalten bleibt, was in Szenarien nützlich ist, in denen RL-Trainingsdaten knapp sind.
Die Automatisierung wissenschaftlicher Entdeckungen stellt einen entscheidenden Meilenstein in der Forschung zur Künstlichen Intelligenz (KI) dar. Allerdings leiden bestehende agentenbasierte Systeme für die Wissenschaft unter zwei grundlegenden Einschränkungen: starre, vorprogrammierte Arbeitsabläufe, die sich nicht an Zwischenergebnisse anpassen können, und unzureichendes Kontextmanagement, das langfristige Forschung behindert. Wir präsentieren freephdlabor, ein Open-Source-Multiagenten-Framework, das vollständig dynamische Arbeitsabläufe bietet, die durch Echtzeit-Entscheidungen der Agenten bestimmt werden, sowie eine \textit{modulare Architektur}, die nahtlose Anpassungen ermöglicht – Benutzer können Agenten modifizieren, hinzufügen oder entfernen, um domänenspezifische Anforderungen zu erfüllen. Das Framework bietet eine umfassende Infrastruktur, einschließlich automatischer Kontextverdichtung, arbeitsbereichsbasierter Kommunikation zur Vermeidung von Informationsverlust, persistentem Speicher über Sitzungen hinweg und nicht-blockierenden Mechanismen für menschliche Eingriffe. Diese Funktionen verwandeln automatisierte Forschung insgesamt von isolierten Einzelversuchen in kontinuierliche Forschungsprogramme, die systematisch auf früheren Erkundungen aufbauen und menschliches Feedback einbeziehen. Indem sowohl die architektonischen Prinzipien als auch die praktische Implementierung für den Aufbau anpassbarer Co-Wissenschaftler-Systeme bereitgestellt werden, zielt diese Arbeit darauf ab, die breitere Akzeptanz automatisierter Forschung in verschiedenen wissenschaftlichen Domänen zu fördern. Dadurch können Praktiker interaktive Multiagenten-Systeme einsetzen, die eigenständig end-to-end Forschung durchführen – von der Ideenfindung über Experimente bis hin zu publikationsreifen Manuskripten.
Tiefgehende Forschungs-Webagenten holen nicht nur Informationen aus verschiedenen Quellen wie Webumgebungen, Dateien und multimodalen Eingaben, sondern müssen vor allem das Wissen rigoros analysieren und aggregieren, um fundierte Forschung zu ermöglichen. Allerdings konzentrieren sich bestehende Open-Source-Tiefenforschungsagenten überwiegend darauf, die Informationsbeschaffungsfähigkeiten von Webagenten zu verbessern, um spezifische Informationen zu finden, während sie den wesentlichen Bedarf an Informationsaggregation übersehen, was ihre Fähigkeit zur Unterstützung tiefergehender Forschung einschränkt. Wir schlagen ein „Explore to Evolve“-Paradigma vor, um skalierbar überprüfbare Trainingsdaten für Webagenten zu konstruieren. Beginnend mit proaktiver Online-Erkundung, sammelt ein Agent fundierte Informationen durch die Erkundung des realen Webs. Mit den gesammelten Beweisen entwickelt der Agent dann selbst ein Aggregationsprogramm, indem er Operationen aus 12 hochrangigen logischen Typen auswählt, kombiniert und verfeinert, um ein überprüfbares Frage-Antwort-Paar zu synthetisieren. Diese Entwicklung von hochrangiger Anleitung zu konkreten Operationen ermöglichte es uns, skalierbar WebAggregatorQA zu produzieren, einen Datensatz mit 10.000 Beispielen über 50.000 Websites und 11 Domänen. Basierend auf einem Open-Source-Agenten-Framework, SmolAgents, sammeln wir überwachte Feinabstimmungspfade, um eine Reihe von Basismodellen, WebAggregator, zu entwickeln. WebAggregator-8B erreicht die Leistung von GPT-4.1, während die 32B-Variante GPT-4.1 auf GAIA-text um mehr als 10 % übertrifft und sich Claude-3.7-sonnet annähert. Darüber hinaus konstruieren wir angesichts der begrenzten Verfügbarkeit von Benchmarks, die die Informationsaggregationsfähigkeiten von Webagenten bewerten, eine menschlich annotierte Evaluationsaufteilung von WebAggregatorQA als anspruchsvollen Testdatensatz. Auf diesem Benchmark erreicht Claude-3.7-sonnet nur 28 %, und GPT-4.1 erzielt 25,8 %. Selbst wenn es Agenten gelingt, alle Referenzen abzurufen, kämpfen sie immer noch mit WebAggregatorQA, was die Notwendigkeit unterstreicht, die Informationsaggregationsfähigkeiten von Webagenten-Basismodellen zu stärken.
Große Sprachmodelle (LLMs) haben durch Reinforcement Learning (RL) erhebliche Fortschritte gezeigt, insbesondere in Bereichen, in denen Belohnungen programmatisch überprüft werden können, wie in der Mathematik und bei Code. In diesen Bereichen profitieren Modelle von einer klar definierten operativen Basis, die durch explizite regelbasierte Ziele geleitet wird. Dieser Fortschritt offenbart jedoch eine bedeutende Einschränkung: In offenen Domänen, in denen Belohnungen mehrdeutig, subjektiv oder kontextabhängig sind, wie kreatives Schreiben, wissenschaftliches Denken und insbesondere medizinische Beratung, fehlen robuste Belohnungsfunktionen, was diese Bereiche für aktuelle RL-Strategien herausfordernd macht. Um diese Lücke zu schließen, führen wir ORBIT ein, ein offenes, rubrikbasiertes inkrementelles Trainingsframework, das speziell für hochriskante medizinische Dialoge entwickelt wurde. ORBIT integriert die synthetische Dialoggeneration mit der dynamischen Erstellung von Rubriken und nutzt diese Rubriken, um einen inkrementellen RL-Prozess zu steuern. Insbesondere ist dieser Ansatz nicht auf externes medizinisches Wissen oder manuelle Regeln angewiesen, sondern verwendet rubrikgeleitetes Feedback, um das Lernen zu formen. Bei der Implementierung auf dem Qwen3-4B-Instruct-Modell kann unsere Methode dessen Leistung auf dem HealthBench-Hard-Benchmark von 7,0 auf 27,2 mit nur 2k Proben deutlich verbessern und somit state-of-the-art Ergebnisse für Modelle dieser Größenordnung erzielen. Unsere Analyse bestätigt, dass rubrikgetriebenes RL konsistente Leistungssteigerungen über verschiedene Beratungsszenarien hinweg fördert, die über einfache numerische Verbesserungen hinausgehen. Diese Ergebnisse unterstreichen rubrikbasiertes Feedback als eine skalierbare Strategie zur Weiterentwicklung von LLMs in komplexen, offenen Aufgaben.
Die Erzeugung künstlerischer und kohärenter 3D-Szenenlayouts ist in der digitalen Inhaltserstellung von entscheidender Bedeutung. Traditionelle optimierungsbasierte Methoden sind oft durch umständliche manuelle Regeln eingeschränkt, während tiefe generative Modelle Schwierigkeiten haben, Inhalte mit Reichhaltigkeit und Vielfalt zu produzieren. Darüber hinaus mangelt es Ansätzen, die große Sprachmodelle nutzen, häufig an Robustheit und sie scheitern daran, komplexe räumliche Beziehungen präzise zu erfassen. Um diese Herausforderungen zu bewältigen, stellt dieses Papier ein neuartiges, visuell gesteuertes 3D-Layout-Generierungssystem vor. Zunächst erstellen wir eine hochwertige Asset-Bibliothek, die 2.037 Szenen-Assets und 147 3D-Szenenlayouts enthält. Anschließend verwenden wir ein Bildgenerierungsmodell, um Prompt-Darstellungen in Bilder zu erweitern, und passen es an unsere Asset-Bibliothek an. Danach entwickeln wir ein robustes Bildparsermodul, um das 3D-Layout von Szenen basierend auf visuellen Semantiken und geometrischen Informationen wiederherzustellen. Schließlich optimieren wir das Szenenlayout mithilfe von Szenengraphen und der gesamten visuellen Semantik, um logische Kohärenz und Übereinstimmung mit den Bildern sicherzustellen. Umfangreiche Benutzertests zeigen, dass unser Algorithmus bestehende Methoden in Bezug auf Layout-Reichhaltigkeit und Qualität deutlich übertrifft. Der Code und der Datensatz werden unter https://github.com/HiHiAllen/Imaginarium verfügbar sein.
Aktuelle LLMs haben vielversprechende Fähigkeiten bei der Lösung von finanzbezogenen Problemen gezeigt. Die Anwendung von LLMs in realen Finanzanwendungen bleibt jedoch aufgrund ihrer hohen Risiken und hohen Einsatzwerte herausfordernd. Dieses Papier stellt FinTrust vor, einen umfassenden Benchmark, der speziell für die Bewertung der Vertrauenswürdigkeit von LLMs in Finanzanwendungen entwickelt wurde. Unser Benchmark konzentriert sich auf eine breite Palette von Ausrichtungsproblemen basierend auf praktischen Kontexten und bietet fein abgestufte Aufgaben für jede Dimension der Vertrauenswürdigkeitsbewertung. Wir bewerten elf LLMs auf FinTrust und stellen fest, dass proprietäre Modelle wie o4-mini in den meisten Aufgaben, wie z.B. Sicherheit, überlegen sind, während Open-Source-Modelle wie DeepSeek-V3 in spezifischen Bereichen wie branchenweiter Fairness Vorteile haben. Bei anspruchsvollen Aufgaben wie treuhänderischer Ausrichtung und Offenlegung schneiden alle LLMs schlecht ab, was eine erhebliche Lücke im Rechtsbewusstsein zeigt. Wir glauben, dass FinTrust ein wertvoller Benchmark für die Bewertung der Vertrauenswürdigkeit von LLMs im Finanzbereich sein kann.
Mit der zunehmenden Nachfrage nach emotionaler Intelligenz in großen Sprachmodellen (LLMs) besteht eine zentrale Herausforderung darin, die internen Mechanismen zu verstehen, die emotionale Ausdrücke hervorbringen, und Emotionen in generierten Texten zu steuern. Diese Studie befasst sich mit drei Kernfragen: (1) Enthalten LLMs kontextunabhängige Mechanismen, die den emotionalen Ausdruck formen? (2) Welche Form nehmen diese Mechanismen an? (3) Können sie für eine universelle Emotionssteuerung genutzt werden? Zunächst erstellen wir einen kontrollierten Datensatz, SEV (Scenario-Event with Valence), um vergleichbare interne Zustände über verschiedene Emotionen hinweg zu erzeugen. Anschließend extrahieren wir kontextunabhängige Emotionsrichtungen, die eine konsistente, kontextübergreifende Kodierung von Emotionen offenbaren (Frage 1). Durch analytische Zerlegung und Kausalanalyse identifizieren wir Neuronen und Aufmerksamkeitsköpfe, die lokal emotionale Berechnungen durchführen, und validieren ihre kausalen Rollen durch Ablations- und Verstärkungsinterventionen. Daraufhin quantifizieren wir den kausalen Einfluss jeder Unterschicht auf die finale Emotionsrepräsentation des Modells und integrieren die identifizierten lokalen Komponenten in kohärente globale Emotionskreisläufe, die den emotionalen Ausdruck antreiben (Frage 2). Die direkte Modulation dieser Kreisläufe erreicht eine Genauigkeit von 99,65 % bei der Emotionsausdruckserkennung im Testdatensatz und übertrifft damit prompt- und steuerungsbasierte Methoden (Frage 3). Unseres Wissens ist dies die erste systematische Studie, die Emotionskreisläufe in LLMs aufdeckt und validiert, und bietet neue Einblicke in die Interpretierbarkeit und kontrollierbare emotionale Intelligenz.
Empirische Skalierungsgesetze legen fest, wie Parameter, Daten und Rechenleistung zugeordnet werden sollen, während die Maximal-Update-Parametrisierung (muP) die Lernratenübertragung über verschiedene Breiten ermöglicht, indem die Update-Größen in der Anfangsphase angeglichen werden. In modernen skalierungsinvarianten Architekturen tritt das Training jedoch schnell in einen durch den Optimierer gesteuerten stationären Zustand ein, in dem Normalisierungsschichten eine Rückwärts-Skalierungsempfindlichkeit erzeugen und die effektive Lernrate breitenabhängig wird, was die muP-Übertragung beeinträchtigt. Wir adressieren dies durch die Einführung einer Gewichtsabfall-Skalierungsregel für AdamW, die die Sublayer-Verstärkung über verschiedene Breiten hinweg erhält. Empirisch skaliert das Spektrum der Singulärwerte jedes Matrixparameters in der Norm als eta/lambda mit einer annähernd invarianten Form; unter Breitenskalierung d beobachten wir, dass der größte Singulärwert annähernd als eta/lambda * d^{0,75} skaliert. Die Kombination dieser Beobachtung mit der muP-Lernratenregel eta_2 ∝ d^{-1} für matrixähnliche Parameter impliziert eine empirische Gewichtsabfall-Skalierungsregel lambda_2 ∝ d, die die Sublayer-Verstärkungen annähernd breiteninvariant hält. Zusammen mit vektorähnlichen Parametern, die bei eta_1 = Theta_d(1) und lambda_1 = 0 trainiert werden, ermöglicht dies eine Null-Shot-Übertragung sowohl der Lernrate als auch des Gewichtsabfalls von Proxy- auf Zielbreiten, wodurch Breiten-spezifische Sweeps entfallen. Wir validieren die Regel an LLaMA-artigen Transformern und in einem minimalen synthetischen Setting und stellen eine einfache Diagnostik, die die größten Singulärwerte abgleicht, zur Überprüfung der Sublayer-Verstärkungsinvarianz bereit. Unsere Ergebnisse erweitern muP über das Anfangsregime hinaus, indem sie explizit die durch den Optimierer gesetzten stationären Zustandsskalen kontrollieren, und bieten ein praktisches Rezept für breitenrobuste Hyperparameterübertragung unter AdamW.
Mixture-of-Experts (MoE)-Modelle erreichen effiziente Skalierung durch spärliche Expertenaktivierung, leiden jedoch häufig unter suboptimalen Routing-Entscheidungen aufgrund von Verteilungsverschiebungen im Einsatz. Obwohl bestehende Methoden zur Testzeit-Anpassung diese Probleme potenziell lösen könnten, konzentrieren sie sich hauptsächlich auf dichte Modelle und erfordern Zugriff auf externe Daten, was ihre praktische Anwendbarkeit auf MoE-Architekturen einschränkt. Wir stellen jedoch fest, dass wir anstelle der Verwendung von Referenzdaten die Expertenauswahl in MoE-Modellen dynamisch basierend auf dem Eingabekontext optimieren können. Daher schlagen wir ein datenfreies, online Testzeit-Framework vor, das MoE-Routing-Entscheidungen kontinuierlich während der Textgenerierung ohne externe Überwachung oder Daten anpasst. Unser Verfahren wechselt zwischen zwei Phasen: Während der Prefill-Phase und später in regelmäßigen Abständen optimieren wir die Routing-Entscheidungen des Modells durch Selbstüberwachung basierend auf der bereits generierten Sequenz. Anschließend generieren wir Text wie gewohnt und behalten das modifizierte Routing bis zur nächsten Anpassung bei. Dies implementieren wir durch leichtgewichtige additive Vektoren, die nur die Router-Logits in ausgewählten Schichten aktualisieren, wodurch die Recheneffizienz erhalten bleibt und eine Überanpassung verhindert wird. Die experimentellen Ergebnisse zeigen konsistente Leistungssteigerungen bei anspruchsvollen Denkaufgaben bei gleichzeitiger Robustheit gegenüber Kontextverschiebungen. Beispielsweise erzielt unsere Methode eine Verbesserung von 5,5 % auf HumanEval mit OLMoE. Darüber hinaus ergänzt unsere Methode aufgrund ihrer Plug-and-Play-Eigenschaft bestehende Testzeit-Skalierungstechniken nahtlos, z. B. durchschnittliche Verbesserungen von 6 %, wenn sie mit Self-Consistency auf DeepSeek-V2-Lite kombiniert wird.
Große Sprachmodelle (LLMs) zeigen eine erhebliche Leistungsverschlechterung in Mehrfachdialogen, wenn Informationen schrittweise präsentiert werden. Da Mehrfachdialoge die alltägliche Interaktion mit LLMs charakterisieren, stellt diese Verschlechterung eine ernsthafte Herausforderung für die praktische Anwendbarkeit dar. Wir stellen die Hypothese auf, dass abrupte Anstiege der Modellunsicherheit eine Fehlausrichtung in Mehrfachdialog-Interaktionen signalisieren, und nutzen diese Erkenntnis, um den Konversationskontext dynamisch neu auszurichten. Wir führen ERGO (Entropy-guided Resetting for Generation Optimization) ein, das kontinuierlich die interne Unsicherheit über die Shannon-Entropie der nächsten Token-Verteilungen quantifiziert und eine adaptive Prompt-Konsolidierung auslöst, wenn ein starker Anstieg der Entropie festgestellt wird. Indem Unsicherheit als primäres Signal und nicht als zu beseitigendes Ärgernis behandelt wird, umfasst ERGO die Variabilität in Sprache und Modellierung, repräsentiert und reagiert auf Unsicherheit. In Mehrfachaufgaben mit schrittweise offengelegten Anweisungen erzielt ERGO eine durchschnittliche Leistungssteigerung von 56,6 % gegenüber Standard-Baselines, erhöht die Eignung (Spitzenleistungsfähigkeit) um 24,7 % und verringert die Unzuverlässigkeit (Variabilität in der Leistung) um 35,3 %. Dies zeigt, dass unsicherheitsbewusste Interventionen sowohl die Genauigkeit als auch die Zuverlässigkeit in der konversationellen KI verbessern können.
Die Multimodalen Großen Sprachmodelle (MLLMs) werden kontinuierlich auf einer Mischung aus Bild-Text-Beschreibungsdaten und verschachtelten Dokumentdaten vortrainiert, während die hochwertige Datenfilterung für verschachtelte Bild-Text-Dokumentdaten bisher wenig erforscht ist. Wir schlagen vor, ein effizientes MLLM als Unified Multimodal Data Quality Classifier zu trainieren, um sowohl hochwertige Bild-Text-Beschreibungen als auch verschachtelte Daten zu filtern (UniFilter). Um die Herausforderung der Sammlung vielfältiger, annotierter multimodaler Daten zu bewältigen, führen wir einen semi-synthetischen Ansatz ein, der leicht verfügbare Rohbilder nutzt und entsprechenden Text über vier Qualitätsstufen generiert. Diese Methode ermöglicht die effiziente Erstellung von Beispiel-Bewertungs-Paaren sowohl für Beschreibungs- als auch für verschachtelte Dokumentdaten, um UniFilter zu trainieren. Wir wenden UniFilter an, um hochwertige Beschreibungsdaten aus dem DataComp-Beschreibungsdatensatz und verschachtelte Daten aus dem OBELICS-Bild-Text-verschachtelten Datensatz zu kuratieren. MLLMs, die auf den gefilterten Daten vortrainiert wurden, zeigen deutlich verbesserte Fähigkeiten im Vergleich zu denen, die auf basisgefilterten Daten trainiert wurden, und erreichen stärkere Zero-Shot-Reasoning- und In-Context-Learning-Fähigkeiten. Nach visuell überwachtem Feinabstimmen erzielen diese durch UniFilter induzierten MLLMs eine bessere Leistung in verschiedenen Benchmarks, was die nachgelagerten Vorteile eines hochwertigen multimodalen Vortrainings unterstreicht. Wir stellen die synthetischen Trainingsdaten, die zur Schulung von UniFilter verwendet wurden, die UniFilter-Modellcheckpoints und den hochwertigen verschachtelten Dokumentunterdatensatz OBELICS-HQ, der von UniFilter kuratiert wurde, der Gemeinschaft zur Reproduktion und Weiterentwicklung zur Verfügung.
Wir stellen den Representation Tokenizer (RepTok) vor, ein generatives Modellierungsframework, das ein Bild mithilfe eines einzelnen kontinuierlichen latenten Tokens darstellt, der aus selbstüberwachten Vision-Transformern gewonnen wird. Aufbauend auf einem vortrainierten SSL-Encoder feintunen wir nur die semantische Token-Einbettung und kombinieren sie mit einem generativen Decoder, der gemeinsam mit einem standardmäßigen Flow-Matching-Ziel trainiert wird. Diese Anpassung bereichert den Token mit niedrigauflösenden, rekonstruktionsrelevanten Details, wodurch eine treue Bildrekonstruktion ermöglicht wird. Um die vorteilhafte Geometrie des ursprünglichen SSL-Raums zu bewahren, fügen wir einen Kosinus-Ähnlichkeitsverlust hinzu, der den angepassten Token regularisiert und sicherstellt, dass der latente Raum glatt und für die Generierung geeignet bleibt. Unsere Einzel-Token-Formulierung löst räumliche Redundanzen von 2D-latenten Räumen und reduziert die Trainingskosten erheblich. Trotz seiner Einfachheit und Effizienz erzielt RepTok wettbewerbsfähige Ergebnisse bei der klassenbedingten ImageNet-Generierung und lässt sich natürlich auf die Text-zu-Bild-Synthese erweitern, wobei unter extrem begrenzten Trainingsbudgets wettbewerbsfähige Zero-Shot-Leistungen auf MS-COCO erreicht werden. Unsere Ergebnisse unterstreichen das Potenzial feinabgestimmter SSL-Repräsentationen als kompakte und effektive latente Räume für effiziente generative Modellierung.
Wir präsentieren DriveGen3D, ein neuartiges Framework zur Erzeugung hochwertiger und hochgradig kontrollierbarer dynamischer 3D-Fahrszenen, das kritische Einschränkungen bestehender Methoden adressiert. Aktuelle Ansätze zur Synthese von Fahrszenen leiden entweder unter prohibitivem Rechenaufwand für die Erzeugung längerer Zeitsequenzen, konzentrieren sich ausschließlich auf die Synthese längerer Videos ohne 3D-Darstellung oder beschränken sich auf die Rekonstruktion statischer Einzelszenen. Unsere Arbeit schließt diese methodische Lücke, indem sie beschleunigte Langzeit-Videosynthese mit großflächiger dynamischer Szenenrekonstruktion durch multimodale bedingte Steuerung kombiniert. DriveGen3D führt eine einheitliche Pipeline ein, die aus zwei spezialisierten Komponenten besteht: FastDrive-DiT, ein effizienter Video-Diffusion-Transformer für die hochauflösende, zeitlich kohärente Videosynthese unter Text- und Vogelperspektiven-(BEV)-Layoutführung; und FastRecon3D, ein Feedforward-Rekonstruktionsmodul, das schnell 3D-Gauß-Darstellungen über die Zeit aufbaut und dabei räumlich-zeitliche Konsistenz gewährleistet. Zusammen ermöglichen diese Komponenten die Echtzeiterzeugung längerer Fahrvideos (bis zu 424×800 bei 12 FPS) und entsprechender dynamischer 3D-Szenen, wobei ein SSIM von 0,811 und ein PSNR von 22,84 bei der Synthese neuer Ansichten erreicht werden, alles bei gleichzeitiger Parameter-Effizienz.