papers.description
Kürzlich haben Studien, wie beispielsweise Hyper-Connections (HC), das in den letzten Jahrzehnten etablierierte, allgegenwärtige Paradigma der residualen Verbindungen erweitert, indem sie die Breite des Residualstroms vergrößerten und die Konnektivitätsmuster diversifizierten. Obwohl diese Diversifizierung erhebliche Leistungssteigerungen bringt, beeinträchtigt sie grundlegend die Identitätsabbildungseigenschaft, die der residualen Verbindung innewohnt. Dies verursacht schwere Trainingsinstabilität und eingeschränkte Skalierbarkeit und verursacht zudem einen merklichen Mehraufwand durch Speicherzugriffe. Um diese Herausforderungen zu bewältigen, schlagen wir Manifold-Constrained Hyper-Connections (mHC) vor, einen allgemeinen Rahmen, der den Residualverbindungsraum von HC auf eine spezifische Mannigfaltigkeit projiziert, um die Identitätsabbildungseigenschaft wiederherzustellen, und gleichzeitig rigorose Infrastrukturoptimierung integriert, um die Effizienz zu gewährleisten. Empirische Experimente zeigen, dass mHC effektiv für das Training in großem Maßstab ist und greifbare Leistungsverbesserungen sowie überlegene Skalierbarkeit bietet. Wir erwarten, dass mHC als flexible und praktische Erweiterung von HC zu einem tieferen Verständnis des topologischen Architekturdesigns beitragen und vielversprechende Richtungen für die Evolution von Fundamentalmodellen aufzeigen wird.
Wir stellen Youtu-LLM vor, ein leichtgewichtiges und dennoch leistungsstarkes Sprachmodell, das hohe Recheneffizienz mit nativer agentenbasierter Intelligenz vereint. Im Gegensatz zu typischen kleinen Modellen, die auf Distillation angewiesen sind, wird Youtu-LLM (1,96B) von Grund auf vortrainiert, um systematisch Fähigkeiten im logischen Denken und Planen zu entwickeln. Die wichtigsten technischen Fortschritte sind wie folgt: (1) Kompakte Architektur mit Langkontext-Unterstützung: Basierend auf einer dichten Multi-Latent-Attention (MLA)-Architektur mit einem neuartigen, STEM-orientierten Vokabular unterstützt Youtu-LLM ein Kontextfenster von 128k Token. Dieser Entwurf ermöglicht robustes Langzeitfolgerungsvermögen und Zustandsverfolgung mit minimalem Speicherbedarf, was es ideal für langfristige Agenten- und Reasoning-Aufgaben macht. (2) Prinzipieller "Commonsense-STEM-Agent"-Lernplan: Wir haben einen umfangreichen Korpus von etwa 11T Token zusammengestellt und eine mehrstufige Trainingsstrategie implementiert. Durch die schrittweise Verlagerung der Vortrainingsdatenverteilung von allgemeinem Common Sense zu komplexen STEM- und Agentenaufgaben stellen wir sicher, dass das Modell tiefgreifende kognitive Fähigkeiten und keine oberflächliche Anpassung erwirbt. (3) Skalierbares agentenbasiertes Mid-Training: Speziell für das agentenbasierte Mid-Training setzen wir verschiedene Datenerstellungsschemata ein, um reichhaltige und vielfältige Trajektorien in den Bereichen Mathematik, Programmierung und Werkzeugnutzung zu synthetisieren. Diese hochwertigen Daten ermöglichen es dem Modell, Planungs- und Reflexionsverhalten effektiv zu internalisieren. Umfangreiche Auswertungen zeigen, dass Youtu-LLM einen neuen State-of-the-Art für LLMs unter 2B Parametern setzt. Bei allgemeinen Benchmarks erzielt es eine wettbewerbsfähige Leistung im Vergleich zu größeren Modellen, während es bei agentspezifischen Aufgaben bestehende SOTA-Baselines deutlich übertrifft. Dies demonstriert, dass leichtgewichtige Modelle über starke intrinsische Agentenfähigkeiten verfügen können.
Agentisches Crafting erfordert, dass LLMs in Echtzeitumgebungen über mehrere Interaktionen hinweg agieren, indem sie Aktionen ausführen, Ergebnisse beobachten und Artefakte iterativ verfeinern. Trotz ihrer Bedeutung fehlt der Open-Source-Community eine prinzipienbasierte, End-to-End-Infrastruktur zur Vereinfachung der Agentenentwicklung. Wir stellen das Agentic Learning Ecosystem (ALE) vor, eine grundlegende Infrastruktur, die die Produktionspipeline für agentenbasierte LLMs optimiert. ALE besteht aus drei Komponenten: ROLL, einem Post-Training-Framework zur Gewichtsoptimierung; ROCK, einem Sandbox-Umgebungsmanager zur Trajektoriengenerierung; und iFlow CLI, einem Agenten-Framework für effizientes Context Engineering. Wir veröffentlichen ROME (ROME is Obviously an Agentic Model), einen Open-Source-Agenten, der auf ALE basiert und mit über einer Million Trajektorien trainiert wurde. Unser Ansatz umfasst Datenkompositionsprotokolle zur Synthese komplexer Verhaltensweisen und einen neuartigen Policy-Optimierungsalgorithmus, Interaction-based Policy Alignment (IPA), der Credit über semantische Interaktionsblöcke statt über einzelne Tokens verteilt, um die Trainingsstabilität bei langen Horizonten zu verbessern. Empirisch evaluieren wir ROME in einer strukturierten Umgebung und führen Terminal Bench Pro ein, einen Benchmark mit verbesserter Skalierung und Kontaminationskontrolle. ROME zeigt starke Leistung in Benchmarks wie SWE-bench Verified und Terminal Bench und beweist so die Wirksamkeit der ALE-Infrastruktur.
Die Erkennung von Log-Anomalien ist entscheidend für die Sicherheit von Betriebssystemen. Abhängig von der Quelle der Log-Datenerfassung werden verschiedene Informationen in Logs aufgezeichnet, die als Log-Modalitäten betrachtet werden können. Vor diesem Hintergrund scheitern unimodale Methoden häufig daran, dass sie die verschiedenen Modalitäten von Log-Daten ignorieren. Multimodale Methoden hingegen können die Interaktionen zwischen diesen Modalitäten nicht bewältigen. Unter Anwendung multimodaler Sentimentanalyse auf die Log-Anomalieerkennung schlagen wir CoLog vor, einen Rahmen, der Logs unter Nutzung verschiedener Modalitäten kollaborativ kodiert. CoLog verwendet kollaborative Transformer und Multi-Head-Impressed-Attention, um Interaktionen zwischen mehreren Modalitäten zu erlernen und so eine umfassende Anomalieerkennung zu gewährleisten. Um der durch diese Interaktionen verursachten Heterogenität zu begegnen, integriert CoLog eine Modalitätsanpassungsschicht, die die Repräsentationen verschiedener Log-Modalitäten anpasst. Dieser Ansatz ermöglicht es CoLog, nuancenreiche Muster und Abhängigkeiten innerhalb der Daten zu erlernen und so seine Fähigkeiten zur Anomalieerkennung zu verbessern. Umfangreiche Experimente belegen die Überlegenheit von CoLog gegenüber bestehenden State-of-the-Art-Methoden. Darüber hinaus erzielt CoLog bei der Erkennung von Punkt- und Kollektivanomalien über sieben Benchmark-Datensätze für log-basierte Anomalieerkennung eine durchschnittliche Präzision von 99,63%, einen durchschnittlichen Recall von 99,59% und einen durchschnittlichen F1-Score von 99,61%. Die umfassenden Erkennungsfähigkeiten von CoLog machen es hochgradig geeignet für Cybersicherheit, Systemüberwachung und operative Effizienz. CoLog stellt einen bedeutenden Fortschritt in der Log-Anomalieerkennung dar, indem es durch einen einheitlichen Rahmen eine anspruchsvolle und effektive Lösung für die Erkennung von Punkt- und Kollektivanomalien bietet sowie eine Lösung für die komplexen Herausforderungen der automatischen Log-Datenanalyse. Wir stellen die Implementierung von CoLog ebenfalls unter https://github.com/NasirzadehMoh/CoLog zur Verfügung.
Jüngste Fortschritte in der 3D-Rekonstruktion haben bemerkenswerte Erfolge bei der hochwertigen Erfassung von Szenen aus dichten Multi-View-Bildern erzielt, stoßen jedoch an ihre Grenzen, wenn die Eingabeansichten begrenzt sind. Verschiedene Ansätze, einschließlich Regularisierungstechniken, semantischer Priors und geometrischer Constraints, wurden entwickelt, um diese Herausforderung zu bewältigen. Neuere diffusionsbasierte Methoden haben durch die Generierung neuartiger Ansichten aus neuen Kamerapositionen zur Erweiterung der Trainingsdaten substantiale Verbesserungen gezeigt und übertreffen frühere Regularisierungs- und priorbasierte Techniken. Trotz dieser Fortschritte identifizieren wir drei kritische Einschränkungen in diesen state-of-the-art Ansätzen: unzureichende Abdeckung jenseits der Ränder bekannter Ansichten, geometrische Inkonsistenzen zwischen generierten Ansichten und rechenintensive Pipelines. Wir stellen GaMO (Geometry-aware Multi-view Outpainter) vor, ein Framework, das die Sparse-View-Rekonstruktion durch Multi-View-Outpainting neu formuliert. Anstatt neue Blickwinkel zu generieren, erweitert GaMO das Sichtfeld von bestehenden Kamerapositionen aus, was inhärent die geometrische Konsistenz bewahrt und gleichzeitig eine breitere Szenenabdeckung bietet. Unser Ansatz nutzt Multi-View-Conditioning und geometrieaware Denoising-Strategien auf Zero-Shot-Weise ohne Training. Umfangreiche Experimente auf Replica und ScanNet++ demonstrieren state-of-the-art Rekonstruktionsqualität bei 3, 6 und 9 Eingabeansichten, übertreffen frühere Methoden in PSNR und LPIPS und erreichen gleichzeitig eine 25-fache Beschleunigung gegenüber SOTA-diffusionsbasierten Methoden mit einer Verarbeitungszeit von unter 10 Minuten. Projektseite: https://yichuanh.github.io/GaMO/
Das Gedächtnis fungiert als entscheidende Schnittstelle zwischen Vergangenheit und Zukunft, indem es sowohl Menschen als auch KI-Systemen wertvolle Konzepte und Erfahrungen zur Bewältigung komplexer Aufgaben bereitstellt. Die aktuelle Forschung zu autonomen Agenten konzentriert sich zunehmend auf die Entwicklung effizienter Gedächtnis-Workflows unter Rückgriff auf die kognitive Neurowissenschaft. Allerdings scheitern bestehende Arbeiten, bedingt durch interdisziplinäre Barrieren, daran, die Essenz menschlicher Gedächtnismechanismen zu assimilieren. Um diese Lücke zu schließen, synthetisieren wir systematisch interdisziplinäres Wissen über das Gedächtnis und verbinden Erkenntnisse aus der kognitiven Neurowissenschaft mit LLM-gesteuerten Agenten. Konkret erläutern wir zunächst die Definition und Funktion des Gedächtnisses entlang einer progressiven Entwicklung von der kognitiven Neurowissenschaft über LLMs bis hin zu Agenten. Anschließend bieten wir eine vergleichende Analyse der Gedächtnistaxonomie, Speichermechanismen und des vollständigen Management-Lebenszyklus aus biologischer und künstlicher Perspektive. Darauf aufbauend untersuchen wir verbreitete Benchmarks zur Bewertung von Agentengedächtnissen. Zusätzlich betrachten wir die Gedächtnissicherheit aus der dualen Perspektive von Angriff und Verteidigung. Abschließend skizzieren wir zukünftige Forschungsrichtungen mit Fokus auf multimodale Gedächtnissysteme und Fertigkeitserwerb.
Vision-Language-Action (VLA)-Modelle ermöglichen sprachgesteuerte, langfristige Roboter-Manipulation, doch die meisten existierenden Systeme sind auf Greifer beschränkt. Die Skalierung von VLA-Policies auf bimanuelle Roboter mit hochgradig freizügigen (DoF) geschickten Händen bleibt aufgrund des erweiterten Aktionsraums, häufiger Hand-Objekt-Okkulsionen und der Kosten für die Erfassung von Echt-Roboter-Daten eine Herausforderung. Wir stellen GR-Dexter vor, ein holistisches Hardware-Modell-Daten-Framework für VLA-basierte allgemeine Manipulation mit einem bimanuellen Roboter mit Geschicklichkeitshänden. Unser Ansatz kombiniert das Design einer kompakten 21-DoF-Roboterhand, eines intuitiven bimanuellen Teleoperationssystems zur Erfassung von Echt-Roboter-Daten und eines Trainingsverfahrens, das teleoperierte Roboter-Trajektorien zusammen mit groß angelegten Vision-Language- und sorgfältig kuratierten Cross-Embodiment-Datensätzen nutzt. In realen Evaluierungen, die langfristige alltägliche Manipulation und generalisierbares Pick-and-Place umfassen, erzielt GR-Dexter eine hohe In-Domain-Leistung und verbesserte Robustheit gegenüber ungesehenen Objekten und ungesehenen Anweisungen. Wir hoffen, dass GR-Dexter einen praktischen Schritt in Richtung allgemeiner Geschicklichkeitshand-Roboter-Manipulation darstellt.
Aktuelle Fortschritte in der Text-zu-Video (T2V)-Generierung haben eine gute visuelle Qualität erreicht, doch die Synthese von Videos, die physikalischen Gesetzen treu folgen, bleibt eine ungelöste Herausforderung. Bestehende Methoden, die hauptsächlich auf Grafik oder Prompt-Erweiterung basieren, haben Schwierigkeiten, über einfache simulierte Umgebungen hinaus zu generalisieren oder implizites physikalisches Reasoning zu erlernen. Die Knappheit an Trainingsdaten mit umfangreichen physikalischen Interaktionen und Phänomenen ist ebenfalls ein Problem. In dieser Arbeit stellen wir zunächst eine Physik-Augmentierte Videodaten-Konstruktions-Pipeline, PhyAugPipe, vor, die ein Vision-Language-Model (VLM) mit Chain-of-Thought-Reasoning nutzt, um einen großen Trainingsdatensatz, PhyVidGen-135K, zu sammeln. Anschließend formulieren wir einen prinzipienbasierten Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, Rahmen, der auf dem gruppenweisen Plackett-Luce-Wahrscheinlichkeitsmodell aufbaut, um holistische Präferenzen über paarweise Vergleiche hinaus zu erfassen. In PhyGDPO entwerfen wir ein Physics-Guided Rewarding (PGR)-Schema, das VLM-basierte Physik-Belohnungen einbettet, um die Optimierung in Richtung physikalischer Konsistenz zu steuern. Wir schlagen außerdem ein LoRA-Switch Reference (LoRA-SR)-Schema vor, das speicherintensive Referenzduplizierung zur effizienten Trainingseliminiert. Experimente zeigen, dass unsere Methode state-of-the-art Open-Source-Methoden auf PhyGenBench und VideoPhy2 signifikant übertrifft. Weitere Videoergebnisse finden Sie auf unserer Projektseite unter https://caiyuanhao1998.github.io/project/PhyGDPO. Unser Code, Modelle und Daten werden unter https://github.com/caiyuanhao1998/Open-PhyGDPO veröffentlicht.
Dieses Paper stellt JavisGPT vor, das erste einheitliche multimodale Large Language Model (MLLM) für gemeinsames Audio-Video (JAV) Verständnis und Generierung. JavisGPT verwendet eine prägnante Encoder-LLM-Decoder-Architektur, die ein SyncFusion-Modul zur räumlich-zeitlichen Audio-Video-Fusion und synchronisierungsbewusste lernbare Queries zur Anbindung eines vortrainierten JAV-DiT-Generators umfasst. Dieser Entwurf ermöglicht zeitlich kohärentes Video-Audio-Verständnis und -Generierung aus multimodalen Instruktionen. Wir entwickeln eine effektive dreistufige Trainingspipeline, bestehend aus multimodalem Pre-training, Audio-Video-Fine-Tuning und Large-Scale-Instruction-Tuning, um schrittweise multimodales Verständnis und Generierung aus bestehenden Vision-Language-Modellen aufzubauen. Zur Unterstützung dessen konstruieren wir weiterhin JavisInst-Omni, einen hochwertigen Instruktionsdatensatz mit über 200.000 von GPT-4o kuratierten Audio-Video-Text-Dialogen, die vielfältige und mehrstufige Verständnis- und Generierungsszenarien abdecken. Umfangreiche Experimente auf JAV-Verständnis- und Generierungs-Benchmarks zeigen, dass JavisGPT bestehende MLLMs übertrifft, insbesondere in komplexen und zeitlich synchronisierten Umgebungen.
Wir stellen PFP vor, eine neuronale Netzwerkarchitektur zur Komprimierung langer Videos in kurze Kontexte, mit einem expliziten Pretraining-Ziel, hochfrequente Details einzelner Frames an beliebigen Zeitpositionen zu erhalten. Das Basismodell kann ein 20-Sekunden-Video in einen Kontext von etwa 5k Länge komprimieren, wobei zufällige Frames mit wahrnehmungstreu erhaltenen Erscheinungsbildern abgerufen werden können. Solche vortrainierten Modelle können direkt als Gedächtniskodierer für autoregressive Videomodelle feinabgestimmt werden, was Langzeiterinnerung mit geringen Kontextkosten und relativ geringem Qualitätsverlust ermöglicht. Wir evaluieren das Framework mit ablative Settings und diskutieren die Kompromisse möglicher neuronaler Architekturentwürfe.
Entscheidungen mit weitreichenden Konsequenzen erfordern das Schließen unter Unsicherheit über die Zukunft. In dieser Arbeit trainieren wir Sprachmodelle darauf, Vorhersagen zu offenen Prognosefragen zu treffen. Um die Trainingsdaten zu skalieren, synthetisieren wir neue Prognosefragen aus globalen Ereignissen, über die in Tagesnachrichten berichtet wird, unter Verwendung eines vollständig automatisierten, sorgfältig kuratierten Verfahrens. Wir trainieren die Qwen3-Denkmodelle auf unserem Datensatz OpenForesight. Um das Einfließen zukünftiger Informationen während des Trainings und der Evaluation zu verhindern, verwenden wir ein Offline-Nachrichtenkorpus, sowohl für die Datengenerierung als auch für den Abruf in unserem Prognosesystem. Angeleitet durch einen kleinen Validierungsdatensatz zeigen wir die Vorteile von Retrieval sowie einer verbesserten Belohnungsfunktion für bestärkendes Lernen (Reinforcement Learning, RL). Nachdem wir unser endgültiges Prognosesystem erhalten haben, führen wir einen zurückgehaltenen Test im Zeitraum Mai bis August 2025 durch. Unser spezialisiertes Modell, OpenForecaster 8B, erreicht die Leistung wesentlich größerer proprietärer Modelle, wobei unser Training die Genauigkeit, Kalibrierung und Konsistenz der Vorhersagen verbessert. Wir stellen fest, dass die Kalibrierungsverbesserungen durch das Prognosetraining auf gängige Benchmark-Datensätze generalisieren. Wir veröffentlichen alle unsere Modelle, Code und Daten als Open Source, um die Forschung zur Prognosefähigkeit von Sprachmodellen breit zugänglich zu machen.
Trotz der wachsenden Fähigkeiten jüngster großer Sprachmodelle (LLMs) zum logischen Schlussfolgern bleiben ihre internen Mechanismen während des Denkprozesses weitgehend unerforscht. Bisherige Ansätze stützen sich oft auf menschlich definierte Konzepte (z. B. Überdenken, Reflexion) auf Wortebene, um das Denken auf überwachte Weise zu analysieren. Solche Methoden sind jedoch begrenzt, da es nicht praktikabel ist, das gesamte Spektrum potenzieller Denkweisen zu erfassen, von denen viele schwer im Token-Raum zu definieren sind. In dieser Arbeit schlagen wir einen unüberwachten Rahmen vor (namens RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) zur Entdeckung von Reasoning-Vektoren, die wir als Richtungen im Aktivierungsraum definieren, die unterschiedliche Denkweisen kodieren. Indem wir Chain-of-Thought-Spuren in satzweise 'Schritte' unterteilen und Sparse Auto-Encoder (SAEs) auf Schritt-für-Schritt-Aktivierungen trainieren, entschlüsseln wir entflochtene Merkmale, die interpretierbaren Verhaltensweisen wie Reflexion und Backtracking entsprechen. Visualisierungs- und Clusteranalysen zeigen, dass diese Verhaltensweisen trennbare Regionen im Dekodierer-Spaltenraum einnehmen. Darüber hinaus können gezielte Eingriffe in SAE-abgeleitete Vektoren bestimmte Denkweisen kontrolliert verstärken oder unterdrücken und so die Inferenztrajektorien verändern, ohne dass ein Neutraining erforderlich ist. Über verhaltensspezifische Entflechtung hinaus erfassen SAEs strukturelle Eigenschaften wie die Antwortlänge und offenbaren Cluster von langen versus kurzen Denkspuren. Noch interessanter ist, dass SAEs die Entdeckung neuartiger Verhaltensweisen jenseits menschlicher Überwachung ermöglichen. Wir demonstrieren die Fähigkeit, die Antwortkonfidenz zu steuern, indem wir konfidenzbezogene Vektoren im SAE-Dekodiererraum identifizieren. Diese Ergebnisse unterstreichen das Potenzial unüberwachter latenter Entdeckung sowohl für die Interpretation als auch für die kontrollierte Steuerung des Denkens in LLMs.
Wir präsentieren SpaceTimePilot, ein Video-Diffusionsmodell, das Raum und Zeit für kontrollierbares generatives Rendering entkoppelt. Gegeben ein monokulares Video kann SpaceTimePilot unabhängig voneinander den Kamerablickwinkel und die Bewegungssequenz innerhalb des generativen Prozesses verändern und die Szene für eine kontinuierliche und beliebige Erkundung über Raum und Zeit hinweg neu rendern. Um dies zu erreichen, führen wir einen effektiven Animations-Zeit-Einbettungsmechanismus im Diffusionsprozess ein, der eine explizite Steuerung der Bewegungssequenz des Ausgangsvideos in Bezug auf die des Quellvideos ermöglicht. Da keine Datensätze gepaarte Videos derselben dynamischen Szene mit kontinuierlichen zeitlichen Variationen bereitstellen, schlagen wir ein einfaches, aber effektives Temporal-Warping-Trainingsschema vor, das bestehende Multi-View-Datensätze zur Nachahmung zeitlicher Unterschiede wiederverwendet. Diese Strategie überwacht effektiv das Modell, um zeitliche Kontrolle zu erlernen und eine robuste Raum-Zeit-Entkopplung zu erreichen. Um die Präzision der dualen Kontrolle weiter zu verbessern, führen wir zwei zusätzliche Komponenten ein: einen verbesserten Kamera-Konditionierungsmechanismus, der eine Änderung der Kamera ab dem ersten Frame ermöglicht, und CamxTime, den ersten synthetischen Raum-Zeit-Rendering-Datensatz mit vollständiger Abdeckung, der vollständig freie Raum-Zeit-Video-Trajektorien innerhalb einer Szene bereitstellt. Gemeinsames Training mit dem Temporal-Warping-Schema und dem CamxTime-Datensatz führt zu einer präziseren zeitlichen Steuerung. Wir evaluieren SpaceTimePilot anhand realer und synthetischer Daten und demonstrieren im Vergleich zu früheren Arbeiten eine klare Raum-Zeit-Entkopplung und starke Ergebnisse. Projektseite: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
Das Diffusionsmodell verfügt über eine hohe Fähigkeit, die gesamte (bedingte) Datenverteilung zu erfassen. Allerdings wird das Modell aufgrund unzureichenden Trainings und ungenügender Daten zum Erlernen der Abdeckung von Niedrigwahrscheinlichkeitsbereichen bestraft, wenn es keine hochwertigen Bilder für diese Bereiche generieren kann. Um eine bessere Generierungsqualität zu erreichen, können Führungsstrategien wie Classifier Free Guidance (CFG) die Samples während der Abtastphase in Hochwahrscheinlichkeitsbereiche lenken. Die Standard-CFG führt jedoch oft zu übervereinfachten oder verzerrten Samples. Andererseits ist der alternative Ansatz der Führung von Diffusionsmodellen mit ihrer schlechten Version durch aufwendig gestaltete Degradationsstrategien, zusätzliches Training und weitere Abtastschritte limitiert. In diesem Artikel schlagen wir eine einfache, aber effektive Strategie namens Internal Guidance (IG) vor, die während des Trainingsprozesses eine zusätzliche Überwachung auf Zwischenschichten einführt und während des Abtastprozesses die Ausgaben von Zwischen- und Tiefenschichten extrapoliert, um generative Ergebnisse zu erzielen. Diese einfache Strategie führt zu signifikanten Verbesserungen sowohl der Trainingseffizienz als auch der Generierungsqualität auf verschiedenen Baseline-Modellen. Auf ImageNet 256x256 erreicht SiT-XL/2+IG FID=5,31 und FID=1,75 nach 80 bzw. 800 Epochen. Noch beeindruckender ist, dass LightningDiT-XL/1+IG einen FID=1,34 erreicht, was einen großen Vorsprung gegenüber allen anderen Methoden darstellt. In Kombination mit CFG erzielt LightningDiT-XL/1+IG den aktuellen state-of-the-art FID-Wert von 1,19.
Die rasante Entwicklung autonomer Systeme, einschließlich selbstfahrender Fahrzeuge und Drohnen, hat den Bedarf an echter räumlicher Intelligenz aus multimodalen Bord-Sensordaten verstärkt. Während Foundation Models in unimodalen Kontexten hervorragende Leistungen erbringen, bleibt die Integration ihrer Fähigkeiten über verschiedene Sensoren wie Kameras und LiDAR hinweg, um ein einheitliches Verständnis zu schaffen, eine große Herausforderung. Dieses Papier stellt einen umfassenden Rahmen für multimodales Pre-Training vor und identifiziert die zentralen Techniken, die den Fortschritt in Richtung dieses Ziels vorantreiben. Wir analysieren das Zusammenspiel zwischen grundlegenden Sensoreigenschaften und Lernstrategien und bewerten die Rolle plattformspezifischer Datensätze bei der Ermöglichung dieser Fortschritte. Unser zentraler Beitrag ist die Formulierung einer einheitlichen Taxonomie für Pre-Training-Paradigmen: von Unimodal-Baselines bis hin zu komplexen, einheitlichen Frameworks, die holistische Repräsentationen für anspruchsvolle Aufgaben wie 3D-Objekterkennung und semantische Occupancy-Prädiktion lernen. Darüber hinaus untersuchen wir die Integration von Texteingaben und Occupancy-Repräsentationen, um Open-World-Wahrnehmung und Planung zu ermöglichen. Abschließend identifizieren wir kritische Engpässe, wie Recheneffizienz und Modellskalierbarkeit, und schlagen einen Fahrplan für allgemeine multimodale Foundation Models vor, die eine robuste räumliche Intelligenz für den realen Einsatz erreichen können.
Die Klassifizierung von Atemgeräuschen wird durch die begrenzte Größe, das hohe Maß an Rauschen und das ausgeprägte Klassenungleichgewicht von Referenzdatensätzen wie ICBHI 2017 erschwert. Transformer-basierte Modelle bieten zwar leistungsstarke Merkmalsextraktionsfähigkeiten, neigen jedoch bei solchen eingeschränkten medizinischen Daten zu Overfitting und konvergieren oft zu scharfkantigen Minima in der Verlustlandschaft. Um dies zu adressieren, stellen wir ein Framework vor, das den Audio Spectrogram Transformer (AST) durch Sharpness-Aware Minimization (SAM) erweitert. Statt lediglich den Trainingsverlust zu minimieren, optimiert unser Ansatz die Geometrie der Verlustfläche und lenkt das Modell hin zu flacheren Minima, die eine bessere Generalisierung auf unbekannte Patienten ermöglichen. Zusätzlich setzen wir eine gewichtete Sampling-Strategie ein, um das Klassenungleichgewicht effektiv zu behandeln. Unsere Methode erzielt einen state-of-the-art-Wert von 68,10 % auf dem ICBHI-2017-Datensatz und übertrifft damit bestehende CNN- und hybride Baseline-Modelle. Noch wichtiger ist, dass sie eine Sensitivität von 68,31 % erreicht – eine entscheidende Verbesserung für zuverlässiges klinisches Screening. Weitere Analysen mittels t-SNE und Attention Maps bestätigen, dass das Modell robuste, diskriminative Merkmale erlernt, anstatt Hintergrundrauschen auswendig zu lernen.
Komplexe Denkprobleme beinhalten oft implizite räumliche, geometrische und strukturelle Zusammenhänge, die nicht explizit im Text kodiert sind. Obwohl neuere Denkmodelle in vielen Bereichen starke Leistungen erzielt haben, tut sich rein textbasiertes Denken schwer, globale strukturelle Einschränkungen in komplexen Szenarien darzustellen. In diesem Artikel stellen wir FIGR vor, das aktives visuelles Denken über End-to-End-Verstärkungslernen in den mehrstufigen Denkprozess integriert. FIGR externalisiert Zwischenhypothesen zur Struktur, indem es während der Problemlösung visuelle Repräsentationen konstruiert. Durch adaptive Steuerung, wann und wie visuelles Denken eingesetzt werden soll, ermöglicht FIGR stabileres und kohärenteres Denken über globale strukturelle Eigenschaften, die schwer allein aus Text zu erfassen sind. Experimente mit anspruchsvollen mathematischen Denkbenchmarks zeigen, dass FIGR starke rein textbasierte Chain-of-Thought-Baselines übertrifft. Insbesondere verbessert FIGR das Basismodell um 13,12 % bei AIME 2025 und 11,00 % bei BeyondAIME, was die Wirksamkeit figurengeführten multimodalen Denkens für die Steigerung der Stabilität und Zuverlässigkeit komplexen Denkens unterstreicht.
Aktuelle Video-Sprach-Modelle zeigen großes Potenzial für das Video-Verständnis, haben aber nach wie vor Schwierigkeiten mit einer präzisen zeitlichen Verankerung für die Ereignisebene. Wir beobachten, dass zwei Hauptfaktoren des Video-Verständnisses (d.h. zeitliche Verankerung und textuelle Antwort) eine logische Hierarchie bilden: Eine genaue Verankerung zeitlicher Evidenz bildet die Grundlage für eine zuverlässige textuelle Antwort. Bestehende Arbeiten behandeln diese beiden Aufgaben jedoch typischerweise auf gekoppelte Weise ohne eine klare logische Struktur, was zu suboptimalen Zielsetzungen führt. Wir adressieren dieses Problem aus einer faktorisierten Lernperspektive. Zuerst schlagen wir D²VLM vor, ein Framework, das das Lernen dieser beiden Aufgaben entkoppelt und gleichzeitig ihre inhärente Abhängigkeit betont. Wir verwenden ein Paradigma des "Erst Verankern, dann Antworten mit Evidenzreferenzierung" und führen Evidenz-Tokens zur Evidenzverankerung ein, die die Erfassung visueller Semantik auf Ereignisebene betonen und über die Fokussierung auf Zeitstempel-Darstellung in bestehenden Arbeiten hinausgehen. Um das Lernen dieser beiden Aufgaben weiter zu fördern, führen wir einen neuartigen faktorisierten Präferenz-Optimierungsalgorithmus (FPO) ein. Im Gegensatz zur Standard-Präferenzoptimierung integriert FPO explizit probabilistische Modellierung der zeitlichen Verankerung in das Optimierungsziel und ermöglicht so Präferenzlernen sowohl für die zeitliche Verankerung als auch für die textuelle Antwort. Wir erstellen außerdem einen synthetischen Datensatz, um den Mangel an geeigneten Datensätzen für faktorisiertes Präferenzlernen mit expliziter zeitlicher Verankerung zu beheben. Experimente zu verschiedenen Aufgaben demonstrieren den klaren Vorteil unseres Ansatzes. Unser Quellcode ist verfügbar unter https://github.com/nusnlp/d2vlm.
Strategischer Dialog erfordert, dass Agenten unterschiedliche Dialogakte ausführen, wobei die Überzeugungsschätzung entscheidend ist. Während frühere Arbeiten Überzeugungen oft genau schätzen, fehlt ihnen ein prinzipieller Mechanismus, um diese Überzeugungen während der Generierung zu nutzen. Wir schließen diese Lücke, indem wir zunächst zwei zentrale Akte formalisieren – adversarielle und ausrichtende Akte – und sie durch probabilistische Beschränkungen operationalisieren, was ein Agent generieren darf. Wir implementieren diesen Ansatz in BEDA, einem Framework, das aus der Weltmenge, dem Überzeugungsschätzer zur Überzeugungsschätzung und dem bedingten Generator besteht, der Akte auswählt und Äußerungen erzeugt, die mit den abgeleiteten Überzeugungen konsistent sind. In drei Szenarien – Conditional Keeper Burglar (CKBG, adversariell), Mutual Friends (MF, kooperativ) und CaSiNo (Verhandlung) – übertrifft BEDA durchgängig starke Baselines: Bei CKBG steigert es die Erfolgsrate über alle Backbones hinweg um mindestens 5,0 Punkte und mit GPT-4.1-nano um 20,6 Punkte; bei Mutual Friends erzielt es eine durchschnittliche Verbesserung von 9,3 Punkten; und bei CaSiNo erreicht es im Vergleich zu allen Baselines die optimale Vereinbarung. Diese Ergebnisse zeigen, dass die Formulierung von Überzeugungsschätzung als Beschränkungen einen einfachen, allgemeinen Mechanismus für zuverlässigen strategischen Dialog bietet.
Moderne KI-Systeme basieren auf Vektoreinbettungen, die unter Verwendung von Fließkommaarithmetik gespeichert und durchsucht werden. Obwohl dies für die approximative Ähnlichkeitssuche effektiv ist, führt dieses Design grundlegende Nichtdeterminiertheit ein: Identische Modelle, Eingaben und Code können auf verschiedenen Hardwarearchitekturen (z.B. x86 vs. ARM) zu unterschiedlichen Speicherzuständen und Abfrageergebnissen führen. Dies verhindert Reproduzierbarkeit und sichere Bereitstellung, was zu stiller Datenabweichung führt, die eine nachträgliche Verifizierung unmöglich macht und Audit-Trails in regulierten Branchen beeinträchtigt. Wir stellen Valori vor, ein deterministisches KI-Speichersubstrat, das Fließkomma-Speicheroperationen durch Festkommaarithmetik (Q16.16) ersetzt und den Speicher als reproduzierbare Zustandsmaschine modelliert. Valori garantiert bitidentische Speicherzustände, Snapshots und Suchergebnisse plattformübergreifend. Wir zeigen, dass Nichtdeterminiertheit bereits vor der Indexierung oder Abfrage entsteht und demonstrieren, wie Valori Determiniertheit an der Speichergrenze erzwingt. Unsere Ergebnisse legen nahe, dass deterministischer Speicher eine notwendige Grundlage für vertrauenswürdige KI-Systeme ist. Die Referenzimplementierung ist quelloffen und verfügbar unter https://github.com/varshith-Git/Valori-Kernel (archiviert unter https://zenodo.org/records/18022660).