papers.description
Bestehende Methoden zur Tiefenschätzung sind grundsätzlich darauf beschränkt, Tiefenwerte auf diskreten Bildgittern vorherzusagen. Solche Repräsentationen schränken ihre Skalierbarkeit auf beliebige Ausgabauflösungen ein und behindern die Wiederherstellung geometrischer Details. Dieses Papier stellt InfiniDepth vor, das Tiefe als neuronale implizite Felder repräsentiert. Durch einen einfachen, aber effektiven lokalen impliziten Decoder können wir Tiefenwerte an kontinuierlichen 2D-Koordinaten abfragen, was eine beliebig hochauflösende und feingranulare Tiefenschätzung ermöglicht. Um die Fähigkeiten unserer Methode besser bewerten zu können, haben wir einen hochwertigen 4K-Synthese-Benchmark aus fünf verschiedenen Spielen zusammengestellt, der vielfältige Szenen mit reichhaltigen geometrischen und Erscheinungsdetails abdeckt. Umfangreiche Experimente zeigen, dass InfiniDepth bei synthetischen und realen Benchmarks in relativen und metrischen Tiefenschätzungsaufgaben state-of-the-art Leistungen erzielt, wobei es sich besonders in Regionen mit feinen Details auszeichnet. Die Methode kommt auch der Aufgabe der Synthese neuartiger Ansichten bei großen Blickwinkelverschiebungen zugute, indem sie hochwertige Ergebnisse mit weniger Lücken und Artefakten erzeugt.
Die sprecherzugeordnete, zeitgestempelte Transkription (SATS) zielt darauf ab, gesprochene Inhalte zu verschriftlichen und gleichzeitig die genauen Zeitpunkte jedes Sprechers zu erfassen, was besonders für die Transkription von Besprechungen wertvoll ist. Bisherige SATS-Systeme nutzen selten einen End-to-End-Ansatz und sind zudem durch begrenzte Kontextfenster, schwache Langzeitsprechererkennung und die Unfähigkeit zur Zeitstempelausgabe eingeschränkt. Um diese Defizite zu beheben, stellen wir MOSS Transcribe Diarize vor – ein vereinheitlichtes multimodales Großsprachmodell, das sprecherzugeordnete Transkription mit Zeitstempeln in einem End-to-End-Paradigma gemeinsam durchführt. Das Modell wurde mit umfangreichen realen Daten trainiert, verfügt über ein 128k-Kontextfenster für bis zu 90-minütige Eingaben und skaliert sowie generalisiert robust. In umfassenden Evaluierungen übertrifft es state-of-the-art kommerzielle Systeme auf mehreren öffentlichen und internen Benchmarks.
Aktuelle Text-zu-Video-Diffusionsmodelle können überzeugende Videosequenzen erzeugen, bleiben jedoch stumm – sie vermissen die semantischen, emotionalen und atmosphärischen Hinweise, die Audio liefert. Wir stellen LTX-2 vor, ein quelloffenes Grundmodell, das in der Lage ist, hochwertige, zeitlich synchronisierte audiovisuelle Inhalte auf einheitliche Weise zu generieren. LTX-2 besteht aus einem asymmetrischen Dual-Stream-Transformer mit einem 14-Milliarden-Parameter-Videostrom und einem 5-Milliarden-Parameter-Audiostrom, die über bidirektionale Audio-Video-Cross-Attention-Schichten mit zeitlichen Positions-Einbettungen und Cross-Modality AdaLN für eine gemeinsame Zeitschrittkonditionierung gekoppelt sind. Diese Architektur ermöglicht ein effizientes Training und Inferenz eines einheitlichen audiovisuellen Modells, wobei mehr Kapazität für die Videogenerierung als für die Audiogenerierung zugewiesen wird. Wir setzen einen multilingualen Text-Encoder für ein breiteres Prompt-Verständnis ein und führen einen modalitätsbewussten Classifier-Free Guidance (Modality-CFG)-Mechanismus für eine verbesserte audiovisuelle Ausrichtung und Steuerbarkeit ein. Über die reine Sprachgenerierung hinaus produziert LTX-2 reichhaltige, kohärente Audiospuren, die den Charakteren, der Umgebung, dem Stil und der Emotion jeder Szene folgen – komplett mit natürlichen Hintergrund- und Geräuscheffekten. In unseren Evaluierungen erreicht das Modell unter quelloffenen Systemen state-of-the-art audiovisuelle Qualität und Prompt-Treue, liefert dabei jedoch Ergebnisse, die mit proprietären Modellen vergleichbar sind, bei einem Bruchteil deren Rechenkosten und Inferenzzeit. Alle Modellgewichte und Codes sind öffentlich zugänglich.
Wir stellen SciEvalKit vor, ein einheitliches Benchmarking-Toolkit, das entwickelt wurde, um KI-Modelle für die Wissenschaft über ein breites Spektrum wissenschaftlicher Disziplinen und Aufgabenfähigkeiten hinweg zu evaluieren. Im Gegensatz zu allgemeinen Evaluierungsplattformen konzentriert sich SciEvalKit auf die Kernkompetenzen wissenschaftlicher Intelligenz, darunter Wissenschaftliche Multimodale Wahrnehmung, Wissenschaftliches Multimodales Schließen, Wissenschaftliches Multimodales Verständnis, Wissenschaftliches Symbolisches Schließen, Wissenschaftliche Code-Generierung, Wissenschaftliche Hypothesengenerierung und Wissenschaftliches Wissensverständnis. Es unterstützt sechs große wissenschaftliche Domänen, die von Physik und Chemie bis hin zu Astronomie und Materialwissenschaften reichen. SciEvalKit bildet eine Grundlage von Experten-Benchmarks, die aus realen, domänenspezifischen Datensätzen kuratiert werden und sicherstellen, dass die Aufgaben authentische wissenschaftliche Herausforderungen widerspiegeln. Das Toolkit verfügt über eine flexible, erweiterbare Evaluierungspipeline, die Batch-Evaluierungen über Modelle und Datensätze hinweg ermöglicht, die Integration benutzerdefinierter Modelle und Datensätze unterstützt und transparente, reproduzierbare sowie vergleichbare Ergebnisse liefert. Indem es fähigkeitsbasierte Evaluierung und disziplinäre Vielfalt verbindet, bietet SciEvalKit eine standardisierte, doch anpassbare Infrastruktur, um die nächste Generation wissenschaftlicher Foundation-Modelle und intelligenter Agenten zu benchmarken. Das Toolkit ist quelloffen und wird aktiv gepflegt, um community-gesteuerte Entwicklung und Fortschritte in KI für die Wissenschaft zu fördern.
Während Unified Multimodal Models (UMMs) bemerkenswerte Erfolge im cross-modalen Verständnis erzielt haben, besteht nach wie vor eine erhebliche Lücke in ihrer Fähigkeit, dieses interne Wissen für hochwertige Generierung zu nutzen. Wir formalisieren diese Diskrepanz als Leitungsaphasie (Conduction Aphasia), ein Phänomen, bei dem Modelle multimodale Eingaben zwar korrekt interpretieren, es aber schwer haben, dieses Verständnis in eine zuverlässige und steuerbare Synthese zu übersetzen. Um dies zu adressieren, schlagen wir UniCorn vor, ein einfaches, aber elegantes Selbstverbesserungs-Framework, das externe Daten oder Teacher-Aufsicht überflüssig macht. Indem ein einzelnes UMM in drei zusammenarbeitende Rollen unterteilt wird – Proposer (Vorschlagender), Solver (Lösender) und Judge (Beurteilender) – generiert UniCorn hochwertige Interaktionen durch Self-Play und nutzt kognitive Musterrekonstruktion, um latentes Verständnis in explizite generative Signale zu destillieren. Um die Wiederherstellung der multimodalen Kohärenz zu validieren, führen wir UniCycle ein, einen Zyklus-Konsistenz-Benchmark, der auf einer Text-zu-Bild-zu-Text-Rekonstruktionsschleife basiert. Umfangreiche Experimente zeigen, dass UniCorn umfassende und substantielle Verbesserungen gegenüber dem Basismodell über sechs allgemeine Bildgenerierungs-Benchmarks hinweg erzielt. Bemerkenswerterweise erreicht es SOTA-Leistungen bei TIIF (73,8), DPG (86,8), CompBench (88,5) und UniCycle, während es gleichzeitig substantiale Steigerungen von +5,0 bei WISE und +6,5 bei OneIG erzielt. Diese Ergebnisse unterstreichen, dass unsere Methode die T2I-Generierung signifikant verbessert und dabei ein robustes Verständnis beibehält, was die Skalierbarkeit einer vollständig selbstüberwachten Verfeinerung für eine vereinheitlichte multimodale Intelligenz demonstriert.
Wir stellen NitroGen vor, ein Vision-Action-Foundation-Modell für generalistische Spiele-Agenten, das mit 40.000 Stunden Gameplay-Videos aus über 1.000 Spielen trainiert wurde. Drei Schlüsselkomponenten bilden die Grundlage: 1) einen internetgroßen Video-Action-Datensatz, der durch automatische Extraktion von Spieleraktionen aus öffentlich verfügbaren Gameplay-Videos erstellt wurde, 2) eine Multi-Game-Testumgebung zur Messung spielübergreifender Generalisierung und 3) ein einheitliches Vision-Action-Modell, das mit Large-Scale-Behavior-Cloning trainiert wurde. NitroGen zeigt starke Leistungen in diversen Domänen, darunter Kampfszenarien in 3D-Actionspielen, hochpräzise Steuerung in 2D-Plattformern und Exploration in prozedural generierten Welten. Das Modell überträgt effektiv auf unbekannte Spiele und erzielt bis zu 52 % relative Verbesserung der Aufgaben-Erfolgsrate im Vergleich zu von Grund auf trainierten Modellen. Wir veröffentlichen den Datensatz, die Testsuite und die Modellgewichte, um die Forschung zu generalistischen embodied Agents voranzutreiben.
Vision-Language-Action (VLA)-Modelle erreichen eine starke Generalisierungsfähigkeit durch groß angelegtes Pre-Training. Für den realen Einsatz ist jedoch neben breiter Allgemeingültigkeit auch eine expertenleveltaugliche Aufgabenbewältigung erforderlich. Bisherige Nachtrainierungsansätze für VLA-Modelle sind typischerweise offline, Einzelroboter- oder aufgabenspezifisch, was eine effektive On-Policy-Anpassung und skalierbares Lernen aus realen Interaktionen einschränkt. Wir stellen ein skalierbares Online-Nachtrainierungs- (SOP) System vor, das ein online, verteiltes und multitask-fähiges Nachtraining generalistischer VLA-Modelle direkt in der physischen Welt ermöglicht. SOP koppelt Ausführung und Lernen engmaschig durch eine Closed-Loop-Architektur, in der eine Roboterflotte kontinuierlich On-Policy-Erfahrungen und menschliche Eingriffssignale an einen zentralen Cloud-Lerner streamt und asynchron aktualisierte Policies erhält. Dieser Entwurf unterstützt eine prompte On-Policy-Korrektur, skaliert die Datensammlung durch parallelen Einsatz und bewahrt die Generalität während der Anpassung. SOP ist unabhängig vom gewählten Nachtrainierungsalgorithmus; wir implementieren es sowohl mit interaktivem Imitationslernen (HG-DAgger) als auch mit bestärkendem Lernen (RECAP). In einer Reihe von realen Manipulationsaufgaben, darunter das Falten von Tüchern, der Zusammenbau von Kartons und das Auffüllen von Regalen, zeigen wir, dass SOP die Leistung großer vortrainierter VLA-Modelle erheblich verbessert, während eine einzige, aufgabenübergreifend gemeinsame Policy beibehalten wird. Ein effektives Nachtraining kann innerhalb von Stunden realer Interaktion erreicht werden, und die Leistung skaliert nahezu linear mit der Anzahl der Roboter in der Flotte. Diese Ergebnisse legen nahe, dass die enge Kopplung von Online-Lernen mit Flotteneinsätzen entscheidend ist, um ein effizientes, zuverlässiges und skalierbares Nachtraining generalistischer Robotik-Policies in der physischen Welt zu ermöglichen.
Video Stylization, eine wichtige Downstream-Aufgabe von Videogenerierungsmodellen, wurde bisher noch nicht umfassend erforscht. Ihre Eingabe-Stilbedingungen umfassen typischerweise Text, Stilbild und stylisiertes Erstframe. Jede Bedingung hat einen charakteristischen Vorteil: Text ist flexibler, Stilbilder bieten einen präziseren visuellen Anker und stylisierte Erstframes machen die Stilisierung langer Videos praktikabel. Bisherige Methoden sind jedoch weitgehend auf einen einzigen Stilbedingungstyp beschränkt, was ihren Anwendungsbereich einschränkt. Zudem führt ihr Mangel an hochwertigen Datensätzen zu Stilin konsistenzen und zeitlichem Flackern. Um diese Einschränkungen zu adressieren, stellen wir DreamStyle vor, einen einheitlichen Rahmen für Video Stylization, der (1) textgesteuerte, (2) stilbildgesteuerte und (3) erstframegesteuerte Video Stylization unterstützt, ergänzt durch eine gut durchdachte Datenkuratierungs-Pipeline zur Beschaffung hochwertiger gepaarter Videodaten. DreamStyle basiert auf einem standardmäßigen Image-to-Video (I2V)-Modell und wird mit einer Low-Rank Adaptation (LoRA) trainiert, die token-spezifische Up-Matrizen verwendet, um die Verwechslung zwischen verschiedenen Condition-Tokens zu reduzieren. Sowohl qualitative als auch quantitative Auswertungen zeigen, dass DreamStyle in allen drei Video Stylization-Aufgaben kompetent ist und die Konkurrenz in Bezug auf Stilkonsistenz und Videoqualität übertrifft.
Wir stellen MiMo-V2-Flash vor, ein Mixture-of-Experts (MoE)-Modell mit 309 Mrd. Gesamtparametern und 15 Mrd. aktiven Parametern, das für schnelle, leistungsstarke Reasoning- und Agent-Fähigkeiten konzipiert ist. MiMo-V2-Flash verwendet eine hybride Attention-Architektur, die Sliding Window Attention (SWA) mit globaler Attention in einem Hybridverhältnis von 5:1 verschachtelt, mit einem Sliding Window von 128 Tokens. Das Modell wurde mit Multi-Token Prediction (MTP) auf 27 Billionen Tokens vortrainiert, nutzt eine native Kontextlänge von 32k Tokens und wurde anschließend auf 256k erweitert. Um den Rechenaufwand nach dem Training effizient zu skalieren, führt MiMo-V2-Flash ein neuartiges Multi-Teacher On-Policy Distillation (MOPD)-Paradigma ein. In diesem Framework liefern domainspezialisierte Teacher-Modelle (z.B. trainiert durch Large-Scale Reinforcement Learning) dichte, tokenweise Rewards, die es dem Student-Modell ermöglichen, die Expertise der Teacher perfekt zu meistern. MiMo-V2-Flash kann sich mit Top-Modellen aus der Open-Weight-Kategorie wie DeepSeek-V3.2 und Kimi-K2 messen, obwohl es nur die Hälfte bzw. ein Drittel ihrer Gesamtparameter verwendet. Während der Inferenz erreicht MiMo-V2-Flash durch die Nutzung von MTP als Draft-Modell für spekulatives Decoding eine Akzeptanzlänge von bis zu 3,6 und eine 2,6-fache Decoding-Beschleunigung mit drei MTP-Layern. Wir veröffentlichen sowohl die Modellgewichte als auch die dreischichtigen MTP-Gewichte als Open Source, um offene Forschung und Community-Zusammenarbeit zu fördern.
Trotz bedeutender Fortschritte haben multimodale große Sprachmodelle nach wie vor Schwierigkeiten mit der Lösung visueller mathematischer Probleme. Einige aktuelle Arbeiten erkennen, dass die visuelle Wahrnehmung ein Engpass beim visuellen mathematischen Denken ist, doch ihre Lösungsansätze beschränken sich darauf, die Extraktion und Interpretation visueller Eingaben zu verbessern. Bemerkenswerterweise ignorieren sie alle die Schlüsselfrage, ob die extrahierten visuellen Hinweise auch tatsächlich treu integiert und in der nachfolgenden Schlussfolgerung richtig genutzt werden. Ausgehend von dieser Beobachtung stellen wir CogFlow vor, ein neuartiges, kognitionsinspiriertes Drei-Stufen-Framework, das eine Wissensinternalisierungsstufe einfügt und damit explizit den hierarchischen Ablauf menschlichen Denkens simuliert: Wahrnehmung ⇒ Internaliserung ⇒ Schlussfolgerung. In Anlehnung an diesen hierarchischen Ablauf verbessern wir alle seine Stufen ganzheitlich. Wir entwickeln Synergistische Visuelle Belohnungen, um die Wahrnehmungsfähigkeiten im parametrischen und semantischen Raum zu steigern und so gleichzeitig die Extraktion visueller Informationen aus Symbolen und Diagrammen zu verbessern. Um eine treue Integration der extrahierten visuellen Hinweise in die nachfolgende Schlussfolgerung zu gewährleisten, führen wir in der Internaliserungsstufe ein Knowledge Internalization Reward-Modell ein, das eine Brücke zwischen Wahrnehmung und Schlussfolgerung schlägt. Darüber hinaus entwerfen wir einen Visual-Gated Policy Optimization-Algorithmus, um weiter zu erzwingen, dass die Schlussfolgerung auf dem visuellen Wissen basiert, und so zu verhindern, dass Modelle Abkürzungen suchen, die kohärent erscheinen, aber visuell unbegründete Schlussfolgerungsketten darstellen. Zudem tragen wir mit einem neuen Datensatz, MathCog, für das Modelltraining bei, der Proben mit über 120.000 hochwertigen, wahrnehmungs-schlussfolgerungs-abgestimmten Annotationen enthält. Umfassende Experimente und Analysen auf gängigen Benchmarks für visuelles mathematisches Denken bestätigen die Überlegenheit des vorgeschlagenen CogFlow.
Digitale Zwillinge als präzise digitale Abbilder physischer Systeme haben sich durch die Integration von KI-Technologien von passiven Simulationstools zu intelligenten und autonomen Einheiten weiterentwickelt. Dieses Papier stellt einen einheitlichen Vier-Stufen-Rahmen vor, der die KI-Integration über den gesamten Lebenszyklus digitaler Zwillinge systematisch charakterisiert, von der Modellierung über die Spiegelung und Intervention bis hin zum autonomen Management. Durch die Synthese bestehender Technologien und Praktiken destillieren wir einen einheitlichen Vier-Stufen-Rahmen, der systematisch beschreibt, wie KI-Methoden in den Lebenszyklus digitaler Zwillinge eingebettet werden: (1) Modellierung des physischen Zwillings durch physikbasierte und physikinformierte KI-Ansätze, (2) Spiegelung des physischen Systems in einen digitalen Zwilling mit Echtzeit-Synchronisation, (3) Intervention im physischen Zwilling durch prädiktive Modellierung, Anomalieerkennung und Optimierungsstrategien sowie (4) Erreichung eines autonomen Managements durch große Sprachmodelle, Foundation-Modelle und intelligente Agenten. Wir analysieren die Synergie zwischen physikbasierter Modellierung und datengesteuertem Lernen und betonen den Wandel von traditionellen numerischen Lösern hin zu physikinformierten und Foundation-Modellen für physikalische Systeme. Darüber hinaus untersuchen wir, wie generative KI-Technologien, einschließlich großer Sprachmodelle und generativer Weltmodelle, digitale Zwillinge in proaktive, sich selbst verbessernde kognitive Systeme verwandeln, die zu logischem Schlussfolgern, Kommunikation und kreativer Szenariengenerierung fähig sind. Anhand einer domänenübergreifenden Übersicht über elf Anwendungsbereiche – darunter Gesundheitswesen, Luft- und Raumfahrt, intelligente Fertigung, Robotik und Smart Cities – identifizieren wir gemeinsame Herausforderungen in Bezug auf Skalierbarkeit, Erklärbarkeit und Vertrauenswürdigkeit und skizzieren Richtungen für verantwortungsvolle KI-gesteuerte Digitale-Zwilling-Systeme.
Große Sprachmodelle (LLMs) zeigen trotz starker Leistungen bei komplexen mathematischen Problemen systematische Einschränkungen in Zählaufgaben. Dieses Problem resultiert aus architektonischen Grenzen von Transformern, bei denen das Zählen über mehrere Schichten hinweg erfolgt, was aufgrund von Tiefenbeschränkungen zu einer verminderten Präzision bei größeren Zählproblemen führt. Um diese Einschränkung zu adressieren, schlagen wir eine einfache Testzeit-Strategie vor, die von System-2-Kognitionsprozessen inspiriert ist und große Zählaufgaben in kleinere, unabhängige Teilprobleme zerlegt, die das Modell zuverlässig lösen kann. Wir evaluieren diesen Ansatz mit Beobachtungs- und Kausalmeditationsanalysen, um den zugrundeliegenden Mechanismus dieser System-2-ähnlichen Strategie zu verstehen. Unsere mechanistische Analyse identifiziert Schlüsselkomponenten: Latente Zählwerte werden in den finalen Elementrepräsentationen jedes Teils berechnet und gespeichert, über spezialisierte Attention-Heads an Zwischenschritte übertragen und in der finalen Phase aggregiert, um die Gesamtzahl zu erzeugen. Experimentelle Ergebnisse demonstrieren, dass diese Strategie LLMs befähigt, architektonische Grenzen zu überwinden und hohe Genauigkeit bei großskaligen Zählaufgaben zu erreichen. Diese Arbeit liefert mechanistische Einblicke in System-2-Zählen bei LLMs und präsentiert einen verallgemeinerbaren Ansatz zur Verbesserung und zum Verständnis ihres Schlussfolgerungsverhaltens.
Wir stellen WebGym vor, die bislang größte Open-Source-Umgebung für das Training realistischer visueller Web-Agenten. Echte Websites sind nicht-stationär und vielfältig, was künstliche oder kleinskalige Aufgaben-Sets für robustes Policy-Learning unzureichend macht. WebGym umfasst fast 300.000 Aufgaben mit rubrikbasierten Evaluationen über diverse, reale Websites und Schwierigkeitsgrade hinweg. Wir trainieren Agenten mit einem einfachen Reinforcement-Learning-(RL)-Rezept, das auf den eigenen Interaktionsspuren (Rollouts) des Agenten trainiert und Aufgabenbelohnungen als Feedback zur Steuerung des Lernens nutzt. Um RL-Skalierung zu ermöglichen, beschleunigen wir die Abtastung von Trajektorien in WebGym durch die Entwicklung eines hochdurchsatzfähigen asynchronen Rollout-Systems, das speziell für Web-Agenten konzipiert ist. Unser System erreicht eine 4-5-fache Rollout-Beschleunigung im Vergleich zu naiven Implementierungen. Zweitens skalieren wir die Breite, Tiefe und Größe des Aufgaben-Sets, was zu einer kontinuierlichen Leistungsverbesserung führt. Das Fine-Tuning eines starken Basis-Vision-Language-Modells, Qwen-3-VL-8B-Instruct, auf WebGym führt zu einer Verbesserung der Erfolgsrate auf einem Out-of-Distribution-Testset von 26,2 % auf 42,9 % und übertrifft damit Agenten auf Basis proprietärer Modelle wie GPT-4o und GPT-5-Thinking, die 27,1 % bzw. 29,8 % erreichen, signifikant. Diese Verbesserung ist wesentlich, da unser Testset im Gegensatz zu vielen anderen früheren Arbeiten zum Training visueller Web-Agenten ausschließlich Aufgaben auf Websites umfasst, die während des Trainings nie gesehen wurden.
Wir stellen Muses vor, die erste trainingsfreie Methode zur fantastischen 3D-Kreaturengenerierung in einem Vorwärtsverarbeitungsparadigma. Bisherige Methoden, die auf teilbewusster Optimierung, manueller Zusammenstellung oder 2D-Bildgenerierung basieren, erzeugen oft unrealistische oder inkohärente 3D-Assets aufgrund der Herausforderungen intricater teilbezogener Manipulation und begrenzter Out-of-Domain-Generierung. Im Gegensatz dazu nutzt Muses das 3D-Skelett, eine fundamentale Repräsentation biologischer Formen, um diverse Elemente explizit und rational zusammenzusetzen. Diese skeletale Grundlage formalisiert die 3D-Inhaltserstellung als eine strukturbewusste Pipeline aus Design, Komposition und Generierung. Muses beginnt mit der Konstruktion eines kreativ zusammengesetzten 3D-Skeletts mit kohärenter Anordnung und Skalierung durch graph-beschränktes Reasoning. Dieses Skelett leitet dann einen voxelbasierten Assemblierungsprozess in einem strukturierten latenten Raum an, der Regionen verschiedener Objekte integriert. Abschließend wird eine bildgeführte Erscheinungsmodellierung unter Skelettbedingungen angewendet, um eine stilistisch konsistente und harmonische Textur für die zusammengesetzte Form zu generieren. Umfangreiche Experimente belegen Muses' state-of-the-art Leistung in Bezug auf visuelle Qualität und Übereinstimmung mit Textbeschreibungen sowie das Potenzial für flexible 3D-Objekteditierung. Projektseite: https://luhexiao.github.io/Muses.github.io/.
Die rasche Integration multimodaler großer Sprachmodelle (MLLMs) in kritische Anwendungen wird zunehmend durch anhaltende Sicherheitslücken behindert. Bisherige Red-Teaming-Benchmarks sind jedoch oft fragmentiert, auf einzelne Textinteraktionen beschränkt und mangeln der für systematische Evaluierungen erforderlichen Skalierbarkeit. Um dieses Problem zu adressieren, führen wir OpenRT ein – ein einheitliches, modulares und hochdurchsatzfähiges Red-Teaming-Framework für umfassende MLLM-Sicherheitsbewertungen. Kern von OpenRT ist ein Paradigmenwechsel im automatisierten Red-Teaming durch eine adversariale Kernel-Architektur, die eine modulare Trennung über fünf kritische Dimensionen ermöglicht: Modellintegration, Datenverwaltung, Angriffsstrategien, Bewertungsmethoden und Evaluierungsmetriken. Durch die Standardisierung von Angriffsschnittstellen entkoppelt es die adversarielle Logik von einer hochparallelen Laufzeitumgebung und ermöglicht so systematische Skalierung über diverse Modelle hinweg. Unser Framework integriert 37 verschiedene Angriffsmethoden, darunter White-Box-Gradienten, multimodale Perturbationen und anspruchsvolle Multi-Agenten-Evolutionsstrategien. Eine umfangreiche empirische Studie mit 20 modernen Modellen (einschließlich GPT-5.2, Claude 4.5 und Gemini 3 Pro) deckt kritische Sicherheitslücken auf: Selbst führende Modelle zeigen generalisierte Schwächen über Angriffsparadigmen hinweg, mit durchschnittlichen Angriffserfolgsraten von bis zu 49,14%. Bemerkenswerterweise zeigen unsere Ergebnisse, dass Reasoning-Modelle keine inhärent höhere Robustheit gegen komplexe, mehrstufige Jailbreaks besitzen. Durch die Open-Source-Freigabe von OpenRT schaffen wir eine nachhaltige, erweiterbare und kontinuierlich gepflegte Infrastruktur, die die Entwicklung und Standardisierung von KI-Sicherheit beschleunigt.
First-Frame Propagation (FFP) bietet ein vielversprechendes Paradigma für kontrollierbare Videobearbeitung, doch bestehende Methoden werden durch ihre Abhängigkeit von aufwändiger Laufzeit-Steuerung eingeschränkt. Wir identifizieren die Ursache dieser Limitation in der Unzulänglichkeit aktueller Trainingsdatensätze, die oft zu kurz, zu niedrigauflösend sind und nicht die notwendige Aufgabenvielfalt aufweisen, um robuste temporale Priors zu erlernen. Um diese grundlegende Datenlücke zu schließen, stellen wir zunächst FFP-300K vor – einen neuen, großangelegten Datensatz mit 300.000 hochwertigen Videopaaren in 720p-Auflösung und 81 Frames Länge, der durch eine prinzipiengeleitete Zwei-Spur-Pipeline für diverse lokale und globale Bearbeitungen erstellt wurde. Aufbauend auf diesem Datensatz schlagen wir ein neuartiges Framework für echt steuerungsfreie FFP vor, das den kritischen Zielkonflikt zwischen der Bewahrung der First-Frame-Erscheinung und der Erhaltung der Quellvideo-Bewegung löst. Architektonisch führen wir Adaptive Spatio-Temporal RoPE (AST-RoPE) ein, das Positionskodierungen dynamisch neu zuordnet, um Erscheinungs- und Bewegungsreferenzen zu entkoppeln. Auf der Ebene der Lernziele setzen wir eine Self-Distillation-Strategie ein, bei der eine Identitätspropagierungsaufgabe als starker Regularisierer wirkt, um langfristige temporale Stabilität zu gewährleisten und semantische Drifts zu verhindern. Umfassende Experimente auf dem EditVerseBench-Benchmark zeigen, dass unsere Methode bestehende akademische und kommerzielle Modelle signifikant übertrifft, indem sie etwa 0,2 Punkte im PickScore und 0,3 Punkte im VLM-Score gegenüber diesen Wettbewerbern verbessert.
Die Georeferenzierung zielt darauf ab, den geografischen Ursprung eines gegebenen Signals abzuleiten. In der Computer Vision diente die Georeferenzierung als anspruchsvoller Benchmark für kompositionelles Reasoning und ist für die öffentliche Sicherheit relevant. Im Gegensatz dazu wurde der Fortschritt in der auditiven Georeferenzierung durch den Mangel an hochwertigen Audio-Ort-Paaren eingeschränkt. Um diese Lücke zu schließen, stellen wir AGL1K vor, den ersten Benchmark für auditive Georeferenzierung für Audio-Sprachmodelle (ALMs), der 72 Länder und Territorien umfasst. Um zuverlässig lokalisierbare Aufnahmen von einer Crowdsourcing-Plattform zu extrahieren, schlagen wir die Metrik „Auditive Lokalisierbarkeit“ vor, die den Informationsgehalt jeder Aufnahme quantifiziert und so 1.444 kuratierte Audioclips liefert. Evaluationen an 16 ALMs zeigen, dass ALMs eine Fähigkeit zur auditiven Georeferenzierung entwickelt haben. Wir stellen fest, dass Closed-Source-Modelle Open-Source-Modelle erheblich übertreffen und dass linguistische Hinweise oft als Gerüst für die Vorhersage dominieren. Wir analysieren weiterhin die Reasoning-Pfade der ALMs, regionale Verzerrungen, Fehlerursachen und die Interpretierbarkeit der Lokalisierbarkeitsmetrik. Insgesamt etabliert AGL1K einen Benchmark für auditive Georeferenzierung und könnte ALMs mit verbesserten georäumlichen Reasoning-Fähigkeiten voranbringen.
Die Erfassung komplexer Benutzerpräferenzen aus spärlichen Verhaltenssequenzen bleibt eine grundlegende Herausforderung bei sequenziellen Empfehlungssystemen. Jüngste latente Reasoning-Methoden haben durch mehrstufige Schlussfolgerungen, die die Berechnung zur Testzeit erweitern, vielversprechende Ergebnisse gezeigt. Diese Methoden stützen sich jedoch ausschließlich auf eine Skalierung der Tiefe entlang einer einzigen Trajektorie und leiden unter abnehmenden Grenznutzen bei zunehmender Reasoning-Tiefe. Um diese Einschränkung zu adressieren, schlagen wir Parallel Latent Reasoning (PLR) vor, ein neuartiges Framework, das durch die gleichzeitige Erkundung mehrerer diverser Reasoning-Trajektorien Pionierarbeit in der Skalierung der Rechenbreite leistet. PLR konstruiert parallele Reasoning-Ströme durch lernbare Trigger-Tokens im kontinuierlichen latenten Raum, bewahrt die Diversität zwischen den Strömen durch globale Regularisierung des Reasonings und synthetisiert die Ausgaben mehrerer Ströme adaptiv durch eine Aggregation als Mischung von Reasoning-Strömen. Umfangreiche Experimente mit drei realen Datensätzen zeigen, dass PLR state-of-the-art Baseline-Methoden erheblich übertrifft und dabei die Echtzeit-Inferenzeffizienz beibehält. Eine theoretische Analyse validiert weiterhin die Wirksamkeit des parallelen Reasonings zur Verbesserung der Generalisierungsfähigkeit. Unsere Arbeit eröffnet neue Wege zur Steigerung der Reasoning-Kapazität in der sequenziellen Empfehlung über bestehende Tiefenskaliermethoden hinaus.
Trotz beeindruckender Fortschritte bei der hochwertigen Bildsynthese haben generative Modelle nach wie vor Schwierigkeiten mit logikintensiver Anweisungsbefolgung, was eine anhaltende Kluft zwischen Schlussfolgerung und Ausführung offenbart. Unterdessen haben geschlossene Systeme (z.B. Nano Banana) eine starke, schlussfolgerungsgesteuerte Bildgenerierung demonstriert, was eine erhebliche Lücke zu aktuellen Open-Source-Modellen aufzeigt. Wir vertreten die Ansicht, dass zum Schließen dieser Lücke nicht nur bessere visuelle Generatoren, sondern ausführbare Schlussfolgerungsprozesse erforderlich sind: die Zerlegung hochrangiger Absichten in fundierte, überprüfbare Pläne, die den Generierungsprozess direkt steuern. Zu diesem Zweck schlagen wir Unified Thinker vor, eine aufgabenagnostische Schlussfolgerungsarchitektur für die allgemeine Bildgenerierung, die als einheitlicher Planungskern konzipiert ist, der in verschiedene Generatoren und Workflows eingebunden werden kann. Unified Thinker entkoppelt einen dedizierten Thinker vom Bild-Generator und ermöglicht so modulare Verbesserungen der Schlussfolgerungsfähigkeit ohne Neutraining des gesamten generativen Modells. Wir führen weiterhin ein zweistufiges Trainingsparadigma ein: Zuerst bauen wir eine strukturierte Planungsschnittstelle für den Thinker auf, dann wenden wir bestärkendes Lernen an, um seine Strategie an Pixel-feedback zu binden, wodurch Pläne gefördert werden, die visuelle Korrektheit über textuelle Plausibilität optimieren. Umfangreiche Experimente zur Text-zu-Bild-Generierung und Bildbearbeitung zeigen, dass Unified Thinker die Bildschlussfolgerung und Generierungsqualität erheblich verbessert.
Große Reasoning-Modelle (LRMs) erzielen hohe Leistungen bei mathematischen Reasoning-Aufgaben, was oft ihrer Fähigkeit zugeschrieben wird, explizite Chain-of-Thought-Erklärungen (CoT) zu generieren. Jüngste Arbeiten zeigen jedoch, dass LRMs häufig zur korrekten Antwort gelangen, bevor sie diese textuellen Reasoning-Schritte vollständig abgeschlossen haben. Dies deutet auf latentes Reasoning hin – interne, non-verbale Berechnungen, die in verborgenen Zuständen kodiert sind. Während dieses Phänomen im Englischen untersucht wurde, ist sein multilinguales Verhalten weitgehend unbekannt. In dieser Arbeit führen wir eine systematische Untersuchung des multilingualen latenten Reasoning in LRMs über 11 Sprachen hinweg durch. Mithilfe einer truncationsbasierten Strategie untersuchen wir, wie die korrekte Antwort entsteht, wenn dem Modell nur partielle Reasoning-Traces gegeben werden, was uns erlaubt, die schrittweise Bildung latenter Vorhersagen zu messen. Unsere Ergebnisse zeigen klare Evidenz für multilinguales latentes Reasoning, jedoch ungleichmäßig verteilt: stark in ressourcenstarken Sprachen, schwächer in ressourcenarmen Sprachen und insgesamt weniger beobachtbar bei schwierigeren Benchmarks. Um zu verstehen, ob diese Unterschiede unterschiedliche interne Mechanismen widerspiegeln, führen wir weiterführende Repräsentationsanalysen durch. Trotz oberflächlicher Disparitäten stellen wir fest, dass die interne Entwicklung der Vorhersagen über Sprachen hinweg hochkonsistent ist und sich weitgehend mit der des Englischen deckt – ein Muster, das auf einen englisch-zentrierten latenten Reasoning-Pfad hindeutet.
Die Erkennung unbekannter Deepfake-Manipulationen bleibt eines der schwierigsten Probleme in der Gesichtsfälschungserkennung. Aktuelle State-of-the-Art-Ansätze können nicht auf ungesehene Manipulationen verallgemeinert werden, da sie sich hauptsächlich auf überwachtes Training mit existierenden Deepfakes oder Pseudo-Fakes stützen, was zu einer Überanpassung an spezifische Fälschungsmuster führt. Im Gegensatz dazu bieten selbstüberwachte Methoden ein größeres Verallgemeinerungspotenzial, aber bestehende Arbeiten haben Schwierigkeiten, ausschließlich durch Selbstüberwachung diskriminative Repräsentationen zu erlernen. In diesem Beitrag stellen wir ExposeAnyone vor, einen vollständig selbstüberwachten Ansatz basierend auf einem Diffusionsmodell, das Expressionssequenzen aus Audio generiert. Die Kernidee ist, dass das Modell nach einer Personalisierung für bestimmte Personen mittels Referenzsets die Identitätsdistanzen zwischen verdächtigen Videos und personalisierten Personen über Diffusionsrekonstruktionsfehler berechnen kann, was eine Gesichtsfälschungserkennung für Personen von Interesse ermöglicht. Umfangreiche Experimente zeigen, dass 1) unsere Methode den bisherigen State-of-the-Art-Ansatz auf den DF-TIMIT-, DFDCP-, KoDF- und IDForge-Datensätzen im durchschnittlichen AUC um 4,22 Prozentpunkte übertrifft, 2) unser Modell auch in der Lage ist, Sora2-generierte Videos zu erkennen, bei denen bisherige Ansätze schlecht abschneiden, und 3) unsere Methode hochgradig robust gegenüber Störungen wie Unschärfe und Kompression ist, was die Anwendbarkeit in der realen Gesichtsfälschungserkennung unterstreicht.
Wir stellen AceFF vor, ein vortrainiertes maschinelles Lernpotential (MLIP) für die Wirkstoffentwicklung kleiner Moleküle. Obwohl MLIPs sich als effiziente Alternativen zur Dichtefunktionaltheorie (DFT) etabliert haben, bleibt die Generalisierbarkeit über verschiedene chemische Räume hinweg eine Herausforderung. AceFF adressiert dies durch eine verfeinerte TensorNet2-Architektur, die auf einem umfassenden Datensatz von wirkstoffähnlichen Verbindungen trainiert wurde. Dieser Ansatz ergibt ein Kraftfeld, das hohe Durchsatzraten bei der Inferenz mit DFT-genauer Präzision vereint. AceFF unterstützt vollständig die essenziellen Elemente der medizinischen Chemie (H, B, C, N, O, F, Si, P, S, Cl, Br, I) und wurde explizit für den Umgang mit geladenen Zuständen trainiert. Validierungen anhand strenger Benchmarks, einschließlich komplexer Torsionsenergiescans, Molekulardynamik-Trajektorien, gebündelter Minimierungen sowie Kraft- und Energiegenauigkeiten, belegen, dass AceFF einen neuen Maßstab für organische Moleküle setzt. Die AceFF-2-Modellgewichte und der Inferenzcode sind unter https://huggingface.co/Acellera/AceFF-2.0 verfügbar.
Bildentnebelung ist eine zentrale Herausforderung in der Computer Vision, die für die Verbesserung der Bildklarheit bei dunstigen Bedingungen von entscheidender Bedeutung ist. Traditionelle Methoden stützen sich oft auf atmosphärische Streumodelle, während neuere Deep-Learning-Verfahren, insbesondere Convolutional Neural Networks (CNNs) und Transformer, die Leistung durch effektive Analyse von Bildmerkmalen verbessert haben. Allerdings haben CNNs Schwierigkeiten mit langreichweitigen Abhängigkeiten und Transformer erfordern erhebliche Rechenressourcen. Um diese Einschränkungen zu adressieren, schlagen wir DehazeSNN vor, eine innovative Architektur, die einen U-Net-ähnlichen Aufbau mit Spiking Neural Networks (SNNs) integriert. DehazeSNN erfasst mehrskalige Bildmerkmale und verwaltet gleichzeitig lokale und langreichweitige Abhängigkeiten effizient. Die Einführung des Orthogonal Leaky-Integrate-and-Fire Blocks (OLIFBlock) verbessert die kanalübergreifende Kommunikation, was zu einer überlegenen Entnebelungsleistung bei geringerer Rechenlast führt. Unsere umfangreichen Experimente zeigen, dass DehazeSNN auf Benchmark-Datensätzen mit state-of-the-art Methoden hochgradig wettbewerbsfähig ist und hochwertige nebelfreie Bilder mit einer geringeren Modellgröße und weniger Multiply-Accumulate-Operationen liefert. Die vorgeschlagene Entnebelungsmethode ist öffentlich verfügbar unter https://github.com/HaoranLiu507/DehazeSNN.
Die Erkennung von Hassrede in sozialen Medien steht vor Herausforderungen in Bezug auf Genauigkeit und Erklärbarkeit, insbesondere für weniger erforschte indische Sprachen. Wir schlagen einen neuartigen, erklärungsbasierten Trainingsansatz vor, X-MuTeST (eXplainable Multilingual haTe Speech deTection), der semantisches Reasoning großer Sprachmodelle (LLMs) mit traditionellen Aufmerksamkeitsverstärkungstechniken kombiniert. Wir erweitern diese Forschung auf Hindi und Telugu neben Englisch, indem wir benchmark-gestützte, menschlich annotierte Rationale für jedes Wort bereitstellen, um die vergebene Klassenbezeichnung zu begründen. Die X-MuTeST-Erklärbarkeitsmethode berechnet die Differenz zwischen den Vorhersagewahrscheinlichkeiten des Originaltextes und denen von Unigrammen, Bigrammen und Trigrammen. Die endgültigen Erklärungen werden als Vereinigung von LLM-Erklärungen und X-MuTeST-Erklärungen berechnet. Wir zeigen, dass die Nutzung menschlicher Rationale während des Trainings sowohl die Klassifikationsleistung als auch die Erklärbarkeit verbessert. Darüber hinaus führt die Kombination menschlicher Rationale mit unserer Erklärbarkeitsmethode zur Verfeinerung der Modellaufmerksamkeit zu weiteren Verbesserungen. Wir bewerten die Erklärbarkeit anhand von Plausibilitätsmetriken wie Token-F1 und IOU-F1 sowie Treue-Metriken wie Umfassendheit und Hinlänglichkeit. Indem wir uns auf unterrepräsentierte Sprachen konzentrieren, fördert unsere Arbeit die Hassrede-Erkennung in verschiedenen linguistischen Kontexten. Unser Datensatz umfasst Token-level Rationale-Annotationen für 6.004 Hindi-, 4.492 Telugu- und 6.334 Englisch-Beispiele. Daten und Code sind verfügbar unter https://github.com/ziarehman30/X-MuTeST.
Wir untersuchen zwei Eigenschaften von KI-Systemen: Fähigkeit (was ein System tun kann) und Steuerbarkeit (wie zuverlässig man das Verhalten in Richtung beabsichtigter Ergebnisse lenken kann). Eine zentrale Frage ist, ob das Wachstum der Fähigkeiten die Steuerbarkeit verringert und das Risiko eines Kontrollverlusts birgt. Wir unterscheiden zudem zwischen autorisierter Steuerbarkeit (bei der Entwickler beabsichtigte Verhaltensweisen zuverlässig erreichen) und nicht-autorisierter Steuerbarkeit (bei der Angreifer unerlaubte Verhaltensweisen auslösen). Diese Unterscheidung verdeutlicht ein fundamentales Sicherheits-Dilemma von KI-Modellen: Sicherheit erfordert eine hohe Steuerbarkeit zur Durchsetzung von Kontrolle (z.B. Stopp/Ablehnung), während Sicherheit im Sinne von Angriffssicherheit eine geringe Steuerbarkeit erfordert, um böswilligen Akteuren das Auslösen schädlicher Verhaltensweisen zu erschweren. Diese Spannung stellt eine erhebliche Herausforderung für Open-Weight-Modelle dar, die derzeit eine hohe Steuerbarkeit durch gängige Techniken wie Fine-Tuning oder adversariale Angriffe aufweisen. Anhand von Qwen3 und InstrumentalEval stellen wir fest, dass ein kurzer anti-instrumenteller Prompt-Suffix die gemessene Konvergenzrate (z.B. für Abschaltvermeidung, Selbstreplikation) stark reduziert. Für Qwen3-30B Instruct sinkt die Konvergenzrate von 81,69 % unter einem pro-instrumentellen Suffix auf 2,82 % unter einem anti-instrumentellen Suffix. Unter anti-instrumentellem Prompting zeigen größere alignierte Modelle niedrigere Konvergenzraten als kleinere (Instruct: 2,82 % vs. 4,23 %; Thinking: 4,23 % vs. 9,86 %). Der Code ist verfügbar unter github.com/j-hoscilowicz/instrumental_steering.