Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen DeepSeek-V3.2 vor, ein Modell, das hohe Recheneffizienz mit überragender Reasoning- und Agentenleistung vereint. Die wichtigsten technischen Durchbrüche von DeepSeek-V3.2 sind folgende: (1) DeepSeek Sparse Attention (DSA): Wir führen DSA ein, einen effizienten Aufmerksamkeitsmechanismus, der die Rechenkomplexität erheblich reduziert und gleichzeitig die Modellleistung in Langkontext-Szenarien bewahrt. (2) Skalierbares Reinforcement-Learning-Framework: Durch die Implementierung eines robusten Reinforcement-Learning-Protokolls und die Skalierung des Post-Training-Computings erreicht DeepSeek-V3.2 vergleichbare Leistungen wie GPT-5. Besonders erwähnenswert ist, dass unsere Hochrechenvarianten DeepSeek-V3.2-Speciale GPT-5 übertrifft und Reasoning-Fähigkeiten auf Augenhöhe mit Gemini-3.0-Pro zeigt, wobei sie Goldmedaillenleistungen sowohl bei der Internationalen Mathematik-Olympiade (IMO) 2025 als auch bei der Internationalen Informatik-Olympiade (IOI) erzielt. (3) Skalierbare Pipeline zur Synthese agentenbasierter Aufgaben: Um Reasoning in Werkzeugeinsatz-Szenarien zu integrieren, entwickelten wir eine neuartige Synthese-Pipeline, die systematisch Trainingsdaten in großem Maßstab generiert. Diese Methodik ermöglicht skalierbares agentenbasiertes Post-Training und führt zu erheblichen Verbesserungen der Generalisierungsfähigkeit und der Robustheit der Befolgung von Anweisungen in komplexen, interaktiven Umgebungen.
Große Sprachmodelle sind leistungsstarke Allrounder, doch die Lösung tiefgreifender und komplexer Probleme wie die der "Humanity's Last Exam" (HLE) bleibt sowohl konzeptionell anspruchsvoll als auch rechenintensiv. Wir zeigen, dass kleine Orchestratoren, die andere Modelle und eine Vielzahl von Werkzeugen verwalten, sowohl die Obergrenze der Intelligenz erweitern als auch die Effizienz bei der Lösung schwieriger agentenbasierter Aufgaben verbessern können. Wir stellen ToolOrchestra vor, eine Methode zum Training kleiner Orchestratoren, die intelligente Werkzeuge koordinieren. ToolOrchestra nutzt explizit bestärkendes Lernen mit belohnungsbasierten, effizienz- und nutzerpräferenzsensiblen Belohnungsfunktionen. Mit ToolOrchestra erzeugen wir Orchestrator, ein 8B-Modell, das eine höhere Genauigkeit bei geringeren Kosten als bisherige Werkzeugnutzungs-Agenten erreicht und gleichzeitig mit den Nutzerpräferenzen bezüglich der Werkzeugauswahl für eine gegebene Anfrage übereinstimmt. Bei HLE erzielt Orchestrator eine Punktzahl von 37,1 % und übertrifft damit GPT-5 (35,1 %) bei einer 2,5-fachen Effizienzsteigerung. Auf tau2-Bench und FRAMES übertrifft Orchestrator GPT-5 mit deutlichem Abstand, während nur etwa 30 % der Kosten anfallen. Umfangreiche Analysen zeigen, dass Orchestrator unter verschiedenen Metriken die beste Balance zwischen Leistung und Kosten erreicht und robust auf unbekannte Werkzeuge generalisiert. Diese Ergebnisse demonstrieren, dass die Zusammensetzung diverser Werkzeuge mit einem leichtgewichtigen Orchestrierungsmodell sowohl effizienter als auch wirksamer ist als bestehende Methoden und den Weg für praktische und skalierbare werkzeuggestützte Reasoning-Systeme ebnet.
Große Sprachmodelle (LLMs) haben sich rasch von Textgeneratoren zu leistungsfähigen Problemlösern entwickelt. Dennoch erfordern viele offene Aufgaben kritisches Denken, multi-quellenbasierte und überprüfbare Ergebnisse, die über einfaches Prompting oder standardmäßige retrieval-augmentierte Generierung hinausgehen. In jüngster Zeit haben zahlreiche Studien Deep Research (DR) untersucht, das darauf abzielt, die Denkfähigkeiten von LLMs mit externen Werkzeugen wie Suchmaschinen zu kombinieren, um LLMs als Forschungsagenten zu befähigen, die komplexe, offene Aufgaben bewältigen können. Dieser Übersichtsartikel bietet einen umfassenden und systematischen Überblick über Deep-Research-Systeme, einschließlich einer klaren Roadmap, grundlegender Komponenten, praktischer Implementierungstechniken, wichtiger Herausforderungen und zukünftiger Richtungen. Konkret sind unsere Hauptbeiträge wie folgt: (i) Wir formalisieren eine dreistufige Roadmap und grenzen Deep Research von verwandten Paradigmen ab; (ii) Wir führen vier Schlüsselkomponenten ein: Abfrageplanung, Informationsbeschaffung, Speicherverwaltung und Antwortgenerierung, jeweils mit feingranularen Untertaxonomien; (iii) Wir fassen Optimierungstechniken zusammen, einschließlich Prompting, supervised Fine-Tuning und agentenbasierter verstärkender Lernverfahren; und (iv) Wir bündeln Bewertungskriterien und offene Herausforderungen, um die zukünftige Entwicklung zu leiten und zu erleichtern. Da sich das Feld der Deep Research weiterhin schnell entwickelt, sind wir bestrebt, diesen Übersichtsartikel kontinuierlich zu aktualisieren, um die neuesten Fortschritte in diesem Bereich widerzuspiegeln.
Aktuelle Videogenerierungstechniken sind für Einzelaufnahmen hervorragend geeignet, haben jedoch Schwierigkeiten bei der Erzählung mehrerer Einstellungen, die flexible Bildgestaltung, kohärente Narration und Steuerbarkeit über Textprompts hinaus erfordern. Um diese Herausforderungen zu bewältigen, stellen wir MultiShotMaster vor, ein Framework für hochgradig steuerbare Mehrschuss-Videogenerierung. Wir erweitern ein vortrainiertes Einzelschuss-Modell durch die Integration zweier neuartiger RoPE-Varianten. Erstens führen wir Multi-Shot Narrative RoPE ein, das einen expliziten Phasenversatz bei Szenenübergängen anwendet, um flexible Bildgestaltung bei gleichzeitiger Wahrung der zeitlichen Erzählreihenfolge zu ermöglichen. Zweitens entwerfen wir Spatiotemporal Position-Aware RoPE, um Referenztoken und Verankerungssignale einzubinden, was eine raumzeitlich verankerte Referenzinjektion ermöglicht. Zusätzlich etablieren wir zur Überwindung der Datenknappheit eine automatisierte Datenannotations-Pipeline zur Extraktion von Mehrschuss-Videos, Beschreibungen, übergreifenden Verankerungssignalen und Referenzbildern. Unser Framework nutzt die intrinsischen Architektureigenschaften zur Unterstützung der Mehrschuss-Videogenerierung mit textgesteuerter Konsistenz zwischen Einstellungen, benutzerdefinierten Subjekten mit Bewegungssteuerung und hintergrundgesteuerten benutzerdefinierten Szenen. Sowohl die Anzahl der Einstellungen als auch deren Dauer sind flexibel konfigurierbar. Umfangreiche Experimente belegen die überlegene Leistung und herausragende Steuerbarkeit unseres Frameworks.
Die Selbstevolution von KI wird seit langem als Weg zur Superintelligenz angesehen, bei dem Modelle autonom Wissen aus ihren eigenen Lernerfahrungen erwerben, verfeinern und verinnerlichen. In der Praxis erreichen ungelenkte, sich selbst entwickelnde Systeme jedoch oft schnell ein Plateau oder verschlechtern sich sogar im Trainingsverlauf. Diese Fehlschläge resultieren aus Problemen wie Konzeptdrift, Diversitätskollaps und Fehlentwicklung, da Modelle ihre eigenen Verzerrungen verstärken und zu Verhaltensweisen mit niedriger Entropie konvergieren. Um Modelle zu ermöglichen, sich auf stabile und kontrollierbare Weise selbst weiterzuentwickeln und gleichzeitig die Abhängigkeit von menschlicher Aufsicht zu minimieren, stellen wir R-Few vor: einen gelenkten Self-Play-Rahmen mit Herausforderer- und Löser-Komponente, der leichtgewichtige menschliche Steuerung durch In-Context-Grounding und gemischtes Training integriert. In jeder Iteration sampelt der Herausforderer einen kleinen Satz menschlich gelabelter Beispiele, um die synthetische Fragengenerierung zu steuern, während der Löser gemeinsam auf menschlichen und synthetischen Beispielen nach einem online-basierten, schwierigkeitsgesteuerten Curriculum trainiert. In mathematischen und allgemeinen Reasoning-Benchmarks erzielt R-Few konsistente und iterative Verbesserungen. So verbessert sich Qwen3-8B-Base beispielsweise in mathematischen Aufgaben um +3,0 Punkte gegenüber R-Zero und erreicht eine Leistung, die mit General-Reasoner vergleichbar ist, obwohl letzterer mit der 20-fachen Menge an menschlichen Daten trainiert wurde. Ablationsstudien bestätigen die komplementären Beiträge des grounded Challenger-Trainings und des curriculum-basierten Solver-Trainings. Eine weiterführende Analyse zeigt, dass R-Few Drift abmildert und stabilere sowie kontrollierbare Ko-Evolutionsdynamiken hervorbringt.
Trotz jüngster Fortschritte in multimodalen agentenbasierten Systemen behandeln bestehende Ansätze Bildmanipulation und Websuche oft als getrennte Fähigkeiten, stützen sich stark auf kostspieliges Reinforcement Learning und verfügen nicht über eine Planung, die auf echten Werkzeugausführungsdaten basiert. Um diese Einschränkungen zu adressieren, stellen wir Skywork-R1V4 vor, ein multimodales agentenbasiertes Modell mit 30B (A3B) Parametern, das multimodale Planung, aktive Bildmanipulation ("Denken mit Bildern"), tiefgreifende multimodale Suche und, entscheidend, verschachteltes Reasoning vereint, das dynamisch zwischen visuellen Operationen und externer Wissensabfrage wechselt. Ausschließlich durch supervidiertes Fine-Tuning mit weniger als 30.000 hochwertigen, planungsausführungskonsistenten Trajektorien trainiert und durch schrittweise Konsistenzfilterung validiert, erzielt Skywork-R1V4 state-of-the-art Ergebnisse in Wahrnehmungs- und multimodalen Suchbenchmarks: Es erreicht 66,1 auf MMSearch und 67,2 auf FVQA und übertrifft Gemini 2.5 Flash in allen 11 Metriken. Skywork-R1V4 zeigt emergentes langfristiges Reasoning zur Inferenzzeit und orchestriert erfolgreich mehr als 10 Werkzeugaufrufe, um komplexe, mehrstufige Aufgaben zu lösen. Unsere Ergebnisse demonstrieren, dass anspruchsvolle agentenbasierte multimodale Intelligenz durch sorgfältig kuratiertes supervidiertes Lernen allein erreicht werden kann, ohne jegliche Abhängigkeit von Reinforcement Learning.
Wir stellen MG-Nav (Memory-Guided Navigation) vor, ein dualskaliges Framework für null-shot visuelle Navigation, das globale, speichergeführte Planung mit lokaler, geometrie-verstärkter Steuerung vereint. Sein Kernstück ist der Sparse Spatial Memory Graph (SMG), ein kompaktes, regionszentriertes Gedächtnis, in dem jeder Knoten Multi-View-Keyframe- und Objektsemantiken aggregiert und sowohl Erscheinungsbild als auch räumliche Struktur erfasst, während die Blickpunktvielfalt erhalten bleibt. Auf globaler Ebene wird der Agent im SMG lokalisiert und ein zielbedingter Knotenpfad wird über eine hybride Bild-zu-Instanz-Retrieval geplant, wodurch eine Sequenz erreichbarer Wegpunkte für die Langzeitanleitung erzeugt wird. Auf lokaler Ebene führt eine Navigations-Basispolitik diese Wegpunkte im Punktziel-Modus mit hindernisbewusster Steuerung aus und wechselt in den Bildziel-Modus, wenn von dem finalen Knoten zum visuellen Ziel navigiert wird. Um die Blickpunktausrichtung und Zielerkennung weiter zu verbessern, führen wir den VGGT-Adapter ein, ein leichtgewichtiges geometrisches Modul, das auf dem vortrainierten VGGT-Modell aufbaut und Beobachtungs- und Zielmerkmale in einem gemeinsamen 3D-bewussten Raum ausrichtet. MG-Nav betreibt globale Planung und lokale Steuerung mit unterschiedlichen Frequenzen und nutzt periodische Re-Lokalisierung zur Fehlerkorrektur. Experimente auf den HM3D Instance-Image-Goal- und MP3D Image-Goal-Benchmarks zeigen, dass MG-Nav state-of-the-art Null-Shot-Leistung erreicht und unter dynamischen Umordnungen und ungesehenen Szenenbedingungen robust bleibt.
Dieses Papier stellt DualCamCtrl vor, ein neuartiges End-to-End-Diffusionsmodell für kameragesteuerte Videogenerierung. Aktuelle Arbeiten haben dieses Feld vorangebracht, indem sie Kameraposen als strahlenbasierte Bedingungen darstellen, doch ihnen fehlt oft ausreichendes Szenenverständnis und geometrisches Bewusstsein. DualCamCtrl adressiert gezielt diese Limitation durch Einführung eines Dual-Branch-Frameworks, das gegenseitig kamera-konsistente RGB- und Tiefensequenzen erzeugt. Um diese beiden Modalitäten zu harmonisieren, schlagen wir weiterhin den Semantic Guided Mutual Alignment (SIGMA)-Mechanismus vor, der RGB-Tiefen-Fusion auf semantisch geführte und gegenseitig verstärkende Weise durchführt. Diese Designs ermöglichen es DualCamCtrl gemeinsam, Erscheinungsbild- und Geometriemodellierung besser zu entwirren und Videos zu generieren, die spezifizierten Kameratrajektorien treuer folgen. Zusätzlich analysieren und enthüllen wir den distinkten Einfluss von Tiefe und Kameraposen über Denoising-Stadien hinweg und demonstrieren weiter, dass frühe und späte Stadien komplementäre Rollen bei der Formation globaler Struktur und Verfeinerung lokaler Details spielen. Umfangreiche Experimente zeigen, dass DualCamCtrl konsistentere kameragesteuerte Videogenerierung erreicht, mit über 40\% Reduktion von Kamerabewegungsfehlern im Vergleich zu vorherigen Methoden. Unsere Projektseite: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
Die Entwicklung vollständig autonomer Fahrzeuge erfordert das Erlernen rationaler Entscheidungen in einem breiten Spektrum von Szenarien, einschließlich sicherheitskritischer und Out-of-Distribution-Situationen. Solche Fälle sind jedoch in von menschlichen Experten gesammelten realen Datensätzen unterrepräsentiert. Um den Mangel an Datenvielfalt auszugleichen, stellen wir ein neuartiges und skalierbares Simulationsframework vor, das in der Lage ist, auf Basis bestehender Fahrprotokolle massenhaft ungesehene Zustände zu synthetisieren. Unsere Pipeline nutzt fortschrittliches Neural Rendering mit einer reaktiven Umgebung, um hochauflösende Multi-View-Beobachtungen zu generieren, die durch die perturbierte Ego-Trajektorie gesteuert werden. Darüber hinaus entwickeln wir einen Mechanismus zur Erzeugung pseudo-expertenhafter Trajektorien für diese neu simulierten Zustände, um Aktionssupervision bereitzustellen. Auf den synthetisierten Daten stellen wir fest, dass eine einfache Co-Training-Strategie mit sowohl realen als auch simulierten Stichproben zu signifikanten Verbesserungen in Robustheit und Generalisierung verschiedener Planungsmethoden auf anspruchsvollen realen Benchmarks führen kann – bis zu +6,8 EPDMS auf navhard und +2,9 auf navtest. Noch wichtiger ist, dass solche Verbesserungen der Policy reibungslos skalieren, indem ausschließlich Simulationsdaten erhöht werden, selbst ohne zusätzlichen Zustrom realer Daten. Wir zeigen zudem mehrere entscheidende Erkenntnisse eines solchen Sim-Real-Lernsystems auf, das wir SimScale nennen, darunter das Design von Pseudo-Experten und die Skalierungseigenschaften für verschiedene Policy-Architekturen. Unsere Simulationsdaten und Code werden veröffentlicht.
LLMs und Agenten haben beeindruckende Fortschritte in der Code-Generierung, mathematischem Denken und wissenschaftlicher Entdeckung erzielt. Allerdings messen bestehende Benchmarks hauptsächlich die Korrektheit und übersehen dabei die Vielfalt der Methoden hinter Lösungen. Wahre Innovation hängt nicht nur davon ab, korrekte Antworten zu produzieren, sondern auch von der Originalität des Ansatzes. Wir stellen InnoGym vor, den ersten Benchmark und Rahmen, der entwickelt wurde, um das Innovationspotenzial von KI-Agenten systematisch zu bewerten. InnoGym führt zwei komplementäre Metriken ein: die Leistungssteigerung, die die Verbesserung gegenüber den besten bekannten Lösungen misst, und die Neuartigkeit, die methodische Unterschiede zu früheren Ansätzen erfasst. Der Benchmark umfasst 18 sorgfältig zusammengestellte Aufgaben aus realen Ingenieur- und Wissenschaftsbereichen, die jeweils durch Ressourcenfilterung, Evaluierungsvalidierung und Lösungs-Sammlung standardisiert wurden. Zusätzlich bieten wir iGym, eine einheitliche Ausführungsumgebung für reproduzierbare und langfristige Bewertungen. Umfangreiche Experimente zeigen, dass zwar einige Agenten neuartige Ansätze produzieren, deren mangelnde Robustheit jedoch die Leistungssteigerung begrenzt. Diese Ergebnisse verdeutlichen eine wesentliche Lücke zwischen Kreativität und Effektivität und unterstreichen die Notwendigkeit von Benchmarks, die beide Aspekte bewerten.
Die latente Raummodellierung war bisher der Standard für Diffusions-Transformatoren (DiTs). Diese Methode beruht jedoch auf einer zweistufigen Pipeline, bei der der vortrainierte Autoencoder verlustbehaftete Rekonstruktionen einführt, was zu Fehlerakkumulation führt und eine gemeinsame Optimierung behindert. Um diese Probleme zu adressieren, schlagen wir PixelDiT vor – ein einstufiges, end-to-end Modell, das den Autoencoder überflüssig macht und den Diffusionsprozess direkt im Pixelraum erlernt. PixelDiT verwendet eine vollständig transformerbasierte Architektur mit einem zweistufigen Design: ein Patch-level DiT, das globale Semantik erfasst, und ein Pixel-level DiT, das Texturdetails verfeinert. Dies ermöglicht ein effizientes Training eines Pixelraum-Diffusionsmodells bei gleichzeitiger Bewahrung feiner Details. Unsere Analyse zeigt, dass eine effektive Modellierung von Pixel-level-Tokens entscheidend für den Erfolg von Pixeldiffusion ist. PixelDiT erreicht einen FID-Wert von 1,61 auf ImageNet 256×256 und übertrifft damit existierende pixelbasierte generative Modelle deutlich. Wir erweitern PixelDiT weiter für Text-zu-Bild-Generierung und vortrainieren es bei 1024×1024-Auflösung im Pixelraum. Es erzielt 0,74 auf GenEval und 83,5 auf DPG-bench und nähert sich damit den besten latenten Diffusionsmodellen an.
Während KI-Agenten auf Basis von LLMs und VLMs rasante Fortschritte in Mathematik, Programmierung und Computernutzung gemacht haben, bleiben ihre Anwendungen in komplexen physischen und sozialen Umgebungen eine Herausforderung. Die Entwicklung von Agenten, die in der realen Welt überleben und erfolgreich sein können (beispielsweise durch autonomes Einkommenserzielen oder das Führen eines Unternehmens), erfordert umfangreiche Interaktionen, Schlussfolgerungen, Training und Evaluation über diverse verkörperte Szenarien hinweg. Allerdings sind bestehende Weltsimulatoren für eine solche Entwicklung unzureichend: Sie basieren oft auf begrenzten, handgefertigten Umgebungen, simulieren vereinfachte, spielähnliche Physik und soziale Regeln und bieten keine native Unterstützung für LLM/VLM-Agenten. Wir stellen SimWorld vor, einen neuen Simulator, der auf Unreal Engine 5 aufbaut und für die Entwicklung und Evaluation von LLM/VLM-Agenten in reichhaltigen, realitätsnahen Umgebungen konzipiert ist. SimWorld bietet drei Kernfähigkeiten: (1) realistische, offene Weltsimulation, einschließlich präziser physikalischer und sozialer Dynamiken und sprachgesteuerter prozeduraler Umgebungserzeugung; (2) eine umfangreiche Schnittstelle für LLM/VLM-Agenten mit multimodalen Welteingaben und open-vocabulary-Aktionen auf verschiedenen Abstraktionsebenen; und (3) vielfältige und erweiterbare physikalische und soziale Szenarien für Schlussfolgerungen, die einfach durch Benutzer anpassbar sind. Wir demonstrieren SimWorld durch den Einsatz modernster LLM-Agenten (z.B. GPT-4o, Gemini-2.5-Flash, Claude-3.5 und DeepSeek-Prover-V2) in langfristigen Multi-Agenten-Zustellaufgaben, die strategische Kooperation und Konkurrenz beinhalten. Die Ergebnisse zeigen unterschiedliche Denkmuster und Grenzen der Modelle auf. Wir veröffentlichen SimWorld als Open-Source und hoffen, dass es zu einer grundlegenden Plattform für den Fortschritt der Intelligenz von Agenten in der realen Welt across disciplines wird: https://simworld.org.
Diffusionsmodelle haben bemerkenswerte Erfolge in der Bildgenerierung erzielt, doch ihr Einsatz bleibt durch die hohen Rechenkosten und die Notwendigkeit zahlreicher Inferenzschritte eingeschränkt. Bisherige Ansätze zur Distillation mit weniger Schritten versuchen, redundante Schritte durch das Training kompakter Studentenmodelle zu überspringen, leiden jedoch oft unter hohen Nachtrainingskosten und einer beeinträchtigten Generalisierungsfähigkeit. In dieser Arbeit verfolgen wir einen anderen Ansatz: Wir beschleunigen intelligent, nicht gleichmäßig, indem wir geringere Beschleunigungen auf frühe semantische Phasen und größere auf spätere redundante Phasen anwenden. Wir setzen diese phasenbewusste Strategie mit zwei Experten um, die sich auf langsame bzw. schnelle Entrauschungsphasen spezialisieren. Überraschenderweise stellen wir fest, dass sich bereits durch die Ausstattung des Basismodells mit leichten LoRA-Adaptern sowohl eine effiziente Beschleunigung als auch eine starke Generalisierung erreichen lässt, anstatt großen Aufwand in das Nachtraining von Studentenmodellen zu investieren. Wir bezeichnen diese beiden Adapter als Slow-LoRA und Fast-LoRA. In umfangreichen Experimenten erreicht unsere Methode eine bis zu 5-fache Beschleunigung gegenüber dem Basismodell bei vergleichbarer visueller Qualität über verschiedene Benchmarks hinweg. Bemerkenswerterweise werden die LoRA-Experten mit nur 1 % der Stichproben auf einer einzelnen V100 innerhalb einer Stunde trainiert, dennoch generalisieren die resultierenden Modelle stark auf ungesehene Prompts.
Jüngste Fortschritte bei Video-Großsprachmodellen haben beeindruckende Fähigkeiten im Verständnis kurzer Videoclips demonstriert. Die Skalierung auf stunden- oder tagelange Videos bleibt jedoch äußerst herausfordernd, begrenzt durch die Kontextkapazität und den Verlust kritischer visueller Details während der Abstraktion. Bestehende, speicherergänzte Methoden mildern dies durch textuelle Zusammenfassungen von Videosegmenten, verlassen sich jedoch stark auf Text und nutzen keine visuellen Beweise bei der Analyse komplexer Szenen. Darüber hinaus schränkt die Abfrage fester Zeitskalen die Flexibilität ein, Ereignisse mit variabler Dauer zu erfassen. Um dies zu adressieren, stellen wir WorldMM vor, einen neuartigen multimodalen Speicher-Agenten, der komplementäre Speicher erstellt und abruft, die sowohl textuelle als auch visuelle Repräsentationen umfassen. WorldMM besteht aus drei Speichertypen: Episodischer Speicher indiziert faktenbasierte Ereignisse über mehrere Zeitskalen, semantischer Speicher aktualisiert kontinuierlich konzeptuelles Wissen auf hoher Ebene und visueller Speicher bewahrt detaillierte Informationen über Szenen. Während der Inferenz wählt ein adaptiver Abruf-Agent iterativ die relevanteste Speicherquelle aus und nutzt mehrere zeitliche Granularitäten basierend auf der Abfrage, bis ausreichend Informationen gesammelt wurden. WorldMM übertrifft bestehende Baseline-Methoden deutlich in fünf Benchmarks zur Fragebeantwortung in langen Videos und erzielt durchschnittlich 8,4 % Leistungssteigerung gegenüber vorherigen State-of-the-Art-Methoden, was seine Wirksamkeit bei der Langzeit-Videoanalyse belegt.
Die Quantisierung auf niedrige Bitzahlen ist ein Standardverfahren zur Bereitstellung großer Sprachmodelle, jedoch verzerren einige extreme Gewichte und Aktivierungen den dynamischen Bereich und verringern die effektive Auflösung des Quantisierers. Ein gängiger Lösungsansatz ist die Anwendung fester orthogonaler Transformationen, wie beispielsweise Hadamard-Matrizen, vor der Quantisierung, was typischerweise den dynamischen Bereich reduziert. Dennoch ignorieren diese Transformationen die Statistik der Daten, und ihre Optimalität ist bisher nicht verstanden. In dieser Arbeit leiten wir erstmals geschlossene optimale lineare blockweise Transformationen für die gemeinsame Gewichts-Aktivierungs-Quantisierung unter Verwendung standardmäßiger datenfreier Quantisierer für gängige numerische Formate ab. Konkret liefern wir Herleitungen der optimalen adaptiven (datenabhängigen) Transformationen für Rundungs-quantisierer (RTN) und AbsMax-skalierte Blockquantisierer für sowohl Ganzzahl- als auch Gleitkommaformate. Die resultierende Konstruktion, die wir WUSH nennen, kombiniert eine Hadamard-Grundstruktur mit einer datenabhängigen Komponente basierend auf Momenten zweiter Ordnung, was eine nicht-orthogonale Transformation ergibt, die nachweislich optimal unter milden Annahmen ist und strukturiert bleibt für eine effiziente Implementierung. Erste experimentelle Ergebnisse zeigen, dass unser Ansatz konsistent Verbesserungen gegenüber der Hadamard-Transformation für gängige Formate erzielt.
Trotz Fortschritten in der Video-Audio-Generierung konzentriert sich das Feld überwiegend auf Mono-Ausgaben und mangelt es an räumlicher Immersion. Bestehende binaurale Ansätze bleiben durch eine Zwei-Stufen-Pipeline eingeschränkt, die zunächst Mono-Audio erzeugt und anschließend eine Räumlichkeitsdarstellung durchführt, was oft zu Fehlerakkumulation und raumzeitlichen Inkonsistenzen führt. Um diese Einschränkung zu adressieren, führen wir die Aufgabe der end-to-end binauralen räumlichen Audiogenerierung direkt aus stummem Video ein. Zur Unterstützung dieser Aufgabe stellen wir den BiAudio-Datensatz vor, der etwa 97.000 Video-binaurale Audio-Paare umfasst, die verschiedene realweltliche Szenen und Kamerarotations-Trajektorien abdecken und durch eine semi-automatisierte Pipeline erstellt wurden. Darüber hinaus schlagen wir ViSAudio vor, ein End-to-End-Framework, das conditional Flow Matching mit einer Dual-Branch-Audiogenerierungsarchitektur einsetzt, wobei zwei dedizierte Zweige die audio-latenten Flüsse modellieren. Integriert mit einem conditional Spacetime-Modul balanciert es die Konsistenz zwischen den Kanälen unter Beibehaltung distinctiver räumlicher Charakteristiken und gewährleistet so eine präzise raumzeitliche Ausrichtung zwischen Audio und dem Eingabevideo. Umfassende Experimente zeigen, dass ViSAudio bestehende state-of-the-art Methoden in objektiven Metriken und subjektiven Evaluationen übertrifft und hochwertigen binauralen Audio mit räumlicher Immersion erzeugt, der sich effektiv an Blickwinkeländerungen, Schallquellenbewegung und diverse akustische Umgebungen anpasst. Projektwebsite: https://kszpxxzmc.github.io/ViSAudio-project.
Vision-Language-Action (VLA)-Modelle haben bemerkenswerte Fähigkeiten in der robotischen Manipulation gezeigt, doch ihre Leistung ist empfindlich gegenüber der während des Trainings verwendeten Aktionsabschnittslänge, dem sogenannten Horizont. Unsere empirische Studie zeigt einen inhärenten Zielkonflikt: Längere Horizonte ermöglichen eine bessere globale Vorausschau, verschlechtern jedoch die feinkörnige Genauigkeit, während kürzere Horizonte die lokale Steuerung verbessern, aber bei langfristigen Aufgaben versagen. Dies impliziert, dass eine feste Wahl eines einzelnen Horizonts suboptimal ist. Um diesen Zielkonflikt zu entschärfen, schlagen wir eine Mixture of Horizons (MoH)-Strategie vor. MoH unterteilt den Aktionsabschnitt in mehrere Segmente mit unterschiedlichen Horizonten, verarbeitet diese parallel mit einem gemeinsamen Action Transformer und fusioniert die Ausgaben mit einem leichten linearen Gating-Mechanismus. Dies bietet drei wesentliche Vorteile: 1) MoH nutzt gleichzeitig langfristige Vorausschau und kurzfristige Präzision innerhalb eines einzigen Modells, was sowohl die Leistung als auch die Generalisierbarkeit für komplexe Aufgaben verbessert. 2) MoH ist plug-and-play-fähig für Action-Module mit Voll-Aufmerksamkeit und verursacht minimalen Zusatzaufwand während Training und Inferenz. 3) MoH ermöglicht dynamische Inferenz mit adaptiven Horizonten, die stabile Aktionen durch konsistente Übereinstimmung über verschiedene Horizonte auswählt. Dies erreicht einen 2,5-fach höheren Durchsatz als Vergleichsverfahren bei gleichbleibend hoher Leistung. Umfangreiche Experimente mit flussbasierten Policies π₀, π₀.₅ und einer One-Step-Regressions-Policy π_reg zeigen, dass MoH konsistent und signifikant sowohl in Simulationen als auch in realen Aufgaben Vorteile bringt. Besonders bemerkenswert: Unter Mixed-Task-Bedingungen erreicht π₀.₅ mit MoH einen neuen State-of-the-Art mit einer durchschnittlichen Erfolgsrate von 99 % auf LIBERO nach nur 30.000 Trainingsiterationen. Projektseite: https://github.com/Timsty1/MixtureOfHorizons
Reinforcement Learning (RL) sieht sich mit einem grundlegenden Spannungsverhältnis konfrontiert: Strategien (Policies), die stabil zu optimieren sind, sind oft zu einfach, um die multimodalen Aktionsverteilungen darzustellen, die für komplexe Steuerungsaufgaben erforderlich sind. Gaußsche Policies bieten handhabbare Likelihoods und glatte Gradienten, doch ihre unimodale Form schränkt ihre Ausdruckskraft ein. Im Gegensatz dazu können generative Policies, die auf Diffusion oder Flow Matching basieren, reichhaltige multimodale Verhaltensweisen modellieren; jedoch sind sie im Online-RL häufig instabil, bedingt durch nicht handhabbare Likelihoods und verrauschte Gradienten, die sich durch tiefe Sampling-Ketten fortpflanzen. Wir begegnen diesem Spannungsverhältnis mit einem grundlegenden strukturellen Prinzip: der Entkopplung von Optimierung und Generierung. Aufbauend auf dieser Einsicht führen wir GoRL (Generative Online Reinforcement Learning) ein, ein Framework, das eine handhabbare latente Policy optimiert und gleichzeitig einen konditionalen generativen Decoder zur Synthese von Aktionen nutzt. Ein Zwei-Zeitskalen-Aktualisierungsplan ermöglicht es der latenten Policy, stabil zu lernen, während der Decoder stetig an Ausdruckskraft gewinnt, ohne handhabbare Aktions-Likelihoods zu benötigen. In einer Reihe von Continuous-Control-Aufgaben übertrifft GoRL durchgängig sowohl Gaußsche Policies als auch neuere generative Policy-Baselines. Besonders bemerkenswert ist, dass es bei der HopperStand-Aufgabe eine normalisierte Punktzahl von über 870 erreicht, was mehr als dem Dreifachen der stärksten Baseline entspricht. Diese Ergebnisse demonstrieren, dass die Trennung von Optimierung und Generierung einen praktikablen Weg zu Policies eröffnet, die sowohl stabil als auch hochgradig ausdrucksstark sind.
Aktuelle Audio-Video-Generierungssysteme deuten darauf hin, dass die Kopplung von Modalitäten nicht nur der Audio-Video-Synchronisation zugutekommt, sondern auch der Videomodalität selbst. Wir stellen eine grundlegende Frage: Verbessert das gemeinsame Audio-Video-Entrauschtraining die Videogenerierung, selbst wenn uns nur die Videoqualität wichtig ist? Um dies zu untersuchen, führen wir eine parameter-effiziente Audio-Video-Full-DiT-Architektur (AVFullDiT) ein, die vortrainierte Text-zu-Video (T2V)- und Text-zu-Audio (T2A)-Module für gemeinsames Entrauschen nutzt. Wir trainieren (i) ein T2AV-Modell mit AVFullDiT und (ii) ein reines T2V-Gegenstück unter identischen Bedingungen. Unsere Ergebnisse liefern den ersten systematischen Beleg dafür, dass gemeinsames Audio-Video-Entrauschen mehr als nur Synchronisation bewirken kann. Wir beobachten konsistente Verbesserungen bei anspruchsvollen Teilmengen mit großen Objektbewegungen und Objektkontakten. Wir stellen die Hypothese auf, dass die Vorhersage von Audio als privilegiertes Signal wirkt, das das Modell dazu anregt, kausale Beziehungen zwischen visuellen Ereignissen und ihren akustischen Konsequenzen (z.B. wie Kollisionszeitpunkte den Klang beeinflussen) zu internalisieren, was wiederum die Videodynamik regularisiert. Unsere Ergebnisse legen nahe, dass cross-modales Co-Training ein vielversprechender Ansatz ist, um stärkere, physikalisch fundiertere Weltmodelle zu entwickeln. Code und Datensatz werden öffentlich zugänglich gemacht.
In diesem Beitrag stellen wir CUDA-L2 vor, ein System, das große Sprachmodelle (LLMs) und bestärkendes Lernen (RL) kombiniert, um Halbgenauigkeit-General-Matrix-Multiplikation (HGEMM) CUDA-Kernel automatisch zu optimieren. Indem es die CUDA-Ausführungsgeschwindigkeit als RL-Belohnung verwendet, optimiert CUDA-L2 HGEMM-Kernel automatisch über 1.000 Konfigurationen hinweg. CUDA-L2 übertrifft systematisch die wichtigsten Matmul-Baselines bis heute, von der weit verbreiteten {\it torch.matmul} bis hin zu state-of-the-art, quellgeschützten Bibliotheken von Nvidia, d.h. {\it cuBLAS} und {\it cuBLASLt}. Im Offline-Modus, bei dem Kernel ohne Zeitintervalle nacheinander ausgeführt werden, erzielt CUDA-L2 im Durchschnitt eine Steigerung von +22,0 % gegenüber {\it torch.matmul}; +19,2 % gegenüber {\it cuBLAS} unter Verwendung der optimalen Layout-Konfiguration (normal-normal NN und transponiert-normal TN); +16,8 % gegenüber {\it cuBLASLt-heuristic}, das die {\it cuBLASLt}-Bibliothek abfragt und den Algorithmus basierend auf der Heuristik-Auswahl wählt; und +11,4 % gegenüber dem wettbewerbsfähigsten {\it cuBLASLt-AutoTuning}-Modell, das den schnellsten Algorithmus aus bis zu 100 Kandidaten der {\it cuBLASLt}-Vorschläge auswählt. Im Server-Modus, bei dem Kernel in zufälligen Intervallen zur Simulation von Echtzeit-Inferenz ausgeführt werden, erhöhen sich die Beschleunigungen weiter auf +28,7 %, +26,0 %, +22,4 % bzw. +15,9 % für {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} und {\it cuBLASLt-AutoTuning}. CUDA-L2 zeigt, dass selbst die leistungskritischsten, stark optimierten Kernel wie HGEMM durch LLM-gesteuerte RL-Automatisierung verbessert werden können, indem Konfigurationsräume in einem für Menschen unpraktikablen Umfang systematisch erkundet werden. Projekt und Code sind unter github.com/deepreinforce-ai/CUDA-L2 zu finden.
Analogiebasierte Schlussfolgerungen sind ein Kernbestandteil der menschlichen Kognition und bilden eine wichtige Grundlage für verschiedene intellektuelle Aktivitäten. Während frühere Arbeiten gezeigt haben, dass große Sprachmodelle (LLMs) Aufgabenmuster und oberflächliche Konzepte abbilden können, bleibt unklar, ob diese Modelle hochgradige relationale Konzepte kodieren und diese durch strukturierte Vergleiche auf neue Situationen anwenden können. In dieser Arbeit untersuchen wir diesen grundlegenden Aspekt anhand von Proportional- und Geschichtenanalogien und identifizieren drei zentrale Erkenntnisse. Erstens: LLMs kodieren effektiv die zugrundeliegenden Beziehungen zwischen analogen Entitäten; sowohl attributive als auch relationale Informationen verbreiten sich in korrekten Fällen durch die mittleren bis oberen Schichten, während Denkfehler auf fehlende relationale Informationen in diesen Schichten zurückzuführen sind. Zweitens: Im Gegensatz zum Menschen haben LLMs oft nicht nur dann Schwierigkeiten, wenn relationale Informationen fehlen, sondern auch, wenn sie versuchen, diese auf neue Entitäten anzuwenden. In solchen Fällen kann das strategische Anpassen versteckter Repräsentationen an kritischen Token-Positionen den Informations transfer bis zu einem gewissen Grad erleichtern. Drittens: Erfolgreiche analogische Schlussfolgerungen in LLMs sind durch eine starke strukturelle Ausrichtung zwischen analogen Situationen gekennzeichnet, während Fehler oft auf eine verschlechterte oder fehlplatzierte Ausrichtung hindeuten. Insgesamt zeigen unsere Ergebnisse, dass LLMs aufkeimende, aber begrenzte Fähigkeiten beim Kodieren und Anwenden hochgradiger relationaler Konzepte aufweisen, was sowohl Parallelen als auch Lücken zur menschlichen Kognition verdeutlicht.
Wir stellen MagicQuill V2 vor, ein neuartiges System, das ein geschichtetes Kompositionsparadigma für die generative Bildbearbeitung einführt und so die Lücke zwischen der semantischen Leistungsfähigkeit von Diffusionsmodellen und der granularen Kontrolle traditioneller Grafiksoftware schließt. Während Diffusion-Transformer bei der holistischen Generierung hervorragend sind, scheitert ihr Einsatz einzelner, monolithischer Prompts daran, unterschiedliche Benutzerabsichten für Inhalt, Position und Erscheinungsbild zu entwirren. Um dies zu überwinden, zerlegt unsere Methode die kreative Absicht in einen Stapel kontrollierbarer visueller Hinweise: eine Inhaltsebene für das *Was* der Erstellung, eine räumliche Ebene für das *Wo* der Platzierung, eine Strukturebene für das *Wie* der Formgebung und eine Farbschicht für die Palette. Unsere technischen Beiträge umfassen eine spezialisierte Pipeline zur Datengenerierung für kontextbewusste Inhaltsintegration, ein einheitliches Kontrollmodul zur Verarbeitung aller visuellen Hinweise und einen feinabgestimmten räumlichen Zweig für präzise lokale Bearbeitung, einschließlich Objektentfernung. Umfangreiche Experimente bestätigen, dass dieser geschichtete Ansatz die Kluft der Benutzerabsicht effektiv auflöst und damit Gestaltern eine direkte, intuitive Kontrolle über den generativen Prozess gewährt.
Tabellenerkennung (TR) zielt darauf ab, Tabellenbilder in halbstrukturierte Darstellungen wie HTML oder Markdown zu überführen. Als Kernkomponente der Dokumentenanalyse setzt TR seit langem auf überwachtes Lernen, wobei aktuelle Bestrebungen von Feinabstimmungen vortrainierter Vision-Language-Modelle (VLMs) mit annotierten Daten dominiert werden. Obwohl VLMs die TR auf ein neues Niveau gehoben haben, erfordert eine weitere Leistungssteigerung große Mengen annotierter Daten, deren Beschaffung kostspielig ist. Infolgedessen liegen Open-Source-Modelle – die oft mit begrenzten Ressourcen trainiert werden und in der Praxis aufgrund von Datenschutzvorschriften für viele die einzig praktikable Option darstellen – trotz kontinuierlicher Leistungssteigerungen proprietärer Modelle noch immer deutlich zurück. Um diese Lücke zu schließen, stellen wir TRivia vor, eine selbstüberwachte Feinabstimmungsmethode, die vortrainierten VLMs ermöglicht, TR direkt aus nicht annotierten Tabellenbildern aus realen Anwendungen zu erlernen. Aufbauend auf Group Relative Policy Optimization identifiziert TRivia automatisch nicht annotierte Stichproben, die den Lernprozess am effektivsten fördern, und eliminiert den Bedarf an menschlichen Annotationen durch einen belohnungsbasierten Frage-Antwort-Mechanismus. Ein aufmerksamkeitsgesteuertes Modul generiert diverse Fragen für jedes Tabellenbild, und die Fähigkeit, die Erkennungsergebnisse zu interpretieren und diese korrekt zu beantworten, liefert Feedback zur Optimierung des TR-Modells. Dieser geschlossene Regelkreis ermöglicht es dem TR-Modell, autonom zu erlernen, Tabellen zu erkennen, zu strukturieren und über sie zu schlussfolgern – ohne annotierte Daten. Mit dieser Pipeline präsentieren wir TRivia-3B, ein quelloffenes, kompaktes und state-of-the-art TR-Modell, das bestehende Systeme (z.B. Gemini 2.5 Pro, MinerU2.5) auf drei verbreiteten Benchmarks übertrifft. Modell und Code sind verfügbar unter: https://github.com/opendatalab/TRivia
Vision-Language-Action (VLA)-Modelle, die mit Flow Matching trainiert wurden, haben beeindruckende Fähigkeiten bei robotischen Manipulationsaufgaben gezeigt. Ihre Leistung lässt jedoch häufig unter Distribution Shift und bei komplexen Mehrschrittaufgaben nach, was darauf hindeutet, dass die gelernten Repräsentationen möglicherweise keine robuste Erfassung aufgabenrelevanter Semantik ermöglichen. Wir stellen DiG-Flow vor, einen prinzipienbasierten Rahmen, der die Robustheit von VLA-Modellen durch geometrische Regularisierung verbessert. Unser zentraler Ansatz ist, dass die diskrepanzbasierte Verteilung zwischen Beobachtungs- und Aktions-Embeddings ein aussagekräftiges geometrisches Signal liefert: Niedrige Transportkosten deuten auf kompatible Repräsentationen hin, während höhere Kosten auf eine potenzielle Fehlausrichtung hindeuten. DiG-Flow berechnet ein Diskrepanzmaß zwischen empirischen Verteilungen von Beobachtungs- und Aktions-Embeddings, bildet es über eine monotone Funktion auf ein Modulationsgewicht ab und wendet vor dem Flow Matching residuale Updates auf die Beobachtungs-Embeddings an. Entscheidend ist, dass dieser Eingriff auf Repräsentationsebene erfolgt, ohne den Flow-Matching-Pfad oder das Zielvektorfeld zu modifizieren. Wir liefern theoretische Garantien, die zeigen, dass diskrepanzgeführtes Training den Trainingszielwert nachweislich verringert und dass geführte Inferenzverfeinerung mit Kontraktion konvergiert. Empirisch integriert sich DiG-Flow mit vernachlässigbarem Overhead in bestehende VLA-Architekturen und verbessert die Leistung konsistent, mit besonders deutlichen Gewinnen bei komplexen Mehrschrittaufgaben und unter begrenzten Trainingsdaten.
Jüngste Fortschritte in der Videogenerierung ermöglichen die Synthese von Videos mit starker zeitlicher Konsistenz und beeindruckender visueller Qualität, was einen entscheidenden Schritt auf dem Weg zu visuellen Basismodellen darstellt. Um diese Videogenerierungsmodelle zu bewerten, konzentrieren sich bestehende Benchmarks primär auf Faktoren der visuellen Wahrnehmung und des Verständnisses, wie visuelle Ästhetik, Befolgung von Anweisungen und zeitliche Kohärenz. Die regelbasierten Reasoning-Fähigkeiten von Videogenerierungsmodellen bleiben jedoch weitgehend unerforscht. Obwohl neuere Studien erste Untersuchungen dazu durchgeführt haben, ob Videomodelle als Zero-Shot-Learner fungieren können, fehlt es ihnen nach wie vor an einer feingranularen Zerlegung der Reasoning-Fähigkeiten und einem umfassenden Evaluierungsprotokoll. Um diese Lücke zu schließen, stellen wir RULER-Bench vor, einen Benchmark, der die Reasoning-Fähigkeit von Videogenerierungsmodellen aus der Perspektive kognitiver Regeln bewertet. Aufbauend auf zwei grundlegenden Paradigmen – Text-zu-Video und Bild-zu-Video – umfasst RULER-Bench 40 repräsentative Aufgaben aus sechs Regelkategorien mit 622 hochwertig annotierten Instanzen. Für die Bewertung jedes generierten Videos erstellen wir eine Checkliste mit vier Metriken und nutzen GPT-3, um jeder Frage Punkte zuzuordnen, wobei wir eine 85%ige Übereinstimmung mit menschlichen Bewertungen erreichen. Umfangreiche Experimente zeigen, dass das state-of-the-art-Modell bei der Regelkohärenzmetrik nur 48,87 % erreicht, was auf erheblichen Verbesserungsbedarf bei den Reasoning-Fähigkeiten von Videomodellen der nächsten Stufe hinweist. Wir erwarten, dass die durch RULER-Bench gewonnenen Erkenntnisse die weitere Entwicklung von reasoning-bewusster Videogenerierung fördern und Videogenerierungsmodelle in Richtung einer visuellen Basisintelligenz voranbringen werden.
Vision-Language-Action (VLA)-Modelle, die auf vortrainierten Vision-Language Models (VLMs) aufbauen, zeigen großes Potenzial, sind jedoch aufgrund ihrer hohen Parameteranzahl in der Praxis eingeschränkt. Um dieses Problem zu mildern, wurde der Einsatz leichtgewichtiger VLMs untersucht, was jedoch die räumlich-zeitliche Reasoning-Fähigkeit beeinträchtigt. Obwohl einige Methoden vorschlagen, dass zusätzliche 3D-Eingaben helfen können, verlassen diese sich meist auf große VLMs zur Fusion von 3D- und 2D-Eingaben und weisen weiterhin kein temporales Verständnis auf. Daher schlagen wir SwiftVLA vor, eine Architektur, die ein kompaktes Modell um 4D-Verständnis erweitert und dabei die Effizienz der Modellgestaltung beibehält. Konkret zeichnet sich unser Ansatz durch einen vortrainierten 4D-Visual-Geometry-Transformer mit einem temporalen Cache aus, der 4D-Merkmale aus 2D-Bildern extrahiert. Um dann die Fähigkeit des VLM zu verbessern, sowohl 2D-Bilder als auch 4D-Merkmale zu nutzen, führen wir Fusion Tokens ein – einen Satz lernbarer Token, die mit einem Ziel der Vorhersage zukünftiger Zustände trainiert werden, um einheitliche Repräsentationen für die Aktionsgenerierung zu erzeugen. Schließlich führen wir eine Mask-and-Reconstruct-Strategie ein, bei der 4D-Eingaben für das VLM maskiert werden und das VLA trainiert wird, diese zu rekonstruieren. Dies ermöglicht es dem VLM, effektive 4D-Repräsentationen zu erlernen, und erlaubt es, den 4D-Zweig zur Inferenzzeit bei minimalem Leistungsverlust zu entfernen. Experimente in realen und simulierten Umgebungen zeigen, dass SwiftVLA leichtgewichtige Baselines übertrifft und mit VLMs konkurriert, die bis zu 7-mal größer sind. Es erreicht eine vergleichbare Leistung auf Edge-Geräten bei 18-facher Geschwindigkeit und einer 12-fachen Reduzierung des Speicherbedarfs.
Mit den rasanten Fortschritten leistungsstarker multimodaler Modelle wie GPT-4o, Nano Banana und Seedream 4.0 im Bereich der Bildbearbeitung vergrößert sich die Leistungslücke zwischen Closed-Source- und Open-Source-Modellen zunehmend. Dies ist hauptsächlich auf den Mangel an großvolumigen, hochwertigen Trainingsdaten und umfassenden Benchmarks zurückzuführen, die in der Lage sind, Modellschwächen über verschiedene Bearbeitungsverhalten hinweg zu diagnostizieren. Bestehende Methoden zur Datenerstellung stehen vor einem Skalierbarkeits-Qualitäts-Dilemma: menschliche Annotationen sind hochwertig, aber nicht skalierbar, während automatisierte Pipelines unter Fehlerfortpflanzung und Rauschen leiden. Um dies zu lösen, führen wir eine leichtgewichtige Datenpipeline ein, die Multi-Toolchains durch ein End-to-End-Modell und eine vereinheitlichte Nachverifizierungsstufe ersetzt. Für skalierbare Qualitätskontrolle trainieren wir ein 7B-Dual-Task-Expertenmodell, Qwen-Verify, zur effizienten Fehlererkennung und Instruktions-Neubeschriftung. Diese Pipeline erzeugt UnicEdit-10M, einen 10-Millionen-Datensatz, der diverse grundlegende und komplexe Bearbeitungsaufgaben abdeckt. Wir schlagen zudem UnicBench vor, einen allgemeinen Benchmark, der über grundlegende Bearbeitungen hinausgeht und räumliches sowie wissensbasiertes Reasoning explizit bewertet. Um eine feinkörnige Diagnose zu ermöglichen, führen wir neuartige Metriken ein, darunter Nicht-Bearbeitungs-Konsistenz und Reasoning-Genauigkeit. Unsere Analyse gängiger Modelle auf UnicBench deckt deren Grenzen auf und liefert klare Richtungen für zukünftige Forschung.
Die Erzeugung minutenlanger Videos ist ein entscheidender Schritt auf dem Weg zur Entwicklung von Weltmodellen, da sie die Grundlage für realistische erweiterte Szenen und fortschrittliche KI-Simulatoren bildet. Das aufkommende semi-autoregressive Paradigma (Block-Diffusion) vereint die Stärken von Diffusions- und autoregressiven Modellen, ermöglicht die Erzeugung von Videos beliebiger Länge und verbessert die Inferenzeffizienz durch KV-Caching und paralleles Sampling. Allerdings stehen nach wie vor zwei grundlegende Herausforderungen im Weg: (i) KV-Cache-bedingte Fehlerakkumulation über lange Zeithorizonte und (ii) das Fehlen granulare Benchmarks für lange Videos und Kohärenz-bewusster Metriken. Um diese Einschränkungen zu überwinden, stellen wir BlockVid vor, ein neuartiges Block-Diffusion-Framework, das mit einem semantikbewussten sparse KV-Cache, einer effektiven Trainingsstrategie namens Block Forcing sowie dedizierten chunk-basierten Rauschplanungs- und Shuffling-Verfahren ausgestattet ist, um die Fehlerfortpflanzung zu reduzieren und die zeitliche Konsistenz zu verbessern. Wir führen außerdem LV-Bench ein, einen granularen Benchmark für minutenlange Videos, ergänzt um neue Metriken zur Bewertung der Langreichweiten-Kohärenz. Umfangreiche Experimente auf VBench und LV-Bench zeigen, dass BlockVid bestehende Methoden bei der Erzeugung hochwertiger, kohärenter minutenlanger Videos durchgängig übertrifft. Insbesondere erzielt es auf LV-Bench eine Verbesserung von 22,2 % bei VDE Subject und 19,4 % bei VDE Clarity gegenüber state-of-the-art-Ansätzen. Projekt-Website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
Wir untersuchen, wie verschiedene Chain-of-Thought (CoT)-Designs den Erwerb generalisierbarer visueller Reasoning-Fähigkeiten in Vision-Language-Modellen (VLMs) beeinflussen. Obwohl CoT-Daten, insbesondere lange oder visuelle CoT wie "Denken mit Bildern", häufig zur Überwachung von Zwischenschritten im Reasoning verwendet werden, ist unklar, warum bestimmte CoT-Designs helfen und welche wirklich generalisierbares Reasoning unterstützen. Um dies systematisch zu evaluieren, konzentrieren wir uns auf einen kontrollierten Benchmark zur Labyrinth-Lösung, bei dem die Reasoning-Regeln rein visuell sind, der Schwierigkeitsgrad über die Gittergröße gesteuert werden kann und alle Zwischenschritte automatisch generiert werden können. Unter Verwendung von Qwen2.5-VL-7B in einem standardmäßigen SFT-then-RL-Pipeline vergleichen wir drei repräsentative CoT-Formate: Sprach-CoT, Grounding-CoT (mit räumlichen Koordinatentrajektorien) und Visuelle CoT (mit Bildmanipulationen). Unsere Experimente zeigen, dass visuelle und längere CoT hauptsächlich die Konvergenz beschleunigen, aber die finale Leistungsobergrenze nicht anheben; prägnante CoT, die nur essentielle Grounding-Schritte enthalten, schneiden besser ab als längere Spuren; und bemerkenswerterweise generalisiert CoT, das nur die minimalen Grounding-Ergebnisse beibehält, am besten über verschiedene Labyrinthgrößen hinweg. Wir validieren diese Erkenntnisse weiterhin an anderen visuell-zentrierten Aufgaben. Diese Ergebnisse unterstreichen einen "Kurz ist lang"-Effekt und bieten praktische Leitlinien für die Konstruktion generalisierbarer SFT-Datensätze für visuelles Reasoning.
Wir untersuchen, ob videogenerative Modelle visuell-räumliche Intelligenz – eine zentrale Fähigkeit menschlicher Kognition – allein anhand visueller Daten entwickeln können. Zu diesem Zweck stellen wir Video4Spatial vor, ein Framework, das zeigt, dass reine Video-Diffusionsmodelle, die ausschließlich auf videobasiertem Szenenkontext konditioniert sind, komplexe räumliche Aufgaben bewältigen können. Wir validieren dies anhand zweier Aufgaben: Szenennavigation – das Befolgen von Kameraposen-Anweisungen unter Wahrung der 3D-Geometrie der Szene – und Objektverankerung, die semantische Lokalisierung, Instruktionsbefolgung und Planung erfordert. Beide Aufgaben verwenden rein videobasierte Eingaben ohne zusätzliche Modalitäten wie Tiefeninformationen oder Posen. Durch einfache, aber effektive Designentscheidungen im Framework und bei der Datenaufbereitung demonstriert Video4Spatial ein starkes räumliches Verständnis aus dem Videokontext: Es plant Navigation und verankert Zielobjekte end-to-end, befolgt Kameraposen-Anweisungen unter Beibehaltung räumlicher Konsistenz und generalisiert auf lange Kontexte und domainsfremde Umgebungen. Zusammengenommen bringen diese Ergebnisse videogenerative Modelle im Hinblick auf allgemeines visuell-räumliches Schließen voran.
Wir stellen Ovis-Image vor, ein 7B-Text-zu-Bild-Modell, das speziell für hochwertiges Text-Rendering optimiert wurde und für einen effizienten Betrieb unter strengen Rechenbedingungen konzipiert ist. Aufbauend auf unserem früheren Ovis-U1-Framework integriert Ovis-Image einen diffusionsbasierten visuellen Decoder mit der leistungsstärkeren multimodalen Ovis-2.5-Backbone-Architektur. Dabei nutzt es eine textzentrierte Trainingspipeline, die groß angelegtes Pre-Training mit maßgeschneiderten Nachbearbeitungsverfeinerungen kombiniert. Trotz seiner kompakten Architektur erreicht Ovis-Image eine Text-Rendering-Leistung, die mit deutlich größeren Open-Source-Modellen wie Qwen-Image vergleichbar ist und sich geschlossenen Systemen wie Seedream und GPT4o annähert. Entscheidend ist, dass das Modell nach wie vor auf einer einzigen High-End-GPU mit moderatem Speicherbedarf einsetzbar bleibt und so die Lücke zwischen hochwertigem Text-Rendering und praktischer Implementierung verkleinert. Unsere Ergebnisse zeigen, dass die Kombination einer starken multimodalen Backbone-Architektur mit einem sorgfältig gestalteten, textfokussierten Trainingsansatz ausreicht, um zuverlässiges bilinguales Text-Rendering zu erreichen, ohne auf überdimensionierte oder proprietäre Modelle zurückgreifen zu müssen.
Physical AI zielt darauf ab, Modelle zu entwickeln, die reale physikalische Dynamiken wahrnehmen und vorhersagen können; dennoch ist das Ausmaß, in dem aktuelle multimodale Large Language Models und generative Videomodelle diese Fähigkeiten unterstützen, unzureichend verstanden. Wir stellen Physical AI Bench (PAI-Bench) vor, einen vereinheitlichten und umfassenden Benchmark, der Wahrnehmungs- und Vorhersagefähigkeiten in den Bereichen Videogenerierung, konditionale Videogenerierung und Videoverständnis evaluiert. Dieser besteht aus 2.808 realen Fällen mit aufgabenspezifischen Metriken, die entwickelt wurden, um physikalische Plausibilität und domänenspezifisches Schlussfolgern zu erfassen. Unsere Studie bietet eine systematische Bewertung aktueller Modelle und zeigt, dass generative Videomodelle trotz hoher visueller Qualität oft Schwierigkeiten haben, physikalisch kohärente Dynamiken beizubehalten, während multimodale Large Language Models begrenzte Leistungen in der Vorhersage und kausalen Interpretation zeigen. Diese Beobachtungen deuten darauf hin, dass sich aktuelle Systeme noch in einem frühen Stadium befinden, um den wahrnehmungsbezogenen und vorhersagenden Anforderungen von Physical AI gerecht zu werden. Zusammenfassend etabliert PAI-Bench eine realistische Grundlage für die Bewertung von Physical AI und identifiziert wesentliche Lücken, die zukünftige Systeme adressieren müssen.
Mit der rasanten Entwicklung großer visuell-sprachlicher Modelle verlagert sich der Fokus von Aufgaben grafischer Benutzeroberflächen (GUI) von Einzellbildschirm-Aufgaben hin zu komplexen Bildschirmnavigationsherausforderungen. Allerdings sind reale GUI-Umgebungen wie PC-Software und Mobile Apps oft komplex und proprietär, was die Beschaffung umfassender Umgebungsinformationen für das Training und die Evaluation von Agenten erschwert. Diese Einschränkung behindert eine systematische Erforschung und Benchmarking von Navigationsfähigkeiten der Agenten. Um diese Limitation zu adressieren, führen wir GUI Exploration Lab ein, eine Simulationsumgebung für die GUI-Agenten-Navigationsforschung, die flexible Definition und Kombination von Bildschirmen, Icons und Navigationsgraphen ermöglicht und gleichzeitig vollständigen Zugang zu Umgebungsinformationen für umfassendes Agententraining und -evaluation bietet. Durch umfangreiche Experimente stellen wir fest, dass überwachtes Feintuning eine effektive Speicherung von Grundlagenwissen ermöglicht und als entscheidende Basis für nachfolgendes Training dient. Aufbauend darauf verbessert Reinforcement Learning mit einzelnen Interaktionen die Generalisierungsfähigkeit auf ungesehene Szenarien weiter. Schließlich fördert Reinforcement Learning mit mehreren Interaktionen die Entwicklung von Explorationsstrategien durch interaktives Ausprobieren, was zu weiteren Verbesserungen der Bildschirmnavigationsleistung führt. Wir validieren unsere Methoden anhand statischer und interaktiver Benchmarks und zeigen, dass unsere Erkenntnisse effektiv auf reale Szenarien übertragbar sind. Diese Ergebnisse demonstrieren die Vorteile von Reinforcement-Learning-Ansätzen in der GUI-Navigation und bieten praktische Leitlinien für die Entwicklung leistungsfähigerer und besser generalisierbarer GUI-Agenten.
Die 3D-Rekonstruktion aus Multi-View-Bildern ist eine zentrale Herausforderung in der Computer Vision. In jüngerer Zeit haben sich Feed-Forward-Methoden als effiziente und robuste Alternativen zu traditionellen Per-Scene-Optimierungstechniken etabliert. Zu den state-of-the-art Modellen gehört dabei der Visual Geometry Grounding Transformer (VGGT), der vollständige Self-Attention über alle Bild-Tokens anwendet, um globale Beziehungen zu erfassen. Dieser Ansatz leidet jedoch unter schlechter Skalierbarkeit, bedingt durch die quadratische Komplexität der Self-Attention und die große Anzahl von Tokens, die in langen Bildsequenzen erzeugt werden. In dieser Arbeit stellen wir FlashVGGT vor, eine effiziente Alternative, die diesen Engpass durch einen deskriptorbasierten Aufmerksamkeitsmechanismus adressiert. Anstatt eine dichte globale Aufmerksamkeit über alle Tokens hinweg anzuwenden, komprimiert FlashVGGT die räumlichen Informationen jedes Einzelbildes in einen kompakten Satz von Deskriptor-Tokens. Die globale Aufmerksamkeit wird dann als Cross-Attention zwischen der vollständigen Menge der Bild-Tokens und dieser kleineren Deskriptorenmenge berechnet, was den Rechenaufwand erheblich reduziert. Darüber hinaus ermöglicht die Kompaktheit der Deskriptoren eine Online-Inferenz für lange Sequenzen durch einen Chunk-rekursiven Mechanismus, der zwischengespeicherte Deskriptoren aus vorherigen Abschnitten wiederverwendet. Experimentelle Ergebnisse zeigen, dass FlashVGGT eine mit VGGT vergleichbare Rekonstruktionsgenauigkeit erreicht, dabei aber die Inferenzzeit für 1.000 Bilder auf nur 9,3 % von VGGT reduziert und effizient auf Sequenzen mit über 3.000 Bildern skaliert. Unsere Projektseite ist unter https://wzpscott.github.io/flashvggt_page/ verfügbar.
Während Diffusionsmodelle für die audiogesteuerte Avatarvideogenerierung bemerkenswerte Fortschritte bei der Synthese langer Sequenzen mit natürlicher audiovisueller Synchronisation und Identitätskonsistenz erzielt haben, ist die Generierung von Musikaufführungsvideos mit Kamerabewegungen weitgehend unerforscht. Wir stellen YingVideo-MV vor, das erste kaskadierte Framework zur musikgesteuerten Langvideogenerierung. Unser Ansatz integriert audiosemantische Analyse, ein interpretierbares Szenenplanungsmodul (MV-Director), zeitlich sensitive Diffusions-Transformer-Architekturen und Konsistenzmodellierung für lange Sequenzen, um die automatische Synthese hochwertiger Musikaufführungsvideos aus Audiosignalen zu ermöglichen. Wir haben einen großen, vielfältigen Music-in-the-Wild-Datensatz durch die Sammlung von Webdaten aufgebaut, um die Erzielung diverser, hochwertiger Ergebnisse zu unterstützen. Da bestehende Methoden zur Langvideogenerierung keine explizite Steuerung der Kamerabewegung bieten, führen wir ein Kameradaptermodul ein, das Kameraposen in latente Rauschsignale einbettet. Um die Kontinuität zwischen Clips während der Langsequenzinferenz zu verbessern, schlagen wir weiterhin eine zeitabhängige dynamische Fensterbereichsstrategie vor, die die Entrauschungsbereiche basierend auf Audio-Einbettungen adaptiv anpasst. Umfassende Benchmark-Tests zeigen, dass YingVideo-MV herausragende Leistungen bei der Generierung kohärenter und ausdrucksstarker Musikvideos erzielt und eine präzise Musik-Bewegung-Kamera-Synchronisation ermöglicht. Weitere Videos sind auf unserer Projektseite verfügbar: https://giantailab.github.io/YingVideo-MV/.
Die nächste Grenze der Videogenerierung liegt in der Entwicklung von Modellen, die zu Zero-Shot-Reasoning fähig sind, wobei das Verständnis naturwissenschaftlicher Gesetze der realen Welt entscheidend für die genaue Modellierung physikalischer Ergebnisse unter verschiedenen Bedingungen ist. Bisherige Video-Benchmarks basieren jedoch auf physikalischem Common Sense und bieten nur begrenzte Einblicke in die wissenschaftliche Denkfähigkeit von Videomodellen. Wir stellen VideoScience-Bench vor, einen Benchmark, der entwickelt wurde, um das naturwissenschaftliche Verständnis von Videomodellen auf Undergraduate-Niveau zu bewerten. Jede Eingabeaufforderung kodiert ein zusammengesetztes wissenschaftliches Szenario, das Verständnis und logisches Schlussfolgern über mehrere wissenschaftliche Konzepte hinweg erfordert, um das korrekte Phänomen zu generieren. Der Benchmark umfasst 200 sorgfältig zusammengestellte Prompts, die 14 Themen und 103 Konzepte aus Physik und Chemie abdecken. Wir führen expertengestützte Evaluationen an sieben state-of-the-art Videomodellen in T2V- und I2V-Settings entlang fünf Dimensionen durch: Prompt-Konsistenz, Phänomen-Kongruenz, korrekte Dynamik, Unveränderbarkeit und raumzeitliche Kontinuität. Unter Verwendung eines VLM-as-a-Judge zur Bewertung der Videogenerierungen beobachten wir eine starke Korrelation mit menschlichen Bewertungen. Nach unserem Wissen ist VideoScience-Bench der erste Benchmark, der Videomodelle nicht nur als Generatoren, sondern auch als Denksysteme evaluiert und von ihren Generierungen verlangt, ein wissenschaftliches Verständnis zu demonstrieren, das mit den erwarteten physikalischen und chemischen Phänomenen übereinstimmt. Unsere Daten und Evaluierungscodes sind verfügbar unter: https://github.com/hao-ai-lab/VideoScience.
Heutzutage können Menschen mit verschiedenen Consumer-Kameras problemlos unvergessliche Momente festhalten – von Konzerten über Sportveranstaltungen, Vorträge und Familientreffen bis hin zu Geburtstagsfeiern. Die Synchronisierung dieser kameraübergreifenden Aufnahmen bleibt jedoch eine Herausforderung. Bestehende Methoden setzen kontrollierte Aufnahmebedingungen, spezifische Ziele, manuelle Korrekturen oder teure Hardware voraus. Wir stellen VisualSync vor, ein Optimierungsframework auf Basis von Multi-View-Dynamik, das nicht positionierte und nicht synchronisierte Videos mit Millisekundengenauigkeit ausrichtet. Unser zentraler Ansatz ist, dass jeder bewegte 3D-Punkt, sobald er in zwei Kameras gemeinsam sichtbar ist und korrekt synchronisiert wurde, epipolaren Constraints folgt. Um dies zu nutzen, setzt VisualSync auf verfügbare 3D-Rekonstruktionsverfahren, Feature-Matching und dichtes Tracking, um Tracklets, relative Posen und kameraübergreifende Korrespondenzen zu extrahieren. Anschließend wird der epipolare Fehler gemeinsam minimiert, um den Zeitversatz jeder Kamera zu schätzen. Experimente mit vier vielfältigen, anspruchsvollen Datensätzen zeigen, dass VisualSync Baseline-Methoden übertrifft und einen medianen Synchronisationsfehler von unter 50 ms erreicht.
Multimodale Large Language Models (MLLMs) zeigen vielversprechende Ergebnisse als Entscheidungsmodule für verkörperte Agenten, die in komplexen, physischen Umgebungen agieren. Bestehende Benchmarks priorisieren jedoch häufig hochrangige Planung oder räumliches Schließen, wodurch die fein granulare Handlungsintelligenz, die für verkörperte physische Interaktion erforderlich ist, untererforscht bleibt. Um diese Lücke zu schließen, stellen wir CFG-Bench vor, einen neuen Benchmark, der entwickelt wurde, um diese entscheidende Fähigkeit systematisch zu evaluieren. CFG-Bench besteht aus 1.368 kuratierten Videos, die mit 19.562 Frage-Antwort-Paaren aus drei Modalitäten verknüpft sind und vier kognitive Fähigkeiten adressieren: 1) Physische Interaktion, 2) Temporal-kausale Beziehungen, 3) Intentionales Verständnis und 4) Evaluative Urteilsbildung. Zusammen bieten diese Dimensionen einen systematischen Rahmen, um die Fähigkeit eines Modells zu bewerten, visuelle Beobachtungen in handlungsrelevantes Wissen zu übersetzen, über eine bloße oberflächliche Erkennung hinausgehend. Unsere umfassende Evaluation auf CFG-Bench zeigt, dass führende MLLMs Schwierigkeiten haben, detaillierte Anweisungen für physische Interaktionen zu generieren, und erhebliche Einschränkungen im höherrangigen Schließen bezüglich Intention und Evaluation aufweisen. Darüber hinaus demonstriert überwachtes Fine-Tuning (SFT) auf unseren Daten, dass es einem MLLM beigebracht werden kann, fein granulare Aktionen zu artikulieren, was direkt zu signifikanten Leistungssteigerungen auf etablierten Benchmarks für verkörperte Intelligenz führt. Unsere Analyse unterstreicht diese Limitationen und bietet Erkenntnisse für die Entwicklung fähigerer und fundierterer verkörperter Agenten.
Autoregressive (AR-)Sprachmodelle und Diffusions-Sprachmodelle (DLMs) bilden die beiden wichtigsten Paradigmen für große Sprachmodelle. Beide Paradigmen leiden jedoch unter unzureichenden Fähigkeiten zum logischen Schlussfolgern. Menschliches Denken basiert inhärent auf kausalem Wissen und Gedanken, die sich in der natürlichen Sprache widerspiegeln. Im AR-Paradigma wird Sprache jedoch als Vorhersage des nächsten Tokens modelliert (eine streng links-nach-rechts, Token-für-Token Reihenfolge), während die natürliche Sprache selbst flexiblere kausale Strukturen aufweist. Im DLM-Paradigma ist der Attention-Mechanismus vollständig verbunden, was die kausale Ordnung vollständig ignoriert. Um diese Lücke zu schließen, schlagen wir ein **C**ausal **C**oncept-Guided **D**iffusion **L**anguage **M**odel (C²DLM) vor. Ausgehend von der vollständig verbundenen Attention des DLM, erhält C²DLM zunächst einen begriffsbasierten Kausalgraphen vom Lehrer-Modell und leitet dann die Attention explizit an, kausale Beziehungen zwischen Konzepten zu erlernen. Durch den Fokus auf kausale Zusammenhänge und die Vermeidung von Störungen durch schwierige Teilziele, die kausale Inversion beinhalten, verbessert sich C²DLM im COT-OrderPerturb-Task um 12 % bei etwa 3,2-facher Beschleunigung des Trainings und erzielt einen durchschnittlichen Zuwachs von 1,31 % über sechs nachgelagerte Reasoning-Tasks hinweg. Weitere Details im Repository ~https://github.com/Kairong-Han/C-2-DLM{hier}.
Die Bearbeitung von Porträtvideos ist eine anspruchsvolle Aufgabe, die eine flexible, aber präzise Kontrolle über ein breites Spektrum von Modifikationen erfordert, wie beispielsweise Änderungen des Erscheinungsbilds, Bearbeitungen des Gesichtsausdrucks oder das Hinzufügen von Objekten. Die Hauptschwierigkeit besteht darin, das ursprüngliche zeitliche Verhalten der Person zu erhalten, was erfordert, dass jeder bearbeitete Einzelbilder exakt mit dem entsprechenden Quellbild synchronisiert bleibt. Wir stellen Sync-LoRA vor, eine Methode zur Bearbeitung von Porträtvideos, die hochwertige visuelle Modifikationen bei gleichzeitiger Wahrung einer bildgenauen Synchronisation und Identitätskonsistenz erreicht. Unser Ansatz nutzt ein Bild-zu-Video-Diffusionsmodell, bei dem die Bearbeitung durch Modifikation des ersten Einzelbilds definiert und dann auf die gesamte Sequenz übertragen wird. Um eine präzise Synchronisation zu ermöglichen, trainieren wir ein In-Context-LoRA mit gepaarten Videos, die identische Bewegungsverläufe darstellen, sich aber im Erscheinungsbild unterscheiden. Diese Paare werden automatisch generiert und durch einen synchronisationsbasierten Filterungsprozess kuratiert, der nur die zeitlich am besten ausgerichteten Beispiele für das Training auswählt. Dieser Trainingsaufbau bringt dem Modell bei, Bewegungshinweise aus dem Quellvideo mit den visuellen Änderungen aus dem bearbeiteten Startbild zu kombinieren. Sync-LoRA, trainiert auf einem kompakten, hochgradig kuratierten Satz synchronisierter Porträtaufnahmen, verallgemeinert auf unbekannte Identitäten und verschiedene Bearbeitungen (z.B. Änderung des Aussehens, Hinzufügen von Objekten oder Wechsel des Hintergrunds) und bewältigt robust Variationen in Pose und Ausdruck. Unsere Ergebnisse demonstrieren hohe visuelle Qualität und starke zeitliche Kohärenz und erreichen eine robuste Balance zwischen Bearbeitungstreue und präziser Bewegungserhaltung.
Automatisches Theorembeweisen in der euklidischen Geometrie, insbesondere für Probleme auf dem Niveau der Internationalen Mathematik-Olympiade (IMO), bleibt eine große Herausforderung und ein wichtiger Forschungsschwerpunkt in der künstlichen Intelligenz. In diesem Artikel stellen wir eine hocheffiziente Methode für geometrische Theorembeweise vor, die vollständig auf CPUs läuft und ohne neuronale Netzwerk-Inferenz auskommt. Unsere erste Studie zeigt, dass eine einfache Zufallsstrategie zum Hinzufügen von Hilfspunkten menschliche Leistungen auf Silbermedaillen-Niveau bei der IMO erreichen kann. Darauf aufbauend schlagen wir HAGeo vor, eine heuristikbasierte Methode zum Hinzufügen von Hilfskonstruktionen bei geometrischen Deduktionen, die 28 von 30 Problemen im IMO-30-Benchmark löst und damit Leistungen auf Goldmedaillen-Niveau erreicht. Diese Methode übertrifft AlphaGeometry, einen konkurrenzfähigen, auf neuronalen Netzen basierenden Ansatz, um einen bemerkenswerten Vorsprung. Um unsere Methode und bestehende Ansätze umfassender zu bewerten, erstellen wir weiterhin HAGeo-409, einen Benchmark, der aus 409 Geometrieproblemen mit von Menschen bewerteten Schwierigkeitsgraden besteht. Im Vergleich zum weit verbreiteten IMO-30 stellt unser Benchmark größere Herausforderungen dar und ermöglicht eine präzisere Bewertung, wodurch er eine höhere Messlatte für das geometrische Theorembeweisen setzt.
Agentische Vision-Sprach-Modelle werden zunehmend darauf trainiert, „mit Bildern zu denken“, indem sie Bildoperationen aufrufen. Wir zeigen jedoch, dass eine hohe Endantwort-Genauigkeit oft unfaithful visuelles Reasoning verbirgt: Modelle können Werkzeuge auf irrelevante Bildbereiche anwenden oder deren Ausgaben vollständig ignorieren und dennoch die richtige Antwort erraten. In dieser Arbeit schlagen wir zunächst ein Evaluierungsprotokoll für Faithfulness vor, das misst, ob die intermediären visuellen Werkzeugausgaben (z.B. Bildausschnitte) tatsächlich die angefragten Beweise enthalten. Dies zeigt, dass neuere visuelle Agenten zwar eine hohe Endantwort-Genauigkeit erreichen, aber niedrige Raten an faithful Werkzeugnutzung in Visual-Search-Benchmarks aufweisen. Anschließend stellen wir CodeV vor, einen codebasierten visuellen Agenten, der mit Tool-Aware Policy Optimization (TAPO) trainiert wird. TAPO ist ein RL-Framework auf Prozessebene, das GRPO um dichte Belohnungen erweitert, die direkt auf den Eingaben und Ausgaben der visuellen Werkzeuge definiert sind – und nicht auf Chain-of-Thought-Tokens –, was die Überprüfung der Supervision erleichtert und sie weniger anfällig für Reward Hacking macht. CodeV repräsentiert visuelle Werkzeuge als ausführbaren Python-Code, und TAPO weist schrittweise Belohnungen ausschließlich auf Basis der Frage und der Werkzeugausgabe zu, wodurch sowohl notwendiger als auch evidenzkonsistenter Werkzeugeinsatz gefördert wird. In einer zweistufigen SFT+RL-Pipeline erreicht CodeV eine vergleichbare oder überlegene Genauigkeit und steigert gleichzeitig die Raten faithful Werkzeugnutzung in relevanten Visual-Search-Benchmarks erheblich. Über Visual Search hinaus erzielt CodeV starke Leistungen in einer Reihe von multimodalen Reasoning- und Mathematik-Benchmarks, was darauf hindeutet, dass die explizite Supervision des intermediären Werkzeugverhaltens entscheidend für den Aufbau vertrauenswürdiger, agentischer visueller Reasoning-Systeme ist.
Große multimodale Modelle haben bemerkenswerte Fortschritte sowohl im Verständnis als auch in der Generierung erzielt. Jüngste Bestrebungen verfolgen vereinheitlichte multimodale Modelle, die heterogene Komponenten integrieren, um beide Fähigkeiten innerhalb eines einzigen Frameworks zu unterstützen. Eine solche Vereinheitlichung führt jedoch zu Inferenzineffizienzen; beispielsweise erfordern bestimmte Aufgaben oder Stichproben möglicherweise nicht das vollständige Wissen oder die gesamte Kapazität des vereinheitlichten Modells. Dennoch ist ein systematisches Verständnis dafür, wie sich diese Ineffizienzen in verschiedenen Komponenten manifestieren, bislang begrenzt. In dieser Arbeit führen wir zunächst eine systematische Analyse der Komponenten vereinheitlichter multimodaler Modelle durch, wobei wir trainingfreies Pruning als Untersuchungsmethode verwenden und sowohl Tiefen- als auch Breitenreduzierung betrachten. Unsere Studie zeigt, dass die Verständniskomponente sowohl bei Verständnis- als auch bei Generierungsaufgaben eine bemerkenswerte Komprimierbarkeit aufweist, die bei Letzteren ausgeprägter ist. Im Gegensatz dazu sind die Generierungskomponenten äußerst kompressionsempfindlich, wobei die Leistung selbst bei moderaten Kompressionsraten stark abfällt. Um diese Einschränkung zu adressieren, schlagen wir die Mixture-of-Experts (MoE)-Adaptierung vor, inspiriert von den beobachteten dynamischen Aktivierungsmustern verschiedener Stichproben. Dieser Ansatz unterteilt das Generierungsmodul in mehrere Experten und ermöglicht eine sparse Aktivierung, um die Generierungsqualität wiederherzustellen. Wir validieren die Wirksamkeit der sparse Aktivierung durch Expert-frozen Tuning und zeigen weiter, dass eine vollständig trainierbare Adaptierung zusätzliche Verbesserungen bringt. Infolgedessen erreicht das adaptierte BAGEL-Modell eine mit dem Vollmodell vergleichbare Leistung, während nur etwa die Hälfte seiner Parameter aktiviert wird. Der Code ist unter https://github.com/Shwai-He/SparseUnifiedModel veröffentlicht.
Kürzlich entwickelte Reinforcement-Learning-Frameworks für visuelle Wahrnehmungsstrategien integrierieren zunehmend Zwischenreasoning-Ketten, die in natürlicher Sprache formuliert sind. Empirische Beobachtungen zeigen, dass solche rein sprachlichen Zwischenschritte die Leistung bei Wahrnehmungsaufgaben oft verschlechtern. Wir argumentieren, dass das Kernproblem nicht im Reasoning an sich liegt, sondern in seiner Form: Während diese Ketten semantisches Reasoning in einem unstrukturierten linguistischen Raum durchführen, erfordert visuelle Wahrnehmung Reasoning in einem räumlichen und objektzentrierten Raum. Als Lösung stellen wir Artemis vor, ein Framework zum Erlernen von Wahrnehmungsstrategien, das strukturiertes, vorschlagsbasiertes Reasoning durchführt, wobei jeder Zwischenschritt als (Label, Bounding-Box)-Paar dargestellt wird, das einen überprüfbaren visuellen Zustand erfasst. Dieser Entwurf ermöglicht die explizite Nachverfolgung von Zwischenzuständen, direkte Überwachung der Vorschlagsqualität und vermeidet die Mehrdeutigkeit sprachbasierten Reasonings. Artemis basiert auf Qwen2.5-VL-3B, erzielt hohe Leistung in Grounding- und Detektionsaufgaben und zeigt substantiale Generalisierung für Zähl- und geometrische Wahrnehmungsaufgaben. Die konsistenten Verbesserungen in diesen verschiedenen Settings bestätigen, dass die Ausrichtung des Reasonings an räumlichen Repräsentationen das Lernen von Wahrnehmungsstrategien verbessert. Aufgrund seines gestärkten visuellen Reasonings erzielt Artemis auch wettbewerbsfähige Leistung in allgemeinen MLLM-Benchmarks, was verdeutlicht, dass räumlich verankertes Reasoning einen prinzipiellen Weg zu skalierbaren und allgemeinen Wahrnehmungsstrategien bietet.
Masked Diffusion Language Models (MDLMs) haben sich kürzlich als vielversprechende Alternative zu autoregressiven Sprachmodellen (ARLMs) etabliert, indem sie ein Denoising-Ziel nutzen, das prinzipiell eine gleichmäßigere Kontextnutzung ermöglichen sollte. In dieser Arbeit untersuchen wir die Kontextverständnisfähigkeiten von MDLMs und decken zwei zentrale Einschränkungen auf. Erstens zeigen MDLMs trotz ihres globaleren Trainingsziels und bidirektionalen Aufmerksamkeitsmechanismus, ähnlich wie ARLMs, eine starke Lokalitätsverzerrung: Die Leistung ist stark von der Position relevanter Informationen innerhalb der Eingabe abhängig und begünstigt lokalen gegenüber entferntem Kontext. Zweitens zeigen wir, dass das Anhängen einer großen Anzahl von Mask-Tokens – die für die Generierung erforderlich sind – das Kontextverständnis erheblich beeinträchtigen kann. Durch systematische Ablationen finden wir heraus, dass diese Masken als Ablenkung wirken und die Fähigkeit des Modells reduzieren, relevante Informationen zu verarbeiten. Um dies zu adressieren, führen wir eine maskenunabhängige Verlustfunktion ein, die Vorhersagen dazu anhält, invariant gegenüber der Anzahl angehängter Masken zu bleiben. Fine-Tuning mit diesem Ziel mildert den ablenkenden Effekt der Masken erheblich und verbessert die Robustheit von MDLMs. Insgesamt zeigen unsere Ergebnisse kritische Grenzen des aktuellen MDLM-Trainingsparadigmas auf und liefern umsetzbare Erkenntnisse für den Aufbau diffusionsbasierter Sprachmodelle mit stärkerem Kontextverständnis.
Die Globalisierung der Bildung und das rasche Wachstum des Online-Lernens haben die Lokalisierung von Bildungsinhalten zu einer zentralen Herausforderung gemacht. Vortragsmaterialien sind von Natur aus multimodal, da sie gesprochene Audioinhalte mit visuellen Folien kombinieren, was Systeme erfordert, die mehrere Eingabemodalitäten verarbeiten können. Um eine zugängliche und vollständige Lernerfahrung zu bieten, müssen Übersetzungen alle Modalitäten erhalten: Text zum Lesen, Folien zum visuellen Verständnis und Sprache für das auditive Lernen. Wir stellen BOOM vor, einen multimodalen, mehrsprachigen Vorlesungsbegleiter, der Vorlesungsaudio und -folien gemeinsam übersetzt, um synchronisierte Ausgaben in drei Modalitäten zu erzeugen: übersetzter Text, lokalisierte Folien mit erhaltenen visuellen Elementen und synthetisierte Sprache. Dieser End-to-End-Ansatz ermöglicht es Studierenden, auf Vorlesungen in ihrer Muttersprache zuzugreifen, und strebt dabei an, den ursprünglichen Inhalt vollständig zu bewahren. Unsere Experimente zeigen, dass folienbewusste Transkripte auch kaskadierende Vorteile für nachgelagerte Aufgaben wie Zusammenfassung und Fragebeantwortung bringen. Wir veröffentlichen unseren Slide-Translation-Code unter https://github.com/saikoneru/image-translator und integrieren ihn in Lecture Translator unter https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Alle veröffentlichten Codes und Modelle sind unter der MIT-Lizenz lizenziert.}
Der Fußkontakt spielt eine entscheidende Rolle bei der Interaktion des Menschen mit der Welt, weshalb die Erforschung des Fußkontakts unser Verständnis menschlicher Bewegung und physischer Interaktion erweitern kann. Trotz seiner Bedeutung approximieren bestehende Methoden den Fußkontakt oft durch eine Nullgeschwindigkeitsbedingung und konzentrieren sich auf Gelenkkontakte, wodurch die detaillierte Interaktion zwischen Fuß und Umwelt nicht erfasst wird. Eine dichte Schätzung des Fußkontakts ist entscheidend für die genaue Modellierung dieser Interaktion, dennoch wurde die Vorhersage dichten Fußkontakts aus einem einzelnen RGB-Bild bisher kaum untersucht. Für das Erlernen der dichten Fußkontaktschätzung bestehen zwei Hauptherausforderungen: Erstens weisen Schuhe sehr unterschiedliche Erscheinungsbilder auf, was die Generalisierbarkeit von Modellen über verschiedene Stile hinweg erschwert. Zweitens hat der Untergrund oft ein eintöniges Erscheinungsbild, was die Extraktion informativer Merkmale schwierig macht. Um diese Probleme zu bewältigen, stellen wir ein Framework zur dichten Fußkontaktschätzung (FECO) vor, das dichten Fußkontakt durch schuhstilinvariantes und bodenbewusstes Lernen erlernt. Um die Herausforderung der Schuhstilvielfalt zu bewältigen, integriert unser Ansatz ein adversarielles Training der Schuhstile, das schuhstilinvariante Merkmale für die Kontaktschätzung erzwingt. Um Bodeninformationen effektiv zu nutzen, führen wir einen Bodeneigenschaften-Extraktor ein, der Bodeneigenschaften auf Basis des räumlichen Kontexts erfasst. Infolgedessen erreicht unsere Methode eine robuste Fußkontaktschätzung unabhängig vom Schuherscheinungsbild und nutzt Bodeninformationen effektiv. Der Code wird veröffentlicht.
State-of-the-Art-Systeme zur Erzeugung von Videoszenengraphen (Video Scene Graph Generation, VSGG) bieten ein strukturiertes visuelles Verständnis, arbeiten jedoch als geschlossene, vorwärtsgerichtete Pipelines ohne die Möglichkeit, menschliche Anweisungen zu integrieren. Im Gegensatz dazu ermöglichen promptbare Segmentierungsmodelle wie SAM2 eine präzise Benutzerinteraktion, mangelt es ihnen jedoch an semantischer oder relationaler Reasoning-Fähigkeit. Wir stellen Click2Graph vor, das erste interaktive Framework für panoptische Videoszenengraphen (Panoptic Video Scene Graph Generation, PVSG), das visuelles Prompting mit räumlichem, zeitlichem und semantischem Verständnis vereint. Ausgehend von einer einzigen Benutzeraufforderung, wie einem Klick oder einem Begrenzungsrahmen, segmentiert und verfolgt Click2Graph das Subjekt über die Zeit, entdeckt autonom interagierende Objekte und sagt <Subjekt, Objekt, Prädikat>-Triplets vorher, um einen zeitlich konsistenten Szenengraphen zu bilden. Unser Framework führt zwei Schlüsselkomponenten ein: ein Dynamic Interaction Discovery Module, das subjektkonditionierte Objekt-Prompts erzeugt, und einen Semantic Classification Head, der gemeinsames Reasoning für Entitäten und Prädikate durchführt. Experimente auf dem OpenPVSG-Benchmark zeigen, dass Click2Graph eine solide Grundlage für benutzergeführtes PVSG schafft und demonstrieren, wie menschliches Prompting mit panoptischer Verankerung und relationaler Inferenz kombiniert werden kann, um eine steuerbare und interpretierbare Videoszenenverständnis zu ermöglichen.