papers.description
Wir stellen DeepSeek-V3.2 vor, ein Modell, das hohe Recheneffizienz mit ĂŒberragender Reasoning- und Agentenleistung vereint. Die wichtigsten technischen DurchbrĂŒche von DeepSeek-V3.2 sind folgende: (1) DeepSeek Sparse Attention (DSA): Wir fĂŒhren DSA ein, einen effizienten Aufmerksamkeitsmechanismus, der die RechenkomplexitĂ€t erheblich reduziert und gleichzeitig die Modellleistung in Langkontext-Szenarien bewahrt. (2) Skalierbares Reinforcement-Learning-Framework: Durch die Implementierung eines robusten Reinforcement-Learning-Protokolls und die Skalierung des Post-Training-Computings erreicht DeepSeek-V3.2 vergleichbare Leistungen wie GPT-5. Besonders erwĂ€hnenswert ist, dass unsere Hochrechenvarianten DeepSeek-V3.2-Speciale GPT-5 ĂŒbertrifft und Reasoning-FĂ€higkeiten auf Augenhöhe mit Gemini-3.0-Pro zeigt, wobei sie Goldmedaillenleistungen sowohl bei der Internationalen Mathematik-Olympiade (IMO) 2025 als auch bei der Internationalen Informatik-Olympiade (IOI) erzielt. (3) Skalierbare Pipeline zur Synthese agentenbasierter Aufgaben: Um Reasoning in Werkzeugeinsatz-Szenarien zu integrieren, entwickelten wir eine neuartige Synthese-Pipeline, die systematisch Trainingsdaten in groĂem MaĂstab generiert. Diese Methodik ermöglicht skalierbares agentenbasiertes Post-Training und fĂŒhrt zu erheblichen Verbesserungen der GeneralisierungsfĂ€higkeit und der Robustheit der Befolgung von Anweisungen in komplexen, interaktiven Umgebungen.
GroĂe Sprachmodelle sind leistungsstarke Allrounder, doch die Lösung tiefgreifender und komplexer Probleme wie die der "Humanity's Last Exam" (HLE) bleibt sowohl konzeptionell anspruchsvoll als auch rechenintensiv. Wir zeigen, dass kleine Orchestratoren, die andere Modelle und eine Vielzahl von Werkzeugen verwalten, sowohl die Obergrenze der Intelligenz erweitern als auch die Effizienz bei der Lösung schwieriger agentenbasierter Aufgaben verbessern können. Wir stellen ToolOrchestra vor, eine Methode zum Training kleiner Orchestratoren, die intelligente Werkzeuge koordinieren. ToolOrchestra nutzt explizit bestĂ€rkendes Lernen mit belohnungsbasierten, effizienz- und nutzerprĂ€ferenzsensiblen Belohnungsfunktionen. Mit ToolOrchestra erzeugen wir Orchestrator, ein 8B-Modell, das eine höhere Genauigkeit bei geringeren Kosten als bisherige Werkzeugnutzungs-Agenten erreicht und gleichzeitig mit den NutzerprĂ€ferenzen bezĂŒglich der Werkzeugauswahl fĂŒr eine gegebene Anfrage ĂŒbereinstimmt. Bei HLE erzielt Orchestrator eine Punktzahl von 37,1 % und ĂŒbertrifft damit GPT-5 (35,1 %) bei einer 2,5-fachen Effizienzsteigerung. Auf tau2-Bench und FRAMES ĂŒbertrifft Orchestrator GPT-5 mit deutlichem Abstand, wĂ€hrend nur etwa 30 % der Kosten anfallen. Umfangreiche Analysen zeigen, dass Orchestrator unter verschiedenen Metriken die beste Balance zwischen Leistung und Kosten erreicht und robust auf unbekannte Werkzeuge generalisiert. Diese Ergebnisse demonstrieren, dass die Zusammensetzung diverser Werkzeuge mit einem leichtgewichtigen Orchestrierungsmodell sowohl effizienter als auch wirksamer ist als bestehende Methoden und den Weg fĂŒr praktische und skalierbare werkzeuggestĂŒtzte Reasoning-Systeme ebnet.
Aktuelle Videogenerierungstechniken sind fĂŒr Einzelaufnahmen hervorragend geeignet, haben jedoch Schwierigkeiten bei der ErzĂ€hlung mehrerer Einstellungen, die flexible Bildgestaltung, kohĂ€rente Narration und Steuerbarkeit ĂŒber Textprompts hinaus erfordern. Um diese Herausforderungen zu bewĂ€ltigen, stellen wir MultiShotMaster vor, ein Framework fĂŒr hochgradig steuerbare Mehrschuss-Videogenerierung. Wir erweitern ein vortrainiertes Einzelschuss-Modell durch die Integration zweier neuartiger RoPE-Varianten. Erstens fĂŒhren wir Multi-Shot Narrative RoPE ein, das einen expliziten Phasenversatz bei SzenenĂŒbergĂ€ngen anwendet, um flexible Bildgestaltung bei gleichzeitiger Wahrung der zeitlichen ErzĂ€hlreihenfolge zu ermöglichen. Zweitens entwerfen wir Spatiotemporal Position-Aware RoPE, um Referenztoken und Verankerungssignale einzubinden, was eine raumzeitlich verankerte Referenzinjektion ermöglicht. ZusĂ€tzlich etablieren wir zur Ăberwindung der Datenknappheit eine automatisierte Datenannotations-Pipeline zur Extraktion von Mehrschuss-Videos, Beschreibungen, ĂŒbergreifenden Verankerungssignalen und Referenzbildern. Unser Framework nutzt die intrinsischen Architektureigenschaften zur UnterstĂŒtzung der Mehrschuss-Videogenerierung mit textgesteuerter Konsistenz zwischen Einstellungen, benutzerdefinierten Subjekten mit Bewegungssteuerung und hintergrundgesteuerten benutzerdefinierten Szenen. Sowohl die Anzahl der Einstellungen als auch deren Dauer sind flexibel konfigurierbar. Umfangreiche Experimente belegen die ĂŒberlegene Leistung und herausragende Steuerbarkeit unseres Frameworks.
Wir stellen MG-Nav (Memory-Guided Navigation) vor, ein dualskaliges Framework fĂŒr null-shot visuelle Navigation, das globale, speichergefĂŒhrte Planung mit lokaler, geometrie-verstĂ€rkter Steuerung vereint. Sein KernstĂŒck ist der Sparse Spatial Memory Graph (SMG), ein kompaktes, regionszentriertes GedĂ€chtnis, in dem jeder Knoten Multi-View-Keyframe- und Objektsemantiken aggregiert und sowohl Erscheinungsbild als auch rĂ€umliche Struktur erfasst, wĂ€hrend die Blickpunktvielfalt erhalten bleibt. Auf globaler Ebene wird der Agent im SMG lokalisiert und ein zielbedingter Knotenpfad wird ĂŒber eine hybride Bild-zu-Instanz-Retrieval geplant, wodurch eine Sequenz erreichbarer Wegpunkte fĂŒr die Langzeitanleitung erzeugt wird. Auf lokaler Ebene fĂŒhrt eine Navigations-Basispolitik diese Wegpunkte im Punktziel-Modus mit hindernisbewusster Steuerung aus und wechselt in den Bildziel-Modus, wenn von dem finalen Knoten zum visuellen Ziel navigiert wird. Um die Blickpunktausrichtung und Zielerkennung weiter zu verbessern, fĂŒhren wir den VGGT-Adapter ein, ein leichtgewichtiges geometrisches Modul, das auf dem vortrainierten VGGT-Modell aufbaut und Beobachtungs- und Zielmerkmale in einem gemeinsamen 3D-bewussten Raum ausrichtet. MG-Nav betreibt globale Planung und lokale Steuerung mit unterschiedlichen Frequenzen und nutzt periodische Re-Lokalisierung zur Fehlerkorrektur. Experimente auf den HM3D Instance-Image-Goal- und MP3D Image-Goal-Benchmarks zeigen, dass MG-Nav state-of-the-art Null-Shot-Leistung erreicht und unter dynamischen Umordnungen und ungesehenen Szenenbedingungen robust bleibt.
Dieses Papier stellt DualCamCtrl vor, ein neuartiges End-to-End-Diffusionsmodell fĂŒr kameragesteuerte Videogenerierung. Aktuelle Arbeiten haben dieses Feld vorangebracht, indem sie Kameraposen als strahlenbasierte Bedingungen darstellen, doch ihnen fehlt oft ausreichendes SzenenverstĂ€ndnis und geometrisches Bewusstsein. DualCamCtrl adressiert gezielt diese Limitation durch EinfĂŒhrung eines Dual-Branch-Frameworks, das gegenseitig kamera-konsistente RGB- und Tiefensequenzen erzeugt. Um diese beiden ModalitĂ€ten zu harmonisieren, schlagen wir weiterhin den Semantic Guided Mutual Alignment (SIGMA)-Mechanismus vor, der RGB-Tiefen-Fusion auf semantisch gefĂŒhrte und gegenseitig verstĂ€rkende Weise durchfĂŒhrt. Diese Designs ermöglichen es DualCamCtrl gemeinsam, Erscheinungsbild- und Geometriemodellierung besser zu entwirren und Videos zu generieren, die spezifizierten Kameratrajektorien treuer folgen. ZusĂ€tzlich analysieren und enthĂŒllen wir den distinkten Einfluss von Tiefe und Kameraposen ĂŒber Denoising-Stadien hinweg und demonstrieren weiter, dass frĂŒhe und spĂ€te Stadien komplementĂ€re Rollen bei der Formation globaler Struktur und Verfeinerung lokaler Details spielen. Umfangreiche Experimente zeigen, dass DualCamCtrl konsistentere kameragesteuerte Videogenerierung erreicht, mit ĂŒber 40\% Reduktion von Kamerabewegungsfehlern im Vergleich zu vorherigen Methoden. Unsere Projektseite: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
Die Selbstevolution von KI wird seit langem als Weg zur Superintelligenz angesehen, bei dem Modelle autonom Wissen aus ihren eigenen Lernerfahrungen erwerben, verfeinern und verinnerlichen. In der Praxis erreichen ungelenkte, sich selbst entwickelnde Systeme jedoch oft schnell ein Plateau oder verschlechtern sich sogar im Trainingsverlauf. Diese FehlschlĂ€ge resultieren aus Problemen wie Konzeptdrift, DiversitĂ€tskollaps und Fehlentwicklung, da Modelle ihre eigenen Verzerrungen verstĂ€rken und zu Verhaltensweisen mit niedriger Entropie konvergieren. Um Modelle zu ermöglichen, sich auf stabile und kontrollierbare Weise selbst weiterzuentwickeln und gleichzeitig die AbhĂ€ngigkeit von menschlicher Aufsicht zu minimieren, stellen wir R-Few vor: einen gelenkten Self-Play-Rahmen mit Herausforderer- und Löser-Komponente, der leichtgewichtige menschliche Steuerung durch In-Context-Grounding und gemischtes Training integriert. In jeder Iteration sampelt der Herausforderer einen kleinen Satz menschlich gelabelter Beispiele, um die synthetische Fragengenerierung zu steuern, wĂ€hrend der Löser gemeinsam auf menschlichen und synthetischen Beispielen nach einem online-basierten, schwierigkeitsgesteuerten Curriculum trainiert. In mathematischen und allgemeinen Reasoning-Benchmarks erzielt R-Few konsistente und iterative Verbesserungen. So verbessert sich Qwen3-8B-Base beispielsweise in mathematischen Aufgaben um +3,0 Punkte gegenĂŒber R-Zero und erreicht eine Leistung, die mit General-Reasoner vergleichbar ist, obwohl letzterer mit der 20-fachen Menge an menschlichen Daten trainiert wurde. Ablationsstudien bestĂ€tigen die komplementĂ€ren BeitrĂ€ge des grounded Challenger-Trainings und des curriculum-basierten Solver-Trainings. Eine weiterfĂŒhrende Analyse zeigt, dass R-Few Drift abmildert und stabilere sowie kontrollierbare Ko-Evolutionsdynamiken hervorbringt.
Trotz jĂŒngster Fortschritte in multimodalen agentenbasierten Systemen behandeln bestehende AnsĂ€tze Bildmanipulation und Websuche oft als getrennte FĂ€higkeiten, stĂŒtzen sich stark auf kostspieliges Reinforcement Learning und verfĂŒgen nicht ĂŒber eine Planung, die auf echten WerkzeugausfĂŒhrungsdaten basiert. Um diese EinschrĂ€nkungen zu adressieren, stellen wir Skywork-R1V4 vor, ein multimodales agentenbasiertes Modell mit 30B (A3B) Parametern, das multimodale Planung, aktive Bildmanipulation ("Denken mit Bildern"), tiefgreifende multimodale Suche und, entscheidend, verschachteltes Reasoning vereint, das dynamisch zwischen visuellen Operationen und externer Wissensabfrage wechselt. AusschlieĂlich durch supervidiertes Fine-Tuning mit weniger als 30.000 hochwertigen, planungsausfĂŒhrungskonsistenten Trajektorien trainiert und durch schrittweise Konsistenzfilterung validiert, erzielt Skywork-R1V4 state-of-the-art Ergebnisse in Wahrnehmungs- und multimodalen Suchbenchmarks: Es erreicht 66,1 auf MMSearch und 67,2 auf FVQA und ĂŒbertrifft Gemini 2.5 Flash in allen 11 Metriken. Skywork-R1V4 zeigt emergentes langfristiges Reasoning zur Inferenzzeit und orchestriert erfolgreich mehr als 10 Werkzeugaufrufe, um komplexe, mehrstufige Aufgaben zu lösen. Unsere Ergebnisse demonstrieren, dass anspruchsvolle agentenbasierte multimodale Intelligenz durch sorgfĂ€ltig kuratiertes supervidiertes Lernen allein erreicht werden kann, ohne jegliche AbhĂ€ngigkeit von Reinforcement Learning.
Die Entwicklung vollstĂ€ndig autonomer Fahrzeuge erfordert das Erlernen rationaler Entscheidungen in einem breiten Spektrum von Szenarien, einschlieĂlich sicherheitskritischer und Out-of-Distribution-Situationen. Solche FĂ€lle sind jedoch in von menschlichen Experten gesammelten realen DatensĂ€tzen unterreprĂ€sentiert. Um den Mangel an Datenvielfalt auszugleichen, stellen wir ein neuartiges und skalierbares Simulationsframework vor, das in der Lage ist, auf Basis bestehender Fahrprotokolle massenhaft ungesehene ZustĂ€nde zu synthetisieren. Unsere Pipeline nutzt fortschrittliches Neural Rendering mit einer reaktiven Umgebung, um hochauflösende Multi-View-Beobachtungen zu generieren, die durch die perturbierte Ego-Trajektorie gesteuert werden. DarĂŒber hinaus entwickeln wir einen Mechanismus zur Erzeugung pseudo-expertenhafter Trajektorien fĂŒr diese neu simulierten ZustĂ€nde, um Aktionssupervision bereitzustellen. Auf den synthetisierten Daten stellen wir fest, dass eine einfache Co-Training-Strategie mit sowohl realen als auch simulierten Stichproben zu signifikanten Verbesserungen in Robustheit und Generalisierung verschiedener Planungsmethoden auf anspruchsvollen realen Benchmarks fĂŒhren kann â bis zu +6,8 EPDMS auf navhard und +2,9 auf navtest. Noch wichtiger ist, dass solche Verbesserungen der Policy reibungslos skalieren, indem ausschlieĂlich Simulationsdaten erhöht werden, selbst ohne zusĂ€tzlichen Zustrom realer Daten. Wir zeigen zudem mehrere entscheidende Erkenntnisse eines solchen Sim-Real-Lernsystems auf, das wir SimScale nennen, darunter das Design von Pseudo-Experten und die Skalierungseigenschaften fĂŒr verschiedene Policy-Architekturen. Unsere Simulationsdaten und Code werden veröffentlicht.
LLMs und Agenten haben beeindruckende Fortschritte in der Code-Generierung, mathematischem Denken und wissenschaftlicher Entdeckung erzielt. Allerdings messen bestehende Benchmarks hauptsĂ€chlich die Korrektheit und ĂŒbersehen dabei die Vielfalt der Methoden hinter Lösungen. Wahre Innovation hĂ€ngt nicht nur davon ab, korrekte Antworten zu produzieren, sondern auch von der OriginalitĂ€t des Ansatzes. Wir stellen InnoGym vor, den ersten Benchmark und Rahmen, der entwickelt wurde, um das Innovationspotenzial von KI-Agenten systematisch zu bewerten. InnoGym fĂŒhrt zwei komplementĂ€re Metriken ein: die Leistungssteigerung, die die Verbesserung gegenĂŒber den besten bekannten Lösungen misst, und die Neuartigkeit, die methodische Unterschiede zu frĂŒheren AnsĂ€tzen erfasst. Der Benchmark umfasst 18 sorgfĂ€ltig zusammengestellte Aufgaben aus realen Ingenieur- und Wissenschaftsbereichen, die jeweils durch Ressourcenfilterung, Evaluierungsvalidierung und Lösungs-Sammlung standardisiert wurden. ZusĂ€tzlich bieten wir iGym, eine einheitliche AusfĂŒhrungsumgebung fĂŒr reproduzierbare und langfristige Bewertungen. Umfangreiche Experimente zeigen, dass zwar einige Agenten neuartige AnsĂ€tze produzieren, deren mangelnde Robustheit jedoch die Leistungssteigerung begrenzt. Diese Ergebnisse verdeutlichen eine wesentliche LĂŒcke zwischen KreativitĂ€t und EffektivitĂ€t und unterstreichen die Notwendigkeit von Benchmarks, die beide Aspekte bewerten.
Diffusionsmodelle haben bemerkenswerte Erfolge in der Bildgenerierung erzielt, doch ihr Einsatz bleibt durch die hohen Rechenkosten und die Notwendigkeit zahlreicher Inferenzschritte eingeschrĂ€nkt. Bisherige AnsĂ€tze zur Distillation mit weniger Schritten versuchen, redundante Schritte durch das Training kompakter Studentenmodelle zu ĂŒberspringen, leiden jedoch oft unter hohen Nachtrainingskosten und einer beeintrĂ€chtigten GeneralisierungsfĂ€higkeit. In dieser Arbeit verfolgen wir einen anderen Ansatz: Wir beschleunigen intelligent, nicht gleichmĂ€Ăig, indem wir geringere Beschleunigungen auf frĂŒhe semantische Phasen und gröĂere auf spĂ€tere redundante Phasen anwenden. Wir setzen diese phasenbewusste Strategie mit zwei Experten um, die sich auf langsame bzw. schnelle Entrauschungsphasen spezialisieren. Ăberraschenderweise stellen wir fest, dass sich bereits durch die Ausstattung des Basismodells mit leichten LoRA-Adaptern sowohl eine effiziente Beschleunigung als auch eine starke Generalisierung erreichen lĂ€sst, anstatt groĂen Aufwand in das Nachtraining von Studentenmodellen zu investieren. Wir bezeichnen diese beiden Adapter als Slow-LoRA und Fast-LoRA. In umfangreichen Experimenten erreicht unsere Methode eine bis zu 5-fache Beschleunigung gegenĂŒber dem Basismodell bei vergleichbarer visueller QualitĂ€t ĂŒber verschiedene Benchmarks hinweg. Bemerkenswerterweise werden die LoRA-Experten mit nur 1 % der Stichproben auf einer einzelnen V100 innerhalb einer Stunde trainiert, dennoch generalisieren die resultierenden Modelle stark auf ungesehene Prompts.
Trotz Fortschritten in der Video-Audio-Generierung konzentriert sich das Feld ĂŒberwiegend auf Mono-Ausgaben und mangelt es an rĂ€umlicher Immersion. Bestehende binaurale AnsĂ€tze bleiben durch eine Zwei-Stufen-Pipeline eingeschrĂ€nkt, die zunĂ€chst Mono-Audio erzeugt und anschlieĂend eine RĂ€umlichkeitsdarstellung durchfĂŒhrt, was oft zu Fehlerakkumulation und raumzeitlichen Inkonsistenzen fĂŒhrt. Um diese EinschrĂ€nkung zu adressieren, fĂŒhren wir die Aufgabe der end-to-end binauralen rĂ€umlichen Audiogenerierung direkt aus stummem Video ein. Zur UnterstĂŒtzung dieser Aufgabe stellen wir den BiAudio-Datensatz vor, der etwa 97.000 Video-binaurale Audio-Paare umfasst, die verschiedene realweltliche Szenen und Kamerarotations-Trajektorien abdecken und durch eine semi-automatisierte Pipeline erstellt wurden. DarĂŒber hinaus schlagen wir ViSAudio vor, ein End-to-End-Framework, das conditional Flow Matching mit einer Dual-Branch-Audiogenerierungsarchitektur einsetzt, wobei zwei dedizierte Zweige die audio-latenten FlĂŒsse modellieren. Integriert mit einem conditional Spacetime-Modul balanciert es die Konsistenz zwischen den KanĂ€len unter Beibehaltung distinctiver rĂ€umlicher Charakteristiken und gewĂ€hrleistet so eine prĂ€zise raumzeitliche Ausrichtung zwischen Audio und dem Eingabevideo. Umfassende Experimente zeigen, dass ViSAudio bestehende state-of-the-art Methoden in objektiven Metriken und subjektiven Evaluationen ĂŒbertrifft und hochwertigen binauralen Audio mit rĂ€umlicher Immersion erzeugt, der sich effektiv an BlickwinkelĂ€nderungen, Schallquellenbewegung und diverse akustische Umgebungen anpasst. Projektwebsite: https://kszpxxzmc.github.io/ViSAudio-project.
JĂŒngste Fortschritte bei Video-GroĂsprachmodellen haben beeindruckende FĂ€higkeiten im VerstĂ€ndnis kurzer Videoclips demonstriert. Die Skalierung auf stunden- oder tagelange Videos bleibt jedoch Ă€uĂerst herausfordernd, begrenzt durch die KontextkapazitĂ€t und den Verlust kritischer visueller Details wĂ€hrend der Abstraktion. Bestehende, speicherergĂ€nzte Methoden mildern dies durch textuelle Zusammenfassungen von Videosegmenten, verlassen sich jedoch stark auf Text und nutzen keine visuellen Beweise bei der Analyse komplexer Szenen. DarĂŒber hinaus schrĂ€nkt die Abfrage fester Zeitskalen die FlexibilitĂ€t ein, Ereignisse mit variabler Dauer zu erfassen. Um dies zu adressieren, stellen wir WorldMM vor, einen neuartigen multimodalen Speicher-Agenten, der komplementĂ€re Speicher erstellt und abruft, die sowohl textuelle als auch visuelle ReprĂ€sentationen umfassen. WorldMM besteht aus drei Speichertypen: Episodischer Speicher indiziert faktenbasierte Ereignisse ĂŒber mehrere Zeitskalen, semantischer Speicher aktualisiert kontinuierlich konzeptuelles Wissen auf hoher Ebene und visueller Speicher bewahrt detaillierte Informationen ĂŒber Szenen. WĂ€hrend der Inferenz wĂ€hlt ein adaptiver Abruf-Agent iterativ die relevanteste Speicherquelle aus und nutzt mehrere zeitliche GranularitĂ€ten basierend auf der Abfrage, bis ausreichend Informationen gesammelt wurden. WorldMM ĂŒbertrifft bestehende Baseline-Methoden deutlich in fĂŒnf Benchmarks zur Fragebeantwortung in langen Videos und erzielt durchschnittlich 8,4 % Leistungssteigerung gegenĂŒber vorherigen State-of-the-Art-Methoden, was seine Wirksamkeit bei der Langzeit-Videoanalyse belegt.
Vision-Language-Action (VLA)-Modelle haben bemerkenswerte FĂ€higkeiten in der robotischen Manipulation gezeigt, doch ihre Leistung ist empfindlich gegenĂŒber der wĂ€hrend des Trainings verwendeten AktionsabschnittslĂ€nge, dem sogenannten Horizont. Unsere empirische Studie zeigt einen inhĂ€renten Zielkonflikt: LĂ€ngere Horizonte ermöglichen eine bessere globale Vorausschau, verschlechtern jedoch die feinkörnige Genauigkeit, wĂ€hrend kĂŒrzere Horizonte die lokale Steuerung verbessern, aber bei langfristigen Aufgaben versagen. Dies impliziert, dass eine feste Wahl eines einzelnen Horizonts suboptimal ist. Um diesen Zielkonflikt zu entschĂ€rfen, schlagen wir eine Mixture of Horizons (MoH)-Strategie vor. MoH unterteilt den Aktionsabschnitt in mehrere Segmente mit unterschiedlichen Horizonten, verarbeitet diese parallel mit einem gemeinsamen Action Transformer und fusioniert die Ausgaben mit einem leichten linearen Gating-Mechanismus. Dies bietet drei wesentliche Vorteile: 1) MoH nutzt gleichzeitig langfristige Vorausschau und kurzfristige PrĂ€zision innerhalb eines einzigen Modells, was sowohl die Leistung als auch die Generalisierbarkeit fĂŒr komplexe Aufgaben verbessert. 2) MoH ist plug-and-play-fĂ€hig fĂŒr Action-Module mit Voll-Aufmerksamkeit und verursacht minimalen Zusatzaufwand wĂ€hrend Training und Inferenz. 3) MoH ermöglicht dynamische Inferenz mit adaptiven Horizonten, die stabile Aktionen durch konsistente Ăbereinstimmung ĂŒber verschiedene Horizonte auswĂ€hlt. Dies erreicht einen 2,5-fach höheren Durchsatz als Vergleichsverfahren bei gleichbleibend hoher Leistung. Umfangreiche Experimente mit flussbasierten Policies Ïâ, Ïâ.â und einer One-Step-Regressions-Policy Ï_reg zeigen, dass MoH konsistent und signifikant sowohl in Simulationen als auch in realen Aufgaben Vorteile bringt. Besonders bemerkenswert: Unter Mixed-Task-Bedingungen erreicht Ïâ.â mit MoH einen neuen State-of-the-Art mit einer durchschnittlichen Erfolgsrate von 99 % auf LIBERO nach nur 30.000 Trainingsiterationen. Projektseite: https://github.com/Timsty1/MixtureOfHorizons
Die Quantisierung auf niedrige Bitzahlen ist ein Standardverfahren zur Bereitstellung groĂer Sprachmodelle, jedoch verzerren einige extreme Gewichte und Aktivierungen den dynamischen Bereich und verringern die effektive Auflösung des Quantisierers. Ein gĂ€ngiger Lösungsansatz ist die Anwendung fester orthogonaler Transformationen, wie beispielsweise Hadamard-Matrizen, vor der Quantisierung, was typischerweise den dynamischen Bereich reduziert. Dennoch ignorieren diese Transformationen die Statistik der Daten, und ihre OptimalitĂ€t ist bisher nicht verstanden. In dieser Arbeit leiten wir erstmals geschlossene optimale lineare blockweise Transformationen fĂŒr die gemeinsame Gewichts-Aktivierungs-Quantisierung unter Verwendung standardmĂ€Ăiger datenfreier Quantisierer fĂŒr gĂ€ngige numerische Formate ab. Konkret liefern wir Herleitungen der optimalen adaptiven (datenabhĂ€ngigen) Transformationen fĂŒr Rundungs-quantisierer (RTN) und AbsMax-skalierte Blockquantisierer fĂŒr sowohl Ganzzahl- als auch Gleitkommaformate. Die resultierende Konstruktion, die wir WUSH nennen, kombiniert eine Hadamard-Grundstruktur mit einer datenabhĂ€ngigen Komponente basierend auf Momenten zweiter Ordnung, was eine nicht-orthogonale Transformation ergibt, die nachweislich optimal unter milden Annahmen ist und strukturiert bleibt fĂŒr eine effiziente Implementierung. Erste experimentelle Ergebnisse zeigen, dass unser Ansatz konsistent Verbesserungen gegenĂŒber der Hadamard-Transformation fĂŒr gĂ€ngige Formate erzielt.
Die latente Raummodellierung war bisher der Standard fĂŒr Diffusions-Transformatoren (DiTs). Diese Methode beruht jedoch auf einer zweistufigen Pipeline, bei der der vortrainierte Autoencoder verlustbehaftete Rekonstruktionen einfĂŒhrt, was zu Fehlerakkumulation fĂŒhrt und eine gemeinsame Optimierung behindert. Um diese Probleme zu adressieren, schlagen wir PixelDiT vor â ein einstufiges, end-to-end Modell, das den Autoencoder ĂŒberflĂŒssig macht und den Diffusionsprozess direkt im Pixelraum erlernt. PixelDiT verwendet eine vollstĂ€ndig transformerbasierte Architektur mit einem zweistufigen Design: ein Patch-level DiT, das globale Semantik erfasst, und ein Pixel-level DiT, das Texturdetails verfeinert. Dies ermöglicht ein effizientes Training eines Pixelraum-Diffusionsmodells bei gleichzeitiger Bewahrung feiner Details. Unsere Analyse zeigt, dass eine effektive Modellierung von Pixel-level-Tokens entscheidend fĂŒr den Erfolg von Pixeldiffusion ist. PixelDiT erreicht einen FID-Wert von 1,61 auf ImageNet 256Ă256 und ĂŒbertrifft damit existierende pixelbasierte generative Modelle deutlich. Wir erweitern PixelDiT weiter fĂŒr Text-zu-Bild-Generierung und vortrainieren es bei 1024Ă1024-Auflösung im Pixelraum. Es erzielt 0,74 auf GenEval und 83,5 auf DPG-bench und nĂ€hert sich damit den besten latenten Diffusionsmodellen an.
Aktuelle Audio-Video-Generierungssysteme deuten darauf hin, dass die Kopplung von ModalitĂ€ten nicht nur der Audio-Video-Synchronisation zugutekommt, sondern auch der VideomodalitĂ€t selbst. Wir stellen eine grundlegende Frage: Verbessert das gemeinsame Audio-Video-Entrauschtraining die Videogenerierung, selbst wenn uns nur die VideoqualitĂ€t wichtig ist? Um dies zu untersuchen, fĂŒhren wir eine parameter-effiziente Audio-Video-Full-DiT-Architektur (AVFullDiT) ein, die vortrainierte Text-zu-Video (T2V)- und Text-zu-Audio (T2A)-Module fĂŒr gemeinsames Entrauschen nutzt. Wir trainieren (i) ein T2AV-Modell mit AVFullDiT und (ii) ein reines T2V-GegenstĂŒck unter identischen Bedingungen. Unsere Ergebnisse liefern den ersten systematischen Beleg dafĂŒr, dass gemeinsames Audio-Video-Entrauschen mehr als nur Synchronisation bewirken kann. Wir beobachten konsistente Verbesserungen bei anspruchsvollen Teilmengen mit groĂen Objektbewegungen und Objektkontakten. Wir stellen die Hypothese auf, dass die Vorhersage von Audio als privilegiertes Signal wirkt, das das Modell dazu anregt, kausale Beziehungen zwischen visuellen Ereignissen und ihren akustischen Konsequenzen (z.B. wie Kollisionszeitpunkte den Klang beeinflussen) zu internalisieren, was wiederum die Videodynamik regularisiert. Unsere Ergebnisse legen nahe, dass cross-modales Co-Training ein vielversprechender Ansatz ist, um stĂ€rkere, physikalisch fundiertere Weltmodelle zu entwickeln. Code und Datensatz werden öffentlich zugĂ€nglich gemacht.
Analogiebasierte Schlussfolgerungen sind ein Kernbestandteil der menschlichen Kognition und bilden eine wichtige Grundlage fĂŒr verschiedene intellektuelle AktivitĂ€ten. WĂ€hrend frĂŒhere Arbeiten gezeigt haben, dass groĂe Sprachmodelle (LLMs) Aufgabenmuster und oberflĂ€chliche Konzepte abbilden können, bleibt unklar, ob diese Modelle hochgradige relationale Konzepte kodieren und diese durch strukturierte Vergleiche auf neue Situationen anwenden können. In dieser Arbeit untersuchen wir diesen grundlegenden Aspekt anhand von Proportional- und Geschichtenanalogien und identifizieren drei zentrale Erkenntnisse. Erstens: LLMs kodieren effektiv die zugrundeliegenden Beziehungen zwischen analogen EntitĂ€ten; sowohl attributive als auch relationale Informationen verbreiten sich in korrekten FĂ€llen durch die mittleren bis oberen Schichten, wĂ€hrend Denkfehler auf fehlende relationale Informationen in diesen Schichten zurĂŒckzufĂŒhren sind. Zweitens: Im Gegensatz zum Menschen haben LLMs oft nicht nur dann Schwierigkeiten, wenn relationale Informationen fehlen, sondern auch, wenn sie versuchen, diese auf neue EntitĂ€ten anzuwenden. In solchen FĂ€llen kann das strategische Anpassen versteckter ReprĂ€sentationen an kritischen Token-Positionen den Informations transfer bis zu einem gewissen Grad erleichtern. Drittens: Erfolgreiche analogische Schlussfolgerungen in LLMs sind durch eine starke strukturelle Ausrichtung zwischen analogen Situationen gekennzeichnet, wĂ€hrend Fehler oft auf eine verschlechterte oder fehlplatzierte Ausrichtung hindeuten. Insgesamt zeigen unsere Ergebnisse, dass LLMs aufkeimende, aber begrenzte FĂ€higkeiten beim Kodieren und Anwenden hochgradiger relationaler Konzepte aufweisen, was sowohl Parallelen als auch LĂŒcken zur menschlichen Kognition verdeutlicht.
GroĂe Sprachmodelle (LLMs) haben sich rasch von Textgeneratoren zu leistungsfĂ€higen Problemlösern entwickelt. Dennoch erfordern viele offene Aufgaben kritisches Denken, multi-quellenbasierte und ĂŒberprĂŒfbare Ergebnisse, die ĂŒber einfaches Prompting oder standardmĂ€Ăige retrieval-augmentierte Generierung hinausgehen. In jĂŒngster Zeit haben zahlreiche Studien Deep Research (DR) untersucht, das darauf abzielt, die DenkfĂ€higkeiten von LLMs mit externen Werkzeugen wie Suchmaschinen zu kombinieren, um LLMs als Forschungsagenten zu befĂ€higen, die komplexe, offene Aufgaben bewĂ€ltigen können. Dieser Ăbersichtsartikel bietet einen umfassenden und systematischen Ăberblick ĂŒber Deep-Research-Systeme, einschlieĂlich einer klaren Roadmap, grundlegender Komponenten, praktischer Implementierungstechniken, wichtiger Herausforderungen und zukĂŒnftiger Richtungen. Konkret sind unsere HauptbeitrĂ€ge wie folgt: (i) Wir formalisieren eine dreistufige Roadmap und grenzen Deep Research von verwandten Paradigmen ab; (ii) Wir fĂŒhren vier SchlĂŒsselkomponenten ein: Abfrageplanung, Informationsbeschaffung, Speicherverwaltung und Antwortgenerierung, jeweils mit feingranularen Untertaxonomien; (iii) Wir fassen Optimierungstechniken zusammen, einschlieĂlich Prompting, supervised Fine-Tuning und agentenbasierter verstĂ€rkender Lernverfahren; und (iv) Wir bĂŒndeln Bewertungskriterien und offene Herausforderungen, um die zukĂŒnftige Entwicklung zu leiten und zu erleichtern. Da sich das Feld der Deep Research weiterhin schnell entwickelt, sind wir bestrebt, diesen Ăbersichtsartikel kontinuierlich zu aktualisieren, um die neuesten Fortschritte in diesem Bereich widerzuspiegeln.
In diesem Beitrag stellen wir CUDA-L2 vor, ein System, das groĂe Sprachmodelle (LLMs) und bestĂ€rkendes Lernen (RL) kombiniert, um Halbgenauigkeit-General-Matrix-Multiplikation (HGEMM) CUDA-Kernel automatisch zu optimieren. Indem es die CUDA-AusfĂŒhrungsgeschwindigkeit als RL-Belohnung verwendet, optimiert CUDA-L2 HGEMM-Kernel automatisch ĂŒber 1.000 Konfigurationen hinweg. CUDA-L2 ĂŒbertrifft systematisch die wichtigsten Matmul-Baselines bis heute, von der weit verbreiteten {\it torch.matmul} bis hin zu state-of-the-art, quellgeschĂŒtzten Bibliotheken von Nvidia, d.h. {\it cuBLAS} und {\it cuBLASLt}. Im Offline-Modus, bei dem Kernel ohne Zeitintervalle nacheinander ausgefĂŒhrt werden, erzielt CUDA-L2 im Durchschnitt eine Steigerung von +22,0 % gegenĂŒber {\it torch.matmul}; +19,2 % gegenĂŒber {\it cuBLAS} unter Verwendung der optimalen Layout-Konfiguration (normal-normal NN und transponiert-normal TN); +16,8 % gegenĂŒber {\it cuBLASLt-heuristic}, das die {\it cuBLASLt}-Bibliothek abfragt und den Algorithmus basierend auf der Heuristik-Auswahl wĂ€hlt; und +11,4 % gegenĂŒber dem wettbewerbsfĂ€higsten {\it cuBLASLt-AutoTuning}-Modell, das den schnellsten Algorithmus aus bis zu 100 Kandidaten der {\it cuBLASLt}-VorschlĂ€ge auswĂ€hlt. Im Server-Modus, bei dem Kernel in zufĂ€lligen Intervallen zur Simulation von Echtzeit-Inferenz ausgefĂŒhrt werden, erhöhen sich die Beschleunigungen weiter auf +28,7 %, +26,0 %, +22,4 % bzw. +15,9 % fĂŒr {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} und {\it cuBLASLt-AutoTuning}. CUDA-L2 zeigt, dass selbst die leistungskritischsten, stark optimierten Kernel wie HGEMM durch LLM-gesteuerte RL-Automatisierung verbessert werden können, indem KonfigurationsrĂ€ume in einem fĂŒr Menschen unpraktikablen Umfang systematisch erkundet werden. Projekt und Code sind unter github.com/deepreinforce-ai/CUDA-L2 zu finden.
Vision-Language-Action (VLA)-Modelle, die mit Flow Matching trainiert wurden, haben beeindruckende FĂ€higkeiten bei robotischen Manipulationsaufgaben gezeigt. Ihre Leistung lĂ€sst jedoch hĂ€ufig unter Distribution Shift und bei komplexen Mehrschrittaufgaben nach, was darauf hindeutet, dass die gelernten ReprĂ€sentationen möglicherweise keine robuste Erfassung aufgabenrelevanter Semantik ermöglichen. Wir stellen DiG-Flow vor, einen prinzipienbasierten Rahmen, der die Robustheit von VLA-Modellen durch geometrische Regularisierung verbessert. Unser zentraler Ansatz ist, dass die diskrepanzbasierte Verteilung zwischen Beobachtungs- und Aktions-Embeddings ein aussagekrĂ€ftiges geometrisches Signal liefert: Niedrige Transportkosten deuten auf kompatible ReprĂ€sentationen hin, wĂ€hrend höhere Kosten auf eine potenzielle Fehlausrichtung hindeuten. DiG-Flow berechnet ein DiskrepanzmaĂ zwischen empirischen Verteilungen von Beobachtungs- und Aktions-Embeddings, bildet es ĂŒber eine monotone Funktion auf ein Modulationsgewicht ab und wendet vor dem Flow Matching residuale Updates auf die Beobachtungs-Embeddings an. Entscheidend ist, dass dieser Eingriff auf ReprĂ€sentationsebene erfolgt, ohne den Flow-Matching-Pfad oder das Zielvektorfeld zu modifizieren. Wir liefern theoretische Garantien, die zeigen, dass diskrepanzgefĂŒhrtes Training den Trainingszielwert nachweislich verringert und dass gefĂŒhrte Inferenzverfeinerung mit Kontraktion konvergiert. Empirisch integriert sich DiG-Flow mit vernachlĂ€ssigbarem Overhead in bestehende VLA-Architekturen und verbessert die Leistung konsistent, mit besonders deutlichen Gewinnen bei komplexen Mehrschrittaufgaben und unter begrenzten Trainingsdaten.
JĂŒngste Fortschritte in der Videogenerierung ermöglichen die Synthese von Videos mit starker zeitlicher Konsistenz und beeindruckender visueller QualitĂ€t, was einen entscheidenden Schritt auf dem Weg zu visuellen Basismodellen darstellt. Um diese Videogenerierungsmodelle zu bewerten, konzentrieren sich bestehende Benchmarks primĂ€r auf Faktoren der visuellen Wahrnehmung und des VerstĂ€ndnisses, wie visuelle Ăsthetik, Befolgung von Anweisungen und zeitliche KohĂ€renz. Die regelbasierten Reasoning-FĂ€higkeiten von Videogenerierungsmodellen bleiben jedoch weitgehend unerforscht. Obwohl neuere Studien erste Untersuchungen dazu durchgefĂŒhrt haben, ob Videomodelle als Zero-Shot-Learner fungieren können, fehlt es ihnen nach wie vor an einer feingranularen Zerlegung der Reasoning-FĂ€higkeiten und einem umfassenden Evaluierungsprotokoll. Um diese LĂŒcke zu schlieĂen, stellen wir RULER-Bench vor, einen Benchmark, der die Reasoning-FĂ€higkeit von Videogenerierungsmodellen aus der Perspektive kognitiver Regeln bewertet. Aufbauend auf zwei grundlegenden Paradigmen â Text-zu-Video und Bild-zu-Video â umfasst RULER-Bench 40 reprĂ€sentative Aufgaben aus sechs Regelkategorien mit 622 hochwertig annotierten Instanzen. FĂŒr die Bewertung jedes generierten Videos erstellen wir eine Checkliste mit vier Metriken und nutzen GPT-3, um jeder Frage Punkte zuzuordnen, wobei wir eine 85%ige Ăbereinstimmung mit menschlichen Bewertungen erreichen. Umfangreiche Experimente zeigen, dass das state-of-the-art-Modell bei der RegelkohĂ€renzmetrik nur 48,87 % erreicht, was auf erheblichen Verbesserungsbedarf bei den Reasoning-FĂ€higkeiten von Videomodellen der nĂ€chsten Stufe hinweist. Wir erwarten, dass die durch RULER-Bench gewonnenen Erkenntnisse die weitere Entwicklung von reasoning-bewusster Videogenerierung fördern und Videogenerierungsmodelle in Richtung einer visuellen Basisintelligenz voranbringen werden.
Tabellenerkennung (TR) zielt darauf ab, Tabellenbilder in halbstrukturierte Darstellungen wie HTML oder Markdown zu ĂŒberfĂŒhren. Als Kernkomponente der Dokumentenanalyse setzt TR seit langem auf ĂŒberwachtes Lernen, wobei aktuelle Bestrebungen von Feinabstimmungen vortrainierter Vision-Language-Modelle (VLMs) mit annotierten Daten dominiert werden. Obwohl VLMs die TR auf ein neues Niveau gehoben haben, erfordert eine weitere Leistungssteigerung groĂe Mengen annotierter Daten, deren Beschaffung kostspielig ist. Infolgedessen liegen Open-Source-Modelle â die oft mit begrenzten Ressourcen trainiert werden und in der Praxis aufgrund von Datenschutzvorschriften fĂŒr viele die einzig praktikable Option darstellen â trotz kontinuierlicher Leistungssteigerungen proprietĂ€rer Modelle noch immer deutlich zurĂŒck. Um diese LĂŒcke zu schlieĂen, stellen wir TRivia vor, eine selbstĂŒberwachte Feinabstimmungsmethode, die vortrainierten VLMs ermöglicht, TR direkt aus nicht annotierten Tabellenbildern aus realen Anwendungen zu erlernen. Aufbauend auf Group Relative Policy Optimization identifiziert TRivia automatisch nicht annotierte Stichproben, die den Lernprozess am effektivsten fördern, und eliminiert den Bedarf an menschlichen Annotationen durch einen belohnungsbasierten Frage-Antwort-Mechanismus. Ein aufmerksamkeitsgesteuertes Modul generiert diverse Fragen fĂŒr jedes Tabellenbild, und die FĂ€higkeit, die Erkennungsergebnisse zu interpretieren und diese korrekt zu beantworten, liefert Feedback zur Optimierung des TR-Modells. Dieser geschlossene Regelkreis ermöglicht es dem TR-Modell, autonom zu erlernen, Tabellen zu erkennen, zu strukturieren und ĂŒber sie zu schlussfolgern â ohne annotierte Daten. Mit dieser Pipeline prĂ€sentieren wir TRivia-3B, ein quelloffenes, kompaktes und state-of-the-art TR-Modell, das bestehende Systeme (z.B. Gemini 2.5 Pro, MinerU2.5) auf drei verbreiteten Benchmarks ĂŒbertrifft. Modell und Code sind verfĂŒgbar unter: https://github.com/opendatalab/TRivia
Wir stellen MagicQuill V2 vor, ein neuartiges System, das ein geschichtetes Kompositionsparadigma fĂŒr die generative Bildbearbeitung einfĂŒhrt und so die LĂŒcke zwischen der semantischen LeistungsfĂ€higkeit von Diffusionsmodellen und der granularen Kontrolle traditioneller Grafiksoftware schlieĂt. WĂ€hrend Diffusion-Transformer bei der holistischen Generierung hervorragend sind, scheitert ihr Einsatz einzelner, monolithischer Prompts daran, unterschiedliche Benutzerabsichten fĂŒr Inhalt, Position und Erscheinungsbild zu entwirren. Um dies zu ĂŒberwinden, zerlegt unsere Methode die kreative Absicht in einen Stapel kontrollierbarer visueller Hinweise: eine Inhaltsebene fĂŒr das *Was* der Erstellung, eine rĂ€umliche Ebene fĂŒr das *Wo* der Platzierung, eine Strukturebene fĂŒr das *Wie* der Formgebung und eine Farbschicht fĂŒr die Palette. Unsere technischen BeitrĂ€ge umfassen eine spezialisierte Pipeline zur Datengenerierung fĂŒr kontextbewusste Inhaltsintegration, ein einheitliches Kontrollmodul zur Verarbeitung aller visuellen Hinweise und einen feinabgestimmten rĂ€umlichen Zweig fĂŒr prĂ€zise lokale Bearbeitung, einschlieĂlich Objektentfernung. Umfangreiche Experimente bestĂ€tigen, dass dieser geschichtete Ansatz die Kluft der Benutzerabsicht effektiv auflöst und damit Gestaltern eine direkte, intuitive Kontrolle ĂŒber den generativen Prozess gewĂ€hrt.
Wir untersuchen, wie verschiedene Chain-of-Thought (CoT)-Designs den Erwerb generalisierbarer visueller Reasoning-FĂ€higkeiten in Vision-Language-Modellen (VLMs) beeinflussen. Obwohl CoT-Daten, insbesondere lange oder visuelle CoT wie "Denken mit Bildern", hĂ€ufig zur Ăberwachung von Zwischenschritten im Reasoning verwendet werden, ist unklar, warum bestimmte CoT-Designs helfen und welche wirklich generalisierbares Reasoning unterstĂŒtzen. Um dies systematisch zu evaluieren, konzentrieren wir uns auf einen kontrollierten Benchmark zur Labyrinth-Lösung, bei dem die Reasoning-Regeln rein visuell sind, der Schwierigkeitsgrad ĂŒber die GittergröĂe gesteuert werden kann und alle Zwischenschritte automatisch generiert werden können. Unter Verwendung von Qwen2.5-VL-7B in einem standardmĂ€Ăigen SFT-then-RL-Pipeline vergleichen wir drei reprĂ€sentative CoT-Formate: Sprach-CoT, Grounding-CoT (mit rĂ€umlichen Koordinatentrajektorien) und Visuelle CoT (mit Bildmanipulationen). Unsere Experimente zeigen, dass visuelle und lĂ€ngere CoT hauptsĂ€chlich die Konvergenz beschleunigen, aber die finale Leistungsobergrenze nicht anheben; prĂ€gnante CoT, die nur essentielle Grounding-Schritte enthalten, schneiden besser ab als lĂ€ngere Spuren; und bemerkenswerterweise generalisiert CoT, das nur die minimalen Grounding-Ergebnisse beibehĂ€lt, am besten ĂŒber verschiedene LabyrinthgröĂen hinweg. Wir validieren diese Erkenntnisse weiterhin an anderen visuell-zentrierten Aufgaben. Diese Ergebnisse unterstreichen einen "Kurz ist lang"-Effekt und bieten praktische Leitlinien fĂŒr die Konstruktion generalisierbarer SFT-DatensĂ€tze fĂŒr visuelles Reasoning.
Physical AI zielt darauf ab, Modelle zu entwickeln, die reale physikalische Dynamiken wahrnehmen und vorhersagen können; dennoch ist das AusmaĂ, in dem aktuelle multimodale Large Language Models und generative Videomodelle diese FĂ€higkeiten unterstĂŒtzen, unzureichend verstanden. Wir stellen Physical AI Bench (PAI-Bench) vor, einen vereinheitlichten und umfassenden Benchmark, der Wahrnehmungs- und VorhersagefĂ€higkeiten in den Bereichen Videogenerierung, konditionale Videogenerierung und VideoverstĂ€ndnis evaluiert. Dieser besteht aus 2.808 realen FĂ€llen mit aufgabenspezifischen Metriken, die entwickelt wurden, um physikalische PlausibilitĂ€t und domĂ€nenspezifisches Schlussfolgern zu erfassen. Unsere Studie bietet eine systematische Bewertung aktueller Modelle und zeigt, dass generative Videomodelle trotz hoher visueller QualitĂ€t oft Schwierigkeiten haben, physikalisch kohĂ€rente Dynamiken beizubehalten, wĂ€hrend multimodale Large Language Models begrenzte Leistungen in der Vorhersage und kausalen Interpretation zeigen. Diese Beobachtungen deuten darauf hin, dass sich aktuelle Systeme noch in einem frĂŒhen Stadium befinden, um den wahrnehmungsbezogenen und vorhersagenden Anforderungen von Physical AI gerecht zu werden. Zusammenfassend etabliert PAI-Bench eine realistische Grundlage fĂŒr die Bewertung von Physical AI und identifiziert wesentliche LĂŒcken, die zukĂŒnftige Systeme adressieren mĂŒssen.
Wir untersuchen, ob videogenerative Modelle visuell-rĂ€umliche Intelligenz â eine zentrale FĂ€higkeit menschlicher Kognition â allein anhand visueller Daten entwickeln können. Zu diesem Zweck stellen wir Video4Spatial vor, ein Framework, das zeigt, dass reine Video-Diffusionsmodelle, die ausschlieĂlich auf videobasiertem Szenenkontext konditioniert sind, komplexe rĂ€umliche Aufgaben bewĂ€ltigen können. Wir validieren dies anhand zweier Aufgaben: Szenennavigation â das Befolgen von Kameraposen-Anweisungen unter Wahrung der 3D-Geometrie der Szene â und Objektverankerung, die semantische Lokalisierung, Instruktionsbefolgung und Planung erfordert. Beide Aufgaben verwenden rein videobasierte Eingaben ohne zusĂ€tzliche ModalitĂ€ten wie Tiefeninformationen oder Posen. Durch einfache, aber effektive Designentscheidungen im Framework und bei der Datenaufbereitung demonstriert Video4Spatial ein starkes rĂ€umliches VerstĂ€ndnis aus dem Videokontext: Es plant Navigation und verankert Zielobjekte end-to-end, befolgt Kameraposen-Anweisungen unter Beibehaltung rĂ€umlicher Konsistenz und generalisiert auf lange Kontexte und domainsfremde Umgebungen. Zusammengenommen bringen diese Ergebnisse videogenerative Modelle im Hinblick auf allgemeines visuell-rĂ€umliches SchlieĂen voran.
WĂ€hrend KI-Agenten auf Basis von LLMs und VLMs rasante Fortschritte in Mathematik, Programmierung und Computernutzung gemacht haben, bleiben ihre Anwendungen in komplexen physischen und sozialen Umgebungen eine Herausforderung. Die Entwicklung von Agenten, die in der realen Welt ĂŒberleben und erfolgreich sein können (beispielsweise durch autonomes Einkommenserzielen oder das FĂŒhren eines Unternehmens), erfordert umfangreiche Interaktionen, Schlussfolgerungen, Training und Evaluation ĂŒber diverse verkörperte Szenarien hinweg. Allerdings sind bestehende Weltsimulatoren fĂŒr eine solche Entwicklung unzureichend: Sie basieren oft auf begrenzten, handgefertigten Umgebungen, simulieren vereinfachte, spielĂ€hnliche Physik und soziale Regeln und bieten keine native UnterstĂŒtzung fĂŒr LLM/VLM-Agenten. Wir stellen SimWorld vor, einen neuen Simulator, der auf Unreal Engine 5 aufbaut und fĂŒr die Entwicklung und Evaluation von LLM/VLM-Agenten in reichhaltigen, realitĂ€tsnahen Umgebungen konzipiert ist. SimWorld bietet drei KernfĂ€higkeiten: (1) realistische, offene Weltsimulation, einschlieĂlich prĂ€ziser physikalischer und sozialer Dynamiken und sprachgesteuerter prozeduraler Umgebungserzeugung; (2) eine umfangreiche Schnittstelle fĂŒr LLM/VLM-Agenten mit multimodalen Welteingaben und open-vocabulary-Aktionen auf verschiedenen Abstraktionsebenen; und (3) vielfĂ€ltige und erweiterbare physikalische und soziale Szenarien fĂŒr Schlussfolgerungen, die einfach durch Benutzer anpassbar sind. Wir demonstrieren SimWorld durch den Einsatz modernster LLM-Agenten (z.B. GPT-4o, Gemini-2.5-Flash, Claude-3.5 und DeepSeek-Prover-V2) in langfristigen Multi-Agenten-Zustellaufgaben, die strategische Kooperation und Konkurrenz beinhalten. Die Ergebnisse zeigen unterschiedliche Denkmuster und Grenzen der Modelle auf. Wir veröffentlichen SimWorld als Open-Source und hoffen, dass es zu einer grundlegenden Plattform fĂŒr den Fortschritt der Intelligenz von Agenten in der realen Welt across disciplines wird: https://simworld.org.
Vision-Language-Action (VLA)-Modelle, die auf vortrainierten Vision-Language Models (VLMs) aufbauen, zeigen groĂes Potenzial, sind jedoch aufgrund ihrer hohen Parameteranzahl in der Praxis eingeschrĂ€nkt. Um dieses Problem zu mildern, wurde der Einsatz leichtgewichtiger VLMs untersucht, was jedoch die rĂ€umlich-zeitliche Reasoning-FĂ€higkeit beeintrĂ€chtigt. Obwohl einige Methoden vorschlagen, dass zusĂ€tzliche 3D-Eingaben helfen können, verlassen diese sich meist auf groĂe VLMs zur Fusion von 3D- und 2D-Eingaben und weisen weiterhin kein temporales VerstĂ€ndnis auf. Daher schlagen wir SwiftVLA vor, eine Architektur, die ein kompaktes Modell um 4D-VerstĂ€ndnis erweitert und dabei die Effizienz der Modellgestaltung beibehĂ€lt. Konkret zeichnet sich unser Ansatz durch einen vortrainierten 4D-Visual-Geometry-Transformer mit einem temporalen Cache aus, der 4D-Merkmale aus 2D-Bildern extrahiert. Um dann die FĂ€higkeit des VLM zu verbessern, sowohl 2D-Bilder als auch 4D-Merkmale zu nutzen, fĂŒhren wir Fusion Tokens ein â einen Satz lernbarer Token, die mit einem Ziel der Vorhersage zukĂŒnftiger ZustĂ€nde trainiert werden, um einheitliche ReprĂ€sentationen fĂŒr die Aktionsgenerierung zu erzeugen. SchlieĂlich fĂŒhren wir eine Mask-and-Reconstruct-Strategie ein, bei der 4D-Eingaben fĂŒr das VLM maskiert werden und das VLA trainiert wird, diese zu rekonstruieren. Dies ermöglicht es dem VLM, effektive 4D-ReprĂ€sentationen zu erlernen, und erlaubt es, den 4D-Zweig zur Inferenzzeit bei minimalem Leistungsverlust zu entfernen. Experimente in realen und simulierten Umgebungen zeigen, dass SwiftVLA leichtgewichtige Baselines ĂŒbertrifft und mit VLMs konkurriert, die bis zu 7-mal gröĂer sind. Es erreicht eine vergleichbare Leistung auf Edge-GerĂ€ten bei 18-facher Geschwindigkeit und einer 12-fachen Reduzierung des Speicherbedarfs.
WĂ€hrend Diffusionsmodelle fĂŒr die audiogesteuerte Avatarvideogenerierung bemerkenswerte Fortschritte bei der Synthese langer Sequenzen mit natĂŒrlicher audiovisueller Synchronisation und IdentitĂ€tskonsistenz erzielt haben, ist die Generierung von MusikauffĂŒhrungsvideos mit Kamerabewegungen weitgehend unerforscht. Wir stellen YingVideo-MV vor, das erste kaskadierte Framework zur musikgesteuerten Langvideogenerierung. Unser Ansatz integriert audiosemantische Analyse, ein interpretierbares Szenenplanungsmodul (MV-Director), zeitlich sensitive Diffusions-Transformer-Architekturen und Konsistenzmodellierung fĂŒr lange Sequenzen, um die automatische Synthese hochwertiger MusikauffĂŒhrungsvideos aus Audiosignalen zu ermöglichen. Wir haben einen groĂen, vielfĂ€ltigen Music-in-the-Wild-Datensatz durch die Sammlung von Webdaten aufgebaut, um die Erzielung diverser, hochwertiger Ergebnisse zu unterstĂŒtzen. Da bestehende Methoden zur Langvideogenerierung keine explizite Steuerung der Kamerabewegung bieten, fĂŒhren wir ein Kameradaptermodul ein, das Kameraposen in latente Rauschsignale einbettet. Um die KontinuitĂ€t zwischen Clips wĂ€hrend der Langsequenzinferenz zu verbessern, schlagen wir weiterhin eine zeitabhĂ€ngige dynamische Fensterbereichsstrategie vor, die die Entrauschungsbereiche basierend auf Audio-Einbettungen adaptiv anpasst. Umfassende Benchmark-Tests zeigen, dass YingVideo-MV herausragende Leistungen bei der Generierung kohĂ€renter und ausdrucksstarker Musikvideos erzielt und eine prĂ€zise Musik-Bewegung-Kamera-Synchronisation ermöglicht. Weitere Videos sind auf unserer Projektseite verfĂŒgbar: https://giantailab.github.io/YingVideo-MV/.
Wir stellen Ovis-Image vor, ein 7B-Text-zu-Bild-Modell, das speziell fĂŒr hochwertiges Text-Rendering optimiert wurde und fĂŒr einen effizienten Betrieb unter strengen Rechenbedingungen konzipiert ist. Aufbauend auf unserem frĂŒheren Ovis-U1-Framework integriert Ovis-Image einen diffusionsbasierten visuellen Decoder mit der leistungsstĂ€rkeren multimodalen Ovis-2.5-Backbone-Architektur. Dabei nutzt es eine textzentrierte Trainingspipeline, die groĂ angelegtes Pre-Training mit maĂgeschneiderten Nachbearbeitungsverfeinerungen kombiniert. Trotz seiner kompakten Architektur erreicht Ovis-Image eine Text-Rendering-Leistung, die mit deutlich gröĂeren Open-Source-Modellen wie Qwen-Image vergleichbar ist und sich geschlossenen Systemen wie Seedream und GPT4o annĂ€hert. Entscheidend ist, dass das Modell nach wie vor auf einer einzigen High-End-GPU mit moderatem Speicherbedarf einsetzbar bleibt und so die LĂŒcke zwischen hochwertigem Text-Rendering und praktischer Implementierung verkleinert. Unsere Ergebnisse zeigen, dass die Kombination einer starken multimodalen Backbone-Architektur mit einem sorgfĂ€ltig gestalteten, textfokussierten Trainingsansatz ausreicht, um zuverlĂ€ssiges bilinguales Text-Rendering zu erreichen, ohne auf ĂŒberdimensionierte oder proprietĂ€re Modelle zurĂŒckgreifen zu mĂŒssen.
Die Erzeugung minutenlanger Videos ist ein entscheidender Schritt auf dem Weg zur Entwicklung von Weltmodellen, da sie die Grundlage fĂŒr realistische erweiterte Szenen und fortschrittliche KI-Simulatoren bildet. Das aufkommende semi-autoregressive Paradigma (Block-Diffusion) vereint die StĂ€rken von Diffusions- und autoregressiven Modellen, ermöglicht die Erzeugung von Videos beliebiger LĂ€nge und verbessert die Inferenzeffizienz durch KV-Caching und paralleles Sampling. Allerdings stehen nach wie vor zwei grundlegende Herausforderungen im Weg: (i) KV-Cache-bedingte Fehlerakkumulation ĂŒber lange Zeithorizonte und (ii) das Fehlen granulare Benchmarks fĂŒr lange Videos und KohĂ€renz-bewusster Metriken. Um diese EinschrĂ€nkungen zu ĂŒberwinden, stellen wir BlockVid vor, ein neuartiges Block-Diffusion-Framework, das mit einem semantikbewussten sparse KV-Cache, einer effektiven Trainingsstrategie namens Block Forcing sowie dedizierten chunk-basierten Rauschplanungs- und Shuffling-Verfahren ausgestattet ist, um die Fehlerfortpflanzung zu reduzieren und die zeitliche Konsistenz zu verbessern. Wir fĂŒhren auĂerdem LV-Bench ein, einen granularen Benchmark fĂŒr minutenlange Videos, ergĂ€nzt um neue Metriken zur Bewertung der Langreichweiten-KohĂ€renz. Umfangreiche Experimente auf VBench und LV-Bench zeigen, dass BlockVid bestehende Methoden bei der Erzeugung hochwertiger, kohĂ€renter minutenlanger Videos durchgĂ€ngig ĂŒbertrifft. Insbesondere erzielt es auf LV-Bench eine Verbesserung von 22,2 % bei VDE Subject und 19,4 % bei VDE Clarity gegenĂŒber state-of-the-art-AnsĂ€tzen. Projekt-Website: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
Heutzutage können Menschen mit verschiedenen Consumer-Kameras problemlos unvergessliche Momente festhalten â von Konzerten ĂŒber Sportveranstaltungen, VortrĂ€ge und Familientreffen bis hin zu Geburtstagsfeiern. Die Synchronisierung dieser kameraĂŒbergreifenden Aufnahmen bleibt jedoch eine Herausforderung. Bestehende Methoden setzen kontrollierte Aufnahmebedingungen, spezifische Ziele, manuelle Korrekturen oder teure Hardware voraus. Wir stellen VisualSync vor, ein Optimierungsframework auf Basis von Multi-View-Dynamik, das nicht positionierte und nicht synchronisierte Videos mit Millisekundengenauigkeit ausrichtet. Unser zentraler Ansatz ist, dass jeder bewegte 3D-Punkt, sobald er in zwei Kameras gemeinsam sichtbar ist und korrekt synchronisiert wurde, epipolaren Constraints folgt. Um dies zu nutzen, setzt VisualSync auf verfĂŒgbare 3D-Rekonstruktionsverfahren, Feature-Matching und dichtes Tracking, um Tracklets, relative Posen und kameraĂŒbergreifende Korrespondenzen zu extrahieren. AnschlieĂend wird der epipolare Fehler gemeinsam minimiert, um den Zeitversatz jeder Kamera zu schĂ€tzen. Experimente mit vier vielfĂ€ltigen, anspruchsvollen DatensĂ€tzen zeigen, dass VisualSync Baseline-Methoden ĂŒbertrifft und einen medianen Synchronisationsfehler von unter 50 ms erreicht.
Die 3D-Rekonstruktion aus Multi-View-Bildern ist eine zentrale Herausforderung in der Computer Vision. In jĂŒngerer Zeit haben sich Feed-Forward-Methoden als effiziente und robuste Alternativen zu traditionellen Per-Scene-Optimierungstechniken etabliert. Zu den state-of-the-art Modellen gehört dabei der Visual Geometry Grounding Transformer (VGGT), der vollstĂ€ndige Self-Attention ĂŒber alle Bild-Tokens anwendet, um globale Beziehungen zu erfassen. Dieser Ansatz leidet jedoch unter schlechter Skalierbarkeit, bedingt durch die quadratische KomplexitĂ€t der Self-Attention und die groĂe Anzahl von Tokens, die in langen Bildsequenzen erzeugt werden. In dieser Arbeit stellen wir FlashVGGT vor, eine effiziente Alternative, die diesen Engpass durch einen deskriptorbasierten Aufmerksamkeitsmechanismus adressiert. Anstatt eine dichte globale Aufmerksamkeit ĂŒber alle Tokens hinweg anzuwenden, komprimiert FlashVGGT die rĂ€umlichen Informationen jedes Einzelbildes in einen kompakten Satz von Deskriptor-Tokens. Die globale Aufmerksamkeit wird dann als Cross-Attention zwischen der vollstĂ€ndigen Menge der Bild-Tokens und dieser kleineren Deskriptorenmenge berechnet, was den Rechenaufwand erheblich reduziert. DarĂŒber hinaus ermöglicht die Kompaktheit der Deskriptoren eine Online-Inferenz fĂŒr lange Sequenzen durch einen Chunk-rekursiven Mechanismus, der zwischengespeicherte Deskriptoren aus vorherigen Abschnitten wiederverwendet. Experimentelle Ergebnisse zeigen, dass FlashVGGT eine mit VGGT vergleichbare Rekonstruktionsgenauigkeit erreicht, dabei aber die Inferenzzeit fĂŒr 1.000 Bilder auf nur 9,3 % von VGGT reduziert und effizient auf Sequenzen mit ĂŒber 3.000 Bildern skaliert. Unsere Projektseite ist unter https://wzpscott.github.io/flashvggt_page/ verfĂŒgbar.
Autoregressive (AR-)Sprachmodelle und Diffusions-Sprachmodelle (DLMs) bilden die beiden wichtigsten Paradigmen fĂŒr groĂe Sprachmodelle. Beide Paradigmen leiden jedoch unter unzureichenden FĂ€higkeiten zum logischen Schlussfolgern. Menschliches Denken basiert inhĂ€rent auf kausalem Wissen und Gedanken, die sich in der natĂŒrlichen Sprache widerspiegeln. Im AR-Paradigma wird Sprache jedoch als Vorhersage des nĂ€chsten Tokens modelliert (eine streng links-nach-rechts, Token-fĂŒr-Token Reihenfolge), wĂ€hrend die natĂŒrliche Sprache selbst flexiblere kausale Strukturen aufweist. Im DLM-Paradigma ist der Attention-Mechanismus vollstĂ€ndig verbunden, was die kausale Ordnung vollstĂ€ndig ignoriert. Um diese LĂŒcke zu schlieĂen, schlagen wir ein **C**ausal **C**oncept-Guided **D**iffusion **L**anguage **M**odel (CÂČDLM) vor. Ausgehend von der vollstĂ€ndig verbundenen Attention des DLM, erhĂ€lt CÂČDLM zunĂ€chst einen begriffsbasierten Kausalgraphen vom Lehrer-Modell und leitet dann die Attention explizit an, kausale Beziehungen zwischen Konzepten zu erlernen. Durch den Fokus auf kausale ZusammenhĂ€nge und die Vermeidung von Störungen durch schwierige Teilziele, die kausale Inversion beinhalten, verbessert sich CÂČDLM im COT-OrderPerturb-Task um 12 % bei etwa 3,2-facher Beschleunigung des Trainings und erzielt einen durchschnittlichen Zuwachs von 1,31 % ĂŒber sechs nachgelagerte Reasoning-Tasks hinweg. Weitere Details im Repository ~https://github.com/Kairong-Han/C-2-DLM{hier}.
Masked Diffusion Language Models (MDLMs) haben sich kĂŒrzlich als vielversprechende Alternative zu autoregressiven Sprachmodellen (ARLMs) etabliert, indem sie ein Denoising-Ziel nutzen, das prinzipiell eine gleichmĂ€Ăigere Kontextnutzung ermöglichen sollte. In dieser Arbeit untersuchen wir die KontextverstĂ€ndnisfĂ€higkeiten von MDLMs und decken zwei zentrale EinschrĂ€nkungen auf. Erstens zeigen MDLMs trotz ihres globaleren Trainingsziels und bidirektionalen Aufmerksamkeitsmechanismus, Ă€hnlich wie ARLMs, eine starke LokalitĂ€tsverzerrung: Die Leistung ist stark von der Position relevanter Informationen innerhalb der Eingabe abhĂ€ngig und begĂŒnstigt lokalen gegenĂŒber entferntem Kontext. Zweitens zeigen wir, dass das AnhĂ€ngen einer groĂen Anzahl von Mask-Tokens â die fĂŒr die Generierung erforderlich sind â das KontextverstĂ€ndnis erheblich beeintrĂ€chtigen kann. Durch systematische Ablationen finden wir heraus, dass diese Masken als Ablenkung wirken und die FĂ€higkeit des Modells reduzieren, relevante Informationen zu verarbeiten. Um dies zu adressieren, fĂŒhren wir eine maskenunabhĂ€ngige Verlustfunktion ein, die Vorhersagen dazu anhĂ€lt, invariant gegenĂŒber der Anzahl angehĂ€ngter Masken zu bleiben. Fine-Tuning mit diesem Ziel mildert den ablenkenden Effekt der Masken erheblich und verbessert die Robustheit von MDLMs. Insgesamt zeigen unsere Ergebnisse kritische Grenzen des aktuellen MDLM-Trainingsparadigmas auf und liefern umsetzbare Erkenntnisse fĂŒr den Aufbau diffusionsbasierter Sprachmodelle mit stĂ€rkerem KontextverstĂ€ndnis.
Agentische Vision-Sprach-Modelle werden zunehmend darauf trainiert, âmit Bildern zu denkenâ, indem sie Bildoperationen aufrufen. Wir zeigen jedoch, dass eine hohe Endantwort-Genauigkeit oft unfaithful visuelles Reasoning verbirgt: Modelle können Werkzeuge auf irrelevante Bildbereiche anwenden oder deren Ausgaben vollstĂ€ndig ignorieren und dennoch die richtige Antwort erraten. In dieser Arbeit schlagen wir zunĂ€chst ein Evaluierungsprotokoll fĂŒr Faithfulness vor, das misst, ob die intermediĂ€ren visuellen Werkzeugausgaben (z.B. Bildausschnitte) tatsĂ€chlich die angefragten Beweise enthalten. Dies zeigt, dass neuere visuelle Agenten zwar eine hohe Endantwort-Genauigkeit erreichen, aber niedrige Raten an faithful Werkzeugnutzung in Visual-Search-Benchmarks aufweisen. AnschlieĂend stellen wir CodeV vor, einen codebasierten visuellen Agenten, der mit Tool-Aware Policy Optimization (TAPO) trainiert wird. TAPO ist ein RL-Framework auf Prozessebene, das GRPO um dichte Belohnungen erweitert, die direkt auf den Eingaben und Ausgaben der visuellen Werkzeuge definiert sind â und nicht auf Chain-of-Thought-Tokens â, was die ĂberprĂŒfung der Supervision erleichtert und sie weniger anfĂ€llig fĂŒr Reward Hacking macht. CodeV reprĂ€sentiert visuelle Werkzeuge als ausfĂŒhrbaren Python-Code, und TAPO weist schrittweise Belohnungen ausschlieĂlich auf Basis der Frage und der Werkzeugausgabe zu, wodurch sowohl notwendiger als auch evidenzkonsistenter Werkzeugeinsatz gefördert wird. In einer zweistufigen SFT+RL-Pipeline erreicht CodeV eine vergleichbare oder ĂŒberlegene Genauigkeit und steigert gleichzeitig die Raten faithful Werkzeugnutzung in relevanten Visual-Search-Benchmarks erheblich. Ăber Visual Search hinaus erzielt CodeV starke Leistungen in einer Reihe von multimodalen Reasoning- und Mathematik-Benchmarks, was darauf hindeutet, dass die explizite Supervision des intermediĂ€ren Werkzeugverhaltens entscheidend fĂŒr den Aufbau vertrauenswĂŒrdiger, agentischer visueller Reasoning-Systeme ist.
Automatisches Theorembeweisen in der euklidischen Geometrie, insbesondere fĂŒr Probleme auf dem Niveau der Internationalen Mathematik-Olympiade (IMO), bleibt eine groĂe Herausforderung und ein wichtiger Forschungsschwerpunkt in der kĂŒnstlichen Intelligenz. In diesem Artikel stellen wir eine hocheffiziente Methode fĂŒr geometrische Theorembeweise vor, die vollstĂ€ndig auf CPUs lĂ€uft und ohne neuronale Netzwerk-Inferenz auskommt. Unsere erste Studie zeigt, dass eine einfache Zufallsstrategie zum HinzufĂŒgen von Hilfspunkten menschliche Leistungen auf Silbermedaillen-Niveau bei der IMO erreichen kann. Darauf aufbauend schlagen wir HAGeo vor, eine heuristikbasierte Methode zum HinzufĂŒgen von Hilfskonstruktionen bei geometrischen Deduktionen, die 28 von 30 Problemen im IMO-30-Benchmark löst und damit Leistungen auf Goldmedaillen-Niveau erreicht. Diese Methode ĂŒbertrifft AlphaGeometry, einen konkurrenzfĂ€higen, auf neuronalen Netzen basierenden Ansatz, um einen bemerkenswerten Vorsprung. Um unsere Methode und bestehende AnsĂ€tze umfassender zu bewerten, erstellen wir weiterhin HAGeo-409, einen Benchmark, der aus 409 Geometrieproblemen mit von Menschen bewerteten Schwierigkeitsgraden besteht. Im Vergleich zum weit verbreiteten IMO-30 stellt unser Benchmark gröĂere Herausforderungen dar und ermöglicht eine prĂ€zisere Bewertung, wodurch er eine höhere Messlatte fĂŒr das geometrische Theorembeweisen setzt.
Die nĂ€chste Grenze der Videogenerierung liegt in der Entwicklung von Modellen, die zu Zero-Shot-Reasoning fĂ€hig sind, wobei das VerstĂ€ndnis naturwissenschaftlicher Gesetze der realen Welt entscheidend fĂŒr die genaue Modellierung physikalischer Ergebnisse unter verschiedenen Bedingungen ist. Bisherige Video-Benchmarks basieren jedoch auf physikalischem Common Sense und bieten nur begrenzte Einblicke in die wissenschaftliche DenkfĂ€higkeit von Videomodellen. Wir stellen VideoScience-Bench vor, einen Benchmark, der entwickelt wurde, um das naturwissenschaftliche VerstĂ€ndnis von Videomodellen auf Undergraduate-Niveau zu bewerten. Jede Eingabeaufforderung kodiert ein zusammengesetztes wissenschaftliches Szenario, das VerstĂ€ndnis und logisches Schlussfolgern ĂŒber mehrere wissenschaftliche Konzepte hinweg erfordert, um das korrekte PhĂ€nomen zu generieren. Der Benchmark umfasst 200 sorgfĂ€ltig zusammengestellte Prompts, die 14 Themen und 103 Konzepte aus Physik und Chemie abdecken. Wir fĂŒhren expertengestĂŒtzte Evaluationen an sieben state-of-the-art Videomodellen in T2V- und I2V-Settings entlang fĂŒnf Dimensionen durch: Prompt-Konsistenz, PhĂ€nomen-Kongruenz, korrekte Dynamik, UnverĂ€nderbarkeit und raumzeitliche KontinuitĂ€t. Unter Verwendung eines VLM-as-a-Judge zur Bewertung der Videogenerierungen beobachten wir eine starke Korrelation mit menschlichen Bewertungen. Nach unserem Wissen ist VideoScience-Bench der erste Benchmark, der Videomodelle nicht nur als Generatoren, sondern auch als Denksysteme evaluiert und von ihren Generierungen verlangt, ein wissenschaftliches VerstĂ€ndnis zu demonstrieren, das mit den erwarteten physikalischen und chemischen PhĂ€nomenen ĂŒbereinstimmt. Unsere Daten und Evaluierungscodes sind verfĂŒgbar unter: https://github.com/hao-ai-lab/VideoScience.
Die Bearbeitung von PortrĂ€tvideos ist eine anspruchsvolle Aufgabe, die eine flexible, aber prĂ€zise Kontrolle ĂŒber ein breites Spektrum von Modifikationen erfordert, wie beispielsweise Ănderungen des Erscheinungsbilds, Bearbeitungen des Gesichtsausdrucks oder das HinzufĂŒgen von Objekten. Die Hauptschwierigkeit besteht darin, das ursprĂŒngliche zeitliche Verhalten der Person zu erhalten, was erfordert, dass jeder bearbeitete Einzelbilder exakt mit dem entsprechenden Quellbild synchronisiert bleibt. Wir stellen Sync-LoRA vor, eine Methode zur Bearbeitung von PortrĂ€tvideos, die hochwertige visuelle Modifikationen bei gleichzeitiger Wahrung einer bildgenauen Synchronisation und IdentitĂ€tskonsistenz erreicht. Unser Ansatz nutzt ein Bild-zu-Video-Diffusionsmodell, bei dem die Bearbeitung durch Modifikation des ersten Einzelbilds definiert und dann auf die gesamte Sequenz ĂŒbertragen wird. Um eine prĂ€zise Synchronisation zu ermöglichen, trainieren wir ein In-Context-LoRA mit gepaarten Videos, die identische BewegungsverlĂ€ufe darstellen, sich aber im Erscheinungsbild unterscheiden. Diese Paare werden automatisch generiert und durch einen synchronisationsbasierten Filterungsprozess kuratiert, der nur die zeitlich am besten ausgerichteten Beispiele fĂŒr das Training auswĂ€hlt. Dieser Trainingsaufbau bringt dem Modell bei, Bewegungshinweise aus dem Quellvideo mit den visuellen Ănderungen aus dem bearbeiteten Startbild zu kombinieren. Sync-LoRA, trainiert auf einem kompakten, hochgradig kuratierten Satz synchronisierter PortrĂ€taufnahmen, verallgemeinert auf unbekannte IdentitĂ€ten und verschiedene Bearbeitungen (z.B. Ănderung des Aussehens, HinzufĂŒgen von Objekten oder Wechsel des Hintergrunds) und bewĂ€ltigt robust Variationen in Pose und Ausdruck. Unsere Ergebnisse demonstrieren hohe visuelle QualitĂ€t und starke zeitliche KohĂ€renz und erreichen eine robuste Balance zwischen Bearbeitungstreue und prĂ€ziser Bewegungserhaltung.
Mit den rasanten Fortschritten leistungsstarker multimodaler Modelle wie GPT-4o, Nano Banana und Seedream 4.0 im Bereich der Bildbearbeitung vergröĂert sich die LeistungslĂŒcke zwischen Closed-Source- und Open-Source-Modellen zunehmend. Dies ist hauptsĂ€chlich auf den Mangel an groĂvolumigen, hochwertigen Trainingsdaten und umfassenden Benchmarks zurĂŒckzufĂŒhren, die in der Lage sind, ModellschwĂ€chen ĂŒber verschiedene Bearbeitungsverhalten hinweg zu diagnostizieren. Bestehende Methoden zur Datenerstellung stehen vor einem Skalierbarkeits-QualitĂ€ts-Dilemma: menschliche Annotationen sind hochwertig, aber nicht skalierbar, wĂ€hrend automatisierte Pipelines unter Fehlerfortpflanzung und Rauschen leiden. Um dies zu lösen, fĂŒhren wir eine leichtgewichtige Datenpipeline ein, die Multi-Toolchains durch ein End-to-End-Modell und eine vereinheitlichte Nachverifizierungsstufe ersetzt. FĂŒr skalierbare QualitĂ€tskontrolle trainieren wir ein 7B-Dual-Task-Expertenmodell, Qwen-Verify, zur effizienten Fehlererkennung und Instruktions-Neubeschriftung. Diese Pipeline erzeugt UnicEdit-10M, einen 10-Millionen-Datensatz, der diverse grundlegende und komplexe Bearbeitungsaufgaben abdeckt. Wir schlagen zudem UnicBench vor, einen allgemeinen Benchmark, der ĂŒber grundlegende Bearbeitungen hinausgeht und rĂ€umliches sowie wissensbasiertes Reasoning explizit bewertet. Um eine feinkörnige Diagnose zu ermöglichen, fĂŒhren wir neuartige Metriken ein, darunter Nicht-Bearbeitungs-Konsistenz und Reasoning-Genauigkeit. Unsere Analyse gĂ€ngiger Modelle auf UnicBench deckt deren Grenzen auf und liefert klare Richtungen fĂŒr zukĂŒnftige Forschung.
Mit der rasanten Entwicklung groĂer visuell-sprachlicher Modelle verlagert sich der Fokus von Aufgaben grafischer BenutzeroberflĂ€chen (GUI) von Einzellbildschirm-Aufgaben hin zu komplexen Bildschirmnavigationsherausforderungen. Allerdings sind reale GUI-Umgebungen wie PC-Software und Mobile Apps oft komplex und proprietĂ€r, was die Beschaffung umfassender Umgebungsinformationen fĂŒr das Training und die Evaluation von Agenten erschwert. Diese EinschrĂ€nkung behindert eine systematische Erforschung und Benchmarking von NavigationsfĂ€higkeiten der Agenten. Um diese Limitation zu adressieren, fĂŒhren wir GUI Exploration Lab ein, eine Simulationsumgebung fĂŒr die GUI-Agenten-Navigationsforschung, die flexible Definition und Kombination von Bildschirmen, Icons und Navigationsgraphen ermöglicht und gleichzeitig vollstĂ€ndigen Zugang zu Umgebungsinformationen fĂŒr umfassendes Agententraining und -evaluation bietet. Durch umfangreiche Experimente stellen wir fest, dass ĂŒberwachtes Feintuning eine effektive Speicherung von Grundlagenwissen ermöglicht und als entscheidende Basis fĂŒr nachfolgendes Training dient. Aufbauend darauf verbessert Reinforcement Learning mit einzelnen Interaktionen die GeneralisierungsfĂ€higkeit auf ungesehene Szenarien weiter. SchlieĂlich fördert Reinforcement Learning mit mehreren Interaktionen die Entwicklung von Explorationsstrategien durch interaktives Ausprobieren, was zu weiteren Verbesserungen der Bildschirmnavigationsleistung fĂŒhrt. Wir validieren unsere Methoden anhand statischer und interaktiver Benchmarks und zeigen, dass unsere Erkenntnisse effektiv auf reale Szenarien ĂŒbertragbar sind. Diese Ergebnisse demonstrieren die Vorteile von Reinforcement-Learning-AnsĂ€tzen in der GUI-Navigation und bieten praktische Leitlinien fĂŒr die Entwicklung leistungsfĂ€higerer und besser generalisierbarer GUI-Agenten.
GroĂe multimodale Modelle haben bemerkenswerte Fortschritte sowohl im VerstĂ€ndnis als auch in der Generierung erzielt. JĂŒngste Bestrebungen verfolgen vereinheitlichte multimodale Modelle, die heterogene Komponenten integrieren, um beide FĂ€higkeiten innerhalb eines einzigen Frameworks zu unterstĂŒtzen. Eine solche Vereinheitlichung fĂŒhrt jedoch zu Inferenzineffizienzen; beispielsweise erfordern bestimmte Aufgaben oder Stichproben möglicherweise nicht das vollstĂ€ndige Wissen oder die gesamte KapazitĂ€t des vereinheitlichten Modells. Dennoch ist ein systematisches VerstĂ€ndnis dafĂŒr, wie sich diese Ineffizienzen in verschiedenen Komponenten manifestieren, bislang begrenzt. In dieser Arbeit fĂŒhren wir zunĂ€chst eine systematische Analyse der Komponenten vereinheitlichter multimodaler Modelle durch, wobei wir trainingfreies Pruning als Untersuchungsmethode verwenden und sowohl Tiefen- als auch Breitenreduzierung betrachten. Unsere Studie zeigt, dass die VerstĂ€ndniskomponente sowohl bei VerstĂ€ndnis- als auch bei Generierungsaufgaben eine bemerkenswerte Komprimierbarkeit aufweist, die bei Letzteren ausgeprĂ€gter ist. Im Gegensatz dazu sind die Generierungskomponenten Ă€uĂerst kompressionsempfindlich, wobei die Leistung selbst bei moderaten Kompressionsraten stark abfĂ€llt. Um diese EinschrĂ€nkung zu adressieren, schlagen wir die Mixture-of-Experts (MoE)-Adaptierung vor, inspiriert von den beobachteten dynamischen Aktivierungsmustern verschiedener Stichproben. Dieser Ansatz unterteilt das Generierungsmodul in mehrere Experten und ermöglicht eine sparse Aktivierung, um die GenerierungsqualitĂ€t wiederherzustellen. Wir validieren die Wirksamkeit der sparse Aktivierung durch Expert-frozen Tuning und zeigen weiter, dass eine vollstĂ€ndig trainierbare Adaptierung zusĂ€tzliche Verbesserungen bringt. Infolgedessen erreicht das adaptierte BAGEL-Modell eine mit dem Vollmodell vergleichbare Leistung, wĂ€hrend nur etwa die HĂ€lfte seiner Parameter aktiviert wird. Der Code ist unter https://github.com/Shwai-He/SparseUnifiedModel veröffentlicht.
KĂŒrzlich entwickelte Reinforcement-Learning-Frameworks fĂŒr visuelle Wahrnehmungsstrategien integrierieren zunehmend Zwischenreasoning-Ketten, die in natĂŒrlicher Sprache formuliert sind. Empirische Beobachtungen zeigen, dass solche rein sprachlichen Zwischenschritte die Leistung bei Wahrnehmungsaufgaben oft verschlechtern. Wir argumentieren, dass das Kernproblem nicht im Reasoning an sich liegt, sondern in seiner Form: WĂ€hrend diese Ketten semantisches Reasoning in einem unstrukturierten linguistischen Raum durchfĂŒhren, erfordert visuelle Wahrnehmung Reasoning in einem rĂ€umlichen und objektzentrierten Raum. Als Lösung stellen wir Artemis vor, ein Framework zum Erlernen von Wahrnehmungsstrategien, das strukturiertes, vorschlagsbasiertes Reasoning durchfĂŒhrt, wobei jeder Zwischenschritt als (Label, Bounding-Box)-Paar dargestellt wird, das einen ĂŒberprĂŒfbaren visuellen Zustand erfasst. Dieser Entwurf ermöglicht die explizite Nachverfolgung von ZwischenzustĂ€nden, direkte Ăberwachung der VorschlagsqualitĂ€t und vermeidet die Mehrdeutigkeit sprachbasierten Reasonings. Artemis basiert auf Qwen2.5-VL-3B, erzielt hohe Leistung in Grounding- und Detektionsaufgaben und zeigt substantiale Generalisierung fĂŒr ZĂ€hl- und geometrische Wahrnehmungsaufgaben. Die konsistenten Verbesserungen in diesen verschiedenen Settings bestĂ€tigen, dass die Ausrichtung des Reasonings an rĂ€umlichen ReprĂ€sentationen das Lernen von Wahrnehmungsstrategien verbessert. Aufgrund seines gestĂ€rkten visuellen Reasonings erzielt Artemis auch wettbewerbsfĂ€hige Leistung in allgemeinen MLLM-Benchmarks, was verdeutlicht, dass rĂ€umlich verankertes Reasoning einen prinzipiellen Weg zu skalierbaren und allgemeinen Wahrnehmungsstrategien bietet.
Die Globalisierung der Bildung und das rasche Wachstum des Online-Lernens haben die Lokalisierung von Bildungsinhalten zu einer zentralen Herausforderung gemacht. Vortragsmaterialien sind von Natur aus multimodal, da sie gesprochene Audioinhalte mit visuellen Folien kombinieren, was Systeme erfordert, die mehrere EingabemodalitĂ€ten verarbeiten können. Um eine zugĂ€ngliche und vollstĂ€ndige Lernerfahrung zu bieten, mĂŒssen Ăbersetzungen alle ModalitĂ€ten erhalten: Text zum Lesen, Folien zum visuellen VerstĂ€ndnis und Sprache fĂŒr das auditive Lernen. Wir stellen BOOM vor, einen multimodalen, mehrsprachigen Vorlesungsbegleiter, der Vorlesungsaudio und -folien gemeinsam ĂŒbersetzt, um synchronisierte Ausgaben in drei ModalitĂ€ten zu erzeugen: ĂŒbersetzter Text, lokalisierte Folien mit erhaltenen visuellen Elementen und synthetisierte Sprache. Dieser End-to-End-Ansatz ermöglicht es Studierenden, auf Vorlesungen in ihrer Muttersprache zuzugreifen, und strebt dabei an, den ursprĂŒnglichen Inhalt vollstĂ€ndig zu bewahren. Unsere Experimente zeigen, dass folienbewusste Transkripte auch kaskadierende Vorteile fĂŒr nachgelagerte Aufgaben wie Zusammenfassung und Fragebeantwortung bringen. Wir veröffentlichen unseren Slide-Translation-Code unter https://github.com/saikoneru/image-translator und integrieren ihn in Lecture Translator unter https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Alle veröffentlichten Codes und Modelle sind unter der MIT-Lizenz lizenziert.}
State-of-the-Art-Systeme zur Erzeugung von Videoszenengraphen (Video Scene Graph Generation, VSGG) bieten ein strukturiertes visuelles VerstĂ€ndnis, arbeiten jedoch als geschlossene, vorwĂ€rtsgerichtete Pipelines ohne die Möglichkeit, menschliche Anweisungen zu integrieren. Im Gegensatz dazu ermöglichen promptbare Segmentierungsmodelle wie SAM2 eine prĂ€zise Benutzerinteraktion, mangelt es ihnen jedoch an semantischer oder relationaler Reasoning-FĂ€higkeit. Wir stellen Click2Graph vor, das erste interaktive Framework fĂŒr panoptische Videoszenengraphen (Panoptic Video Scene Graph Generation, PVSG), das visuelles Prompting mit rĂ€umlichem, zeitlichem und semantischem VerstĂ€ndnis vereint. Ausgehend von einer einzigen Benutzeraufforderung, wie einem Klick oder einem Begrenzungsrahmen, segmentiert und verfolgt Click2Graph das Subjekt ĂŒber die Zeit, entdeckt autonom interagierende Objekte und sagt <Subjekt, Objekt, PrĂ€dikat>-Triplets vorher, um einen zeitlich konsistenten Szenengraphen zu bilden. Unser Framework fĂŒhrt zwei SchlĂŒsselkomponenten ein: ein Dynamic Interaction Discovery Module, das subjektkonditionierte Objekt-Prompts erzeugt, und einen Semantic Classification Head, der gemeinsames Reasoning fĂŒr EntitĂ€ten und PrĂ€dikate durchfĂŒhrt. Experimente auf dem OpenPVSG-Benchmark zeigen, dass Click2Graph eine solide Grundlage fĂŒr benutzergefĂŒhrtes PVSG schafft und demonstrieren, wie menschliches Prompting mit panoptischer Verankerung und relationaler Inferenz kombiniert werden kann, um eine steuerbare und interpretierbare VideoszenenverstĂ€ndnis zu ermöglichen.