papers.description
Die Optimierung großer Sprachmodelle (LLMs) bleibt eine kritische Herausforderung, insbesondere da die Skalierung von Modellen die Empfindlichkeit gegenüber algorithmischen Ungenauigkeiten und Trainingsinstabilität verschärft. Jüngste Fortschritte bei Optimierern haben die Konvergenzeffizienz durch Orthogonalisierung mit Momentum verbessert, leiden jedoch unter zwei wesentlichen Robustheitseinschränkungen: dimensionale Fragilität in der Orthogonalisierungspräzision und Anfälligkeit für ausreißerinduziertes Rauschen. Um diese Robustheitsherausforderungen zu adressieren, führen wir ROOT ein, einen robusten orthogonalisierten Optimierer, der die Trainingsstabilität durch duale Robustheitsmechanismen verbessert. Erstens entwickeln wir ein dimensionsrobustes Orthogonalisierungsschema unter Verwendung adaptiver Newton-Iterationen mit fein granularen Koeffizienten, die auf spezifische Matrixgrößen zugeschnitten sind, um eine konsistente Präzision über diverse Architekturkongurationen hinweg zu gewährleisten. Zweitens führen wir ein optimierungsrobustes Framework über proximale Optimierung ein, das Ausreißerrauschen unterdrückt und gleichzeitig bedeutungsvolle Gradientenrichtungen bewahrt. Umfangreiche Experimente zeigen, dass ROOT eine signifikant verbesserte Robustheit erreicht, mit schnellerer Konvergenz und überlegener Endleistung im Vergleich zu sowohl Muon- als auch Adam-basierten Optimierern, insbesondere in verrauschten und nicht-konvexen Szenarien. Unsere Arbeit etabliert ein neues Paradigma für die Entwicklung robuster und präziser Optimierer, die in der Lage sind, die Komplexitäten des modernen Trainings großskaliger Modelle zu bewältigen. Der Code wird unter https://github.com/huawei-noah/noah-research/tree/master/ROOT verfügbar sein.
Jüngste Fortschritte in der LLM-gesteuerten evolutionären Berechnung, insbesondere AlphaEvolve (Novikov et al., 2025; Georgiev et al., 2025), haben bemerkenswerte Erfolge bei der Entdeckung neuartiger mathematischer Konstruktionen und der Lösung anspruchsvoller Optimierungsprobleme gezeigt. Die hochrangigen Beschreibungen in der veröffentlichten Arbeit lassen jedoch viele Implementierungsdetails unklar, was die Reproduzierbarkeit und weitere Forschung behindert. In diesem Bericht stellen wir GigaEvo vor, ein erweiterbares Open-Source-Framework, das Forschern ermöglicht, hybride LLM-Evolutionsansätze, inspiriert von AlphaEvolve, zu studieren und zu experimentieren. Unser System bietet modulare Implementierungen von Schlüsselkomponenten: MAP-Elites-Qualitäts-Diversitäts-Algorithmen, asynchrone DAG-basierte Evaluationspipelines, LLM-gesteuerte Mutationsoperatoren mit Erkenntnisgenerierung und bidirektionaler Linienverfolgung sowie flexible Multi-Insel-Evolutionsstrategien. Um die Reproduzierbarkeit zu bewerten und unsere Implementierung zu validieren, evaluieren wir GigaEvo anhand anspruchsvoller Probleme aus dem AlphaEvolve-Papier: Heilbronn-Dreiecksplatzierung, Kreispackung in Quadraten und hochdimensionale Kusszahlen. Das Framework betont Modularität, Nebenläufigkeit und einfache Experimentierbarkeit und ermöglicht so schnelles Prototyping durch deklarative Konfiguration. Wir liefern detaillierte Beschreibungen der Systemarchitektur, Implementierungsentscheidungen und experimentellen Methodik, um weitere Forschungen in LLM-gesteuerten evolutionären Methoden zu unterstützen. Das GigaEvo-Framework und der gesamte experimentelle Code sind unter https://github.com/AIRI-Institute/gigaevo-core verfügbar.
Die medizinische Bildsegmentierung ist grundlegend für biomedizinische Entdeckungen. Bestehende Methoden mangelt es an Generalisierbarkeit und sie erfordern umfangreiche, zeitaufwändige manuelle Annotationen für neue klinische Anwendungen. Hier stellen wir MedSAM-3 vor, ein textpromptbares medizinisches Segmentierungsmodell für die medizinische Bild- und Videosegmentierung. Durch das Feinabstimmen der Segment-Anything-Model (SAM)-3-Architektur auf medizinischen Bildern, die mit semantischen Konzeptlabels gepaart sind, ermöglicht unser MedSAM-3 eine medizinische promptbare Konzeptsegmentierung (PCS), die eine präzise Zielung anatomischer Strukturen über open-vocabulary-Textbeschreibungen anstelle rein geometrischer Prompts erlaubt. Wir führen weiterhin den MedSAM-3-Agenten ein, ein Framework, das multimodale große Sprachmodelle (MLLMs) integriert, um komplexe Reasoningprozesse und iterative Verfeinerungen in einem Agent-in-the-Loop-Workflow durchzuführen. Umfassende Experimente über diverse medizinische Bildgebungsmodalitäten, einschließlich Röntgen, MRT, Ultraschall, CT und Video, demonstrieren, dass unser Ansatz bestehende spezialisierte und Foundation-Modelle signifikant übertrifft. Wir werden unseren Code und unser Modell unter https://github.com/Joey-S-Liu/MedSAM3 veröffentlichen.
Visuell-sprachliche Agenten haben bemerkenswerte Fortschritte bei einer Vielzahl multimodaler Reasoning-Aufgaben erzielt; ihr Lernen bleibt jedoch durch die Grenzen menschlich annotierter Supervision eingeschränkt. Neuere Self-Rewarding-Ansätze versuchen, diese Einschränkung zu überwinden, indem sie Modelle als ihre eigenen Kritiker oder Belohnungsgeber agieren lassen. Dennoch haben rein textbasierte Selbstbewertungen Schwierigkeiten, komplexe visuelle Reasoning-Schritte zu verifizieren, und leiden oft unter Evaluations-Halluzinationen. Um diese Herausforderungen zu bewältigen, schlagen wir, inspiriert von jüngsten Fortschritten im werkzeuggestützten Reasoning, Agent0-VL vor, einen sich selbst entwickelnden visuell-sprachlichen Agenten, der kontinuierliche Verbesserung durch werkzeugintegriertes Reasoning erreicht. Agent0-VL integriert Werkzeugnutzung nicht nur in das Reasoning, sondern auch in die Selbstbewertung und Selbstreparatur, was dem Modell ermöglicht, sein Reasoning durch evidenzgestützte Analyse zu reflektieren, zu verifizieren und zu verfeinern. Es vereint zwei synergetische Rollen in einem einzigen LVLM: einen Solver, der mehrstufiges, werkzeuggestütztes Reasoning durchführt, und einen Verifier, der strukturiertes Feedback und feinkörnige Selbstbelohnungen durch werkzeuggestützte Kritik generiert. Diese Rollen interagieren durch einen Self-Evolving Reasoning Cycle, bei dem werkzeugbasierte Verifikation und verstärkendes Lernen gemeinsam die Reasoning- und Evaluationsverteilungen für eine stabile Selbstverbesserung ausrichten. Durch diese null-externe-Belohnungs-Evolution passt Agent0-VL sein Reasoning- und Verifikationsverhalten ohne menschliche Annotation oder externe Belohnungsmodelle an und erreicht eine kontinuierliche Selbstverbesserung. Experimente zur Lösung geometrischer Probleme und zur visuellen wissenschaftlichen Analyse zeigen, dass Agent0-VL eine Verbesserung von 12,5 % gegenüber dem Basismodell erzielt. Unser Code ist verfügbar unter https://github.com/aiming-lab/Agent0/Agent0-VL{dieser HTTPS-URL}.
Die Bewahrung der Identität des ersten Bildes bei gleichzeitiger Gewährleistung einer präzisen Bewegungssteuerung stellt eine grundlegende Herausforderung in der menschlichen Bildanimation dar. Der Bild-Bewegungs-Bindungsprozess des dominierenden Referenz-zu-Video (R2V)-Paradigmas übersieht kritische räumlich-zeitliche Fehlausrichtungen, die in realen Anwendungen häufig auftreten, was zu Problemen wie Identitätsdrift und visuellen Artefakten führt. Wir stellen SteadyDancer vor, ein auf dem Bild-zu-Video (I2V)-Paradigma basierendes Framework, das eine harmonische und kohärente Animation erreicht und als erstes System eine robuste Bewahrung des ersten Bildes sicherstellt. Erstens schlagen wir einen Konditions-Abgleichsmechanismus vor, um die beiden konfligierenden Bedingungen zu harmonisieren und eine präzise Steuerung ohne Einbußen bei der Wiedergabetreue zu ermöglichen. Zweitens entwerfen wir synergetische Posemodulationsmodule, die eine adaptive und kohärente Posendarstellung erzeugen, die hochgradig kompatibel mit dem Referenzbild ist. Schließlich setzen wir eine gestufte, entkoppelte Trainingspipeline ein, die das Modell hierarchisch für Bewegungsgenauigkeit, visuelle Qualität und zeitliche Kohärenz optimiert. Experimente zeigen, dass SteadyDancer state-of-the-art Leistung sowohl in der Erscheinungstreue als auch in der Bewegungssteuerung erreicht, während es deutlich weniger Trainingsressourcen als vergleichbare Methoden benötigt.
In den letzten Jahren gab es bedeutende Fortschritte bei Vereinheitlichten Multimodalen Modellen, doch eine grundlegende Frage bleibt bestehen: Führt Verstehen tatsächlich zu besserer Generierung? Um dies zu untersuchen, führen wir UniSandbox ein, einen entkoppelten Evaluierungsrahmen, der mit kontrollierten, synthetischen Datensätzen gepaart ist, um Datenlecks zu vermeiden und eine detaillierte Analyse zu ermöglichen. Unsere Ergebnisse zeigen eine signifikante Kluft zwischen Verstehen und Generierung, die sich hauptsächlich in zwei Schlüsseldimensionen widerspiegelt: schlussfolgernde Generierung und Wissenstransfer. Insbesondere bei Aufgaben zur schlussfolgernden Generierung beobachten wir, dass explizite Chain-of-Thought (CoT) im Verstehensmodul die Lücke effektiv schließt, und wir zeigen weiter, dass ein Self-Training-Ansatz diese Fähigkeit erfolgreich internalisieren kann, um implizites Schlussfolgern während der Generierung zu ermöglichen. Zusätzlich stellen wir bei Wissenstransfer-Aufgaben fest, dass CoT den Generierungsprozess unterstützt, indem es beim Abruf neu erlernten Wissens hilft, und wir entdecken auch, dass abfragebasierte Architekturen inhärent latente, CoT-ähnliche Eigenschaften aufweisen, die diesen Transfer beeinflussen. UniSandbox liefert vorläufige Erkenntnisse für die Gestaltung zukünftiger vereinheitlichter Architekturen und Trainingsstrategien, die die Lücke zwischen Verstehen und Generierung wirklich überbrücken. Code und Daten sind verfügbar unter https://github.com/PKU-YuanGroup/UniSandBox.
Reinforcement Learning (RL) spielt eine zunehmend wichtige Rolle bei der Verbesserung der Reasoning-Fähigkeiten von Large Language Models (LLMs), dennoch bleibt eine stabile und leistungsfähige Policy-Optimierung eine Herausforderung. Token-basierte Importance Ratios weisen oft eine hohe Varianz auf – ein Phänomen, das in Mixture-of-Experts-Modellen verstärkt auftritt – was zu instabilen Updates führt. Bestehende gruppenbasierte Policy-Optimierungsmethoden wie GSPO und GRPO mildern dieses Problem durch Hard Clipping, was es schwierig macht, sowohl Stabilität als auch effektives Lernen aufrechtzuerhalten. Wir schlagen Soft Adaptive Policy Optimization (SAPO) vor, das Hard Clipping durch ein glattes, temperaturabhängiges Gating ersetzt, das Off-Policy-Updates adaptiv dämpft, während nützliche Lernsignale erhalten bleiben. Im Vergleich zu GSPO und GRPO ist SAPO sowohl sequenzkohärent als auch tokenadaptiv. Wie GSPO bewahrt SAPO die Kohärenz auf Sequenzebene, aber sein weiches Gating bildet eine kontinuierliche Trust Region, die die spröde Hard-Clipping-Band von GSPO vermeidet. Wenn eine Sequenz einige stark Off-Policy-Token enthält, unterdrückt GSPO alle Gradienten für diese Sequenz, während SAPO nur die problematischen Token selektiv heruntergewichtet und das Lernsignal der nahezu On-Policy-Token bewahrt, was die Sample-Effizienz verbessert. Im Vergleich zu GRPO ersetzt SAPO hartes Token-Level-Clipping durch eine glatte, temperaturabhängige Skalierung, was informativere und stabilere Updates ermöglicht. Empirische Ergebnisse auf mathematischen Reasoning-Benchmarks zeigen, dass SAPO bei vergleichbaren Trainingsbudgets eine verbesserte Trainingsstabilität und eine höhere Pass@1-Leistung aufweist. Darüber hinaus setzen wir SAPO ein, um die Qwen3-VL-Modellreihe zu trainieren, und demonstrieren, dass SAPO konsistente Leistungssteigerungen über verschiedene Aufgaben und Modellgrößen hinweg erzielt. Insgesamt bietet SAPO eine zuverlässigere, skalierbarere und effektivere Optimierungsstrategie für das RL-Training von LLMs.
Vortrainierte Videomodelle erlernen leistungsfähige A-priori-Informationen zur Erzeugung hochwertiger, zeitlich kohärenter Inhalte. Obwohl diese Modelle in puncto zeitlicher Kohärenz überzeugen, sind ihre Dynamiken häufig durch die kontinuierliche Natur ihrer Trainingsdaten eingeschränkt. Wir stellen die Hypothese auf, dass wir durch die Integration der reichen und uneingeschränkten Inhaltsvielfalt von Bilddaten in diesen kohärenten zeitlichen Rahmen Bildsätze erzeugen können, die sowohl natürliche Übergänge als auch eine deutlich erweiterte dynamische Bandbreite aufweisen. Zu diesem Zweck führen wir iMontage ein, einen einheitlichen Rahmen, der entwickelt wurde, um ein leistungsstarkes Videomodell in einen All-in-One-Bildgenerator umzuwidmen. Das Framework verarbeitet und erzeugt Bildsätze variabler Länge und vereint so eine Vielzahl von Bildgenerierungs- und Bearbeitungsaufgaben. Um dies zu erreichen, schlagen wir eine elegante und minimalinvasive Adaptionsstrategie vor, ergänzt durch einen maßgeschneiderten Datenkuratierungsprozess und Trainingsparadigma. Dieser Ansatz ermöglicht es dem Modell, umfassende Bildbearbeitungsfähigkeiten zu erwerben, ohne seine wertvollen ursprünglichen Bewegungs-Priors zu beeinträchtigen. iMontage überzeugt bei mehreren gängigen Many-in-Many-out-Aufgaben, indem es nicht nur eine hohe kontextuelle Konsistenz zwischen den Bildern beibehält, sondern auch Szenen mit außergewöhnlicher Dynamik erzeugt, die konventionelle Grenzen überschreiten. Unsere Projektwebseite finden Sie unter: https://kr1sjfu.github.io/iMontage-web/.
Weltmodelle etablieren sich zunehmend als grundlegendes Paradigma für skalierbare, dateneffiziente verkörperte KI. In dieser Arbeit stellen wir GigaWorld-0 vor, ein vereinheitlichtes Weltmodell-Framework, das explizit als Daten-Engine für Vision-Language-Action (VLA) Lernen konzipiert ist. GigaWorld-0 integriert zwei synergetische Komponenten: GigaWorld-0-Video, das großskalige Videogenerierung nutzt, um unter feinkörniger Kontrolle von Erscheinungsbild, Kameraperspektive und Aktionssemantik diverse, texturreiche und zeitlich kohärente verkörperte Sequenzen zu erzeugen; und GigaWorld-0-3D, das 3D-Generativmodellierung, 3D-Gaussian-Splatting-Rekonstruktion, physikalisch differenzierbare Systemidentifikation und ausführbare Bewegungsplanung kombiniert, um geometrische Konsistenz und physikalische Realitätstreue zu gewährleisten. Ihre gemeinsame Optimierung ermöglicht die skalierbare Synthese von Verkörperungs-Interaktionsdaten, die visuell ansprechend, räumlich kohärent, physikalisch plausibel und befehlsausgerichtet sind. Eine Skalierung des Trainings wird durch unser effizientes GigaTrain-Framework ermöglicht, das FP8-Präzision und sparse Attention nutzt, um den Speicher- und Rechenbedarf drastisch zu reduzieren. Wir führen umfassende Evaluationen durch, die zeigen, dass GigaWorld-0 hochwertige, diverse und steuerbare Daten über mehrere Dimensionen hinweg generiert. Entscheidend ist, dass VLA-Modelle (z.B. GigaBrain-0), die mit GigaWorld-0-generierten Daten trainiert wurden, eine hohe Leistung in der realen Welt erzielen und die Generalisierungsfähigkeit und Aufgabenbewältigung auf physischen Robotern signifikant verbessern, ohne jegliche Interaktion mit der realen Welt während des Trainings.
Die quadratische Komplexität von Full-Attention begrenzt die effiziente Verarbeitung langer Kontexte in großen Sprachmodellen (LLMs). Sparse-Attention reduziert diese Kosten, indem jede Query nur auf eine Teilmenge vorheriger Token zugreifen kann; jedoch führen trainingsfreie Ansätze oft zu erheblichen Leistungseinbußen. Native Sparse-Attention-Methoden (z.B. NSA, MoBA) mildern dieses Problem, weisen jedoch ein kritisches Paradoxon auf: Sie erzeugen eine geringere Attention-Sparsity als Full-Attention-Modelle, obwohl sie darauf abzielen, Full Attention anzunähern, was ihre Wirksamkeit einschränken könnte. Wir führen dieses Paradoxon auf einen Gradient-Update-Defekt zurück: Niedrigrangige Key-Value-Paare, die während des Sparse-Trainings ausgeschlossen werden, erhalten weder einen Vorwärtsbeitrag noch Rückwärtsgradienten und lernen daher nie eine angemessene Unterdrückung. Um diese Einschränkung zu überwinden, schlagen wir SSA (Sparse Sparse Attention) vor, einen einheitlichen Trainingsrahmen, der sowohl sparse als auch full Attention berücksichtigt und eine bidirektionale Anpassung auf jeder Ebene erzwingt. Dieses Design erhält den Gradientenfluss zu allen Token, während es gleichzeitig explizit fördert, dass die Sparse-Attention-Ausgaben mit ihren Full-Attention-Pendants übereinstimmen, wodurch eine stärkere Sparsity gefördert wird. Infolgedessen erzielt SSA state-of-the-art Leistung unter sowohl sparse als auch full Attention Inference über mehrere Commonsense-Benchmarks hinweg. Darüber hinaus ermöglicht SSA Modellen, sich flexibel an verschiedene Sparsity-Budgets anzupassen; die Leistung verbessert sich konsistent, wenn mehr Token zugreifen dürfen, was flexible Kompromisse zwischen Rechenaufwand und Leistung zur Inferenzzeit unterstützt. Schließlich zeigen wir, dass natives Sparse-Attention-Training überraschenderweise die Langzeitkontext-Extrapolation verbessert, indem es die Überallokation von Attention-Werten in Sink-Bereichen reduziert, wobei SSA die stärkste Extrapolationsfähigkeit demonstriert.
Dieses Papier stellt HunyuanOCR vor, ein kommerziell einsetzbares, quelloffenes und schlankes (1B Parameter) Vision-Language-Model (VLM) für OCR-Aufgaben. Die Architektur besteht aus einem nativen Vision Transformer (ViT) und einem schlanken LLM, die über einen MLP-Adapter verbunden sind. HunyuanOCR zeigt eine überlegene Leistung und übertrifft kommerzielle APIs, traditionelle Pipelines und größere Modelle (z.B. Qwen3-VL-4B). Insbesondere übertrifft es aktuelle öffentliche Lösungen in Wahrnehmungsaufgaben (Text Spotting, Parsing) und glänzt in semantischen Aufgaben (IE, Text Image Translation), womit es den ersten Platz beim ICDAR 2025 DIMT Challenge (Small Model Track) sicherte. Darüber hinaus erzielt es state-of-the-art (SOTA) Ergebnisse auf OCRBench unter VLMs mit weniger als 3B Parametern. HunyuanOCR erzielt Durchbrüche in drei Schlüsselbereichen: 1) Vereinigung von Vielseitigkeit und Effizienz: Wir implementieren umfassende Unterstützung für Kernfähigkeiten wie Spotting, Parsing, IE, VQA und Übersetzung innerhalb eines schlanken Frameworks. Dies behebt die Einschränkungen von spezialisierten "OCR-Expertmodellen" und ineffizienten "Allgemeinen VLMs". 2) Vereinfachte End-to-End-Architektur: Die Übernahme eines reinen End-to-End-Paradigmas eliminiert Abhängigkeiten von Vorverarbeitungsmodulen (z.B. Layoutanalyse). Dies löst grundlegend die in traditionellen Pipelines verbreitete Fehlerfortpflanzung und vereinfacht die Systembereitstellung. 3) Datengetriebene und RL-Strategien: Wir bestätigen die kritische Rolle hochwertiger Daten und demonstrieren erstmals in der Branche, dass Reinforcement-Learning (RL)-Strategien signifikante Leistungssteigerungen bei OCR-Aufgaben bewirken. HunyuanOCR ist offiziell auf HuggingFace quelloffen verfügbar. Wir stellen ebenfalls eine hochperformante Bereitstellungslösung auf Basis von vLLM bereit, die seine Produktionseffizienz in die Spitzenklasse einordnet. Wir hoffen, dass dieses Modell die Spitzenforschung voranbringt und eine solide Grundlage für industrielle Anwendungen bietet.
Aktuelle interaktive Video-Weltmodelle generieren die Szenenentwicklung auf der Grundlage von Benutzeranweisungen. Obwohl sie beeindruckende Ergebnisse erzielen, bestehen zwei wesentliche Einschränkungen. Erstens nutzen sie die Korrespondenz zwischen anweisungsgesteuerter Szenenbewegung und der zugrundeliegenden 3D-Geometrie nicht vollständig aus, was zu struktureller Instabilität bei Blickwinkeländerungen führt. Zweitens vergessen sie historische Informationen während mehrstufiger Interaktionen leicht, was zu Fehlerakkumulation und progressiver Drift in der Szenensemantik und -struktur führt. Um diese Probleme zu adressieren, schlagen wir MagicWorld vor, ein interaktives Video-Weltmodell, das 3D-geometrische Priors und historische Retrieval-Mechanismen integriert. MagicWorld startet mit einem einzelnen Szenenbild, nutzt Benutzeraktionen zur Steuerung der dynamischen Szenenentwicklung und synthetisiert autoregressiv kontinuierliche Szenen. Wir führen das Action-Guided 3D Geometry Module (AG3D) ein, das aus dem ersten Frame jeder Interaktion und der entsprechenden Aktion eine Punktwolke erstellt und explizite geometrische Constraints für Blickwinkelübergänge bereitstellt, wodurch die strukturelle Konsistenz verbessert wird. Weiterhin schlagen wir den History Cache Retrieval (HCR)-Mechanismus vor, der relevante historische Frames während der Generierung abruft und als Konditionierungssignale injiziert, um dem Modell zu helfen, vergangene Szeneninformationen zu nutzen und Fehlerakkumulation zu mildern. Experimentelle Ergebnisse demonstrieren, dass MagicWorld bedeutende Verbesserungen in der Szenenstabilität und -kontinuität über Interaktionsiterationen hinweg erzielt.
Normalizing Flows (NFs) sind end-to-end likelihood-basierte generative Modelle für kontinuierliche Daten und haben in letzter Zeit mit ermutigenden Fortschritten in der Bildgenerierung wieder an Aufmerksamkeit gewonnen. Im Bereich der Videogenerierung jedoch, wo die raumzeitliche Komplexität und die Rechenkosten erheblich höher sind, setzen state-of-the-art Systeme fast ausschließlich auf diffusionsbasierte Modelle. In dieser Arbeit untersuchen wir diesen Gestaltungsspielraum erneut, indem wir STARFlow-V vorstellen, einen videobasierten Generator auf Basis von Normalizing Flows mit wesentlichen Vorteilen wie End-to-End-Lernen, robuster kausaler Vorhersage und nativer Likelihood-Schätzung. Aufbauend auf dem kürzlich vorgeschlagenen STARFlow operiert STARFlow-V in einem raumzeitlichen latenten Raum mit einer Global-Local-Architektur, die kausale Abhängigkeiten auf einen globalen latenten Raum beschränkt, während gleichzeitig reichhaltige lokale Interaktionen innerhalb eines Frames erhalten bleiben. Dies mildert die Fehlerakkumulation über die Zeit ab, eine häufige Schwäche der standardmäßigen autoregressiven Generierung mit Diffusionsmodellen. Zusätzlich schlagen wir Flow-Score-Matching vor, das das Modell mit einem leichtgewichtigen kausalen Entrauscher ausstattet, um die Konsistenz der Videogenerierung auf autoregressive Weise zu verbessern. Um die Abtasteffizienz zu steigern, setzt STARFlow-V ein videobewusstes Jacobi-Iterationsschema ein, das interne Updates in parallelisierbare Iterationen umwandelt, ohne die Kausalität zu verletzen. Dank der invertierbaren Struktur kann dasselbe Modell nativ Text-zu-Video-, Bild-zu-Video- sowie Video-zu-Video-Generierungsaufgaben unterstützen. Empirisch erreicht STARFlow-V eine hohe visuelle Qualität und zeitliche Konsistenz bei praktikabler Abtastrate im Vergleich zu diffusionsbasierten Baseline-Modellen. Diese Ergebnisse stellen, soweit uns bekannt ist, den ersten Beleg dafür dar, dass NFs in der Lage sind, hochwertige autoregressive Videogenerierung durchzuführen, und etablieren sie als vielversprechende Forschungsrichtung für den Aufbau von Weltmodellen. Code und generierte Beispiele sind verfügbar unter https://github.com/apple/ml-starflow.
Trotz Fortschritten haben Video-Diffusion-Transformer nach wie vor Schwierigkeiten, über ihre Trainingslänge hinaus zu generalisieren – eine Herausforderung, die wir als Video-Längenextrapolation bezeichnen. Wir identifizieren zwei Fehlermodi: modellspezifische periodische Inhaltswiederholung und einen universellen Qualitätsverfall. Bisherige Arbeiten versuchten, Wiederholungen über Positionskodierungen zu lösen, übersahen dabei den Qualitätsverfall und erreichten nur begrenzte Extrapolation. In dieser Arbeit betrachten wir diese Herausforderung aus einer grundlegenderen Perspektive: Aufmerksamkeitskarten, die direkt steuern, wie Kontext die Ausgaben beeinflusst. Wir zeigen, dass beide Fehlermodi eine gemeinsame Ursache haben: Aufmerksamkeitsdispersion, bei der Token jenseits des Trainingsfensters gelernte Aufmerksamkeitsmuster verwässern. Dies führt zu Qualitätsverfall, und Wiederholung entsteht als Sonderfall, wenn diese Dispersion sich zu periodischen Aufmerksamkeitsmustern strukturiert – induziert durch harmonische Eigenschaften von Positionskodierungen. Auf dieser Erkenntnis aufbauend schlagen wir UltraViCo vor, eine trainierungsfreie Plug-and-Play-Methode, die die Aufmerksamkeit für Token außerhalb des Trainingsfensters durch einen konstanten Dämpfungsfaktor unterdrückt. Durch die gemeinsame Behandlung beider Fehlermodi übertreffen wir eine breite Palette von Baseline-Methoden übergreifend über Modelle und Extrapolationsverhältnisse hinweg und verschieben die Extrapolationsgrenze von 2x auf 4x. Bemerkenswerterweise verbessert es Dynamic Degree und Imaging Quality um 233 % bzw. 40,5 % gegenüber der bisher besten Methode bei 4-facher Extrapolation. Darüber hinaus verallgemeinert sich unsere Methode nahtlos auf nachgelagerte Aufgaben wie kontrollierbare Videosynthese und -bearbeitung.
Generative Modelle haben bei der RGB-Synthese hervorragende Ergebnisse erzielt, doch praktische Anwendungen erfordern die Manipulation von RGBA-Daten. Dies hat zu einer fragmentierten Landschaft geführt: spezialisierte Einzelaufgaben-Modelle verarbeiten Alphakanäle, mangelt es ihnen jedoch an Vielseitigkeit, während vereinheitlichte Multi-Task-Frameworks auf den RGB-Bereich beschränkt sind. Um diese kritische Lücke zu schließen, präsentieren wir OmniAlpha, das erste vereinheitlichte, multi-task-fähige Generative Framework für sequentielle RGBA-Bildgenerierung und -bearbeitung. Seine Architektur zeichnet sich durch MSRoPE-BiL aus, eine neuartige RoPE-Methode mit einer bidirektional erweiterbaren Layer-Achse für das Diffusion Transformer (DiT)-Backbone, die die gleichzeitige Verarbeitung mehrerer Eingabe- und Ziel-RGBA-Layer ermöglicht. Um dieses Framework zu unterstützen, stellen wir AlphaLayers vor, einen neuen Datensatz mit 1.000 hochwertigen Multi-Layer-Tripeln, der durch eine neuartige Pipeline zur automatisierten Synthese und Filterung erstellt wurde. Durch gemeinsames Training von OmniAlpha anhand dieses Datensatzes für ein umfassendes Aufgabenspektrum von 21 verschiedenen Tasks zeigen umfangreiche Experimente, dass unser vereinheitlichter Ansatz durchweg starke, spezialisierte Baseline-Modelle übertrifft. Besonders bemerkenswert ist, dass OmniAlpha eine dramatische relative Reduktion des SAD-Fehlers um 84,8 % für maskenfreies Matting auf AIM-500 erreicht und in layer-konditionierten Vervollständigungsaufgaben über 90 % der menschlichen Präferenzen für sich gewinnt. Unsere Arbeit beweist, dass ein vereinheitlichtes Multi-Task-Modell eine überlegene gemeinsame Repräsentation für RGBA-Daten erlernen kann und so den Weg für leistungsfähigere, layer-sensitive generative Systeme ebnet.
Wir stellen ReDirector vor, eine neuartige kameragesteuerte Methode zur Erzeugung von Video-Wiederholungen für dynamisch aufgenommene Videos variabler Länge. Insbesondere korrigieren wir einen verbreiteten Fehlgebrauch von RoPE in früheren Arbeiten, indem wir die raumzeitlichen Positionen des Eingabevideos und der Ziel-Wiederholung in Einklang bringen. Darüber hinaus führen wir Rotary Camera Encoding (RoCE) ein, eine kamera-konditionierte RoPE-Phasenverschiebung, die Mehransichtsbeziehungen innerhalb und zwischen Eingabe- und Zielvideos erfasst und integriert. Durch die Integration von Kamerabedingungen in RoPE verallgemeinert unsere Methode auf Out-of-Distribution-Kameratrajektorien und Videolängen, was eine verbesserte Lokalisierung dynamischer Objekte und den Erhalt statischer Hintergründe bewirkt. Umfangreiche Experimente belegen zudem signifikante Verbesserungen der Kamerasteuerbarkeit, geometrischen Konsistenz und Videoqualität über verschiedene Trajektorien und Längen hinweg.
Während aktuelle Vision-Sprach-Modelle (VLMs) ein starkes Bildverständnis demonstrieren, bleibt ihre Fähigkeit, "mit Bildern zu denken", d.h. mehrstufige visuelle Interaktionen schlussfolgernd zu durchlaufen, begrenzt. Wir stellen VISTA-Gym vor, eine skalierbare Trainingsumgebung zur Förderung von werkzeugintegrierten visuellen Reasoning-Fähigkeiten in VLMs. VISTA-Gym vereinheitlicht verschiedene multimodale Reasoning-Aufgaben aus der realen Welt (insgesamt 7 Aufgaben aus 13 Datensätzen) durch eine standardisierte Schnittstelle für visuelle Werkzeuge (z.B. Grounding, Parsing), ausführbare Interaktionsschleifen, verifizierbare Feedback-Signale und effiziente Protokollierung von Trajektorien, was visuelles agentenbasiertes Verstärkungslernen im großen Maßstab ermöglicht. Obwohl aktuelle VLMs starkes rein textbasiertes Reasoning zeigen, haben sowohl proprietäre als auch Open-Source-Modelle nach wie vor Schwierigkeiten mit Werkzeugauswahl, -aufruf und -koordination. Mit VISTA-Gym trainieren wir VISTA-R1, um Werkzeugnutzung mit agentischem Reasoning durch mehrstufige Trajektoriensampling und end-to-end Verstärkungslernen zu verzahnen. Umfangreiche Experimente über 11 öffentliche reasoning-intensive VQA-Benchmarks zeigen, dass VISTA-R1-8B State-of-the-Art-Baselines ähnlicher Größe um 9,51 % bis 18,72 % übertrifft. Dies demonstriert, dass VISTA-Gym ein effektives Trainingsfeld ist, um die werkzeugintegrierten Reasoning-Fähigkeiten von VLMs freizusetzen.
Die Erzeugung realistischer 3D-Städte ist grundlegend für Weltmodelle, virtuelle Realität und Spieleentwicklung, wobei eine ideale urbane Szene sowohl stilistische Vielfalt, Feingranularität als auch Steuerbarkeit erfüllen muss. Bisherige Methoden können die kreative Flexibilität textbasierter Generierung jedoch nur unzureichend mit der durch explizite Strukturrepräsentationen ermöglichten Objektbearbeitbarkeit in Einklang bringen. Wir stellen MajutsuCity vor, ein natürlichsprachgesteuertes und ästhetisch adaptives Framework zur Synthese strukturell konsistenter und stilistisch vielfältiger 3D-Stadtszenen. MajutsuCity repräsentiert eine Stadt als Komposition steuerbarer Layouts, Assets und Materialien und arbeitet in einem vierstufigen Prozess. Um die Steuerbarkeit über die initiale Generierung hinaus zu erweitern, integrieren wir zudem MajutsuAgent, einen interaktiven, sprachbasierten Bearbeitungsagenten, der fünf objektbezogene Operationen unterstützt. Zur Unterstützung fotorealistischer und anpassbarer Szenensynthese erstellen wir außerdem MajutsuDataset, einen hochwertigen multimodalen Datensatz mit 2D-Semantiklayouts und Höhenkarten, diversen 3D-Gebäude-Assets sowie kuratierten PBR-Materialien und Himmelspanoramen, jeweils ergänzt durch detaillierte Annotationen. Parallel entwickeln wir einen praxistauglichen Satz von Bewertungsmetriken, der Schlüsseldimensionen wie strukturelle Konsistenz, Szenenkomplexität, Materialtreue und Lichtatmosphäre abdeckt. Umfangreiche Experimente zeigen, dass MajutsuCity den Layout-FID im Vergleich zu CityDreamer um 83,7 % und gegenüber CityCraft um 20,1 % reduziert. Unsere Methode belegt durchgängig die ersten Plätze in allen AQS- und RDR-Werten und übertrifft existierende Methoden mit deutlichem Abstand. Diese Ergebnisse bestätigen MajutsuCity als neuen State-of-the-Art in geometrischer Treue, stilistischer Anpassungsfähigkeit und semantischer Steuerbarkeit für die 3D-Stadtgenerierung. Wir erwarten, dass unser Framework neue Forschungsrichtungen in der 3D-Stadtgenerierung inspirieren kann. Unser Datensatz und Code werden unter https://github.com/LongHZ140516/MajutsuCity veröffentlicht.
Große Sprachmodelle (LLMs) lösen komplexe Probleme, scheitern jedoch an einfacheren Varianten, was darauf hindeutet, dass sie korrekte Ergebnisse durch Mechanismen erzielen, die sich grundlegend vom menschlichen Denken unterscheiden. Um diese Lücke zu verstehen, fassen wir Forschung aus der Kognitionswissenschaft zu einer Taxonomie von 28 kognitiven Elementen zusammen, die Denkinvarianten, metakognitive Kontrollen, Repräsentationen zur Organisation von Denken und Wissen sowie Transformationsoperationen umfassen. Wir führen ein detailliertes Evaluierungsframework ein und führen die erste großangelegte empirische Analyse von 192.000 Traces aus 18 Modellen über Text, Bild und Audio durch, ergänzt durch 54 menschliche "Think-Aloud"-Traces, die wir öffentlich verfügbar machen. Wir stellen fest, dass Modelle kognitive Elemente, die mit Erfolg korrelieren, unterauslasten und sich bei schlecht strukturierten Problemen, bei denen diverse Repräsentationen und metakognitive Überwachung kritisch sind, auf rigide sequentielle Verarbeitung verengen. Menschliche Traces zeigen mehr Abstraktion und konzeptuelle Verarbeitung, während Modelle standardmäßig zu oberflächlicher Enumeration neigen. Eine Metaanalyse von 1.600 LLM-Reasoning-Papers zeigt, dass sich die Forschungsgemeinschaft auf leicht quantifizierbare Elemente konzentriert (sequentielle Organisation: 55%, Zerlegung: 60%), aber metakognitive Kontrollen (Selbstwahrnehmung: 16%), die mit Erfolg korrelieren, vernachlässigt. Modelle verfügen über Verhaltensrepertoires, die mit Erfolg assoziiert sind, setzen diese aber nicht spontan ein. Durch Nutzung dieser Muster entwickeln wir Test-Time-Reasoning-Guidance, die erfolgreiche Strukturen automatisch scaffoldet und die Leistung bei komplexen Problemen um bis zu 66,7% verbessert. Indem unser Framework eine gemeinsame Sprache zwischen Kognitionswissenschaft und LLM-Forschung etabliert, ermöglicht es die systematische Diagnose von Reasoning-Fehlern und die prinzipiengeleitete Entwicklung von Modellen, die durch robuste kognitive Mechanismen statt durch trügerische Abkürzungen schlussfolgern, während es gleichzeitig Werkzeuge bereitstellt, um Theorien menschlicher Kognition im großen Maßstab zu testen.
Abstraktes Schlussfolgern aus minimalen Beispielen bleibt ein zentrales ungelöstes Problem für fortschrittliche Foundation-Modelle wie GPT-5 und Grok 4. Diese Modelle scheitern nach wie vor daran, strukturierte Transformationsregeln aus einer Handvoll Beispiele abzuleiten – eine wesentliche Charakteristik menschlicher Intelligenz. Das Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) bietet eine rigorose Testplattform für diese Fähigkeit, da es konzeptuelle Regelfindung und Transfer auf neue Aufgaben erfordert. Die meisten bestehenden Methoden behandeln ARC-AGI als rein textbasiertes Reasoning-Problem und übersehen dabei, dass Menschen beim Lösen solcher Rätsel stark auf visuelle Abstraktion angewiesen sind. Unsere Pilotexperimente offenbaren jedoch ein Paradoxon: Das naive Darstellen von ARC-AGI-Gittern als Bilder verschlechtert die Leistung aufgrund unpräziser Regelausführung. Dies führt zu unserer zentralen Hypothese, dass Vision und Sprache komplementäre Stärken in verschiedenen Reasoning-Phasen besitzen: Vision unterstützt globale Musterabstraktion und Verifikation, während Sprache sich auf symbolische Regelformulierung und präzise Ausführung spezialisiert. Auf dieser Erkenntnis aufbauend führen wir zwei synergetische Strategien ein: (1) Vision-Language Synergy Reasoning (VLSR), das ARC-AGI in modalitätsbezogene Teilaufgaben zerlegt; und (2) Modality-Switch Self-Correction (MSSC), die Vision nutzt, um textbasiertes Reasoning zur intrinsischen Fehlerkorrektur zu verifizieren. Umfangreiche Experimente zeigen, dass unser Ansatz eine Verbesserung von bis zu 4,33 % gegenüber rein textbasierten Baseline-Modellen über verschiedene Flaggschiff-Modelle und multiple ARC-AGI-Aufgaben hinweg erzielt. Unsere Ergebnisse legen nahe, dass die Vereinigung visueller Abstraktion mit linguistischem Reasoning ein entscheidender Schritt ist, um generalisierbare, menschenähnliche Intelligenz in zukünftigen Foundation-Modellen zu erreichen. Der Quellcode wird in Kürze veröffentlicht.
Fortschritte bei Computer-Use-Agents (CUAs) wurden bisher durch das Fehlen großer, hochwertiger Datensätze eingeschränkt, die erfassen, wie Menschen mit einem Computer interagieren. Während LLMs von umfangreichen Textdaten profitiert haben, existiert kein vergleichbarer Korpus für CUA-Trajektorien. Um diese Lücken zu schließen, stellen wir FaraGen vor, ein neuartiges synthetisches Datengenerierungssystem für mehrstufige Webaufgaben. FaraGen kann diverse Aufgaben von häufig genutzten Websites vorschlagen, mehrere Lösungsversuche generieren und erfolgreiche Trajektorien mit mehreren Verifizierern filtern. Es erreicht einen hohen Durchsatz, Ertrag und eine hohe Diversität für mehrstufige Webaufgaben und produziert verifizierte Trajektorien zu Kosten von etwa 1 $ pro Stück. Wir nutzen diese Daten, um Fara-7B zu trainieren, ein natives CUA-Modell, das den Computer ausschließlich über Screenshots wahrnimmt, Aktionen über vorhergesagte Koordinaten ausführt und klein genug ist, um auf dem Endgerät zu laufen. Unsere Ergebnisse zeigen, dass Fara-7B andere CUA-Modelle vergleichbarer Größe auf Benchmarks wie WebVoyager, Online-Mind2Web und WebTailBench – unserem neuartigen Benchmark, der unterrepräsentierte Webaufgaben in bestehenden Benchmarks besser erfasst – übertrifft. Darüber hinaus ist Fara-7B mit wesentlich größeren Frontier-Modellen wettbewerbsfähig, was die zentralen Vorteile skalierbarer Datengenerierungssysteme für die Entwicklung kleiner, effizienter agentenbasierter Modelle verdeutlicht. Wir stellen Fara-7B als Open-Weight-Modell auf Microsoft Foundry und HuggingFace zur Verfügung und veröffentlichen WebTailBench.
Diese Arbeit untersucht Visual Question-Visual Answering (VQ-VA): die Erzeugung eines Bildes anstelle von Text als Antwort auf eine visuelle Frage – eine Fähigkeit, die kürzlich in proprietären Systemen wie NanoBanana und GPT-Image aufgetaucht ist. Um diese Fähigkeit auch für Open-Source-Modelle zugänglich zu machen, stellen wir VQ-VA World vor, ein datenzentriertes Framework, das auf einer agentenbasierten Pipeline für die groß angelegte, gezielte Datenerstellung aufbaut. Durch den Einsatz von Web-Scale-Deployment crawlt diese Pipeline eine massive Menge von ~1,8 Millionen hochwertigen, verschachtelten Bild-Text-Beispielen für das Modelltraining. Für die Evaluation veröffentlichen wir zudem IntelligentBench, einen von Menschen kuratierten Benchmark, der VQ-VA systematisch in den Bereichen Weltwissen, Designwissen und logisches Denken bewertet. Das Training mit VQ-VA World-Daten führt zu starken empirischen Verbesserungen: Es ermöglicht LightFusion, einen Wert von 53,06 auf IntelligentBench zu erreichen, was die besten bisherigen Open-Source-Baselines (d.h. 7,78 vom Standard-LightFusion; 1,94 von UniWorld-V1) erheblich übertrifft und die Lücke zu führenden proprietären Systemen (z.B. 81,67 von NanoBanana; 82,64 von GPT-Image) deutlich verringert. Durch die Veröffentlichung des vollständigen Satzes von Modellgewichten, Datensätzen und Pipelines hoffen wir, zukünftige Forschung zu VQ-VA anzuregen.
Die Aufgabenplanung ist entscheidend für verkörperte KI, da sie Agenten ermöglicht, natürliche Sprachinstruktionen zu befolgen und Aktionen effizient in 3D-Physischen Welten auszuführen. Bestehende Datensätze vereinfachen die Aufgabenplanung jedoch oft, indem sie Operations-Research(OR)-Wissen und 3D-räumliche Verankerung ignorieren. In dieser Arbeit schlagen wir ORS3D vor, eine neue Aufgabe, die das Zusammenspiel von Sprachverständnis, 3D-Verankerung und Effizienzoptimierung erfordert. Im Gegensatz zu früheren Settings verlangt ORS3D von Agenten, die Gesamtbearbeitungszeit durch Parallelisierung von Teilaufgaben zu minimieren, z.B. das Reinigen des Waschbeckens während der Mikrowellenbetrieb läuft. Um die Forschung zu ORS3D zu fördern, erstellen wir ORS3D-60K, einen umfangreichen Datensatz mit 60.000 zusammengesetzten Aufgaben über 4.000 realen Szenen. Darüber hinaus schlagen wir GRANT vor, ein verkörpertes multimodales Großsprachmodell mit einem einfachen aber effektiven Planungs-Token-Mechanismus zur Generierung effizienter Aufgabenpläne und verankerter Aktionen. Umfangreiche Experimente auf ORS3D-60K validieren die Wirksamkeit von GRANT in den Bereichen Sprachverständnis, 3D-Verankerung und Planungseffizienz. Der Code ist verfügbar unter https://github.com/H-EmbodVis/GRANT.
Die realistische 3D-Stadterzeugung ist grundlegend für eine Vielzahl von Anwendungen, einschließlich Virtual Reality und digitaler Zwillinge. Allerdings stützen sich die meisten bestehenden Methoden auf das Training eines einzelnen Diffusionsmodells, was ihre Fähigkeit zur Erzeugung personalisierter und grenzenloser städtischer Szenen einschränkt. In diesem Artikel stellen wir Yo'City vor, ein neuartiges agentenbasiertes Framework, das durch Nutzung der Reasoning- und Kompositionsfähigkeiten von Standard-Großmodellen eine benutzerdefinierte und unendlich erweiterbare 3D-Stadterzeugung ermöglicht. Konkret konzeptualisiert Yo'City die Stadt zunächst durch eine Top-Down-Planungsstrategie, die eine hierarchische "Stadt-Bezirk-Raster"-Struktur definiert. Der Globale Planer bestimmt das Gesamtlayout und potenzielle Funktionsbezirke, während der Lokale Designer jeden Bezirk mit detaillierten Rasterbeschreibungen weiter verfeinert. Anschließend wird die Raster-basierte 3D-Erzeugung durch eine "Produzieren-Verfeinern-Bewerten"-Schleife zur isometrischen Bildsynthese erreicht, gefolgt von einer Bild-zu-3D-Generierung. Um kontinuierliche Stadtentwicklung zu simulieren, führt Yo'City weiterhin einen benutzerinteraktiven, beziehungsgesteuerten Erweiterungsmechanismus ein, der eine auf Szenengraphen basierende distanz- und semantikbewusste Layoutoptimierung durchführt und so räumlich kohärentes Stadtwachstum gewährleistet. Um unsere Methode umfassend zu evaluieren, erstellen wir einen diversen Benchmark-Datensatz und entwerfen sechs multidimensionale Metriken, die die Erzeugungsqualität aus semantischer, geometrischer, texturaler und layoutbezogener Perspektive bewerten. Umfangreiche Experimente zeigen, dass Yo'City durchgängig alle existierenden State-of-the-Art-Methoden in allen Evaluierungsaspekten übertrifft.
Retrieval-augmented Generation (RAG) verbessert große Sprachmodelle (LLMs) durch externes Wissen, leidet jedoch weiterhin unter langen Kontexten und einer getrennten Optimierung von Retrieval und Generierung. In dieser Arbeit schlagen wir CLaRa (Continuous Latent Reasoning) vor, ein vereinheitlichtes Framework, das eingebettungsbasierte Kompression und gemeinsame Optimierung in einem gemeinsamen kontinuierlichen Raum durchführt. Um semantisch reiche und abrufbare komprimierte Vektoren zu erhalten, führen wir SCP ein, ein schlüsselerhaltendes Datensynthese-Framework, das QA- und Paraphrasen-Supervision nutzt. CLaRa trainiert anschließend den Reranker und Generator end-to-end über einen einzigen Sprachmodellierungsverlust, wobei Gradienten mittels eines differenzierbaren Top-k-Schätzers durch beide Module fließen. Theoretisch richtet diese vereinheitlichte Optimierung die Retrieval-Relevanz an der Antwortqualität aus. Experimente über mehrere QA-Benchmarks zeigen, dass CLaRa state-of-the-art Kompressions- und Reranking-Leistung erreicht und häufig textbasierte, feinabgestimmte Baseline-Modelle übertrifft.
Während neuere Videogenerierungsmodelle eine bedeutende visuelle Qualität erreicht haben, leiden sie oft unter mangelnder expliziter physikalischer Steuerbarkeit und Plausibilität. Um dies zu adressieren, haben einige aktuelle Studien versucht, die Videogenerierung durch physikbasiertes Rendering zu steuern. Diese Methoden stehen jedoch vor inhärenten Herausforderungen bei der präzisen Modellierung komplexer physikalischer Eigenschaften und der effektiven Steuerung des resultierenden physikalischen Verhaltens über längere Zeitsequenzen. In dieser Arbeit stellen wir PhysChoreo vor, ein neuartiges Framework, das aus einem einzelnen Bild Videos mit vielfältiger Steuerbarkeit und physikalischer Realitätsnähe generieren kann. Unser Verfahren besteht aus zwei Stufen: Zuerst schätzt es die statischen anfänglichen physikalischen Eigenschaften aller Objekte im Bild durch teilbewusste Rekonstruktion physikalischer Eigenschaften. Anschließend synthetisiert es durch zeitlich instruierte und physikalisch editierbare Simulation hochwertige Videos mit reichhaltigem dynamischem Verhalten und physikalischer Realitätsnähe. Experimentelle Ergebnisse zeigen, dass PhysChoreo Videos mit reichhaltigen Verhaltensweisen und physikalischer Realitätsnähe generieren kann und state-of-the-art-Methoden in mehreren Evaluierungsmetriken übertrifft.
Diffusionsbasierte Bearbeitung ermöglicht realistische Modifikationen lokaler Bildbereiche, wodurch KI-generierte Inhalte schwerer zu erkennen sind. Bestehende Benchmarks für die AIGC-Erkennung konzentrieren sich auf die Klassifizierung gesamter Bilder und übersehen die Lokalisierung diffusionsbasierter Bearbeitungen. Wir stellen DiffSeg30k vor, einen öffentlich verfügbaren Datensatz mit 30.000 diffusionsbearbeiteten Bildern und Pixel-level-Annotationen, der zur Unterstützung feingranularer Detektion entwickelt wurde. DiffSeg30k zeichnet sich aus durch: 1) Bilder aus realen Umgebungen – wir sammeln Bilder oder Bildprompts aus COCO, um die reale Inhaltsvielfalt widerzuspiegeln; 2) Vielfältige Diffusionsmodelle – lokale Bearbeitungen unter Verwendung von acht state-of-the-art Diffusionsmodellen; 3) Mehrstufige Bearbeitung – jedes Bild durchläuft bis zu drei sequenzielle Bearbeitungen, um reale sequenzielle Bearbeitungsprozesse nachzubilden; und 4) Realistische Bearbeitungsszenarien – eine auf Vision-Language-Modellen (VLM) basierende Pipeline identifiziert automatisch bedeutungsvolle Regionen und erzeugt kontextbewusste Prompts für Ergänzungen, Entfernungen und Attributänderungen. DiffSeg30k verlagert die AIGC-Erkennung von binärer Klassifikation hin zur semantischen Segmentierung und ermöglicht gleichzeitig die Lokalisierung von Bearbeitungen sowie die Identifizierung der verwendeten Bearbeitungsmodelle. Wir evaluieren drei Baseline-Segmentierungsansätze, die erhebliche Herausforderungen bei semantischen Segmentierungsaufgaben aufdecken, insbesondere hinsichtlich der Robustheit gegenüber Bildverzerrungen. Experimente zeigen zudem, dass Segmentierungsmodelle – obwohl für die Pixel-level-Lokalisierung trainiert – äußerst zuverlässige Whole-Image-Klassifikatoren für Diffusionsbearbeitungen werden und etablierte Fälschungsklassifikatoren übertreffen, während sie großes Potenzial für die Generalisierung über verschiedene Generatoren hinweg zeigen. Wir sind überzeugt, dass DiffSeg30k die Forschung zur feingranularen Lokalisierung KI-generierter Inhalte voranbringen wird, indem es die Möglichkeiten und Grenzen segmentierungsbasierter Methoden aufzeigt. DiffSeg30k ist verfügbar unter: https://huggingface.co/datasets/Chaos2629/Diffseg30k
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) und Video-Agenten-Systemen haben das allgemeine Videoverständnis erheblich verbessert. Bei der Anwendung auf wissenschaftliches Videoverständnis und Bildungsaufgaben – einem Bereich, der die Integration von externem Fachwissen und strenges schrittweises Denken erfordert – stoßen bestehende Ansätze jedoch oft an ihre Grenzen. Um diese Lücke zu schließen, stellen wir SciEducator vor, das erste iterative, sich selbst weiterentwickelnde Multi-Agenten-System für wissenschaftliches Videoverständnis und Bildungszwecke. Unser Design, das auf dem klassischen Deming-Zyklus aus der Managementwissenschaft basiert, formt dessen Plan-Do-Check-Act-Prinzipien in einen sich selbst entwickelnden Reasoning- und Feedback-Mechanismus um, der die Interpretation komplexer wissenschaftlicher Abläufe in Videos erleichtert. Darüber hinaus kann SciEducator maßgeschneiderte multimodale Bildungsinhalte zu spezifischen wissenschaftlichen Prozessen erstellen, darunter textuelle Anleitungen, visuelle Anweisungen, Audio-Narrationen und interaktive Referenzen. Zur Evaluierung haben wir SciVBench entwickelt, einen Benchmark mit 500 von Experten verifizierten und literaturgestützten wissenschaftlichen Frage-Antwort-Paaren aus fünf Kategorien, die physikalische, chemische und Alltagsphänomene abdecken. Umfangreiche Experimente zeigen, dass SciEducator auf diesem Benchmark führende Closed-Source-MLLMs (z.B. Gemini, GPT-4o) und state-of-the-art Video-Agenten deutlich übertrifft und damit ein neues Paradigma für die Community etabliert.
Während neuere Text-zu-Video (T2V) Diffusionsmodelle beeindruckende Qualität und Prompt-Treue erreicht haben, erzeugen sie häufig Ausgaben mit geringer Diversität, wenn mehrere Videos aus einem einzelnen Text-Prompt generiert werden. Wir adressieren diese Herausforderung, indem wir sie als Problem der Policy-Optimierung auf Mengenebene formulieren, mit dem Ziel, eine Policy zu trainieren, die die vielfältige Bandbreite plausibler Ergebnisse für einen gegebenen Prompt abdeckt. Um dies zu lösen, führen wir DPP-GRPO ein, einen neuartigen Rahmen für die Erzeugung diverser Videos, der die Theorien der Determinantal Point Processes (DPPs) und des Group Relative Policy Optimization (GRPO) kombiniert, um eine explizite Belohnung für diverse Generierungen zu erzwingen. Unser Ziel ist es, Diversität in ein explizites Signal zu verwandeln, indem abnehmende Erträge für redundante Stichproben auferlegt werden (mittels DPP) und gleichzeitig gruppenweises Feedback über Kandidatenmengen bereitgestellt wird (mittels GRPO). Unser Framework ist plug-and-play und modellagnostisch und fördert diverse Generierungen in Bezug auf visuelle Erscheinung, Kamerabewegungen und Szenenstruktur, ohne dabei die Prompt-Treue oder die perzeptive Qualität zu opfern. Wir implementieren unsere Methode auf WAN und CogVideoX und zeigen, dass unsere Methode die Videodiversität auf State-of-the-Art-Benchmarks wie VBench, VideoScore und in Studien zur menschlichen Präferenz konsistent verbessert. Darüber hinaus veröffentlichen wir unseren Code und einen neuen Benchmark-Datensatz mit 30.000 diversen Prompts, um zukünftige Forschung zu unterstützen.
Generative Modelle für die strukturbasierte Wirkstoffentwicklung sind oft auf eine spezifische Modalität beschränkt, was ihre breitere Anwendbarkeit einschränkt. Um diese Herausforderung zu bewältigen, stellen wir FuncBind vor, ein auf Computer Vision basierendes Framework zur Erzeugung von zielstruktur-konditionierten, all-atomaren Molekülen über verschiedene atomare Systeme hinweg. FuncBind verwendet neuronale Felder, um Moleküle als kontinuierliche Atomdichten darzustellen, und setzt score-basierte generative Modelle mit modernen Architekturen ein, die aus der Computer Vision-Literatur adaptiert wurden. Diese modalitätsunabhängige Repräsentation ermöglicht es, ein einheitliches Modell auf diversen atomaren Systemen zu trainieren – von kleinen bis hin zu großen Molekülen – und mit variablen Atom-/Residuenanzahlen umzugehen, einschließlich nicht-kanonischer Aminosäuren. FuncBind erzielt eine wettbewerbsfähige *in-silico*-Leistung bei der Generierung von kleinen Molekülen, makrozyklischen Peptiden und Antikörper-CDR-Schleifen (*Complementarity-Determining Region*), konditioniert auf Zielstrukturen. FuncBind generierte zudem *in vitro* neuartige Antikörper-Binder durch *de-novo*-Neugestaltung der CDR-H3-Schleife zweier ausgewählter Co-Kristallstrukturen. Als abschließenden Beitrag stellen wir einen neuen Datensatz und Benchmark für die strukturkonditionierte Generierung makrozyklischer Peptide vor. Der Code ist verfügbar unter https://github.com/prescient-design/funcbind.
Große Sprachmodelle (LLMs) zeigen partielle Prognosefähigkeiten für soziale, politische und wirtschaftliche Ereignisse. Ihre Vorhersagefähigkeit variiert jedoch erheblich mit der Domänenstruktur und der Formulierung der Prompts. Wir untersuchen, wie sich die Prognoseleistung verschiedener Modellfamilien bei realen Fragen zu Ereignissen unterscheidet, die nach dem Cut-off-Datum der Modelle stattfanden. Wir analysieren, wie Kontext, Fragentyp und externes Wissen die Genauigkeit und Kalibrierung beeinflussen und wie das Hinzufügen faktischen Nachrichtenkontexts die Meinungsbildung und Fehlermodi verändert. Unsere Ergebnisse zeigen, dass die Prognosefähigkeit stark variiert, da sie davon abhängt, was und wie wir fragen.
Welche Daten sollten ein Vision-Sprache-Modell trainieren? Um diese Frage zu beantworten, konzentrieren sich viele Datenkuratierungsbemühungen auf die Qualität eines Datensatzes. Die meisten dieser bestehenden Methoden sind jedoch (i) offline, d.h. sie erstellen einen statischen Datensatz aus einem Satz vordefinierter Filterkriterien, und (ii) konzeptagnostisch, d.h. sie verwenden modellbasierte Filter, die zusätzliche Datenverzerrungen verursachen. In dieser Arbeit gehen wir über solche offline, konzeptagnostischen Methoden hinaus und plädieren für eine flexiblere, aufgabenadaptive Online-Kuratierung auf Konzeptbasis. Unser erster Beitrag ist DataConcept, eine Sammlung von 128M aus dem Web gecrawlten Bild-Text-Paaren, die mit feingranularen Details zu ihrer Konzeptzusammensetzung annotiert sind. Aufbauend auf DataConcept stellen wir Concept-Aware Batch Sampling (CABS) vor, ein einfaches, aber effektives Batch-Sampling-Framework, das Batches flexibel und dynamisch basierend auf spezifischen Zielverteilungen konstruiert. Wir schlagen zwei Varianten vor: (i) Diversity Maximization (CABS-DM), um Batches mit einer breiten Abdeckung verfügbarer Konzepte zu kuratieren, und (ii) Frequency Maximization (CABS-FM), um Batches mit hoher Objektvielfalt zu kuratieren. Durch umfangreiche Evaluierungen über 28 Benchmarks hinweg zeigen wir, dass unsere CABS-Methode die CLIP/SigLIP-Modellklassen erheblich begünstigt und hochleistungsfähige Modelle hervorbringt. Insgesamt stellt CABS eine starke Open-Source-Alternative zu proprietären Online-Datenkuratierungsalgorithmen dar, die es Anwendern ermöglicht, benutzerdefinierte Konzeptverteilungen zu definieren, die für bestimmte Downstream-Aufgaben optimiert sind.
Die präzise Erfassung der 3D-Bewegung eines Tischtennisballs aus Standard-Monokularvideos stellt eine anspruchsvolle Herausforderung dar, da bestehende, auf synthetischen Daten trainierte Methoden nur begrenzt auf die verrauschten und unvollkommenen Ball- und Tischdetektionen der realen Welt verallgemeinern können. Dies ist hauptsächlich auf den inhärenten Mangel an 3D-Ground-Truth-Trajektorien und Drall-Annotationen für reale Videos zurückzuführen. Um dies zu überwinden, schlagen wir eine neuartige Zwei-Stufen-Pipeline vor, die das Problem in eine Front-End-Wahrnehmungsaufgabe und eine Back-End-2D-zu-3D-Überführungsaufgabe unterteilt. Diese Trennung ermöglicht es uns, die Front-End-Komponenten mit umfangreicher 2D-Aufsicht aus unserem neu erstellten TTHQ-Datensatz zu trainieren, während das Back-End-Überführungsnetzwerk ausschließlich auf physikalisch korrekten synthetischen Daten trainiert wird. Wir haben das Überführungsmodell speziell so neu konzipiert, dass es robust gegenüber gängigen Störfaktoren der realen Welt ist, wie z.B. fehlenden Detektionen und variierenden Bildfrequenzen. Durch die Integration eines Balldetektors und eines Tisch-Keypoint-Detektors verwandelt unser Ansatz eine Machbarkeitsstudie zur Überführungsmethode in eine praktische, robuste und leistungsstarke End-to-End-Anwendung für die 3D-Trajektorien- und Drallanalyse im Tischtennis.