papers.description
Wir stellen T-pro 2.0 vor, ein Open-Weight-Russisches LLM für hybrides Reasoning und effizientes Inferencing. Das Modell unterstützt sowohl direkte Antwortgenerierung als auch die Erzeugung von Reasoning-Traces und nutzt dazu einen kyrillisch-dichten Tokenizer sowie eine angepasste EAGLE-Pipeline für spekulatives Decodieren zur Latenzreduzierung. Um reproduzierbare und erweiterbare Forschung zu ermöglichen, veröffentlichen wir die Modellgewichte, den T-Wix-500k-Instruktionskorpus, den T-Math-Reasoning-Benchmark und die EAGLE-Gewichte auf Hugging Face. Diese Ressourcen ermöglichen es Nutzern, russischsprachiges Reasoning zu erforschen und sowohl das Modell als auch die Inferenz-Pipeline zu erweitern oder anzupassen. Eine öffentliche Web-Demo stellt Reasoning- und Non-Reasoning-Modi vor und veranschaulicht die Beschleunigungseffekte unseres Inferenz-Stacks in verschiedenen Domänen. T-pro 2.0 dient somit als zugängliches Open-System zum Aufbau und zur Evaluation effizienter, praktischer russischer LLM-Anwendungen.
Große Sprachmodelle (LLMs) haben durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) bedeutende Fortschritte bei der Lösung komplexer Denkaufgaben erzielt. Dieser Fortschritt ist ebenfalls untrennbar mit der durch zuverlässige Verifizierer automatisierten Überprüfung verbunden. Allerdings sind aktuelle ergebnisbasierte Verifizierer (OVs) nicht in der Lage, die unzuverlässigen Zwischenschritte in langen Denkketten (Chains of Thought, CoTs) zu überprüfen. Gleichzeitig haben aktuelle prozessbasierte Verifizierer (PVs) Schwierigkeiten, Fehler in komplexen, langen CoTs zuverlässig zu erkennen, was durch den Mangel an hochwertigen Annotationen aufgrund der prohibitiv hohen Kosten menschlicher Annotationsarbeit begrenzt wird. Daher schlagen wir den ergebnisbasierten Prozessverifizierer (Outcome-based Process Verifier, OPV) vor, der den Begründungsprozess zusammengefasster Ergebnisse aus langen CoTs überprüft, um sowohl eine präzise als auch effiziente Verifikation zu erreichen und eine großskalige Annotation zu ermöglichen. Um den vorgeschlagenen Verifizierer zu befähigen, setzen wir einen iterativen Active-Learning-Ansatz mit Expertenannotationen ein, um die Verifikationsfähigkeit von OPV schrittweise mit geringeren Annotationskosten zu verbessern. Konkret werden in jeder Iteration die unsichersten Fälle des aktuell besten OPV annotiert und anschließend genutzt, um durch Rejection Fine-Tuning (RFT) und RLVR einen neuen OPV für die nächste Runde zu trainieren. Umfangreiche Experimente belegen die überlegene Leistung und breite Anwendbarkeit von OPV. Er erzielt neue state-of-the-art Ergebnisse auf unserem zurückgehaltenen \thisbench und übertrifft deutlich größere Open-Source-Modelle wie Qwen3-Max-Preview mit einem F1-Score von 83,1 gegenüber 76,3. Darüber hinaus erkennt OPV effektiv False Positives in synthetischen Datensätzen, was eng mit der Bewertung durch Experten übereinstimmt. Bei der Zusammenarbeit mit Policy-Modeln erzielt OPV durchgängig Leistungssteigerungen, z. B. steigert er die Genauigkeit von DeepSeek-R1-Distill-Qwen-32B auf AIME2025 von 55,2 % auf 73,3 %, wenn sich das Rechenbudget erhöht.
Reinforcement Learning (RL), das bereits zuvor als wirksam für große Sprach- und multimodale Modelle nachgewiesen wurde, wurde kürzlich erfolgreich zur Verbesserung der 2D-Bildgenerierung erweitert. Die Anwendung von RL auf die 3D-Generierung ist jedoch weitgehend unerforscht, was an der höheren räumlichen Komplexität von 3D-Objekten liegt, die global konsistente Geometrie und feinkörnige lokale Texturen erfordern. Dies macht die 3D-Generierung besonders anfällig für Reward-Designs und RL-Algorithmen. Um diese Herausforderungen zu bewältigen, führen wir die erste systematische Untersuchung von RL für die text-zu-3D autoregressive Generierung in mehreren Dimensionen durch. (1) Reward-Designs: Wir evaluieren Reward-Dimensionen und Modellauswahl und zeigen, dass die Übereinstimmung mit menschlichen Präferenzen entscheidend ist und dass allgemeine multimodale Modelle ein robustes Signal für 3D-Attribute liefern. (2) RL-Algorithmen: Wir untersuchen GRPO-Varianten, die Wirksamkeit der Optimierung auf Token-Ebene und analysieren zudem die Skalierung von Trainingsdaten und Iterationen. (3) Text-zu-3D-Benchmarks: Da bestehende Benchmarks die impliziten Reasoning-Fähigkeiten von 3D-Generierungsmodellen nicht erfassen, führen wir MME-3DR ein. (4) Erweiterte RL-Paradigmen: Angeregt durch die natürliche Hierarchie der 3D-Generierung schlagen wir Hi-GRPO vor, das die global-lokal hierarchische 3D-Generierung durch spezielle Reward-Ensembles optimiert. Aufbauend auf diesen Erkenntnissen entwickeln wir AR3D-R1, das erste RL-verbesserte Text-zu-3D-Modell, das von groben Formen bis zur Texturverfeinerung expertenhaft arbeitet. Wir hoffen, dass diese Studie Einblicke in das RL-gesteuerte Reasoning für die 3D-Generierung bietet. Der Code ist unter https://github.com/Ivan-Tang-3D/3DGen-R1 verfügbar.
Große Sprachmodelle (LLMs) haben durch Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) bedeutende Fortschritte bei der Lösung komplexer Denkaufgaben erzielt. Dieser Fortschritt ist ebenfalls untrennbar mit der durch zuverlässige Verifizierer automatisierten Überwachung verbunden. Allerdings sind aktuelle ergebnisbasierte Verifizierer (OVs) nicht in der Lage, die unzuverlässigen Zwischenschritte in langen Denkketten (Chains of Thought, CoTs) zu überprüfen. Gleichzeitig haben aktuelle prozessbasierte Verifizierer (PVs) Schwierigkeiten, Fehler in komplexen, langen CoTs zuverlässig zu erkennen, was durch den Mangel an hochwertigen Annotationen aufgrund der prohibitiv hohen Kosten menschlicher Anmerkungen begrenzt ist. Daher schlagen wir den ergebnisbasierten Prozessverifizierer (Outcome-based Process Verifier, OPV) vor, der den Begründungsprozess zusammengefasster Ergebnisse aus langen CoTs überprüft, um sowohl eine genaue als auch effiziente Verifikation zu erreichen und eine großskalige Annotation zu ermöglichen. Um den vorgeschlagenen Verifizierer zu befähigen, setzen wir einen iterativen Active-Learning-Rahmen mit Expertenannotationen ein, um die Verifikationsfähigkeit von OPV schrittweise mit geringeren Annotationskosten zu verbessern. Konkret werden in jeder Iteration die unsichersten Fälle des aktuell besten OPV annotiert und anschließend verwendet, um durch Rejection Fine-Tuning (RFT) und RLVR einen neuen OPV für die nächste Runde zu trainieren. Umfangreiche Experimente demonstrieren die überlegene Leistung und breite Anwendbarkeit von OPV. Es erzielt neue state-of-the-art Ergebnisse auf unserem zurückgehaltenen OPV-Bench und übertrifft deutlich größere Open-Source-Modelle wie Qwen3-Max-Preview mit einem F1-Score von 83,1 gegenüber 76,3. Des Weiteren erkennt OPV effektiv falsch-positive Ergebnisse innerhalb synthetischer Datensätze, was eng mit der Expertenbewertung übereinstimmt. Bei der Zusammenarbeit mit Policy-Modellen erzielt OPV durchgängig Leistungssteigerungen, z.B. steigert es die Genauigkeit von DeepSeek-R1-Distill-Qwen-32B auf AIME2025 von 55,2 % auf 73,3 %, wenn sich das Rechenbudget erhöht.
Große Sprachmodell-Agenten (LLM) zeigen starke mathematische Problemlösungsfähigkeiten und können sogar Probleme auf dem Niveau der Internationalen Mathematik-Olympiade (IMO) lösen, wenn sie durch formale Beweissysteme unterstützt werden. Aufgrund schwacher Heuristiken für Hilfskonstruktionen wird die KI zur Lösung geometrischer Probleme jedoch nach wie vor von Expertenmodellen wie AlphaGeometry 2 dominiert, die für Training und Evaluation stark auf groß angelegte Datensynthese und Suche angewiesen sind. In dieser Arbeit unternehmen wir einen ersten Versuch, einen LLM-Agenten auf Medaillengewinner-Niveau für Geometrie zu entwickeln, und präsentieren InternGeometry. InternGeometry überwindet die heuristischen Grenzen in der Geometrie, indem es iterativ Sätze und Hilfskonstruktionen vorschlägt, diese mit einer symbolischen Engine verifiziert und anhand des Feedbacks der Engine nachfolgende Vorschläge reflektiert. Ein dynamischer Speichermechanismus ermöglicht es InternGeometry, über zweihundert Interaktionen mit der symbolischen Engine pro Problem durchzuführen. Um das Lernen weiter zu beschleunigen, führen wir Complexity-Boosting Reinforcement Learning (CBRL) ein, das die Komplexität synthetisierter Probleme über die Trainingsphasen hinweg schrittweise erhöht. Aufbauend auf InternThinker-32B löst InternGeometry 44 von 50 IMO-Geometrieproblemen (2000–2024) und übertrifft damit die durchschnittliche Punktzahl von Goldmedaillengewinnern (40,9) – und das mit nur 13.000 Trainingsbeispielen, was lediglich 0,004 % der von AlphaGeometry 2 verwendeten Daten entspricht. Dies demonstriert das Potenzial von LLM-Agenten für expertenlevelgeometrische Aufgaben. InternGeometry kann auch neuartige Hilfskonstruktionen für IMO-Probleme vorschlagen, die in menschlichen Lösungen nicht vorkommen. Wir werden das Modell, die Daten und die symbolische Engine veröffentlichen, um zukünftige Forschung zu unterstützen.
Bewegungserfassung bildet heute die Grundlage für die Inhaltserstellung weit über digitale Menschen hinaus, doch die meisten bestehenden Pipelines bleiben art- oder templatespezifisch. Wir formalisieren diese Lücke als kategorieagnostische Bewegungserfassung (CAMoCap): Ziel ist es, aus einem monokularen Video und einer beliebigen rigged 3D-Asset-Eingabe eine rotationsbasierte Animation (z.B. BVH) zu rekonstruieren, die das spezifische Asset direkt steuert. Wir stellen MoCapAnything vor, ein referenzgeführtes, faktorisiertes Framework, das zunächst 3D-Gelenktrajektorien vorhersagt und dann assetspezifische Rotationen durch constraint-bewusste inverse Kinematik ermittelt. Das System umfasst drei lernbare Module und eine leichtgewichtige IK-Stufe: (1) einen Referenz-Prompt-Encoder, der pro Gelenk Abfragen aus dem Skelett, Mesh und gerenderten Bildern des Assets extrahiert; (2) einen Video-Feature-Extractor, der dichte visuelle Deskriptoren berechnet und ein grobes 4D-Deformationsmesh rekonstruiert, um die Lücke zwischen Video- und Gelenkraum zu überbrücken; und (3) einen Unified Motion Decoder, der diese Informationen fusioniert, um zeitlich kohärente Trajektorien zu erzeugen. Zudem haben wir Truebones Zoo mit 1038 Bewegungsclips kuratiert, die jeweils eine standardisierte Skelett-Mesh-Render-Triade bereitstellen. Experimente auf sowohl domänen-internen Benchmarks als auch In-the-Wild-Videos zeigen, dass MoCapAnything hochwertige Skelettanimationen liefert und sinnvolles artübergreifendes Retargeting über heterogene Rigs hinweg ermöglicht, was skalierbare, prompt-gesteuerte 3D-Bewegungserfassung für beliebige Assets erlaubt. Projektseite: https://animotionlab.github.io/MoCapAnything/
Mit dem Übergang großer Sprachmodelle (LLMs) von Forschungsexemplaren zu Produktionssystemen benötigen Praktiker oft zuverlässige Methoden, um zu überprüfen, ob Modellausgaben erforderliche Randbedingungen erfüllen. Während stichprobenbasierte Schätzungen ein intuitives Verständnis des Modellverhaltens liefern, bieten sie keine soliden Garantien. Wir stellen BEAVER vor, den ersten praktischen Rahmen zur Berechnung deterministischer, solider Wahrscheinlichkeitsschranken für die Erfüllung von LLM-Randbedingungen. Für jede präfixgeschlossene semantische Bedingung erkundet BEAVER systematisch den Generierungsraum unter Verwendung neuartiger Trie- und Frontier-Datenstrukturen für Tokens und bewahrt in jeder Iteration nachweislich solide Schranken. Wir formalisieren das Verifikationsproblem, beweisen die Solidität unseres Ansatzes und evaluieren BEAVER an Aufgaben zur Korrektheitsverifikation, Privatsphärenverifikation und sicheren Codegenerierung über mehrere state-of-the-art LLMs hinweg. BEAVER erreicht 6- bis 8-mal engere Wahrscheinlichkeitsschranken und identifiziert im Vergleich zu Baseline-Methoden bei identischen Rechenbudgets 3- bis 4-mal mehr Hochrisikoinstanzen, was eine präzise Charakterisierung und Risikobewertung ermöglicht, die lockere Schranken oder empirische Evaluation nicht leisten können.
Dieses Papier führt das Konzept der Mikroskopischen Räumlichen Intelligenz (MiSI) ein – die Fähigkeit, räumliche Beziehungen unsichtbarer mikroskopischer Entitäten wahrzunehmen und darüber zu schlussfolgern, was grundlegend für wissenschaftliche Entdeckungen ist. Um das Potenzial von Vision-Language-Modellen (VLMs) in diesem Bereich zu bewerten, schlagen wir einen systematischen Benchmark-Rahmen namens MiSI-Bench vor. Dieser Rahmen umfasst über 163.000 Frage-Antwort-Paare und 587.000 Bilder, die aus etwa 4.000 Molekülstrukturen abgeleitet wurden, und deckt neun komplementäre Aufgaben ab, die Fähigkeiten von elementaren räumlichen Transformationen bis hin zu komplexen relationalen Identifikationen bewerten. Experimentelle Ergebnisse zeigen, dass aktuelle state-of-the-art VLMs in diesem Benchmark deutlich unter dem menschlichen Niveau abschneiden. Allerdings demonstriert ein feinabgestimmtes 7B-Modell erhebliches Potenzial, das in räumlichen Transformationsaufgaben sogar Menschen übertrifft, während seine schwache Leistung in wissenschaftlich fundierten Aufgaben wie der Wasserstoffbrückenerkennung die Notwendigkeit der Integration von explizitem Domänenwissen für Fortschritte in Richtung einer wissenschaftlichen AGI unterstreicht. Die Datensätze sind unter https://huggingface.co/datasets/zongzhao/MiSI-bench verfügbar.
Die Vereinheitlichung multimodaler Verständnis-, Generierungs- und Rekonstruktionsrepräsentationen in einem einzigen Tokenizer bleibt eine zentrale Herausforderung beim Aufbau einheitlicher Modelle. Bisherige Forschung versucht dies überwiegend im Paradigma dualer Encoder zu lösen, beispielsweise durch die Verwendung separater Encoder für Verständnis und Generierung oder durch Abwägung semantischer Repräsentationen und Low-Level-Merkmale mit Contrastive Loss. In dieser Arbeit stellen wir VQRAE vor, eine Vector-Quantization-Version von Representation AutoEncoders, die erstmals eine vereinheitlichte Repräsentation erforscht, um innerhalb eines einzigen Tokenizers kontinuierliche semantische Merkmale für Bildverständnis und diskrete Tokens für visuelle Generierung zu erzeugen. Konkret bauen wir auf vortrainierten visuellen Foundation-Modellen mit einem symmetrischen ViT-Decoder auf und verwenden eine zweistufige Trainingsstrategie: Zunächst wird der Encoder eingefroren und ein hochdimensionales semantisches VQ-Codebuch mit Pixelrekonstruktionsziel erlernt; anschließend wird der Encoder gemeinsam mit Self-Distillation-Constraints optimiert. Dieser Aufbau ermöglicht vernachlässigbare semantische Informationsverluste zur Aufrechterhaltung der multimodalen Verständnisfähigkeit, diskrete Tokens, die für die Generierung kompatibel sind, und feinkörnige Rekonstruktion. Zudem identifizieren wir eine interessante Eigenschaft bei der Quantisierung semantischer Encoder: Diese erfordern im Gegensatz zur bisherigen Praxis niedrigdimensionaler Codebücher in der Bildrekonstruktion hochdimensionale Codebücher. Das semantische VQ-Codebuch kann bei einer Dimension von 1536 eine Nutzungsrate von 100 % erreichen. VQRAE erzielt wettbewerbsfähige Leistungen in mehreren Benchmarks für visuelles Verständnis, Generierung und Rekonstruktion und zeigt vielversprechende Skalierungseigenschaften im autoregressiven Paradigma aufgrund seiner diskreten Vorteile.
Paradigmen des Denkens mit Bildern haben eine bemerkenswerte visuelle Denkfähigkeit demonstriert, indem sie visuelle Informationen als dynamische Elemente in die Denkkette (Chain-of-Thought, CoT) integrieren. Die Optimierung von verschachtelter multimodaler CoT (iMCoT) durch Reinforcement Learning bleibt jedoch eine Herausforderung, da sie auf knappen hochwertigen Denkdaten basiert. In dieser Studie schlagen wir Self-Calling Chain-of-Thought (sCoT) vor, ein neuartiges Paradigma des visuellen Denkens, das iMCoT als eine sprachbasierte CoT mit Selbstaufruf reformuliert. Konkret zerlegt ein Hauptagent die komplexe visuelle Denkaufgabe in atomare Teilaufgaben und ruft seine virtuellen Replikate, d.h. parameterteilende Subagenten, auf, um diese in isoliertem Kontext zu lösen. sCoT zeichnet sich durch hohe Trainingswirksamkeit und -effizienz aus, da es keine explizite Verschachtelung zwischen Modalitäten erfordert. sCoT nutzt gruppenrelative Politikoptimierung, um effektives Denkverhalten zu verstärken und die Optimierung zu verbessern. Experimente auf HR-Bench 4K zeigen, dass sCoT die Gesamtdenkleistung um bis zu 1,9 % verbessert und dabei im Vergleich zu starken Baseline-Ansätzen etwa 75 % weniger GPU-Stunden benötigt. Der Code ist verfügbar unter https://github.com/YWenxi/think-with-images-through-self-calling.
Generative Weltmodelle bergen ein erhebliches Potenzial für die Simulation von Interaktionen mit visuomotorischen Policies in verschiedenen Umgebungen. Fortschrittliche Videomodelle können die Erzeugung realistischer Beobachtungen und Umgebungsinteraktionen auf skalierbare und allgemeine Weise ermöglichen. Der Einsatz von Videomodellen in der Robotik war jedoch bisher hauptsächlich auf In-Distribution-Bewertungen beschränkt, d. h. auf Szenarien, die denen ähneln, die zum Trainieren der Policy oder zum Feinabstimmen des Basis-Videomodells verwendet wurden. In diesem Bericht zeigen wir, dass Videomodelle für das gesamte Spektrum von Policy-Evaluierungs-Anwendungsfällen in der Robotik eingesetzt werden können: von der Bewertung der Nominalleistung bis hin zur Out-of-Distribution (OOD)-Generalisierung und der Überprüfung der physischen und semantischen Sicherheit. Wir stellen ein generatives Evaluierungssystem vor, das auf einem fortschrittlichen Video-Foundation-Model (Veo) basiert. Das System ist darauf optimiert, die Konditionierung von Roboteraktionen und Mehrbild-Konsistenz zu unterstützen, und integriert generative Bildbearbeitung und Mehrbild-Vervollständigung, um realistische Variationen realer Szenen entlang mehrerer Generalisierungsachsen zu synthetisieren. Wir zeigen, dass das System die Basisfähigkeiten des Videomodells bewahrt, um eine genaue Simulation von Szenen zu ermöglichen, die bearbeitet wurden, um neuartige Interaktionsobjekte, neuartige visuelle Hintergründe und neuartige Ablenkungsobjekte einzubeziehen. Diese Treue ermöglicht es, die relative Leistung verschiedener Policies unter Nominal- und OOD-Bedingungen genau vorherzusagen, die relative Auswirkung verschiedener Generalisierungsachsen auf die Policy-Leistung zu bestimmen und Red Teaming von Policies durchzuführen, um Verhaltensweisen aufzudecken, die physische oder semantische Sicherheitsbeschränkungen verletzen. Wir validieren diese Fähigkeiten durch über 1600 Evaluationen in der realen Welt an acht Gemini-Robotics-Policy-Checkpoints und fünf Aufgaben für einen bimanuellen Manipulator.
Wir stellen StereoSpace vor, ein diffusionsbasiertes Framework für die monokulare Stereosynthese, das Geometrie ausschließlich durch Blickpunktkonditionierung modelliert, ohne explizite Tiefeninformationen oder Warping. Ein kanonischer rektifizierter Raum und die Konditionierung leiten den Generator an, Korrespondenzen abzuleiten und Disokklusionen end-to-end zu füllen. Um eine faire und datenleckfreie Evaluation zu gewährleisten, führen wir ein End-to-End-Protokoll ein, das jegliche Ground-Truth- oder Proxy-Geometrieschätzungen zur Testzeit ausschließt. Das Protokoll legt den Schwerpunkt auf Metriken, die die Relevanz für nachgelagerte Anwendungen widerspiegeln: iSQoE für den wahrgenommenen Komfort und MEt3R für die geometrische Konsistenz. StereoSpace übertrifft andere Methoden aus den Kategorien Warp & Inpaint, Latent-Warping und Warped-Conditioning, erreicht scharfe Parallaxe und hohe Robustheit bei geschichteten und nicht-lambertischen Szenen. Dies etabliert die blickpunktkonditionierte Diffusion als skalierbare, tiefenfreie Lösung für die Stereogenerierung.
Obwohl Normalisierungsschichten lange als unverzichtbare Bestandteile von Deep-Learning-Architekturen angesehen wurden, hat die kürzliche Einführung von Dynamic Tanh (DyT) gezeigt, dass Alternativen möglich sind. Die punktweise Funktion DyT begrenzt extreme Werte für eine stabile Konvergenz und erreicht Normalisierungs-Level-Leistung; diese Arbeit sucht weiter nach Funktionsdesigns, die sie übertreffen können. Wir untersuchen zunächst, wie die intrinsischen Eigenschaften punktweiser Funktionen das Training und die Leistung beeinflussen. Aufbauend auf diesen Erkenntnissen führen wir eine umfangreiche Suche nach einem effektiveren Funktionsdesign durch. Durch diese Exploration führen wir Derf(x) = erf(αx + s) ein, wobei erf(x) die reskalierte Gaußsche kumulative Verteilungsfunktion ist, und identifizieren es als die leistungsstärkste Variante. Derf übertrifft LayerNorm, RMSNorm und DyT in einer Vielzahl von Domänen, darunter Vision (Bilderkennung und -generierung), Sprachrepräsentation und DNA-Sequenzmodellierung. Unsere Ergebnisse deuten darauf hin, dass die Leistungssteigerungen von Derf größtenteils auf verbesserte Generalisierung und nicht auf eine stärkere Anpassungsfähigkeit zurückzuführen sind. Seine Einfachheit und stärkere Leistung machen Derf zu einer praktischen Wahl für Normalisierungs-freie Transformer-Architekturen.
Die Aufgabe der Video-Fragebeantwortung (VideoQA) dient als entscheidendes Testfeld, um zu bewerten, ob Foundation-Modelle dynamische Szenarien der realen Welt effektiv wahrnehmen, verstehen und darüber schlussfolgern können. Allerdings haben bestehende multimodale große Sprachmodelle (MLLMs) Schwierigkeiten, gleichzeitig räumliche Beziehungen innerhalb von Videobildern zu modellieren und die kausale Dynamik der zeitlichen Entwicklung bei komplexen und schlussfolgerungsintensiven VideoQA-Aufgaben zu verstehen. In dieser Arbeit statten wir MLLMs mit einem umfassenden und erweiterbaren Video-Toolkit aus, um deren raumzeitliche Schlussfolgerungsfähigkeiten zu verbessern und die Harmonie zwischen Menge und Vielfalt der Werkzeuge sicherzustellen. Um die Werkzeugaufrufsequenz besser zu steuern und Probleme mit Toolchain-Verkürzungen zu vermeiden, schlagen wir ein raumzeitliches Reasoning-Framework (STAR) vor, das zeitliche und räumliche Werkzeuge strategisch plant und so schrittweise den Schlüsselbereich im Video lokalisiert. Unser STAR-Framework verbessert GPT-4o durch leichte Werkzeuge und erzielt einen Zuwachs von 8,2 % auf VideoMME und 4,6 % auf LongVideoBench. Wir sind überzeugt, dass unser vorgeschlagenes Video-Toolkit und STAR-Framework einen wichtigen Schritt in Richtung autonomer und intelligenter Videoanalyse-Assistenten darstellen. Der Code ist öffentlich unter https://github.com/fansunqi/VideoTool verfügbar.
Roboter, die Manipulationsfähigkeiten aus alltäglichen menschlichen Videos erlernen, könnten umfangreiche Fähigkeiten erwerben, ohne aufwändige Roboterdatenerfassung. Wir schlagen ein Video-zu-Video-Übersetzungsframework vor, das gewöhnliche Mensch-Objekt-Interaktionsvideos in bewegungskonsistente Robotermanipulationsvideos mit realistischen, physikalisch fundierten Interaktionen umwandelt. Unser Ansatz benötigt für das Training keine gepaarten Mensch-Roboter-Videos, sondern lediglich einen Satz ungepaarter Roboter-Videos, was die Skalierbarkeit des Systems erleichtert. Wir führen eine übertragbare Repräsentation ein, die die Embodiment-Lücke überbrückt: Durch Inpainting des Roboterarms in Trainingsvideos, um einen sauberen Hintergrund zu erhalten, und Überlagerung eines einfachen visuellen Hinweises (ein Marker und ein Pfeil, die Position und Orientierung des Greifers anzeigen), können wir ein generatives Modell konditionieren, den Roboterarm wieder in die Szene einzufügen. Zur Testzeit wenden wir denselben Prozess auf menschliche Videos an (Inpainting der Person und Überlagerung menschlicher Pose-Hinweise) und generieren hochwertige Roboter-Videos, die die Handlungen des Menschen nachahmen. Wir feintunen ein State-of-the-Art-Videodiffusionsmodell (Wan 2.2) auf eine In-Context-Learning-Weise, um zeitliche Kohärenz zu gewährleisten und sein umfangreiches Vorwissen zu nutzen. Empirische Ergebnisse zeigen, dass unser Ansatz im Vergleich zu Baseline-Methoden deutlich realistischere und fundiertere Roboterbewegungen erzielt und damit eine vielversprechende Richtung für die Skalierung des Roboterlernens aus ungelabelten menschlichen Videos aufzeigt. Projektseite: https://showlab.github.io/H2R-Grounder/
Wir stellen The FACTS Leaderboard vor, eine Online-Leaderboard-Suite und einen zugehörigen Satz von Benchmarks, die umfassend die Fähigkeit von Sprachmodellen bewerten, in verschiedenen Szenarien faktisch korrekte Texte zu generieren. Die Suite bietet ein ganzheitliches Maß für die Faktentreue, indem sie die Leistung der Modelle auf vier verschiedenen Sub-Leaderboards aggregiert: (1) FACTS Multimodal, das die Faktentreue von Antworten auf bildbasierte Fragen misst; (2) FACTS Parametric, das das Weltwissen der Modelle durch Beantwortung von Closed-Book-Faktfragen aus internen Parametern bewertet; (3) FACTS Search, das die Faktentreue in informationssuchenden Szenarien evaluiert, in denen das Modell eine Such-API verwenden muss; und (4) FACTS Grounding (v2), das bewertet, ob Langform-Antworten auf bereitgestellten Dokumenten basieren und dabei signifikant verbesserte Judge-Modelle verwendet. Jedes Sub-Leaderboard setzt automatisierte Judge-Modelle ein, um Modellantworten zu bewerten, und der endgültige Suite-Score ist ein Durchschnitt der vier Komponenten, der dazu konzipiert ist, eine robuste und ausgewogene Bewertung der allgemeinen Faktentreue eines Modells zu liefern. Die FACTS Leaderboard Suite wird aktiv gepflegt und enthält sowohl öffentliche als auch private Aufteilungen, um externe Beteiligung zu ermöglichen und gleichzeitig ihre Integrität zu wahren. Sie ist unter https://www.kaggle.com/benchmarks/google/facts zu finden.
Jüngste Fortschritte bei 4D Gaussian Splatting (4DGS) haben die hochgeschwindigkeitsfähige Rendering-Technik des 3D Gaussian Splatting (3DGS) in den zeitlichen Bereich erweitert und ermöglichen so die Echtzeitdarstellung dynamischer Szenen. Eine der größten verbleibenden Herausforderungen besteht jedoch in der Modellierung langreichweitiger, bewegungshaltiger dynamischer Videos, bei denen eine naive Erweiterung bestehender Methoden zu schwerwiegendem Speicherverbrauch, zeitlichem Flackern und dem Scheitern bei der Handhabung sich im Zeitverlauf öffnender oder schließender Verdeckungen führt. Um diese Herausforderungen zu bewältigen, schlagen wir ein neuartiges 4DGS-Framework vor, das durch einen Anchor-Relay-basierten bidirektionalen Blending-Mechanismus (ARBB) charakterisiert ist, genannt MoRel, welcher eine zeitlich konsistente und speichereffiziente Modellierung langreichweitiger dynamischer Szenen ermöglicht. Unsere Methode konstruiert schrittweise lokale kanonische Ankerräume (Anchor Spaces) zu Schlüsselbild-Zeitindizes und modelliert Zwischenbild-Verformungen auf Anker-Ebene, was die zeitliche Kohärenz verbessert. Durch das Erlernen bidirektionaler Verformungen zwischen den Schlüsselbild-Ankern (KfA) und deren adaptive Verschmelzung mittels lernbarer Deckkraftsteuerung mildert unser Ansatz zeitliche Diskontinuitäten und Flackereffekte. Wir führen weiterhin ein varianzgeführtes hierarchisches Verdichtungsschema (Feature-variance-guided Hierarchical Densification, FHD) ein, das die KfA effektiv verdichtet und dabei die Renderqualität aufrechterhält, basierend auf einem zugewiesenen Grad an Merkmalsvarianz. Um die Fähigkeit unseres Modells zur Verarbeitung realer langreichweitiger 4D-Bewegungen effektiv zu bewerten, stellen wir neu einen langreichweitigen 4D-Bewegungs-Datensatz zusammen, genannt SelfCap_{LR}. Dieser weist eine größere durchschnittliche dynamische Bewegungsmagnitude auf und wurde in räumlich weiter gefassten Umgebungen aufgenommen als bisherige dynamische Videodatensätze. Insgesamt erreicht unser MoRel eine zeitlich kohärente und flackerfreie langreichweitige 4D-Rekonstruktion bei gleichzeitig begrenztem Speicherverbrauch und demonstriert so sowohl Skalierbarkeit als auch Effizienz in dynamischen Gaussian-basierten Darstellungen.
Videounified-Modelle zeigen starke Fähigkeiten im Verständnis und in der Generierung, haben jedoch Schwierigkeiten mit reasoning-informierter visueller Bearbeitung, selbst wenn sie mit leistungsstarken internen Vision-Language-Modellen (VLMs) ausgestattet sind. Wir führen diese Lücke auf zwei Faktoren zurück: 1) bestehende Datensätze sind unzureichend für das Training und die Evaluation von reasoning-bewusster Videobearbeitung, und 2) eine inherente Trennung zwischen den Reasoning- und Bearbeitungsfähigkeiten der Modelle, die verhindert, dass das umfassende Verständnis den Bearbeitungsprozess effektiv anleitet. Um diese Lücke zu schließen, ist ein integriertes Framework erforderlich, das Reasoning mit visueller Transformation verbindet. Um diese Lücke zu adressieren, führen wir die Aufgabe Reason-Informed Video Editing (RVE) ein, die Reasoning über physikalische Plausibilität und kausale Dynamiken während der Bearbeitung erfordert. Zur systematischen Evaluation entwickeln wir RVE-Bench, einen umfassenden Benchmark mit zwei komplementären Teilmengen: Reasoning-Informed Video Editing und In-Context Video Generation. Diese Teilmengen decken diverse Reasoning-Dimensionen und realistische Bearbeitungsszenarien ab. Auf dieser Grundlage aufbauend schlagen wir ReViSE vor, ein Self-Reflective Reasoning (SRF) Framework, das Generierung und Evaluation innerhalb einer einzigen Architektur vereint. Das interne VLM des Modells liefert intrinsisches Feedback, indem es bewertet, ob das bearbeitete Video die gegebene Anweisung logisch erfüllt. Das differentielle Feedback verfeinert das Reasoning-Verhalten des Generators während des Trainings. Umfangreiche Experimente auf RVE-Bench demonstrieren, dass ReViSE die Bearbeitungsgenauigkeit und visuelle Qualität signifikant verbessert und eine Steigerung des Overall-Scores um 32 % im Reasoning-Informed Video Editing-Subset gegenüber state-of-the-art Methoden erreicht.
Die Personalisierung visueller Konzepte zielt darauf ab, nur bestimmte Bildattribute wie Identität, Ausdruck, Beleuchtung und Stil in neue Kontexte zu übertragen. Bisherige Methoden stützen sich jedoch auf holistische Embeddings aus universellen Bildencodern, die multiple visuelle Faktoren verknüpfen und die Isolierung einzelner Attribute erschweren. Dies führt häufig zu Informationslecks und inkohärenter Synthese. Um diese Einschränkung zu überwinden, führen wir Omni-Attribute ein, den ersten open-vocabulary Bildattribut-Encoder, der hochpräzise, attributspezifische Repräsentationen erlernt. Unser Ansatz verbindet Datencuration und Modellentwicklung: (i) Wir erstellen semantisch verknüpfte Bildpaare mit annotierten Positiv- und Negativattributen, um dem Encoder explizit beizubringen, was erhalten oder unterdrückt werden soll; und (ii) wir implementieren ein Dual-Objective-Training, das generative Präzision mit kontrastiver Entflechtung in Balance hält. Die resultierenden Embeddings erweisen sich als effektiv für open-vocabulary Attributretrieval, Personalisierung und kompositionelle Generierung und erzielen State-of-the-Art-Leistungen in multiplen Benchmarks.
Echte KI-basierte Softwareentwicklung erfordert Code-Agenten, die in der Lage sind, über massive Code-Repositories zu schlussfolgern, einen dauerhaften Speicher über und innerhalb langer Sitzungen hinweg zu pflegen und komplexe Toolchains zur Testzeit robust zu koordinieren. Bestehende Open-Source-Code-Agenten bieten zwar Transparenz, stoßen jedoch bei industriellen Arbeitslasten häufig an ihre Grenzen, während proprietäre Code-Agenten eine starke praktische Leistung bieten, aber nur begrenzte Erweiterbarkeit, Interpretierbarkeit und Steuerbarkeit aufweisen. Wir stellen den Confucius Code Agent (CCA) vor, einen quelloffenen KI-Softwareingenieur, der im industriellen Maßstab operieren kann. CCA basiert auf dem Confucius SDK, einer quelloffenen Agenten-Entwicklungsplattform, die um drei komplementäre Perspektiven herum konzipiert wurde: Agent Experience (AX), User Experience (UX) und Developer Experience (DX). Das SDK führt einen einheitlichen Orchestrator mit hierarchischem Arbeitsspeicher für schlussfolgerndes Denken in langen Kontexten ein, ein persistentes Notizsystem für sessionsübergreifendes kontinuierliches Lernen und ein modulares Erweiterungsmodul für robuste Werkzeugnutzung. Darüber hinaus automatisiert ein Meta-Agent die Synthese, Evaluierung und Verfeinerung von Agentenkonfigurationen durch eine Build-Test-Improve-Schleife, was eine schnelle Agentenentwicklung für neue Aufgaben, Umgebungen und Tool-Stacks ermöglicht. Auf dem Confucius SDK mit diesen Mechanismen instanziiert, erzielt CCA eine hohe Leistung bei praktischen Softwareentwicklungsaufgaben. Auf SWE-Bench-Pro erreicht CCA eine state-of-the-art Resolve@1-Leistung von 54,3% und übertrifft damit frühere Code-Agenten erheblich. Gemeinsam bieten das Confucius SDK und CCA eine transparente, erweiterbare und reproduzierbare Grundlage für KI-Agenten, überbrücken die Lücke zwischen Forschungsprototypen und produktionsreifen Systemen und unterstützen die Agentenentwicklung und -bereitstellung im industriellen Maßstab.
LLM-Agenten werden häufig für komplexe interaktive Aufgaben eingesetzt, doch Datenschutzbeschränkungen verhindern oft eine zentralisierte Optimierung und Ko-Evolution in dynamischen Umgebungen. Während sich Federated Learning (FL) auf statischen Datensätzen als wirksam erwiesen hat, ist seine Erweiterung auf die offene Selbstevolution von Agenten noch wenig erforscht. Die direkte Anwendung von Standard-FL ist herausfordernd: heterogene Aufgaben sowie spärliche, trajectorienbezogene Belohnungen führen zu starken Gradientenkonflikten, die den globalen Optimierungsprozess destabilisieren. Um diese Lücke zu schließen, schlagen wir Fed-SE vor, einen Federated Self-Evolution-Framework für LLM-Agenten. Fed-SE etabliert ein Paradigma aus lokaler Evolution und globaler Aggregation. Lokal nutzen Agenten parameter-effizientes Fine-Tuning auf gefilterten Trajektorien mit hohen Belohnungen, um stabile Gradientenupdates zu erreichen. Global aggregiert Fed-SE Updates innerhalb eines niedrigdimensionalen Teilraums, der umgebungsspezifische Dynamiken entkoppelt und so negative Interferenzen zwischen Clients wirksam reduziert. Experimente in fünf heterogenen Umgebungen zeigen, dass Fed-SE die durchschnittliche Aufgaben-Erfolgsrate um circa 18 % gegenüber föderierten Baseline-Methoden steigert, was seine Wirksamkeit für robusten Wissenstransfer über Umgebungen hinweg unter Datenschutzbeschränkungen validiert.
Rollenspiel-Agenten (RPAs) müssen gleichzeitig viele widersprüchliche Fähigkeiten beherrschen – das Befolgen mehrschrittiger Anweisungen, das Demonstrieren von Domänenwissen und das Einhalten eines konsistenten linguistischen Stils. Bisherige Ansätze setzen entweder auf überwachtes Feintuning (SFT), das Oberflächenmerkmale überanpasst und eine geringe Diversität erzeugt, oder verwenden Reinforcement Learning (RL), das scheitert, mehrere Dimensionen für eine umfassende RPA-Optimierung zu erlernen. Wir stellen MOA (Multi-Objective Alignment) vor, ein Reinforcement-Learning-Framework, das eine mehrdimensionale, feingranulare Optimierung anhand von Bewertungskriterien für allgemeine RPAs ermöglicht. MOA führt eine neuartige Multi-Objective-Optimierungsstrategie ein, die gleichzeitig auf mehreren feingranularen Bewertungskriterien trainiert, um die Optimierungsleistung zu steigern. Zudem haben wir, um die Probleme der Modellausgabediversität und -qualität anzugehen, einen gedankengestützten Rollout mit Off-Policy-Steuerung implementiert. Umfangreiche Experimente auf anspruchsvollen Benchmarks wie PersonaGym und RoleMRC zeigen, dass MOA einem 8B-Modell ermöglicht, starke Baseline-Modelle wie GPT-4o und Claude in zahlreichen Dimensionen zu erreichen oder sogar zu übertreffen. Dies demonstriert das große Potenzial von MOA für die Entwicklung von RPAs, die gleichzeitig den Anforderungen an Rollenwissen, Personenstil, diverse Szenarien und komplexe mehrschrittige Konversationen gerecht werden können.
Die Entwicklung von verkörpertter KI hat erhebliches Potenzial für humanoide Roboter freigesetzt. Allerdings wird der Fortschritt sowohl bei Vision-Language-Action (VLA)-Modellen als auch bei Weltmodellen stark durch den Mangel an großen, vielfältigen Trainingsdaten behindert. Eine vielversprechende Lösung ist das "Robotisieren" von Web-Videos mit Menschen, was sich bereits für das Policy-Training als effektiv erwiesen hat. Diese Ansätze beschränken sich jedoch hauptsächlich darauf, Roboterarme in egozentrischen Videos "überzulagern", was komplexe Ganzkörperbewegungen und Verdeckungen in Third-Person-Videos nicht bewältigen kann und sie somit für die Robotisierung menschlicher Bewegungen ungeeignet macht. Um diese Lücke zu schließen, stellen wir X-Humanoid vor, einen generativen Videoediting-Ansatz, der das leistungsstarke Wan 2.2-Modell in eine Video-zu-Video-Architektur überführt und für die Aufgabe der Mensch-zu-Humanoid-Übersetzung feinabstimmt. Für diese Feinabstimmung sind gepaarte Mensch-Humanoid-Videos erforderlich. Daher haben wir eine skalierbare Pipeline zur Datenerstellung entwickelt, die Community-Assets mithilfe der Unreal Engine in über 17 Stunden synthetische gepaarte Videos umwandelt. Anschließend wenden wir unser trainiertes Modell auf 60 Stunden Ego-Exo4D-Videos an, generieren einen neuen großen Datensatz mit über 3,6 Millionen "robotisierten" Humanoid-Videobildern und veröffentlichen diesen. Quantitative Analysen und Nutzerstudien bestätigen die Überlegenheit unserer Methode gegenüber bestehenden Baseline-Verfahren: 69 % der Nutzer stuften sie als die beste in Bezug auf Bewegungskonsistenz und 62,1 % als die beste in Bezug auf die Korrektheit der Verkörperung ein.
Aktuelle auf visuell-sprachlichen Modellen (VLM) basierende Ansätze haben beeindruckende Ergebnisse bei der SVG-Generierung erzielt. Da sie jedoch nur Text generieren und während der Decodierung über keine visuellen Signale verfügen, haben sie oft Schwierigkeiten mit komplexen Semantiken und produzieren selten visuell ansprechende oder geometrisch kohärente SVGs. Wir stellen DuetSVG vor, ein einheitliches multimodales Modell, das Bild-Tokens und entsprechende SVG-Tokens auf end-to-end-Basis gemeinsam generiert. DuetSVG wird sowohl auf Bild- als auch auf SVG-Datensätzen trainiert. Zur Inferenzzeit wenden wir eine neuartige Test-Time-Scaling-Strategie an, die die native visuelle Vorhersage des Modells als Leitfaden nutzt, um die Qualität der SVG-Decodierung zu verbessern. Umfangreiche Experimente zeigen, dass unsere Methode bestehende Ansätze übertrifft und dabei visuell authentische, semantisch präzise und syntaktisch saubere SVGs für ein breites Anwendungsspektrum erzeugt.