Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte in der Videogenerierung haben ein unerwartetes Phänomen offenbart: diffusionsbasierte Videomodelle zeigen beachtliche Fähigkeiten zum logischen Schlussfolgern (Reasoning). Bisherige Arbeiten führen dies auf einen "Chain-of-Frames" (CoF)-Mechanismus zurück, bei dem angenommen wird, dass sich das Reasoning sequenziell über die Videobilder hinweg entfaltet. In dieser Arbeit stellen wir diese Annahme in Frage und decken einen grundlegend anderen Mechanismus auf. Wir zeigen, dass das Reasoning in Videomodellen stattdessen primär entlang der Diffusions-Entrauschungsschritte entsteht. Durch qualitative Analysen und gezielte Abfragetests stellen wir fest, dass Modelle in frühen Entrauschungsschritten mehrere mögliche Lösungen explorieren und schrittweise zu einer endgültigen Antwort konvergieren – einen Prozess, den wir als "Chain-of-Steps" (CoS) bezeichnen. Über diesen Kernmechanismus hinaus identifizieren wir mehrere emergente Reasoning-Verhaltensweisen, die für die Modellleistung entscheidend sind: (1) Arbeitsgedächtnis, das persistente Referenzierung ermöglicht; (2) Selbstkorrektur und -verbesserung, die eine Erholung von falschen Zwischenlösungen erlauben; und (3) "Wahrnehmung vor Aktion", bei der frühe Schritte eine semantische Grundlage schaffen und spätere Schritte strukturierte Manipulationen durchführen. Während eines Diffusionsschritts entdecken wir weiterhin eine selbstentwickelte funktionale Spezialisierung innerhalb von Diffusion Transformers: Frühe Schichten kodieren dichte perzeptive Strukturen, mittlere Schichten führen das Reasoning aus und spätere Schichten konsolidieren latente Repräsentationen. Motiviert durch diese Erkenntnisse präsentieren wir eine einfache, trainingsfreie Strategie als Machbarkeitsnachweis, die demonstriert, wie das Reasoning durch das Ensemble latenter Trajektorien aus identischen Modellen mit unterschiedlichen Zufallsseed verbessert werden kann. Insgesamt bietet unsere Arbeit ein systematisches Verständnis dafür, wie Reasoning in Videogenerierungsmodellen entsteht, und legt eine Grundlage, um zukünftige Forschung dabei zu leiten, die inherente Reasoning-Dynamik von Videomodellen besser als neue Grundlage für Intelligenz zu nutzen.
Aktuelle Code-Großsprachmodelle haben bemerkenswerte Fortschritte bei allgemeinen Programmieraufgaben erzielt. Dennoch verschlechtert sich ihre Leistung in industriellen Szenarien erheblich, die das Schließen auf Hardwaresemantik, spezialisierte Sprachkonstrukte und strenge Ressourcenbeschränkungen erfordern. Um diese Herausforderungen zu bewältigen, stellen wir InCoder-32B (Industrial-Coder-32B) vor, das erste 32-Milliarden-Parameter-Code-Basismodell, das Code-Intelligenz über Chipdesign, GPU-Kernel-Optimierung, eingebettete Systeme, Compiler-Optimierung und 3D-Modellierung hinweg vereint. Durch die Verwendung einer effizienten Architektur trainieren wir InCoder-32B von Grund auf mit allgemeinem Code-Pre-Training, kuratiertem industriellem Code-Annealing, Mid-Training, das den Kontext schrittweise von 8K auf 128K Token mit synthetischen industriellen Schließungsdaten erweitert, und Post-Training mit ausführungsbasierter Verifikation. Wir führen eine umfangreiche Evaluation auf 14 Mainstream-Allgemein-Code-Benchmarks und 9 industriellen Benchmarks aus 4 spezialisierten Domänen durch. Die Ergebnisse zeigen, dass InCoder-32B eine äußerst wettbewerbsfähige Leistung bei allgemeinen Aufgaben erzielt und gleichzeitig starke Open-Source-Baselines über industrielle Domänen hinweg etabliert.
Omnimonale große Sprachmodelle (OLMs) definieren die Mensch-Maschine-Interaktion neu, indem sie Audio, Vision und Text nativ integrieren. Bestehende OLM-Benchmarks bleiben jedoch auf statische, genauigkeitszentrierte Aufgaben beschränkt, wodurch eine kritische Lücke bei der Bewertung der sozialen Interaktivität – der grundlegenden Fähigkeit, dynamische Hinweise in natürlichen Dialogen zu verarbeiten – besteht. Daher schlagen wir SocialOmni vor, einen umfassenden Benchmark, der die Evaluation dieser konversationellen Interaktivität über drei Kernbereiche operationalisiert: (i) Sprechertrennung und -identifikation (wer spricht), (ii) Unterbrechungszeitpunktsteuerung (wann einzugreifen ist) und (iii) natürliche Unterbrechungsgenerierung (wie die Unterbrechung zu formulieren ist). SocialOmni umfasst 2.000 Wahrnehmungsbeispiele sowie einen qualitätskontrollierten Diagnosesatz mit 209 Interaktionsgenerierungsinstanzen unter strengen zeitlichen und kontextuellen Beschränkungen, ergänzt durch kontrollierte audiovisuelle Inkonsistenzszenarien zur Testung der Modellrobustheit. Wir testeten 12 führende OLMs, was erhebliche Unterschiede in ihren sozialen Interaktionsfähigkeiten zwischen den Modellen aufdeckt. Darüber hinaus zeigt unsere Analyse eine deutliche Entkopplung zwischen der Wahrnehmungsgenauigkeit eines Modells und seiner Fähigkeit, kontextuell angemessene Unterbrechungen zu generieren, was darauf hindeutet, dass verständniszentrierte Metriken allein nicht ausreichen, um konversationelle soziale Kompetenz zu charakterisieren. Ermutigenderweise liefern diese Diagnosen aus SocialOmni handlungsrelevante Signale, um die Wahrnehmungs-Interaktions-Lücke in zukünftigen OLMs zu überbrücken.
Wir stellen MiroThinker-1.7 vor, einen neuen Forschungsagenten für komplexe langfristige Denkaufgaben. Auf dieser Grundlage führen wir weiterhin MiroThinker-H1 ein, das den Agenten um leistungsstarke Denkfähigkeiten für zuverlässigeres mehrstufiges Problemlösen erweitert. Insbesondere verbessert MiroThinker-1.7 die Zuverlässigkeit jedes Interaktionsschritts durch eine agentenbasierte Zwischentrainingsphase, die strukturierte Planung, kontextbezogenes Denken und Werkzeuginteraktion betont. Dies ermöglicht effektivere mehrstufige Interaktion und nachhaltiges Denken bei komplexen Aufgaben. MiroThinker-H1 integriert Verifikation direkt in den Denkprozess auf lokaler und globaler Ebene. Zwischenentscheidungen können während der Inferenz bewertet und verfeinert werden, während der gesamte Denkpfad überprüft wird, um sicherzustellen, dass Endantworten durch kohärente Beweisketten gestützt werden. In Benchmarks zu webbasierter Recherche, wissenschaftlichem Denken und Finanzanalyse erzielt MiroThinker-H1 Spitzenleistungen bei anspruchsvollen Forschungsaufgaben und behält gleichzeitig starke Ergebnisse in spezialisierten Domänen bei. Wir veröffentlichen zudem MiroThinker-1.7 und MiroThinker-1.7-mini als Open-Source-Modelle, die wettbewerbsfähige Forschungsagenten-Fähigkeiten mit deutlich verbesserter Effizienz bieten.
Wir stellen Qianfan-OCR vor, ein end-to-end Vision-Language-Modell mit 4B Parametern, das Dokumentenparsing, Layoutanalyse und Dokumentenverständnis in einer einzigen Architektur vereint. Es führt eine direkte Bild-zu-Markdown-Konvertierung durch und unterstützt diverse promptgesteuerte Aufgaben, darunter Tabellenextraktion, Diagrammverständnis, Document QA und die Extraktion von Schlüsselinformationen. Um den Verlust expliziter Layoutanalyse in end-to-end OCR zu adressieren, schlagen wir Layout-as-Thought vor, eine optionale Denkphase, die durch spezielle Think-Tokens ausgelöst wird und strukturierte Layoutrepräsentationen – Begrenzungsrahmen, Elementtypen und Lesereihenfolge – erzeugt, bevor endgültige Ausgaben produziert werden. Dies stellt Layout-Verankerungsfähigkeiten wieder her und verbessert die Genauigkeit bei komplexen Layouts. Qianfan-OCR belegt unter end-to-end Modellen den ersten Platz auf OmniDocBench v1.5 (93.12) und OlmOCR Bench (79.8), erzielt wettbewerbsfähige Ergebnisse auf OCRBench, CCOCR, DocVQA und ChartQA im Vergleich zu allgemeinen VLMs vergleichbarer Größe und erreicht die höchste Durchschnittspunktzahl auf öffentlichen Benchmarks zur Extraktion von Schlüsselinformationen, wobei es Gemini-3.1-Pro, Seed-2.0 und Qwen3-VL-235B übertrifft. Das Modell ist öffentlich über die Baidu AI Cloud Qianfan-Plattform zugänglich.
Jüngste Fortschritte bei multimodalen großen Reasoning-Modellen (MLRMs) haben die Leistung im Bereich des visuellen Frage-Antwortens erheblich verbessert. Wir beobachten jedoch, dass Übergangswörter (z. B. weil, jedoch und warte) eng mit Halluzinationen verbunden sind und tendenziell Zustände hoher Entropie aufweisen. Wir vertreten die Auffassung, dass angemessene kontextuelle Reasoning-Informationen direkt aus der Token-Wahrscheinlichkeitsverteilung extrahiert werden können. Inspiriert von der Theorie der superponierten Repräsentation schlagen wir vor, latentes superponiertes Reasoning zu nutzen, um mehrere Kandidatensemantiken zu integrieren und latente Reasoning-Pfade beizubehalten. Die Hypothese lautet, dass die Abhängigkeit von diskreten textuellen Eingaben das Modell zu sequentiellem explizitem Reasoning treiben könnte, wodurch dichte kontextuelle Hinweise in Phasen hoher Entropie unzureichend genutzt werden. Daher schlagen wir vor, reiche semantische Repräsentationen aus den Token-Wahrscheinlichkeitsverteilungen zu konstruieren, um das In-Context-Reasoning zu verbessern. Zu diesem Zweck präsentieren wir Latent Entropy-Aware Decoding (LEAD), eine effiziente Plug-and-Play-Decoding-Strategie, die semantischen Kontext nutzt, um zuverlässiges Reasoning zu erreichen. Der Kern unserer Methode liegt im entropiebewussten Wechsel des Reasoning-Modus. Unter Zuständen hoher Entropie verwendet das Modell kontinuierliche Einbettungen, die mit Wahrscheinlichkeiten gewichtet sind, und wechselt zurück zu diskreten Token-Einbettungen, sobald die Entropie abnimmt. Darüber hinaus schlagen wir eine prior-gesteuerte Strategie zur Injektion visueller Anker vor, die das Modell dazu anregt, sich auf visuelle Informationen zu konzentrieren. Umfangreiche Experimente zeigen, dass LEAD Halluzinationen bei verschiedenen MLRMs in mehreren Benchmarks wirksam reduziert.
Die Simulation von Roboter-Umwelt-Interaktionen ist ein Grundpfeiler der Embodied AI. In jüngerer Zeit haben einige Arbeiten vielversprechende Ansätze gezeigt, um durch Videogenerierung die starren visuellen/physischen Grenzen traditioneller Simulatoren zu überwinden. Diese operieren jedoch primär im 2D-Raum oder werden durch statische Umgebungsreize gesteuert und ignorieren dabei die grundlegende Tatsache, dass Roboter-Umwelt-Interaktionen inhärent 4D-raumzeitliche Ereignisse sind, die eine präzise interaktive Modellierung erfordern. Um diese 4D-Essenz wiederherzustellen und gleichzeitig eine präzise Robotersteuerung zu gewährleisten, stellen wir Kinema4D vor, einen neuen aktionskonditionierten 4D-generativen Robotersimulator, der die Roboter-Umwelt-Interaktion in folgende Komponenten zerlegt: i) Präzise 4D-Darstellung der Robotersteuerung: Wir steuern einen URDF-basierten 3D-Roboter kinematisch an und erzeugen eine präzise 4D-Robotersteuerungstrajektorie. ii) Generative 4D-Modellierung von Umweltreaktionen: Wir projizieren die 4D-Robotertrajektorie in eine Punktwolke als raumzeitliches visuelles Signal, um das generative Modell so zu steuern, dass es die reaktive Dynamik komplexer Umgebungen in synchronisierte RGB-/Punktwolken-Sequenzen synthetisiert. Zur Unterstützung des Trainings haben wir einen umfangreichen Datensatz namens Robo4D-200k erstellt, der 201.426 Roboterinteraktions-Episoden mit hochwertigen 4D-Annotationen umfasst. Umfangreiche Experimente belegen, dass unsere Methode physikalisch plausible, geometriekonsistente und körperungspezifische Interaktionen effektiv simuliert, die die diversen Dynamiken der realen Welt treu widerspiegeln. Erstmals zeigt sie Potenzial für Zero-Shot-Transferfähigkeit und bietet somit eine hochpräzise Grundlage für die Entwicklung von Simulationen der nächsten Generation für verkörpertes Lernen.
Jüngste Fortschritte bei Video-Diffusion-Transformatoren haben interaktive Spielweltmodelle ermöglicht, die Nutzern die Erkundung generierter Umgebungen über längere Zeiträume hinweg erlauben. Allerdings kämpfen bestehende Ansätze mit präziser Aktionssteuerung und langzeitlicher 3D-Konsistenz. Die meisten bisherigen Arbeiten behandeln Benutzeraktionen als abstrakte Konditionierungssignale und übersehen die fundamentale geometrische Kopplung zwischen Aktionen und der 3D-Welt, wonach Aktionen relative Kamerabewegungen induzieren, die sich zu einer globalen Kamerapose innerhalb einer 3D-Welt akkumulieren. In dieser Arbeit etablieren wir die Kamerapose als vereinheitlichende geometrische Repräsentation, um unmittelbare Aktionssteuerung und langfristige 3D-Konsistenz gemeinsam zu verankern. Erstens definieren wir einen physikbasierten kontinuierlichen Aktionsraum und repräsentieren Benutzereingaben in der Lie-Algebra, um präzise 6-DoF-Kameraposen abzuleiten, die über einen Camera Embedder in das generative Modell injiziert werden, um eine genaue Aktionsausrichtung zu gewährleisten. Zweitens nutzen wir globale Kameraposen als räumliche Indizes, um relevante vergangene Beobachtungen abzurufen, was ein geometrisch konsistentes Wiederaufsuchen von Orten während langandauernder Navigation ermöglicht. Um diese Forschung zu unterstützen, führen wir einen umfangreichen Datensatz ein, der 3.000 Minuten authentischen menschlichen Gameplays mit annotierten Kameratrajektorien und Textbeschreibungen umfasst. Umfangreiche Experimente zeigen, dass unser Ansatz state-of-the-art interaktive Spielweltmodelle in Bezug auf Aktionssteuerbarkeit, langzeitliche visuelle Qualität und 3D-räumliche Konsistenz erheblich übertrifft.
Das vorherrschende Paradigma zur Verbesserung großer Sprachmodelle stützt sich auf Offline-Training mit menschlichen Annotationen oder simulierten Umgebungen, wodurch die wertvollen Erfahrungen, die während des realen Einsatzes gesammelt werden, vollständig ungenutzt bleiben. Wir schlagen Online Experiential Learning (OEL) vor, einen Rahmen, der Sprachmodelle in die Lage versetzt, sich kontinuierlich aus ihren eigenen Einsatzexperimenten zu verbessern. OEL operiert in zwei Phasen: Zuerst wird übertragbares Erfahrungswissen aus Interaktionsverläufen extrahiert und angesammelt, die auf Nutzerseite gesammelt wurden; zweitens wird dieses Wissen durch On-Policy-Kondensation im Kontext in Modellparameter konsolidiert, ohne dass ein Zugriff auf die Nutzerumgebung erforderlich ist. Die beiden Phasen werden wiederholt, um eine Online-Lernschleife zu bilden, in der das verbesserte Modell qualitativ hochwertigere Verläufe sammelt, die wiederum reichhaltigeres Erfahrungswissen für nachfolgende Runden liefern. Wir evaluieren OEL in textbasierten Spielumgebungen über verschiedene Modellgrößen hinweg sowie mit Denk- und Nicht-Denk-Varianten. OEL erzielt durchgängige Verbesserungen über aufeinanderfolgende Iterationen, steigert sowohl die Aufgabengenauigkeit als auch die Token-Effizienz und erhält dabei die Out-of-Distribution-Leistung bei. Unsere Analyse zeigt weiterhin, dass extrahiertes Erfahrungswissen signifikant wirksamer ist als rohe Interaktionsverläufe und dass On-Policy-Konsistenz zwischen der Wissensquelle und dem Policy-Modell entscheidend für effektives Lernen ist.
Die Text-zu-SQL-Analyse hat unter der Annahme eines vollständigen Schemas bemerkenswerte Fortschritte erzielt. Diese Prämisse gilt jedoch nicht in realen Unternehmensumgebungen, in denen Datenbanken Hunderte von Tabellen mit umfangreichen verrauschten Metadaten enthalten. Anstatt das vollständige Schema von vornherein einzuspielen, muss ein Agent aktiv nur die relevante Teilmenge identifizieren und verifizieren, was zum unbekannten Schema-Szenario führt, das wir in dieser Arbeit untersuchen. Um dies zu adressieren, schlagen wir TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools) vor. Wir formulieren die Aufgabe als teilweise beobachtbaren Markov-Entscheidungsprozess, in dem unser autonomer Agent ein strukturiertes Vier-Phasen-Protokoll anwendet, um die Abfragelogik in verifizierten Metadaten zu verankern. Entscheidend ist, dass dieses Protokoll eine strukturelle Grenze für unsere neuartige Dual-Track-GRPO-Strategie bildet. Durch die Anwendung tokenmaskierter Vorteile auf Token-Ebene isoliert diese Strategie Explorationsbelohnungen von Ausführungsergebnissen, um die Kreditzuweisung zu lösen, was eine relative Verbesserung von 9,9 % gegenüber Standard-GRPO erzielt. Umfangreiche Experimente über fünf Benchmarks zeigen, dass TRUST-SQL eine durchschnittliche absolute Verbesserung von 30,6 % bzw. 16,6 % für die 4B- und 8B-Varianten gegenüber ihren Basismodellen erreicht. Bemerkenswerterweise übertrifft unser Framework trotz des vollständigen Verzichts auf vorab geladene Metadaten konsistent starke Baseline-Modelle, die auf Schema-Vorausfüllung angewiesen sind.
Die Integration großer Sprachmodelle (LLM) in den Finanzbereich bewirkt einen Paradigmenwechsel von der passiven Informationsbeschaffung hin zu einer dynamischen, agentenbasierten Interaktion. Während das allgemeine Werkzeuglernen einen starken Zuwachs an Benchmarks verzeichnet, ist der Finanzsektor – geprägt durch hohe Risiken, strenge Compliance-Vorschriften und schnelle Datenvolatilität – nach wie vor kritisch unterversorgt. Bisherige finanzielle Evaluierungen konzentrieren sich überwiegend auf statische Textanalysen oder dokumentenbasierte Frage-Antwort-Systeme und ignorieren die komplexe Realität der Werkzeugausführung. Im Gegensatz dazu mangelt es allgemeinen Werkzeug-Benchmarks an der für die Finanzbranche erforderlichen domainspezifischen Strenge; sie basieren oft auf vereinfachten Testumgebungen oder einer vernachlässigbaren Anzahl finanzieller APIs. Um diese Lücke zu schließen, stellen wir FinToolBench vor, den ersten realen, ausführbaren Benchmark, der speziell für die Bewertung von Agenten zum Erlernen finanzieller Werkzeuge entwickelt wurde. Anders als frühere Arbeiten, die sich auf eine Handvoll simulierter Werkzeuge beschränken, etabliert FinToolBench ein realitätsnahes Ökosystem, das 760 ausführbare Finanzwerkzeuge mit 295 rigorosen, werkzeugbezogenen Abfragen koppelt. Wir schlagen ein neuartiges Evaluierungsframework vor, das über die bloße binäre Ausführungserfolgsmessung hinausgeht und Agenten anhand finanzspezifischer Dimensionen bewertet: Zeitlichkeit, Intent-Typ und Übereinstimmung mit regulatorischen Domänen. Darüber hinaus präsentieren wir FATR, eine finanzbewusste Baseline für Werkzeug-Retrieval und Reasoning, die Stabilität und Compliance verbessert. Indem FinToolBench die erste Testumgebung für auditfähige, agentenbasierte Finanztransaktionen bereitstellt, setzt es einen neuen Standard für vertrauenswürdige KI in der Finanzwelt. Das Werkzeugmanifest, die Ausführungsumgebung und der Evaluierungscode werden quelloffen gemacht, um zukünftige Forschung zu erleichtern.
Viele Anwendungen großer Sprachmodelle erfordern die Konditionierung auf lange Kontexte. Transformer-Modelle unterstützen dies typischerweise durch das Speichern eines großen KV-Cache vergangener Aktivierungen pro Schicht, was einen erheblichen Speicheraufwand verursacht. Eine wünschenswerte Alternative ist komprimierter Speicher: Ein Kontext wird einmal gelesen, in einem kompakten Zustand gespeichert, und viele Abfragen werden aus diesem Zustand beantwortet. Wir untersuchen dies in einem Kontextentfernungsszenario, bei dem das Modell zur Inferenzzeit eine Antwort generieren muss, ohne Zugriff auf den ursprünglichen Kontext zu haben. Wir stellen GradMem vor, das Kontext durch Optimierung zur Laufzeit pro Beispiel in den Speicher schreibt. Für einen gegebenen Kontext führt GradMem einige Schritte des Gradientenabstiegs auf einer kleinen Menge von Präfix-Speicher-Tokens durch, während die Modellgewichte eingefroren bleiben. GradMem optimiert explizit einen modellbasierten, selbstüberwachten Kontext-Rekonstruktionsverlust, was zu einem verlustgesteuerten Schreibvorgang mit iterativer Fehlerkorrektur führt, im Gegensatz zu rein vorwärtsgerichteten Methoden. Beim assoziativen Schlüssel-Wert-Abruf übertrifft GradMem rein vorwärtsgerichtete Speicherschreiber mit derselben Speichergröße, und zusätzliche Gradientenschritte skalieren die Kapazität wesentlich effektiver als wiederholte Vorwärtsschreibvorgänge. Wir zeigen weiter, dass GradMem über synthetische Benchmarks hinaus generalisiert: Mit vortrainierten Sprachmodellen erzielt es wettbewerbsfähige Ergebnisse auf natürlichen Sprachaufgaben, einschließlich bAbI- und SQuAD-Varianten, und stützt sich dabei nur auf die im Speicher kodierten Informationen.
Während neuere Flow-Matching-Modelle die Rekonstruktionsengpässe latenter Autoencoder umgehen, indem sie direkt im Pixelraum operieren, führt der Mangel an semantischer Kontinuität in der Pixelmannigfaltigkeit zu einer starken Verflechtung der optimalen Transportpfade. Dies verursacht erhebliche Trajektorienkonflikte nahe Schnittpunkten, was zu suboptimalen Lösungen führt. Anstatt dieses Problem durch informationsreduzierte latente Repräsentationen zu umgehen, entwirren wir die Pixelraum-Trajektorien direkt durch die Einführung von Waypoint Diffusion Transformers (WiT). WiT faktorisiert das kontinuierliche Vektorfeld über intermediäre semantische Wegpunkte, die aus vortrainierten Vision-Modellen projiziert werden. Es entwirrt die Erzeugungstrajektorien effektiv, indem es den optimalen Transport in Prior-zu-Wegpunkt- und Wegpunkt-zu-Pixel-Segmente unterteilt. Konkret leitet ein leichtgewichtiger Generator während des iterativen Denoising-Prozesses diese Zwischenwegpunkte dynamisch aus dem aktuellen verrauschten Zustand ab. Diese konditionieren kontinuierlich den primären Diffusion-Transformer über den Just-Pixel-AdaLN-Mechanismus, lenken die Evolution zum nächsten Zustand und erzeugen letztendlich die finalen RGB-Pixel. Evaluierungen auf ImageNet 256x256 zeigen, dass WiT starke Pixelraum-Baselines übertrifft und die JiT-Trainingskonvergenz um das 2,2-fache beschleunigt. Der Code wird unter https://github.com/hainuo-wang/WiT.git öffentlich zugänglich gemacht.
Einheitliche multimodale Modelle (UMMs) werden häufig durch das Pre-Training ihrer visuellen Generierungskomponenten eingeschränkt, das typischerweise auf ineffizienten Paradigmen und knappen, hochwertigen Text-Bild-Paaren basiert. In diesem Papier analysieren wir systematisch Pre-Training-Methoden für die visuelle Generierung in UMMs und identifizieren diese beiden Probleme als die Hauptengpässe. Um diese zu lösen, schlagen wir Image-Only Training for UMMs (IOMM) vor, einen dateneffizienten Zwei-Stufen-Trainingsansatz. In der ersten Stufe wird die visuelle Generierungskomponente ausschließlich mit umfangreichen, ungelabelten Bilddaten vortrainiert, wodurch die Abhängigkeit von gepaarten Daten für diese kostenintensive Phase entfällt. Die zweite Stufe feintunt das Modell mit einer Mischung aus ungelabelten Bildern und einem kleinen, kuratierten Satz von Text-Bild-Paaren, was zu einer verbesserten Befolgung von Anweisungen und generativer Qualität führt. Umfangreiche Experimente zeigen, dass IOMM nicht nur die Trainingseffizienz steigert, sondern auch State-of-the-Art (SOTA) Leistung erzielt. Beispielsweise wurde unser IOMM-B (3,6B) Modell von Grund auf mit nur ca. 1050 H800 GPU-Stunden trainiert (wovon der Großteil, 1000 Stunden, auf die effiziente Image-Only Pre-Training-Phase entfiel). Es erzielt 0,89 auf GenEval und 0,55 auf WISE – und übertrifft damit starke Baseline-Modelle wie BAGEL-7B (0,82 & 0,55) und BLIP3-o-4B (0,84 & 0,50). Code ist verfügbar unter https://github.com/LINs-lab/IOMM.
Mehrfachdurchläufe von Multi-Agenten-Spielevaluierungen mit großen Sprachmodellen zeigen oft erhebliche Varianz zwischen den Durchgängen. In langen Interaktionshorizonten potenzieren sich kleine anfängliche Abweichungen über die Spielzüge hinweg und werden durch die Multi-Agenten-Kopplung verstärkt. Dies verzerrt die Schätzung der Gewinnraten und macht Ranglisten über wiederholte Turniere hinweg unzuverlässig. Die Wahl der Prompts verschärft dieses Problem zusätzlich, indem sie unterschiedliche effektive Strategien erzeugt. Wir adressieren sowohl Instabilität als auch unzureichende Leistung mit MEMO (Memory-augmented MOdel context optimization), einem Selbstspiel-Framework, das den Inferenz-Kontext durch die Kopplung von Beibehaltung und Exploration optimiert. Die Beibehaltung verwaltet einen persistenten Speicher, der strukturierte Erkenntnisse aus Selbstspiel-Pfaden speichert und diese als Priors in späteren Spielen injiziert. Die Exploration führt eine turnierbasierte Prompt-Evolution mit unsicherheitsbewusster Selektion via TrueSkill durch und nutzt priorisiertes Replay, um seltene und entscheidende Zustände erneut zu besuchen. Über fünf textbasierte Spiele hinweg steigert MEMO die durchschnittliche Gewinnrate von GPT-4o-mini von 25,1 % auf 49,5 % und von Qwen-2.5-7B-Instruct von 20,9 % auf 44,3 % bei 2.000 Selbstspielen pro Aufgabe. Die Lauf-zu-Lauf-Varianz sinkt ebenfalls, was zu stabileren Ranglisten über Prompt-Variationen hinweg führt. Diese Ergebnisse deuten darauf hin, dass die Leistung und Robustheit von Multi-Agenten-Spielen mit großen Sprachmodellen durch Kontextoptimierung erheblich verbessert werden kann. MEMO erzielt die größten Gewinne in Verhandlungs- und Imperfect-Information-Spielen, während Reinforcement-Learning in Perfect-Information-Szenarien effektiver bleibt.
Während sich große Sprachmodelle (LLMs) zu werkzeugnutzenden Agenten entwickelt haben, bleiben sie in langfristigen Interaktionen anfällig. Im Gegensatz zum mathematischen Denken, bei dem Fehler oft durch Backtracking korrigierbar sind, führen Werkzeugnutzungsfehler häufig zu irreversiblen Nebeneffekten, was eine genaue verfahrensschrittbezogene Verifikation kritisch macht. Bisherige prozessorientierte Benchmarks sind jedoch überwiegend auf geschlossene mathematische Domänen beschränkt und erfassen nicht die dynamische und offene Natur der Werkzeugausführung. Um diese Lücke zu schließen, stellen wir AgentProcessBench vor, den ersten Benchmark, der sich der Bewertung der Schrittwirksamkeit in realistischen, werkzeuggestützten Trajektorien widmet. Der Benchmark umfasst 1.000 diverse Trajektorien und 8.509 menschlich annotierte Schrittanleitungen mit einer Inter-Annotator-Übereinstimmung von 89,1%. Er zeichnet sich durch ein ternäres Labeling-Schema zur Erfassung von Exploration und eine Fehlerfortpflanzungsregel zur Reduzierung von Labeling-Unschärfen aus. Umfangreiche Experimente zeigen zentrale Erkenntnisse: (1) Schwächere Policy-Modelle weisen aufgrund vorzeitigen Abbruchs aufgeblähte Anteile korrekter Schritte auf; (2) Die Unterscheidung zwischen neutralen und fehlerhaften Aktionen bleibt eine große Herausforderung für aktuelle Modelle; und (3) Prozessbasierte Signale bieten komplementären Wert zur Ergebnisüberwachung und verbessern die Skalierung zur Testzeit erheblich. Wir hoffen, dass AgentProcessBench zukünftige Forschung zu Belohnungsmodellen fördert und den Weg zu allgemeinen Agenten ebnet. Der Code und die Daten sind unter https://github.com/RUCBM/AgentProcessBench verfügbar.
Hochwertige maschinelle Übersetzung (MT) kann auf Hunderte von Sprachen skaliert werden und setzt damit hohe Maßstäbe für mehrsprachige Systeme. Verglichen mit den rund 7.000 Sprachen der Welt bieten aktuelle Systeme jedoch nach wie vor nur eine begrenzte Abdeckung: etwa 200 Sprachen auf der Zielseite und möglicherweise einige Hundert weitere auf der Quellseite, die durch cross-lingualen Transfer unterstützt werden. Selbst diese Zahlen waren aufgrund fehlender zuverlässiger Benchmarks und Metriken schwer zu bewerten. Wir stellen Omnilingual Machine Translation (OMT) vor, das erste MT-System, das mehr als 1.600 Sprachen unterstützt. Dieser Umfang wird durch eine umfassende Datenstrategie ermöglicht, die große öffentliche mehrsprachige Korpora mit neu erstellten Datensätzen integriert, einschließlich manuell kuratiertem MeDLEY-Bitext. Wir untersuchen zwei Möglichkeiten, ein Large Language Model (LLM) für maschinelle Übersetzung zu spezialisieren: als Decoder-only-Modell (OMT-LLaMA) oder als Modul in einer Encoder-Decoder-Architektur (OMT-NLLB). Bemerkenswerterweise übertreffen oder erreichen alle unsere Modelle mit 1B bis 8B Parametern die MT-Leistung eines 70B-LLM-Basismodells, was einen klaren Spezialisierungsvorteil offenbart und hohe Übersetzungsqualität auch bei geringen Rechenressourcen ermöglicht. Darüber hinaus zeigt unsere Auswertung von Englisch-zu-1.600-Übersetzungen, dass Basismodelle zwar untersupportete Sprachen interpretieren können, aber häufig scheitern, sie mit aussagekräftiger Treue zu generieren; OMT-LLaMA-Modelle erweitern die Anzahl der Sprachen, für die eine kohärente Generierung möglich ist, erheblich. Zusätzlich verbessern OMT-Modelle den cross-lingualen Transfer und kommen der Lösung des "Verstehens"-Teils des MT-Puzzles für die 1.600 evaluierten Sprachen nahe. Unser Leaderboard und unsere wichtigsten, von Menschen erstellten Evaluierungsdatensätze (BOUQuET und Met-BOUQuET) entwickeln sich dynamisch in Richtung Omnilingualität weiter und sind frei verfügbar.
Große Sprachmodelle (LLMs) mit Chain-of-Thought-Reasoning erzielen Spitzenleistungen bei komplexen Problemlösungsaufgaben, doch ihre umfangreichen Reasoning-Pfade und hohen Kontextanforderungen machen sie für den Edge-Einsatz unpraktisch. Diese Herausforderungen umfassen hohe Token-Generierungskosten, großen KV-Cache-Speicherbedarf und Ineffizienzen bei der Distillation von Reasoning-Fähigkeiten in kleinere Modelle für Mobilgeräte. Bestehende Ansätze stützen sich oft auf die Distillation von Reasoning-Pfaden größerer Modelle in kleinere Modelle, die wortreich und stilistisch redundant sind – unerwünscht für On-Device-Inferenz. In dieser Arbeit schlagen wir einen leichtgewichtigen Ansatz vor, um Reasoning in kleinen LLMs mittels LoRA-Adapter in Kombination mit überwachtem Fine-Tuning zu ermöglichen. Wir führen zudem Budget Forcing via Reinforcement Learning für diese Adapter ein, was die Antwortlänge bei minimalem Genauigkeitsverlust erheblich reduziert. Um speicherbegrenzte Decodierung zu adressieren, nutzen wir paralleles Test-Time-Scaling, das die Genauigkeit bei geringer Latenzsteigerung verbessert. Schließlich präsentieren wir einen dynamischen Adapter-Switching-Mechanismus, der Reasoning nur bei Bedarf aktiviert, sowie eine KV-Cache-Sharing-Strategie während der Prompt-Encodierung, die die Time-to-First-Token für On-Device-Inferenz reduziert. Experimente mit Qwen2.5-7B zeigen, dass unsere Methode effizientes und präzises Reasoning unter strengen Ressourcenbedingungen erreicht und LLM-Reasoning für mobile Szenarien praktikabel macht. Videos, die unsere Lösung auf Mobilgeräten zeigen, sind auf unserer Projektseite verfügbar.
Agent Skills, strukturierte Pakete prozeduralen Wissens, die zur Inferenzzeit injiziert werden, werden zunehmend eingesetzt, um LLM-Agenten bei Softwareentwicklungsaufgaben zu erweitern. Ihr tatsächlicher Nutzen in end-to-end Entwicklungsumgebungen bleibt jedoch unklar. Wir stellen SWE-Skills-Bench vor, den ersten anforderungengetriebenen Benchmark, der den marginalen Nutzen von Agent Skills in realer Softwareentwicklung (SWE) isoliert. Er kombiniert 49 öffentliche SWE-Skills mit authentischen GitHub-Repositories, die auf feste Commits festgepinnt sind, sowie Anforderungsdokumenten mit expliziten Akzeptanzkriterien, was etwa 565 Aufgabeninstanzen über sechs SWE-Subdomänen hinweg ergibt. Wir führen ein deterministisches Verifikationsframework ein, das die Akzeptanzkriterien jeder Aufgabe auf ausführungsbasierte Tests abbildet und so eine kontrollierte paarweise Evaluation mit und ohne den Skill ermöglicht. Unsere Ergebnisse zeigen, dass die Vorteile der Skill-Injektion weitaus begrenzter sind als die rasche Adoption vermuten lässt: 39 von 49 Skills bringen keine Verbesserung der Bestehensrate, und der durchschnittliche Gewinn beträgt nur +1,2 %. Der Token-Mehraufwand reicht von moderaten Einsparungen bis zu einer Steigerung um 451 %, während die Bestehensraten unverändert bleiben. Nur sieben spezialisierte Skills erzielen bedeutende Verbesserungen (bis zu +30 %), während drei die Leistung verschlechtern (bis zu -10 %), da versionsinkongruente Anweisungen mit dem Projektkonflikt kollidieren. Diese Ergebnisse legen nahe, dass Agent Skills eine begrenzte Intervention sind, deren Nützlichkeit stark von Domänenpassung, Abstraktionsniveau und kontextueller Kompatibilität abhängt. SWE-Skills-Bench bietet eine Testumgebung zur Bewertung des Designs, der Auswahl und des Einsatzes von Skills in Softwareentwicklungs-Agenten. SWE-Skills-Bench ist verfügbar unter https://github.com/GeniusHTX/SWE-Skills-Bench.
Wir stellen SegviGen vor, einen Framework, der native 3D-Generativmodelle für die 3D-Teilesegmentierung umfunktioniert. Bestehende Pipelines heben entweder starke 2D-Priors via Distillation oder Multi-View-Maskenaggregation in 3D, leiden dabei jedoch häufig unter Blickübergreifungsinkonsistenzen und unscharfen Grenzen, oder sie erforschen native 3D-diskriminative Segmentierung, die typischerweise groß angelegte annotierte 3D-Daten und erhebliche Trainingsressourcen erfordert. Im Gegensatz dazu nutzt SegviGen die strukturierten Priors, die in vortrainierten 3D-Generativmodellen kodiert sind, um durch distinctive Teilfärbung eine Segmentierung zu induzieren, und etabliert so einen neuartigen und effizienten Framework für die Teilesegmentierung. Konkret kodiert SegviGen ein 3D-Asset und sagt teilindikative Farben auf aktiven Voxeln einer geometrieausgerichteten Rekonstruktion vorher. Es unterstützt interaktive Teilesegmentierung, Vollsegmentierung und Vollsegmentierung mit 2D-Führung in einem einheitlichen Framework. Umfangreiche Experimente zeigen, dass SegviGen den bisherigen State-of-the-Art bei interaktiver Teilesegmentierung um 40 % und bei Vollsegmentierung um 15 % übertrifft, während nur 0,32 % der annotierten Trainingsdaten verwendet werden. Es demonstriert, dass vortrainierte 3D-Generativpriors effektiv auf die 3D-Teilesegmentierung übertragbar sind und eine hohe Leistung mit begrenzter Supervision ermöglichen. Weitere Informationen unter https://fenghora.github.io/SegviGen-Page/.
Video Super-Resolution (VSR) zielt darauf ab, hochwertige Videobilder aus niedrigaufgelösten (LR) Schätzungen wiederherzustellen. Dennoch verhalten sich die meisten bestehenden VSR-Ansätze zur Inferenzzeit wie Blackboxen: Benutzer können unerwartete Artefakte nicht zuverlässig korrigieren, sondern müssen akzeptieren, was das Modell ausgibt. In diesem Artikel schlagen wir ein neuartiges, interaktives VSR-Framework namens SparkVSR vor, das spärliche Keyframes zu einem einfachen und ausdrucksstarken Steuersignal macht. Konkret können Benutzer zunächst eine kleine Menge von Keyframes mit einem beliebigen verfügbaren Image Super-Resolution (ISR)-Modell hochskalieren oder optional bearbeiten. Anschließend propagiert SparkVSR die Keyframe-Priors auf die gesamte Videosequenz, bleibt dabei aber durch die ursprüngliche LR-Videobewegung verankert. Dazu führen wir eine Keyframe-konditionierte Zwei-Stufen-Trainingspipeline für latente und pixelbezogene Repräsentationen ein, die LR-Videolatenten mit spärlich kodierten HR-Keyframe-Latenzen fusioniert, um eine robuste cross-space Propagation zu erlernen und perzeptuelle Details zu verfeinern. Zur Inferenzzeit unterstützt SparkVSR flexible Keyframe-Auswahl (manuelle Spezifikation, Extraktion von Codec-I-Frames oder Zufallsstichproben) und einen referenzfreien Führungsmechanismus, der kontinuierlich die Keyframe-Treue und blinde Restauration austariert. Dies gewährleistet eine robuste Leistung, selbst wenn Referenz-Keyframes fehlen oder unvollkommen sind. Experimente auf mehreren VSR-Benchmarks zeigen eine verbesserte zeitliche Konsistenz und starke Restaurationsqualität, die Baseline-Methoden um bis zu 24,6 %, 21,8 % bzw. 5,6 % auf CLIP-IQA, DOVER und MUSIQ übertrifft und somit eine steuerbare, keyframe-gesteuerte Video-Super-Resolution ermöglicht. Darüber hinaus demonstrieren wir, dass SparkVSR ein generisches, interaktives, keyframe-konditioniertes Videoverarbeitungsframework ist, da es ohne Anpassung auf unbekannte Aufgaben wie die Restaurierung von Altfilmen und Video-Style-Transfer angewendet werden kann. Unsere Projektseite ist verfügbar unter: https://sparkvsr.github.io/
Wir präsentieren eine vollständige Lean-4-Formalisierung der Gleichgewichtscharakterisierung im Vlasov-Maxwell-Landau (VML)-System, welches die Bewegung von geladenem Plasma beschreibt. Das Projekt demonstriert den vollständigen KI-gestützten mathematischen Forschungszyklus: Ein KI-Modell für logisches Schließen (Gemini DeepThink) generierte den Beweis aus einer Vermutung, ein agentenbasiertes Codierwerkzeug (Claude Code) übersetzte ihn anhand von natürlichsprachlichen Prompts in Lean, ein spezialisierter Beweiser (Aristotle) schloss 111 Lemmata ab, und der Lean-Kernel verifizierte das Ergebnis. Ein einzelner Mathematiker überwachte den Prozess über 10 Tage hinweg zu einem Preis von 200 US-Dollar, ohne eine einzige Codezeile zu schreiben. Der gesamte Entwicklungsprozess ist öffentlich einsehbar: Alle 229 menschlichen Prompts und 213 Git-Commits sind im Repository archiviert. Wir berichten detailliert über Erkenntnisse zu KI-Fehlverhalten – Hypotheseenkrement, Definitionsabgleichsfehler, Vermeidungsverhalten von Agenten – und darüber, was funktioniert hat: die Aufteilung in abstrakte/konkrete Beweise, adversarische Selbstüberprüfung und die entscheidende Rolle menschlicher Überprüfung von Schlüsseldefinitionen und Theoremen. Bemerkenswerterweise wurde die Formalisierung abgeschlossen, bevor der endgültige Entwurf des entsprechenden mathematischen Papers fertiggestellt war.
Die Verarbeitung langer Kontexte bleibt eine zentrale Herausforderung für Sprachmodelle: Selbst bei erweiterten Kontextfenstern gelingt es Modellen oft nicht zuverlässig, Informationen über lange Kontexte zu extrahieren, darüber zu schlussfolgern und sie zu nutzen. Neuere Arbeiten wie Recursive Language Models (RLM) haben sich dieser Herausforderung durch einen agentenbasierten Ansatz genähert, bei dem lange Kontexte während des Inferenzvorgangs durch programmatische Interaktion in rekursive Unteraufrufe zerlegt werden. Obwohl vielversprechend, hängt der Erfolg von RLM kritisch davon ab, wie diese Kontext-Interaktionsprogramme ausgewählt werden, was bisher weitgehend unerforscht blieb. In dieser Arbeit untersuchen wir dieses Problem und stellen SRLM vor, einen Rahmen, der die programmatische Kontextinteraktion durch unsicherheitsbewusste Selbstreflexion erweitert. SRLM nutzt drei intrinsische Signale: Selbstkonsistenz, Schlussfolgerungslänge und verbalisiertes Vertrauen. Diese dienen als komplementäre Indikatoren für die interne Unsicherheit eines Modells, und das Modell verwendet sie, um Kandidaten für Kontext-Interaktionsprogramme zu bewerten und zu vergleichen. Umfangreiche Experimente mit verschiedenen Benchmark-Datensätzen, Kontextlängen und Basismodellen zeigen, dass SRLM durchgängig state-of-the-art Baseline-Methoden übertrifft und unter demselben Zeitbudget eine Verbesserung von bis zu 22 % gegenüber RLM erzielt. Unsere Ergebnisse zeigen, dass Rekursion selbst nicht der primäre Leistungstreiber in RLM ist und eine einfache selbstreflektierende Programmsuche RLM erreichen oder übertreffen kann, ohne Selbstabfragen oder explizite Rekursionsmechanismen zu erfordern. Wir stellen fest, dass für Kontextlängen innerhalb des Modellfensters RLMs mit Rekursion die Leistung oft gegenüber dem Basismodell verschlechtern, während SRLM sowohl bei kurzen als auch bei langen Kontexten durchgängige Verbesserungen erzielt. Ebenso finden wir, dass RLM bei Aufgaben mit semantisch anspruchsvollem Charakter weniger effektiv ist, wo eine heuristische Programmsuche unzureichend ist und ein breiteres kontextuelles Verständnis erforderlich ist, während die Selbstreflexion in SRLM ein semantisches Signal liefert, das die Schlussfolgerung in diesen Szenarien besser steuert.
Die Streaming-Rekonstruktion aus unkalibrierten monokularen Videos bleibt eine Herausforderung, da sie sowohl hochpräzise Pose-Schätzung als auch recheneffiziente Online-Verfeinerung in dynamischen Umgebungen erfordert. Obwohl die Kopplung von 3D-Foundation-Modellen mit SLAM-Frameworks ein vielversprechendes Paradigma darstellt, besteht ein kritischer Engpass: Die meisten Multi-View-Foundation-Modelle schätzen Posen in einem vorwärtsgerichteten Verfahren und liefern so Pixel-korrespondenzen, denen die für eine rigorose geometrische Optimierung erforderliche Präzision fehlt. Um dies zu adressieren, stellen wir M^3 vor, das das Multi-View-Foundation-Modell um einen dedizierten Matching-Kopf erweitert, um feinkörnige dichte Korrespondenzen zu ermöglichen, und es in ein robustes monokulares Gaussian-Splatting-SLAM integriert. M^3 verbessert die Tracking-Stabilität weiter durch die Einbeziehung von dynamischer Bereichsunterdrückung und kreuzschließender intrinsischer Ausrichtung. Umfangreiche Experimente auf verschiedenen Indoor- und Outdoor-Benchmarks demonstrieren state-of-the-art Genauigkeit sowohl bei der Pose-Schätzung als auch bei der Szenenrekonstruktion. Bemerkenswerterweise reduziert M^3 den ATE-RMSE um 64,3 % im Vergleich zu VGGT-SLAM 2.0 und übertrifft ARTDECO auf dem ScanNet++-Datensatz um 2,11 dB im PSNR.
Eine zuverlässige Evaluation ist unerlässlich für die Entwicklung und den Einsatz großer Sprachmodelle, erfordert in der Praxis jedoch oft erheblichen manuellen Aufwand: Praktiker müssen geeignete Benchmarks identifizieren, heterogene Evaluations-Codebasen reproduzieren, Datensatz-Schema-Mappings konfigurieren und aggregierte Metriken interpretieren. Um diese Herausforderungen zu bewältigen, stellen wir One-Eval vor, ein agentenbasiertes Evaluationssystem, das natürlichsprachliche Evaluationsanfragen in ausführbare, nachvollziehbare und anpassbare Evaluations-Workflows umwandelt. One-Eval integriert (i) NL2Bench zur Intent-Strukturierung und personalisierten Benchmark-Planung, (ii) BenchResolve zur Benchmark-Auflösung, automatischen Datensatzbeschaffung und Schema-Normalisierung zur Gewährleistung der Ausführbarkeit sowie (iii) Metrics & Reporting zur aufgabenbewussten Metrikauswahl und entscheidungsorientierten Berichterstattung über skalare Scores hinaus. Das System integriert zudem Human-in-the-Loop-Kontrollpunkte für Überprüfung, Bearbeitung und Rollback, während es Stichprobennachweise für Debugging und Nachvollziehbarkeit bewahrt. Experimente zeigen, dass One-Eval End-to-End-Evaluationen aus diversen natürlichsprachlichen Anfragen mit minimalem Benutzeraufwand durchführen kann und so eine effizientere und reproduzierbarere Evaluation in industriellen Umgebungen unterstützt. Unser Framework ist öffentlich verfügbar unter https://github.com/OpenDCAI/One-Eval.
Mit der rasanten Entwicklung von Vision-Language-Modellen untersuchen immer mehr Studien deren Potenzial für SVG-Generierungsaufgaben. Obwohl bestehende Ansätze die Leistung durch den Aufbau groß angelegter SVG-Datensätze und die Einführung SVG-spezifischer Tokens verbessern, leiden sie nach wie vor unter eingeschränkter Generalisierungsfähigkeit, redundanten Pfaden in den Code-Ausgaben und einem Mangel an expliziter Schlussfolgerungsfähigkeit. In dieser Arbeit stellen wir CTRL-S (Chain-of-Thought Reinforcement Learning for SVG) vor, einen einheitlichen Rahmen, der einen Chain-of-Thought-Mechanismus einführt, um den Schlussfolgerungsprozess des Modells während der SVG-Generierung explizit darzulegen. Um diese strukturierte Schlussfolgerung zu unterstützen, erstellen wir SVG-Sophia, einen hochwertigen Datensatz mit 145.000 Stichproben für die Aufgabenbereiche SVG-Code-Verfeinerung, Text-zu-SVG und Bild-zu-SVG. Indem das Modell trainiert wird, gruppenweise strukturierten SVG-Code zu generieren, verbessert CTRL-S signifikant die strukturelle Kohärenz und visuelle Treue. Darüber hinaus adaptieren wir den GRPO-Algorithmus und entwerfen ein Multi-Reward-Optimierungsframework, das DINO-, Bild-Text-Ähnlichkeits-, Format- und Code-Effizienz-Belohnungen integriert. Durch gemeinsame Multi-Reward-Optimierung und Multi-Task-Training verbessert unser Ansatz systematisch die gesamten Generierungsfähigkeiten. Umfangreiche Experimente zeigen, dass CTRL-S bestehende Methoden übertrifft und höhere Aufgaben-Erfolgsquoten, überlegene SVG-Code-Qualität und außergewöhnliche visuelle Treue erreicht.
Das Abtasten aus einer kategorialen Verteilung ist mathematisch einfach, führt jedoch bei der Dekodierung mit großem Vokabular oft zu zusätzlichem Speicherverkehr und zusätzlichen Kernels nach dem LM-Head. Wir stellen FlashSampling vor, eine exakte Abtastprimitive, die das Abtasten in die LM-Head-Matmul fusioniert und den Logits-Tensor niemals im HBM materialisiert. Die Methode ist einfach: Berechne Logits tileweise auf dem Chip, füge Gumbel-Rauschen hinzu, behalte nur einen Maximierer pro Zeile und pro Vokabular-Tile und schließe mit einer kleinen Reduktion über die Tiles ab. Der fusionierte Tile-Kernel ist exakt, weil sich Argmax über eine Partition zerlegen lässt; gruppierte Varianten für Online- und Tensor-Parallel-Einstellungen sind durch hierarchische Faktorisierung der kategorialen Verteilung exakt. Auf H100-, H200-, B200- und B300-GPUs beschleunigt FlashSampling Kernel-level-Dekodierlasten, und in Ende-zu-Ende-vLLM-Experimenten reduziert es die Zeit pro Ausgabetoken bei den von uns getesteten Modellen um bis zu 19%. Diese Ergebnisse zeigen, dass exaktes Abtasten ohne Approximation in die Matmul selbst integriert werden kann, wodurch ein bandbreitenbeschränkter Nachverarbeitungsschritt in einen leichtgewichtigen Epilog verwandelt wird. Projektseite: https://github.com/FlashSampling/FlashSampling.
Eine vorherrschende Meinung im Robotik-Lernen besagt, dass Simulation allein nicht ausreicht; Es wird allgemein angenommen, dass ein effektiver Sim-to-Real-Transfer zumindest einige Datenerfassung in der realen Welt oder taskspezifisches Feinabstimmen erfordert, um die Lücke zwischen simulierten und physischen Umgebungen zu überbrücken. Wir stellen diese Annahme in Frage. Wir zeigen, dass mit ausreichend großen und diversen simulierten synthetischen Trainingsdaten ein Zero-Shot-Transfer in die reale Welt nicht nur möglich, sondern auch effektiv für sowohl statische als auch mobile Manipulation ist. Wir stellen MolmoBot-Engine vor, eine vollständig Open-Source-Pipeline zur prozeduralen Datengenerierung für Roboter, Aufgaben und diverse simulierte Umgebungen in MolmoSpaces. Damit veröffentlichen wir MolmoBot-Data, einen Datensatz mit 1,8 Millionen Expertentrajektorien für die Manipulation artikulierter Objekte und Pick-and-Place-Aufgaben. Wir trainieren drei Policy-Klassen: MolmoBot, ein Molmo2-basiertes Multi-Frame-Vision-Language-Modell mit einem Flow-Matching-Aktionskopf; MolmoBot-Pi0, das die π_0-Architektur repliziert, um einen direkten Vergleich zu ermöglichen; und MolmoBot-SPOC, eine leichtgewichtige Policy, die für den Edge-Einsatz geeignet und für RL-Feinabstimmung zugänglich ist. Wir evaluieren auf zwei robotischen Plattformen: der Franka FR3 für Tischmanipulationsaufgaben und dem Rainbow Robotics RB-Y1 mobilen Manipulator für das Öffnen von Türen, die Manipulation von Schubladen, die Interaktion mit Schränken und mobiles Pick-and-Place. Ohne jegliche Feinabstimmung in der realen Welt erreichen unsere Policies einen Zero-Shot-Transfer auf ungesehene Objekte und Umgebungen. Beim Tisch-Pick-and-Place erzielt MolmoBot eine Erfolgsrate von 79,2 % in Realwelt-Evaluationen über 4 Settings und übertrifft damit π_{0,5} mit 39,2 %. Unsere Ergebnisse demonstrieren, dass prozedurale Umgebungsgenerierung in Kombination mit diversen artikulierten Assets robuste Manipulations-Policies hervorbringen kann, die breit auf die reale Welt generalisieren. Technischer Blog: https://allenai.org/blog/molmobot-robot-manipulation
Eine genaue Prozessüberwachung bleibt eine kritische Herausforderung für langfristige robotische Manipulationsaufgaben. Ein primärer Engpass ist, dass aktuelle Video-MLLMs, die hauptsächlich nach einem Supervised Fine-Tuning (SFT)-Paradigma trainiert werden, als passive "Beobachter" fungieren, die laufende Ereignisse erkennen, anstatt den aktuellen Zustand relativ zum endgültigen Aufgabenziele zu bewerten. In diesem Artikel stellen wir PRIMO R1 (Process Reasoning Induced Monitoring) vor, ein 7B-Framework, das Video-MLLMs in aktive "Kritiker" verwandelt. Wir nutzen ergebnisbasiertes Reinforcement Learning, um eine explizite Chain-of-Thought-Generierung für die Fortschrittsbewertung zu incentivieren. Darüber hinaus konstruiert unsere Architektur einen strukturierten temporalen Input, indem die Videosequenz explizit zwischen Anfangs- und aktuellen Zustandsbildern verankert wird. Gestützt durch den vorgeschlagenen PRIMO-Datensatz und Benchmark zeigen umfangreiche Experimente in verschiedenen In-Domain-Umgebungen und Out-of-Domain realen Humanoid-Szenarien, dass PRIMO R1 State-of-the-Art-Leistung erreicht. Quantitativ erzielt unser 7B-Modell eine 50%ige Reduktion des mittleren absoluten Fehlers spezialisierter Reasoning-Baselines und demonstriert damit signifikante relative Genauigkeitsverbesserungen gegenüber allgemeinen MLLMs im 72B-Maßstab. Darüber hinaus zeigt PRIMO R1 eine starke Zero-Shot-Generalisierung bei schwierigen Fehlererkennungsaufgaben. Wir etablieren State-of-the-Art-Leistung auf dem RoboFail-Benchmark mit 67,0 % Genauigkeit und übertreffen damit Closed-Source-Modelle wie OpenAI o1 um 6,0 %.
Native 3D-Generativmodelle haben eine bemerkenswerte Detailtreue und Geschwindigkeit erreicht, leiden jedoch unter einer entscheidenden Einschränkung: der Unfähigkeit, präzise strukturelle Artikulationen vorzugeben, wobei die präzise strukturelle Steuerung im nativen 3D-Raum nach wie vor unzureichend erforscht ist. Dieses Paper stellt SK-Adapter vor, ein einfaches und dennoch hocheffizientes und effektives Framework, das eine präzise skeletale Manipulation für die native 3D-Generierung ermöglicht. Über textuelle oder bildbasierte Eingabeaufforderungen hinaus, die für präzise Strukturen mehrdeutig sein können, behandeln wir das 3D-Skelett als ein primäres Steuersignal. SK-Adapter ist ein leichtgewichtiges strukturelles Adapter-Netzwerk, das Gelenkkoordinaten und Topologie in lernbare Tokens kodiert, die via Cross-Attention in das eingefrorene 3D-Generierungs-Backbone injiziert werden. Dieses intelligente Design ermöglicht es dem Modell, nicht nur effektiv auf spezifische 3D-Strukturvorgaben zu „achten“, sondern auch seine ursprünglichen generativen Priors zu bewahren. Um die Datenlücke zu schließen, präsentieren wir den Objaverse-TMS-Datensatz, einen großen Datensatz mit 24.000 Text-Mesh-Skelett-Paaren. Umfangreiche Experimente bestätigen, dass unsere Methode eine robuste strukturelle Steuerung erreicht und dabei die Geometrie- und Texturqualität des Foundation-Models erhält, wobei sie existierende Baseline-Methoden signifikant übertrifft. Darüber hinaus erweitern wir diese Fähigkeit auf die lokale 3D-Bearbeitung, was die regionsspezifische Bearbeitung bestehender Assets mit skeletaler Führung ermöglicht – etwas, das mit früheren Methoden nicht erreichbar war. Projektseite: https://sk-adapter.github.io/
Obwohl interdisziplinäre Forschung zu größeren und langfristigeren Wirkungen führt, bleibt die meiste Arbeit auf wissenschaftliche Einzeldisziplinen beschränkt. Neuere KI-basierte Ansätze für wissenschaftliche Entdeckungen zeigen Potenzial für interdisziplinäre Forschung, konzentrieren sich jedoch oft darauf, Experimente und Lösungen schnell zu entwerfen, und umgehen dabei die explorativen, kollaborativen Denkprozesse, die kreative interdisziplinäre Durchbrüche vorantreiben. Infolgedessen priorisieren bisherige Bemühungen weitgehend die Automatisierung wissenschaftlicher Entdeckungen anstatt die Erweiterung der Denkprozesse, die wissenschaftlichen Umbruch ermöglichen. Wir stellen Idea-Catalyst vor, einen neuartigen Rahmen, der systematisch interdisziplinäre Erkenntnisse identifiziert, um kreatives Denken sowohl bei Menschen als auch bei großen Sprachmodellen zu unterstützen. Ausgehend von einem abstrakten Forschungsziel ist Idea-Catalyst darauf ausgelegt, die Brainstorming-Phase zu unterstützen und dabei ein vorzeitiges Festlegen auf bestimmte Lösungen explizit zu vermeiden. Der Rahmen verkörpert wesentliche metakognitive Merkmale interdisziplinären Denkens: (a) Definition und Bewertung von Forschungszielen, (b) Bewusstsein für die Chancen und ungelösten Herausforderungen einer Domäne und (c) strategische Erkundung interdisziplinärer Ideen basierend auf ihrem Wirkungspotenzial. Konkret zerlegt Idea-Catalyst ein abstraktes Ziel (z.B. Verbesserung der Mensch-KI-Kollaboration) in Kernforschungsfragen der Zieldomäne, die die Analyse von Fortschritten und offenen Herausforderungen innerhalb dieser Domäne leiten. Diese Herausforderungen werden als domänenunabhängige konzeptionelle Probleme neu formuliert, was die Ableitung von Erkenntnissen aus externen Disziplinen (z.B. Psychologie, Soziologie) ermöglicht, die analoge Probleme behandeln. Durch die Synthese und Neukontextualisierung dieser Erkenntnisse zurück in die Zieldomäne priorisiert Idea-Catalyst Quellendisziplinen nach ihrem interdisziplinären Potenzial. Empirisch steigert diese gezielte Integration die durchschnittliche Neuartigkeit um 21 % und die Einsichtstiefe um 16 %, während sie im ursprünglichen Forschungsproblem verankert bleibt.
Während Multimodale Large Language Models (MLLMs) vielversprechende Leistungen in der automatisierten EKG-Interpretation zeigen, bleibt unklar, ob sie tatsächlich eine schrittweise Schlussfolgerung durchführen oder sich lediglich auf oberflächliche visuelle Merkmale verlassen. Um dies zu untersuchen, führen wir ECG-Reasoning-Benchmark ein, einen neuartigen Multi-Turn-Evaluierungsrahmen mit über 6.400 Stichproben, um schrittweise Schlussfolgerungen über 17 Kern-EKG-Diagnosen systematisch zu bewerten. Unsere umfassende Evaluierung modernster Modelle zeigt ein kritisches Versagen bei der Ausführung mehrstufiger logischer Deduktion. Obwohl die Modelle über das medizinische Wissen verfügen, um klinische Kriterien für eine Diagnose abzurufen, weisen sie nahezu Null-Erfolgsquoten (6% Completion) bei der Aufrechterhaltung einer vollständigen Begründungskette auf, wobei sie hauptsächlich versagen, die entsprechenden EKG-Befunde auf die tatsächlichen visuellen Evidenzen im EKG-Signal zu beziehen. Diese Ergebnisse demonstrieren, dass aktuelle MLLMs die eigentliche visuelle Interpretation umgehen, was einen kritischen Fehler in bestehenden Trainingsparadigmen aufdeckt und die Notwendigkeit einer robusten, schlussfolgerungszentrierten medizinischen KI unterstreicht. Der Code und die Daten sind unter https://github.com/Jwoo5/ecg-reasoning-benchmark verfügbar.
Aktuelle Arbeiten haben deutlich gemacht, dass der Residualpfad nicht bloß Optimierungsinfrastruktur ist; er ist Teil der Repräsentationsmaschinerie des Modells. Wir stimmen dem zu, argumentieren aber, dass der klarste Weg, diesen Designraum zu organisieren, in einer Zwei-Achsen-Sicht des Transformers liegt. Ein Decoder entwickelt Information entlang zweier geordneter Dimensionen: Sequenzposition und Schichttiefe. Self-Attention bietet bereits adaptive Vermischung entlang der Sequenzachse, wohingegen der Residualstrom üblicherweise eine feste Addition entlang der Tiefenachse durchführt. Wenn wir eine Token-Position festhalten und den Schichtindex als die geordnete Variable betrachten, dann ist ein kausaler, tiefenweiser Residual-Attention-Lesevorgang exakt derselbe lokale Operator wie kausale Attention mit kurzem gleitendem Fenster (ShortSWA), nur über die Tiefe anstatt über die Sequenz geschrieben. Dies ist die zentrale Residualstrom-Dualität hinter Transformer^2. Diese Perspektive klärt auch die aktuelle Literatur. ELC-BERT und DenseFormer zeigen bereits, dass gelernte Aggregation über die Tiefe eine gleichmäßige Residualakkumulation übertreffen kann, während Vertical Attention, DeepCrossAttention (DCA), MUDDFormer und Attention Residuals weiter in Richtung eines expliziten, auf Attention basierenden Routings über frühere Schichten gehen. Der entscheidende Punkt ist jedoch, dass Dualität auf Operatorenebene keine Symmetrie auf Systemebene impliziert. Für großskalige autoregressive Modelle ist Sequenzachsen-ShortSWA üblicherweise die hardwarefreundlichere Platzierung, da sie Token-seitige Kernel für gleitende Fenster, KV-Cache-Layouts und chunkweise Ausführung wiederverwendet. Wenn das Ziel stattdessen ist, den Shortcut selbst zu verändern, ist Deep Delta Learning (DDL) die elegantere Intervention, da sie den Residual-Operator direkt modifiziert, anstatt einen separaten pfadübergreifenden Retrieval-Pfad hinzuzufügen. Unsere Empfehlung ist daher einfach: Verwenden Sie DDL, wenn der Shortcut der Untersuchungsgegenstand ist, und verwenden Sie Sequenzachsen-ShortSWA, wenn das Ziel lokale adaptive Vermischung ist.
Pixel-Space-Diffusion hat sich kürzlich wieder als starke Alternative zur latenten Diffusion etabliert und ermöglicht hochwertige Generierung ohne vortrainierte Autoencoder. Allerdings erhalten Standard-Pixel-Space-Diffusionsmodelle eine relativ schwache semantische Überwachung und sind nicht explizit darauf ausgelegt, hochlevelige visuelle Strukturen zu erfassen. Neuere Repräsentationsalignierungsmethoden (z.B. REPA) legen nahe, dass vortrainierte visuelle Merkmale das Diffusionstraining erheblich verbessern können, und visuelles Co-Denoising hat sich als vielversprechende Richtung erwiesen, um solche Merkmale in den Generierungsprozess zu integrieren. Bisherige Co-Denoising-Ansätze verknüpfen jedoch oft mehrere Designentscheidungen, sodass unklar bleibt, welche Entscheidungen wirklich entscheidend sind. Daher präsentieren wir V-Co, eine systematische Untersuchung des visuellen Co-Denoising in einem vereinheitlichten JiT-basierten Framework. Diese kontrollierte Umgebung ermöglicht es uns, die Komponenten zu isolieren, die visuelles Co-Denoising effektiv machen. Unsere Studie identifiziert vier Schlüsselkomponenten für effektives visuelles Co-Denoising. Erstens: Die Bewahrung merkmals-spezifischer Berechnungen bei gleichzeitiger Ermöglichung flexibler Cross-Stream-Interaktion motiviert eine vollständige Dual-Stream-Architektur. Zweitens: Effektive Classifier-Free Guidance (CFG) erfordert eine strukturell definierte unbedingte Vorhersage. Drittens: Stärkere semantische Überwachung wird am besten durch einen hybriden Perceptual-Drifting-Loss bereitgestellt. Viertens: Stabileres Co-Denoising erfordert zudem eine geeichte Cross-Stream-Integration, die wir durch RMS-basierte Merkmalsskalierung realisieren. Zusammengenommen ergeben diese Erkenntnisse ein einfaches Rezept für visuelles Co-Denoising. Experimente auf ImageNet-256 zeigen, dass V-Co bei vergleichbarer Modellgröße die zugrundeliegende Pixel-Space-Diffusion-Baseline und starke bisherige Pixel-Diffusion-Methoden übertrifft, dabei weniger Trainingsepochen benötigt und praktische Leitlinien für zukünftige repräsentationsalignierte Generative Modelle bietet.
Diffusionsbasierte Stilisierung hat bedeutende Fortschritte erzielt, doch bestehende Methoden beschränken sich auf farbgetriebene Transformationen und vernachlässigen komplexe Semantik und Materialdetails. Wir stellen StyleExpert vor, ein semantikbewusstes Framework basierend auf Mixture of Experts (MoE). Unser Framework verwendet einen einheitlichen Stil-Encoder, der auf unserem umfangreichen Datensatz von Inhalts-Stil-stilisierten Tripletts trainiert wurde, um diverse Stile in einen konsistenten latenten Raum einzubetten. Diese Einbettung wird dann verwendet, um einen ähnlichkeitsbewussten Gating-Mechanismus zu steuern, der Stile dynamisch an spezialisierte Experten innerhalb der MoE-Architektur weiterleitet. Durch die Nutzung dieser MoE-Architektur bewältigt unsere Methode geschickt diverse Stile über mehrere semantische Ebenen hinweg, von flachen Texturen bis zu tiefgreifender Semantik. Umfangreiche Experimente zeigen, dass StyleExpert bestehende Ansätze in der Bewahrung von Semantik und Materialdetails übertrifft und gleichzeitig eine Generalisierung auf unbekannte Stile ermöglicht. Unser Code und die gesammelten Bilder sind auf der Projektseite verfügbar: https://hh-lg.github.io/StyleExpert-Page/.
Das vorherrschende Paradigma zur Verbesserung mathematischen Denkvermögens in Sprachmodellen stützt sich auf Bestärkendes Lernen mit überprüfbaren Belohnungen. Bisherige Methoden behandeln jedoch jede Problemstellung isoliert, ohne die wiederverwendbaren Strategien zu nutzen, die während des Trainings entstehen und sich ansammeln. Daher führen wir ARISE (Agent Reasoning via Intrinsic Skill Evolution) ein, einen hierarchischen Reinforcement-Learning-Rahmen, in dem eine gemeinsame Policy sowohl zur Verwaltung von Fähigkeiten auf hoher Ebene als auch zur Generierung von Antworten auf niedriger Ebene agiert (bezeichnet als Skills Manager bzw. Worker). Der Manager verwaltet eine abgestufte Fähigkeitsbibliothek durch einen dedizierten Skill-Generierungs-Rollout, der strukturierte Zusammenfassungen erfolgreicher Lösungswege (nach der Ausführung) erstellt, während er einen policy-gesteuerten Auswahlmechanismus einsetzt, um relevante Fähigkeiten für zukünftige Rollouts abzurufen (vor der Ausführung). Ein hierarchisches Belohnungsdesign leitet die Ko-Evolution von Denkfähigkeit und Bibliotheksqualität. Experimente mit zwei Basismodellen und sieben Benchmarks aus dem Bereich der Wettbewerbsmathematik und Omni-MATH zeigen, dass ARISE durchgängig Algorithmen der GRPO-Familie und speichererweiterte Baseline-Methoden übertrifft, mit besonders bemerkenswerten Gewinnen bei Out-of-Distribution-Aufgaben. Ablationsstudien bestätigen, dass jede Komponente zu den beobachteten Verbesserungen beiträgt und dass sich Bibliotheksqualität und Reasoning-Leistung während des Trainings parallel verbessern. Der Code ist verfügbar unter https://github.com/Skylanding/ARISE.
Jüngste Fortschritte bei multimodalen Agenten haben die Interaktion mit Computern und die Werkzeugnutzung verbessert, doch die meisten bestehenden Systeme bleiben reaktiv. Sie optimieren Aktionen isoliert, ohne über zukünftige Zustände oder langfristige Ziele nachzudenken. Dies schränkt die Planungskohärenz ein und verhindert, dass Agenten zuverlässig hochrangige, mehrstufige Aufgaben lösen können. Wir stellen TraceR1 vor, ein zweistufiges Reinforcement-Learning-Framework, das antizipatorisches Denken explizit trainiert, indem es kurzfristige Trajektorien vor der Ausführung prognostiziert. Die erste Stufe führt Reinforcement Learning auf Trajektorienebene mit Belohnungen durch, die globale Konsistenz über vorhergesagte Aktionssequenzen hinweg erzwingen. Die zweite Stufe wendet geerdetes Reinforcement-Fine-Tuning an und nutzt Ausführungsfeedback von eingefrorenen Werkzeugagenten, um die Genauigkeit und Ausführbarkeit auf Schrittebene zu verfeinern. TraceR1 wird auf sieben Benchmarks evaluiert, die Online-Computernutzung, Offline-Computernutzungs-Benchmarks und multimodale Werkzeugnutzungsaufgaben abdecken. Dabei erzielt es erhebliche Verbesserungen in Planungsstabilität, Ausführungsrobustheit und Generalisierung gegenüber reaktiven und einstufigen Baseline-Modellen. Diese Ergebnisse zeigen, dass antizipatorische Trajektorienplanung ein Schlüsselprinzip für den Aufbau multimodaler Agenten ist, die in komplexen realen Umgebungen effektiv denken, planen und handeln können.
Persistenter Speicher ist eine zentrale Fähigkeit für KI-Agenten, doch die mathematischen Grundlagen von Speicherzugriff, Lebenszyklusmanagement und Konsistenz bleiben unerforscht. Aktuelle Systeme verwenden Kosinusähnlichkeit für den Zugriff, heuristischen Verfall für Salienz und bieten keine formale Widerspruchserkennung. Wir etablieren information-geometrische Grundlagen durch drei Beiträge. Erstens, ein Zugriffsmetrik abgeleitet aus der Fisher-Informationsstruktur diagonaler Gauß-Familien, das die Axiome einer Riemannschen Metrik erfüllt, unter suffizienten Statistiken invariant ist und in O(d)-Zeit berechenbar ist. Zweitens, Speicherlebenszyklus formuliert als Riemannsche Langevin-Dynamik mit bewiesener Existenz und Eindeutigkeit der stationären Verteilung über die Fokker-Planck-Gleichung, der abgestimmten Verfall durch prinzipielle Konvergenzgarantien ersetzt. Drittens, ein zellulärer Garbenmodell, bei dem nicht-triviale erste Kohomologieklassen genau irreduziblen Widersprüchen über Speicherkontexte entsprechen. Auf dem LoCoMo-Benchmark erzielen die mathematischen Schichten +12,7 Prozentpunkte gegenüber technischen Baselines über sechs Konversationen, bis zu +19,9 pp bei den anspruchsvollsten Dialogen. Eine vierkanalige Zugriffsarchitektur erreicht 75% Genauigkeit ohne Cloud-Abhängigkeit. Cloud-augmentierte Ergebnisse erreichen 87,7%. Eine Null-LLM-Konfiguration erfüllt durch Architekturdesign die Datensouveränitätsanforderungen des EU-KI-Gesetzes. Unseres Wissens ist dies die erste Arbeit, die information-geometrische, garbentheoretische und stochastisch-dynamische Grundlagen für KI-Agenten-Speichersysteme etabliert.
Echtwelt-Entscheidungsfindung, von der Steuercompliance-Bewertung bis zur medizinischen Diagnose, erfordert die Aggregation mehrerer verrauschter und potenziell widersprüchlicher Evidenzquellen. Bestehende Ansätze entbehren entweder einer expliziten Unsicherheitsquantifizierung (neuronale Aggregationsmethoden) oder stützen sich auf manuell konstruierte diskrete Prädikate (probabilistische Logikframeworks), was die Skalierbarkeit auf unstrukturierte Daten limitiert. Wir stellen Latent Posterior Factors (LPF) vor, ein Framework, das latente Posteriori-Verteilungen von Variational Autoencodern (VAEs) in weiche Likelihood-Faktoren für Sum-Product-Network (SPN)-Inferenz transformiert. Dies ermöglicht handhabbare probabilistische Reasoning über unstrukturierte Evidenz bei gleichzeitiger Bewahrung kalibrierter Unsicherheitsschätzung. Wir instanziieren LPF als LPF-SPN (strukturierte, faktorisierte Inferenz) und LPF-Learned (end-to-end gelernte Aggregation), was einen prinzipienbasierten Vergleich zwischen explizitem probabilistischem Reasoning und gelernten Aggregationsmethoden unter einer gemeinsamen Unsicherheitsrepräsentation erlaubt. Über acht Domänen hinweg (sieben synthetische und der FEVER-Benchmark) erreicht LPF-SPN hohe Genauigkeit (bis zu 97,8 %), geringe Kalibrierungsfehler (ECE 1,4 %) und eine starke probabilistische Anpassung, wobei es evidential deep learning, LLMs und graph-basierte Baseline-Modelle über 15 Zufallssamen hinweg substanziell übertrifft. Beiträge: (1) Ein Framework, das latente Unsicherheitsrepräsentationen mit strukturiertem probabilistischem Reasoning verbindet. (2) Duale Architekturen, die einen kontrollierten Vergleich von Reasoning-Paradigmen ermöglichen. (3) Reproduzierbare Trainingsmethodik mit Seed-Selektion. (4) Evaluation gegen EDL-, BERT-, R-GCN- und Large-Language-Model-Baselines. (5) Domänenübergreifende Validierung. (6) Formale Garantien in einem Begleitpapier.
Wir präsentieren eine vollständige theoretische Charakterisierung von Latent Posterior Factors (LPF), einem prinzipienbasierten Framework zur Aggregation multipler heterogener Evidenzitems in probabilistischen Vorhersageaufgaben. Multievidenz-basiertes Schließen tritt allgegenwärtig in hochriskanten Domänen auf, einschließlich der Gesundheitsdiagnostik, der Bewertung finanzieller Risiken, der Analyse von Rechtsfällen und regulatorischer Compliance. Bisherige Ansätze entbehren jedoch entweder formaler Garantien oder sind architektonisch nicht in der Lage, Multievidenz-Szenarien zu bewältigen. LPF kodiert jedes Evidenzitem mittels eines variationalen Autoencoders in eine Gauß'sche latente A-posteriori-Verteilung, wandelt diese Posterioris durch Monte-Carlo-Marginalisierung in weiche Faktoren um und aggregiert die Faktoren entweder durch exakte Sum-Product-Network-Inferenz (LPF-SPN) oder einen gelernten neuronalen Aggregator (LPF-Learned). Wir beweisen sieben formale Garantien, die die zentralen Anforderungen an vertrauenswürdige KI abdecken: Kalibrierungserhalt (ECE <= epsilon + C/sqrt(K_eff)); Monte-Carlo-Fehler, der mit O(1/sqrt(M)) abklingt; eine nicht-triviale PAC-Bayes-Schranke mit einer Trainings-Test-Lücke von 0,0085 bei N=4200; Operation innerhalb des 1,12-fachen der informationstheoretischen unteren Schranke; graceful Degradation mit O(epsilon*delta*sqrt(K)) unter Korruption, wobei 88% der Performance bei adversariellem Ersatz der Hälfte der Evidenz erhalten bleiben; Kalibrierungsabfall mit O(1/sqrt(K)) und R²=0,849; sowie eine exakte Zerlegung der epistemisch-aleatorischen Unsicherheit mit einem Fehler unter 0,002%. Alle Theoreme werden empirisch auf kontrollierten Datensätzen mit bis zu 4.200 Trainingsbeispielen validiert. Unser theoretischer Rahmen etabliert LPF als Grundlage für vertrauenswürdige Multievidenz-KI in sicherheitskritischen Anwendungen.
Wir stellen VAREX (VARied-schema EXtraction) vor, einen Benchmark zur Bewertung multimodaler Foundation-Modelle für die Extraktion strukturierter Daten aus behördlichen Formularen. VAREX nutzt einen Reverse-Annotation-Pipeline, der PDF-Vorlagen programmgesteuert mit synthetischen Werten befüllt und dabei deterministische Ground-Truth-Daten erzeugt, die durch eine dreistufige Qualitätssicherung validiert werden. Der Benchmark umfasst 1.777 Dokumente mit 1.771 einzigartigen Schemata aus drei strukturellen Kategorien, die jeweils in vier Eingabemodalitäten bereitgestellt werden: reiner Text, layout-erhaltender Text (durch Leerzeichen an Spaltenpositionen angeglichen), Dokumentenbild oder eine Kombination aus Text und Bild. Im Gegensatz zu bestehenden Benchmarks, die nur eine einzige Eingabedarstellung bewerten, bietet VAREX vier kontrollierte Modalitäten pro Dokument und ermöglicht so eine systematische Ablation, wie sich das Eingabeformat auf die Extraktionsgenauigkeit auswirkt – eine Fähigkeit, die früheren Benchmarks fehlte. Wir evaluieren 20 Modelle, von leistungsstarken proprietären Modellen bis hin zu kleinen Open-Modellen, mit besonderem Augenmerk auf Modelle mit ≤4B Parametern, die für kostensensitive und latenzbeschränkte Einsätze geeignet sind. Die Ergebnisse zeigen, dass (1) bei unter 4B Parametern die Konformität der strukturierten Ausgabe – nicht die Extraktionsfähigkeit – ein dominanter Engpass ist; insbesondere Schema-Echo (Modelle erzeugen schemakonforme Strukturen statt extrahierter Werte) senkt die Werte bei betroffenen Modellen um 45–65 Prozentpunkte (pp); (2) extraktionsspezifisches Fine-Tuning bei 2B Parametern Steigerungen von +81 pp bewirkt, was zeigt, dass das Defizit im Instruktionsfolgen ohne Skalierung behoben werden kann; (3) layout-erhaltender Text den größten Genauigkeitsgewinn bringt (+3–18 pp) und pixelbasierte visuelle Hinweise übertrifft; und (4) der Benchmark Modelle im Genauigkeitsbereich von 60–95 % am effektivsten unterscheidet. Datensatz und Evaluierungscode sind öffentlich verfügbar.
Die Lösung von Problemen durch Werkzeugnutzung unter expliziten Einschränkungen stellt ein äußerst anspruchsvolles, aber unvermeidliches Szenario für große Sprachmodelle (LLMs) dar, das Fähigkeiten wie Funktionsaufruf, Befolgung von Anweisungen und Selbstverbesserung erfordert. Der Fortschritt wurde jedoch durch das Fehlen spezieller Evaluierungen behindert. Um dies zu beheben, führen wir CCTU ein, einen Benchmark zur Bewertung der Werkzeugnutzung von LLMs unter komplexen Einschränkungen. CCTU basiert auf einer Taxonomie von 12 Einschränkungskategorien, die vier Dimensionen umfassen (Ressourcen, Verhalten, Werkzeugsatz und Antwort). Der Benchmark besteht aus 200 sorgfältig zusammengestellten und anspruchsvollen Testfällen in verschiedenen Werkzeuganwendungsszenarien, wobei jeder Fall durchschnittlich sieben Einschränkungstypen und eine durchschnittliche Promptlänge von über 4.700 Tokens aufweist. Um eine zuverlässige Bewertung zu ermöglichen, entwickeln wir ein ausführbares Einschränkungsvalidierungsmodul, das eine schrittweise Validierung durchführt und die Einhaltung während mehrschrittiger Interaktionen zwischen Modellen und ihrer Umgebung erzwingt. Wir evaluieren neun state-of-the-art LLMs sowohl im Denk- als auch im Nicht-Denk-Modus. Die Ergebnisse zeigen, dass bei strenger Einhaltung aller Einschränkungen kein Modell eine Aufgabenabschlussrate von über 20 % erreicht. Eine weitere Analyse ergibt, dass Modelle in über 50 % der Fälle Einschränkungen verletzen, insbesondere in den Dimensionen Ressourcen und Antwort. Darüber hinaus zeigen LLMs nur eine begrenzte Fähigkeit zur Selbstverbesserung, selbst nachdem sie detailliertes Feedback zu Einschränkungsverletzungen erhalten haben, was einen kritischen Engpass in der Entwicklung robuster Werkzeugnutzungsagenten aufzeigt. Um zukünftige Forschung zu erleichtern, veröffentlichen wir die Daten und den Code.
Vision Transformer (ViT) basierte visuelle Fundamentalmodelle (VFMs) haben bemerkenswerte Leistungen in verschiedenen visuellen Aufgaben erzielt, leiden jedoch unter quadratischer Komplexität, die die Skalierbarkeit auf lange Sequenzen begrenzt. Bestehende Linear-Attention-Ansätze für ViTs werden typischerweise von Grund auf neu trainiert, was erhebliche Rechenressourcen erfordert, während Linearisierungsmethoden, die für Decoder großer Sprachmodelle entwickelt wurden, sich nicht gut auf ViTs übertragen lassen. Um diese Herausforderungen zu adressieren, schlagen wir ViT-AdaLA vor, einen neuartigen Rahmen zur effektiven Anpassung und Übertragung von Vorwissen von VFMs auf Linear-Attention-ViTs. ViT-AdaLA besteht aus drei Stufen: Attention-Alignment, Feature-Alignment und überwachtes Feinabstimmen. In der Attention-Alignment-Stufe gleichen wir die standardmäßige Linear-Attention mit der ursprünglichen Softmax-basierten Attention in jedem Block ab, um das Verhalten der Softmax-Attention anzunähern. Restliche Approximationsfehler häufen sich jedoch unweigerlich über die Schichten hinweg an. Wir mildern dies, indem wir den linearisierten ViT feinabstimmen, um seine Final-Layer-Features an einen eingefrorenen Softmax-VFM-Lehrer anzugleichen. Schließlich wird das angepasste Vorwissen durch überwachtes Feinabstimmen auf Downstream-Aufgaben übertragen. Umfangreiche Experimente zu Klassifikations- und Segmentierungsaufgaben demonstrieren die Wirksamkeit und Allgemeingültigkeit von ViT-AdaLA gegenüber verschiedenen state-of-the-art Linear-Attention-Gegenstücken.
Die Erfassung menschlicher Aktivitäten aus LiDAR-Punktwolken stellt eine der wichtigsten Aufgaben im autonomen Fahren dar, da sie in direktem Zusammenhang mit der Fußgängersicherheit steht. Dennoch bleibt sie aufgrund vielfältiger Mensch-Objekt-Interaktionen und komplexer Hintergründe eine Herausforderung. Bisherige Methoden vernachlässigen weitgehend das Potenzial, Mensch-Objekt-Interaktionen für die Entwicklung robuster 3D-Posenschätzungsframeworks zu nutzen. Zwei Hauptprobleme motivieren die Einbeziehung dieser Interaktionen: Erstens führt die räumliche Unschärfe zwischen Mensch- und Objektpunkten in Interaktionsbereichen häufig zu fehlerhaften 3D-Schlüsselpunktschätzungen. Zweitens besteht ein starkes Klassenungleichgewicht zwischen interagierenden und nicht-interagierenden Körperteilen, wobei interaktionsreiche Regionen wie Hände und Füße in LiDAR-Daten oft nur spärlich erfasst werden. Zur Lösung dieser Probleme präsentieren wir ein Human-Object Interaction Learning (HOIL)-Framework für robuste 3D-Posenschätzung aus LiDAR-Punktwolken. Zur Reduzierung der räumlichen Unschärfe entwickelten wir eine interaktionssensitive Kontrastlernmethode (HOICL), die die Merkmalsunterscheidung zwischen Mensch- und Objektpunkten in Interaktionsbereichen verbessert. Für das Klassenungleichgewicht führen wir ein kontaktbasiertes, teilgeführtes Pooling (CPPool) ein, das durch Komprimierung überrepräsentierter Punkte bei gleichzeitiger Erhaltung informativer Punkte interagierender Körperteile die Repräsentationskapazität neu verteilt. Zusätzlich implementierten wir eine optionale zeitliche Kontaktrefinierung, die fehlerhafte Einzelbild-Schlüsselpunktschätzungen mithilfe zeitlicher Kontaktinformationen verbessert. Unser HOIL-Framework nutzt Mensch-Objekt-Interaktionen somit effektiv zur Lösung räumlicher Unschärfe und Klassenungleichgewichte in Interaktionsbereichen. Der Code wird veröffentlicht.
Maskierte Diffusionsmodelle (MDM) zeigen eine überlegene Generalisierung, wenn sie mit einem partiellen Maskierungsschema (Prime) erlernt werden. Dieser Ansatz wandelt Tokens in Sub-Tokens um und modelliert den Diffusionsprozess auf Sub-Token-Ebene. Wir identifizieren zwei Einschränkungen des MDM-Prime-Frameworks. Erstens fehlen uns Werkzeuge, um die Hyperparameter-Auswahl der Token-Granularität im Sub-Tokenizer zu steuern. Zweitens stellen wir fest, dass die Funktionsform des Sub-Tokenizers die Likelihood-Schätzung in Kombination mit häufig verwendeten Byte-Pair-Encoding (BPE) Tokenizern erheblich verschlechtert. Um diese Einschränkungen zu adressieren, untersuchen wir die Tightness der variationellen Schranke in MDM-Prime und entwickeln MDM-Prime-v2, ein maskiertes Diffusions-Sprachmodell, das Binäre Kodierung und Index-Vermischung integriert. Unsere Skalierungsanalyse zeigt, dass MDM-Prime-v2 21,8-mal recheneffizienter ist als autoregressive Modelle (ARM). In rechenoptimalen Vergleichen erreicht MDM-Prime-v2 eine Perplexität von 7,77 auf OpenWebText und übertrifft damit ARM (12,99), MDM (18,94) und MDM-Prime (13,41). Bei einer Erweiterung der Modellgröße auf 1,1 Mrd. Parameter zeigt unser Modell zudem eine überlegene Zero-Shot-Genauigkeit bei verschiedenen Common-Sense-Reasoning-Aufgaben.
Bestehende diffusionsbasierte Methoden zur 3D-Szenengenerierung operieren primär in 2D-Bild-/Video-Latenzräumen, was die Wahrung von konsistenten Erscheinungsbildern und Geometrien über verschiedene Blickwinkel hinweg inhärent schwierig gestaltet. Um diese Lücke zu schließen, präsentieren wir OneWorld, ein Framework, das Diffusion direkt in einem kohärenten 3D-Repräsentationsraum durchführt. Kernstück unseres Ansatzes ist der 3D Unified Representation Autoencoder (3D-URAE); dieser nutzt vortrainierte 3D-Foundation-Modelle und erweitert deren geometriezentrierte Natur, indem er Erscheinungsbild einspielt und Semantik in einen vereinheitlichten 3D-Latenzraum destilliert. Darüber hinaus führen wir einen Token-level Cross-View-Correspondence (CVC) Consistency Loss ein, um strukturelle Ausrichtung über Blickwinkel explizit zu erzwingen, und schlagen Manifold-Drift Forcing (MDF) vor, um den Trainings-Inferenz-Exposure-Bias zu mildern und durch das Mischen von verdrifteten und originalen Repräsentationen einen robusten 3D-Manifold zu formen. Umfassende Experimente zeigen, dass OneWorld hochwertige 3D-Szenen mit überlegener Blickwinkelkonsistenz im Vergleich zu state-of-the-art, auf 2D basierenden Methoden generiert. Unser Code wird unter https://github.com/SensenGao/OneWorld verfügbar sein.
Wir stellen Polyglot-Lion vor, eine Familie kompakter multilingualer Modelle für die automatische Spracherkennung (ASR), die auf die sprachliche Landschaft Singapurs zugeschnitten sind und Englisch, Mandarin, Tamil und Malaysisch abdecken. Unsere Modelle wurden durch Feinabstimmung von Qwen3-ASR-0.6B und Qwen3-ASR-1.7B ausschließlich auf öffentlich verfügbaren Sprachkorpora gewonnen. Dabei wurde eine ausgewogene Stichprobenstrategie verwendet, die die Anzahl der Trainingsäußerungen pro Sprache angleicht und bewusst auf eine Sprachkennzeichnung als Konditionierung verzichtet, sodass das Modell lernt, Sprachen implizit aus den Audiodaten zu identifizieren. Auf 12 Benchmarks, die die vier Zielsprachen abdecken, erreicht Polyglot-Lion-1.7B eine durchschnittliche Fehlerrate von 14,85 und ist damit vergleichbar mit MERaLiON-2-10B-ASR (14,32) – einem sechsmal größeren Modell – bei gleichzeitig erheblich geringeren Trainingskosten von 81 US-Dollar auf einer einzelnen RTX PRO 6000 GPU im Vergleich zu 18.862 US-Dollar für den 128-GPU-Baseline. Der Inferenz-Durchsatz ist mit 0,10 s/Probe gegenüber 2,02 s/Probe etwa 20-mal schneller als bei MERaLiON. Diese Ergebnisse zeigen, dass eine sprachlich ausgewogene Feinabstimmung mittelgroßer vortrainierter Modelle einsatzbereite multilinguale ASR-Systeme zu einem Bruchteil der Kosten größerer Speziallösungen liefern kann.
Diffusionsmodelle arbeiten in einem reflexiven System-1-Modus, der durch einen festen, inhaltsunabhängigen Sampling-Zeitplan eingeschränkt ist. Diese Starrheit resultiert aus dem Fluch der Zustandsdimensionalität, bei dem die kombinatorische Explosion möglicher Zustände in der hochdimensionalen Rauschmannigfaltigkeit eine explizite Trajektorienplanung undurchführbar macht und zu systematischer Fehlallokation von Rechenressourcen führt. Um dies zu adressieren, führen wir Chain-of-Trajectories (CoTj) ein, ein trainierungsfreies Framework, das eine deliberative Planung nach System 2 ermöglicht. Kernstück von CoTj ist die Diffusions-DNA, eine niedrigdimensionale Signatur, die den Entrauschungsaufwand pro Stufe quantifiziert und als Stellvertreter für den hochdimensionalen Zustandsraum dient. Dies erlaubt es uns, das Sampling als Graphplanung auf einem gerichteten azyklischen Graphen neu zu formulieren. Durch ein Predict-Plan-Execute-Paradigma weist CoTj Rechenaufwand dynamisch den anspruchsvollsten Generierungsphasen zu. Experimente mit verschiedenen generativen Modellen zeigen, dass CoTj kontextsensitive Trajektorien entdeckt, die Ausgabequalität und -stabilität verbessern und redundante Berechnungen reduzieren. Diese Arbeit legt eine neue Grundlage für ressourcenbewusste, planungsbasierte Diffusionsmodellierung. Der Code ist verfügbar unter https://github.com/UnicomAI/CoTj.
Retrieval-Augmented Generation (RAG)-Systeme stehen vor Herausforderungen bei komplexen, mehrstufigen (Multihop) Fragen. Agentenbasierte Frameworks wie Search-R1 (Jin et al., 2025), die iterativ arbeiten, wurden vorgeschlagen, um diese Komplexitäten zu adressieren. Solche Ansätze können jedoch Ineffizienzen verursachen, darunter die wiederholte Abfrage bereits verarbeiteter Informationen und Schwierigkeiten, die abgerufenen Ergebnisse effektiv im aktuellen Generierungsprompt zu kontextualisieren. Diese Probleme können zu unnötigen Abfragezyklen, suboptimaler Reasoning-Leistung, ungenauen Antworten und erhöhtem Token-Verbrauch führen. In diesem Artikel untersuchen wir Modifikationen zur Laufzeit an der Search-R1-Pipeline, um diese identifizierten Schwächen zu mildern. Konkret erforschen wir die Integration zweier Komponenten und deren Kombination: ein Kontextualisierungsmodul zur besseren Einbindung relevanter Informationen aus abgerufenen Dokumenten in den Reasoning-Prozess und ein Deduplizierungsmodul, das bereits abgerufene Dokumente durch die nächstrelevantesten ersetzt. Wir evaluieren unsere Ansätze mit den Datensätzen HotpotQA (Yang et al., 2018) und Natural Questions (Kwiatkowski et al., 2019) und berichten den Exact Match (EM)-Score, eine Bewertung der Antwortkorrektheit mittels LLM-as-a-Judge sowie die durchschnittliche Anzahl an Abfragezyklen. Unsere beste Variante, die GPT-4.1-mini zur Kontextualisierung nutzt, erzielt eine Steigerung des EM-Scores um 5,6 % und reduziert die Anzahl der Abfragezyklen um 10,5 % im Vergleich zur Search-R1-Baseline. Dies demonstriert eine verbesserte Antwortgenauigkeit und Abfrageeffizienz.
Wir stellen HistoAtlas vor, einen pan-karzinogenen Computermodell-Atlas, der 38 interpretierbare histomische Merkmale aus 6.745 diagnostischen H&E-Präparaten über 21 TCGA-Krebsarten hinweg extrahiert und jedes Merkmal systematisch mit Überleben, Genexpression, somatischen Mutationen und Immunsubtypen verknüpft. Alle Assoziationen sind kovariatenbereinigt, multiplen-Test-korrigiert und in Evidenzstärke-Kategorien eingeteilt. Der Atlas erschließt bekannte biologische Zusammenhänge – von Immuninfiltration und Prognose über Proliferation bis hin zur Kinase-Signalgebung – und deckt dabei kompartimentspezifische Immunsignale sowie morphologische Subtypen mit divergierenden Krankheitsverläufen auf. Jedes Ergebnis ist räumlich auf Gewebekompartimente und einzelne Zellen zurückführbar, statistisch kalibriert und frei abfragbar. HistoAtlas ermöglicht die systematische, großangelegte Biomarker-Entdeckung aus routinemäßigen H&E-Präparaten ohne spezielle Färbungen oder Sequenzierungen. Daten und ein interaktiver Webatlas sind frei verfügbar unter https://histoatlas.com.
Chemische Sprachmodelle (CLMs) haben sich als vielversprechende Konkurrenten zu populären klassischen Machine-Learning-Modellen für Aufgaben der molekularen Eigenschaftsvorhersage (MPP) erwiesen. Allerdings berichten zunehmend mehr Studien über inkonsistente und widersprüchliche Ergebnisse bezüglich der Leistung von CLMs in verschiedenen MPP-Benchmark-Aufgaben. In dieser Studie führen wir Hunderte sorgfältig kontrollierter Experimente durch und analysieren diese, um systematisch die Auswirkungen verschiedener Faktoren – wie Datensatzgröße, Modellgröße und Standardisierung – auf das Pre-Training und die Fine-Tuning-Leistung von CLMs für MPP zu untersuchen. In Ermangelung etablierter Skalierungsgesetze für encoder-only Masked Language Models zielen wir darauf ab, umfassende numerische Belege und ein tieferes Verständnis der zugrundeliegenden Mechanismen zu liefern, die die Leistung von CLMs bei MPP-Aufgaben beeinflussen, von denen einige in der Literatur offenbar völlig übersehen werden.
Großflächige Landnahme für spekulative Megaentwicklungen stellt einen räumlichen Nichtgleichgewichtsprozess dar, dessen Geschwindigkeit, Topologie und Irreversibilität nach wie vor unzureichend quantifiziert sind. Wir untersuchen die Küsten-Megaentwicklung Pantai Indah Kapuk 2 (PIK2) nördlich von Jakarta, Indonesien, anhand von acht Jahren (2017–2024) Sentinel-2 Landnutzungs-/Landbedeckungsdaten (LULC) mit 10-Meter-Auflösung. Die Landschaft wird auf einen Marxschen Wahrscheinlichkeitssimplex projiziert, der terrestrische Pixel in Commons-, Agrar- und Kapitalanteile unterteilt. Fisher-Rao (FR) Geodäten auf diesem Simplex identifizieren einen Transformationspuls von 0,405 rad/Jahr während 2019–2020, der mit der Hauptbauphase zusammenfällt. Die Analyse absorbierender Markov-Ketten ergibt erwartete Absorptionszeiten in die bebaut