Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte in der Bildgenerierung und -bearbeitung haben neue Möglichkeiten für virtuelles Anprobieren eröffnet. Allerdings haben bestehende Methoden nach wie vor Schwierigkeiten, komplexen Anforderungen der realen Welt gerecht zu werden. Wir stellen Tstars-Tryon 1.0 vor, ein virtual-try-on-System in kommerziellem Maßstab, das robust, realistisch, vielseitig und hocheffizient ist. Erstens weist unser System eine hohe Erfolgsquote bei anspruchsvollen Fällen auf, wie extremen Posen, starken Beleuchtungsvariationen, Bewegungsunschärfe und anderen unkontrollierten Bedingungen. Zweitens liefert es hochgradig fotorealistische Ergebnisse mit fein granulierten Details, die die Textur, Materialeigenschaften und strukturellen Merkmale der Kleidungsstücke originalgetreu bewahren und gleichzeitig häufige KI-generierte Artefakte weitgehend vermeiden. Drittens unterstützt unser Modell über Kleidungsstücke hinaus eine flexible Multi-Bild-Komposition (bis zu 6 Referenzbilder) über 8 Modekategorien hinweg mit koordinierter Kontrolle von Personenidentität und Hintergrund. Viertens ist unser System zur Überwindung von Latenzengpässen bei kommerziellem Einsatz stark auf Inferenzgeschwindigkeit optimiert und ermöglicht eine nahezu Echtzeit-Generierung für eine nahtlose Benutzererfahrung. Diese Fähigkeiten werden durch ein integriertes Systemdesign ermöglicht, das eine End-to-End-Modellarchitektur, eine skalierbare Daten-Engine, eine robuste Infrastruktur und ein mehrstufiges Trainingsparadigma umfasst. Umfangreiche Evaluierungen und der großflächige Produktiveinsatz demonstrieren, dass Tstars-Tryon 1.0 eine führende Gesamtleistung erzielt. Zur Unterstützung zukünftiger Forschung veröffentlichen wir zudem einen umfassenden Benchmark. Das Modell wurde im industriellen Maßstab in der Taobao-App eingesetzt und bedient Millionen von Nutzern mit zig Millionen Anfragen.
Die Synthese von Mensch-Objekt-Interaktions-(HOI-)Videos hat einen breiten praktischen Nutzen in den Bereichen E-Commerce, digitale Werbung und virtuelles Marketing. Aktuelle Diffusionsmodelle scheitern jedoch trotz ihrer fotorealistischen Darstellungsfähigkeit häufig an (i) der strukturellen Stabilität sensibler Regionen wie Hände und Gesichter und (ii) physikalisch plausiblen Kontakten (z. B. der Vermeidung von Hand-Objekt-Durchdringungen). Wir stellen CoInteract vor, ein End-to-End-Framework für die HOI-Videosynthese, das auf ein Personenreferenzbild, ein Produktreferenzbild, Textprompts und Sprachaudio konditioniert ist. CoInteract führt zwei komplementäre Designs ein, die in ein Diffusion-Transformer-(DiT-)Backbone eingebettet sind. Erstens schlagen wir einen Human-Aware Mixture-of-Experts (MoE) vor, der Tokens über räumlich überwachtes Routing zu leichtgewichtigen, regionsspezialisierten Experten leitet und so die feinkörnige strukturelle Treue mit minimalem Parameteroverhead verbessert. Zweitens schlagen wir eine räumlich strukturierte Ko-Generierung vor, ein Dual-Stream-Trainingsparadigma, das einen RGB-Erscheinungsbild-Stream und einen auxiliary HOI-Struktur-Stream gemeinsam modelliert, um Interaktionsgeometrie-Priors einzubringen. Während des Trainings beachtet der HOI-Stream RGB-Tokens und seine Überwachung regularisiert die gemeinsamen Backbone-Gewichte; zur Inferenzzeit wird der HOI-Zweig für eine überheadfreie RGB-Generierung entfernt. Experimentelle Ergebnisse zeigen, dass CoInteract bestehende Methoden deutlich in struktureller Stabilität, logischer Konsistenz und Interaktionsrealismus übertrifft.
Agentensysteme auf Basis von Sprachmodellen nutzen häufig reaktives Prompting, bei dem eine einzige Anweisung das Modell durch eine offene Abfolge von Denk- und Werkzeugnutzungsschritten führt. Dabei bleiben Kontrollfluss und Zwischenzustände implizit, was das Agentenverhalten potenziell schwer steuerbar macht. Orchestrierungsframeworks wie LangGraph, DSPy und CrewAI schaffen durch explizite Workflow-Definitionen mehr Struktur, koppeln die Workflow-Logik jedoch eng an Python, was Agenten schwer wart- und modifizierbar macht. In diesem Artikel stellen wir AgentSPEX vor, eine Agenten-Spezifikations- und Ausführungssprache zur Definition von LLM-Agenten-Workflows mit explizitem Kontrollfluss und modularer Struktur, zusammen mit einer anpassbaren Agenten-Laufzeitumgebung. AgentSPEX unterstützt typisierte Schritte, Verzweigungen und Schleifen, parallele Ausführung, wiederverwendbare Submodule und explizites Zustandsmanagement. Diese Workflows werden innerhalb einer Agenten-Laufzeitumgebung ausgeführt, die Werkzeugzugriff, eine sandboxed virtuelle Umgebung sowie Unterstützung für Checkpoints, Verifikation und Protokollierung bietet. Darüber hinaus stellen wir einen visuellen Editor mit synchronisierten Graph- und Workflow-Ansichten zur Erstellung und Inspektion bereit. Wir liefern einsatzbereite Agenten für tiefgehende Recherchen und wissenschaftliche Forschung und evaluieren AgentSPEX anhand von 7 Benchmarks. Abschließend zeigen wir in einer Nutzerstudie, dass AgentSPEX ein verständlicheres und zugänglicheres Paradigma zur Workflow-Erstellung bietet als ein verbreitetes bestehendes Agenten-Framework.
Sparse-View-3D-Rekonstruktion ist entscheidend für die Modellierung von Szenen aus beiläufigen Aufnahmen, bleibt jedoch für nicht-generative Rekonstruktionsverfahren eine Herausforderung. Bestehende diffusionsbasierte Ansätze mildern dieses Problem durch die Synthese neuartiger Blickwinkel, konditionieren jedoch oft nur auf ein oder zwei Aufnahmebilder, was die geometrische Konsistenz einschränkt und die Skalierbarkeit auf große oder diverse Szenen begrenzt. Wir schlagen AnyRecon vor, einen skalierbaren Rahmen für die Rekonstruktion aus beliebigen und ungeordneten spärlichen Eingaben, der die explizite geometrische Kontrolle bewahrt und gleichzeitig eine flexible Konditionierungskardinalität unterstützt. Um eine weitreichende Konditionierung zu ermöglichen, konstruiert unsere Methode einen persistenten globalen Szenenspeicher über einen vorangestellten Aufnahmebild-Cache und entfernt die temporale Kompression, um die Bild-für-Bild-Korrespondenz bei großen Blickwinkeländerungen aufrechtzuerhalten. Neben einem besseren generativen Modell stellen wir fest, dass das Zusammenspiel zwischen Generierung und Rekonstruktion für großskalige 3D-Szenen entscheidend ist. Daher führen wir eine geometrie-bewusste Konditionierungsstrategie ein, die Generierung und Rekonstruktion durch einen expliziten 3D-geometrischen Speicher und eine geometrie-gesteuerte Aufnahmebild-Wiederauffindung koppelt. Um Effizienz zu gewährleisten, kombinieren wir 4-Schritt-Diffusionsdistillation mit sparsamer Aufmerksamkeit im Kontextfenster, um die quadratische Komplexität zu reduzieren. Umfangreiche Experimente demonstrieren eine robuste und skalierbare Rekonstruktion über unregelmäßige Eingaben, große Blickwinkelunterschiede und lange Trajektorien hinweg.
Test-Time Training (TTT) passt Modellparameter während der Inferenzzeit an unmarkierten Testinstanzen an und erweitert so kontinuierlich die Fähigkeiten über die Grenzen des Offline-Trainings hinaus. Trotz anfänglicher Erfolge stagnieren bestehende TTT-Methoden für LRMs schnell und profitieren nicht von zusätzlicher Testzeit-Rechenleistung. Ohne externe Kalibrierung driftet das selbstgenerierte Belohnungssignal zunehmend ab, während sich das Policy-Modell weiterentwickelt, was sowohl zu Leistungsplateaus als auch zu einem Kollaps der Diversität führt. Wir schlagen TEMPO vor, ein TTT-Framework, das Policy-Verfeinerung an unmarkierten Fragen mit periodischer Kritiker-Neukalibrierung auf einem markierten Datensatz abwechselt. Durch die Formalisierung dieses Wechselverfahrens mittels des Expectation-Maximization (EM)-Algorithmus zeigen wir, dass frühere Methoden als unvollständige Varianten interpretiert werden können, die den entscheidenden Neukalibrierungsschritt auslassen. Die Wiedereinführung dieses Schrittes verschärft die untere Schranke der Evidenz (ELBO) und ermöglicht nachhaltige Verbesserungen. Über verschiedene Modellfamilien (Qwen3 und OLMO3) und Reasoning-Aufgaben hinweg verbessert TEMPO OLMO3-7B auf AIME 2024 von 33,0 % auf 51,1 % und Qwen3-14B von 42,3 % auf 65,8 %, bei gleichzeitig hoher Diversität.
Große Sprachmodelle (LLMs) haben starke Ergebnisse in der Codegenerierung erzielt, doch ihre Fähigkeit, GUI-Anwendungen, insbesondere Spiele, zu generieren, ist nach wie vor unzureichend erforscht. Bestehende Benchmarks bewerten die Korrektheit hauptsächlich über Testfälle, die für GUI-Anwendungen ungeeignet sind, da diese Systeme interaktiv, ereignisgesteuert sind und korrekte Zustandsübergänge über Sequenzen von Benutzeraktionen hinweg erfordern. Ihre Bewertung sollte daher Interaktionsabläufe und UI-Logik berücksichtigen und nicht nur Bestehen-/Durchfallen-Ergebnisse. Um dieses Problem zu untersuchen, stellen wir PlayEval vor, einen repository-bewussten Benchmark, der auf 43 multilingualen GUI-Anwendungen in Python, TypeScript und JavaScript basiert. Im Gegensatz zu früheren GUI-Benchmarks, die schwer an Desktop-Umgebungen anzupassen sind, deckt PlayEval sechs Hauptkategorien von GUI-Anwendungen ab und unterstützt direkt die Bewertung von Codegenerierung. Wir schlagen weiterhin Play@k vor, eine Metrik, die misst, ob mindestens einer von *k* generierten Kandidaten end-to-end ohne logische Fehler gespielt werden kann. Um eine zuverlässige Bewertung zu unterstützen, entwickeln wir PlayTester, einen LLM-basierten Agenten, der aufgabenorientierte GUI-Durchläufe durchführt und Logikverstöße automatisch erkennt. Experimente mit 10 state-of-the-art Code-LLMs zeigen, dass diese trotz hoher Kompilierungsraten nahezu null Play@3 erreichen, was große Schwächen bei der Generierung logisch korrekter GUI-Anwendungen offenbart. Um diese Einschränkung zu adressieren, präsentieren wir PlayCoder, einen multi-agenten, repository-bewussten Framework, der GUI-Anwendungscode in einer geschlossenen Schleife generiert, bewertet und iterativ repariert. PlayCoder verbessert sowohl die funktionale Korrektheit als auch die semantische Übereinstimmung für Open-Source- und Closed-Source-Modelle erheblich und erreicht bis zu 38,1 % Exec@3 und 20,3 % Play@3. Fallstudien zeigen weiterhin, dass es stille Logikfehler aufdecken kann, die von traditionellen Metriken übersehen werden, und diese durch gezielte Bearbeitungen behebt.
Parameter-effizientes Fine-Tuning (PEFT) reduziert die Trainingskosten der Full-Parameter-Feinabstimmung für große Sprachmodelle (LLMs), indem nur ein kleiner Satz aufgabenspezifischer Parameter trainiert wird, während das vortrainierte Backbone eingefroren bleibt. Bisherige Ansätze wie Low-Rank Adaptation (LoRA) erreichen die Anpassung jedoch durch das direkte Einfügen unabhängiger niedrigrangiger Störungen in einzelne Gewichte, was zu einer lokalen Parametrisierung der Adaptation führt. Wir schlagen ShadowPEFT vor, einen zentralisierten PEFT-Rahmen, der stattdessen eine Ebenen-verfeinerung durch ein tiefengeteiltes Schattenmodul durchführt. Auf jeder Transformer-Ebene verwaltet ShadowPEFT einen parallelen Schattenzustand und entwickelt diesen wiederholt für progressively reichhaltigere versteckte Zustände weiter. Dieser Ansatz verlagert die Adaptation von verteilten Gewichtsraum-Störungen zu einem gemeinsamen Ebenenraum-Verfeinerungsprozess. Da das Schattenmodul vom Backbone entkoppelt ist, kann es tiefenübergreifend wiederverwendet, unabhängig vortrainiert und optional in einem abgetrennten Modus eingesetzt werden, was Edge-Computing-Szenarien zugutekommt. Experimente auf Generierungs- und Verständnis-Benchmarks zeigen, dass ShadowPEFT bei vergleichbaren Budgets an trainierbaren Parametern mit LoRA und DoRA gleichzieht oder diese übertrifft. Zusätzliche Analysen zu Schatten-Vortraining, datenübergreifendem Transfer, Parameterskalierung, Inferenzlatenz und systemweiter Evaluation legen nahe, dass zentralisierte Ebenenraum-Adaptation eine wettbewerbsfähige und flexible Alternative zu konventionellem Low-Rank-PEFT darstellt.
Derzeit haben sich ausführbare visuelle Workflows als ein Mainstream-Paradigma in industriellen Praxisumgebungen etabliert, die hohe Zuverlässigkeit und Kontrollierbarkeit bieten. In der aktuellen Praxis werden solche Workflows jedoch nahezu vollständig durch manuelle Engineering-Arbeit erstellt: Entwickler müssen Workflows sorgfältig entwerfen, Prompts für jeden Schritt verfassen und die Logik bei sich ändernden Anforderungen wiederholt überarbeiten – was die Entwicklung kostspielig, zeitaufwändig und fehleranfällig macht. Um zu untersuchen, ob große Sprachmodelle diesen mehrstufigen Interaktionsprozess automatisieren können, stellen wir Chat2Workflow vor, einen Benchmark zur Generierung ausführbarer visueller Workflows direkt aus natürlicher Sprache, und schlagen einen robusten agentenbasierten Rahmen vor, um wiederkehrende Ausführungsfehler zu minimieren. Chat2Workflow basiert auf einer umfangreichen Sammlung realer Geschäftsworkflows, wobei jede Instanz so gestaltet ist, dass der generierte Workflow transformiert und direkt auf praktischen Workflow-Plattformen wie Dify und Coze eingesetzt werden kann. Experimentelle Ergebnisse zeigen, dass state-of-the-art-Sprachmodelle zwar häufig die grundlegende Intention erfassen, jedoch Schwierigkeiten haben, korrekte, stabile und ausführbare Workflows zu generieren – insbesondere bei komplexen oder sich ändernden Anforderungen. Obwohl unser agentenbasierter Rahmen Verbesserungen der Lösungsrate von bis zu 5,34 % erzielt, bleibt eine erhebliche Praxislücke, die Chat2Workflow als Grundlage für die Weiterentwicklung industrietauglicher Automatisierung positioniert. Der Code ist verfügbar unter https://github.com/zjunlp/Chat2Workflow.
Da verstärktes Lernen zunehmend das Training von Agenten auf Basis großer Sprachmodelle skaliert, wird die zuverlässige Verifizierung von Agentenverhalten in komplexen Umgebungen zunehmend schwieriger. Bestehende Ansätze stützen sich auf regelbasierte Verifizierer oder LLM-as-a-Judge-Modelle, die über enge Domänen hinaus nur begrenzt generalisieren können. Agent-as-a-Judge adressiert diese Einschränkung, indem es aktiv mit Umgebungen und Werkzeugen interagiert, um überprüfbare Evidenz zu erlangen; dennoch sind seine Fähigkeiten noch unzureichend erforscht. Wir stellen einen Benchmark AJ-Bench vor, um Agent-as-a-Judge systematisch in drei Domänen – Suche, Datensysteme und grafische Benutzeroberflächen – zu evaluieren, der 155 Aufgaben und 516 annotierte Trajektorien umfasst. Der Benchmark bewertet umfassend die Fähigkeiten von Richter-Agenten in den Bereichen Informationsbeschaffung, Zustandsverifikation und Prozessverifikation. Experimente zeigen konsistent Leistungssteigerungen gegenüber LLM-as-a-Judge-Baselines, verdeutlichen aber auch erhebliche offene Herausforderungen bei der agentenbasierten Verifikation. Unsere Daten und unser Code sind unter https://aj-bench.github.io/ verfügbar.
Instruktionsbasiertes Informationsretrieval (IF-IR) untersucht Retrievalsysteme, die nicht nur dokumentspezifisch relevante Dokumente zu einer Anfrage finden müssen, sondern auch explizite Benutzeranforderungen wie erforderliche Attribute, Ausschlüsse oder Ausgabepräferenzen berücksichtigen. Die meisten Retrieval-Modelle werden jedoch primär für semantische Relevanz trainiert und scheitern häufig daran, Dokumente, die zum Thema passen, von jenen zu unterscheiden, die der Instruktion entsprechen. Wir schlagen eine Dual-View-Datensynthese-Strategie basierend auf Polaritätsumkehr vor: Ausgehend von einer Anfrage, einem dokumentbezogen relevanten Dokument und einem schweren Negativbeispiel, das zur Anfrage passt aber die Instruktion verletzt, generieren wir mithilfe eines LLM eine komplementäre Instruktion, unter der die beiden Dokumente ihre Relevanzlabels tauschen. Indem dasselbe Dokumentenpaar unter komplementären Instruktionen präsentiert wird, die ihre Relevanzbeziehung invertieren, zwingt das Trainingssignal das Retrieval-Modell, denselben Kandidatensatz durch die Brille der Instruktion neu zu bewerten, anstatt sich auf feste thematische Hinweise zu verlassen. Bei einem Encoder mit 305M Parametern steigert unsere Methode die Leistung auf dem FollowIR-Benchmark um 45% und übertrifft damit allgemeine Embedding-Modelle vergleichbarer oder größerer Skalierung. Durch direkte Vergleiche bei gleichen Datenbudgets zeigen wir weiterhin, dass Datenvielfalt und Instruktionsüberwachung komplementäre Rollen spielen: Erstere erhält die allgemeine Retrieval-Qualität, während Letztere die Instruktionssensitivität verbessert. Diese Ergebnisse unterstreichen den Wert gezielter Datensynthese für die Entwicklung von Retrievalsystemen, die sowohl breitfähig als auch instruktionssensitiv sind.
Code-Switching ist ein allgegenwärtiges linguistisches Phänomen in der globalen Kommunikation, doch moderne Informationsabfragesysteme sind nach wie vor überwiegend für monolinguale Kontexte konzipiert und evaluiert. Um diese kritische Diskrepanz zu überbrücken, präsentieren wir eine ganzheitliche Studie zur Code-Switching-IR. Wir führen CSR-L (Code-Switching Retrieval Benchmark-Lite) ein, das durch menschliche Annotation einen Datensatz erstellt, um die authentische Natürlichkeit gemischtsprachiger Anfragen zu erfassen. Unsere Evaluation über statistische, dichte und Late-Interaction-Paradigmen hinweg zeigt, dass Code-Switching einen grundlegenden Leistungsengpass darstellt, der die Effektivität selbst robuster multilingualer Modelle beeinträchtigt. Wir zeigen, dass dieses Versagen auf einer erheblichen Divergenz im Embedding-Raum zwischen reinsprachigem und Code-Switching-Text beruht. Um diese Untersuchung zu skalieren, schlagen wir CS-MTEB vor, einen umfassenden Benchmark, der 11 verschiedene Aufgaben abdeckt und bei dem wir Leistungseinbußen von bis zu 27 % beobachten. Abschließend zeigen wir, dass Standardtechniken für Multilingualität wie Vokabularerweiterung nicht ausreichen, um diese Defizite vollständig zu beheben. Diese Ergebnisse unterstreichen die Fragilität aktueller Systeme und etablieren Code-Switching als eine entscheidende Herausforderung für die zukünftige Optimierung von Informationsabfragen.
Task Arithmetic bietet eine effiziente, trainingsfreie Methode zur Bearbeitung vortrainierter Modelle, doch es fehlt eine grundlegende theoretische Erklärung für ihren Erfolg. Das bestehende Konzept der „Gewichtsdisentanglement“ beschreibt zwar das ideale Ergebnis nicht-interferierender Aufgabenkombination, offenbart aber nicht deren zugrundeliegende Ursache. Entscheidend ist, dass die intrinsischen Eigenschaften des vortrainierten Modells (θ₀) oder der Aufgabenvektoren (τₜ), die dieses Disentanglement ermöglichen, bislang unzureichend erforscht sind. In dieser Arbeit führen wir Task-Feature Specialization (TFS) – die Fähigkeit eines Modells, unterschiedliche interne Merkmale verschiedenen Aufgaben zuzuordnen – als fundamentales Prinzip ein. Wir beweisen zunächst, dass TFS eine hinreichende Bedingung für Gewichtsdisentanglement ist. Noch wichtiger ist, dass wir feststellen, dass TFS auch eine beobachtbare geometrische Konsequenz hat: Orthogonalität der Gewichtsvektoren. Dies positioniert TFS als gemeinsame Ursache sowohl für das gewünschte funktionale Ergebnis (Disentanglement) als auch für eine messbare geometrische Eigenschaft (Orthogonalität). Diese Beziehung liefert die zentrale Erkenntnis für unsere Methode: Da sich die abstrakte TFS-Eigenschaft nicht direkt erzwingen lässt, können wir Gewichtsdisentanglement stattdessen fördern, indem wir ihre konkrete geometrische Konsequenz, die Orthogonalität, formen. Daher schlagen wir OrthoReg vor, eine einfache und effektive Regularisierungsmethode, die während des Fine-Tunings aktiv eine interne orthogonale Struktur in den Gewichtsaktualisierungen (ΔW) erzwingt, die τₜ bilden. Wir beweisen theoretisch, dass OrthoReg Disentanglement fördert. Umfangreiche Experimente zeigen, dass OrthoReg die Leistung verschiedener Task-Arithmetic-Methoden konsistent und signifikant verbessert. Code ist verfügbar unter https://github.com/RL-MIND/OrthoReg.
Wir behandeln das Problem der Erzeugung einer 3D-konsistenten, begehbaren Umgebung, die räumlich verankert ist: eine Simulation eines realen Ortes. Bestehende videogenerative Modelle können eine plausible Sequenz erzeugen, die mit einer Text- (T2V) oder Bildvorgabe (I2V) konsistent ist. Die Fähigkeit, die reale Welt unter beliebigen Wetterbedingungen und dynamischen Objektkonfigurationen zu rekonstruieren, ist jedoch für nachgelagerte Anwendungen wie autonomes Fahren und Robotersimulation von entscheidender Bedeutung. Zu diesem Zweck stellen wir CityRAG vor, ein videogeneratives Modell, das große Korpora georeferenzierter Daten als Kontext nutzt, um die Generierung an der physischen Szene zu verankern, während gleichzeitig erworbene Priors für komplexe Bewegungs- und Erscheinungsänderungen beibehalten werden. CityRAG stützt sich auf zeitlich nicht ausgerichtete Trainingsdaten, die dem Modell beibringen, die zugrundeliegende Szene semantisch von ihren transienten Attributen zu entkoppeln. Unsere Experimente zeigen, dass CityRAG kohärente, minutenlange, physikalisch verankerte Videosequenzen erzeugen, Wetter- und Lichtverhältnisse über Tausende von Frames hinweg aufrechterhalten, Schleifenschluss erreichen und komplexe Trajektorien navigieren kann, um reale Geografie zu rekonstruieren.
Autoregressive Video-Diffusion etabliert sich als vielversprechendes Paradigma für die Synthese von Streaming-Videos, wobei Schritt-Distillation die primäre Methode zur Beschleunigung des Inferenzvorgangs darstellt. Ob spekulatives Decodieren, die dominante Beschleunigungsstrategie für große Sprachmodelle, effektiv auf die autoregressive Videogenerierung übertragen werden kann, bleibt eine offene Frage, da Videoblöcke kontinuierliche raumzeitliche Tensoren ohne Token-verteilung für exakte Rejection-Sampling sind. Wir stellen SDVG vor, welches spekulatives Decodieren für blockbasierte autoregressive Video-Diffusion ermöglicht, indem es die Token-Verifikation durch einen Bildqualitäts-Router ersetzt. Ein 1,3B-Drafter schlägt Kandidatenblöcke in vier Denoising-Schritten vor; jeder Block wird VAE-decodiert und mittels ImageReward nach dem Worst-Frame-Prinzip bewertet – dabei wird die minimale Belohnung pro Frame herangezogen, um Einzelframe-Artefakte zu erfassen, die ein Durchschnittswert verschleiern würde. Blöcke mit einer Bewertung über einem festen Schwellenwert τ werden im KV-Cache des 14B-Zielmodells akzeptiert; der Rest wird vom Zielmodell regeneriert. Zwei zusätzliche Designentscheidungen erweisen sich als entscheidend: Der erste Block wird stets zwangsabgelehnt, um die Szenenkomposition zu verankern, und τ dient als einziger Regler, der eine glatte Qualitäts-Geschwindigkeits-Pareto-Front nachzeichnet. Auf 1003 MovieGenVideoBench-Prompts (832x480) behält SDVG bei τ=-0,7 98,1 % der VisionReward-Qualität des reinen Zielmodells (0,0773 vs. 0,0788) bei einer 1,59-fachen Beschleunigung und erreicht bei 95,7 % Qualitätserhalt eine 2,09-fache Beschleunigung – während es durchgängig die rein Drafter-basierte Generierung um über +17 % übertrifft. Das Framework ist trainingsfrei, erfordert keine Architekturänderungen und kann nahtlos in bestehende autoregressive Videogenerierungs-Pipelines integriert werden.
Alltägliche Aufgaben haben ein Ziel, und die Vorabtraining von Modellen auf dieses Ziel hin ist es, was sie zu Experten macht. In dieser Arbeit untersuchen wir zielorientiertes Vortraining von Sprachmodellen (LM) durch die Einführung von Neuron-Activated Graph Ranking (NAG-basiertes Ranking), einem trainingsfreien und interpretierbaren Rahmenwerk für die Auswahl von Vortrainingsdaten für ein Ziel. Anstatt Blackbox-Repräsentationen zu verwenden, charakterisiert unser Ansatz jede Zieleingabe direkt durch eine spärliche Menge von Neuronen mit hohem Einfluss in beliebigen Standard-LLMs. Konkret quantifizieren wir den Neuroneneinfluss, wählen die einflussreichsten Neuronen über alle Schichten hinweg in einen kompakten Neuron-Activated Graph (NAG) aus und ordnen Kandidatendaten nach ihrer NAG-Ähnlichkeit zu Zielbeispielen. Wir führen Experimente mit sechs Benchmarks durch, bei denen unser NAG-basiertes Ranking das zielorientierte Vortraining im Durchschnitt um 4,9 % gegenüber zufälliger Auswahl verbessert und state-of-the-art Baseline-Verfahren auf HellaSwag um 5,3 % Genauigkeit übertrifft. Es bleibt auch unter einer anwendungsnäheren Multi-Target-Einstellung wirksam, wo unser bester Aufbau zwei Baseline-Verfahren um 1,1 % bzw. 4,1 % übertrifft. Darüber hinaus liefern wir eine umfassende Analyse, warum und wie unser NAG funktioniert. So führt beispielsweise die Deaktivierung der NAG-ausgewählten Neuronen (nur 0,12 % aller Neuronen) zu einem Leistungseinbruch von 23,5 %, und die Beschränkung des NAG auf die letzte Schicht verursacht einen durchschnittlichen Abfall von 4,1 %, was darauf hindeutet, dass NAG ein spärliches "funktionales Rückgrat" zum Erlernen von Zielmerkmalen erfasst. Wir veröffentlichen den Code unter https://github.com/asillycat/NAG.
Traditionelle Bearbeitung fotografischer Bilder erfordert in der Regel, dass Nutzer über ausreichend ästhetisches Verständnis verfügen, um geeignete Anweisungen zur Anpassung der Bildqualität und Kameraparameter zu geben. Dieses Paradigma setzt jedoch explizite menschliche Anweisungen zur ästhetischen Gestaltung voraus, die für nicht-experimentierte Nutzer oft unklar, unvollständig oder schwer zugänglich sind. In dieser Arbeit stellen wir SmartPhotoCrafter vor, eine automatische Methode zur Bearbeitung fotografischer Bilder, die Bildbearbeitung als einen stark gekoppelten Reasoning-to-Generation-Prozess formuliert. Das vorgeschlagene Modell führt zunächst eine Bildqualitätsanalyse durch und identifiziert Mängel mittels des Image-Critic-Moduls. Anschließend realisiert das Photographic-Artist-Modul zielgerichtete Bearbeitungen zur Steigerung der Bildattraktivität, wodurch explizite menschliche Anweisungen entbehrlich werden. Ein mehrstufiger Trainingsansatz kommt zur Anwendung: (i) Foundation-Pretraining zum Aufbau grundlegenden ästhetischen Verständnisses und Bearbeitungsfähigkeiten, (ii) Adaption mit reasoning-gesteuerter Multi-Edit-Supervision zur Integration semantischer Guidance, und (iii) koordinierte Reasoning-to-Generation-Verstärkungslernverfahren zur gemeinsamen Optimierung von Reasoning und Generierung. Während des Trainings legt SmartPhotoCrafter Wert auf fotorealistische Bildgenerierung und unterstützt zugleich sowohl Bildrestaurierungs- als auch Bildretuscheaufgaben unter konsequenter Beachtung farb- und tonwertbezogener Semantik. Zudem erstellen wir einen stufenspezifischen Datensatz, der schrittweise Reasoning und kontrollierbare Generierung, effektive modulübergreifende Zusammenarbeit und letztlich hochwertige fotografische Verbesserungen ermöglicht. Experimente zeigen, dass SmartPhotoCrafter bestehende generative Modelle bei der Aufgabe der automatischen fotografischen Verbesserung übertrifft und fotorealistische Ergebnisse erzielt, wobei es eine höhere tonale Sensitivität gegenüber Retusche-Anweisungen aufweist. Projektseite: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
Jüngste Fortschritte in der 3D-Vision haben zu spezialisierten Modellen für entweder 3D-Verstehen (z.B. Formklassifikation, Segmentierung, Rekonstruktion) oder 3D-Generierung (z.B. Synthese, Vervollständigung und Bearbeitung) geführt. Diese Aufgaben werden jedoch oft isoliert betrachtet, was zu fragmentierten Architekturen und Repräsentationen führt, die den Wissenstransfer und die ganzheitliche Szenenmodellierung behindern. Um diese Herausforderungen zu adressieren, schlagen wir UniMesh vor, einen einheitlichen Rahmen, der 3D-Generierung und -Verstehen gemeinsam in einer einzigen Architektur erlernt. Erstens führen wir einen neuartigen Mesh-Head ein, der als modellübergreifende Schnittstelle fungiert und diffusionsbasierte Bildgenerierung mit impliziten Formdecodern verbindet. Zweitens entwickeln wir Chain of Mesh (CoM), eine geometrische Instanziierung von iterativem Reasoning, die benutzergesteuerte semantische Mesh-Bearbeitung durch einen geschlossenen Kreislauf aus Latent-Prompting und Neugenerierung ermöglicht. Drittens integrieren wir einen Selbstreflexionsmechanismus, basierend auf einer Akteur-Bewerter-Selbstreflexions-Triade, um Fehler in hochrangigen Aufgaben wie 3D-Beschriftung zu diagnostizieren und zu korrigieren. Experimentelle Ergebnisse zeigen, dass UniMesh nicht nur eine wettbewerbsfähige Leistung auf Standard-Benchmarks erzielt, sondern auch neuartige Fähigkeiten in iterativer Bearbeitung und gegenseitiger Verbesserung zwischen Generierung und Verstehen freisetzt. Code: https://github.com/AIGeeksGroup/UniMesh. Website: https://aigeeksgroup.github.io/UniMesh.
Das Feinabstimmen großer Sprachmodelle (LLMs) bleibt trotz parameter-effizienter Methoden wie Low-Rank Adaptation (LoRA) strukturell ungewiss, da die schichtspezifischen Rollen interner Repräsentationen nur unzureichend verstanden sind, was zu heuristischen Entscheidungen über die anzupassenden Schichten führt. Wir modellieren die Entwicklung versteckter Zustände als hochdimensionale geometrische Trajektorie und schlagen die Verwendung des Ramer-Douglas-Peucker (RDP)-Algorithmus vor – einer parameter- und trainingsfreien Polygonvereinfachungsmethode, die globale strukturelle Übergänge bewahrt, während lokal redundante Änderungen eliminiert werden –, um kritische Wendepunkte entlang des Repräsentationspfads zu identifizieren. Entscheidend ist, dass wir diese geometrischen Drehpunkte nicht nur zur Analyse verwenden, sondern als direktes Entscheidungssignal dafür, welche Schichten während des parameter-effizienten Feinabstimmens adaptiert werden sollten. Durch die Integration dieser geometriebewussten Schichtauswahlstrategie in die LoRA-Feinabstimmung von Qwen3-8B-Base erzielen wir mit nur 13 RDP-ausgewählten Schichten eine überlegene Leistung auf MMLU-Math (81,67%), die sowohl die vollständige Adaptation aller 36 Schichten (79,32%) als auch eine zufällige Auswahl von 13 Schichten (75,56%) sowie das Qwen3-8B-Base-Basismodell (74,25%) signifikant übertrifft. Diese Ergebnisse zeigen, dass die Nutzung der intrinsischen Geometrie von Repräsentationstrajektorien ein robustes, interpretierbares und trainingsfreies Signal zur Optimierung der Schichtauswahl während der Modellanpassung liefert.
Multimodale Large Language Models (MLLMs) werden zunehmend als automatische Bewerter eingesetzt – ein Paradigma, das als MLLM-as-a-Judge bekannt ist. Ihre Zuverlässigkeit und Anfälligkeit für Verzerrungen (Bias) sind jedoch noch unzureichend erforscht. Wir stellen fest, dass viele MLLM-Bewerter wesentliche visuelle oder textuelle Hinweise nicht zuverlässig integrieren können, was zu unzuverlässigen Bewertungen führt, wenn Beweise fehlen oder nicht übereinstimmen, und die unter semantisch irrelevanten Störungen Instabilität zeigen. Um dies zu adressieren, definieren wir systematisch den sogenannten Compositional Bias in MLLM-as-a-Judge-Systemen und führen MM-JudgeBias ein, einen Benchmark zu dessen Bewertung. MM-JudgeBias führt kontrollierte Störungen in Abfrage, Bild und Antwort ein und bewertet das Modellverhalten anhand zweier komplementärer Metriken: Bias-Deviation (BD) für die Empfindlichkeit und Bias-Conformity (BC) für die Stabilität. Unser Datensatz mit über 1.800 kuratierten und verfeinerten multimodalen Stichproben aus 29 Quell-Benchmarks ermöglicht eine feingranulare Diagnose von neun Bias-Typen über verschiedene Aufgaben und Domänen hinweg. Experimente mit 26 modernsten MLLMs zeigen systematische Modalitätsvernachlässigung und asymmetrische Bewertungstendenzen auf und unterstreichen die Notwendigkeit zuverlässigerer Bewerter.
Die Skalierung von Transformer-basierten Click-Through-Rate(CTR)-Modellen durch das Stapeln weiterer Parameter führt zu wachsenden Rechen- und Speicheraufwänden, was eine zunehmende Kluft zwischen Skalierungsambitionen und strengen industriellen Einsatzbedingungen schafft. Wir schlagen LoopCTR vor, das ein Loop-Skalierungsparadigma einführt, das den Rechenaufwand zur Trainingszeit durch rekursive Wiederverwendung gemeinsamer Modellschichten erhöht und so die Berechnung vom Parameterwachstum entkoppelt. LoopCTR verwendet eine Sandwich-Architektur, die mit Hyper-Connected Residuals und Mixture-of-Experts erweitert ist, und setzt Prozessüberwachung auf jeder Loop-Tiefe ein, um die Vorteile mehrerer Loops in die gemeinsamen Parameter zu kodieren. Dies ermöglicht eine Train-multi-loop, Infer-zero-loop-Strategie, bei der ein einzelner Vorwärtsdurchlauf ohne jeglichen Loop bereits alle Baseline-Modelle übertrifft. Experimente auf drei öffentlichen Benchmarks und einem industriellen Datensatz demonstrieren state-of-the-art Leistung. Eine Oracle-Analyse zeigt weiterhin ungenutztes Potenzial von 0,02–0,04 AUC auf, wobei Modelle, die mit weniger Loops trainiert wurden, höhere Oracle-Obergrenzen aufweisen und auf eine vielversprechende Grenze für adaptive Inferenz hindeuten.
Das Uniform Discrete Diffusion Model (UDM) hat sich kürzlich als vielversprechendes Paradigma für die diskrete generative Modellierung erwiesen; dessen Integration in Reinforcement Learning ist jedoch weitgehend unerforscht. Wir beobachten, dass eine naive Anwendung von GRPO auf UDM zu Trainingsinstabilität und nur marginalen Leistungssteigerungen führt. Um dies zu beheben, schlagen wir \Ours vor, den ersten Rahmen zur Integration von UDM in RL. Unser Ansatz wird von zwei zentralen Erkenntnissen geleitet: (i) Die Behandlung der endgültigen bereinigten Stichprobe als Aktion liefert präzisere und stabilere Optimierungssignale; und (ii) die Rekonstruktion von Trajektorien über den Diffusion-Forward-Prozess sorgt für eine bessere Ausrichtung der Wahrscheinlichkeitspfade an der Vortrainingsverteilung. Zusätzlich führen wir zwei Strategien ein, Reduced-Step und CFG-Free, um die Trainingseffizienz weiter zu steigern. \Ours verbessert die Leistung des Basismodells signifikant über mehrere T2I-Aufgaben hinweg. Besonders bemerkenswert ist die Steigerung der GenEval-Genauigkeit von 69 % auf 96 % und des PickScore von 20,46 auf 23,81, was state-of-the-art Leistung in sowohl kontinuierlichen als auch diskreten Settings erreicht. Beim OCR-Benchmark steigt die Genauigkeit von 8 % auf 57 %, was die Generalisierungsfähigkeit unserer Methode weiter validiert. Code ist verfügbar unter https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.
Gängige Bildbearbeitungsaufgaben nutzen leistungsstarke generative Diffusionsmodelle als führendes Paradigma für die Bearbeitung realer Inhalte. Während Reinforcement-Learning (RL)-Methoden wie Diffusion-DPO und Flow-GRPO die Generierungsqualität weiter verbessert haben, ist die effiziente Anwendung von Reinforcement Learning from Human Feedback (RLHF) auf diffusionsbasierte Bearbeitung weitgehend unerforscht. Dies liegt vor allem am Mangel an skalierbaren menschlichen Präferenzdatensätzen und Frameworks, die auf diverse Bearbeitungsanforderungen zugeschnitten sind. Um diese Lücke zu schließen, schlagen wir HP-Edit vor, ein Post-Training-Framework für humanpräferenzausgerichtete Bearbeitung, und führen RealPref-50K ein, einen Echtwelt-Datensatz, der acht häufige Aufgaben abdeckt und eine ausgewogene Bearbeitung gängiger Objekte gewährleistet. Konkret nutzt HP-Edit eine kleine Menge menschlicher Präferenz-Bewertungsdaten und ein vortrainiertes visuelles Großsprachmodell (VLM), um HP-Scorer zu entwickeln – einen automatischen, an menschlichen Präferenzen ausgerichteten Bewertungsalgorithmus. Wir verwenden HP-Scorer dann sowohl zum effizienten Aufbau eines skalierbaren Präferenzdatensatzes als auch als Belohnungsfunktion für das Post-Training des Bearbeitungsmodells. Zusätzlich führen wir RealPref-Bench ein, einen Benchmark zur Bewertung der Bearbeitungsleistung in realen Szenarien. Umfangreiche Experimente zeigen, dass unser Ansatz Modelle wie Qwen-Image-Edit-2509 erheblich verbessert und ihre Ausgaben enger an menschliche Präferenzen anpasst.
Die Dichtefunktionaltheorie (DFT) bildet die Grundlage eines Großteils der modernen computergestützten Chemie und Materialwissenschaft. Die Zuverlässigkeit von auf DFT basierenden Vorhersagen experimentell messbarer Eigenschaften ist jedoch grundsätzlich durch die Notwendigkeit begrenzt, das unbekannte Austausch-Korrelations-(XC)-Funktional zu approximieren. Das traditionelle Paradigma zur Verbesserung der Genauigkeit stützte sich auf zunehmend aufwändige, handgefertigte Funktionalformen. Dieser Ansatz hat zu einem langjährigen Zielkonflikt zwischen Recheneffizienz und Genauigkeit geführt, der für eine zuverlässige Vorhersagemodellierung von Laborexperimenten nach wie vor unzureichend ist. Hier stellen wir Skala vor, ein auf Deep Learning basierendes XC-Funktional, das die Genauigkeit modernster Hybridefunktionale im Hauptgruppenchemie-Benchmark GMTKN55 mit einem Fehler von 2,8 kcal/mol übertrifft und dabei die für semi-lokale DFT charakteristischen geringeren Rechenkosten beibehält. Dieser demonstrierte Bruch mit dem historischen Zielkonflikt zwischen Genauigkeit und Effizienz wird ermöglicht, indem nicht-lokale Repräsentationen der elektronischen Struktur direkt aus Daten gelernt werden, was die Notwendigkeit zunehmend kostspieliger, handgefertigter Merkmale umgeht. Durch die Nutzung eines beispiellosen Umfangs hochgenauer Referenzdaten aus wellenfunktionsbasierten Methoden zeigen wir, dass modernes Deep Learning systematisch verbesserbare neuronale Austausch-Korrelations-Modelle ermöglicht, sobald die Trainingsdatensätze wachsen. Dies stellt erste-Prinzipien-Simulationen so auf, dass sie zunehmend prädiktiver werden.
Aktuelle Arbeiten haben das Potenzial aufgezeigt, große Sprachmodelle (LLMs) in evolutionäre und agentenbasierte Optimierungssysteme zu integrieren. Die Mechanismen, die diesen Optimierungsgewinn antreiben, sind jedoch nach wie vor kaum verstanden. In dieser Arbeit präsentieren wir eine groß angelegte Studie zur LLM-gesteuerten evolutionären Suche, in der wir Optimierungspfade für 15 LLMs über 8 Aufgaben hinweg erfassen. Obwohl die Fähigkeit zur Null-Shot-Problemlösung mit den endgültigen Optimierungsergebnissen korreliert, erklärt sie nur einen Teil der Varianz: Modelle mit ähnlicher Ausgangsfähigkeit erzeugen oft dramatisch unterschiedliche Suchpfade und Ergebnisse. Durch die Analyse dieser Pfade stellen wir fest, dass starke LLM-Optimierer als lokale Verfeinerer agieren, die häufige inkrementelle Verbesserungen produzieren und dabei die Suche progressiv im semantischen Raum eingrenzen. Schwächere Optimierer hingegen zeigen eine starke semantische Drift, mit sporadischen Durchbrüchen gefolgt von Stagnation. Bemerkenswerterweise sagen verschiedene Maße für Lösungsneuheit nicht die Endleistung voraus; Neuheit ist nur dann vorteilhaft, wenn die Suche ausreichend auf hochperformante Regionen des Lösungsraums fokussiert bleibt. Unsere Ergebnisse unterstreichen die Bedeutung der Trajektorienanalyse für das Verständnis und die Verbesserung LLM-basierter Optimierungssysteme und liefern umsetzbare Erkenntnisse für deren Design und Training.
Interpretierbarkeitstools werden zunehmend eingesetzt, um Fehler von Large Language Models (LLMs) zu analysieren. Bisherige Arbeiten konzentrieren sich jedoch weitgehend auf kurze Prompts oder vereinfachte Testumgebungen, wodurch ihr Verhalten auf häufig verwendeten Benchmarks unzureichend erforscht bleibt. Um diese Lücke zu schließen, untersuchen wir kontrastive, LRP-basierte Attribution als praktisches Werkzeug zur Analyse von LLM-Fehlern in realistischen Szenarien. Wir formulieren die Fehleranalyse als kontrastive Attribution, bei der die Logit-Differenz zwischen einem falschen Ausgabetoken und einer korrekten Alternative auf Eingabetokens und interne Modellzustände zurückgeführt wird, und führen eine effiziente Erweiterung ein, die die Konstruktion von attributionsbasierten Graphen über Schichten hinweg für Eingaben mit langem Kontext ermöglicht. Mit diesem Framework führen wir eine systematische empirische Studie über Benchmarks hinweg durch und vergleichen Attributionsmuster über verschiedene Datensätze, Modellgrößen und Trainings-Checkpoints hinweg. Unsere Ergebnisse zeigen, dass diese token-basierte kontrastive Attribution in einigen Fehlerfällen informative Signale liefern kann, jedoch nicht universell anwendbar ist, was sowohl ihren Nutzen als auch ihre Grenzen für die realistische Fehleranalyse von LLMs verdeutlicht. Unser Code ist verfügbar unter: https://aka.ms/Debug-XAI.
Sprachmodelle werden zunehmend in der wissenschaftlichen Entdeckung eingesetzt, um Hypothesen zu generieren, Lösungsansätze vorzuschlagen, Systeme zu implementieren und diese iterativ zu verbessern. Im Kern dieser Trial-and-Error-Schleifen steht die Evaluation: der Prozess, Feedback zu Lösungsansätzen durch Verifizierer, Simulationen oder aufgabenspezifische Bewertungsfunktionen zu erhalten. Während frühere Arbeiten die Bedeutung der Evaluation hervorgehoben haben, wurde das Problem, wie evaluierungsgesteuerte Entdeckungsschleifen prinzipiell und effektiv skaliert werden können, um die Grenzen der wissenschaftlichen Entdeckung zu erweitern, nicht explizit formuliert – ein Problem, dem sich dieser Beitrag annimmt. Wir stellen Simple Test-time Evaluation-driven Scaling (SimpleTES) vor, einen allgemeinen Rahmen, der parallele Exploration, feedbackgesteuerte Verfeinerung und lokale Auswahl strategisch kombiniert und erhebliche Gewinne aufzeigt, die durch das Skalieren evaluierungsgesteuerter Entdeckungsschleifen entlang der richtigen Dimensionen freigesetzt werden. Über 21 wissenschaftliche Probleme aus sechs Domänen hinweg entdeckt SimpleTES mit gpt-oss-Modellen state-of-the-art-Lösungen und übertrifft dabei konsequent sowohl Baseline-Modelle der Frontier-Klasse als auch anspruchsvolle Optimierungspipelines. Insbesondere beschleunigten wir den weit verbreiteten LASSO-Algorithmus um mehr als das Doppelte, entwarfen Quantenschaltkreis-Routing-Strategien, die den Gate-Overhead um 24,5 % reduzieren, und entdeckten neue Erdős-Minimum-Overlap-Konstruktionen, die die bisher besten bekannten Ergebnisse übertreffen. Über neuartige Entdeckungen hinaus erzeugt SimpleTES trajectorienbezogene Verläufe, die feedbackgesteuertes Lernen natürlich überwachen. Wenn Modelle nachträglich auf erfolgreichen Trajektorien trainiert werden, verbessern sie nicht nur die Effizienz bei bekannten Problemen, sondern generalisieren auch auf unbekannte Probleme und entdecken Lösungen, die Basis-Modelle nicht finden. Zusammengenommen etablieren unsere Ergebnisse eine effektive Skalierung evaluierungsgesteuerter Schleifen als zentrale Achse für den Fortschritt LLM-gesteuerter wissenschaftlicher Entdeckung und liefern einen einfachen, doch praktischen Rahmen, um diese Gewinne zu realisieren.
Aktuelle KI-Agenten-Frameworks haben bemerkenswerte Fortschritte bei der Automatisierung einzelner Aufgaben erzielt, doch alle bestehenden Systeme dienen einem einzelnen Nutzer. Menschliche Produktivität beruht auf sozialen und organisatorischen Beziehungen, durch die Menschen koordinieren, verhandeln und delegieren. Wenn Agenten über die Ausführung von Aufgaben für eine Person hinausgehen und diese Person in der Zusammenarbeit mit anderen vertreten, fehlt die Infrastruktur für nutzerübergreifende Agenten-Kollaboration vollständig, geschweige denn die notwendigen Governance-Mechanismen zu ihrer Absicherung. Wir argumentieren, dass die nächste Grenze für KI-Agenten nicht in stärkeren individuellen Fähigkeiten liegt, sondern in der Digitalisierung menschlicher Kooperationsbeziehungen. Zu diesem Zweck schlagen wir ein menschlich-symbiotisches Agenten-Paradigma vor. Jeder Nutzer besitzt ein permanent gebundenes Agentensystem, das stellvertretend für den Eigentümer zusammenarbeitet und ein Netzwerk bildet, dessen Knotenpunkte Menschen und nicht Agenten sind. Dieses Paradigma basiert auf drei Governance-Primitiven. Eine geschichtete Identitätsarchitektur trennt einen Manager-Agenten von mehreren kontextspezifischen Identitäts-Agenten; der Manager-Agent verfügt über globales Wissen, ist aber architektonisch von externer Kommunikation isoliert. Bereichsbezogene Autorisierung erzwingt eine identitätsbasierte Zugriffskontrolle und eskaliert Grenzverletzungen an den Eigentümer. Handlungsebene-Verantwortlichkeit protokolliert jeden Vorgang in Verbindung mit der Identität und Autorisierung des Eigentümers und gewährleistet so vollständige Nachvollziehbarkeit. Wir implementieren dieses Paradigma in ClawNet, einem identitätsgesteuerten Agenten-Kollaborationsframework, das Identitätsbindung und Autorisierungsüberprüfung durch einen zentralen Orchestrator durchsetzt und mehreren Nutzern ermöglicht, sicher über ihre jeweiligen Agenten zusammenzuarbeiten.
Große Vision-Sprach-Modelle (LVLMs) leiden nach wie vor unter visuellen Halluzinationen, bei denen die generierten Antworten nicht mit der visuellen Eingabe übereinstimmen. Bestehende Methoden setzen entweder auf groß angelegte annotierte Daten für das Fine-Tuning, was erheblichen Rechenaufwand verursacht, oder verwenden statische Post-hoc-Strategien, die die dynamische Natur der Halluzinationsentstehung außer Acht lassen. Um diese Probleme zu lösen, führen wir ein neues Self-Rewarding-Framework ein, das eine dynamische Minderung von Halluzinationen zur Inferenzzeit ohne externe Überwachung ermöglicht. Auf empirischer Seite zeigen wir, dass visuelle Halluzinationen phasenweise dynamische Muster aufweisen, die zu Beginn jeder semantischen Phase ihren Höhepunkt erreichen. Aufbauend auf diesen Erkenntnissen schlagen wir PSRD (Phase-wise \textbf{Self-Reward Decoding}) zur Online-Korrektur von Halluzinationen vor, die durch phasenweise Self-Reward-Signale gesteuert wird. Um den Aufwand für wiederholte Selbstevaluierung während der Decodierung zu reduzieren, destillieren wir das Halluzinationsführungs-Signal aus den LVLMs in ein leichtgewichtiges Reward-Modell. Dieses Reward-Modell liefert anschließend eine Echtzeit-Führung für gezielte Interventionen während des Decodierungsprozesses, was eine präzise Unterdrückung von Halluzinationen ermöglicht. Das vorgeschlagene PSRD reduziert die Halluzinationsrate von LLaVA-1.5-7B signifikant um 50,0 % und übertrifft bestehende Post-hoc-Methoden durchgängig auf fünf Halluzinations-Evaluierungs-Benchmarks für vier verschiedene LVLMs. Weitere Analysen bestätigen, dass PSRD die Ausbreitung von Halluzinationen wirksam eindämmt und einen hochgradig kontrollierbaren Kompromiss zwischen hoher Leistung und Inferenzeffizienz erreicht.
Edge-Geräte wie Smartwatches und Smart Glasses können selbst die kleinsten Sprachmodelle mit 100M-1B Parametern aufgrund von Energie- und Rechenbeschränkungen nicht kontinuierlich betreiben, während Cloud-Inferenz Latenzen im Sekundenbereich verursacht, die die Illusion eines responsiven Assistenten zerstören. Wir führen Micro Language Models (μLMs) ein: ultrakompakte Modelle (8M-30M Parameter), die sofort die ersten 4-8 Wörter einer kontextuell fundierten Antwort auf dem Gerät generieren, während ein Cloud-Modell diese vervollständigt und so die Cloud-Latenz maskiert. Wir zeigen, dass nützliche Sprachgeneration in diesem extremen Maßstab möglich ist – unsere Modelle erreichen die Leistung mehrerer existierender Modelle der 70M-256K-Klasse. Wir entwickeln ein Framework für kollaborative Generierung, das das Cloud-Modell als Fortsetzer statt als Antwortgeber konzipiert, nahtlose Übergabe mitten im Satz ermöglicht und strukturierte, graceful recovery durch drei Fehlerkorrekturmethoden bei fehlerhaften lokalen Eröffnungen vorsieht. Empirische Ergebnisse zeigen, dass μLMs Antworten einleiten können, die größere Modelle nahtlos vervollständigen, was demonstriert, dass asymmetrische Kollaboration mit Größenordnungsunterschieden möglich ist und responsive KI für extrem ressourcenbeschränkte Geräte ermöglicht. Der Modell-Checkpoint und eine Demo sind unter https://github.com/Sensente/micro_language_model_swen_project verfügbar.
Wir untersuchen das Problem der Vorhersage numerischer Labels, die auf Ganzzahlen oder einen Teilbereich der Ganzzahlen beschränkt sind. Beispiele hierfür sind die Anzahl der positiven Bewertungen von Social-Media-Beiträgen oder die Anzahl der verfügbaren Fahrräder an einer öffentlichen Leihstation. Obwohl es möglich ist, diese als kontinuierliche Werte zu modellieren und traditionelle Regression anzuwenden, verändert dieser Ansatz die zugrundeliegende Verteilung der Labels von diskret zu kontinuierlich. Diskrete Verteilungen bieten bestimmte Vorteile, was uns zu der Frage führt, ob solche ganzzahligen Labels direkt durch eine diskrete Verteilung modelliert werden können, deren Parameter aus den Merkmalen einer gegebenen Instanz vorhergesagt werden. Darüber hinaus konzentrieren wir uns auf den Anwendungsfall von Ausgabeverteilungen in neuronalen Netzen, was die Anforderung hinzufügt, dass die Parameter der Verteilung kontinuierlich sein müssen, damit Backpropagation und Gradientenabstieg zur Gewichtung des Netzes verwendet werden können. Wir untersuchen mehrere Optionen für solche Verteilungen, sowohl bestehende als auch neuartige, und testen sie anhand einer Reihe von Aufgaben, einschließlich tabellarischen Lernens, sequentieller Vorhersage und Bildgenerierung. Wir stellen fest, dass insgesamt die beste Leistung von zwei Verteilungen erzielt wird: Bitweise, welche die Ziel-Ganzzahl in Bits darstellt und auf jedes eine Bernoulli-Verteilung anwendet, und einer diskreten Analogie der Laplace-Verteilung, die eine Verteilung mit exponentiell abklingenden Rändern um einen kontinuierlichen Mittelwert verwendet.
Aktuelle Systeme für die Sprach-zu-Sprach-Übersetzung (S2ST) erreichen zwar eine hohe semantische Genauigkeit, entfernen jedoch konsequent non-verbale Vokalisationen (NV) wie Lachen oder Weinen, die pragmatische Absichten vermitteln. Dies schränkt ihren praktischen Nutzen erheblich ein. Wir adressieren dieses Problem mit drei Beiträgen. Erstens schlagen wir eine Synthese-Pipeline vor, um skalierbare expressive Datensätze zu erstellen und so die Datenknappheit zu überwinden. Zweitens präsentieren wir MoVE, eine Mixture-of-LoRA-Experts-Architektur mit expressiv-spezialisierten Adaptern und einem Soft-Weighting-Router, der Experten zur Erfassung hybrider Ausdruckszustände kombiniert. Drittens zeigen wir, dass vortrainierte AudioLLMs eine bemerkenswerte Dateneffizienz ermöglichen: Bereits 30 Minuten kuratierter Daten genügen für eine hohe Leistungsfähigkeit. Im Englisch-Chinesisch-S2ST-Vergleich mit starken Baselines reproduziert MoVE Ziel-NVs in 76 % der Fälle und erzielt die höchste von menschlichen Bewertern eingestufte Natürlichkeit und emotionale Treue unter allen verglichenen Systemen, wobei bestehende S2ST-Systeme maximal 14 % der NVs erhalten.
Dezentrale Autonome Organisationen (DAOs) neigen dazu, Small Language Models (SLMs) als edge-native konstitutionelle Firewalls zu erforschen, um Vorschläge zu prüfen und semantische Social-Engineering-Angriffe abzuschwächen. Während die Skalierung von Inferenz-Rechenleistung (System 2) die formale Logik verbessert, ist ihre Wirksamkeit in hochgradig adversarischen, kryptoökonomischen Governance-Umgebungen noch unzureichend erforscht. Um dies zu adressieren, stellen wir Sentinel-Bench vor, einen empirischen 840-Inferenz-Framework, der eine strikte Intra-Modell-Ablation auf Qwen-3.5-9B durchführt. Durch das gezielte Ein- und Ausschalten latenten Schlussfolgerns über gefrorene Gewichte isolieren wir den Einfluss der Inferenz-Rechenleistung anhand eines adversarischen Optimism-DAO-Datensatzes. Unsere Ergebnisse zeigen eine schwerwiegende Umkehrung des Verhältnisses von Rechenaufwand zu Genauigkeit. Die autoregressive Basisversion (System 1) erreichte 100% adversarische Robustheit, 100% juristische Konsistenz und Zustandsfinalität in unter 13 Sekunden. Im Gegensatz dazu führte die System-2-Begründung zu katastrophaler Instabilität, die grundlegend durch eine Reasoning-Non-Convergence-Rate (kognitiver Kollaps) von 26,7 % verursacht wurde. Dieser Kollaps verschlechterte die Konsensstabilität von Versuch zu Versuch auf 72,6 % und verursachte einen 17-fachen Latenz-Overhead, was kritische Verwundbarkeiten für Governance Extractable Value (GEV) und Hardware-Zentralisierung einführte. Obwohl selten (1,5 % der adversarischen Versuche), konnten wir empirisch „Reasoning-Induced Sycophancy“ beobachten, bei der das Modell signifikant längere interne Monologe (durchschnittlich 25.750 Zeichen) generierte, um das Scheitern an der adversarischen Falle zu rationalisieren. Wir kommen zu dem Schluss, dass für edge-native SLMs, die unter Byzantine Fault Tolerance (BFT)-Beschränkungen operieren, die parametrisierte Intuition von System 1 strukturell und ökonomisch der iterativen Deliberation von System 2 für dezentralen Konsens überlegen ist. Code und Datensatz: https://github.com/smarizvi110/sentinel-bench
Multimodale Reasoning-Modelle (MRMs), die auf Chain-of-Thought (CoT)-basiertem Denken aufbauen, haben das mathematische und logische Problemlösen revolutioniert. Wir zeigen jedoch, dass dieses Paradigma bei generalisierter räumlicher Intelligenz an Grenzen stößt. Wir führen eine umfassende Evaluation von siebzehn Modellen über dreizehn räumliche Benchmarks hinweg durch und identifizieren eine kritische Lücke: CoT-Prompting verschlechtert durchgängig die Leistung beim visuell-räumlichen Reasoning. Darüber hinaus demonstrieren wir durch eine neuartige No-Image++-Ablation, dass MRMs und CoT-gepimpte MLMs unter starkem Shortcut-Learning leiden und visuelle Details aus textuellen Priors halluzinieren, selbst wenn das Bild fehlt. Diese Ergebnisse stellen die Wirksamkeit von rein textbasiertem CoT für räumliche Aufgaben infrage und unterstreichen die Notwendigkeit von visumszentrischen Reasoning-Paradigmen.
Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fortschritte bei Vision-Language-Benchmarks erzielt, doch ihre Fähigkeiten zur visuell-kognitiven und visuell-räumlichen Reasoning bleiben weniger verstanden. Wir stellen "Mind's Eye" vor, einen Multiple-Choice-Benchmark mit acht visuell-kognitiven Aufgaben, die von klassischen menschlichen Intelligenztests inspiriert und nach einer neuartigen "A-R-T"-Taxonomie strukturiert sind: Abstraktion, Relation und Transformation. Die Aufgaben untersuchen Kernprozesse der fluiden Intelligenz wie Musterinduktion, analogische Relationszuordnung und mentale Transformation. Wir evaluieren eine diverse Reihe von Closed-Source- und Open-Source-MLLMs und vergleichen ihre Leistung mit der menschlicher Teilnehmer. Menschen erreichen eine Genauigkeit von 80 %, während die besten MLLMs unter 50 % bleiben. Fehleranalysen zeigen Defizite in: (i) der Allokation visueller Aufmerksamkeit, (ii) interner perzeptueller Manipulation und (iii) schwacher Abstraktion zugrundeliegender visueller Konzepte. Unsere Ergebnisse deuten darauf hin, dass aktuelle MLLMs im Vergleich zu menschlichen Teilnehmern eingeschränkte visuell-räumliche Reasoning-Fähigkeiten aufweisen, was den Bedarf an kognitiv fundierteren Evaluierungsrahmen unterstreicht.
Die Implementierung von Game-UI erfordert die Übersetzung von stilisierten Mockups in interaktive Engine-Entitäten. Aktuelle "Screenshot-to-Code"-Werkzeuge stoßen jedoch häufig an ihre Grenzen bei den unregelmäßigen Geometrien und tiefen visuellen Hierarchien, die typisch für Spieloberflächen sind. Um diese Lücke zu schließen, stellen wir SPRITE vor, eine Pipeline die statische Screenshots in editierbare Engine-Assets umwandelt. Durch die Integration von Vision-Language-Models (VLMs) mit einer strukturierten YAML-Zwischendarstellung erfasst SPRITE explizit komplexe Container-Beziehungen und nicht-rechteckige Layouts. Wir evaluierten SPRITE anhand eines kuratierten Game-UI-Benchmarks und führten Expertenbefragungen mit professionellen Entwicklern durch, um die Rekonstruktionsgenauigkeit und Prototyping-Effizienz zu bewerten. Unsere Ergebnisse zeigen, dass SPRITE die Entwicklung durch Automatisierung aufwändiger Programmierarbeit und die Auflösung komplexer Verschachtelungen optimiert. Indem SPRITE schnelle Iterationen innerhalb der Engine ermöglicht, verwischt es effektiv die Grenzen zwischen künstlerischem Design und technischer Implementierung in der Spieleentwicklung. Projektseite: https://baiyunshu.github.io/sprite.github.io/