Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
KI-Codierungsagenten werden zunehmend für wissenschaftliche Arbeiten eingesetzt, doch ihre durchgängige autonome Forschungsfähigkeit bleibt schwer zu überprüfen. Wir stellen ResearchClawBench vor, einen Benchmark zur Bewertung autonomer wissenschaftlicher Forschung mit 40 Aufgaben aus 10 wissenschaftlichen Bereichen. Jede Aufgabe basiert auf einer tatsächlich veröffentlichten Arbeit, stellt verwandte Literatur und Rohdaten bereit und verbirgt die Zielarbeit während der Evaluierung. Von Experten kuratierte multimodale Rubriken zerlegen die wissenschaftlichen Zielartefakte in gewichtete Kriterien, was eine Bewertung der Wiederentdeckung auf dem Niveau der Zielarbeit ermöglicht, gleichzeitig aber Raum für neue Entdeckungen lässt. Wir bewerten sieben autonome Forschungsagenten (Auto-Research-Agenten) unter einem einheitlichen Protokoll und siebzehn native LLMs mittels des leichten ResearchHarness. Aktuelle Systeme sind noch weit von einer zuverlässigen Wiederentdeckung entfernt: Der stärkste autonome Agent, Claude Code, erreicht durchschnittlich 21,5, und der stärkste ResearchHarness-LLM, Claude-Opus-4.7, erreicht durchschnittlich 20,7, bei einem LLM-Frontier-Mittelwert von nur 26,5. Fehleranalysen zeigen, dass Fehler hauptsächlich in den Bereichen Abweichung des Versuchsprotokolls, Abweichung der Evidenz und Fehlen des wissenschaftlichen Kerns auftreten. ResearchClawBench bietet eine reproduzierbare Evaluierungsgrenze zur Messung des Fortschritts in Richtung autonomer wissenschaftlicher Forschung.
Vision-Sprachmodelle (VLMs) zeichnen sich bei vielen Aufgaben aus, haben jedoch weiterhin Schwierigkeiten mit räumlichem Denken, wenn kritische Informationen nicht direkt beobachtbar sind. Viele solcher Probleme erfordern imaginative Wahrnehmung: das Erschließen dessen, was aus einer nicht sichtbaren Perspektive zu sehen wäre, das Verfolgen von Pfaden durch verdeckte Räume oder das Integrieren partieller Beobachtungen in eine kohärente räumliche Repräsentation. Wir führen Imaginative Perception Tokens (IPT) ein – intermediate perzeptuelle Repräsentationen, die externalisieren, was ein VLM unter alternativen räumlichen Konfigurationen wahrnehmen würde, während sie mit der beobachteten Eingabe konsistent bleiben. Um diese Fähigkeit zu untersuchen, formulieren wir drei Aufgaben, Perspective Taking (PET), Path Tracing (PT) und Multiview Counting (MVC), und erstellen Datensätze mit etwa 20.000 Beispielen, die Ground-Truth-Imaginationen, Antworten und Evaluierungsbenchmarks umfassen. Mit dem einheitlichen VLM BAGEL als Backbone verbessert IPT-Supervision konsistent das räumliche Denken und übertrifft oft das Training mit textuellen Chain-of-Thought-Ansätzen, selbst ohne zur Inferenzzeit Bilder zu generieren. Bei MVC steigert IPT die Genauigkeit um 3,4 % und erzielt auf PT wettbewerbsfähige Ergebnisse mit leistungsstarken Closed-Source-Modellen. Darüber hinaus stellen wir fest, dass die Kombination von IPT und reiner Label-Supervision zusätzliche Gewinne bringt, während textuelle Chain-of-Thoughts die Leistung erheblich verschlechtern kann, was auf einen Modalitätskonflikt hindeutet, wenn räumliche Berechnungen durch Sprache erzwungen werden. Insgesamt bietet IPT ein prinzipienbasiertes Supervisionssignal für das Denken über nicht beobachtbare räumliche Strukturen, verbessert die Generalisierung und erzeugt gleichzeitig interpretierbare Zwischenrepräsentationen.
Große Sprachmodelle zeigen beeindruckende Zero-Shot-Fähigkeiten über eine breite Palette nachgelagerter Aufgaben. Allerdings fällt es ihnen schwer, als vorgefertigte Einbettungsmodelle zu fungieren, was zu suboptimaler Leistung bei massiven Texteinbettungs-Benchmarks führt. In diesem Artikel identifizieren wir eine mögliche Ursache für dieses Defizit. Unsere Motivation ergibt sich aus einer unerwarteten Beobachtung: Texteinbettungen neigen dazu, sich mit häufigen, aber wenig informativen Token auszurichten, wenn sie auf den Vokabularraum projiziert werden. Wir argumentieren, dass diese übermäßige Ausprägung von hochfrequenten Token die Fähigkeit des Modells unterdrückt, nuancierte Semantik zu erfassen. Um dies zu adressieren, führen wir EmbedFilter ein, eine einfache lineare Transformation, die darauf ausgelegt ist, Texteinbettungen direkt aus LLMs zu verfeinern. Insbesondere decken wir auf, dass die Unembedding-Matrix innerhalb von LLMs einen latenten Raum kodiert, der aktiv diese häufigen Token in den Einbettungsraum schreibt. Durch Herausfiltern dieses Unterraums unterdrückt EmbedFilter den Einfluss von hochfrequenten Token und verbessert so die semantischen Repräsentationen. Als überzeugendes Nebenprodukt ermöglicht dies eine inhärente Dimensionsreduktion, die den Indexspeicher verringert und die Abfrage beschleunigt, während die verfeinerte Einbettungsqualität vollständig erhalten bleibt. Unsere Experimente mit mehreren LLM-Backbones zeigen, dass LLMs, die mit EmbedFilter ausgestattet sind, auch bei deutlich reduzierten Einbettungsdimensionen eine überlegene Zero-Shot-Downstream-Leistung erzielen. Wir hoffen, dass unsere Ergebnisse tiefere Einblicke in die Mechanismen von LLM-basierten Repräsentationen bieten und zu prinzipientreueren Designs inspirieren, um das Training von Texteinbettungen zu verbessern. Unser Code ist verfügbar unter https://github.com/CentreChen/EmbFilter.
Die Bewertung von KI-Vermittlern (LLM-Mediators) bleibt eine Herausforderung, da Mediation als zeitlich dynamischer Verlauf abläuft, der von den sich wandelnden Emotionen, Absichten und dem Kontext der Streitparteien geprägt wird. Bestehende Testumgebungen stützen sich auf wenige, von Experten verfasste Bereiche, variieren hauptsächlich in der strategischen Haltung und bewerten jede Runde in Bezug auf jedes Thema, was themenfremdes Rauschen erzeugt. Wir stellen SoCRATES vor, einen Benchmark zur Bewertung proaktiver LLM-Vermittler in realistischen, multi-domänen Testumgebungen. Der Benchmark konstruiert Szenarien aus realen Konflikten mittels einer agentenbasierten Pipeline über acht Domänen hinweg, untersucht fünf sozio-kognitive Anpassungsachsen (strategische Haltung, Parteienzusammensetzung, Vorgeschichtenlänge, emotionale Reaktivität und kulturelle Identität) und bewertet jedes Thema nur anhand der Runden, die es voranbringen, und zwar mittels eines themenspezifischen Evaluators. Der Evaluator erreicht eine Übereinstimmung von 0,82 mit menschlichen Experten, was den Wert einer rundenbasierten Basislinie mehr als verdoppelt. Beim Benchmarking von acht führenden LLMs stellen wir fest, dass selbst der stärkste Vermittler unter vielfältigen und realistischen Testbedingungen nur etwa ein Drittel der unvermittelten Konsenslücke schließt, wobei die Leistung je nach sozio-kognitiver Achse stark variiert – was unterstreicht, dass Fortschritte in der sozialen Anpassung an unterschiedliche Bedingungen liegen.
Fortschritte bei genomischen Grundlagenmodellen sind aufgrund fragmentierter Benchmarks, inkompatibler Evaluationsprotokolle und aufgabenspezifischer Berichterstattung schwer zu bewerten. Daher sind Behauptungen über die Überlegenheit oder Allgemeingültigkeit verschiedener Modelle oft nicht direkt vergleichbar. Wir stellen GENEB vor, einen groß angelegten diagnostischen Benchmark, der eingefrorene Repräsentationen von 40 genomischen Grundlagenmodellen über 100 Aufgaben aus 13 funktionalen Kategorien unter einem einheitlichen, probing-basierten Protokoll bewertet, einschließlich Few-Shot-Regimen. GENEB ermöglicht kontrollierte Vergleiche hinsichtlich Modellskalierung, Architektur, Tokenisierung und Vortrainingsdaten und legt gleichzeitig aufgabenspezifische Zielkonflikte offen. Unsere Analyse zeigt, dass aggregierte Ranglisten instabil sind: Die Modellrangfolgen variieren stark zwischen Aufgabekategorien, die Skalierung liefert nur bescheidene und inkonsistente Verbesserungen, und die Abstimmung von Architektur und Vortraining übertrifft häufig die Parameteranzahl. Diese Ergebnisse verdeutlichen die Grenzen aktueller Evaluationspraktiken und positionieren GENEB als Referenzrahmen für prinzipielle Vergleiche und kategoriebewusste Modellauswahl im genomischen maschinellen Lernen.
Wir stellen MMAE vor, einen Massive Multitask Audio Editing Benchmark, der als erste umfassende Evaluierungstestumgebung für allgemeines, instruktionsbasiertes Audio-Editieren dient. Angetrieben durch den Wandel hin zur intelligenten Kreation hat sich das interaktive Editieren schnell von visuellen Domänen – vorangetrieben durch Modelle wie Nano-banana 2 für Bilder und Gemini-Omni für Video – auf Audio ausgeweitet. Allerdings hinkt die derzeitige Evaluierungsinfrastruktur stark hinterher, bleibt stark fragmentiert und auf spezifische Unterdomänen oder grundlegende Operationen beschränkt. Im Gegensatz zu bestehenden Benchmarks, die in ihrem Umfang begrenzt sind, erstreckt sich MMAE auf ein breites Spektrum realer Szenarien und umfasst 7 verschiedene Audiomodalitäten, darunter Geräusch, Sprache, Musik und deren Mischungen. Darüber hinaus etablieren wir eine umfassende Taxonomie, die 6 Stufen der Aufgabenkomplexität umfasst – von grundlegenden Modifikationen bis hin zu Multi-Hop-Schlussfolgerungen und mehrrundigem Editieren –, 2 Granularitätsstufen und 8 verschiedene Operationstypen. Sorgfältig kuratiert durch Mensch-Agent-Kollaboration, umfasst MMAE 2.000 hochgetreue Proben, gepaart mit einem bahnbrechenden rubrikenbasierten Evaluierungsrahmenwerk. Durch die Zerlegung von Freiformaufgaben in 17.741 überprüfbare Kriterien ermöglicht dieses robuste rubrikenbasierte Paradigma eine präzise, mehrdimensionale Bewertung sowohl der Befolgung von Anweisungen als auch der Kontextkonsistenz. Unsere umfassende Evaluierung führender Modelle zeigt, dass aktuelle Systeme noch weit von zuverlässigen Bearbeitungen entfernt sind. Bemerkenswerterweise liegt die Exakte-Übereinstimmungsrate (EMR) konstant unter 5 % und fällt bei komplexen, gemischtmodalen Aufgaben auf absolute 0 %, was kritische Engpässe bei der präzisen Ausführung und strukturellen Robustheit offenbart. Wir hoffen, dass MMAE als Katalysator für zukünftige Fortschritte in der Community der intelligenten Kreation dient, eine klare diagnostische Roadmap bereitstellt und ein standardisiertes, dauerhaftes Evaluierungsparadigma für Audio-Editierungssysteme der nächsten Generation etabliert.
Obwohl es sich um eine zentrale Forschungsrichtung handelt, ist die interaktive Weltmodellierung hinsichtlich der vielseitigen Steuerbarkeit, die in praktischen Szenarien erforderlich ist, noch wenig erforscht. Um diese Lücke zu schließen, stellen wir AnchorWorld vor, ein Framework, das die egozentrische Simulation durch verbesserte Interaktionsintegrität und einen flexiblen Mechanismus zur Weltanpassung voranbringt. Zunächst nutzen wir die 3D-Bewegung des Menschen als primäre Interaktionsmodalität. Um die außerhalb des Sichtfelds liegenden oder abgeschnittenen Körperteile in egozentrischen Ansichten zu ergänzen, führen wir eine zusätzliche Trainingsüberwachung ein, die exogene Blickwinkel einbezieht, die vom Erstpersonen-Sensorium des Agenten entkoppelt sind. Dies ermöglicht es dem Modell, die Positionierung des gesamten Körpers des Agenten relativ zur Umgebung zu beobachten, was eine robustere räumliche Verankerung von Mensch-Welt-Interaktionen ermöglicht. Darüber hinaus schlagen wir einen einfachen, aber effektiven Mechanismus zur Anpassung sich selbst entwickelnder Welten vor. Dies wird erreicht, indem Ankeransichten innerhalb eines einheitlichen Weltkoordinatensystems definiert werden, gekoppelt mit textuellen Beschreibungen, die die dynamische Entwicklung lokaler Szenen vorgeben. Experimentelle Ergebnisse zeigen, dass AnchorWorld aktuellste Basislinien deutlich übertrifft, während Ablationsstudien die Wirksamkeit unserer Schlüsseldesigns bestätigen. Bemerkenswerterweise zeigt unser Anpassungsschema eine vielversprechende räumlich-zeitliche geometrische Konsistenz und hält sich streng an die vorgeschriebenen Entwicklungsdynamiken.
Generelle Roboterintelligenz wird häufig als Problem der Skalierung von Verhaltensstrategien betrachtet: Sammle mehr Roboterdemonstrationen, trainiere größere Vision-Language-Action (VLA)-Modelle und erwarte eine breitere Generalisierung. In diesem Positionspapier argumentieren wir, dass diese Sichtweise unvollständig ist. Der zentrale Engpass liegt nicht allein im Erlernen von Strategien, sondern im Fehlen von Mechanismen, die die reichhaltigen unstrukturierten Verhaltensdaten der Welt in fundierte Roboterüberwachung umwandeln. Menschliche Bewegungen, Internetvideos, Simulationsdurchläufe und interaktive Demonstrationen enthalten umfangreiche Informationen über Aufgaben, Ziele, Kontakte, Fehler und physikalische Zwänge, doch die meiste dieser Information ist für Roboterstrategien nicht direkt nutzbar, da ihr verkörperungsspezifische Aktionsbezeichnungen, Aufgabensemantik und Belohnungsstrukturen fehlen. Wir identifizieren vier fehlende Komponenten für die nächste Generation der Robotik: Datenschnittstellen zur automatischen Beschriftung unstrukturierten Verhaltens, Verkörperungsschnittstellen zur Übertragung menschlicher Bewegungen auf Roboteraktionen, Weltmodell-Schnittstellen für physikalisch fundiertes 3D-Denken sowie Belohnungsschnittstellen zur Ableitung von Aufgabenfortschritt und -erfolg aus Videos und Sprache. Wir geben einen Überblick über aktuelle Fortschritte bei Roboter-Grundlagenmodellen, körperübergreifenden Datensätzen, Lernen aus Videos, Weltmodellen und Belohnungsmodellierung und schlagen eine Forschungsagenda vor, um Robotersysteme zu entwickeln, die nicht nur aus Roboterdemonstrationen, sondern aus der breiteren physikalischen Welt lernen können.
Die Objektinsertion zielt darauf ab, ein Referenzobjekt nahtlos in einen bestimmten Bereich eines Hintergrundbildes zu integrieren. Aktuelle diffusionsbasierte Methoden erzielen eine hohe visuelle Qualität, formulieren die Insertion jedoch als einfache 2D-Inpainting-Aufgabe, wodurch sie keine explizite Kontrolle über die 3D-Pose des Objekts bieten und ihre praktische Anwendbarkeit einschränken. Wir schlagen DIRECT (Decomposed Injection for Reference Composition and Target-integration) vor, ein neuartiges Framework, das interaktive Pose-Manipulation mit hochwertiger 2D-Bildsynthese integriert, um eine posengesteuerte Objektinsertion zu ermöglichen. Unsere Methode zerlegt die Insertionsbedingungen in drei komplementäre Komponenten: die Erscheinungsführung, die visuelle Details aus dem Referenzobjekt erfasst; die Geometrieführung, die aus dem benutzerangepassten 3D-Proxy abgeleitet wird; und die Kontextführung aus dem Zielhintergrund. Durch die Injektion über separate Pfade vermeidet DIRECT eine Merkmalsverflechtung und bewahrt gleichzeitig die Referenzerscheinung, folgt der vom Benutzer vorgegebenen Pose und passt das Objekt an die Zielszene an. Wir führen außerdem eine automatisierte Datenkonstruktionspipeline ein, um die Vielfalt und Qualität der Trainingsdaten zu verbessern. Experimente zeigen, dass DIRECT frühere Methoden sowohl in der geometrischen Kontrollierbarkeit als auch in der visuellen Qualität übertrifft.
Selbst entwickelnde Agenten erfordern eine Anpassung nach dem Einsatz, doch bestehende Ansätze setzen eine nutzbare Lernschleife voraus, wie etwa kuratierte Fähigkeiten, erfolgreiche Trajektorien oder Verifikatorsignale. Echte Open-World-Einsätze bieten möglicherweise nichts davon, sondern lediglich eine Aufgabenanweisung. In dieser Arbeit untersuchen wir die Open-World-Selbstevolution, bei der ein Agent sowohl seine Fähigkeiten als auch seine eigenen Verifikationssignale von Grund auf aufbauen muss, unter Verwendung von Open-World-Ressourcen, jedoch ohne Zielaufgaben-Überwachung. Wir schlagen OpenSkill vor, ein Framework, das diesen Kreislauf initialisiert: Es erwirbt fundiertes Wissen und Verifikationsanker aus Dokumentationen, Repositorien und dem Web, synthetisiert sie zu übertragbaren Fähigkeiten und verfeinert diese Fähigkeiten an selbst erstellten virtuellen Aufgaben, die in den Ankern verankert sind, nicht in Zielantworten. Die offene Welt liefert somit sowohl das zu lernende Wissen als auch eine überwachungsunabhängige Übungsumgebung, wobei die Zielaufgaben-Überwachung für die abschließende Bewertung reserviert bleibt. Über drei Benchmarks und zwei Zielagenten hinweg erzielt OpenSkill die beste automatische Erfolgsquote, während es die Beschränkung ohne Überwachung erfüllt. Die Analyse zeigt, dass seine Fähigkeiten ohne modellspezifische Anpassung zwischen Modellen übertragbar sind, und sein selbst erstellter Verifikator mit den Ground-Truth-Ergebnissen übereinstimmt, obwohl er nie darauf zugreift.
Bestehende Benchmarks bewerten das werkzeugintegrierte Denken (Tool-Integrated Reasoning, TIR) in LLMs anhand idealisierter „Happy Paths“ und übersehen dabei weitgehend reale Werkzeugfehler. Wir führen ToolMaze ein, einen Benchmark für dynamische Pfadfindung und Fehlerbehebung in TIR-Agenten. Um systematische Neuplanung von blinder Versuch-und-Irrtum-Strategie zu trennen, verwendet ToolMaze ein zweidimensionales Design: DAG-basierte topologische Komplexität und eine 2×2-Taxonomie von Werkzeugstörungen (explizit/implizit, vorübergehend/dauerhaft). Evaluierungen zeigen, dass Störungen die Leistung fast aller Modelle verschlechtern, wobei die stärksten Einbußen bei impliziten semantischen Fehlern auftreten. Getrieben durch systemisches übermäßiges Vertrauen in korrupte Ausgaben sinkt die Störungs-Wiederherstellungsrate (Perturbation Recovery Rate, PRR) in diesen Szenarien um rund 37 %, während komplexe Topologien Agenten in fruchtlosen Versuch-und-Irrtum-Schleifen gefangen halten. Entscheidend ist, dass die agentische Fehlertoleranz mit der Modellskalierung 3,66-mal langsamer zunimmt als die grundlegende Aufgabenausführung – dies zeigt, dass dynamische Neuplanung einen eigenen Engpass darstellt, der weder durch Modellskalierung noch durch Prompting behoben wird. Daten und Code sind verfügbar unter https://github.com/Zhudongsheng75/ToolMaze.
Die Videoverarbeitung wird durch multimodale große Sprachmodelle (MLLMs) rasant verändert, da sich die Forschung von kurzen Clips hin zu langen, multimodalen und wissensintensiven Videoszenarien bewegt. Diese Szenarien erfordern Modelle, die spärliche Evidenz, weitreichende Abhängigkeiten, multimodale Ausrichtung und zuverlässiges Schließen bei begrenzten Rechenressourcen bewältigen können. Diese Arbeit präsentiert eine menschliche Perspektive auf LLM-basierte Videoverarbeitung, gegliedert nach drei funktionalen Fähigkeiten: Sehen, Erinnern und Denken. Anstatt Videosequenzen als isolierte Benchmarks zu behandeln, bietet diese Sichtweise eine einheitliche Struktur zur Analyse, wie Video-MLLMs Evidenz erfassen, Kontext bewahren und fundierte Ergebnisse liefern. Wir führen eine Formulierung ein, die Videoverarbeitungssysteme anhand ihrer Wahrnehmungsrepräsentationen, Gedächtniszustände, Logikspuren und endgültigen Vorhersagen charakterisiert. Basierend auf dieser Formulierung identifizieren wir Herausforderungen in der räumlich-zeitlichen Wahrnehmung, effizienten Langvideoverarbeitung, Gedächtnismodellierung, Streaming-Verständnis und zuverlässigem Schließen. Repräsentative Methoden werden nach ihrer Rolle in Video-MLLM-Systemen geordnet. „Sehen" umfasst feinkörnige, umfassende, audiovisuelle und effiziente Wahrnehmung. „Erinnern" beinhaltet Offline- und Streaming-Gedächtnis, während „Denken" textbasiertes Schließen und Denken mit Videos abdeckt. Wir untersuchen zudem Anwendungsbereiche wie egozentrische, Sport-, lehrbezogene, medizinische und narrative Videos und behandeln Trainingsdatensätze und Evaluierungs-Benchmarks nach Aufgabentypen, Supervisionsformaten, Modalitäten und Fähigkeitsdimensionen. Abschließend skizzieren wir offene Probleme und zukünftige Richtungen für skalierbare, gedächtnisbewusste und evidenzbasierte Video-Intelligenz. Verwandte Arbeiten werden fortlaufend unter https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding verfolgt.
Persistente KI-Assistenten wie OpenClaw sammeln über langfristige Interaktionen große Sammlungen zusammenhängender Erinnerungen an. Wenn diese Erinnerungen wachsen, können sie sich gegenseitig verstärken, kontextabhängig auseinanderdriften oder in direkten Konflikt geraten, sodass korrekte Unterstützung eher von Gedächtnisbeziehungen als von isoliertem Abruf abhängt. Bestehende Benchmarks für Langzeitgedächtnis untersuchen selten, wie Agenten solche Beziehungen während nachgelagerter Aufgaben bewahren und nutzen. Um diese Lücke zu schließen, führen wir SubtleMemory ein, einen Benchmark für feinkörnige relationale Gedächtnisdiskriminierung in langlebigen KI-Agenten. SubtleMemory konstruiert relationsgesteuerte latente semantische Artefakte, deren Varianten komplementäre, nuancierte oder widersprüchliche Beziehungen instanziieren, und bettet sie in realistische Nutzer-Agenten-Verläufe ein, sodass Agenten während späterer Abfragen und Anweisungen verteilte relationale Strukturen wiederherstellen müssen. Der Benchmark umfasst 1.522 Evaluierungsinstanzen über 10 lange Verläufe, basierend auf 1.090 relationsgesteuerten Gedächtnis-Varianten-Sets und erstreckt sich über nutzerbezogene und nicht-nutzerbezogene Abfragen. Bei der Evaluierung von sechs eigenständigen Gedächtnissystemen, zwei Claw-artigen Agenten mit nativen Gedächtnismodulen und drei Claw-artigen Agenten mit Plugin-Gedächtnismodulen stellen wir fest, dass aktuelle Systeme bei der feinkörnigen relationalen Gedächtnisdiskriminierung schwach bleiben. Wir führen zudem diagnostische Protokolle ein, die unterschiedliche Fähigkeitsprofile in den Phasen der Gedächtniserhaltung, des Abrufs und des nachgelagerten Schließens offenlegen.
Wir stellen UnpredictaBench vor, eine Evaluierungsmethode, die die Fähigkeit großer Sprachmodelle (LLMs) testet, wahre zugrundeliegende Verteilungen zu erfassen. Da LLMs zunehmend als Ersatz für andere Entitäten eingesetzt werden (z. B. für Menschen in ökonomischen Simulationen), führt die Tendenz vieler Modelle, zu einer einzigen plausiblen Antwort zu kollabieren, dazu, dass die Unvorhersagbarkeit realer Systeme nicht abgebildet wird. Neuere Arbeiten zur Verbesserung der Ausgabendiversität reichen für diesen Kontext nicht aus: Simulationen erfordern Stichproben, die auf eine Zielverteilung kalibriert sind, nicht bloß variierte Ausgaben. UnpredictaBench isoliert eine vereinfachte, aber grundlegende Version dieses Problems: die Ziehung von Stichproben aus einzelnen Zielverteilungen, darunter kanonische statistische Verteilungen, durch stochastische Programme induzierte Verteilungen sowie natursprachliche Szenarien, die Zufallsprozesse beschreiben. Wir führen 448 solcher Probleme zusammen mit KS@N ein, einer allgemeinen Bewertungsmetrik, die mithilfe des Kolmogorov-Smirnov-Statistiktests quantifiziert, wie gut Modellausgaben approximativ Black-Box-Zielverteilungen abbilden. Dabei handelt es sich um die Rate, mit der wir Modellstichproben der Größe N gegenüber Ground-Truth-Stichproben nicht ablehnen können; größere N bedeuten höhere Schwierigkeit. Getestet über offene und proprietäre Modelle hinweg zeigt sich eine große Spannbreite der verteilungsbezogenen Fähigkeiten. Beispielsweise liegen die Werte bei der Generierung von Stichproben der Größe 100 (KS@100, unsere Standardmetrik) zwischen nahe 0 und über 20 %. Kein Modell erreicht bei KS@100 mehr als 40 %, was einen erheblichen Entwicklungsspielraum bei der verteilungsbasierten Stichprobenziehung als Fähigkeit aufzeigt. Obwohl die Hinzunahme von Reasoning-Techniken die Werte etwas steigern kann, finden wir keine unmittelbare Lösung für dieses Problem. UnpredictaBench zeigt, dass selbst einfache verteilungsbasierte Simulationen herausfordernd bleiben, und stellt damit einen notwendigen ersten Schritt dar, um LLMs als Stellvertreter für komplexe Systeme einzusetzen.
Kausaldiagramme bieten eine hochrangige Sprache zur Transparentmachung von Mechanismen. Aktuelle Arbeiten nutzen große Sprachmodelle (LLMs), um Kausaldiagramme von Prozessen der Außenwelt zu rekonstruieren. Stattdessen verwenden wir in dieser Arbeit Kausaldiagramme, um die LLM-Inferenz selbst zu modellieren und den Stakeholdern eine transparente Sicht darauf zu bieten, wie das Modell hochrangige Konzepte wahrnimmt und organisiert, um eine Vorhersage zu treffen. Wir schlagen eine vierphasige Methode zur Konstruktion solcher Diagramme vor. Gegeben ein Ziel-LLM und eine Reihe von Textbeispielen entdeckt unsere Methode klassendiskriminierende, für Menschen interpretierbare Konzepte und ordnet jede Eingabe den vom LLM wahrgenommenen Konzeptzuständen zu. Anschließend führen wir ein von MCMC inspiriertes Verfahren zur kontrafaktischen Augmentierung ein, das die spärlichen Beobachtungsdaten durch Ketten von Kontrafaktiken erweitert. Dies ermöglicht eine stabile kausale Entdeckung mit σ-CG, was zu informativen, interpretierbaren Diagrammen führt. Wir wenden unsere Methode auf drei LLMs in den Bereichen Krankheitsdiagnose, Stimmungsanalyse und LLM-als-Richter-Klassifikationsaufgaben an. Wir evaluieren die gelernten Diagramme hinsichtlich Vorhersagetreue und struktureller Stabilität sowie die von MCMC inspirierte Augmentierung hinsichtlich Konvergenz und nachgelagerter Nützlichkeit. Unsere Ergebnisse zeigen, dass die entdeckten Kausaldiagramme sinnvolle Abhängigkeiten erfassen, die mit der Argumentation von LLMs übereinstimmen. Zusammenfassend legt diese Arbeit eine Grundlage für die Erklärbarkeit von LLMs auf Konzeptebene.
Obwohl Vision-Language-Modelle (VLMs) starke visuelle Denkfähigkeiten gezeigt haben, bleiben ihre räumlichen Denkfähigkeiten weitgehend auf die beobachteten Bilder und die textorientierte Gedankenkette beschränkt. Sie haben oft Schwierigkeiten, unbeobachtete Anordnungen zu inferieren, die Konsistenz zwischen Ansichten zu wahren und aus alternativen Blickwinkeln zu schließen, wenn nur begrenzte egozentrische Beobachtungen verfügbar sind. In dieser Arbeit untersuchen wir dieses Problem als Denken mit Imagination, bei dem ein VLM aktiv imaginierte visuelle Evidenz durch Interaktion mit einem Weltsimulator während des Denkens erwirbt. Wir schlagen Astra vor, ein agentisches räumliches Denkrahmenwerk, das VLMs mit handlungsbedingter visueller Imagination ausstattet. Insbesondere koppelt Astra Astra-VL, eine RL-trainierte VLM-Policy, mit Astra-WM, einem auf Bagel basierenden Weltsimulator, der neuartige Ansichtsbeobachtungen aus Kontextbildern und in natürlicher Sprache beschriebenen Kamerabewegungen erzeugt. Um zuverlässige imaginierte Evidenz zu liefern, wird Astra-WM mit Ansichtskonsistenz-Abstimmung trainiert, um die Pose- und Inhaltskonsistenz über Ansichten hinweg zu verbessern. In der RL-Phase schlagen wir einen zweiphasigen RL-Lehrplan mit Weltsimulator-in-der-Schleife vor, um die Werkzeugnutzungserkundung zu stabilisieren und die Fähigkeit des Modells zu verbessern, den Simulator nur dann aufzurufen, wenn imaginierte Beobachtungen eine Verbesserung gegenüber direkter Beantwortung darstellen. Experimente zeigen, dass sowohl der Weltsimulator als auch die agentische Policy notwendig sind: Astra-WM verbessert simulatorgestütztes Gemini-3-Flash auf MMSI-Bench von 45,1 auf 49,5, während Astra-VL das Qwen3-VL-Backbone auf MMSI-Bench von 29,8 auf 38,8 und auf MindCube von 36,8 auf 42,7 verbessert. Diese Ergebnisse zeigen, dass imaginierte Beobachtungen nützliche räumliche Evidenz liefern können, aber effektives, durch Weltmodelle erweitertes Denken erfordert, zu lernen, wann, wo und wie man sich etwas vorstellt.
In dieser Arbeit konzentrieren wir uns auf die Erweiterung von SHARP, der beliebten fotorealistischen Ansichtssynthesemethode, für die universelle monokulare Darstellung über ein Kontinuum von Kamerasystemen hinweg – von herkömmlichen perspektivischen Kameras über Weitwinkel-, Fischaugen- bis hin zu omnidirektionalen Panorama-Einstellungen. Um die lochkammerspezifischen Annahmen von SHARP zu überwinden, besteht unsere Kernidee darin, verschiedene Bilder in einem vereinheitlichten omnidirektionalen latenten Raum auszurichten. Daher schlagen wir UniSHARP vor, das eine implizite Ausrichtung sowohl im Merkmals- als auch im Gauß-Raum durchführt. Insbesondere werden Gaußsche Primitive entlang von Strahlen und radialen Abständen in einer strahlenbasierten universellen Darstellung angeordnet, während 2D-semantische und 3D-räumliche Merkmale aus von UniK3D inspirierten Encodern gemeinsam dekodiert werden, um die vollständige Gaußsche Wolke zu erzeugen. Zur umfassenden Evaluierung unserer Methode erstellen wir einen Benchmark, der verschiedene Bildgebungssysteme über verschiedene Szenen abdeckt. Der Benchmark wird weiterhin nach Sichtfeld (FoV) geschichtet, um eine fein granulierte Bewertung der universellen monokularen Rendering-Aufgabe zu ermöglichen. Umfangreiche Experimente mit dem vorgeschlagenen Benchmark belegen die Wirksamkeit von UniSHARP, das alternative Methoden mit großem Abstand übertrifft. Die Projektseite ist zu finden unter: https://insta360-research-team.github.io/Unisharp-website/
Wir argumentieren, dass hochwertige Bewegungsdaten die Tracking-Strategien bereits früh im Training in bessere Optimierungsverläufe lenken können. In dieser Arbeit stellen wir LIMMT (Less Is More for Motion Tracking) vor. Unseres Wissens ist dies die erste datenzentrierte Studie zum physikbasierten Tracking von humanoiden Bewegungen. Wir gehen über das bloße Entfernen minderwertiger und fehlerhafter Clips hinaus, indem wir die Qualität von Bewegungsdaten anhand dreier Dimensionen definieren: physikalische Machbarkeit, Diversität und Komplexität. Wir zeigen, dass bereits das Training mit weniger als 3 % von AMASS eine bessere Tracking-Leistung erzielt als das Training mit dem gesamten Datensatz. Darüber hinaus führen wir eine Datenbereinigung der geschätzten, aus dem Web stammenden MoCap-Daten durch. Umfangreiche Experimente und Analysen bestätigen die Wirksamkeit unseres Rahmens.
Wir präsentieren dots.tts, ein kontinuierliches autoregressives Text-to-Speech (TTS) Grundmodell mit 2 Milliarden Parametern, das Sprache in einem kontinuierlichen latenten Raum modelliert. Im Vergleich zu bestehenden kontinuierlichen autoregressiven Modellen liegen unsere wesentlichen Neuerungen in drei Bereichen. Erstens trainieren wir einen AudioVAE mit mehreren Zielen, um einen semantisch strukturierten und prädiktionsfreundlichen kontinuierlichen Sprachraum aufzubauen. Zweitens verwenden wir im Flow-Matching-Head eine Konditionierung auf die gesamte Historie, um langfristige Konsistenz zu bewahren und Drift während der Generierung zu reduzieren. Drittens wenden wir ein belohnungsfreies selbstkorrigierendes Nachtraining auf den Flow-Matching-Head an, um die Robustheit und akustische Qualität weiter zu verbessern. Nach dem Training auf einem groß angelegten mehrsprachigen Korpus erzielt dots.tts die beste durchschnittliche Leistung auf Seed-TTS-Eval, mit Wortfehlerraten (WERs) von 0,94 % / 1,30 % / 6,60 % und SIM-Werten von 81,0 / 77,1 / 79,5 auf den Testmengen zh / en / zh-hard. Auch auf anderen Benchmarks zeigt dots.tts durchgängig Open-Source-Spitzenleistung mit starker Generierungsstabilität, Stimmklonfähigkeit und emotionaler Ausdruckskraft. Für eine effiziente Inferenz wenden wir zusätzlich CFG-bewusste MeanFlow-Destillation an, die eine latenzarme Sprachgenerierung mit Latenzen des ersten Pakets von 85 ms bzw. 54 ms im Ausgabe-Streaming-Modus und im Dual-Streaming-Modus ermöglicht. Um reproduzierbare Forschung und praktische Bereitstellung zu fördern, veröffentlichen wir den Trainings- und Inferenzcode zusammen mit den vortrainierten, nachtrainierten und MeanFlow-destillierten Prüfpunkten unter der Apache-2.0-Lizenz.
Bild-zu-Video-Diffusionsmodelle nutzen Eingabebilder, um visuell beeindruckende Inhalte zu erzeugen, produzieren jedoch häufig Bewegungen, die physikalische Gesetze verletzen. Wir entdecken eine überraschende Erkenntnis: Eine 2-Schritt-Generierung weist oft eine bessere physikalische Konsistenz auf als eine 50-Schritt-Ausgabe desselben Modells. Mittels Spektralanalyse führen wir dies auf eine Phasen-Erosion während des Entrauschens zurück; die Phase verschlechtert sich erheblich (Abfall um ca. 18 % von Schritt 2 bis Schritt 50), während die Magnitude relativ stabil bleibt. Aufbauend auf dieser Erkenntnis schlagen wir PhaseLock vor, ein trainingsfreies Framework, das die gültigen Bewegungs-Priors aus einer wenige Schritte umfassenden Inferenz über die gesamte Entrauschungs-Trajektorie hinweg bewahrt. Anstatt sich für physikalische Konsistenz auf eine vollständige Schritt-Inferenz zu verlassen, extrahiert PhaseLock einen Bewegungs-Prior aus nur 2 Schritten und erzwingt diesen mittels Latent-Delta-Guidance auf die hochgetreue Generierung. Unser Ansatz mildert effektiv die Phasenverschlechterung, verbessert die physikalische Konsistenz über verschiedene Modelle hinweg um durchschnittlich 6,2 Punkte, während die visuelle Treue weitgehend erhalten bleibt, bei vernachlässigbarem Overhead (1,06-fache Zeit, 1,02-facher Speicher) und verringerter Abhängigkeit von teuren externen Guidance-Methoden (ca. 5-fache Zeit).
Der Mensch ist der Engpass beim Aufbau und der Verbesserung von KI. Sowohl die Modelle als auch die sie umgebenden Agenten werden von Menschen geschrieben, abgestimmt und korrigiert. Das langfristige Ziel einer KI, die selbstständig herausfinden kann, wie sie sich verbessert, bleibt unerreicht. Zwei weitgehend disjunkte Forschungsrichtungen gehen diesen Engpass an. Die Harness-Update-Schule lässt einen Meta-Agenten das Gerüst (Scaffold) eines aufgabenspezifischen Agenten (seine Werkzeuge, Prompts, Wiederholungslogik und Suchprozedur) umschreiben, während die Modellgewichte fixiert bleiben. Die Schule des Testzeit-Trainings verwendet handgeschriebene RL-Pipelines, um die eigenen Gewichte des Modells anhand von Aufgaben-Feedback zu aktualisieren, während der Harness fixiert bleibt. Diese beiden Silos arbeiten isoliert voneinander. Wir schlagen SIA vor, eine sich selbst verbessernde Schleife, in der ein Sprachmodell-Agent (der Feedback-Agent) sowohl den Harness als auch die Gewichte eines aufgabenspezifischen Agenten aktualisiert. Wir evaluieren in drei kontrastierenden Bereichen: chinesische rechtliche Klassifizierung von Anklagepunkten, Low-Level-GPU-Kernel-Optimierung und Einzelzell-RNA-Entrauschung. Die Kombination beider Hebel übertrifft die reine Scaffold-Iteration in allen drei Benchmarks. Die Verbesserungen betragen 56,6 % bei LawBench, 91,9 % Laufzeitreduktion bei GPU-Kernels und 502 % bei der Entrauschung gegenüber der anfänglichen Basislinie. Harness-Updates machen das Modell agentisch und formen, wie es sucht und handelt, während Gewichts-Updates die Domänenintuition aufbauen, die kein Prompt oder Scaffold vermitteln kann.
Die Empfehlung wissenschaftlicher Arbeiten wird typischerweise als statisches Ranking über eine feste Kandidatenmenge bewertet, doch die tatsächliche wissenschaftliche Lektüre vollzieht sich als ein täglicher, longitudinaler Prozess, bei dem sich Interessen verschieben und Rückmeldungen akkumulieren. Wir stellen PaperFlow vor, ein Framework, das diesen Prozess in drei gekoppelte Phasen gliedert: Profilierung, die aus heterogener Cold-Start-Evidenz ein strukturiertes, überprüfbares Wissenschaftsprofil aufbaut und pflegt; Empfehlung, die jeden datums spezifischen Paper-Strom durch Multisignal-Aggregation unter einem festen Anzeigebudget rankt; und Anpassung, die den Benutzerzustand aus semantisch unterschiedlichen Rückmeldungssignalen aktualisiert und Interessensverschiebungen über Tage hinweg modelliert. Wir definieren außerdem einen longitudinalen Benutzer-Tage-Benchmark, der Benutzer, Daten, Kandidatenpools, sichtbare Eingaben und versteckte simulierte Relevanzbewertungen unter einer gemeinsamen zeitlichen Informationsgrenze fixiert. Der Benchmark umfasst 24 simulierte Forschungnutzer, 50 tägliche Paper-Streams, 1.200 Benutzer-Tage-Episoden, 20.727 einzigartige Papiere und 497.448 Episoden-Paper-Datensätze. Zusätzlich spezifizieren wir ein blindes Humanbewertungsprotokoll, um die Übereinstimmung zwischen automatischen Metriken und Expertenurteilen zu validieren. Experimente gegenüber fünf wissenschaftlichen Paper-Empfehlungs-Baselines zeigen, dass PaperFlow das stärkste orakelbasierte Ranking, die höchste Verhaltensübereinstimmung mit simulierten Leseauswahlen und die beste blinde Humanbewertung erzielt.
LLM-gestützte Softwareentwicklungs-Agenten haben sich zu einer zentralen Testumgebung für reale Sprachmodellfähigkeiten entwickelt, dennoch bleibt ihr Training durch die Verfügbarkeit hochwertiger SWE-Aufgaben eingeschränkt. Bestehende Methoden zur synthetischen Datenerzeugung erstellen Aufgaben typischerweise durch festgelegte Mutations- oder Fehlereinspritzungsverfahren, wodurch die resultierenden Verteilungen weitgehend unabhängig von den eigenen Schwächen des Agenten und seinem Trainingsfortschritt sind. Wir stellen Socratic-SWE vor, ein geschlossenes Selbstentwicklungs-Framework, das die historischen Lösungsspuren des Agenten als Quelle für Trainingssignale wiederverwendet. Anstatt Spuren lediglich als Belege für die Belohnungsberechnung zu behandeln, destilliert Socratic-SWE sie in strukturierte Agentenfähigkeiten, die wiederkehrende Fehler und effektive Reparaturmuster zusammenfassen. Diese Fähigkeiten leiten dann die Erzeugung gezielter Reparaturaufgaben in echten Repositorys an. Kandidatenaufgaben werden durch ausführungsbasierte Validierung geprüft und mit einer Solver-Gradienten-Ausrichtungs-Belohnung bewertet, sodass die beibehaltenen Aufgaben sowohl überprüfbar als auch zur Verbesserung des Solvers nützlich sind. Der aktualisierte Solver erzeugt neue Spuren, sodass sich das Aufgabencurriculum über aufeinanderfolgende Runden anpassen kann. Bei SWE-bench Verified, SWE-bench Lite, SWE-bench Pro und Terminal-Bench 2.0 verbessert Socratic-SWE konsequent die selbstentwickelnden Basislinien bei gleichem Rechenbudget und erreicht nach drei Iterationen 50,40 % auf SWE-bench Verified. Diese Ergebnisse legen nahe, dass Lösungsspuren als skalierbares Substrat für selbstentwickelnde SWE-Agenten dienen können.
Es wird zunehmend erwartet, dass LLM-Agenten über heterogene Aufgabenbereiche hinweg operieren, die unterschiedliche Ausführungsparadigmen erfordern. Dies stellt feste Agentensysteme vor Herausforderungen und motiviert eine systemweite Meta-Anpassung über isolierte Komponentenaktualisierungen hinaus. Während bestehende Arbeiten externe Kopplungen (Harness) angepasst oder zugrundeliegende Reasoning-Policys trainiert haben, bleibt die systemweite Anpassung unzureichend charakterisiert. Der Anpassungsraum zwischen Struktur und Ausführung wird selten explizit gemacht, und die Kompatibilität zwischen der externen Kopplung und dem internen Reasoner wird nicht gemeinsam optimiert. Wir schlagen HarnessForge vor, ein meta-adaptives Framework zur Evolution von LLM-Agentensystemen. HarnessForge formuliert ein Agentensystem als Kopplungs-Policy-Paar und definiert einen stabilen Anpassungsraum, der die Ausführungsstruktur auf Kopplungsebene vom Reasoning-Verhalten auf Policy-Ebene trennt. Anschließend führt es eine Kopplungs-Policy-Koevolution durch fehlergesteuerte Kopplungsanpassung und kopplungsbedingte Policy-Angleichung durch. Experimente über fünf Benchmarks aus verschiedenen Bereichen zeigen, dass HarnessForge sowohl die Qwen3-4B- als auch die Qwen3-8B-Backbones konsistent verbessert, die reinen Kopplungs- und Policy-Baselines mit Verbesserungen von bis zu 12,0 % gegenüber der stärksten Baseline übertrifft und günstige Abwägungen zwischen Rollout und Effizienz erzielt. Dies zeigt, dass die Kopplungs-Policy-Koevolution effektiv ist und dass die ausführbare Kompatibilität zwischen Kopplung und Reasoning-Policy für die Anpassung des Agentensystems wesentlich ist. Der Code ist verfügbar unter https://github.com/mingju-c/HarnessForge.
Trotz der rasanten Fortschritte bei visuellen Sprachmodellen (VLMs) fehlen dem Bereich Benchmarks, die ihre tatsächlichen Denkfähigkeiten streng diagnostizieren und sinnvolle Fortschritte in Richtung einer menschenähnlichen multimodalen Intelligenz aufzeigen. Die meisten vorhandenen Bewertungen konzentrieren sich auf fragmentierte oder zusammenhanglose Aufgaben, verdecken kritische kognitive Schwächen und bieten wenig Einblick für gezielte Verbesserungen. Um diese Lücke zu schließen, stellen wir BloomBench vor, Teil der Almieyar-Benchmark-Reihe, den ersten kognitiv menschlich fundierten, zweisprachigen (Englisch-Arabisch) multimodalen Benchmark für VLMs. Basierend auf Blooms Taxonomie bewertet BloomBench systematisch sechs Kognitionsebenen (Erinnern, Verstehen, Anwenden, Analysieren, Bewerten, Erschaffen) durch sorgfältig entworfene Bild-Frage-Antwort-Aufgaben. Aufgebaut mit einer halbautomatischen Pipeline und validiert durch ein geschichtetes hybrides Qualitätssicherungsprotokoll, gewährleistet es Skalierbarkeit, kulturelle Inklusivität und sprachliche Genauigkeit. Unter Nutzung dieses Rahmens führen wir eine umfassende Studie aktueller VLMs durch, um deren kognitive Profile zu diagnostizieren. Unsere Analyse zeigt eine scharfe kognitive Asymmetrie: Während hochmoderne Modelle starke Leistungsobergrenzen im semantischen Verständnis erreichen, haben sie erhebliche Schwierigkeiten mit dem Faktenabruf und der kreativen Synthese. Dies zeigt, dass die derzeitige allgemeine multimodale Leistungsfähigkeit tiefere Einschränkungen in spezifischen kognitiven Schichten verbirgt. Darüber hinaus hebt unsere Studie eine kritische Leistungslücke zwischen Arabisch und Englisch hervor, die Einschränkungen im aktuellen sprachübergreifenden multimodalen Denken offenlegt. Diese Erkenntnisse schaffen eine Grundlage für die Entwicklung kognitiv besser ausgerichteter und inklusiverer VLMs. Der Benchmark-Rahmen und der Datensatz sind verfügbar unter: https://github.com/qcri/Almieyar-Oryx-BloomBench.
Vision-Sprach-Modelle (VLMs) werden zunehmend in verkörperten Umgebungen eingesetzt, in denen sie numerische Ausgaben wie Aktionsstärken und räumliche Koordinaten erzeugen müssen. Obwohl diese Zahlen bedeutungsvoll erscheinen, bleibt unklar, ob diese numerischen Ausgaben tatsächlich in der räumlichen Wahrnehmung verankert sind. Daher betrachten wir in dieser Arbeit das räumliche numerische Verständnis mittels SpaceNum neu – einem einheitlichen Rahmenwerk, das zwei komplementäre Szenarien abdeckt: Zahlen als dynamische Übergänge während der räumlichen Exploration und Zahlen als statische Anordnungen beim räumlichen Schließen. Wir formulieren zwei bidirektionale Aufgaben, Num2Space und Space2Num, um zu bewerten, wie gut VLMs zwischen visuell-räumlicher Struktur und sprachseitigen numerischen Repräsentationen abbilden können. Wir untersuchen systematisch, ob aktuelle VLMs numerische Werte in räumlichen Kontexten wirklich verstehen. Sowohl bei dynamischen Übergängen als auch bei statischen Anordnungen zeigen die Modelle, dass sie Zahlen weitgehend nicht räumlich verankern können und oft nahe an Zufallsniveau arbeiten. Durch Fehleranalyse, Analyse der Argumentationspfade und kontrollierte Interventionen zeigen wir, dass aktuelle VLMs stark auf oberflächliche räumliche Hinweise angewiesen sind, Schwierigkeiten haben, stabile koordinatenbewusste Repräsentationen aufzubauen, und es versäumen, strukturierte räumliche Anordnungen aus visuellen Beobachtungen zu abstrahieren. Wir zeigen ferner, dass explizites Schließen nur marginale Verbesserungen bringt, während Feintuning das räumlich-numerische Verständnis teilweise verbessern und auf externe Benchmarks zum räumlichen Schließen übertragen kann.
Trotz Fortschritten im 3D-Szenenverständnis arbeiten bestehende große multimodale 3D-Modelle in Offline-Umgebungen, die vollständige Szenenbeobachtungen oder vordefinierte Videoclips erfordern. In diesem Artikel stellen wir ein Online-3D-Sprachmodell vor, das ein räumliches Verständnis in Echtzeit aus Streaming-Videos ermöglicht. Unser Ansatz verwendet eine autoregressive Streaming-Steuerungsmodellierung auf Basis des Next-Token-Prediction-Ziels des LLM, um zu lernen, wann eine Antwort erfolgen soll, und setzt ein leichtgewichtiges Visual-Spatial Feature Integration (VSFI)-Modul ein, um zeitlich ausgerichtete Geometrie-Priors inkrementell in den visuellen Stream einzuspeisen. Um den Decodierungsaufwand bei langen Kontexten zu verringern, schlagen wir ein Plug-and-Play-Modul zur geometrieadaptiven Voxelkompression (GAVC) für eine effiziente Kompression visueller Tokens vor. Um die Knappheit an Streaming-3D-Sprachdaten zu adressieren, entwickeln wir zudem eine skalierbare Datengenerierungspipeline, die über 1 Million Online-räumlich-zeitliche 3D-QA-Paare kuratiert und einen umfassenden Benchmark mit 29 Aufgaben etabliert. Umfangreiche Experimente zeigen, dass unser Ansatz sowohl proprietäre als auch Open-Source-Modelle bei Online- und Offline-3D-Raumverständnis, -schlussfolgerung und -grundierungsaufgaben signifikant übertrifft. Die Projektseite ist verfügbar unter https://stream3d-vlm.github.io/.
Die 3D-Bildverarbeitung hat sich rasant weiterentwickelt, angetrieben durch zunehmend vielfältige Datenrepräsentationen, Lernparadigmen und Modellierungsstrategien. Dennoch bleibt das Feld über Repräsentationen und Benchmarks hinweg fragmentiert, was es erschwert, einheitliche Perspektiven auf Effizienz, Genauigkeit und Skalierbarkeit zu entwickeln. Diese Arbeit bietet eine datenzentrierte Taxonomie der 3D-Bildverarbeitung, die geometrische Repräsentationen, Datensätze, Lernrahmenwerke und Anwendungen in einer einzigen konzeptionellen Karte verbindet. Wir beginnen mit der Analyse der wichtigsten strukturellen Repräsentationen von 3D-Daten – Punktwolken, Netze, Voxel und 3D-Gauß-Funktionen – sowie ihrer Erfassungspipelines. Anschließend untersuchen wir, wie Datensatzdesign, Benchmark-Konstruktion und Aufsichtsregime die jüngsten Fortschritte prägen, darunter 2D-überwachtes 3D-Lernen, implizite neuronale Repräsentationen und 4D-Weltmodellierung. Durch diese integrative Betrachtungsweise klären wir die Beziehungen zwischen Repräsentationen, Lernparadigmen und nachgelagerten Aufgaben bei der Rekonstruktion, Generierung und Videomodellierung und bieten eine konsolidierte Sicht auf aufkommende Trends zur Balance zwischen Effizienz und Genauigkeit sowie zur multimodalen geometrischen Verankerung.
Die Retrieval-Funktion für Suchagenten wird immer noch von der nicht-agentischen Informationssuche übernommen: Ein Retriever bewertet das Korpus und der Agent liest eine kleine Menge zurückgegebener Dokumente. Aktuelle Arbeiten zur direkten Korpusinteraktion (DCI) zeigen, dass Agenten stattdessen mit dem rohen Korpus über Shell-Werkzeuge wie grep und Dateilesen interagieren können. Aber unbegrenzte Interaktion skaliert nicht: Jeder umfassende Shell-Befehl ist ein Scan über das gesamte Korpus, und die Latenz verschlechtert sich stark, je größer das Korpus wird. Wir argumentieren, dass die Rolle des Retrieval für die agentische Suche nicht nur darin besteht, Dokumente auszuwählen, die in das LLM-Kontextfenster passen, sondern einen Interaktionsraum zu konstruieren: eine begrenzte Teilmenge des Korpus, die der Agent mit zugehörigen Werkzeugen erkunden kann. Zwei Designkonsequenzen ergeben sich. Der Raum benötigt eine durch Retrieval bereitgestellte Grenze, und die Objekte darin sollten für die Interaktion aufbereitet werden. Als Proof of Concept schlagen wir RISE (Retrieving Interaction SpacE) vor: Wir verwenden BM25, um den Interaktionsraum zu konstruieren; gleichzeitig werden seine Dokumente während der Indexierung für die Shell-artige Navigation verarbeitet. Auf BrowseComp-Plus erreicht RISE die gleiche Genauigkeit von 78% wie die reine Shell-DCI-Baseline mit gpt-5.4-mini bei etwa einem Viertel der Kosten pro Abfrage. Bei 1 Million Dokumenten erreicht RISE-BM25 mit gpt-5.4-mini 81%, während DCI mit gpt-5.4-nano auf 60% abfällt, mit 33 von 100 Wanduhr-Fehlschlägen.
Die konfidenzbasierte Gewichtung des Verlusts wird in generativen Modellen in der Regel vermieden, da sie Fehler beschleunigt, wenn das Modell zu Unrecht überzeugt ist – diese Intuition bricht jedoch im überwachten Diffusionstraining zusammen. Wir führen die Eisbach-Log-Barriere ein, eine parameterfreie Gewichtung, die aus der Entropie der räumlichen Energieverteilung der DiT-Ausgabe abgeleitet wird: Hohe Entropie dämpft den Gradienten, niedrige Entropie bewahrt ihn. Angewandt auf das LoRA-Feintuning von Stable Audio 3 Medium auf MusicCaps führt dies unerwartet zu einer stärkeren thematischen Entwicklung, deutlicheren akustischen Unterscheidungen und einer höheren Texturvielfalt im Vergleich zum ungewichteten Training – das Gegenteil eines Modenkollapses. Dies funktioniert, weil im überwachten Diffusionstraining die Gradientenrichtung an die Grundwahrheit gebunden ist, sodass die Konfidenz nur die Schrittweite skaliert, und weil die zeitliche Entropie flache Proben heruntergewichtet, während kontrastreiche erhalten bleiben. Das Ergebnis ist ein online, selbstreferenzieller Datenlehrplan, der sich ausschließlich aus dem Vorwärtspass ergibt, mit analysierter Rauschpegel-Dynamik und testbaren Vorhersagen.
Sprachmodelle können überprüfbare Belohnungen nutzen, um sich bei einer Vielzahl von Argumentationsaufgaben zu verbessern. Allerdings erfordern sowohl parametrische (z. B. RLVR) als auch nicht-parametrische Ansätze (z. B. Promptoptimierung) hierfür typischerweise hunderte Trainingsbeispiele und tausende Modell-Rollouts, was sie bestenfalls teuer und schlimmstenfalls undurchführbar macht. Um dieser Herausforderung zu begegnen, stellen wir Contrastive Reflection (CORE) vor, einen nicht-parametrischen Lernalgorithmus, der vergangene Argumentationsspuren vergleicht, um Erkenntnisse zu generieren: kurze, natürlichsprachliche Beschreibungen von Argumentationsstrategien und Randbedingungen, die Unterschiede zwischen erfolgreichen und erfolglosen Problemlösungsversuchen erfassen. Anhand von vier Argumentationsaufgaben zeigen wir, dass CORE eine schnellere Verbesserung ermöglicht als sowohl parametrische (GRPO) als auch nicht-parametrische Methoden (GEPA, episodisches RAG und MemRL), während gleichzeitig weniger Rollouts benötigt werden. Unter festgelegten Rollout-Budgets mit nur fünf Trainingsbeispielen zeigen wir zudem, dass CORE ähnliche oder größere Leistungssteigerungen als jede Baseline erzielt. Schließlich heben wir hervor, dass CORE auch deutlich kontexteffizienter ist als nicht-parametrische Baselines, da weniger Prompt-Token benötigt werden, während das gelernte Wissen als kompakte, interpretierbare natürlichsprachliche Erkenntnisse gespeichert wird. Unsere Ergebnisse deuten daher darauf hin, dass die Destillation von Kontrasten zwischen erfolgreichen und erfolglosen Argumentationsspuren in abstrakte und nützliche Erkenntnisse einen effizienteren und interpretierbareren Weg zur Selbstverbesserung des Modells bieten kann als Gewichtsaktualisierungen, Promptoptimierung oder die direkte Wiederverwendung gespeicherter Argumentationsspuren.
Die Anpassung eines LLM-Richters an eine spezifische Aufgabe oder Domäne erfordert häufig die gleichzeitige Optimierung seines Prompts über mehrere Bewertungskriterien hinweg. Textuelle Gradientenmethoden automatisieren dies für ein einzelnes Richterkriterium, erzeugen jedoch Kritiken in natürlicher Sprache und keine numerischen Vektoren. Daher lässt sich das Konfliktlösungswerkzeugkasten des Multitask-Lernens (PCGrad, MGDA) nicht auf das multikriterielle textuelle Gradientenumfeld anwenden. Wir testen fünf Zerlegungsmodi von textuellen Gradientenoptimierern, indem wir variieren, wie viele aufgabenübergreifende Informationen die Verlust-, Gradienten- und Optimierer-LLMs gemeinsam nutzen. In 6 von 10 Konfigurationen beobachten wir, dass die Optimierung niemals eine Verbesserung gegenüber dem ursprünglichen Prompt erzielt. Die Gradientenspezifität sinkt um 59% (von 9,0 auf 3,7), wenn das Gradienten-LLM mehrere Kriterien gemeinsam verarbeitet. Unabhängig davon stellen wir fest, dass eine naive Kombination aufgabenspezifischer Anweisungen in einem einzigen Prompt Spearmans Rho um -5,3% verschlechtert. Diese Ergebnisse identifizieren zwei trennbare Fehlermodi: Optimierungszeit-Gradientenverdünnung und Inferenzzeit-Anweisungsinterferenz, die gemeinsam den Gestaltungsraum für multikriterielle Richteranpassungen mittels textuellen Feedbacks einschränken.
Reasoning-Modelle haben sich rasant weiterentwickelt, doch das dominierende Rezept des Verstärkungslernens aus überprüfbaren Belohnungen (RLVR) bleibt überraschend eng gefasst: viele Antworten stichprobenartig ziehen und jede mit einem einzigen Bit belohnen, das angibt, ob die endgültige Antwort korrekt ist. Dabei bieten viele Umgebungen reichhaltiges Feedback, darunter Ausführungsabläufe, Werkzeugausgaben, Expertenkorrekturen und Modellsellbsteinschätzungen. Wir untersuchen, wie solches Feedback durch eine distributionelle Variante des klassischen Imitationslernalgorithmus DAgger genutzt werden kann, bei dem der Lernende lokalen Zugriff auf eine Expertenverteilung über die von der aktuellen Strategie besuchten Zustände hat. Dies ergibt eine einfache Vorwärts-Kreuzentropie-Zielfunktion, die einen Blackbox-Experten zulässt und deren sequenzieller Gradient durch Rückpropagation zukünftiger Experte-Schüler-Diskrepanzen zu früheren Entscheidungen eine reichhaltige Credit Assignment durchführt. Wir zeigen, dass früheres RL mit Selbst-Destillationszielen basierend auf reverse KL oder Jensen-Shannon keine monotone Strategieverbesserung garantiert: Selbst wenn der Experte eine höhere Belohnung erhält, können seine Aktualisierungen die Wahrscheinlichkeit für schlechtere Aktionen erhöhen. Im Gegensatz dazu belegen wir, dass die Vorwärts-Kreuzentropie eine monotone Strategieverbesserung ermöglicht und Garantien bezüglich des Regrets bietet. Darüber hinaus zeigen wir, dass unsere Zielfunktion eine untere Schranke der lehrergewichteten Erfolgswahrscheinlichkeit optimiert, was zu verbessertem Pass@N führt. Empirisch übertrifft unser Ansatz, DistIL, RLVR und RL mit Selbst-Destillations-Baselines in einer Vielzahl von Bereichen: wissenschaftliches Schlussfolgern, Programmieren und Lösen schwieriger mathematischer Probleme.
Reasoning-Modelle erzeugen lange Chain-of-Thought-Spuren, deren Destillation kostspielig ist und die zu ausführlichen Schülerausgaben führen. Wir untersuchen die Post-hoc-Kompression solcher Spuren vor der Wissensdestillation. Zwei Lehrer, Qwen3.5-397B-A17B und gpt-oss-120B, generieren jeweils etwa 283.000 korrekte Spuren; zwei anweisungsoptimierte Modelle komprimieren diese dann auf 8,6–21,0 % ihrer ursprünglichen Zeichenlänge. Über ein Hauptgitter mit 48 Läufen plus sieben Qwen-Lehrer-Trunkierungs-Ablationen reduzieren komprimierte Spuren die Trainings-Token auf 12–30 % der rohen, beschleunigen das Training um das 2,0- bis 7,6-fache und verkürzen die Inferenzausgaben um das 3- bis 19-fache, wobei die Reduktionen beim kürzeren gpt-oss-Lehrer geringer ausfallen. Allerdings behalten rohe Spuren auf jeder Skala und für beide Lehrer die höchste nachgelagerte Genauigkeit. Eine längenangepasste Trunkierungs-Ablation roher Spuren zeigt, dass die Kompression nicht lediglich von einem geringeren Token-Budget profitiert: Modell-komprimierte Spuren übertreffen oder erreichen meist die naive Trunkierung, insbesondere bei kleineren Schülern, während sie kürzere Inferenzausgaben beibehalten. Insgesamt bietet die Kompression von Reasoning-Spuren eine Abwägung zwischen Genauigkeit und Effizienz und keine kostenlose Verbesserung: Schüler behalten bis zu 96 % der Genauigkeit roher Spuren, während sie eine bis zu 18-fach höhere Token-Effizienz erzielen; auf der 0,8B-Skala unter LoRA verringern komprimierte Spuren die Kluft zwischen rohen und komprimierten Spuren, übertreffen die rohen jedoch nicht.
Agentische Sprachmodellsysteme wechseln zwischen zwei strukturell unterschiedlichen Schritttypen: strukturierte Werkzeugaufrufe (kurz, deterministisch, niedrige Perplexität) und offene Planungs-/Denkschritte (lang, komplex, hohe Perplexität). Trotz dieser Heterogenität wenden aktuelle Inferenzsysteme auf jeden Schritt identische Rechenleistung an. Wir stellen LayerRoute vor, einen leichten Adapter, der lernt, Transformer-Blöcke selektiv pro Eingabe zu überspringen. LayerRoute erweitert jeden der 24 Transformer-Blöcke in Qwen2.5-0.5B-Instruct um: (1) einen pro Schicht arbeitenden Router (~897 Parameter, Linear(896,1)), der über den Straight-Through-Schätzer ein hartes binäres Gatter ausgibt, und (2) LoRA-Adapter (Rang 8, ~1,08 Mio. Parameter) auf den Q/K/V/O-Aufmerksamkeitsprojektionen. Die Grundgerüstgewichte bleiben eingefroren. Ein einziger durchgängiger Trainingsdurchlauf auf agentischen Daten (Hermes, Glaive, GSM8K, Turing) mit einem Regularisierungsterm für das Gatter zwingt das System zu entdecken, welche Blöcke pro Eingabetyp überspringbar sind. Nach 3.000 Schritten (6,4 Minuten auf einer A100 40GB) erreicht LayerRoute eine Sprungdifferenz von 12,91 %: Werkzeugaufrufe überspringen 15,25 % der FLOPs, während Planungsschritte nur 2,34 % überspringen, wobei nur 1,10 Mio. trainierbare Parameter (0,22 % des 494 Mio. Grundgerüsts) verwendet werden. Die Qualität verbessert sich gegenüber dem Basismodell aufgrund der LoRA-Adaption, mit einem Perplexitätsdelta von -1,29 bei Werkzeugaufrufen und -1,30 bei Planung.
Große Sprachmodelle (Large Language Models, LLMs) werden seit Kurzem als synthetische Agenten zur Simulation öffentlicher Meinungen eingesetzt und bieten eine vielversprechende Alternative zu kostspieligen und langsamen Umfragen unter Menschen. Trotz ihrer Skalierbarkeit gelingt es aktuellen LLM-basierten Simulationsmethoden nicht, soziale Diversität abzubilden; sie erzeugen abgeflachte Unterschiede zwischen Gruppen und übermäßig homogene Antworten über demografische Gruppen hinweg. Wir identifizieren diese Einschränkung als ein Phänomen des Diversitätskollapses (Diversity Collapse) in den verborgenen Repräsentationen von LLMs, bei dem unterschiedliche soziale Identitäten über die Schichten hinweg zunehmend ununterscheidbar werden. Ausgehend von dieser Beobachtung schlagen wir die Parametrische Injektion sozialer Identität (Parametric Social Identity Injection, PSII) vor, ein allgemeines Rahmenwerk, das explizite, parametrische Darstellungen demografischer Merkmale und Wertorientierungen direkt in die verborgenen Zwischenzustände von LLMs einbringt. Im Gegensatz zur prompt-basierten Persona-Konditionierung ermöglicht PSII eine feinkörnige und steuerbare Modulation der Identität auf Repräsentationsebene. Umfangreiche Experimente mit der World Values Survey und mehreren Open-Source-LLMs zeigen, dass PSII die Verteilungstreue und Diversität signifikant verbessert, die KL-Divergenz zu realen Umfragedaten reduziert und gleichzeitig die Gesamtdiversität erhöht. Diese Arbeit liefert neue Erkenntnisse zur Steuerung auf Repräsentationsebene von LLM-Agenten und fördert die skalierbare, diversitätsbewusste Simulation öffentlicher Meinungen.
Automatische Spracherkennung (ASR) ist eine Kernkomponente der Mensch-Computer-Interaktion und ein zunehmend wichtiges Frontend für LLM-basierte Assistenten und Agenten. Die meisten aktuellen ASR-Systeme folgen jedoch weiterhin einem Ein-Pass-Paradigma, das schlecht mit der menschlichen Kommunikation übereinstimmt, bei der Missverständnisse durch iterative Klärung und Verfeinerung behoben werden. Diese Diskrepanz erschwert die Korrektur bedeutungskritischer Fehler, sobald sie auftreten. Token-basierte Metriken wie WER oder CER können ein solches Problem nicht angemessen widerspiegeln. Um diese Einschränkungen zu beheben, formulieren wir interaktive ASR als eine mehrschrittige Verfeinerungsaufgabe und schlagen Agentic ASR vor, ein Closed-Loop-Framework, das ein Ein-Pass-ASR-Frontend mit semantischer Korrektur, Absichtslenkung und reasoning-basierter Bearbeitung kombiniert. Darüber hinaus führen wir die Sentence-level Semantic Error Rate (S^2ER) ein, eine LLM-basierte semantische Bewertungsmetrik, zusammen mit einem interaktiven Simulationssystem für skalierbares und reproduzierbares Benchmarking. Experimente mit mehrsprachigen, eigennameintensiven und Code-Switching-Benchmarks zeigen, dass iterative Interaktion semantische Fehler konsistent reduziert, mit wesentlich größeren Verbesserungen bei S^2ER als bei konventionellen token-basierten Metriken. Mensch-KI-Abgleich und Ablationsstudien bestätigen zudem die Zuverlässigkeit des semantischen Richters und die Robustheit des vorgeschlagenen Frameworks. Der Code ist verfügbar unter: https://interactiveasr.github.io/ und die Live-Demo unter: https://i-asr.sjtuxlance.com/
Distillationsangriffe erzeugen für Modellanbieter eine Einsatzabwägung: Dieselben Ausgaben, die ein Modell nützlicher machen, können es auch leichter nachahmbar machen. Wir untersuchen diese Abwägung mittels eines Minimax-Spiels zwischen einem nutzenbeschränkten Lehrer und einem adaptiven Schüler. Unser Rahmenwerk liefert handhabbare einseitige Antwortregeln: eine adaptive Bewertungsregel, bei der der Schüler hochwertige Beispiele neu gewichtet, und eine lehrerseitige Verteidigungsvorlage, die die für die Destillation nützlichsten Ausgaben unterdrückt. Aus einem günstigen Proxy für den Beispielwert leiten wir Product-of-Experts (PoE) ab, eine einfache, nur auf Vorwärtsdurchläufen basierende Verteidigung, die den Lehrer während der Generierung mit einem Proxy-Schüler kombiniert. Empirisch zeigt die adaptive Bewertung eine große passiv-adaptive Lücke: Bei modernsten Verteidigungen gewinnen adaptive Schüler auf GSM8K und MATH wesentlich mehr Fähigkeiten zurück, als die passive Bewertung vermuten lässt. Unter dieser stärkeren Bewertung verringert sich die scheinbare Robustheitslücke zwischen teuren Verteidigungen und PoE erheblich, während PoE deutlich günstiger bleibt und qualitativ hochwertigere Argumentationsspuren erhält. Insgesamt deuten unsere Ergebnisse darauf hin, dass eine starke Destillation weiterhin schwer zu verhindern ist und dass Fortschritte bei der Antidistillation eher anhand adaptiver als passiver Schüler beurteilt werden sollten. Unser Code ist verfügbar unter: https://github.com/ysfalh/distillation-game.
Wir stellen StreamForce vor, ein Framework zur Streaming-Videogenerierung, das eine physikalisch fundierte Steuerung durch kontinuierliche Krafteingaben ermöglicht. Im Gegensatz zu früheren Videomodellen, die separate Modelle für verschiedene Kraftarten trainieren, konstante Kräfte annehmen oder auf nicht-kausaler Verarbeitung beruhen, handelt es sich bei StreamForce um ein kausales und einheitliches Modell, das sowohl auf lokale als auch auf globale, zeitlich veränderliche Kräfte sofort und kohärent reagiert. Zu diesem Zweck entwerfen wir eine einheitliche Kraftdarstellung als Steuersignal und entwickeln eine Destillations-Pipeline für kraftgesteuerte Videogenerierung. Unser Modell vereint autoregressive Effizienz mit Kraftreaktionsfähigkeit und bewahrt stabile photometrische und dynamische Realitätsnähe. StreamForce erreicht bis zu 16,6 FPS auf einer einzelnen GPU und erzielt Spitzenleistungen sowohl hinsichtlich Krafttreue als auch Bewegungsrealismus. Projektwebseite: https://neu-vi.github.io/StreamForce/
Die Auswahl von Hard-Negative-Quellen für das dichte Retrieval wird üblicherweise erst nach dem Fine-Tuning und der nachgelagerten Evaluierung entschieden. Wir schlagen ECI_{sem} vor, eine semantische Residualvariante von Effective Contrastive Information (ECI), die Kandidaten-Negativquellen mithilfe von eingefrorenen Target-Encoder-Embeddings einstuft. ECI_{sem} ist trainingsfrei, aber nicht label-frei: Jedes bewertete Beispiel erfordert eine Query, ein gelabeltes Positiv und ein explizites Kandidaten-Negativ. ECI_{sem} erstellt eine gewichtete Residueninformationsmatrix aus Target-Konsistenz, semantischer Lokalität, lexikalischer Residualität und einem Log-Determinanten-Diversitätsziel. Auf MS MARCO-Negativquellen stuft familieninterne ECI_{sem} LLM-Negative unter den nicht-hybriden Quellen am höchsten ein und Dense+LLM unter den hybriden Quellen am höchsten, was den stärksten aggregierten BEIR-Transferergebnissen über DistilBERT, E5-base und Contriever entspricht. Kontrollierte Ablationen zeigen, dass diese Ausrichtung von der Verwendung der Target-Encoder-Familie abhängt, während zusätzliche Ablationen Stabilität unter Stichprobengröße-, Temperatur-, Tokenizer- und IDF-Korpus-Störungen zeigen. Die Theorie liefert eine lokal linearisierte Verbindung zur Verlustreduktion, während die empirische Studie die nachgelagerte Evaluierung als abschließenden Test behandelt.
Entwickler nutzen zunehmend KI-Werkzeuge wie ChatGPT, Copilot und Claude in alltäglichen Software-Workflows, aber frühere Studien bewerten LLM-Ausgaben oft isoliert, anstatt zu untersuchen, wie Entwickler sie in realen Projekten anpassen. Wir analysieren 35.361 GitHub-Codekommentare, die explizit auf KI-Nutzung verweisen, sowie die zugehörigen Codeblöcke. Zunächst codieren wir 500 eindeutige Kommentare und Codeblöcke offen, um eine Taxonomie KI-gestützter Entwicklungsaktivitäten abzuleiten, dann annotieren wir den gesamten Datensatz mithilfe zweier LLM-basierter Klassifikatoren und aggregieren die Vorhersagen mit der Dawid-Skene-Erwartungsmaximierung. Außerdem analysieren wir 12.996 nachfolgende Commit-Nachrichten, um zu untersuchen, wie sich KI-gestützter Code nach seiner Einführung weiterentwickelt, und untersuchen zeitliche Trends von Dezember 2022 bis März 2026. Unsere Ergebnisse zeigen, dass Entwickler LLMs hauptsächlich zur Code-Implementierung nutzen, gefolgt von Code-Verbesserung, Fehlerbehebung, Dokumentation und Tests. Nachfolgende Commits umfassen häufig Refactoring und Bereinigung, Feature-Integration und -Erweiterung sowie Fehlerkorrekturen, was auf eine anhaltende menschliche Kontrolle bei der Anpassung KI-gestützten Codes hindeutet. Im Laufe der Zeit verlagern sich KI-bezogene Kommentare von direkter Codegenerierung hin zu Wissens- und konzeptioneller Unterstützung sowie Code-Verbesserung. Diese Ergebnisse deuten darauf hin, dass KI-Werkzeuge nicht nur als Codegenerierungshilfen, sondern auch als kollaborative Unterstützungsmechanismen integriert werden, deren Ergebnisse von Entwicklern im Laufe der Zeit verfeinert, erweitert und korrigiert werden.
Die Robustheit tiefer neuronaler Netze ist für sicherheitskritische Anwendungen von entscheidender Bedeutung, doch bestehende Bewertungsmethoden sind oft angriffsabhängig und nicht interpretierbar. Wir schlagen eine prinzipienbasierte, angriffsunabhängige Robustheitsmetrik vor, die auf der Spektralnorm der Fisher-Informationsmatrix (FIM) basiert und die Worst-Case-Empfindlichkeit der Ausgabeverteilung des Modells gegenüber Eingabestörungen quantifiziert. Theoretisch zeigen wir, dass die FIM gleich der Varianz der Eingabe-Jacobi-Matrix ist, und leiten geschlossene Spektralschranken für gängige Architekturen her, darunter VGG, ResNet, DenseNet und Transformer, und liefern damit das erste theoretische Robustheitsranking. Um eine skalierbare Bewertung zu ermöglichen, entwickeln wir effiziente Algorithmen, einschließlich Potenziteration und Hutchinson-basierter Schätzung, die sowohl White-Box- als auch Black-Box-Einstellungen unterstützen. Umfangreiche Experimente mit mehreren Datensätzen, darunter CIFAR, ImageNet und medizinische Bilder, sowie mit mehreren Architekturen zeigen eine starke Korrelation zwischen unserer Metrik und der adversarialen Verwundbarkeit. Unser Framework dient als interpretierbares Diagnosewerkzeug, das angriffsbasierte Bewertungen ergänzt, Einblicke in die architekturelle Empfindlichkeit bietet und die Entwicklung robusterer Modelle leitet. Der Code ist verfügbar unter: https://github.com/franz-chang/SRP/.
Wir untersuchen die Transformation von autoregressiven Modellen (ARLMs) in Diffusions-Sprachmodelle (DLMs). Anstatt von Grund auf neu zu trainieren, ersetzen bisherige Arbeiten die kausale Aufmerksamkeit in ARLMs durch bidirektionale Aufmerksamkeit und trainieren das resultierende Modell anschließend mit einem DLM-Ziel. Diese Ansätze führen jedoch zu zwei Verteilungsverschiebungen. Erstens kann der Übergang von einem Nächster-Token-Vorhersageziel zu einem DLM-Ziel Wissen verwerfen, das das ARLM während des Trainings erworben hat. Zweitens leiden Standard-DLMs unter einer Diskrepanz zwischen Training und Inferenz, da der Trainingsverlust auf zufällig maskierten Sequenzen definiert ist, nicht auf den im Inferenzprozess auftretenden Trajektorien, die durch konfidenzbasiertes Decodieren erzeugt werden. Um beide Herausforderungen zu bewältigen, führen wir ein On-Policy-Diffusions-Sprachmodell (OPDLM) ein, bei dem On-Policy-Distillation (OPD) zur ARLM-zu-DLM-Transformation eingesetzt wird. Konkret wird OPDLM durch Selbst-OPD trainiert, wobei der Schüler, ein ARLM mit bidirektionaler Aufmerksamkeit, seine eigenen Trajektorien generiert, und der Lehrer, das ursprüngliche eingefrorene ARLM, sein Wissen destilliert, indem er Ziel-Logits für diese Trajektorien bereitstellt. Durch das direkte On-Policy-Training beseitigt OPDLM die Diskrepanz zwischen Training und Inferenz in DLMs, während die Destillation aus dem ursprünglichen Modell die Wissensbewahrung aus dem ARLM verbessert. Empirische Ergebnisse zeigen, dass OPDLM 15- bis 7.000-mal weniger Trainings-Tokens benötigt und dabei über eine Vielzahl von Aufgaben hinweg eine starke Leistung erbringt. OPDLM vermeidet die prohibitiv hohen Kosten des DLM-Pretrainings und positioniert die DLM-Transformation als eine Form des ARLM-Post-Trainings.
Diskrete Vision-Language-Action (VLA)-Modelle formulieren die Aktionserzeugung typischerweise als Next-Token-Vorhersage über diskretisierte Aktionsräume, wobei jedes Token autoregressiv auf den vorherigen Kontext konditioniert wird. Obwohl dieser Ansatz effektiv ist, verursacht er eine hohe Inferenzlatenz und vernachlässigt weitgehend die zeitliche Struktur, die Aktionsverläufen innewohnt. Neuere Arbeiten führen paralleles Decodieren ein, um die Effizienz zu steigern und schnellere Inferenz zu ermöglichen, jedoch fehlen explizite Mechanismen zur Modellierung von Token-Abhängigkeiten. Wir stellen TBD-VLA vor, ein diskretes tokenbasiertes VLA-Framework, das Block-Diffusion zur zeitlichen Aktionserzeugung integriert. Wir unterteilen Aktionssequenzen in zeitliche Blöcke und führen innerhalb jedes Blocks eine maskierte diskrete Diffusion durch, während die autoregressive Erzeugung über die Blöcke hinweg beibehalten wird. Dieses Design vereint zeitliche Autoregression und paralleles Aktionsdecodieren und erreicht sowohl starke zeitliche Kohärenz als auch verbesserte Inferenzgeschwindigkeit. Darüber hinaus ermöglicht die explizite zeitliche Modellierung die asynchrone Ausführung von Aktionsblöcken (z. B. Echtzeit-Chunking) durch zeitliches Inpainting. TBD-VLA übertrifft frühere VLA-Ansätze sowohl in Simulationen als auch in realen Manipulationsaufgaben deutlich und bietet einen skalierbaren Weg hin zu schnellen, zeitlich bewussten, diskreten VLA-Modellen. Projektwebseite: https://tbd-vla.github.io/
In realen Anwendungen wird erwartet, dass Modelle zuverlässig in unterschiedlichen Umgebungen funktionieren. Viele bestehende multimodale Benchmarks erweitern jedoch die Aufgabentypen, ohne die visuelle Vielfalt zu erfassen, die für den Umgang mit offenen visuellen Eingaben erforderlich ist. Wir stellen WorldBench vor, einen anspruchsvollen und visuell vielfältigen Reasoning-Benchmark zur Bewertung Multimodaler Großer Sprachmodelle (MLLMs). Wir erstellen eine Taxonomie mit Tausenden von visuellen Konzepten aus mehreren Domänen (z. B. Lebewesen). Geleitet von dieser Taxonomie kuratieren wir eine breite Sammlung von Bildern aus Suchmaschinen und bestehenden Datensätzen, um die visuelle Welt umfassend abzubilden. Durch strukturiertes Versuch-und-Irrtum-Verfahren entwerfen wir manuell anspruchsvolle Fragen, die führende MLLMs nicht beantworten können. In quantitativen und menschlichen Bewertungen erreicht WorldBench eine höhere visuelle Vielfalt als jeder bestehende diverse Benchmark. Die Evaluierung von 15 MLLMs auf WorldBench zeigt Schwächen im visuellen Verständnis: Selbst das stärkste Modell erreicht nur 64,0% Genauigkeit, während einige Modelle kaum über Zufallsniveau liegen. Wir hoffen, dass unsere Arbeit die Bedeutung visueller Vielfalt beim Aufbau multimodaler Benchmarks unterstreicht.
Agentische Suchsysteme interagieren iterativ mit Retrievalmodellen, um komplexe Fragen zu beantworten. Trotz erheblicher Fortschritte bleibt die Optimierung von Retrievalmodellen für agentische Suche herausfordernd und erfordert oft aufwändiges Co-Training oder Goldstandard-Annotationen, was die praktische Anwendbarkeit einschränkt. Wir schlagen Critic-R vor, ein Framework, das die Rückkopplungsschleife zwischen dem Reasoning-Agenten und dem Retrievalmodell sowohl während der Inferenz als auch beim Training explizit schließt. Critic-R führt ein Kritikmodell ein, das die introspektive Denkspur des Agenten nach der Aufnahme von abgerufenen Belegen bewertet, um festzustellen, ob der abgerufene Kontext den nächsten Denkschritt ausreichend unterstützt. Critic-R verfügt über zwei komplementäre Mechanismen: Critic-R-Zero, eine Abfrageverfeinerungsschleife zur Inferenzzeit, die Abfragen und Retrievalanweisungen iterativ umschreibt, und Critic-Embed, ein Optimierungsansatz für Retrievalmodelle, der erfolgreiche und fehlgeschlagene Verfeinerungstrajektorien als automatische Überwachung nutzt, ohne manuelle Relevanzannotationen zu benötigen. Wir evaluieren Critic-R auf HotpotQA, 2WikiMultihopQA, MuSiQue und Bamboogle. Die Ergebnisse zeigen, dass Critic-R sowohl die Retrievalqualität als auch die downstream-Antwortgenauigkeit signifikant verbessert.
Effiziente Inferenz ist entscheidend für Sprachmodelle mit langen Kontexten, bei denen die Aufmerksamkeitsberechnung und der KV-Cache-Zugriff die Kosten dominieren. Die aktuelle Arbeit RAT+ führt ein rekurrenzverstärktes Aufmerksamkeits-Backbone ein, das zur Inferenzzeit flexible dilatierte Aufmerksamkeit ermöglicht. In diesem Beitrag untersuchen wir, ob dieser exponentiell abklingende Speicher auch bestehende abfragebewusste sparse Inferenzmethoden verbessern kann. Anhand repräsentativer Verfahren wie Quest, MoBA und SnapKV zeigen wir, dass RAT+ die Genauigkeit im Vergleich zur Standardaufmerksamkeit bei unterschiedlichen Sparsity-Budgets in acht Needle-in-a-Haystack-Aufgaben konsistent verbessert. Wir validieren diese Verbesserungen sowohl an den veröffentlichten Checkpoints aus der RAT+-Arbeit als auch an OLMo2-7B, für das wir das Vortraining mit dem zusätzlichen Speichermodul für 10 Milliarden Tokens fortsetzen. Abschließend schlagen wir zwei Hypothesen vor, die erklären, warum dieses Speichermodul abfragebewusste sparse Inferenz begünstigt, und entwickeln gezielte Experimente, um diese zu untermauern.
Harmony ist eine kompakte symbolische Schicht, in der mathematische Tonhöhenbeziehungen, akustische Konsonanz und musikalische Konventionen zusammentreffen. Dieser Bericht behandelt Akkord-Symbol-Sequenzen nicht als vollständige Repräsentation von Musik, sondern als interpretierbare, steuerbare Zeitreihe für genre-lokale harmonische Modellierung. Ausgehend von einem eingefrorenen Pop-Jazz Music Transformer Checkpoint evaluiere ich, wie weit kleine Anpassungsschnittstellen das Modell auf elf Zielgenres erweitern können: Blues, Bossa Nova, Bach-Choräle, Country, Elektronik, Folk, Funk, Gospel, Hip-Hop, R&B/Soul und Rock. Die Hauptbewertung vergleicht LoRA, IA3, BitFit, Prefix-Tuning und vollständiges Fine-Tuning über 11 Genres und 3 Seeds, ein vollständiges 165-Zellen-Raster. Alle fünf Methoden verbessern sich gegenüber der eingefrorenen Basis bei der Vorhersage zurückgehaltener Akkorde, mit makroskopischen Zuwächsen von +2,89 bis +3,61 Punkten; LoRA und IA3 erzielen die höchsten Werte, aber Wilcoxon-Tests mit Holm- und Benjamini-Hochberg-Korrektur belegen keinen eindeutigen Gewinner. Eine Kontrolle mit angepasster Datenmenge schärft dieses Bild: Wenn Genres auf eine gemeinsame Korpusgröße heruntergestuft werden, bleibt IA3 an der Spitze, aber der Vorteil von LoRA bei vollständigen Daten verschwindet und es fällt auf den letzten Platz, was darauf hindeutet, dass die kleinen Unterschiede teilweise datengetrieben sind. Eine Kontroll-Token-Baseline ist ebenfalls stark, und Adapter für falsche Genres übertreffen oft die eingefrorene Basis, was darauf hindeutet, dass ein Großteil des Effekts auf leichtgewichtige Konditionierung über einer wiederverwendbaren harmonischen Basis beruht und nicht auf einer bestimmten Adapterfamilie. Zusätzliche Diagnostiken (Rangdurchläufe, Rotation falscher Genres, eine Basis-Checkpoint-Ablation, Genrekklassifikation nur mit Akkorden, erzeugte Ausgabestatistiken, Bewertung mit echten Liedern und Duplikatanalyse) stützen eine eingeschränkte Schlussfolgerung: Akkord-Symbol-Adaption verbessert zuverlässig die genre-lokale harmonische Vorhersage, aber Akkordsymbole allein tragen keine vollständige Genre-Identität. Der Bericht vermeidet daher Aussagen über wahrgenommene Genre-Authentizität oder vollständige musikalische Qualität, die kontrollierte Hörer- oder Musikerbewertungen erfordern.