Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Während 10B-große industrielle Foundation-Modelle die Grenzen der Bildinpaintierung verschoben haben, behindern ihre prohibitiv hohen Rechenkosten den praktischen Einsatz erheblich. Die Konstruktion eines hochoptimierten, aufgabenspezifischen Spezialisten bietet eine vielversprechende Lösung; allerdings löst eine extreme strukturelle Kompression unweigerlich einen schwerwiegenden Repräsentationsengpass aus. Um dies zu überwinden, schlagen wir Moebius vor, ein hochgradig effizientes, leichtgewichtiges Inpaintierungs-Framework. Wir rekonstruieren systematisch das Diffusions-Backbone durch die Einführung des Local-λ Mix Interaction (LλMI)-Blocks. Dieser besteht aus Local-λ- und Interactive-λ-Modulen, die räumliche Kontexte und globale semantische Prioritäten elegant in lineare Matrizen fester Größe zusammenfassen, komplexe latente Interaktionen bewahren und gleichzeitig die Parameter drastisch reduzieren. Um das volle Repräsentationsvermögen dieser hochkompakten Architektur auszuschöpfen, kombinieren wir sie synergetisch mit einer adaptiven Multi-Granularitäts-Destillationsstrategie. Diese Strategie arbeitet streng innerhalb des latenten Raums, um teure Pixelraum-Dekodierungen zu vermeiden, und balanciert dynamisch mehrere gradientenbasierte Verlustfunktionen, um eine hochgenaue Angleichung zu erreichen. Umfangreiche Experimente mit natürlichen und Porträt-Benchmarks zeigen, dass diese optimale Synergie es Moebius ermöglicht, die Generierungsqualität des 10B-großen industriellen Generalisten FLUX.1-Fill-Dev zu erreichen oder sogar zu übertreffen. Bemerkenswerterweise erreicht Moebius dies mit weniger als 2 % der Parameter (0,22B vs. 11,9B) bei einer mehr als 15-fachen Beschleunigung der gesamten Inferenzzeit und setzt damit einen neuen Effizienzstandard für hochgetreue Inpaintierung. Projektseite unter https://hustvl.github.io/Moebius.
Die geschickte Interaktion mit artikulierten Objekten ist wichtig für die Haushalts-, Assistenz- und Humanoide-Manipulation, wobei Mehrfingerhände konforme Kontaktmuster über das Parallelbackengreifen hinaus ermöglichen können. Die Manipulation artikulierter Objekte unterscheidet sich jedoch von der Manipulation statischer Objekte: Das Zielteil kann nicht direkt betätigt werden, und seine Bewegung muss durch anhaltenden physischen Hand-Griff-Kontakt entstehen. Dies macht den Übergang von der objektzentrierten artikulierten Generierung zur handgesteuerten geschickten Hand-Objekt-Interaktion nicht trivial, da die geometrische Trajektorienwiedergabe oder die offene Ausführung nicht die Kontaktdynamik modelliert, die zur Bewegung des artikulierten Teils erforderlich ist. Darüber hinaus können Policies, die nur für die Aufgabenabschluss unter festen Dynamiken trainiert wurden, zu einer Überanpassung an nominelle Kontaktbelastungen führen, insbesondere ohne taktile oder Kraftrückmeldung, und sich verschlechtern, wenn sich die Kontaktbelastung ändert. Um diese Herausforderungen zu bewältigen, präsentieren wir DragMesh-2, ein kontaktgesteuertes Framework für die geschickte Interaktion mit artikulierten Objekten, das die artikulierte Interaktion von der objektzentrierten Generierung auf die handgesteuerte geschickte Hand-Objekt-Interaktion erweitert, wobei die artikulierte Bewegung durch physischen Kontakt entstehen muss. Wir schlagen weiterhin PICA vor, einen physikalisch informierten kontaktbewussten Trainingsmechanismus, der physikalische Signale in das Policy-Lernen einbringt, ohne auf taktile oder Kraftrückmeldung angewiesen zu sein, und die Robustheit und den Aufgabenerfolg unter sich ändernden Kontaktbelastungen verbessert. Schließlich führen wir eine systematische Evaluierung über mehrere Dämpfungsbedingungen und Kategorien artikulierter Objekte hinweg durch, um die Robustheit unter Kontaktlastvariation zu untersuchen, und stellen eine rein geometrische Ressource für die geschickte Interaktion bereit, die zukünftige Forschung zur Lokomotions-Manipulation und humanoide Hand-Objekt-Interaktion unterstützt. Über sieben GAPartNet-Objekte hinweg erreicht DragMesh-2 eine stärkere Robustheit unter Kontaktlastvariation als die verglichenen Methoden, während eine hohe Aufgabenabschlussrate über die Dämpfungsbedingungen hinweg beibehalten wird.
LiveCodeBench (LCB) hat sich in jüngster Zeit zu einem weit verbreiteten Benchmark zur Bewertung großer Sprachmodelle (LLMs) bei Code-Generierungsaufgaben entwickelt. Durch die Zusammenstellung von Wettbewerbsprogrammieraufgaben, die kontinuierliche Ergänzung neuer Aufgaben in den Datensatz und deren Filterung nach Veröffentlichungsdaten bietet LCB eine kontaminationsbewusste Bewertung und einen ganzheitlichen Überblick über die Programmierfähigkeiten. LCB bleibt jedoch auf Python beschränkt, sodass die Frage offen bleibt, ob LLMs in der Lage sind, sich über die vielfältigen Programmiersprachen zu verallgemeinern, die in der realen Softwareentwicklung erforderlich sind. Wir führen Multi-LCB ein, einen Benchmark zur Bewertung von LLMs über zwölf Programmiersprachen hinweg, einschließlich Python. Multi-LCB überführt Python-Aufgaben aus dem LCB-Datensatz in äquivalente Aufgaben in anderen Sprachen, während die Kontaminationskontrollen und das Bewertungsprotokoll von LCB erhalten bleiben. Da Multi-LCB vollständig mit dem ursprünglichen LCB-Format kompatibel ist, wird es automatisch zukünftige LCB-Updates verfolgen, was eine systematische Bewertung der sprachübergreifenden Code-Generierungskompetenz ermöglicht und von den Modellen verlangt, die Leistung weit über Python hinaus aufrechtzuerhalten. Wir haben 24 LLMs auf Anweisungs- und Reasoning-Fähigkeiten mit Multi-LCB evaluiert und dabei Hinweise auf Python-Overfitting, sprachspezifische Kontamination sowie erhebliche Unterschiede in der mehrsprachigen Leistung aufgedeckt. Unsere Ergebnisse etablieren Multi-LCB als strengen neuen Benchmark für die Code-Bewertung über mehrere Programmiersprachen hinweg, der direkt die primäre Einschränkung von LCB adressiert und kritische Lücken in den aktuellen LLM-Fähigkeiten offenlegt.
Gegenwärtige agentische Robotersysteme können ausführbare Code-as-Policy-Programme schreiben, Rückmeldungen beobachten und ihr Verhalten über mehrere Versuche hinweg anpassen, bleiben jedoch weitgehend aufgabengetrieben: wiederverwendbare Fähigkeiten werden erst nach expliziten Anweisungen erworben. Wir untersuchen spielerisches agentisches Roboterlernen, bei dem ein verkörperter Codierungsagent selbstgesteuertes Spiel als kontinuierliche Lernphase für Fähigkeiten nutzt, bevor nachgelagerte Aufgaben eintreffen. Wir stellen RATs vor, Robotik-Agententeams, die für den spielerischen Fähigkeitserwerb konzipiert sind. Während des Spiels schlagen RATs neuartige, aber erlernbare Explorationsaufgaben vor, planen und führen Roboter-Code-Strategien aus, überprüfen den Zwischenfortschritt, diagnostizieren Fehler, wiederholen Versuche mit dichtem schrittweisem Feedback und destillieren erfolgreiche Ausführungen in eine persistente Code-Fähigkeitsbibliothek. Zur Testzeit nutzt der Agent relevante Fähigkeiten aus dieser eingefrorenen Bibliothek, um bei der Lösung neuer Aufgaben zu helfen. Experimente in LIBERO-PRO und MolmoSpaces zeigen, dass im Spiel erlernte Fähigkeiten zurückgehaltene nachgelagerte Aufgaben im Vergleich zu Baseline-Ansätzen ohne Spiel und mit Zufallsspiel verbessern, mit Zuwächsen von 20,6 bzw. 17,0 Prozentpunkten gegenüber CaP-Agent0 auf LIBERO-PRO bzw. MolmoSpaces. Darüber hinaus können die erlernten Fähigkeiten in andere Code-as-Policy-Agenten zur Inferenzzeit eingebunden werden, indem sie einfach in deren Kontext abgerufen werden, was RoboSuite und Echtwelt-Transfer um 8,9 bzw. 8,8 Punkte verbessert, ohne das zugrundeliegende Modell feinabzustimmen.
Räumliche Intelligenz in der realen Welt erfordert das Denken über eine kontinuierliche und sich entwickelnde 3D-Welt, doch bestehende VLMs und werkzeugverstärkte Agenten bleiben weitgehend an statische, zustandslose Inferenz aus isolierten visuellen Beobachtungen gebunden. Wir führen S-Agent ein, ein räumliches werkzeugnutzendes Agentenparadigma zum Verständnis und zur Schlussfolgerung über kontinuierliche Multi-View-Bilder und Videos. Indem es räumliches Denken als raum-zeitliche Evidenzakkumulation statt als isolierte Einzelbildvorhersage formuliert, formt S-Agent die räumliche Wahrnehmung in ein szenenzentriertes Verständnis um, das über die einzelbildzentrierte Erkennung hinausgeht. Insbesondere betrachtet S-Agent das VLM als semantischen Planer, der entscheidet, welche Evidenz benötigt wird, während eine Hierarchie räumlicher Werkzeuge und Experten Objekte in 2D verankert, sie in 3D-geometrische Evidenz überführt und diese Evidenz zu hochrangigem räumlichem Wissen (z. B. Zählen, Messung, Orientierung und relative Position) aggregiert. Darüber hinaus ermöglicht ein zeitlicher Gedächtnismechanismus, der Szenengedächtnis zur Beibehaltung des sich entwickelnden Szenenzustands und Agentengedächtnis zur Ansammlung von Reasoning-Kontext umfasst, die Evidenzintegration über Einzelbilder und Reasoning-Schritte hinweg. Umfassende Experimente auf Multi-View- und Video-Räumliches-Denken-Benchmarks zeigen, dass S-Agent sowohl Open-Source- als auch Closed-Source-VLMs auf trainingsfreie Weise konsistent verbessert. Über die Inferenzzeit-Augmentierung hinaus ergibt überwachtes Feintuning (SFT) auf von S-Agent generierten räumlichen Trajektorien S-300K den S-Agent-8B, einen kompakten räumlichen Agenten, der ähnlich skalierte Basislinien (z. B. Qwen3-VL-8B) deutlich übertrifft und vergleichbar mit fortgeschrittenen Closed-Source-Modellen (z. B. GPT-5.4 und Gemini 3) abschneidet.
Agenten-Benchmarks entwickeln sich rasant, doch kein einzelner Benchmark deckt mehr als vier oder fünf der Dimensionen ab, die der praktische Einsatz offenbart. Diese Arbeit fasst die bisher größte koordinierte Tiefenanalyse eines MCP-basierten Industrie-Agenten-Benchmarks zusammen: vierzehn parallele Implementierungsstudien, die neue Anlageklassen (einschließlich einer multimodalen visuellen Erweiterung), alternative Orchestrierungen, Abrufstrategien, Denkmodi, Infrastrukturoptimierungen und methodische Evaluationsexperimente umfassen. Durch die Zusammenführung dieser Studien mit sieben früheren Agenten-Benchmarks argumentieren wir, dass Ranglisten auf Basis aggregierter Punktzahlen die Bewertung von eingesetzten Agenten systematisch unzureichend spezifizieren. Aus aggregierten Punktzahlen abgeleitete Rangfolgen lassen sich nicht auf außerhalb der Verteilung liegende Umgebungen übertragen; aktuelle Retrospektiven zu öffentlich-verdeckten Wettbewerben liefern direkte empirische Belege für diese Ranginstabilität. Wir schlagen vor, Konfigurationen nach ihrer prädiktiven Validität zu ordnen, also der Korrelation zwischen In-Sample- und Out-of-Sample-Rang, anstatt nach dem In-Sample-Mittelwert. Dazu entwickeln wir ein Messinstrument mit zwölf Stufen, das die einsatzrelevanten Dimensionen offenlegt, die HELM und seine Nachfolger im Agentenzeitalter zusammenfassen. Diese Position wird durch drei falsifizierbare Out-of-Distribution-Kriterien mit expliziten Schwellenwerten operationalisiert; vorhandene Belege stützen sie teilweise, sind jedoch zu dünn, um sie zu bestätigen. Wir schließen mit einem vorregistrierten Pilotdesign und einer visionären Perspektive für die nächste Generation agentischer Benchmarks.
Fortschritte bei Radiance Fields haben fotorealistische Neuansichten-Synthese ermöglicht. In mehreren Bereichen wurden groß angelegte reale Datensätze entwickelt, um umfassendes Benchmarking zu unterstützen und Fortschritte über szenenspezifische Rekonstruktion hinaus zu ermöglichen. Für störungsfreie Radiance Fields fehlt jedoch ein groß angelegter Datensatz mit sauberen und überladenen Bildern pro Szene, was die Entwicklung einschränkt. Um diese Lücke zu schließen, stellen wir DF3DV-1K vor, einen groß angelegten realen Datensatz mit 1.048 Szenen, die jeweils saubere und überladene Bildsätze für das Benchmarking bereitstellen. Insgesamt enthält der Datensatz 89.924 Bilder, die mit Verbraucherkameras aufgenommen wurden, um beiläufige Aufnahmen zu simulieren, und umfasst 128 Störertypen und 161 Szenenthemen in Innen- und Außenbereichen. Ein kuratierter Unterdatensatz von 41 Szenen, DF3DV-41, wurde systematisch entwickelt, um die Robustheit von störungsfreien Radiance-Field-Methoden unter herausfordernden Szenarien zu bewerten. Mit DF3DV-1K bewerten wir neun aktuelle störungsfreie Radiance-Field-Methoden und 3D Gaussian Splatting und identifizieren die robustesten Methoden und die herausforderndsten Szenarien. Über das Benchmarking hinaus demonstrieren wir eine Anwendung von DF3DV-1K durch Feinabstimmung eines diffusionsbasierten 2D-Verbesserers zur Verbesserung von Radiance-Field-Methoden, wobei wir durchschnittliche Verbesserungen von 0,96 dB PSNR und 0,057 LPIPS auf dem zurückgehaltenen Satz (z. B. DF3DV-41) und dem On-the-go-Datensatz erzielen. Wir hoffen, dass DF3DV-1K die Entwicklung störungsfreier Sicht fördert und Fortschritte über szenenspezifische Ansätze hinaus vorantreibt. Der Datensatz und die Rangliste sind verfügbar unter https://johnnylu305.github.io/df3dv1k_web/.
Die Erzeugung mit dualer Referenz von Stil und Inhalt zielt darauf ab, ein Bild zu synthetisieren, das die Struktur und Semantik einer Inhaltsreferenz bewahrt, während es den Stil einer separaten Stilreferenz übernimmt. Trotz jüngster Fortschritte bleibt dieses Setting anspruchsvoll, da Modelle die Treue zum Inhalt, die Stilübereinstimmung und die Befolgung von Anweisungen in Einklang bringen müssen, dabei aber semantische Leckagen aus der Stilreferenz vermeiden sollen. Ein wesentlicher Engpass ist das Fehlen großer Trippeldatensätze mit sauberer Trennung von Inhalt und Stil sowie breiter Abdeckung von Langzeit-Stilvarianten. In dieser Arbeit schlagen wir FreeStyle vor, ein skalierbares Framework zur dualen Referenzerzeugung auf Basis von Community-LoRA-Mining. Wir behandeln Community-LoRAs als kompositionelle Anker für Stil und Inhalt und entwerfen eine strenge Erzeugungs- und Filterpipeline, um groß angelegte Tripletts aus Stilreferenz und Inhaltsreferenz über mehrere Basismodelle hinweg zu konstruieren. Um Inhaltsleckagen zu adressieren, verfolgen wir ein zweistufiges Curriculum mit stufenspezifischen Entflechtungsmechanismen: eine Anreicherungsbeschränkung auf Aufmerksamkeitsebene, die Stilreferenz-Leckagen in der Stiltransferstufe unterdrückt, und eine frequenzbewusste RoPE-Modulationsstrategie, die auf positionskorrespondenzbasierte Leckagen in der schwierigeren Dual-Referenz-Stufe abzielt. Wir führen außerdem einen Benchmark ein, der sowohl die Stilreferenz- als auch die Dual-Referenz-Erzeugung abdeckt, mit Bewertungen von Stilähnlichkeit, Inhaltserhaltung, Ästhetik, Instruktionsbefolgung und Leckageabweisung. Der Benchmark enthält einen stilinvarianten Content Alignment Score (CAS) und führt einen kalibrierten VLM-basierten Rejection Score zur Bewertung der Erzeugungszuverlässigkeit und Leckageunterdrückung ein. Umfangreiche Experimente zeigen, dass unser Modell eine starke Balance zwischen Stilübereinstimmung, Inhaltserhaltung und Leckageunterdrückung erreicht.
Bedingte Diffusions- und Flussmodelle erfüllen oft nicht die genau jenen Einschränkungen, die ihre Aufgabe definieren. Beispielsweise erzeugt ein tiefenbedingtes Modell häufig Bilder, deren erneut extrahierte Tiefe nicht mit der Eingabe übereinstimmt, obwohl der Vorwärtsoperator – der die Einschränkung definierende Tiefenschätzer – sowohl während des Trainings als auch der Inferenz verfügbar ist. Bisherige Ansätze fallen im Allgemeinen in zwei Kategorien: überwachte Modelle, die das Bedingungssignal als statischen Hinweis behandeln und Ausrichtungsinformationen während der Inferenz ignorieren, sowie leitungsbasierte Methoden, die es durch manuell abgestimmte lineare Aktualisierungen einbeziehen, üblicherweise um den Preis der Treue zur Bedingung gegen die Plausibilität der erzeugten Stichprobe. Wir argumentieren, dass die grundlegende Lücke in beiden Paradigmen darin besteht, dass das Modell niemals dafür trainiert wird, seinen eigenen Ausrichtungsfehler zu nutzen. Wir stellen FlowBender vor, ein geschlossenes Regelungssystem, das diesen Fehler als erstklassigen Input behandelt, das Netzwerk darauf trainiert, eine Korrekturrichtlinie zu lernen, die von Rückkopplungen zur Inferenzzeit abhängt. In jedem Schritt schätzt ein ungeführter Vorausschau-Durchlauf das saubere Signal, eine aufgabenspezifische Abweichung wird über den Vorwärtsoperator berechnet, und ein Verfeinerungsdurchlauf verarbeitet dieses Signal, um eine korrigierte Geschwindigkeit zu erzeugen. Wir schlagen mehrere Varianten von FlowBender vor, darunter eine gradientenbasierte Formulierung für differenzierbare Operatoren und eine Null-Ordnung-Variante für nicht differenzierbare Umgebungen wie JPEG-Kompression. Für effizientes Sampling führen wir eine Abkürzung über vorherige Schritte ein, die eine Korrektur im geschlossenen Regelkreis zu minimalen zusätzlichen Rechenkosten ermöglicht. In der Bild-zu-Bild-Übersetzung, Bildwiederherstellung und 3D-Mesh-Texturierung übertrifft FlowBender durchweg standardmäßige überwachte Baselines, trainingsunterstützte Ausrichtungsverlustverfahren und modernste leitungsbasierte Methoden zur Inferenzzeit, indem es gleichzeitig die Treue und Plausibilität verbessert, anstatt sie gegeneinander abzuwägen. Projektseite: https://flow-bender.github.io/
Die Erzeugung von 3D-Visualisierungsillusionen – ein einzelnes 3D-Modell, das aus verschiedenen Blickwinkeln völlig unterschiedliche Semantiken offenbart – ist eine faszinierende, aber anspruchsvolle Herausforderung. Bestehende optimierungsbasierte Methoden sind langsam und können übersättigte Farben erzeugen. Im Gegensatz dazu führen naive Zusammenfügungsansätze zu geometrisch inkohärenten Objekten, was sichtbare unnatürliche Nähte und semantische Lecks zur Folge hat. In dieser Arbeit stellen wir ein schnelles, trainingsfreies Framework zur textgesteuerten Erzeugung von 3D-Visualisierungsillusionen vor. Unser Ansatz entkoppelt die Generierung in zwei Phasen. Zunächst schlagen wir einen Cross-Space-Dual-Branch-Denoising-Prozess vor. Dieser Prozess dekodiert dynamisch 3D-Latents in den Voxelraum für eine CLIP-gesteuerte Orientierungsausrichtung und eine SDF-Blending-Integration (Signed Distance Field), die eine nahtlose geometrische Fusion gewährleistet. Zweitens führen wir ein sichtbedingtes Textursynthese-Modul ein, das blickwinkelspezifische 2D-Diffusions-Priors auf die fusionierte Geometrie projiziert und aggregiert. Umfangreiche Experimente zeigen, dass unsere Methode hochrealistische, dual-semantische 3D-Illusionen in nur 3–5 Minuten erzeugt. Sie übertrifft bestehende Methoden in geometrischer Integrität, semantischer Erkennbarkeit und Effizienz deutlich. Projektseite: https://siang1105.github.io/JanusMesh.github.io/
Weltaktionsmodelle (WAMs) stützen sich üblicherweise auf Videogenerierung, um visuelle Weltmodellierung und Robotersteuerung zu verbinden. Allerdings unterliegen videobasierte WAMs drei miteinander verknüpften Einschränkungen: dichte zukünftige Token über mehrere Frames erhöhen die Inferenzkosten, die vollständige Videovorhersage wendet Kapazität für aktionsirrelevante zeitliche und Erscheinungsdetails auf, und die langfristige Zukunfts imagination kann Fehler einführen, die die Aktionsvorhersage in die Irre führen. Diese Probleme werfen eine einfache Frage auf: Benötigt ein Weltaktionsmodell wirklich Videogenerierung? Wir schlagen ImageWAM vor, ein einfaches WAM-Framework, das vortrainierte Bildbearbeitungsmodelle für die Vorhersage von Roboteraktionen umfunktioniert. Im Gegensatz zur Videogenerierung bietet die Bildbearbeitung einen besser geeigneten Prior: Sie muss nur eine Zielframe-Transformation modellieren, konzentriert sich auf aktionsrelevante visuelle Unterschiede zwischen aktuellem und Zielbild und verankert Aufgabenanweisungen durch Bearbeitungs-Vortraining in lokalisierten visuellen Veränderungen. In der Praxis dekodiert ImageWAM den Zielframe zur Inferenzzeit nicht; stattdessen konditioniert es einen flussangepassten Aktions-Experten auf die KV-Caches, die durch die Bildbearbeitungs-Entrauschung erzeugt werden, und nutzt diese als kompakten Weltaktionskontext. ImageWAM übertrifft Standard-VLA-Baselines und vergleichbare hochmoderne WAMs ohne zusätzliches Politik-Vortraining in verschiedenen Simulator- und Realweltexperimenten. Es reduziert zudem die FLOPs auf 1/6 und die Latenz auf 1/4 der videobasierten WAMs. Eine Aufmerksamkeitsanalyse zeigt weiterhin, dass Bearbeitungs-Caches sich auf aufgabenrelevante Änderungsregionen konzentrieren, was die Bildbearbeitung als wirksame Alternative zur videobasierten Weltaktionsmodellierung unterstützt.
Weltmodelle werden zunehmend als entscheidender Schritt hin zur allgemeinen künstlichen Intelligenz angesehen. Doch die Modellierung der physikalischen Welt erfordert mehr als nur das Erzeugen überzeugender Einzelbilder auf Abruf: Sie benötigt einen internen Weltzustand, der sich – unabhängig von der Beobachtung – kontinuierlich weiterentwickelt. Objekte müssen bestehen bleiben, Ereignisse müssen zu ihrem Abschluss kommen – unabhängig davon, ob eine Kamera zusieht, so wie der Mond seine Bahn auch dann beibehält, wenn niemand hinschaut. Diese Anforderung ist ein blinder Fleck bestehender Benchmarks, die Oberflächeneigenschaften wie Bildtreue, Bewegung und Kamerasteuerbarkeit belohnen, aber niemals hinterfragen, ob eine generierte Welt sich unabhängig weiterentwickelt, sobald sie nicht mehr beobachtet wird. Wir führen WRBench ein, den ersten systematischen diagnostischen Benchmark, der Kamerabewegung als Intervention auf die Beobachtbarkeit betrachtet und die Auswertung in eine human-kalibrierte Kette überführt, die prüft, ob die Kamera die angeforderte Interaktion ausführt, ob die Szene während der Sichtbarkeit kontinuierlich und identifizierbar bleibt und ob ein zurückkehrendes Ziel konsistent mit dem in Gang gesetzten Ereignis ist. Über 9.600 Videos von 23 Modellen aus vier Steuerungsparadigmen hinweg zeigt sich ein hartnäckiger Befund: Die derzeitigen Systeme unterhalten die beobachtete Welt wie eine Kamerafahrt – sie setzen ein zurückkehrendes Objekt in dem Zustand fort, in dem es verlassen wurde, anstatt das Ereignis während der Abwesenheit voranzutreiben. Da dieser Fehler über Steuerungsparadigmen, Modellfamilien und Skalierungsstufen hinweg immer wieder auftritt, folgt eine robuste Weiterentwicklung des Weltzustands weder aus saubereren Bildern, engerer Kontrolle, reichhaltigeren geometrischen Vorgaben noch schlicht aus einer höheren Parameterzahl. Wir argumentieren daher, dass die Stabilität des physikalischen Zustandskerns und die Konsistenz von Weltlinien unter Sichtpunkt-Intervention zu erstklassigen Zielen des Weltmodell-Designs werden sollten – damit ein Weltmodell erfasst, wie die Welt sich entfalten wird, und nicht nur, wie das nächste Bild aussieht.
Große Sprachmodelle (LLMs) scheitern häufig, wenn eine Antwort die Identifizierung eines kleinen, aber entscheidenden Beweisstücks innerhalb eines langen oder komplexen Kontexts erfordert, etwa einer einzelnen Zeile in einer Werkzeugspur oder eines subtilen Details in einem Bild. Wir schlagen ContextRL vor, eine kontextbewusste Methode des bestärkenden Lernens (RL), die durch ein indirektes Hilfsziel die Leistung bei langfristigem Denken und multimodalen Aufgaben verbessert. Anstatt nur die endgültige Antwort zu überwachen, präsentiert ContextRL dem Modell eine Abfrage, eine Antwort und zwei sehr ähnliche Kontexte und belohnt es für die Auswahl des Kontexts, der das Abfrage-Antwort-Paar stützt, wodurch eine feinkörnige Verankerung gefördert wird. Wir konstruieren kontrastive Kontextdaten in zwei Bereichen: Bei Code-Agenten dienen Trajektorien als Kontexte, was durch Bedingungsfilterung 1.000 Paare ergibt; bei multimodaler Argumentation dienen Bilder als Kontexte, was durch generative Bearbeitung und Ähnlichkeitssuche 7.000 Paare ergibt. ContextRL erzielt durchschnittliche Verbesserungen von +2,2% gegenüber standardmäßigem GRPO bei 5 Benchmarks für langfristiges Denken und +1,8% bei 12 verschiedenen Benchmarks für visuelles Fragenbeantworten. Um den Effekt der vorgeschlagenen Zielsetzung von dem der zusätzlichen Daten zu trennen, vergleichen wir mit Datenanreicherungs-Baselines, die dieselben kontrastiven Kontexte als standardmäßige Abfrage-Kontext-Antwort-Beispiele umnutzen. Diese Baselines erzielen kaum oder gar keine Verbesserungen, was zeigt, dass die Zuwächse auf die vorgeschlagene Kontextauswahl-Zielsetzung zurückzuführen sind und nicht allein auf die kontrastiven Daten.
Die Realisierung geschickter Roboter-Manipulation in der realen Welt ist stark auf menschliche Aufsicht und algorithmisches Engineering angewiesen, was zu einem zentralen Engpass auf dem Weg zu allgemeiner physischer Intelligenz wird. Obwohl aufkommende Codierungsagenten Code generieren können, um die Algorithmussuche zu automatisieren, bleiben ihre Erfolge weitgehend auf digitale Umgebungen beschränkt. Wir vermuten, dass die fehlende Abstraktion zur Automatisierung der Robotikforschung eine wiederholbare Rückkopplungsschleife zur Verbesserung realweltlicher Politiken ist: Szenen zurücksetzen, eine Politik ausführen, das Ergebnis verifizieren und die nächste Iteration verfeinern. Um diese Lücke zu schließen, führen wir ENPIRE ein, ein Rahmenwerk für Codierungsagenten, das diese physische Rückkopplungsroutine mit vier Kernmodulen instanziiert: einem Umgebungsmodul (Environment, EN) für automatisches Zurücksetzen und Verifizieren, einem Politikverbesserungsmodul (Policy Improvement, PI) zur Initiierung von Politikverfeinerungen, einem Rollout-Modul (R) zur Bewertung von Politiken mit einem oder mehreren parallel arbeitenden physischen Robotern und einem Evolutionsmodul (E), in dem Codierungsagenten Protokolle analysieren, Literatur konsultieren und sowohl Trainingsinfrastruktur als auch Algorithmuscode verbessern, um Fehlermodi zu beheben. Dieses geschlossene System verwandelt realweltliches Manipulationslernen in einen kontrollierbaren Optimierungsprozess, der den menschlichen Aufwand minimiert und gleichzeitig faire Ablationen über Trainingsrezepte und Agentenvarianten hinweg ermöglicht. Angetrieben von ENPIRE können führende Codierungsagenten eigenständig eine Politik trainieren, die bei anspruchsvollen, geschickten Manipulationsaufgaben – wie dem Organisieren einer Stiftebox, dem Festziehen eines Kabelbinders und der Werkzeugnutzung – eine Erfolgsrate von 99 % erreicht; ein Prozess, der sich weiter beschleunigt, wenn wir ein Agententeam auf eine Roboterflotte entsenden. Unsere Ergebnisse deuten auf einen praktischen und skalierbaren Weg hin, Codierungsagenten zur autonomen Weiterentwicklung der Robotik in der physischen Welt einzusetzen.
Visuelles Denken sollte nicht nur richtig klingen, sondern auch seine Beweise zeigen. Während aktuelle Vision-Language-Modelle (VLMs) natürlichsprachliche Argumentationsspuren erzeugen können, bleiben die zugrundeliegenden Bildregionen in diesen Spuren oft implizit, was ihre Überprüfung und Überwachung erschwert. Wir führen visuell verankertes Denken ein – einen Argumentationsprozess, bei dem Modelle natürlichsprachliche Gedanken mit expliziten Punkt- oder Box-Verankerungen der visuellen Evidenz verschränken, die in jedem Schritt verwendet wird. Dies ermöglicht es dem Modell, Zwischenschlüsse in Sprache auszudrücken und gleichzeitig Schlüsselobjekte in den Bildregionen zu verankern, auf die sie sich beziehen. Um dieses Verhalten zu trainieren, konstruieren wir eine skalierbare Synthese-Pipeline, die korrekte visuelle Argumentationsspuren destilliert, die von den Spuren benötigten visuellen Objekte extrahiert, diese mit einem SAM3-basierten Agenten verankert und aus den resultierenden Masken abgestimmte Punkt- und Box-Überwachung ableitet. Wir schlagen weiterhin verankerungsbewusstes Reinforcement Learning vor, das Belohnungen für Antwortkorrektheit mit dichten Verankerungsbelohnungen kombiniert, die bewerten, ob generierte Objektreferenzen mit der korrekten Bildevidenz übereinstimmen. Über zwei Zähl-Benchmarks und vier räumliche Reasoning-Benchmarks hinweg verbessert das Hinzufügen von visuell verankertem Denken zu Gemma3-4B-IT durchgängig die Leistung im Vergleich zum ursprünglichen Modell und der Baseline ohne verankertes Denken. Bei räumlichem Reasoning erreichen die 4B-Modelle mit visuell verankertem Denken die Leistung von Gemma3-27B-IT aus derselben Modellfamilie und übertreffen sie in einigen Fällen. Unsere Analyse zeigt, dass Punktverankerung gut für Zählaufgaben geeignet ist, während Boxverankerung am meisten von expliziten Verankerungsbelohnungen bei räumlichen Aufgaben profitiert. Insgesamt zeigen unsere Ergebnisse, dass VLMs besser denken, wenn ihre Zwischengedanken an die Bildregionen gebunden sind, die sie wahr machen.
Mehrstufige LLM-Pipelines scheitern an Wechselwirkungen zwischen Abruf-, Denk- und Formatierungsschritten, sodass eine reine Prompt-Optimierung Engpässe in der Kette übersehen kann. Wir stellen FAPO (Fully Autonomous Prompt Optimization) vor, ein Framework, das Claude Code in die Lage versetzt, eine LLM-Pipeline innerhalb einer standardisierten Codebasis zu optimieren. FAPO bewertet eine Pipeline, prüft Zwischenschritte, diagnostiziert Fehler, schlägt gezielte Änderungen vor und validiert wiederholt Varianten, um sie gegen eine Bewertungsfunktion zu optimieren. Zunächst wird versucht, Prompts zu bearbeiten; erst wenn eine Prompt-Optimierung unzureichend erscheint, wird die Kettenstruktur innerhalb des zulässigen Rahmens geändert, sofern die Attribution einen strukturellen Engpass identifiziert. In sechs Benchmarks und mit drei Aufgabenmodellen übertrifft FAPO die Baseline GEPA in 15 von 18 Modell-Benchmark-Vergleichen. In 11 Modell-Benchmark-Vergleichen gewinnt FAPO mit nicht überlappenden Bereichen von Mittelwert ± Versuchs-Standardabweichung, und der mittlere FAPO-GEPA-Gewinn beträgt +14,1 Prozentpunkte. In den sechs HoVer- und IFBench-Vergleichen, bei denen die prompt-zentrierte Suche zu Strukturänderungen eskalierte, gewinnt FAPO alle sechs mit einem mittleren Gewinn von +33,8 Prozentpunkten. FAPO verbessert auch die Leistung bei Sicherheitsaufgaben: Bei CTIBench-RCM, einer Sicherheitsaufgabe zur Zuordnung von CVE zu CWE, erhöht die reine Prompt-Optimierung von FAPO die Testgenauigkeit um +4,0 Prozentpunkte auf GPT-5, um +7,1 Prozentpunkte auf Foundation-Sec-8B-Instruct und um +2,0 Prozentpunkte auf Foundation-Sec-8B-Reasoning. Diese Ergebnisse positionieren FAPO als eine hochmoderne Pipeline-Optimierungstechnik sowohl für allgemeine als auch für sicherheitsorientierte Aufgaben.
Verkörperte Grundlagenmodelle sollen wie große Sprachmodelle von Datenskalierung profitieren, stehen aber vor einem deutlich engeren Datenengpass. Teleoperierte reale Robotertrajektorien bleiben aufgrund ihrer präzisen Aktionsüberwachung und Ausrichtung auf die Verkörperung die vorherrschende Vortrainingsquelle, doch ihre Skalierbarkeit wird durch hohe Erfassungskosten, schwierige Beschaffung sowie geringe Verhaltens- und Umweltvielfalt eingeschränkt. Diese Einschränkungen haben das Interesse an egozentrischen menschlichen Videos als skalierbare, wesentlich kostengünstigere und vielfältigere Alternative für das Vortraining verkörperter Modelle geweckt. Deren Wirksamkeit im Vergleich zu teleoperierten realen Roboterdaten bleibt jedoch wenig erforscht. Um dieser Frage nachzugehen, führen wir eine systematische Studie durch, die egozentrische menschliche Videos und teleoperierte reale Robotertrajektorien als Vortrainingsdatenquellen für verkörperte Grundlagenmodelle unter festgelegten Post-Training- und Validierungsprotokollen vergleicht. Überraschenderweise stellen wir fest, dass egozentrische Daten, wenn sie durch eine sorgfältig konzipierte Filter- und Labeling-Pipeline verarbeitet werden, nicht nur ein praktikabler Ersatz für das Vortraining sind, sondern zu überlegener Leistung führen können. Bei gleicher Menge an Vortrainingsdaten erzielen Modelle, die auf egozentrischen Daten vortrainiert wurden, einen um 24% niedrigeren Validierungsverlust bei der Vorhersage realer Roboteraktionen sowie um 52,5% bzw. 90% höhere Erfolgsraten bei der Ausführung realer Roboteraufgaben innerhalb bzw. außerhalb der Verteilung. Dieses Ergebnis bestätigt ein skalierbares Paradigma für verkörperte Grundlagenmodelle: Vortraining auf egozentrischen menschlichen Videos, um vielfältige Weltrepräsentationen zu lernen, gefolgt von einer Anpassung mit einer kleinen Menge gekennzeichneter realer Roboterdaten für die Ausrichtung des Aktionsraums. Wir hoffen, dass diese Studie zu einer breiteren Erforschung egozentrischer Daten anregt und eine Orientierungshilfe für die Datenqualitätsbewertung vor der kostspieligen Roboterdatenerfassung bietet.
Videoweltmodelle bewegen sich zunehmend in Richtung der Bewahrung einer beobachteten Welt unter steuerbarer Kamera- und Objektbewegung, während Änderungen ihres Umweltzustands ermöglicht werden. Dennoch bleiben diese Steuerungen isoliert, und die Wettergenerierung stützt sich typischerweise auf ein Quellvideo oder eine rekonstruierte Szene, die bereits die zukünftige Struktur vorgibt. Wir untersuchen ein erst-frame-verankertes Quelle-zu-Zustand-Setting, bei dem das Modell von einem einzelnen Bild ausgeht, explizite Kamera- und Objektsteuerungen sowie eine optionale Wetteranweisung erhält und dann ein Video generiert, das entweder die Quellwelt bewahrt oder in einen Zielwetterzustand überführt. Um diese Herausforderungen zu bewältigen, erstellen wir zunächst HoloStateData, einen Zustands-Videodatensatz, der verschiedene Videos in einheitliche Steuerungsproben für Kamera-, Objekt- und Wetterüberwachung umwandelt. Zweitens führen wir Holo-World ein, ein einheitliches steuerbares Videoweltmodell, das die Szene ausgehend von einem einzelnen Bild gemeinsam steuert. Sein Unified Scene Adapter faktorisiert Welterhaltung und Wettertransfer in separate Parameterunterräume und nutzt gerenderten Hintergrund, Geometriepuffer und Objektsteuerungen, um die kontrollierte Szenenstruktur beizubehalten, während gleichzeitig wetterabhängige Erscheinung und Partikeleffekte modelliert werden. Darüber hinaus leitet die Scene-Weather Decomposed CFG die Szenen- und Wetterresiduen getrennt, verstärkt die Zielwettereffekte, ohne die vollständige Bedingung übermäßig zu amplifizieren. Quantitative und qualitative Experimente zeigen, dass Holo-World präzise Kamera- und Objektsteuerung mit konsistenter Szenenstruktur beibehält, während Szenen in verschiedene Zielwetterzustände überführt werden, und dabei Video-zu-Video-Wetterbearbeitungsbaselines bei der Wetterzustandserzeugung übertrifft. Unsere Projektseite ist verfügbar unter https://xiangchenyin.github.io/Holo-World/.
FP4-Training verspricht erhebliche Reduzierungen des Speicher- und Rechenaufwands beim Pretraining großer Sprachmodelle, doch aktuelle FP4-Hardwarepfade und -Rezepte, einschließlich NVIDIA Blackwell/Rubin-Klassensystemen und AMD MI350-Serie GPUs, konzentrieren sich weiterhin auf E2M1-Datenelemente. In dieser Studie identifizieren wir eine grundlegende Einschränkung dieser Wahl: Nicht-uniforme Formate wie E2M1 leiden inhärent unter Shrinkage Bias, einem systematischen negativen Rundungsfehler, der durch die geometrische Asymmetrie ihrer darstellbaren Bins verursacht wird. Wir zeigen, dass dieser Bias sich multiplikativ über Schichten akkumuliert und durch die Random Hadamard Transform (RHT) verstärkt wird, was eine einheitliche Erklärung für die in bestehenden E2M1-basierten FP4-Rezepten beobachtete Trainingsinstabilität liefert. Im Gegensatz dazu umgehen uniforme Gitter (E1M2/INT4) diesen Gittergeometriefehler und wandeln die verbesserte Bucket-Auslastung durch RHT besser in eine höhere Quantisierungsqualität um. Basierend auf dieser Erkenntnis schlagen wir UFP4 vor, ein uniformes 4-Bit-Trainingsrezept, das RHT auf alle drei Trainings-GEMMs anwendet, während stochastisches Runden auf dY allein beschränkt wird. Bei langfristigem Pretraining von Dense 1.5B, MoE 7.9B und MoE 124B erreicht UFP4 konsistent eine geringere BF16-relative Verlustverschlechterung als starke E2M1-basierte Baseline-Methoden, gestützt durch Scaling-Law-Analyse und Ablationsstudien. Unsere Ergebnisse legen nahe, dass zukünftige Beschleuniger E1M2/INT4-artige uniforme 4-Bit-Gitter als erstklassige Trainingsprimitive neben E2M1 unterstützen sollten.
Fortschritte in der Rechts-KI sind zunehmend auf den Zugang zu maßgeblichen Rechtstexten in großem Umfang angewiesen. Dennoch fehlt eine der folgenreichsten Ebenen des amerikanischen Rechts in bestehenden maschinenlesbaren Korpora weitgehend: kommunale Verordnungen. Lokale Satzungen regeln Bereiche wie Bebauungsplanung, Wohnungswesen, Gewerbelizenzen, öffentliche Gesundheit, Lärm, Tierkontrolle und viele andere alltägliche Regelungsdomänen, sind jedoch über Anbieterplattformen verstreut, die für die menschliche Durchsicht und nicht für den massenhaften Forschungszugriff konzipiert sind. Wir stellen LOCUS vor – das Korpus lokaler Verordnungen für die Vereinigten Staaten – ein umfassendes Korpus und eine auf County-Ebene harmonisierte Zugriffsschicht für US-amerikanische Gemeinde- und County-Satzungen. Das Rohkorpus, das für Forscher zur Freigabe vorgesehen ist, umfasst nahezu alle öffentlich zugänglichen Gemeinde- und County-Satzungen. Das resultierende Rohkorpus enthält Satzungen von 9.239 Städten und Countys. Eine kleinere, auf County-Ebene harmonisierte LOCUS-Zugriffsschicht deckt die größten 2.309 der 3.144 US-Countys ab, die einen Bevölkerungsmehrheit repräsentieren. Wir verwenden OCR, um die Vielzahl von Dokumentformaten zu bewältigen, die das Recht daran gehindert haben, eine öffentliche Ressource zu sein. Wir veröffentlichen das Korpus mit Abdeckungsmetadaten, um Reproduzierbarkeit, nachgelagerte Rechts-KI-Forschung und die schrittweise Erweiterung des maschinenlesbaren Zugangs zu lokalem Recht zu unterstützen. Wir trainieren eine Sammlung von auf ModernBERT basierenden Klassifikatoren und Scorern, um die Analyse von US-amerikanischem Lokalrecht in mehreren Dimensionen zu ermöglichen, darunter Opazität und Paternalismus, die zuvor in diesem Umfang nicht untersucht wurden. LOCUS-v1 und seine abgeleiteten Modelle sind verfügbar unter: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
Die Fréchet-Inception-Distanz (FID) ist der De-facto-Standard für die Bewertung der Bildgenerierung, doch die meisten Arbeiten berichten nur eine einzelne Zahl von einem einzigen trainierten Modell mit einem einzigen Sampling-Seed. Wie reproduzierbar ist diese Zahl, wenn wir das Modell neu trainieren oder lediglich erneut daraus sampeln? In dieser Arbeit behandeln wir den FID als Zufallsvariable auf einem zweiachsigen Raster aus Trainings- und Generierungs-Seeds und messen seine Varianz direkt an mehreren hundert SiT-Netzwerken, die auf klassenbedingtem ImageNet 256×256 trainiert wurden. Wir berichten über überraschende Ergebnisse: (a) Das Neulernen des Modells mit derselben Rezeptur, aber einem anderen Seed verschiebt den FID um das 3,2-Fache (im Inception-Feature-Raum) als das erneute Ziehen von Samples aus einem festen Netzwerk. (b) Diese Lücke wird durch drei Faktoren verursacht: zufällige Initialisierung, Datenreihenfolge und das Gaußsche Rauschen pro Schritt des Flow-Matching-Verlusts. (c) Eine Erhöhung des Rechenaufwands oder der Modellgröße verringert die Streuung kaum und hält den FID-Variationskoeffizienten (CoV) innerhalb eines Bereichs von 1–2 %. (d) Eine zellenweise Optimierung der Classifier-Free Guidance halbiert die Streuung, mischt jedoch die Seeds neu, die am besten funktionieren, und ein glücklicher Trainings-Seed erreicht denselben FID mit bis zu 2× weniger Rechenaufwand als ein unglücklicher. Auf Grundlage dieser Ergebnisse empfehlen wir ein neues FID-Bewertungsprotokoll: Evaluierung unter zellenweiser optimaler Führung, jeden FID-Unterschied unterhalb des empirisch gemessenen CoV von ~1,3 % als nicht schlüssig betrachten und einen Fehlerbalken über mehrere Trainings-Seeds anstelle einer einzelnen FID-Zahl angeben.
Aktuelle Ansätze der retrieval-gestützten Generierung (RAG) haben eine hohe Leistungsfähigkeit bei der Verarbeitung komplexer Anfragen gezeigt, dennoch übersieht die aktuelle Forschung eine entscheidende Herausforderung: Verschiedene Retriever erfordern grundlegend unterschiedliche Strategien der Abfrageformulierung, um eine optimale Leistung zu erzielen. In dieser Arbeit präsentieren wir die erste systematische Analyse, wie große Sprachmodelle (LLMs) lernen können, ihre Abfrageformulierungsstrategien mittels Verstärkungslernen (Reinforcement Learning, RL) an verschiedene Retriever anzupassen. Unsere empirische Studie zeigt, dass RL einem LLM effektiv beibringt, seine Anfragen auf die spezifischen Eigenschaften eines Retrievers zuzuschneiden. Wir entdecken, dass verschiedene Retriever überraschend unterschiedliche optimale Abfragestile aufweisen (z. B. deskriptiv vs. fragenähnlich), was darauf hindeutet, dass für einen Retriever erlernte Strategien für einen anderen ineffektiv sind. Wir zeigen ferner, dass die Leistung durch Einbeziehung retriever-spezifischer menschlicher Anleitung und durch Skalierung der Modellgröße verbessert werden kann. Um das Lernen über Trajektorien mit mehreren Retriever-Schritten zu erleichtern, führen wir eine auf Verzweigung basierende Rollout-Technik ein, die die Trainingsstabilität verbessert. Unsere Arbeit liefert die ersten empirischen Belege und umsetzbaren Erkenntnisse für den Aufbau wirklich retriever-bewusster RAG-Systeme. Code und Ressourcen sind verfügbar unter https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.
Richtlinienkonforme Tool-Calling-Agenten in Kundendienstbereichen müssen Aufgabenzustände über mehrere Gesprächsrunden hinweg aufrechterhalten, während sie Werkzeuge aufrufen, und dabei Bereichsrichtlinien befolgen. Aufgabenzustände bestehen aus relevanten Fakten, Identifikatoren, Einschränkungen und Bedingungen, die durch Benutzerinteraktionen und Tool-Aufrufe beobachtet werden. Bei Standard-Agenten werden Aufgabenzustände nicht separat dargestellt. Beobachtungen, Tool-Rückgaben und Richtlinienanweisungen werden in den Prompt eingefügt, sodass die Agenten jedes Mal, wenn sie entscheiden, was als Nächstes zu tun ist, die relevanten Zustände aus dem Prompt rekonstruieren müssen. Dieses Design macht die Zustandsverwaltung implizit und führt zu zwei häufigen Fehlermodi. Ein Agent kann die richtigen Fakten abrufen, seine Entscheidung aber später auf veraltete, fehlende oder falsche Informationen stützen; und ein syntaktisch gültiger Tool-Aufruf kann dennoch eine Bereichsrichtlinie verletzen, die vom aktuellen Aufgabenzustand abhängt. Wir stellen LedgerAgent vor, eine Inferenzzeit-Methode für Tool-Calling-Agenten, die beobachtete Aufgabenzustände in einem separaten Ledger verwaltet und die Zustände in den Prompt einfügt. Das Ledger wird auch verwendet, um zustandsabhängige Richtlinieneinschränkungen zu überprüfen, bevor umgebungsverändernde Tool-Aufrufe ausgeführt werden, wodurch Richtlinienverstöße verhindert werden. In vier Kundendienstbereichen und einem gemischten Panel aus Open- und Closed-Weight-Modellen verbessert LedgerAgent die durchschnittliche Pass@k-Rate gegenüber einem standardmäßigen promptbasierten Tool-Calling-Ansatz, wobei die größten Verbesserungen unter strengeren Metriken zur Konsistenz über mehrere Versuche erzielt werden.
Hybride lineare Aufmerksamkeitsmodelle bieten einen vielversprechenden Weg zu schnellerer Langkontext-Inferenz: Sie reduzieren die quadratischen Kosten und die KV-Cache-Belastung der vollständigen Softmax-Aufmerksamkeit, während sie einen Großteil der Qualität von Transformer-Modellen bewahren. Ein praktischer Weg, solche Modelle zu erhalten, besteht darin, einen vortrainierten Transformer zu konvertieren, anstatt eine neue Architektur von Grund auf neu zu trainieren. Diese Konvertierung ist jedoch weiterhin fragil. Das bloße Kopieren der Lehrer-Aufmerksamkeitsprojektionen in einen Gated-DeltaNet (GDN)-Schüler spezifiziert nicht die neuen rekurrenten Dynamiken des Vergessens, Schreibens und Ausgangs-Gatings. Infolgedessen beginnt das konvertierte Modell oft in einem schlechten dynamischen Regime und muss viele Destillationstoken aufwenden, um die Initialisierung zu reparieren, anstatt das verbleibende Lehrer-Verhalten zu erlernen. Wir schlagen Taylor-Calibrate vor, eine leichtgewichtige Initialisierungsmethode für hybride GDN-Schüler. Die Methode nutzt Taylor-gesteuerte Lehrer-Aufmerksamkeitsstatistiken, um die Wertprojektion, die Gedächtniszeitskala, die Schreib-Gates und das Ausgangs-Gate zu setzen, und wendet dann einen kurzen, schichtweisen Abgleichsschritt an, um jede konvertierte Schicht an die Lehrerausgabe anzupassen. Über vier Lehrer-Einstellungen und drei Strategien für beibehaltene Schichten hinweg liefert Taylor-Calibrate substanziell stärkere Zero-Shot-Schüler, mit einer Verbesserung von bis zu 88x in einer repräsentativen Ablation, und erreicht angestrebte Wiederherstellungsziele mit 4,9- bis 9,2-mal weniger Trainingstoken als die naive Konvertierung.
Präzise mechanische Eigenschaften (oder Materialien) wie Elastizitätsmodul (E), Poissonzahl (ν) und Dichte (ρ) sind essenziell für zuverlässige physikalische Simulationen digitaler Welten. Allerdings fehlen diese Informationen bei den meisten 3D-Assets. Wir schlagen AdaVoMP vor, eine Methode zur Vorhersage präziser, dicht variierender (E, ν, ρ) für eingegebene 3D-Objekte über verschiedene Repräsentationen hinweg, wodurch Auflösung, Genauigkeit und Speichereffizienz im Vergleich zum Stand der Technik verbessert werden. Grundlage unserer Technik ist eine spärliche und adaptive Voxelstruktur SAV, die sowohl die eingegebene 3D-Form als auch das resultierende Materialfeld effizient repräsentiert. Wir ersetzen das Modell mit festen Voxeln der genauesten vorherigen Methode VoMP durch ein neuartiges spärliches Transformer-Encoder-Decoder-Modell, das lernt, für jede Eingabeform autoregressiv eine einzigartige SAV zu generieren, um deren Materialien darzustellen. Dadurch wird eine 16^3-mal höhere Auflösung als im Stand der Technik erreicht. Experimente zeigen, dass AdaVoMP präzisere volumetrische Eigenschaften schätzt, selbst mit geringerem Testzeit-Rechnenaufwand als alle bisherigen Verfahren. Dies ermöglicht es uns, hochauflösende komplexe 3D-Objekte in simulationsbereite Assets umzuwandeln, was zu realistischen deformierbaren Simulationen führt.
In rechtlichen Arbeitsabläufen eingesetzte KI-Systeme halluzinieren mit Raten, die aggregierte Metriken mit etwa 52 % angeben, doch dieser Durchschnittswert verbirgt, wo sich Fehler konzentrieren und in welche Richtung sie verlaufen, sodass Compliance-Beauftragte kein umsetzbares Signal für einen vertrauenswürdigen Einsatz erhalten. Wir stellen LegalHalluLens vor, ein Prüfrahmenwerk mit drei Komponenten: typisierte Halluzinationsprofile über vier rechtlich motivierte Anspruchskategorien (numerisch, zeitlich, Verpflichtung/Anspruch, sachlich) auf Basis von CUAD (Hendrycks et al., 2021); einen Risikorichtungsindex (RDI), der die Auslassungs- gegenüber Erfindungsverzerrung auf einen einzelnen, einsatzvergleichbaren Skalar reduziert; und eine typisierte Debatten-Pipeline, die sowohl auf Größenordnungen als auch auf Richtungen kalibriert ist. Über 510 Verträge und 249.252 Klauselinstanzen messen wir eine modellinterne Diskrepanz von etwa 38–40 Prozentpunkten zwischen Verpflichtungs-/numerischen und zeitlichen Ansprüchen, die die aggregierte Berichterstattung verbirgt, und zeigen, dass zwei Systeme mit übereinstimmenden 52 %-Raten entgegengesetzte RDIs aufweisen können. Die Debatten-Pipeline reduziert erfundene Erkennungen um 45 %, wobei die Gewinne pro Kategorie der Diagnose folgen und kommerzielle APIs mit einem wesentlich kleineren Backbone (4 Milliarden aktive Parameter) erreichen. Typisierte Profile und der RDI decken Fehlermodi auf, die aggregierte Metriken verbergen; wir zeigen ferner, dass diese Diagnosen als Kalibrierungseingaben für Multi-Agenten-Debatten-Pipelines dienen, bei denen skeptische Herausforderungen und asymmetrische Tore, die auf gemessene Fehlermodi abzielen, generisch abgestimmte Debatten übertreffen. Das Rahmenwerk unterstützt richtungsbewusste Beschaffung, Rechenschaftspflicht und Agentengestaltung für rechtliche KI, die in freier Wildbahn eingesetzt wird.
Patientenkontexte umfassen hunderte heterogener Dokumente und tausende strukturierter Datenpunkte, doch die für KI-Systeme erforderlichen Metadaten auf Dokumentebene für Abruf und Triage fehlen oder sind unvollständig. Die standardmäßige retrieval-gestützte Generierung versagt bei diesen Daten, da sie zeitliches Schlussfolgern, dokumentenübergreifende Abhängigkeiten und fehlende Metadaten nicht angemessen verarbeitet. Wir setzen ACIE (Agentic Clinical Information Extraction) an der Universitätsmedizin Essen ein: eine lokale agentische RAG-Pipeline, die über vollständige Patientenkontexte schlussfolgert und jede Antwort zur klinischen Überprüfung mit Quellpassagen belegt. Wir quantifizieren die Metadatenlücke, zeichnen die daraus resultierenden architektonischen Entscheidungen nach und evaluieren die Extraktion gemeinsam mit einer unabhängigen retrospektiven Lymphomregister-Studie, in der Nuklearmediziner jeden extrahierten Wert anhand der zitierten Quellen verifizieren. Bei 7.326 Beurteilungen akzeptierten die Kliniker 96,5 % der Extraktionen, wobei die Akzeptanz pro Typ zwischen 80 % und 99 % lag.
Die präzise 3D-räumliche Orchestrierung bei der Text-zu-Video-Generierung bleibt eine erhebliche Herausforderung, insbesondere für Szenen mit mehreren Objekten, in denen semantisches Layout und zeitliche Dynamik oft miteinander verwoben sind. Während bestehende tiefenbasierte Modelle eine gute strukturelle Genauigkeit erzielen, erfordern sie eine dichte, bildgenaue Führung, deren Erstellung für dynamische Ereignisse mit verformbaren Objekten arbeitsintensiv ist. Wir stellen LooseControlVideo vor, ein Framework, das intuitive und ausdrucksstarke Steuerung ermöglicht, indem es spärliche, orientierte 3D-Boxen als „Blocking“-Proxy verwendet. Dies erlaubt es Benutzern, ein High-Level-Layout und Trajektorien zu erstellen, während ein videogeneratives Modell genutzt wird, um realistische Verdeckungen, Dynamiken und Interaktionen zu generieren. Wir erreichen dies durch Feintuning eines Wan-2.2-Backbones auf einem Videodatensatz, der mit DNOCS annotiert ist – einer neuartigen Kodierung für 3D-Größe, Orientierung und tiefengeordnete Verdeckungen. Darüber hinaus ermöglicht unsere Methode lokale Verfeinerungen, wie das Anpassen einer Sprungtrajektorie oder das Hinzufügen einer Interaktion, mit minimaler Störung des globalen Szenenkontexts. Umfangreiche Evaluierungen auf den nuScenes-, HO-3D- und BEHAVE-Benchmarks zeigen, dass LooseControlVideo bestehende auf 2D-Boxen und Fluss basierende Baselines deutlich übertrifft. Unsere Ergebnisse weisen eine 1,2- bis 3-fache Verbesserung des Trajektorienfehlers, eine 2-fache Verbesserung der Konsistenz starrer Bewegungen und eine 1,5- bis 2-fache Steigerung der Verdeckungsgenauigkeit im Vergleich zu aktuellen hochmodernen layoutbasierten Modellen auf, was belegt, dass orientierte 3D-Primitive eine gute geometrische Priorität für die komplexe Videoerstellung mit mehreren Akteuren bieten.
Derzeitige KI-gesteuerte Spieleentwicklung hat erhebliche Fortschritte in den Bereichen Asset-Generierung, Gameplay-Design und webbasierter Spielprogrammierung erzielt, doch die projektbezogene Code-Entwicklung in professionellen Spiele-Engines bleibt aufgrund des Fehlens großer Datensätze und deterministischer Bewertungsmethoden weitgehend unerforscht. Wir stellen JamSet und JamBench vor, das erste projektbezogene Framework-Datenset und Benchmark für Spielcode, das auf einer professionellen Spiele-Engine basiert. Unser zentraler Ansatzpunkt ist, dass Game-Jam-Wettbewerbe – Community-Veranstaltungen, bei denen Entwickler unter strengen Zeitvorgaben vollständige Spiele erstellen – Tausende von Open-Source-Projekten hervorbringen, die für diesen Zweck geeignet sind. Aufbauend auf dem textbasierten Format und dem Headless-Ausführungsmodus der Godot-Engine entwerfen wir eine deterministische Verifikationspipeline, die von Dateiintegrität bis hin zur Erfassung des Laufzeitverhaltens reicht und aus über 240.000 Repositories 8.133 verifizierte Projekte destilliert. Davon bilden 300 manuell verifizierte Projekte JamBench; der Rest bildet JamSet. JamBench definiert themengesteuerte Generierungs- und Codevervollständigungsaufgaben, die durch eine Pipeline bewertet werden, die Kompilierungserfolgsraten, den Structural Completeness Score (SCS) und den Behavioral Alignment Score (BAS) kombiniert. Die Bewertung von 9 Grenzmodellen zeigt eine Fähigkeitskluft mit zunehmendem Projektumfang, wobei die Laufzeitbestehensraten von 80,4 % bei kleinen Projekten auf 5,7 % bei großen Projekten fallen (Aufgabe 2a). Code-Agents verbessern die Kompilierungsraten, erzielen jedoch keine Steigerung der Verhaltensqualität zur Laufzeit, was darauf hindeutet, dass der Engpass eher im architektonischen Design als in der syntaktischen Korrektheit liegt. Experimente bestätigen JamSet als effektive Trainingsdaten. Alle Daten und Codes sind öffentlich verfügbar.
Typische Ansätze des videobasierten objekttentrierten Lernens (VOCL) verwenden Slot-basierte Frameworks, die auf reconstructiongetriebenen Encoder-Decoder-Architekturen beruhen, wobei das Lernen durch zwei räumliche Karten vermittelt wird: Aufmerksamkeitskarten vom Encoder und Objektkarten vom Decoder. Da diese beiden unterschiedlichen Karten verschiedene Eigenschaften aufweisen, versuchte eine neuere Strategie der dichten Ausrichtung, diese Diskrepanz zu beheben, indem sie eine Übereinstimmung über alle räumlich-zeitlichen Patches hinweg durch kontrastives Lernen erzwingt. Diese unterschiedslose Ausrichtung propagiert jedoch unbeabsichtigt die inhärenten Schwächen jedes Moduls, wie verrauschte Encoder-Vorhersagen und unscharfe Decoder-Grenzen. Darüber hinaus verursacht die Berechnung dichter Ähnlichkeiten über alle Paare hinweg einen quadratischen Rechenaufwand in Bezug auf die Gesamtzahl der räumlich-zeitlichen Patches, was die Skalierbarkeit stark einschränkt. Motiviert durch diese Probleme schlagen wir Selective Synergistic Learning (SSync) vor. Anstatt einer erschöpfenden Patch-zu-Patch-Ausrichtung verhindert SSync die Fehlerfortpflanzung, indem es nur die zuverlässigsten Hinweise selektiv destilliert: Der Encoder wird strikt zur Kantenverfeinerung und der Decoder zur internen Entrauschung genutzt. Dies wird durch eine Pseudo-Markierung mit linearer Komplexität realisiert, wodurch quadratische räumliche Vergleiche überflüssig werden. Um zudem die Verstärkung architekturbedingter Verzerrungen wie Slot-Redundanz zu vermeiden, führen wir eine transitive Pseudo-Markierungszusammenführung ein, die überlappende Slots auf Basis der räumlich-zeitlichen Aktivierungskonsistenz konsolidiert. Umfangreiche Studien zeigen, dass SSync die Dekompositionsqualität verbessert und als vielseitiges, modulares Plug-and-Play-Modul dient, während es zudem eine außergewöhnliche Robustheit gegenüber Slot-Konfigurationen aufweist. Der Code ist verfügbar unter github.com/wjun0830/SSync.
Es besteht eine erhebliche Lücke zwischen Theorie und Praxis des Deep Learning. Generalisierungs- und Approximationsfehlerschranken werden oft für vereinfachte Modelle hergeleitet oder sind zu lose, um informativ zu sein. Viele stützen sich auf die Mannigfaltigkeitshypothese und auf geometrische Regularitäten wie intrinsische Dimension, Krümmung und Reichweite. Fortschritte erfordern Einblicke in die Geometrie von Datenmannigfaltigkeiten sowie geeignete Benchmarks, doch bestehende Optionen sind polarisiert: analytische Mannigfaltigkeiten mit bekannter Geometrie, aber begrenzter Anwendbarkeit, oder reale Datensätze, bei denen die Geometrie nur grob schätzbar ist. Wir stellen ein Benchmarking-Rahmenwerk zur Untersuchung der Daten-Geometrie vor. Wir nutzen dSprites und COIL-20 wieder und erweitern sie um zusätzliche Transformationsdimensionen und dichte, achsenausgerichtete Abtastung, und kombinieren sie mit Finite-Differenzen-Schätzern, die Krümmung, Reichweite und Volumen mit nahezu Grundwahrheitsgenauigkeit in einem Bereich wiederherstellen, in dem allgemeine Schätzer unzuverlässig oder schwer einsetzbar sind. Das Rahmenwerk ist als kontrollierte Testumgebung konzipiert, die als Kalibrierungsumgebung für geometrische Schätzer und als Sandkasten zur Prüfung theoretischer Annahmen nützlich ist. Zur Veranschaulichung seiner Verwendung präsentieren wir zwei Anwendungsstudien, nämlich die Bewertung des Skalierungsverhaltens der Schranken von Genovese et al. und Fefferman et al. sowie die Verfolgung der schichtweisen Geometrie eines β-VAE, wobei wir das Verhalten aktueller Schranken und den Wert kontrollierter Benchmarks für die Anleitung und Validierung künftiger Theorie hervorheben. Eine Referenzimplementierung ist verfügbar unter https://github.com/koulakis/manifold-microscope.
Große Sprachmodelle (Large Language Models, LLMs) haben die Automatisierung von Softwareentwicklungsaufgaben erheblich vorangetrieben. Ein prominentes Beispiel ist die Codegenerierung, bei der ein LLM basierend auf einer Beschreibung in natürlicher Sprache Code in einer bestimmten Programmiersprache erzeugt. Die meiste Forschung in diesem Bereich konzentrierte sich auf ressourcenreiche Sprachen wie Python oder Java, die von reichhaltigen Trainingsdaten profitieren. Eine kleinere Anzahl von Arbeiten hat sich mit ressourcenarmen Sprachen befasst, die in Trainingskorpora unterrepräsentiert sind. Im Gegensatz dazu sind ressourcenlose Sprachen, für die LLMs praktisch keine Trainingsdaten gesehen haben, weitgehend unerforscht. Diese Sprachen entstehen häufig in der Industrie, wo Organisationen proprietäre oder domänenspezifische Sprachen entwickeln, die von kommerziellen Werkzeugen wie GitHub Copilot nicht unterstützt werden. Dies führt dazu, dass Unternehmen ihre eigenen internen Code-Empfehlungssysteme einsetzen müssen. Um mögliche Lösungen in diesem Kontext zu untersuchen, erstellen und veröffentlichen wir drei Codegenerierungs-Benchmarks für ressourcenlose Sprachen, basierend auf zwei kürzlich vorgeschlagenen Programmiersprachen, für die nur sehr wenige Trainingsdaten verfügbar sind. Mit diesen Benchmarks experimentieren wir mit mehreren Lösungen, um LLMs ressourcenlose Sprachen beizubringen, darunter promptbasierte Techniken sowie Vortraining und Feinabstimmung unter Nutzung der wenigen verfügbaren Daten. Während weiteres Vortraining die größten Leistungssteigerungen für ressourcenlose Sprachen bringt, beeinträchtigt seine direkte Anwendung auf instruktionsabgestimmte Modelle deren Fähigkeit, Anweisungen zu befolgen. Um dies zu adressieren, starten wir mit einem Basismodell, trainieren es weiter auf der Zielsprache vor und injizieren dann Instruktionsbefolgungsfähigkeiten durch Weight-Diff-Transfer von einem Instruktionsmodell. Ein solcher Ansatz verbessert die Codegenerierungsfähigkeiten in ressourcenlosen Umgebungen erheblich und ermöglicht es Unternehmen, kostengünstig ein spezialisiertes Instruktionsmodell bereitzustellen, ohne sich mit den Rechenkosten der Instruktionsfeinabstimmung befassen zu müssen.
Scheduling-Strategien in großen Serving-Pipelines für die Automatische Spracherkennung (ASR) spielen eine Schlüsselrolle bei der Bestimmung der Ende-zu-Ende-Latenz (E2E). Dennoch verlassen sich weit verbreitete Serving-Engines auf das First-Come-First-Served (FCFS)-Scheduling, das die Variabilität der Anfragedauer ignoriert und bei Arbeitslastverschiebungen zu Head-of-Line-Blocking führt. Wir zeigen, dass die Audiodauer ein genauer Proxy für die Job-Verarbeitungszeit in ASR-Modellen wie Whisper ist, und nutzen diese Erkenntnis, um dauerbewusstes Scheduling zu ermöglichen. Wir integrieren zwei klassische Algorithmen, Shortest Job First (SJF) und Highest Response Ratio Next (HRRN), in vLLM und evaluieren sie unter realistischen und driftenden Arbeitslasten. Auf LibriSpeech test-clean reduziert SJF im Vergleich zur Basislinie die mediane E2E-Latenz bei hoher Last um bis zu 73%, erhöht jedoch die Tail-Latenz des 90. Perzentils aufgrund des Verhungerns langer Anfragen um bis zu 97%. HRRN adressiert diesen Trade-off: Es reduziert die mediane E2E-Latenz um bis zu 28%, während es die Verschlechterung der Tail-Latenz auf höchstens 24% begrenzt. Diese Gewinne bleiben unter Arbeitslastverschiebung bestehen, ohne Durchsatzeinbußen und mit einem Scheduling-Overhead von <0,1 ms pro Anfrage.
Bestehende PBE-Systeme (Programming-by-Example) basieren oft auf vereinfachten Benchmarks, die die hohe strukturelle Komplexität realer regulärer Ausdrücke – wie tiefere Verschachtelung und häufige Verwendung von Vereinigungsoperationen – nicht erfassen. Um den daraus resultierenden Leistungsabfall zu überwinden, schlagen wir ReSyn vor, ein synthesizer-unabhängiges Divide-and-Conquer-Rahmenwerk, das komplexe Syntheseprobleme in handhabbare Teilprobleme zerlegt. Wir führen außerdem Set2Regex ein, einen parametereffizienten Synthesizer, der die Permutationsinvarianz von Beispielen nutzt. Die experimentellen Ergebnisse zeigen, dass ReSyn die Genauigkeit verschiedener Synthesizer erheblich steigert und seine Kombination mit Set2Regex einen neuen State-of-the-Art auf anspruchsvollen realen Benchmarks etabliert. Der vollständige Quellcode, die Datensätze und die vortrainierten Modell-Checkpoints sind öffentlich unter https://github.com/mrseongminkim/ReSyn verfügbar.