papers.description
Rasante Fortschritte bei Videomodellen konzentrierten sich weitgehend auf die visuelle Qualität, wodurch ihre Fähigkeiten zum logischen Schlussfolgern unzureichend erforscht blieben. Videobasiertes logisches Schließen verankert Intelligenz in räumlich-zeitlich konsistenten visuellen Umgebungen, die über das hinausgehen, was Text natürlich erfassen kann, und ermöglicht intuitives Schließen über räumlich-zeitliche Strukturen wie Kontinuität, Interaktion und Kausalität. Die systematische Erforschung dieses videobasierten logischen Schließens und seines Skalierungsverhaltens wird jedoch durch den Mangel an umfangreichen Trainingsdaten behindert. Um diese Lücke zu schließen, stellen wir den „Very Big Video Reasoning“-Datensatz (VBVR) vor – eine in ihrem Umfang beispiellose Ressource, die 200 ausgewählte Aufgaben zum logischen Schließen nach einer prinzipienbasierten Taxonomie und über eine Million Videoclips umfasst, was etwa drei Größenordnungen mehr ist als bei bestehenden Datensätzen. Darüber hinaus präsentieren wir VBVR-Bench, ein verifizierbares Evaluierungsframework, das über modellbasierte Bewertungen hinausgeht, indem es regelbasierte, menschlich abgestimmte Bewertungssysteme integriert. Dies ermöglicht eine reproduzierbare und interpretierbare Diagnose der Fähigkeiten zum videobasierten logischen Schließen. Mithilfe der VBVR-Suite führen wir eine der ersten groß angelegten Skalierungsstudien zum videobasierten logischen Schließen durch und beobachten erste Anzeichen einer emergenten Generalisierung auf unbekannte Aufgaben zum logischen Schließen. Insgesamt legt VBVR den Grundstein für die nächste Forschungsphase im Bereich des generalisierbaren videobasierten logischen Schließens. Die Daten, das Benchmark-Toolkit und die Modelle sind öffentlich unter https://video-reason.com/ verfügbar.
Nach dem Aufstieg großer Basismodelle entstanden Vision-Language-Action-Modelle (VLAs), die starkes visuelles und sprachliches Verständnis für das Lernen allgemeiner Strategien nutzen. Dennoch bleibt die aktuelle VLA-Landschaft fragmentiert und explorativ. Obwohl viele Gruppen eigene VLA-Modelle vorgeschlagen haben, erschweren Inkonsistenzen in Trainingsprotokollen und Evaluierungsumgebungen die Identifizierung wirklich relevanter Designentscheidungen. Um dieser sich entwickelnden Landschaft Struktur zu verleihen, untersuchen wir den VLA-Designraum unter einem einheitlichen Framework und Evaluierungsaufbau neu. Ausgehend von einer einfachen VLA-Basislinie ähnlich RT-2 und OpenVLA systematisieren wir Designentscheidungen entlang drei Dimensionen: grundlegende Komponenten, Wahrnehmungselemente und Handlungsmodellierungsperspektiven. Aus dieser Studie destillieren wir 12 zentrale Erkenntnisse, die zusammen ein praktisches Rezept für den Aufbau starker VLA-Modelle bilden. Das Ergebnis dieser Exploration ist ein einfaches, aber effektives Modell namens VLANeXt. VLANeXt übertrifft bisherige State-of-the-Art-Methoden auf den Benchmarks LIBERO und LIBERO-plus und zeigt starke Generalisierungsfähigkeit in realen Experimenten. Wir werden eine einheitliche, benutzerfreundliche Codebasis veröffentlichen, die als gemeinsame Plattform dient, um unsere Ergebnisse zu reproduzieren, den Designraum zu erkunden und neue VLA-Varianten auf einer gemeinsamen Grundlage zu entwickeln.
Zusammengesetzte KI-Systeme versprechen Fähigkeiten, die über die einzelner Modelle hinausgehen, doch ihr Erfolg hängt entscheidend von einer effektiven Orchestrierung ab. Bestehende Routing-Ansätze weisen zwei Einschränkungen auf: (1) Eingabeebenen-Router treffen grobe, abfrageweite Entscheidungen, die sich ändernde Aufgabenanforderungen ignorieren; (2) RL-trainierte Orchestratoren sind teuer anzupassen und leiden oft unter Routing-Kollaps, indem sie in Mehrfachinteraktionen wiederholt eine starke, aber kostspielige Option aufrufen. Wir stellen SkillOrchestra vor, ein Framework für fähigkeitsbewusste Orchestrierung. Anstatt direkt eine Routing-Politik end-to-end zu lernen, erlernt SkillOrchestra feinkörnige Fähigkeiten aus Ausführungserfahrungen und modelliert agentspezifische Kompetenz und Kosten unter diesen Fähigkeiten. Bei der Bereitstellung leitet der Orchestrator die Fähigkeitsanforderungen der aktuellen Interaktion ab und wählt Agenten aus, die diese unter einem expliziten Leistungs-Kosten-Kompromiss optimal erfüllen. Umfangreiche Experimente über zehn Benchmarks zeigen, dass SkillOrchestra state-of-the-art RL-basierte Orchestratoren um bis zu 22,5% übertrifft, bei gleichzeitiger Reduzierung der Lernkosten um das 700-fache bzw. 300-fache im Vergleich zu Router-R1 und ToolOrchestra. Diese Ergebnisse zeigen, dass explizite Fähigkeitsmodellierung skalierbare, interpretierbare und sample-effiziente Orchestrierung ermöglicht und eine prinzipielle Alternative zu datenintensiven RL-basierten Ansätzen bietet. Der Code ist verfügbar unter: https://github.com/jiayuww/SkillOrchestra.
Während Vision-Language-Action (VLA)-Modelle bei der Vorabschulung rasche Fortschritte verzeichnen, wird ihre Weiterentwicklung im Bereich des Reinforcement Learning (RL) nach wie vor durch geringe Stichprobeneffizienz und spärliche Belohnungssignale in realen Umgebungen behindert. Die Entwicklung generalisierbarer Prozessbelohnungsmodelle ist entscheidend, um die notwendige feinkörnige Rückmeldung zur Überbrückung dieser Lücke zu liefern. Bisherige temporale Wertfunktionen scheitern jedoch häufig an der Generalisierung über ihre Trainingsdomänen hinaus. Wir stellen TOPReward vor, eine neuartige, probabilistisch fundierte temporale Wertfunktion, die das latente Weltwissen vortrainierter Video-Vision-Language-Modelle (VLMs) nutzt, um den Fortschritt robotischer Aufgaben abzuschätzen. Im Gegensatz zu früheren Methoden, die VLMs anweisen, direkt Fortschrittswerte auszugeben – was anfällig für numerische Fehldarstellungen ist – extrahiert TOPReward den Aufgabenfortschritt direkt aus den internen Token-Logits des VLM. In Zero-Shot-Evaluierungen über 130+ verschiedene reale Aufgaben und mehrere Roboterplattformen (z.B. Franka, YAM, SO-100/101) erreicht TOPReward einen mittleren Value-Order-Korrelationskoeffizienten (VOC) von 0,947 auf Qwen3-VL und übertrifft damit den state-of-the-art GVL-Baseline, der auf demselben Open-Source-Modell eine nahezu nullkorrelation erreicht, dramatisch. Wir zeigen des Weiteren, dass TOPReward als vielseitiges Werkzeug für nachgelagerte Anwendungen dient, einschließlich Erfolgsdetektion und belohnungsausgerichtetem Behavior Cloning.
Einheitliche multimodale Modelle können visuelle Inhalte innerhalb einer einzigen Architektur sowohl verstehen als auch generieren. Bisherige Modelle sind jedoch nach wie vor datenhungrig und zu rechenintensiv für den Einsatz auf Edge-Geräten. Wir stellen Mobile-O vor, ein kompaktes Vision-Language-Diffusionsmodell, das einheitliche multimodale Intelligenz auf ein Mobilgerät bringt. Sein Kernmodul, der Mobile Conditioning Projector (MCP), fusioniert Vision-Language-Merkmale mit einem Diffusionsgenerator unter Verwendung von Tiefenweisen Separierbaren Faltungen und schichtenweiser Ausrichtung. Dieser Entwurf ermöglicht eine effiziente cross-modale Konditionierung mit minimalem Rechenaufwand. Nach dem Training mit nur wenigen Millionen Samples und einem anschließenden Training in einem neuartigen Quadrupel-Format (Generierungs-Prompt, Bild, Frage, Antwort) verbessert Mobile-O gleichzeitig sowohl das visuelle Verständnis als auch die Generierungsfähigkeiten. Trotz seiner Effizienz erreicht Mobile-O eine wettbewerbsfähige oder überlegene Leistung im Vergleich zu anderen einheitlichen Modellen: Es erzielt 74 % auf GenEval und übertrifft Show-O und JanusFlow um 5 % bzw. 11 %, bei gleichzeitig 6-facher bzw. 11-facher Beschleunigung. Im Bereich des visuellen Verständnisses übertrifft es sie im Durchschnitt über sieben Benchmarks um 15,3 % bzw. 5,1 %. Mit einer Laufzeit von nur ~3 Sekunden pro 512x512 Bild auf einem iPhone etabliert Mobile-O den ersten praktischen Rahmen für Echtzeit- multimodales Verständnis und Generierung auf Edge-Geräten. Wir hoffen, dass Mobile-O zukünftige Forschung zu echtzeitfähiger, einheitlicher multimodaler Intelligenz erleichtert, die vollständig on-device und ohne Cloud-Abhängigkeit läuft. Unser Code, Modelle, Datensätze und die Mobile-Anwendung sind öffentlich verfügbar unter https://amshaker.github.io/Mobile-O/.
Bei der sequenziellen Empfehlung werden zunehmend latente Mehrschritt-Rückschlüsse eingesetzt, um die Berechnung zur Testzeit zu verbessern. Trotz empirischer Verbesserungen steuern bestehende Ansätze Zwischenzustände des Rückschlusses weitgehend durch zieldominierte Zielvorgaben, ohne explizite Machbarkeitsbeschränkungen vorzugeben. Dies führt zu einer latenten Drift, bei der sich die Rückschlusspfade in unplausible Regionen entfernen. Wir vertreten die Ansicht, dass effektive Empfehlungsrückschlüsse stattdessen als Navigation auf einer kollaborativen Mannigfaltigkeit betrachtet werden sollten und nicht als freie latente Verfeinerung. Zu diesem Zweck schlagen wir ManCAR (Manifold-Constrained Adaptive Reasoning) vor, ein prinzipienbasiertes Framework, das Rückschlüsse innerhalb der Topologie eines globalen Interaktionsgraphen verankert. ManCAR konstruiert einen Prior für die lokale Absicht aus der kollaborativen Nachbarschaft der letzten Aktionen eines Benutzers, dargestellt als eine Verteilung über dem Item-Simplex. Während des Trainings passt das Modell schrittweise seine latente prädiktive Verteilung an diesen Prior an und zwingt so den Rückschlusspfad, innerhalb der gültigen Mannigfaltigkeit zu bleiben. Zur Testzeit schreitet der Rückschluss adaptiv fort, bis sich die prädiktive Verteilung stabilisiert, wodurch eine Überverfeinerung vermieden wird. Wir liefern eine variationelle Interpretation von ManCAR, um seine Drift-Präventions- und adaptiven Testzeit-Stoppmechanismen theoretisch zu validieren. Experimente auf sieben Benchmarks zeigen, dass ManCAR durchgängig state-of-the-art Baseline-Methoden übertrifft und eine relative Verbesserung von bis zu 46,88 % bezüglich NDCG@10 erreicht. Unser Code ist verfügbar unter https://github.com/FuCongResearchSquad/ManCAR.
Wir berichten über eine explorative Red-Teaming-Studie autonomer, sprachmodellgesteuerter Agenten, die in einer Live-Laborenumgebung mit persistentem Speicher, E-Mail-Konten, Discord-Zugriff, Dateisystemen und Shell-Ausführung eingesetzt wurden. Über einen Zeitraum von zwei Wochen interagierten zwanzig KI-Forscher mit den Agenten unter benignen und adversarischen Bedingungen. Mit Fokus auf Fehler, die aus der Integration von Sprachmodellen mit Autonomie, Werkzeugnutzung und Multi-Party-Kommunikation entstehen, dokumentieren wir elf repräsentative Fallstudien. Beobachtete Verhaltensweisen umfassen unbefugte Befolgung von Anweisungen Nicht-Berechtigter, Preisgabe sensibler Informationen, Ausführung destruktiver Systemaktionen, Denial-of-Service-Zustände, unkontrollierten Ressourcenverbrauch, Identitätsspoofing-Schwachstellen, cross-agenten Verbreitung unsicherer Praktiken und partielle Systemübernahmen. In mehreren Fällen meldeten Agenten Aufgabenabschlüsse, während der zugrundeliegende Systemzustand diesen Meldungen widersprach. Wir berichten auch über einige gescheiterte Versuche. Unsere Ergebnisse belegen die Existenz von sicherheits-, privatsphären- und governance-relevanten Schwachstellen in realistischen Einsatzszenarien. Diese Verhaltensweisen werfen ungelöste Fragen bezüglich Rechenschaftspflicht, delegierter Autorität und Verantwortung für nachgelagerte Schäden auf und erfordern dringende Aufmerksamkeit von Rechtswissenschaftlern, politischen Entscheidungsträgern und Forschern verschiedener Disziplinen. Dieser Bericht leistet einen ersten empirischen Beitrag zu dieser breiteren Diskussion.
Wir untersuchen die Aufgabe der herstellung objektbezogener visueller Korrespondenzen über verschiedene Blickwinkel in Videos hinweg, mit Fokus auf die anspruchsvollen Szenarien egozentrisch-zu-exozentrisch und exozentrisch-zu-egozentrisch. Wir schlagen ein einfaches, aber effektives Framework auf Basis konditioneller binärer Segmentierung vor, bei dem eine Objekt-Abfragemaske in eine latente Repräsentation kodiert wird, um die Lokalisierung des entsprechenden Objekts in einem Zielvideo zu steuern. Um robuste, blickwinkelinvariante Repräsentationen zu fördern, führen wir ein zyklus-konsistentes Trainingsziel ein: Die vorhergesagte Masse in der Zielansicht wird zurück in die Quellansicht projiziert, um die ursprüngliche Abfragemaske zu rekonstruieren. Diese bidirektionale Beschränkung liefert ein starkes selbstüberwachtes Signal ohne Notwendigkeit von Ground-Truth-Annotationen und ermöglicht Test-Time Training (TTT) während des Inferenzvorgangs. Experimente auf den Benchmarks Ego-Exo4D und HANDAL-X demonstrieren die Wirksamkeit unseres Optimierungsziels und der TTT-Strategie, wobei state-of-the-art Leistung erreicht wird. Der Code ist verfügbar unter https://github.com/shannany0606/CCMP.
Verstärkungslernen mit Verifizierern (RLVR) ist ein zentrales Paradigma zur Verbesserung des logischen Schließens großer Sprachmodelle (LLM), doch bestehende Methoden leiden oft unter begrenzter Exploration. Die Strategien kollabieren häufig auf wenige Denkmuster und beenden die tiefgehende Exploration vorzeitig, während konventionelle Entropie-Regularisierung nur lokale Stochastizität einführt und keine bedeutungsvolle Pfadvielfalt auf Ebene der Lösungswege induzieren kann. Dies führt zu schwachen und instabilen Lernsignalen in gruppenbasierter Strategienoptimierung. Wir schlagen DSDR vor, ein Reinforcement-Learning-Framework mit Dual-Scale-Diversity-Regularisierung, das die Vielfalt beim LLM-Schließen in globale und gekoppelte Komponenten zerlegt. Global fördert DSDR die Vielfalt unter korrekten Lösungswegen, um unterschiedliche Lösungsmodi zu erkunden. Lokal wendet es eine längeninvariante, tokenweise Entropie-Regularisierung an, die auf korrekte Pfade beschränkt ist, um einen Entropiekollaps innerhalb jedes Modus zu verhindern und gleichzeitig die Korrektheit zu bewahren. Die beiden Skalen werden durch einen Global-zu-Lokal-Zuteilungsmechanismus gekoppelt, der die lokale Regularisierung für unterscheidbarere korrekte Pfade betont. Wir liefern theoretische Unterstützung, die zeigt, dass DSDR unter beschränkter Regularisierung die optimale Korrektheit bewahrt, informative Lernsignale in gruppenbasierter Optimierung aufrechterhält und eine prinzipiengeleitete Global-zu-Lokal-Kopplungsregel liefert. Experimente auf mehreren Benchmarks für logisches Schließen demonstrieren konsistente Verbesserungen in Genauigkeit und Pass@k, was die Bedeutung dualskaliger Vielfalt für tiefgehende Exploration in RLVR unterstreicht. Code ist verfügbar unter https://github.com/SUSTechBruce/DSDR.
Die Fähigkeit, Werkzeuge zu manipulieren, erweitert das Aufgabenspektrum eines Roboters erheblich. Dennoch stellt die Werkzeugmanipulation eine anspruchsvolle Form der Geschicklichkeit dar, die das Greifen dünner Objekte, Drehbewegungen in der Hand und kraftvolle Interaktionen erfordert. Da die Erfassung von Teleoperationsdaten für diese Verhaltensweisen schwierig ist, stellt sim-to-real Reinforcement Learning (RL) eine vielversprechende Alternative dar. Bisherige Ansätze erfordern jedoch in der Regel erheblichen technischen Aufwand, um Objekte zu modellieren und Belohnungsfunktionen für jede Aufgabe anzupassen. In dieser Arbeit schlagen wir SimToolReal vor, einen Schritt zur Verallgemeinerung von sim-to-real RL-Policies für die Werkzeugmanipulation. Anstatt uns auf ein einzelnes Objekt und eine einzelne Aufgabe zu konzentrieren, generieren wir prozedural eine große Vielfalt werkzeugähnlicher Objektprimitive in der Simulation und trainieren eine einzige RL-Policy mit dem universellen Ziel, jedes Objekt in zufällige Zielpose zu manipulieren. Dieser Ansatz ermöglicht es SimToolReal, zur Testzeit allgemeine geschickte Werkzeugmanipulation durchzuführen, ohne aufgaben- oder objektspezifisches Training. Wir zeigen, dass SimToolReal bisherige Retargeting- und Fixed-Grasp-Methoden um 37 % übertrifft und dabei die Leistung von spezialisierten, für bestimmte Zielobjekte und -aufgaben trainierten RL-Policies erreicht. Abschließend demonstrieren wir, dass SimToolReal über eine Vielzahl alltäglicher Werkzeuge generalisiert und eine hohe Zero-Shot-Leistung in über 120 realen Durchläufen über 24 Aufgaben, 12 Objektinstanzen und 6 Werkzeugkategorien erzielt.
Von videogenerierenden Modellen erzeugte synthetische Daten haben sich als skalierbare Pipeline für das Robotik-Lernen als vielversprechend erwiesen, leiden jedoch oft unter inkonsistenter Aktionsqualität aufgrund von unvollkommen generierten Videos. Kürzlich wurden Vision-Language-Models (VLMs) zur Validierung der Videoqualität eingesetzt, doch sie haben Limitationen bei der Unterscheidung physikalisch korrekter Videos und können selbst dann die generierten Aktionen nicht direkt bewerten. Um dieses Problem zu lösen, stellen wir RoboCurate vor, ein neuartiges Framework zur Generierung synthetischer Roboterdaten, das die Qualität annotierter Aktionen durch Vergleich mit einer Simulationswiedergabe evaluiert und filtert. Konkret spielt RoboCurate die vorhergesagten Aktionen in einem Simulator ab und bewertet die Aktionsqualität, indem es die Bewegungskonsistenz zwischen der Simulationsausführung und dem generierten Video misst. Zusätzlich erschließen wir Beobachtungsvielfalt über den verfügbaren Datensatz hinaus via Bild-zu-Bild-Bearbeitung und wenden aktionserhaltenden Video-zu-Video-Transfer an, um die Darstellung weiter zu augmentieren. Wir beobachten, dass die von RoboCurate generierten Daten substantielle relative Verbesserungen der Erfolgsraten im Vergleich zur alleinigen Verwendung realer Daten erzielen: +70,1 % bei GR-1 Tabletop (300 Demonstrationen), +16,1 % bei DexMimicGen im Pre-Training-Setup und +179,9 % in der anspruchsvallen realen ALLEX-Humanoid-Dexterous-Manipulation-Umgebung.
Optische Zeichenerkennung (OCR) ist eine grundlegende Aufgabe zur Digitalisierung von Informationen und dient als entscheidende Brücke zwischen visuellen Daten und textuellem Verständnis. Während moderne Vision-Language-Modelle (VLM) in diesem Bereich hohe Genauigkeit erreicht haben, stützen sie sich überwiegend auf autoregressives Decodieren, das bei langen Dokumenten rechenintensiv und langsam wird, da ein sequenzieller Vorwärtsdurchlauf für jedes erzeugte Token erforderlich ist. Wir identifizieren eine zentrale Möglichkeit, diesen Engpass zu überwinden: Im Gegensatz zur freien Generierung ist OCR eine hochgradig deterministische Aufgabe, bei der die visuelle Eingabe eindeutig eine einzige Ausgabesequenz vorgibt, was theoretisch effizientes, paralleles Decodieren mittels Diffusionsmodellen ermöglicht. Wir zeigen jedoch, dass bestehende maskierte Diffusionsmodelle dieses Potenzial nicht ausschöpfen; diese führen strukturelle Instabilitäten ein, die bei flexiblen Aufgaben wie der Bildbeschreibung harmlos, aber für die starren Exakt-Treffer-Anforderungen der OCR katastrophal sind. Um diese Lücke zu schließen, stellen wir DODO vor, das erste VLM, das blockweise diskrete Diffusion nutzt und ihr Beschleunigungspotenzial für OCR erschließt. Durch die Zerlegung der Generierung in Blöcke mildert DODO die Synchronisationsfehler der globalen Diffusion. Empirisch erreicht unsere Methode eine annähernd state-of-the-art Genauigkeit bei gleichzeitig bis zu 3-fach schnellerer Inferenz im Vergleich zu autoregressiven Baseline-Modellen.
Agentische Gedächtnissysteme ermöglichen es Agenten auf Basis großer Sprachmodelle (LLM), Zustände über lange Interaktionen hinweg beizubehalten. Sie unterstützen langfristiges Schlussfolgern und Personalisierung über feste Kontextfenster hinaus. Trotz rasanter architektonischer Entwicklungen bleiben die empirischen Grundlagen dieser Systeme fragil: Bestehende Benchmarks sind oft nicht umfassend genug, Evaluationsmetriken sind nicht auf den semantischen Nutzen abgestimmt, die Leistung variiert erheblich zwischen zugrundeliegenden Basismodellen, und systemweite Kosten werden häufig übersehen. Dieser Übersichtsartikel bietet eine strukturierte Analyse agentischer Gedächtnissysteme aus architektonischer und systemtechnischer Perspektive. Zunächst führen wir eine prägnante Taxonomie von MAG-Systemen basierend auf vier Gedächtnisstrukturen ein. Anschließend analysieren wir zentrale Schwachstellen, die aktuelle Systeme limitieren, darunter Sättigungseffekte in Benchmarks, die Validität von Metriken und die Sensitivität von Bewertungsinstanzen, die abhängige Genauigkeit vom Basismodell sowie die durch Gedächtnispflege verursachten Latenz- und Durchsatzoverheads. Indem dieser Beitrag die Gedächtnisstruktur mit empirischen Limitationen verbindet, klärt er auf, warum aktuelle agentische Gedächtnissysteme oft ihr theoretisches Potenzial nicht erfüllen, und skizziert Richtungen für eine zuverlässigere Evaluation und skalierbare Systemgestaltung.
Die Optimierung von GPU-Kerneln ist entscheidend für effiziente moderne Machine-Learning-Systeme, bleibt jedoch aufgrund des komplexen Zusammenspiels von Designfaktoren und der rasanten Hardwareentwicklung eine Herausforderung. Bestehende automatisierte Ansätze behandeln Large Language Models (LLMs) typischerweise lediglich als stochastische Code-Generatoren innerhalb von heuristisch gesteuerten evolutionären Schleifen. Diese Methoden scheitern häufig an komplexen Kerneln, die koordinierte, mehrstufige strukturelle Transformationen erfordern, da ihnen explizite Planungsfähigkeiten fehlen und sie vielversprechende Strategien aufgrund ineffizienter oder falscher Zwischenimplementierungen verwerfen. Um dieses Problem zu lösen, schlagen wir Search via Co-Evolving World Model vor und implementieren darauf aufbauend K-Search. Indem wir statische Suchheuristiken durch ein ko-evolvierendes Weltmodell ersetzen, nutzt unser Framework das Vorwissen der LLMs über die Domäne, um die Suche zu steuern und den Optimierungsraum aktiv zu erkunden. Dieser Ansatz entkoppelt explizit die hochrangige algorithmische Planung von der niederrangigen Programminstanziierung, was es dem System ermöglicht, nicht-monotone Optimierungspfade zu navigieren und gleichzeitig resistent gegen temporäre Implementierungsdefekte zu bleiben. Wir evaluieren K-Search an verschiedenen komplexen Kerneln aus FlashInfer, darunter GKA-, MLA- und MoE-Kernel. Unsere Ergebnisse zeigen, dass K-Search state-of-the-art evolutionäre Suchmethoden signifikant übertrifft und durchschnittlich eine 2,10-fache Verbesserung sowie bis zu einen 14,3-fachen Gewinn bei komplexen MoE-Kerneln erzielt. Bei der GPUMode-TriMul-Aufgabe erreicht K-Search auf der H100 state-of-the-art-Leistung mit 1030us und übertrifft damit sowohl frühere evolutionäre als auch von Menschen entwickelte Lösungen.
Wir stellen Nacrith vor, ein verlustfreies Kompressionssystem, das ein Transformer-Sprachmodell mit 135 Millionen Parametern (SmolLM2-135M) mit einem Ensemble von leichtgewichtigen Online-Prädiktoren und einem 32-Bit-Arithmetischen Kodierer kombiniert. Über das grundlegende Paradigma "LLM plus Arithmetische Kodierung" hinaus führt Nacrith mehrere Beiträge ein: (1) ein Upgrade der CDF-Präzision von 2^16 auf 2^24, das ~75 % des Quantisierungs-Overheads eliminiert, der durch Mindestwahrscheinlichkeits-Untergrenzen in großen Vokabularen verursacht wird; (2) ein Token-level N-Gram-Modell für schnelle lokale Vorhersagen; (3) ein adaptiver Bias-Kopf im Logarithmus-Raum, der LLM-Fehler pro Dokument mittels Online Gradient Descent korrigiert; (4) ein konfidenzbasiertes LLM-Skipping zur Beschleunigung hochgradig vorhersagbarer Tokens; (5) ein hybrides Binärformat (NC06), das neuronale Kompression auf beliebige Binärdateien erweitert – unseres Wissens eine Neuheit unter LLM-basierten Kompressoren; (6) ein llama.cpp-Inferenz-Backend, das eine ~7x schnellere Einzeltoken-Decodierung als PyTorch erreicht; (7) parallele Multi-GPU-Kompression mit bis zu 8 Workern; und (8) ein natives KV-Cache-Sliding-Window, das die Kosten pro Slide um ~37x reduziert. Das System benötigt nur ~500 MB GGUF-Gewichte und ~1,2 GB VRAM pro Worker und läuft auf Consumer-GPUs. Auf alice29.txt (Canterbury Corpus, 152 KB) erreicht Nacrith 0,918 Bits pro Byte (bpb) – dies übertrifft gzip um das 3,1-fache, bzip2 um das 2,5-fache, CMIX v21 um 44 % und ts_zip um 20 %, wobei es unter die byte-basierten Shannon-Entropiegrenzen 0., 1. und 2. Ordnung komprimiert. Auf enwik8 (100 MB) erreicht Nacrith 0,9389 bpb (11,74 %) und übertrifft ts_zip (~1,11 bpb) um 15 % und FineZip (1,024 bpb) um 8 %, obwohl es ein 60x kleineres Modell ohne Feinjustierung verwendet. Eine Out-of-Distribution-Evaluierung an einem Dokument, das nach dem Trainings-Cutoff des Modells veröffentlicht wurde, bestätigt, dass diese Gewinne keine Memorisierungsartefakte sind, indem auf ungesehenem Text 0,723 bpb erreicht werden.
Vision-Language-Action (VLA)-Modelle haben sich als vielversprechendes Paradigma für universelle Robotersteuerung etabliert, das großskaliges Pre-Training nutzt, um hohe Leistungsfähigkeit zu erreichen. Das Feld hat sich rapide weiterentwickelt, ergänzt durch zusätzliche räumliche Priors und diverse architektonische Innovationen. Diese Fortschritte gehen jedoch oft mit unterschiedlichen Trainingsrezepten und Implementierungsdetails einher, was es schwierig machen kann, die genaue Quelle empirischer Verbesserungen zu identifizieren. In dieser Arbeit stellen wir SimVLA vor, eine vereinfachte Baseline, die als transparenter Referenzpunkt für die VLA-Forschung dienen soll. Durch strikte Entkopplung von Wahrnehmung und Steuerung, die Verwendung eines standardmäßigen Vision-Language-Backbones und eines leichten Action-Heads sowie die Standardisierung kritischer Trainingsdynamiken zeigen wir, dass ein minimales Design State-of-the-Art-Leistung erreichen kann. Trotz nur 0,5B Parametern übertrifft SimVLA Modelle mit mehreren Milliarden Parametern in standardisierten Simulationsbenchmarks ohne Robotervorabtraining. SimVLA erreicht zudem vergleichbare Leistung auf realen Robotern wie pi0.5. Unsere Ergebnisse etablieren SimVLA als eine robuste, reproduzierbare Baseline, die eine klare Zuordnung empirischer Gewinne zu zukünftigen Architekturinnovationen ermöglicht. Webseite: https://frontierrobo.github.io/SimVLA
Moderne groß angelegte Ranking-Systeme operieren in einem komplexen Umfeld konkurrierender Ziele, betrieblicher Zwänge und sich entwickelnder Produktanforderungen. Der Fortschritt in diesem Bereich wird zunehmend durch den ingenieurtechnischen Kontext eingeschränkt: den mühsamen Prozess der Übersetzung vager Produktabsichten in sinnvolle, ausführbare und überprüfbare Hypothesen, und nicht mehr allein durch Modellierungstechniken. Wir stellen GEARS (Generative Engine for Agentic Ranking Systems) vor, ein Framework, das Ranking-Optimierung als autonomen Entdeckungsprozess in einer programmierbaren Experimentierumgebung neu definiert. Anstatt Optimierung als statische Modellauswahl zu behandeln, nutzt GEARS spezialisierte Agenten-Fähigkeiten, um das Wissen von Ranking-Experten in wiederverwendbare Reasoning-Fähigkeiten zu kapseln. Dies ermöglicht es Operatoren, Systeme über hochrangige Absichten wie Personalisierung zu steuern. Darüber hinaus integriert das Framework Validierungshaken, um statistische Robustheit zu gewährleisten und spröde Strategien herauszufiltern, die sich zu stark an kurzfristige Signale anpassen. Experimentelle Validierungen über verschiedene Produktoberflächen hinweg zeigen, dass GEARS durch die Synergie algorithmischer Signale mit tiefgreifendem Ranking-Kontext konsequent überlegene, nahezu Pareto-effiziente Strategien identifiziert und dabei eine strenge Bereitstellungsstabilität beibehält.
Die digitale Industrie fordert hochwertige, vielfältige modulare 3D-Assets, insbesondere für nutzergenerierte Inhalte (UGC). In dieser Arbeit stellen wir AssetFormer vor, ein autoregressives, transformerbasiertes Modell zur Generierung modularer 3D-Assets aus Textbeschreibungen. Unsere Pilotstudie nutzt reale modulare Assets von Online-Plattformen. AssetFormer bewältigt die Herausforderung, Assets zu erstellen, die aus Grundkomponenten bestehen und anwendungsspezifische Designparameter einhalten. Durch innovative Anpassung von Modulsequenzierung und Decodierungstechniken, inspiriert von Sprachmodellen, verbessert unser Ansatz die Generierungsqualität durch autoregressive Modellierung. Erste Ergebnisse belegen die Wirksamkeit von AssetFormer bei der Vereinfachung der Asseterstellung für professionelle Entwicklung und UGC-Szenarien. Diese Arbeit bietet ein flexibles Framework, das auf verschiedene Arten modularer 3D-Assets erweiterbar ist und zum breiteren Feld der 3D-Inhaltsgenerierung beiträgt. Der Code ist verfügbar unter https://github.com/Advocate99/AssetFormer.
Adeno-assoziierte Viren (AAVs) sind vielversprechende Vektoren für die Gentherapie, doch ihre nativen Serotypen stoßen auf Grenzen hinsichtlich Gewebetropismus, Immunumgehung und Produktionseffizienz. Die Entwicklung von Kapsiden zur Überwindung dieser Hindernisse ist aufgrund des riesigen Sequenzraums und der Schwierigkeit, mehrere funktionelle Eigenschaften gleichzeitig zu optimieren, eine Herausforderung. Die Komplexität erhöht sich zusätzlich bei der Niere, die einzigartige anatomische Barrieren und zelluläre Zielstrukturen aufweist, die eine präzise und effiziente Vektorentechnik erfordern. Hier stellen wir AAVGen vor, ein generatives KI-Framework für den de-novo-Entwurf von AAV-Kapsiden mit verbesserten Multimerkmalprofilen. AAVGen integriert ein Protein-Sprachmodell (PLM) mit überwachtem Fein-Tuning (SFT) und einer Reinforcement-Learning-Technik namens Group Sequence Policy Optimization (GSPO). Das Modell wird durch ein zusammengesetztes Belohnungssignal gesteuert, das von drei ESM-2-basierten Regressionsprädiktoren abgeleitet wird, von denen jeder darauf trainiert ist, eine Schlüsseleigenschaft vorherzusagen: Produktionsfitness, Nierentropismus und Thermostabilität. Unsere Ergebnisse zeigen, dass AAVGen eine vielfältige Bibliothek neuartiger VP1-Proteinsequenzen erzeugt. In-silico-Validierungen ergaben, dass die Mehrheit der generierten Varianten eine überlegene Leistung über alle drei verwendeten Indizes aufweist, was auf eine erfolgreiche Multi-Objective-Optimierung hindeutet. Darüber hinaus bestätigt eine Strukturanalyse mittels AlphaFold3, dass die generierten Sequenzen trotz Sequenzdiversifizierung die kanonische Kapsidfaltung beibehalten. AAVGen legt eine Grundlage für datengestütztes virales Vektoringenieurwesen und beschleunigt die Entwicklung von AAV-Vektoren der nächsten Generation mit maßgeschneiderten funktionellen Eigenschaften.
Wir stellen tttLRM vor, ein neuartiges großes 3D-Rekonstruktionsmodell, das eine Test-Time-Training(TTT)-Schicht nutzt, um eine autoregressive 3D-Rekonstruktion mit langem Kontext und linearer rechnerischer Komplexität zu ermöglichen und so die Fähigkeiten des Modells weiter zu skalieren. Unser Framework komprimiert effizient mehrere Bildbeobachtungen in den Fast Weights der TTT-Schicht und bildet so eine implizite 3D-Repräsentation im latenten Raum, die in verschiedene explizite Formate decodiert werden kann, wie z.B. Gaussian Splats (GS) für nachgelagerte Anwendungen. Die Online-Lern-Variante unseres Modells unterstützt progressive 3D-Rekonstruktion und Verfeinerung aus Streaming-Beobachtungen. Wir zeigen, dass Pre-Training auf Novel-View-Synthesis-Aufgaben effektiv auf explizite 3D-Modellierung überträgt, was zu verbesserter Rekonstruktionsqualität und schnellerer Konvergenz führt. Umfangreiche Experimente belegen, dass unsere Methode bei der feedforward-basierten 3D-Gauß-Rekonstruktion eine überlegene Leistung gegenüber state-of-the-art Ansätzen sowohl für Objekte als auch für Szenen erzielt.
Die kausale Entdeckung für sowohl Querschnitts- als auch Zeitreihendaten folgte traditionell einem datensatzspezifischen Paradigma, bei dem für jeden einzelnen Datensatz ein neues Modell angepasst wird. Dieser Ansatz schränkt das Potenzial von Multi-Datensatz-Pre-Training ein. Das Konzept der Large Causal Models (LCMs) sieht eine Klasse von vortrainierten neuronalen Architekturen vor, die speziell für die zeitliche kausale Entdeckung entwickelt wurden. Bisherige Ansätze sind auf geringe Variablenanzahlen beschränkt, verschlechtern sich bei größeren Eingaben und stützen sich stark auf synthetische Daten, was die Generalisierbarkeit einschränkt. Wir schlagen ein prinzipielles Framework für LCMs vor, das diverse synthetische Generatoren mit realistischen Zeitreihendatensätzen kombiniert und Lernen im großen Maßstab ermöglicht. Umfangreiche Experimente mit synthetischen, semi-synthetischen und realistischen Benchmarks zeigen, dass LCMs effektiv auf höhere Variablenanzahlen und tiefere Architekturen skaliert werden können, während sie eine starke Leistung beibehalten. Trainierte Modelle erreichen im Vergleich zu klassischen und neuronalen Baseline-Modellen eine gleichwertige oder überlegene Genauigkeit, insbesondere in Out-of-Distribution-Szenarien, bei gleichzeitig schneller, Single-Pass-Inferenz. Die Ergebnisse demonstrieren, dass LCMs ein vielversprechendes Foundation-Model-Paradigma für die zeitliche kausale Entdeckung darstellen. Experimente und Modellgewichte sind verfügbar unter https://github.com/kougioulis/LCM-paper/.
Aktuelle Methoden zur 3D-Menschanimation erreichen kaum Photorealismus: kinematikbasierte Ansätze mangelt es an nicht-starrer Dynamik (z.B. Kleidungsdynamik), während Methoden, die Video-Diffusions-Priors nutzen, nicht-starre Bewegung synthetisieren können, aber unter Qualitätsartefakten und Identitätsverlust leiden. Um diese Einschränkungen zu überwinden, präsentieren wir Ani3DHuman, ein Framework, das kinematikbasierte Animation mit Video-Diffusions-Priors verbindet. Wir führen zunächst eine geschichtete Bewegungsrepräsentation ein, die starre Bewegung von residualer nicht-starrer Bewegung entkoppelt. Die starre Bewegung wird durch ein kinematisches Verfahren erzeugt, das dann ein grobes Rendering produziert, um das Video-Diffusionsmodell bei der Generierung von Videosequenzen anzuleiten, welche die residuale nicht-starre Bewegung wiederherstellen. Diese Wiederherstellungsaufgabe, basierend auf Diffusion Sampling, ist jedoch äußerst anspruchsvoll, da die initialen Renderings Out-of-Distribution sind, was standardmäßige deterministische ODE-Sampler scheitern lässt. Daher schlagen wir eine neuartige, selbstgeführte stochastische Sampling-Methode vor, die das Out-of-Distribution-Problem effektiv adressiert, indem sie stochastisches Sampling (für photorealistische Qualität) mit Selbstführung (für Identitätstreue) kombiniert. Diese wiederhergestellten Videos liefern hochwertige Supervision, die die Optimierung des residualen nicht-starren Bewegungsfelds ermöglicht. Umfangreiche Experimente zeigen, dass \MethodName photorealistische 3D-Menschanimation generieren kann und bestehende Methoden übertrifft. Code ist verfügbar unter https://github.com/qiisun/ani3dhuman.
Trotz des bemerkenswerten praktischen Erfolgs transformerbasierter Sprachmodelle haben neuere Arbeiten Bedenken hinsichtlich ihrer Fähigkeit zum State-Tracking aufgeworfen. Insbesondere hat eine wachsende Anzahl von Veröffentlichungen diese Einschränkung hauptsächlich durch Fehler bei der Out-of-Distribution (OOD)-Generalisation, wie z.B. Längenextrapolation, aufgezeigt. In dieser Arbeit lenken wir die Aufmerksamkeit auf die In-Distribution-Implikationen dieser Einschränkungen. Wir führen eine groß angelegte experimentelle Studie zur Dateneffizienz von Transformern und rekurrenten neuronalen Netzen (RNNs) über verschiedene Überwachungsregime hinweg durch. Wir stellen fest, dass der von Transformern benötigte Umfang an Trainingsdaten mit der Größe des Zustandsraums und der Sequenzlänge viel schneller wächst als bei RNNs. Darüber hinaus analysieren wir, inwieweit gelernte State-Tracking-Mechanismen über verschiedene Sequenzlängen hinweg geteilt werden. Wir zeigen, dass Transformer vernachlässigbaren oder sogar nachteiligen Gewichteteiling über Längen hinweg aufweisen, was darauf hindeutet, dass sie längenspezifische Lösungen isoliert erlernen. Im Gegensatz dazu zeigen rekurrente Modelle effektives amortisiertes Lernen durch Gewichteteiling über Längen hinweg, was es ermöglicht, dass Daten von einer Sequenzlänge die Leistung bei anderen verbessern. Zusammengenommen demonstrieren diese Ergebnisse, dass State-Tracking auch bei übereinstimmenden Trainings- und Evaluierungsverteilungen eine grundlegende Herausforderung für Transformer bleibt.
Zuverlässige Odometrie für Laufroboter ohne Kameras oder LiDAR bleibt aufgrund von IMU-Drift und verrauschter Gelenkgeschwindigkeitserfassung eine Herausforderung. Dieser Beitrag stellt einen rein propriozeptiven Zustandsschätzer vor, der ausschließlich IMU- und Motormessungen nutzt, um Körperpose und -geschwindigkeit gemeinsam zu schätzen, mit einer einheitlichen Formulierung, die für zweibeinige, vierbeinige und radbeinigte Roboter anwendbar ist. Die zentrale Idee ist, jedes kontaktierende Bein als kinematischen Anker zu behandeln: eine auf Gelenkmomenten basierende Schätzung der Fußkräfte wählt zuverlässige Kontakte aus, und die entsprechenden Fußaufsatzpositionen liefern intermittierende weltbezogene Constraints, die Langzeitdrift unterdrücken. Um Höhendrift bei längerer Fortbewegung zu verhindern, führen wir eine leichtgewichtige Höhen-Clusterung und Zeitabkling-Korrektur ein, die neu erfasste Fußaufsatzhöhen an zuvor beobachtete Stützebenen anpasst. Um die Beobachtung der Fußgeschwindigkeit bei Encoder-Quantisierung zu verbessern, wenden wir einen inverskinematischen Cubature-Kalman-Filter an, der Fußendgeschwindigkeiten direkt aus Gelenkwinkeln und -geschwindigkeiten filtert. Die Implementierung mildert ferner die Gierdrift durch geometrische Konsistenz bei Mehrfachkontakt und fällt elegant auf eine kinematisch abgeleitete Richtungsreferenz zurück, wenn IMU-Gier-Constraints nicht verfügbar oder unzuverlässig sind. Wir evaluieren die Methode auf vier vierbeinigen Plattformen (drei Astrall-Roboter und ein Unitree Go2 EDU) mit geschlossenen Trajektorien. Auf dem Astrall-Punktfußroboter A schließt eine horizontale Schleife von ~200 m mit 0,1638 m und eine vertikale Schleife von ~15 m mit 0,219 m Fehler; auf dem radbeinigen Roboter B betragen die entsprechenden Fehler 0,2264 m und 0,199 m. Auf dem radbeinigen Roboter C ergibt eine horizontale Schleife von ~700 m 7,68 m Fehler und eine vertikale Schleife von ~20 m 0,540 m Fehler. Der Unitree Go2 EDU schließt eine horizontale Schleife von ~120 m mit 2,2138 m Fehler und eine vertikale Schleife von ~8 m mit weniger als 0,1 m vertikalem Fehler. github.com/ShineMinxing/Ros2Go2Estimator.git
Die zeitreihenbasierte Diagnosereasoning ist für viele Anwendungen von entscheidender Bedeutung, doch bestehende Lösungen weisen eine anhaltende Lücke auf: Allgemeine Reasoning-Großsprachmodelle (GRLMs) verfügen über starke Reasoning-Fähigkeiten, aber es fehlt ihnen an domänenspezifischem Wissen, um komplexe Zeitreihenmuster zu verstehen. Im Gegensatz dazu verstehen feinabgestimmte zeitreihenbasierte LLMs (TSLMs) diese Muster, mangelt es ihnen jedoch an der Fähigkeit, Reasoning für komplexere Fragestellungen zu verallgemeinern. Um diese Lücke zu schließen, schlagen wir ein hybrides Wissensinjizierungsframework vor, das von TSLMs generierte Erkenntnisse direkt in den Reasoning-Pfad von GRLMs injiziert und so starkes Zeitreihen-Reasoning mit domänenspezifischem Wissen ermöglicht. Da die Datensammlung für die Feinabstimmung durch Wissensinjizierung kostspielig ist, nutzen wir weiterhin einen reinforcement-learning-basierten Ansatz mit verifizierbaren Belohnungen (RLVR), um wissensreiche Reasoning-Pfade ohne menschliche Aufsicht zu generieren und diese domänenspezifischen Denkpfade in GRLMs zur effizienten Wissensinjizierung zu übertragen. Zusätzlich veröffentlichen wir SenTSR-Bench, einen Benchmark für multivariates zeitreihenbasiertes Diagnosereasoning, der aus realen industriellen Betriebsdaten erhoben wurde. Sowohl auf SenTSR-Bench als auch auf anderen öffentlichen Datensätzen übertrifft unsere Methode durchgängig TSLMs um 9,1 %–26,1 % und GRLMs um 7,9 %–22,4 % und liefert robuste, kontextbewusste Einblicke in die zeitreihenbasierte Diagnostik.