papers.description
Der rasch wachsende Bedarf an hochwertigen Daten für große Sprachmodelle (LLMs) hat den Bedarf an skalierbaren, zuverlässigen und semantisch reichhaltigen Datenaufbereitungspipelines verstärkt. Allerdings werden aktuelle Praktiken nach wie vor von Ad-hoc-Skripten und lose spezifizierten Workflows dominiert, denen prinzipielle Abstraktionen fehlen, die Reproduzierbarkeit behindern und nur begrenzte Unterstützung für modellgestützte Datengenerierung bieten. Um diese Herausforderungen zu bewältigen, stellen wir DataFlow vor, ein einheitliches und erweiterbares LLM-gestütztes Framework zur Datenaufbereitung. DataFlow wurde mit Systemabstraktionen entworfen, die modulare, wiederverwendbare und kombinierbare Datentransformationen ermöglichen, und bietet eine Pipeline-Erstellungs-API im PyTorch-Stil zum Aufbau debug- und optimierbarer Dataflows. Das Framework besteht aus fast 200 wiederverwendbaren Operatoren und sechs domänenübergreifenden Pipelines, die die Bereiche Text, mathematisches Schließen, Code, Text-to-SQL, agentenbasierte RAG-Systeme und groß angelegte Wissensextraktion abdecken. Um die Benutzerfreundlichkeit weiter zu verbessern, führen wir DataFlow-Agent ein, das natürliche Sprachspezifikationen automatisch über Operatorsynthese, Pipeline-Planung und iterative Verifikation in ausführbare Pipelines übersetzt. In sechs repräsentativen Anwendungsfällen verbessert DataFlow durchgängig die Leistung nachgelagerter LLMs. Unsere Mathematik-, Code- und Text-Pipelines übertreffen kuratierte menschliche Datensätze und spezialisierte synthetische Baselines, mit bis zu +3 % höherer Ausführungsgenauigkeit in Text-to-SQL gegenüber SynSQL, durchschnittlich +7 % Verbesserung auf Code-Benchmarks und Steigerungen von 1–3 Punkten auf MATH, GSM8K und AIME. Darüber hinaus ermöglicht ein von DataFlow erzeugter, einheitlicher 10K-Beispiel-Datensatz, dass Basismodelle Gegenstücke übertreffen, die mit 1M Infinity-Instruct-Daten trainiert wurden. Diese Ergebnisse demonstrieren, dass DataFlow eine praktische und leistungsstarke Grundlage für zuverlässige, reproduzierbare und skalierbare LLM-Datenaufbereitung bietet und eine Systemgrundlage für die zukünftige datenzentrierte KI-Entwicklung schafft.
Tiefe Repräsentationen über Modalitäten hinweg sind inhärent miteinander verwoben. In dieser Arbeit analysieren wir systematisch die spektralen Eigenschaften verschiedener semantischer und Pixel-Encoder. Interessanterweise deckt unsere Studie eine höchst aufschlussreiche und selten untersuchte Korrespondenz zwischen dem Frequenzspektrum eines Encoders und seiner funktionalen Rolle auf: Semantische Encoder erfassen primär niederfrequente Komponenten, die abstrakte Bedeutung kodieren, wohingegen Pixel-Encoder zusätzlich hochfrequente Informationen bewahren, die fein granulare Details übermitteln. Diese heuristische Erkenntnis bietet eine vereinheitlichende Perspektive, die das Encoder-Verhalten an seine zugrundeliegende Spektralstruktur bindet. Wir definieren dies als die Prismen-Hypothese, bei der jede Datenmodalität als eine Projektion der natürlichen Welt auf ein gemeinsames Merkmalspektrum betrachtet werden kann, ähnlich wie bei einem Prisma. Aufbauend auf dieser Einsicht schlagen wir Unified Autoencoding (UAE) vor, ein Modell, das semantische Struktur und Pixeldetails über einen innovativen Frequenzband-Modulator harmonisiert und ihre nahtlose Koexistenz ermöglicht. Umfangreiche Experimente auf den ImageNet- und MS-COCO-Benchmarks validieren, dass unser UAE semantische Abstraktion und Pixelgenauigkeit effektiv in einem einzigen latenten Raum mit State-of-the-Art-Leistung vereint.
Das Paradigma der In-context-Generierung hat kürzlich sowohl in Bezug auf Dateneffizienz als auch auf die Synthesequalität eine starke Leistungsfähigkeit beim instruktionsbasierten Bildbearbeitung demonstriert. Dennoch ist die Übertragung dieses In-context-Lernens auf die instruktionsbasierte Videobearbeitung nicht trivial. Ohne die Bearbeitungsregionen genau zu spezifizieren, können die Ergebnisse unter dem Problem ungenauer Bearbeitungsbereiche und der Token-Interferenz zwischen Bearbeitungs- und Nicht-Bearbeitungsbereichen während der Denoisierung leiden. Um diese Probleme zu adressieren, stellen wir ReCo vor, ein neues Paradigma für die instruktionsbasierte Videobearbeitung, das neuartig die Modellierung von Constraints zwischen Bearbeitungs- und Nicht-Bearbeitungsregionen während der In-context-Generierung untersucht. Technisch gesehen verkettet ReCo Quell- und Zielvideo seitenweise für eine gemeinsame Denoisierung. Um das Video-Diffusionslernen zu kalibrieren, nutzt ReCo zwei Regularisierungsterme, nämlich latente Regularisierung und Attention-Regularisierung, die auf den jeweils einen Schritt zurückgerechneten denoised Latents bzw. Attention-Maps operieren. Ersteres erhöht die latente Diskrepanz der Bearbeitungsregion zwischen Quell- und Zielvideos, während es die der Nicht-Bearbeitungsbereiche verringert, um die Modifikation im Bearbeitungsbereich zu betonen und unerwünschte Inhaltsgenerierung außerhalb zu reduzieren. Letzteres unterdrückt die Aufmerksamkeit von Tokens in der Bearbeitungsregion auf Tokens im Gegenstück des Quellvideos, wodurch deren Interferenz während der Generierung neuer Objekte im Zielvideo gemildert wird. Darüber hinaus schlagen wir einen großen, hochwertigen Videobearbeitungsdatensatz vor, d.h. ReCo-Data, der 500.000 Instruktions-Video-Paare umfasst, um das Modelltraining zu unterstützen. Umfangreiche Experimente, die an vier wichtigen instruktionsbasierten Videobearbeitungsaufgaben durchgeführt wurden, demonstrieren die Überlegenheit unseres Ansatzes.
Jüngste Fortschritte bei Video-Diffusionsmodellen haben das wachsende Interesse an kamera-gesteuerter Neuansichts-Videogenerierung für dynamische Szenen beflügelt, mit dem Ziel, Creatives nachträglich cinematische Kamerasteuerungsmöglichkeiten zu bieten. Eine zentrale Herausforderung bei der kamera-gesteuerten Videogenerierung besteht darin, die Treue zur vorgegebenen Kamerapose sicherzustellen, während Blickkonsistenz erhalten und verdeckte Geometrie aus begrenzten Beobachtungen erschlossen wird. Bisherige Methoden trainieren entweder trajektorien-konditionierte Videogenerierungsmodelle auf Trajektorien-Video-Paar-Datensätzen oder schätzen die Tiefe aus dem Eingabevideo, um es entlang einer Zieltrajektorie zu reprojizieren und die unprojizierten Bereiche zu generieren. Dennoch scheitern bestehende Methoden an der Erzeugung kamera-posentreuer, hochwertiger Videos aus zwei Hauptgründen: (1) reprojektionsbasierte Ansätze sind stark anfällig für Fehler durch ungenaue Tiefenschätzung; und (2) die begrenzte Vielfalt von Kameratrajektorien in existierenden Datensätzen schränkt trainierte Modelle ein. Um diese Einschränkungen zu überwinden, präsentieren wir InfCam, ein tiefenfreies, kamera-gesteuertes Video-zu-Video-Generierungsframework mit hoher Posentreue. Das Framework integriert zwei Schlüsselkomponenten: (1) unendliche Homographie-Verzerrung, die 3D-Kamerarotationen direkt im 2D-Latenzraum eines Video-Diffusionsmodells kodiert. Durch Konditionierung auf diese rauschfreie Rotationsinformation wird der residuale Parallaxenterm per End-to-End-Training vorhergesagt, um hohe Kameraposentreue zu erreichen; und (2) eine Datenaugmentations-Pipeline, die bestehende synthetische Multiview-Datensätze in Sequenzen mit diversen Trajektorien und Brennweiten transformiert. Experimentelle Ergebnisse zeigen, dass InfCam Baseline-Methoden in Kameraposengenauigkeit und visueller Treue übertrifft und gut von synthetischen auf reale Daten generalisiert. Link zu unserer Projektseite: https://emjay73.github.io/InfCam/
Dynamic Retrieval-Augmented Generation bestimmt adaptiv, wann während der Generierung eine Abfrage durchgeführt werden muss, um Halluzinationen in großen Sprachmodellen (LLMs) zu reduzieren. Bisherige Methoden stützen sich jedoch auf modellinterne Signale (z.B. Logits, Entropie), die grundsätzlich unzuverlässig sind, da LLMs typischerweise schlecht kalibriert sind und oft hohes Vertrauen in fehlerhafte Ausgaben zeigen. Wir schlagen QuCo-RAG vor, das von subjektivem Vertrauen zu objektiven Statistiken übergeht, die aus Vortrainingsdaten berechnet werden. Unsere Methode quantifiziert Unsicherheit in zwei Stufen: (1) Vor der Generierung identifizieren wir niedrigfrequente Entitäten, die Wissenslücken im Long-Tail-Bereich anzeigen; (2) Während der Generierung überprüfen wir die gemeinsame Auftretenshäufigkeit von Entitäten im Vortrainingskorpus, wobei kein gemeinsames Auftreten oft auf ein Halluzinationsrisiko hindeutet. Beide Stufen nutzen Infini-gram für Abfragen mit Millisekunden-Latenz über 4 Billionen Tokens und lösen eine Abfrage aus, wenn die Unsicherheit hoch ist. Experimente auf Multi-Hop-QA-Benchmarks zeigen, dass QuCo-RAG mit OLMo-2-Modellen gegenüber state-of-the-art Baseline-Methoden EM-Gewinne von 5–12 Punkten erzielt und effektiv auf Modelle mit nicht-offengelegten Vortrainingsdaten (Llama, Qwen, GPT) überträgt, wobei die EM um bis zu 14 Punkte verbessert wird. Domänenübergreifende Generalisierung auf biomedizinische QA validiert weiter die Robustheit unseres Paradigmas. Diese Ergebnisse etablieren korpusbasierte Verifikation als ein prinzipielles, praktisch modellagnostisches Paradigma für dynamisches RAG. Unser Code ist öffentlich verfügbar unter https://github.com/ZhishanQ/QuCo-RAG.
Eine genaue Schätzung der Item-Schwierigkeit (von Fragen oder Aufgaben) ist für die Bildungsbewertung von entscheidender Bedeutung, leidet jedoch unter dem Cold-Start-Problem. Während Large Language Models übermenschliche Fähigkeiten zur Problemlösung demonstrieren, bleibt die Frage offen, ob sie die kognitiven Schwierigkeiten menschlicher Lernender wahrnehmen können. In dieser Arbeit präsentieren wir eine groß angelegte empirische Analyse der Mensch-KI-Schwierigkeitsabstimmung für über 20 Modelle in verschiedenen Domänen wie medizinischem Wissen und mathematischem Denken. Unsere Ergebnisse zeigen eine systematische Fehlausrichtung, bei der eine Vergrößerung der Modellgröße nicht zuverlässig hilfreich ist; anstatt sich mit Menschen abzustimmen, konvergieren Modelle zu einem gemeinsamen Maschinenkonsens. Wir beobachten, dass hohe Leistungsfähigkeit oft eine genaue Schwierigkeitsschätzung behindert, da Modelle Schwierigkeiten haben, die Fähigkeitsgrenzen von Studierenden zu simulieren, selbst wenn sie ausdrücklich aufgefordert werden, bestimmte Kompetenzniveaus einzunehmen. Darüber hinaus stellen wir einen kritischen Mangel an Introspektion fest, da Modelle nicht in der Lage sind, ihre eigenen Grenzen vorherzusagen. Diese Ergebnisse deuten darauf hin, dass allgemeine Problemlösungsfähigkeit kein Verständnis für menschliche kognitive Schwierigkeiten impliziert, was die Herausforderung bei der Verwendung aktueller Modelle für die automatische Schwierigkeitsvorhersage unterstreicht.
Die Erzeugung langreichweitiger, geometrisch konsistenter Videos stellt ein grundlegendes Dilemma dar: Während Konsistenz strikte Einhaltung der 3D-Geometrie im Pixelraum erfordert, operieren moderne generative Modelle am effektivsten in einem kamera-konditionierten latenten Raum. Diese Diskrepanz führt dazu, dass aktuelle Methoden mit verdeckten Bereichen und komplexen Kameratrajektorien kämpfen. Um diese Lücke zu schließen, schlagen wir WorldWarp vor, ein Framework, das einen 3D-Strukturanker mit einem 2D-generativen Verfeinerer koppelt. Um geometrische Verankerung zu schaffen, pflegt WorldWarp einen online 3D-Geometrie-Cache, der mittels Gaussian Splatting (3DGS) aufgebaut wird. Durch explizites Warpen historischer Inhalte in neue Blickwinkel dient dieser Cache als strukturelles Gerüst, das sicherstellt, dass jedes neue Frame die vorherige Geometrie respektiert. Statisches Warpen hinterlässt jedoch unweigerlich Lücken und Artefakte aufgrund von Verdeckungen. Dies lösen wir mit einem Spatio-Temporal Diffusion (ST-Diff)-Modell, das für ein "Füllen-und-Überarbeiten"-Ziel konzipiert ist. Unsere Schlüsselinnovation ist ein räumlich-zeitlich variierender Noise-Zeitplan: Leere Regionen erhalten volles Rauschen zur Auslösung der Generierung, während gewarpte Regionen partielles Rauschen zur Ermöglichung der Verfeinerung erhalten. Durch dynamisches Aktualisieren des 3D-Caches in jedem Schritt bewahrt WorldWarp die Konsistenz über Videoabschnitte hinweg. Folglich erreicht es state-of-the-art Bildtreue, indem es sicherstellt, dass 3D-Logik die Struktur leitet, während Diffusionslogik die Textur perfektioniert. Projektseite: https://hyokong.github.io/worldwarp-page/.
Trajektorienplanung in unstrukturierten Umgebungen ist eine grundlegende und anspruchsvolle Fähigkeit für mobile Roboter. Traditionelle modulare Pipelines leiden unter Latenz und kaskadierenden Fehlern zwischen Wahrnehmungs-, Lokalisierungs-, Kartierungs- und Planungsmodulen. Aktuelle End-to-End-Lernverfahren kartieren rohe visuelle Beobachtungen direkt auf Steuersignale oder Trajektorien und versprechen so eine höhere Leistung und Effizienz in Open-World-Szenarien. Die meisten bisherigen End-to-End-Ansätze sind jedoch nach wie vor auf separate Lokalisierungsmodule angewiesen, die für die Zustandsschätzung des eigenen Systems eine genaue extrinsische Sensorkalibrierung voraussetzen, was die Generalisierung über verschiedene Roboterplatformen und Umgebungen hinweg einschränkt. Wir stellen LoGoPlanner vor, ein Lokalisierungsbasiertes, End-to-End-Navigationsframework, das diese Einschränkungen adressiert, indem es: (1) ein Backbone-Modell für langfristige visuelle Geometrie feinjustiert, um Vorhersagen mit absolutem metrischem Maßstab zu fundieren und so eine implizite Zustandsschätzung für eine genaue Lokalisierung bereitzustellen; (2) die Geometrie der Umgebungsszene aus historischen Beobachtungen rekonstruiert, um ein dichtes, feinkörniges Umweltbewusstsein für eine zuverlässige Hindernisvermeidung zu schaffen; und (3) die Policy auf der durch die vorgenannten Hilfsaufgaben gebootstrappten impliziten Geometrie konditioniert, um so die Fehlerfortpflanzung zu reduzieren. Wir evaluieren LoGoPlanner sowohl in Simulationen als auch in realen Umgebungen, wo sein vollständig End-to-End-Design kumulative Fehler reduziert, während metrisch-sensibles Geometriegedächtnis die Planungskonsistenz und Hindernisvermeidung verbessert. Dies führt zu einer Verbesserung von mehr als 27,3 % gegenüber Baseline-Verfahren mit Oracle-Lokalisierung und zu einer starken Generalisierung über verschiedene Roboterplatformen und Umgebungen hinweg. Der Code und die Modelle sind öffentlich auf der https://steinate.github.io/logoplanner.github.io/{Projektseite} verfügbar.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei Code-Generierungsaufgaben gezeigt. Ihre Effektivität hängt jedoch stark von überwachtem Training mit umfangreichen gelabelten (z.B. Frage-Antwort-Paare) oder ungelabelten Datensätzen (z.B. Code-Snippets) ab, die oft teuer und schwer in großem Maßstab zu beschaffen sind. Um diese Einschränkung zu adressieren, stellt dieses Papier eine Methode IPC vor, einen unüberwachten Rahmen, der Internal Probing von LLMs für die Code-Generierung ohne externe Korpora, selbst ohne ungelabelte Code-Snippets, nutzt. Wir führen Problemraum-Probing, Testverständnis-Probing, Lösungsraum-Probing sowie Wissenskonsolidierung und -verstärkung ein, um das interne Wissen und Konfidenzmuster in LLMs zu untersuchen. Weiter identifiziert IPC zuverlässige Code-Kandidaten durch Selbstkonsistenzmechanismen und representationsbasierte Qualitätsschätzung, um UCoder (Coder mit unüberwachtem Lernen) zu trainieren. Wir validieren den vorgeschlagenen Ansatz an mehreren Code-Benchmarks und zeigen, dass unüberwachte Methoden wettbewerbsfähige Leistung im Vergleich zu überwachten Ansätzen erreichen können, während sie die Abhängigkeit von gelabelten Daten und Rechenressourcen erheblich reduzieren. Analytische Experimente zeigen, dass interne Modellzustände reichhaltige Signale über Code-Qualität und Korrektheit enthalten, und dass die richtige Nutzung dieser Signale effektives unüberwachtes Lernen für Code-Generierungsaufgaben ermöglicht, was neue Richtungen für das Training von Code-LLMs in ressourcenbeschränkten Szenarien eröffnet.
Die Ausbildung leistungsfähiger Agenten auf Basis großer Sprachmodelle (Large Language Models, LLM) wird kritisch durch die hohen Kosten und die statische Natur von Echtwelt-Interaktionsdaten eingeschränkt. Wir adressieren dieses Problem mit der Einführung von GenEnv, einem Framework, das ein schwierigkeitsabgestimmtes ko-evolutionäres Spiel zwischen einem Agenten und einem skalierbaren, generativen Umgebungssimulator etabliert. Im Gegensatz zu traditionellen Methoden, die Modelle auf statischen Datensätzen trainieren, instanziiert GenEnv eine Datenevolution: Der Simulator fungiert als dynamische Curriculum-Policy, die kontinuierlich Aufgaben generiert, die speziell auf die „Zone der nächsten Entwicklung“ des Agenten zugeschnitten sind. Dieser Prozess wird durch eine einfache, aber effektive α-Curriculum-Belohnung gesteuert, die die Aufgabenschwierigkeit an die aktuellen Fähigkeiten des Agenten anpasst. Wir evaluieren GenEnv anhand von fünf Benchmarks, darunter API-Bank, ALFWorld, BFCL, Bamboogle und TravelPlanner. Über diese Aufgaben hinweg verbessert GenEnv die Agentenleistung um bis zu +40,3 % gegenüber 7B-Baselines und erreicht oder übertrifft die durchschnittliche Leistung größerer Modelle. Im Vergleich zu einer offline-Datenaugmentierung auf Basis von Gemini 2.5 Pro erzielt GenEnv eine bessere Leistung bei gleichzeitig 3,3-mal geringerem Dateneinsatz. Durch den Wechsel von statischer Überwachung zu adaptiver Simulation bietet GenEnv einen dateneffizienten Weg zur Skalierung von Agentenfähigkeiten.
Diffusion Large Language Models (dLLMs) haben ein erhebliches Potenzial für hochgeschwindigkeitsinferenz demonstriert. Allerdings sind aktuelle konfidenzgesteuerte Dekodierungsstrategien durch begrenzte Parallelität eingeschränkt und erreichen typischerweise nur 1–3 Token pro Vorwärtsdurchlauf (TPF). In dieser Arbeit zeigen wir, dass der Grad der Parallelität während der dLLM-Inferenz hochsensibel auf die Token-Füllreihenfolge (TFO) reagiert. Darauf aufbauend führen wir Lookahead PArallel Decoding LoPA ein, einen trainingsfreien Plug-and-Play-Algorithmus, um eine überlegene TFO zu identifizieren und damit die Inferenz zu beschleunigen. LoPA erkundet gleichzeitig verschiedene Kandidaten-TFOs über parallele Zweige und wählt diejenige mit dem höchsten Potenzial für zukünftige Parallelität basierend auf der Zweigkonfidenz aus. Wir wenden LoPA auf das state-of-the-art D2F-Modell an und beobachten eine erhebliche Steigerung der Dekodiereffizienz. Bemerkenswerterweise erhöht LoPA den TPF von D2F-Dream auf GSM8K auf 10,1, wobei die Leistung über der Dream-Baseline bleibt. Darüber hinaus entwickeln wir, um diesen beispiellosen Parallelitätsgrad zu ermöglichen, ein spezialisiertes Multi-Device-Inferenzsystem mit Zweigparallelität (BP), das einen Durchsatz von 1073,9 Token pro Sekunde für eine einzelne Stichprobe unter Multi-GPU-Bereitstellung erreicht. Der Code ist verfügbar unter https://github.com/zhijie-group/LoPA.
Visuelles Storytelling erfordert die Erzeugung von Mehrfach-Szenen-Videos mit cineastischer Qualität und langfristiger Konsistenz. Inspiriert vom menschlichen Gedächtnis schlagen wir StoryMem vor, ein Paradigma, das die Erzählung langer Videos als iterative Szenensynthese neu formuliert, die von explizitem visuellem Gedächtnis gesteuert wird, und dabei vortrainierte Einzel-Szenen-Video-Diffusionsmodelle in Mehrfach-Szenen-Geschichtenerzähler verwandelt. Dies wird durch ein neuartiges Memory-to-Video (M2V) Design erreicht, das eine kompakte und dynamisch aktualisierte Gedächtnisbank von Keyframes aus historisch generierten Szenen verwaltet. Der gespeicherte Gedächtnisinhalt wird dann via latenter Konkatenation und negativen RoPE-Shifts unter ausschließlicher LoRA-Feinabstimmung in Einzel-Szenen-Video-Diffusionsmodelle injiziert. Eine semantische Keyframe-Auswahlstrategie, kombiniert mit ästhetischer Präferenzfilterung, gewährleistet weiterhin informative und stabile Gedächtnisinhalte während der gesamten Generierung. Darüber hinaus ermöglicht der vorgeschlagene Rahmen natürlicherweise fließende Szenenübergänge und angepasste Story-Generierungsanwendungen. Zur Erleichterung der Evaluation führen wir ST-Bench ein, einen diversen Benchmark für Mehrfach-Szenen-Video-Storytelling. Umfangreiche Experimente zeigen, dass StoryMem eine überlegene konsistente Szenenübergreifende Konsistenz gegenüber bisherigen Methoden erreicht und dabei hohe ästhetische Qualität und Prompt-Treue bewahrt, was einen bedeutenden Schritt in Richtung kohärenter minutenlanger Video-Erzählungen markiert.
Die Erkundungskapazität beeinflusst sowohl die Inferenzleistung als auch das Reinforcement Learning (RL)-Training für große (Vision-)Sprachmodelle, da stochastisches Sampling häufig redundante Reasoning-Pfade mit geringer hochgradiger Diversität erzeugt. Dieses Papier stellt Reasoning Palette vor, einen neuartigen latenten Modulationsrahmen, der das Modell mit einer stochastischen latenten Variable für strategische Kontextualisierung ausstattet und dessen interne Planung vor der Token-Generierung steuert. Dieser latente Kontext wird aus dem gemittelten Embedding eines Frage-Antwort-Paares über einen variationalen Autoencoder (VAE) abgeleitet, wobei jedes gesampelte Latent potentiell einen distinctiven Reasoning-Kontext kodiert. Während der Inferenz wird ein gesampeltes Latent in lernbare Token-Präfixe decodiert und dem Eingabe-Prompt vorangestellt, um die interne Reasoning-Trajektorie des Moduls zu modulieren. Auf diese Weise führt das Modell internes Sampling über Reasoning-Strategien durch, bevor die Ausgabegenerierung erfolgt, was Stil und Struktur der gesamten Antwortsequenz prägt. Eine kurze Supervised Fine-Tuning (SFT)-Aufwärmphase ermöglicht es dem Modell, sich an diese latente Konditionierung anzupassen. Innerhalb der RL-Optimierung erleichtert Reasoning Palette strukturierte Erkundung durch bedarfsgesteuerte Injektion verschiedener Reasoning-Modi, was die Erkundungseffizienz und nachhaltige Lernfähigkeit erheblich steigert. Experimente über mehrere Reasoning-Benchmarks zeigen, dass unsere Methode interpretierbare und kontrollierbare Steuerung des strategischen Verhaltens von (Vision-)Sprachmodellen ermöglicht und dadurch konsistente Leistungssteigerungen gegenüber standardmäßigen RL-Methoden erzielt.
Unter den bestehenden Online-Benchmarks für die Mobilgerätenutzung hat sich AndroidWorld aufgrund seiner reproduzierbaren Umgebung und deterministischen Evaluation als dominierender Benchmark etabliert. Jüngste Agenten mit Erfolgsquoten von über 90 % deuten jedoch auf eine Sättigung hin und unterstreichen die Notwendigkeit eines anspruchsvolleren Benchmarks. Zudem fehlen in seiner Umgebung wichtige Anwendungskategorien wie E-Commerce und Unternehmenskommunikation, und sie bildet keine realistischen Mobilnutzungsszenarien ab, die durch vage Benutzeranweisungen und hybriden Tool-Einsatz gekennzeichnet sind. Um diese Lücke zu schließen, stellen wir MobileWorld vor, einen deutlich anspruchsvolleren Benchmark, der die reale Mobilnutzung besser widerspiegelt. Er umfasst 201 Aufgaben über 20 Anwendungen hinweg und behält dabei das gleiche Maß an reproduzierbarer Evaluation wie AndroidWorld bei. Die Schwierigkeit von MobileWorld ist zweigeteilt. Erstens legt es den Schwerpunkt auf langfristige Aufgaben mit anwendungsübergreifenden Interaktionen: MobileWorld erfordert im Durchschnitt fast doppelt so viele Aufgabenschritte (27,8 vs. 14,3) und enthält deutlich mehr anwendungsübergreifende Aufgaben (62,2 % vs. 9,5 %) im Vergleich zu AndroidWorld. Zweitens geht MobileWorld über standardmäßige GUI-Manipulation hinaus, indem es neue Aufgabenkategorien einführt, darunter Agent-Benutzer-Interaktion und MCP-erweiterte Aufgaben. Um eine robuste Evaluation zu gewährleisten, bieten wir eine containerbasierte Snapshot-Umgebung und präzise Funktionsverifikationen, einschließlich Backend-Datenbankprüfungen und Task-Callback-APIs. Wir entwickeln weiterhin ein Planner-Executor-Agenten-Framework mit erweiterten Aktionsräumen zur Unterstützung von Benutzerinteraktionen und MCP-Aufrufen. Unsere Ergebnisse zeigen einen deutlichen Leistungseinbruch im Vergleich zu AndroidWorld – die besten Agenten-Frameworks und End-to-End-Modelle erreichen Erfolgsquoten von lediglich 51,7 % bzw. 20,9 %. Unsere Analyse zeigt, dass aktuelle Modelle erheblich mit Benutzerinteraktionen und MCP-Aufrufen kämpfen, was eine strategische Roadmap für robustere Mobilintelligenz der nächsten Generation aufzeigt.
Vor dem Abschluss von Venture-Capital-Finanzierungsrunden führen Rechtsanwälte Due-Diligence-Prüfungen durch, die das Abstimmen der Kapitalisierungsübersicht (Capitalization Table) umfassen: die Überprüfung, dass jedes Wertpapier (zum Beispiel Aktien, Optionen, Warrants) und jede Ausgabebedingung (zum Beispiel Vesting-Pläne, Beschleunigungsklauseln, Transferbeschränkungen) durch umfangreiche zugrundeliegende Rechtsdokumente belegt ist. Während LLMs bei juristischen Benchmarks kontinuierlich besser werden, bleiben spezialisierte Rechtsarbeitsabläufe wie das Abstimmen der Kapitalisierungsübersicht selbst für leistungsstarke agentenbasierte Systeme unerreichbar. Diese Aufgabe erfordert Multi-Dokumenten-Abgleich, strikte Nachvollziehbarkeit von Beweisen und deterministische Ergebnisse, die mit aktuellen Ansätzen nicht zuverlässig geliefert werden können. Wir charakterisieren das Abstimmen der Kapitalisierungsübersicht als ein Beispiel für einen realen Benchmark für juristische KI, analysieren und vergleichen die Leistung bestehender agentenbasierter Systeme und schlagen eine World-Model-Architektur zur Automatisierung dieser Aufgabe vor – und weiter gefasst als Grundlage für angewandte juristische Intelligenz.
Jüngste Fortschritte im Robotik-Lernen wurden durch umfangreiche Datensätze und leistungsstarke visuomotorische Policy-Architekturen erzielt, doch die Robustheit der Policies bleibt durch den erheblichen Aufwand der Erfassung diverser Demonstrationen eingeschränkt, insbesondere für räumliche Generalisierung bei Manipulationsaufgaben. Um repetitive Datenerfassung zu reduzieren, stellen wir Real2Edit2Real vor – ein Framework, das neue Demonstrationen generiert, indem es 3D-Editierbarkeit mit 2D-Bilddaten durch eine 3D-Steuerungsschnittstelle verbindet. Unser Ansatz rekonstruiert zunächst die Szenengeometrie aus multiview RGB-Beobachtungen mit einem metrikskalierten 3D-Rekonstruktionsmodell. Basierend auf der rekonstruierten Geometrie führen wir tiefenreliable 3D-Bearbeitungen an Punktwolken durch, um neue Manipulationstrajektorien zu erzeugen, wobei wir die Roboterposen geometrisch korrigieren, um physikalisch konsistente Tiefeninformationen wiederherzustellen, die als zuverlässige Bedingung für die Synthese neuer Demonstrationen dienen. Abschließend schlagen wir ein multikonditionales Videogenerierungsmodell vor, das durch Tiefeninformationen als primäres Steuersignal zusammen mit Aktions-, Kanten- und Strahlenkarten geleitet wird, um räumlich augmentierte multiview Manipulationsvideos zu synthetisieren. Experimente an vier realen Manipulationsaufgaben zeigen, dass Policies, die mit aus nur 1–5 Quelldemonstrationen generierten Daten trainiert wurden, mit denen auf 50 realen Demonstrationen trainierten Policies gleichauf liegen oder diese übertreffen und die Dateneffizienz um bis zu 10–50x steigern. Darüber hinaus demonstrieren experimentelle Ergebnisse zu Höhen- und Texturbearbeitung die Flexibilität und Erweiterbarkeit des Frameworks und deuten auf sein Potenzial als einheitliches Datengenerierungsframework hin.
Wir behandeln die semantische 3D-Teilesegmentierung: die Zerlegung von Objekten in Teile mit bedeutungsvollen Bezeichnungen. Obwohl Datensätze mit Teilannotationen existieren, sind deren Definitionen zwischen den Datensätzen inkonsistent, was ein robustes Training einschränkt. Bisherige Methoden erzeugen unbezeichnete Zerlegungen oder ermitteln einzelne Teile ohne vollständige Formannotationen. Wir schlagen ALIGN-Parts vor, das die Teilbenennung als direkte Mengenausrichtung formuliert. Unsere Methode zerlegt Formen in Partlets – implizite 3D-Teilrepräsentationen –, die über eine bipartite Zuordnung mit Teilbeschreibungen abgeglichen werden. Wir kombinieren geometrische Hinweise aus 3D-Teilfeldern, Erscheinungsmerkmale aus Multi-View-Vision-Features und semantisches Wissen aus sprachmodellgenerierten Affordanz-Beschreibungen. Ein Textalignierungsverlust stellt sicher, dass Partlets den Embedding-Raum mit dem Text teilen, was einen theoretisch offenen Vokabular-Abgleich ermöglicht, sofern ausreichend Daten vorhanden sind. Unsere effiziente und neuartige One-Shot-Methode zur 3D-Teilesegmentierung und -benennung findet Anwendung in mehreren nachgelagerten Aufgaben, einschließlich als skalierbare Annotations-Engine. Da unser Modell Zero-Shot-Abgleich mit beliebigen Beschreibungen und konfidenzkalibrierte Vorhersagen für bekannte Kategorien unterstützt, erstellen wir mit menschlicher Verifikation eine einheitliche Ontologie, die PartNet, 3DCoMPaT++ und Find3D abgleicht und aus 1.794 einzigartigen 3D-Teilen besteht. Wir zeigen auch Beispiele aus unserem neu erstellten Tex-Parts-Datensatz. Zudem führen wir zwei neue Metriken ein, die für die Aufgabe der benannten 3D-Teilesegmentierung geeignet sind.
Vision-Language-Modelle (VLMs) werden üblicherweise trainiert, indem Bild-Tokens aus einem vortrainierten Vision-Encoder in den Textstrom eines Sprachmodells eingefügt werden. Dies ermöglicht es Text- und Bildinformationen, sich im Modell vollständig gegenseitig zu beachten, wird jedoch bei hochauflösenden Bildern, langen Konversationen oder Streaming-Videos sowohl speicher- als auch rechenseitig extrem kostspielig. VLMs, die Cross-Attention nutzen, sind eine effiziente Alternative zur Token-Einfügung, weisen jedoch eine deutliche Leistungslücke auf, insbesondere bei Aufgaben, die feinkörnige visuelle Details betreffen. Wir stellen fest, dass ein Schlüssel zur Verbesserung solcher Modelle darin besteht, auch lokale Text-zu-Text-Interaktion in den dedizierten Cross-Attention-Schichten zu ermöglichen. Aufbauend darauf schlagen wir CASA (Cross-Attention via Self-Attention) vor, ein einfaches und effizientes Paradigma, das die Leistungslücke zur vollständigen Token-Einfügung auf gängigen Bildverständnis-Benchmarks erheblich verringert, während es die gleiche Skalierbarkeit wie Cross-Attention-Modelle bei langkontextigen multimodalen Aufgaben wie der Beschriftung von Streaming-Videos beibehält. Für Beispiele und Code besuchen Sie bitte unsere Projektseite unter https://kyutai.org/casa.
Wir untersuchen syllogistisches Schließen in LLMs aus logischer und natürlichersprachlicher Perspektive. Dabei erforschen wir die grundlegenden Schlussfähigkeiten der LLMs und die Richtung, in die sich diese Forschung bewegt. Zur Unterstützung unserer Studien verwenden wir 14 große Sprachmodelle und untersuchen deren syllogistische Schlussfähigkeiten im Hinblick auf symbolische Inferenzen sowie das Verständnis natürlicher Sprache. Obwohl dieser Schließmechanismus keine einheitlich emergente Eigenschaft über alle LLMs hinweg ist, lassen die perfekten symbolischen Leistungen bestimmter Modelle uns fragen, ob LLMs zunehmend formale Schließmechanismen werden, anstatt die Nuancen menschlichen Denkens explizit zu machen.
Die manuelle Modellierung von Materialparametern und 3D-Geometrie ist eine zeitaufwändige, aber wesentliche Aufgabe in der Gaming- und Filmindustrie. Während neuere Fortschritte in der 3D-Rekonstruktion genaue Annäherungen der Szenengeometrie und des Erscheinungsbilds ermöglicht haben, scheitern diese Methoden häufig bei Neubeleuchtungsszenarien aufgrund des Mangels an präzisen, räumlich variierenden Materialparametern. Gleichzeitig haben sich auf 2D-Bildern operierende Diffusionsmodelle bei der Vorhersage von physikalisch basierten Rendering-Eigenschaften (PBR) wie Albedo, Rauheit und Metallizität als leistungsstark erwiesen. Die Übertragung dieser 2D-Materialkarten auf rekonstruierte 3D-Geometrien bleibt jedoch eine große Herausforderung. Wir schlagen ein Framework zur Fusion von 2D-Materialdaten in 3D-Geometrien unter Verwendung einer Kombination aus neuartigen lernbasierten und projektionsbasierten Ansätzen vor. Wir beginnen mit der Rekonstruktion der Szenengeometrie mittels Gaussian Splatting. Aus den Eingabebildern generiert ein Diffusionsmodell 2D-Karten für Albedo-, Rauheits- und Metallizitätsparameter. Hierbei kann jedes bestehende Diffusionsmodell angewendet werden, das Bilder oder Videos in PBR-Materialien umwandeln kann. Die Vorhersagen werden weiter in die 3D-Darstellung integriert, entweder durch Optimierung eines bildbasierten Loss oder durch direktes Projizieren der Materialparameter auf die Gaussians unter Verwendung von Gaussian Raytracing. Um die Genauigkeit im feinen Maßstab und die Mehransichtskonsistenz zu verbessern, führen wir zusätzlich einen leichtgewichtigen neuronalen Verfeinerungsschritt (Neural Merger) ein, der raygetraced Materialeigenschaften als Eingabe verwendet und detaillierte Anpassungen erzeugt. Unsere Ergebnisse zeigen, dass die vorgeschlagenen Methoden bestehende Techniken sowohl in quantitativen Metriken als auch in der wahrgenommenen visuellen Realitätsnähe übertreffen. Dies ermöglicht genauere, neu beleuchtbare und fotorealistische Renderings aus rekonstruierten Szenen und verbessert die Realitätsnähe und Effizienz von Asset-Erstellungsworkflows in Content-Produktionspipelines erheblich.
KI-Assistenten erzeugen in 45 % der sicherheitsrelevanten Szenarien anfälligen Code und führen so in großem Umfang Schwachstellen in Produktivsysteme ein. Bisherige Datensätze für sicheres Programmieren sind jedoch unzureichend. Ihnen fehlt die Verankerung in realen Vorfällen, sie bieten nicht den für modernes Training erforderlichen Umfang und vermissen den betrieblichen Sicherheitskontext, den Entwickler für Produktivumgebungen benötigen. Wir stellen SecureCode v2.0 vor, einen produktionsreifen Datensatz mit 1.215 sicherheitsfokussierten Codebeispielen, die eine strukturelle Validierung und eine expertengeprüfte Sicherheitsüberprüfung bestanden haben. Jedes Beispiel ist mit tatsächlich dokumentierten Sicherheitsvorfällen (inklusive CVE-Referenzen) verknüpft, bietet anfällige und sichere Implementierungen, demonstriert konkrete Angriffe und enthält eine tiefengestaffelte operative Anleitung zur Verteidigung (Defense-in-Depth). Der Datensatz deckt 11 Schwachstellenkategorien ab (das vollständige OWASP Top 10:2025 plus KI/ML-Sicherheitsbedrohungen) über 11 Sprachen hinweg (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin und YAML für Infrastructure-as-Code). Unser Qualitätssicherungsrahmen gewährleistet eine vollständige Verankerung in Vorfällen. Jedes Beispiel umfasst SIEM-Integrationsstrategien, Empfehlungen zur Infrastrukturhärtung (Docker, AppArmor, WAF-Konfigurationen) und Testansätze mit sprachspezifischen Frameworks. Der Datensatz verwendet eine 4-Schritte-Konversationsstruktur, die reale Entwickler-KI-Interaktionen abbildet und von grundlegenden Implementierungen zu erweiterten Sicherheitsüberlegungen und tiefengestaffelter Verteidigungsanleitung eskaliert. Unsere Beiträge: (1) 1.215 rigoros validierte Beispiele, aufgeteilt in 989 Trainings-, 122 Validierungs- und 104 Testdatensätze, (2) ein automatisiertes Validierungsframework zur Sicherstellung der Datensatzkonsistenz, (3) eine 4-Schritte-Konversationsstruktur, die realistische Sicherheits-Workflows erfasst, (4) umfassende operative Sicherheitsanleitung mit SIEM-Integrationsstrategien, (5) vollständige sprachspezifische Implementierungstreue und (6) Open-Source-Veröffentlichung der Daten, Validierungstools und Benchmarking-Protokolle.
In professionellen Videocompositing-Workflows müssen Künstler manuell Umgebungsinteraktionen – wie Schatten, Reflexionen, Staub und Spritzer – zwischen Vordergrundobjekten und Hintergrundebenen erstellen. Bestehende videogenerative Modelle haben Schwierigkeiten, das Eingabevideo bei der Hinzufügung solcher Effekte zu bewahren, und aktuelle Video-Inpainting-Methoden erfordern entweder kostspielige Masken pro Einzelbild oder liefern unplausible Ergebnisse. Wir führen Augmented Compositing ein, eine neue Aufgabe, die realistische, halbtransparente Umgebungseffekte synthetisiert, die auf Textprompts und Eingabe-Videoebenen konditioniert sind, während die ursprüngliche Szene erhalten bleibt. Um diese Aufgabe zu lösen, präsentieren wir Over++, ein Framework zur Videoeffekterzeugung, das keine Annahmen über Kamerapose, Szenenstatik oder Tiefeninformationen trifft. Wir erstellen einen gepaarten Effektdatensatz, der für diese Aufgabe maßgeschneidert ist, und führen eine ungepaarte Augmentierungsstrategie ein, die die textgesteuerte Editierbarkeit erhält. Unsere Methode unterstützt auch optionale Maskenkontrolle und Keyframe-Steuerung ohne die Notwendigkeit dichter Annotationen. Trotz des Trainings mit begrenzten Daten erzeugt Over++ vielfältige und realistische Umgebungseffekte und übertrifft bestehende Baseline-Methoden sowohl in der Effekterzeugung als auch in der Szenenerhaltung.
Interpretierbarkeitsmethoden für große Sprachmodelle (LLMs) leiten Richtungen typischerweise aus textueller Supervision ab, was an externer Verankerung mangeln kann. Wir schlagen vor, menschliche Gehirnaktivität nicht als Trainingssignal, sondern als Koordinatensystem zum Auslesen und Steuern von LLM-Zuständen zu nutzen. Unter Verwendung des SMN4Lang-MEG-Datensatzes konstruieren wir einen wortbasierten Hirnatlas von Phase-Locking-Value(PLV)-Mustern und extrahieren latente Achsen mittels ICA. Wir validieren die Achsen mit unabhängigen Lexika und NER-basierten Labels (POS/Log-Frequenz als Plausibilitätschecks) und trainieren dann leichte Adapter, die LLM-Verborgene-Zustände auf diese Hirnachsen abbilden, ohne das LLM feinzutunen. Das Steuern entlang der resultierenden, hirnbasierten Richtungen ergibt eine robuste lexikalische (frequenzverknüpfte) Achse in einer mittleren TinyLlama-Schicht, die perplexitätskontrollierte Vergleiche übersteht, und ein Hirn-vs-Text-Probe-Vergleich zeigt größere Log-Frequenz-Verschiebungen (relativ zur Textprobe) bei geringerer Perplexität für die Hirnachse. Eine Funktions-/Inhalts-Achse (Achse 13) zeigt konsistentes Steuerverhalten in TinyLlama, Qwen2-0.5B und GPT-2, mit PPL-angepasster textueller Bestätigung. Effekte in Schicht 4 von TinyLlama sind groß, aber inkonsistent, daher behandeln wir sie als sekundär (Anhang). Die Achsenstruktur ist stabil, wenn der Atlas ohne GPT-Embedding-Änderungs-Merkmale oder mit word2vec-Embeddings neu aufgebaut wird (|r|=0,64–0,95 übereinstimmender Achsen), was Zirkularitätsbedenken reduziert. Eine explorative fMRT-Verankerung deutet auf eine potenzielle Übereinstimmung für Embedding-Änderung und Log-Frequenz hin, aber die Effekte sind empfindlich gegenüber hämodynamischen Modellierungsannahmen und werden nur als populationsbezogene Evidenz betrachtet. Diese Ergebnisse unterstützen eine neue Schnittstelle: neurophysiologisch verankerte Achsen bieten interpretierbare und steuerbare Stellgrößen für das Verhalten von LLMs.