papers.description
Die Datenaufbereitung zielt darauf ab, Rohdatensätze zu entrauschen, datenübergreifende Beziehungen aufzudecken und wertvolle Erkenntnisse aus ihnen zu gewinnen, was für eine Vielzahl datenzentrierter Anwendungen unerlässlich ist. Angetrieben durch (i) den wachsenden Bedarf an anwendungsfertigen Daten (z.B. für Analysen, Visualisierung, Entscheidungsfindung), (ii) zunehmend leistungsfähige LLM-Techniken und (iii) die Entstehung von Infrastrukturen, die flexible Agentenkonstruktion ermöglichen (z.B. mittels Databricks Unity Catalog), werden LLM-gestützte Methoden schnell zu einem transformativen und potenziell dominierenden Paradigma für die Datenaufbereitung. Durch die Untersuchung hunderter aktueller Literaturbeiträge bietet dieser Artikel einen systematischen Überblick über diese sich entwickelnde Landschaft, mit Fokus auf die Nutzung von LLM-Techniken zur Datenaufbereitung für verschiedene Downstream-Aufgaben. Zunächst charakterisieren wir den fundamentalen Paradigmenwechsel von regelbasierten, modellspezifischen Pipelines hin zu prompt-gesteuerten, kontextbewussten und agentenbasierten Aufbereitungsworkflows. Anschließend führen wir eine aufgabenorientierte Taxonomie ein, die das Feld in drei Hauptaufgaben gliedert: Datenbereinigung (z.B. Standardisierung, Fehlerbehandlung, Imputation), Datenintegration (z.B. Entity Matching, Schema Matching) und Datenanreicherung (z.B. Datenannotation, Profiling). Für jede Aufgabe untersuchen wir repräsentative Techniken und heben deren jeweilige Stärken (z.B. verbesserte Generalisierung, semantisches Verständnis) und Grenzen (z.B. prohibitive Skalierungskosten von LLMs, anhaltende Halluzinationen selbst in fortgeschrittenen Agenten, die Diskrepanz zwischen hochentwickelten Methoden und schwacher Evaluation) hervor. Darüber hinaus analysieren wir häufig verwendete Datensätze und Evaluationsmetriken (der empirische Teil). Abschließend diskutieren wir offene Forschungshürden und skizzieren eine vorausschauende Roadmap, die skalierbare LLM-Daten-Systeme, prinzipielle Designs für zuverlässige agentenbasierte Workflows und robuste Evaluationsprotokolle betont.
Kürzlich hat sich die Grenze der Fähigkeiten großer Sprachmodelle (LLM) von der Einzelinteraktions-Codegenerierung hin zu agentenbasierter Softwareentwicklung verschoben – einem Paradigma, bei dem Modelle komplexe Repositorys autonom navigieren, bearbeiten und testen. Während Nachtrainingsmethoden zum De-facto-Ansatz für Code-Agenten geworden sind, bleibt **agentisches Mittraining** – das Mittraining (MT) mit großvolumigen Daten, die authentische agentische Arbeitsabläufe abbilden – aufgrund des erheblichen Ressourcenbedarfs kritisch untererforscht, obwohl es einen skalierbareren Weg zur Verankerung grundlegender agentischer Verhaltensweisen bietet als die alleinige Abhängigkeit von teurem Reinforcement Learning. Eine zentrale Herausforderung bei der Realisierung effektiven agentischen Mittrainings ist die Verteilungsdiskrepanz zwischen statischen Trainingsdaten und der dynamischen, feedbackreichen Umgebung echter Entwicklung. Um dies zu adressieren, präsentieren wir eine systematische Studie zum agentischen Mittraining, in der wir sowohl die Daten-synthese-Prinzipien als auch die Trainingsmethodik für eine effektive Agentenentwicklung im großen Maßstab etablieren. Zentrale Elemente unseres Ansatzes sind **agent-native Daten** – Supervision, die sich aus zwei komplementären Arten von Trajektorien zusammensetzt: **kontextuell-native Trajektorien**, die den vollständigen Informationsfluss erhalten, den ein Agent erfährt und damit breite Abdeckung und Vielfalt bieten; und **umgebungs-native Trajektorien**, die aus ausführbaren Repositorys gesammelt werden, wobei Beobachtungen auf tatsächlichen Tool-Aufrufen und Testausführungen basieren und somit Tiefe und Interaktionsauthentizität gewährleisten. Wir verifizieren die agentischen Fähigkeiten des Modells anhand von `SWE-Bench Verified`. Wir demonstrieren unsere Überlegenheit gegenüber dem bisherigen offenen Rezept für Softwareentwicklungs-Mittraining `Kimi-Dev` unter zwei Nachtrainings-Settings mit einem alignierten Basismodell und agentischem Scaffold, wobei wir weniger als die Hälfte der Mittraining-Tokens (73,1 Mrd.) verwenden. Neben dem relativen Vorteil erzielen unsere leistungsstärksten 32B- und 72B-Modelle **56,1 %** bzw. **58,5 %** Lösungsraten, die ...
Jüngste Fortschritte in der Videogenerierung haben Modelle hervorgebracht, die in der Lage sind, atemberaubende visuelle Inhalte aus einfachen Textaufforderungen zu synthetisieren. Diese Modelle haben jedoch Schwierigkeiten, langformatige, kohärente Narrative aus hochrangigen Konzepten wie Dialogen zu erzeugen, was eine „semantische Lücke“ zwischen einer kreativen Idee und ihrer filmischen Umsetzung offenbart. Um diese Lücke zu schließen, stellen wir einen neuartigen, end-to-end agentenbasierten Rahmen für die Dialog-zu-Filmvideo-Generierung vor. Zentrale Komponente unseres Frameworks ist der ScripterAgent, ein Modell, das darauf trainiert ist, grobe Dialoge in ein detailliertes, ausführbares Filmskript zu übersetzen. Um dies zu ermöglichen, haben wir ScriptBench, einen neuen großen Benchmark mit reichem multimodalen Kontext, konstruiert, der über eine expertengeleitete Pipeline annotiert wurde. Das generierte Skript führt dann den DirectorAgent, der State-of-the-Art-Videomodelle unter Verwendung einer szenenübergreifenden kontinuierlichen Generierungsstrategie orchestriert, um langfristige Kohärenz sicherzustellen. Unsere umfassende Evaluation, die einen KI-gestützten CriticAgent und eine neue Metrik zur Visuell-Skript-Alignment (VSA) umfasst, zeigt, dass unser Framework die Skripttreue und zeitliche Wiedergabetreue bei allen getesteten Videomodellen signifikant verbessert. Darüber hinaus deckt unsere Analyse einen entscheidenden Zielkonflikt in aktuellen SOTA-Modellen auf: den zwischen visueller Spektakularität und strikter Skripttreue, was wertvolle Einblicke für die Zukunft der automatisierten Filmproduktion liefert.
Während sich synthetische Daten im Textbereich als wirksam für die Verbesserung wissenschaftlichen Denkens erwiesen haben, bleibt das multimodale Schließen durch die Schwierigkeit eingeschränkt, wissenschaftlich fundierte Bilder zu synthetisieren. Bestehende Text-zu-Bild (T2I)-Modelle erzeugen oft visuell plausible, aber wissenschaftlich inkorrekte Ergebnisse, was zu einer anhaltenden visuell-logischen Diskrepanz führt, die ihren Wert für nachgelagertes Schließen begrenzt. Angeregt durch jüngste Fortschritte bei T2I-Modellen der nächsten Generation führen wir eine systematische Studie zur Synthese wissenschaftlicher Bilder über Erzeugungsparadigmen, Evaluation und nachgelagerte Nutzung hinweg durch. Wir analysieren sowohl direkte pixelbasierte Erzeugung als auch programmatische Synthese und schlagen ImgCoder vor, ein logikgesteuertes Framework, das einem expliziten "Verstehen-Planen-Coden"-Ablauf folgt, um die strukturelle Präzision zu verbessern. Um wissenschaftliche Korrektheit rigoros zu bewerten, führen wir SciGenBench ein, das generierte Bilder auf der Grundlage von Informationsnutzen und logischer Validität evaluiert. Unsere Auswertung deckt systematische Fehlermodi in pixelbasierten Modellen auf und verdeutlicht einen fundamentalen Zielkonflikt zwischen Ausdrucksstärke und Präzision. Abschließend zeigen wir, dass das Feinabstimmen Großer Multimodaler Modelle (LMMs) auf rigoros verifizierten synthetischen wissenschaftlichen Bildern zu konsistenten Verbesserungen im Schließen führt, mit potenziellen Skalierungstrends analog zum Textbereich. Dies validiert hochpräzise wissenschaftliche Synthese als einen gangbaren Weg, um umfangreiche multimodale Schließfähigkeiten zu erschließen.
Kann ein Modell lernen, seine eigene Lernstagnation zu überwinden? Reinforcement-Learning-Methoden für das Feinabstimmen großer Sprachmodelle für logisches Denken stagnieren bei Datensätzen mit niedrigen anfänglichen Erfolgsquoten und somit geringem Trainingssignal. Wir untersuchen eine grundlegende Frage: Kann ein vortrainiertes großes Sprachmodell latentes Wissen nutzen, um einen automatisierten Lehrplan für Probleme zu generieren, die es nicht lösen kann? Um dies zu erforschen, entwickeln wir SOAR: Ein Selbstverbesserungs-Framework, das darauf abzielt, diese pädagogischen Signale durch Meta-Reinforcement-Learning sichtbar zu machen. Eine Lehrer-Kopie des Modells generiert synthetische Probleme für eine Schüler-Kopie und wird für deren Verbesserung bei einer kleinen Teilmenge schwieriger Probleme belohnt. Entscheidend ist, dass SOAR den Lehrplan an gemessenen Schülerfortschritten und nicht an intrinsischen Stellvertreter-Belohnungen ausrichtet. Unsere Studie zu den schwierigsten Teilmengen mathematischer Benchmarks (0/128 Erfolge) ergibt drei zentrale Erkenntnisse. Erstens zeigen wir, dass es möglich ist, bi-level Meta-Reinforcement-Learning zu realisieren, das Lernen unter spärlichen, binären Belohnungen ermöglicht, indem eine latente Fähigkeit vortrainierter Modelle geschärft wird, nützliche Zwischenschritte zu generieren. Zweitens übertreffen an Fortschritt gemessene Belohnungen intrinsische Belohnungsschemata aus früheren LLM-Selbstspiel-Ansätzen, da sie zuverlässig die bei diesen typischen Instabilitäten und den Kollaps der Vielfalt vermeiden. Drittens zeigt die Analyse der generierten Fragen, dass strukturelle Qualität und Wohlformuliertheit für den Lernfortschritt entscheidender sind als die Lösungsrichtigkeit. Unsere Ergebnisse deuten darauf hin, dass die Fähigkeit, nützliche Zwischenschritte zu generieren, nicht die bereits vorhandene Fähigkeit voraussetzt, die schwierigen Probleme tatsächlich zu lösen. Dies ebnet einen prinzipienbasierten Weg, Denkplateaus ohne zusätzlich kuratierte Daten zu überwinden.
Die quadratische Komplexität standardmäßiger Aufmerksamkeitsmechanismen stellt eine erhebliche Skalierbarkeitshürde für große Sprachmodelle (LLMs) in Langkontext-Szenarien dar. Während hybride Aufmerksamkeitsstrategien, die spärliche und vollständige Aufmerksamkeit innerhalb eines einzelnen Modells kombinieren, eine praktikable Lösung bieten, verwenden sie typischerweise statische Berechnungsverhältnisse (d.h. feste Anteile von spärlicher versus vollständiger Aufmerksamkeit) und passen sich nicht an die variierenden Sparsamkeitsempfindlichkeiten nachgelagerter Aufgaben während der Inferenz an. Um dieses Problem zu lösen, schlagen wir Elastic Attention vor, das es dem Modell ermöglicht, seine Gesamtsparsamkeit dynamisch basierend auf der Eingabe anzupassen. Dies wird durch die Integration eines leichtgewichtigen Attention Routers in das vorhandene vortrainierte Modell erreicht, der jeden Aufmerksamkeitskopf dynamisch verschiedenen Berechnungsmodi zuweist. Mit nur 12 Stunden Training auf 8xA800 GPUs ermöglicht unsere Methode Modellen, sowohl hohe Leistung als auch effiziente Inferenz zu erreichen. Experimente über drei Langkontext-Benchmarks mit weit verbreiteten LLMs demonstrieren die Überlegenheit unserer Methode.
Der Bereich der Bildgenerierung ist derzeit in autoregressive (AR) Modelle, die auf diskreten Tokens operieren, und Diffusionsmodelle, die kontinuierliche Latents nutzen, gespalten. Diese Trennung, die in der Unterscheidung zwischen VQ-VAEs und VAEs wurzelt, behindert eine einheitliche Modellierung und faire Benchmarking-Verfahren. Finite Scalar Quantization (FSQ) bietet eine theoretische Brücke, doch die Standard-FSQ weist einen kritischen Fehler auf: Ihre Quantisierung mit gleichmäßigen Intervallen kann einen Aktivierungs-Kollaps verursachen. Diese Fehlanpassung erzwingt einen Zielkonflikt zwischen Rekonstruktionstreue und Informationseffizienz. In dieser Arbeit lösen wir dieses Dilemma, indem wir einfach die Aktivierungsfunktion in der ursprünglichen FSQ durch eine Abbildung zur Verteilungsanpassung ersetzen, um eine uniforme A-priori-Verteilung zu erzwingen. Diese einfache Strategie, genannt iFSQ, erfordert nur eine Codezeile, gewährleistet aber mathematisch sowohl eine optimale Bin-Auslastung als auch Rekonstruktionspräzision. Indem wir iFSQ als kontrollierte Benchmark verwenden, gewinnen wir zwei zentrale Erkenntnisse: (1) Das optimale Gleichgewicht zwischen diskreten und kontinuierlichen Repräsentationen liegt bei etwa 4 Bits pro Dimension. (2) Unter identischen Rekonstruktionsbedingungen zeigen AR-Modelle eine rasche initiale Konvergenz, während Diffusionsmodelle eine höhere Leistungsobergrenze erreichen, was nahelegt, dass eine strikte sequentielle Ordnung die oberen Grenzen der Generierungsqualität begrenzen könnte. Abschließend erweitern wir unsere Analyse, indem wir Representation Alignment (REPA) für AR-Modelle adaptieren, was zu LlamaGen-REPA führt. Der Code ist verfügbar unter https://github.com/Tencent-Hunyuan/iFSQ.
Moderne Videogeneratoren haben nach wie vor Schwierigkeiten mit komplexen physikalischen Dynamiken und erreichen oft keine physikalische Realität. Bestehende Ansätze adressieren dies durch externe Verifizierer oder zusätzliches Training mit augmentierten Daten, was rechenintensiv ist und die Erfassung fein abgestufter Bewegungen weiterhin limitiert. In dieser Arbeit stellen wir selbstverfeinernde Video-Sampling vor, eine einfache Methode, die einen vortrainierten Videogenerator, trainiert auf großangelegten Datensätzen, als eigenen Verfeinerer nutzt. Indem wir den Generator als entrauschenden Autoencoder interpretieren, ermöglichen wir iterative Verfeinerung innerhalb einer inneren Schleife zur Inferenzzeit, ohne externe Verifizierer oder zusätzliches Training. Wir führen zudem eine ungewissheitsbewusste Verfeinerungsstrategie ein, die Regionen basierend auf Selbstkonsistenz selektiv verfeinert und so Artefakte durch Überverfeinerung verhindert. Experimente mit modernsten Videogeneratoren zeigen signifikante Verbesserungen in Bewegungs-Kohärenz und Physik-Ausrichtung und erzielen über 70\% menschliche Präferenz im Vergleich zum Standard-Sampler und führungsbasiertem Sampler.
Während sich die Agentenbewertung zunehmend auf langfristige Aufgaben verlagert hat, konzentrieren sich die meisten Benchmarks nach wie vor auf lokales, schrittweises Schließen und nicht auf die globale, restriktionsbasierte Optimierung (z.B. unter Zeit- und Finanzbudgets), die echte Planungsfähigkeiten erfordert. Gleichzeitig bilden bestehende LLM-Planungsbenchmarks die aktive Informationsbeschaffung und feinkörnigen lokalen Einschränkungen, die für reale Szenarien typisch sind, nur unzureichend ab. Um dies zu adressieren, führen wir DeepPlanning ein, einen anspruchsvollen Benchmark für praktische, langfristige Agentenplanung. Dieser umfasst mehr-tägige Reiseplanung und Multi-Produkt-Einkaufsaufgaben, die proaktive Informationsbeschaffung, lokales restriktionsbasiertes Schließen und globale restriktionsbasierte Optimierung erfordern. Evaluationen auf DeepPlanning zeigen, dass selbst führende agentenbasierte LLMs mit diesen Problemen kämpfen, was die Bedeutung zuverlässiger expliziter Reasoning-Muster und paralleler Werkzeugnutzung für bessere Effektivitäts-Effizienz-Kompromisse unterstreicht. Eine Fehleranalyse weist zudem auf vielversprechende Richtungen zur Verbesserung agentenbasierter LLMs über lange Planungshorizonte hin. Wir veröffentlichen den Code und die Daten Open Source, um zukünftige Forschung zu unterstützen.
Die räumlich-visuelle Wahrnehmung ist eine grundlegende Anforderung in realen Anwendungen wie dem autonomen Fahren und der Robotermanipulation, die durch die Notwendigkeit zur Interaktion mit 3D-Umgebungen angetrieben wird. Die Erfassung pixelgenauer metrischer Tiefeninformationen mittels RGB-D-Kameras wäre der vielversprechendste Ansatz, stößt jedoch häufig auf Hindernisse durch hardwarebedingte Einschränkungen und anspruchsvolle Aufnahmebedingungen, insbesondere bei spiegelnden oder texturlosen Oberflächen. In dieser Arbeit vertreten wir die Auffassung, dass die Ungenauigkeiten von Tiefensensoren als "maskierte" Signale betrachtet werden können, die inhärent zugrunde liegende geometrische Mehrdeutigkeiten widerspiegeln. Aufbauend auf dieser Motivation stellen wir LingBot-Depth vor, ein Tiefenvervollständigungsmodell, das visuellen Kontext zur Verfeinerung von Tiefenkarten durch maskierte Tiefenmodellierung nutzt und eine automatisierte Datenkuratierungspipeline für skalierbares Training integriert. Es ist ermutigend zu beobachten, dass unser Modell hochwertige RGB-D-Kameras sowohl in puncto Tiefengenauigkeit als auch Pixelabdeckung übertrifft. Experimentelle Ergebnisse in einer Reihe nachgelagerter Aufgaben deuten weiterhin darauf hin, dass LingBot-Depth eine abgestimmte latente Repräsentation über RGB- und Tiefenmodalitäten hinweg bietet. Wir veröffentlichen Code, Checkpoints und 3M RGB-Tiefen-Paare (einschließlich 2M realer und 1M simulierter Daten) für die Community der räumlichen Wahrnehmung.
Dieser Bericht stellt VibeVoice-ASR vor, ein allgemeines Sprachverständnis-Framework, das auf VibeVoice aufbaut und entwickelt wurde, um die anhaltenden Herausforderungen der Kontextfragmentierung und der Komplexität bei mehreren Sprechern in Langform-Audioaufnahmen (z. B. Besprechungen, Podcasts) zu adressieren, die trotz jüngster Fortschritte in der Kurzform-Spracherkennung bestehen bleiben. Im Gegensatz zu traditionellen Pipeline-Ansätzen, die auf der Unterteilung von Audiosegmenten basieren, unterstützt VibeVoice-ASR die Einzel-Durchlauf-Verarbeitung von bis zu 60 Minuten Audiodaten. Es vereint Automatische Spracherkennung, Sprecherdiarisierung und Zeitstempelvergabe in einer einzigen End-to-End-Generierungsaufgabe. Darüber hinaus unterstützt VibeVoice-ASR über 50 Sprachen, erfordert keine explizite Spracheneinstellung und verarbeitet nativ Codeswitching innerhalb und über Äußerungen hinweg. Des Weiteren führen wir einen prompt-basierten Kontextinjektionsmechanismus ein, der es Nutzern ermöglicht, benutzerdefinierte Kontexte einzubringen, was die Genauigkeit bei domainspezifischer Terminologie und der Disambiguierung mehrdeutiger Zeichen signifikant verbessert.
Die Einführung von stets verfügbaren persönlichen KI-Assistenten, ermöglicht durch ganztägig tragbare Geräte wie Smart Glasses, erfordert ein neues Maß an kontextuellem Verständnis, das über kurze, isolierte Ereignisse hinausgeht und den kontinuierlichen, longitudinalen Strom egozentrischer Videos umfasst. Die Verwirklichung dieser Vision erfordert Fortschritte im langfristigen Videoverständnis, bei dem Systeme visuelle und auditive Informationen über Tage oder sogar Wochen hinweg interpretieren und abrufen müssen. Bestehende Methoden, einschließlich großer Sprachmodelle und retrieval-augmentierter Generierung, sind durch begrenzte Kontextfenster eingeschränkt und können keine kompositionelle, multi-hop Reasoning über sehr lange Videoströme durchführen. In dieser Arbeit adressieren wir diese Herausforderungen durch EGAgent, einen erweiterten agentenbasierten Rahmen, der auf Entitäten-Szenengraphen zentriert ist und Personen, Orte, Objekte und ihre Beziehungen über die Zeit hinweg abbildet. Unser System stattet einen Planungsagenten mit Werkzeugen für strukturierte Suche und Reasoning über diese Graphen sowie mit hybriden visuellen und auditiven Suchfähigkeiten aus, was detailliertes, cross-modales und zeitlich kohärentes Reasoning ermöglicht. Experimente auf den EgoLifeQA- und Video-MME (Long)-Datensätzen zeigen, dass unsere Methode bei komplexen longitudinalen Videoverständnisaufgaben state-of-the-art Leistung auf EgoLifeQA (57,5 %) und wettbewerbsfähige Leistung auf Video-MME (Long) (74,1 %) erzielt.
Allgemeine Embedding-Modelle haben eine hohe Leistungsfähigkeit bei der Textretrieval gezeigt, sind jedoch für Tabellenretrieval nach wie vor suboptimal, da hochstrukturierte Inhalte zu semantischer Kompression und einer Diskrepanz zwischen Anfrage und Tabelle führen. Jüngste, auf LLM basierende Retrieval-Augmentierungsmethoden mildern dieses Problem durch die Generierung synthetischer Anfragen, doch stützen sie sich oft auf heuristische Teil-Tabellen-Auswahl und nutzen diese synthetischen Anfragen selten als Supervision zur Verbesserung des Embedding-Modells. Wir stellen CGPT vor, ein Trainingsframework, das das Tabellenretrieval durch LLM-generierte Supervision verbessert. CGPT konstruiert semantisch diverse Teil-Tabellen, indem Tabelleninstanzen mittels K-Means geclustert und über Cluster hinweg beprobt werden, um die semantische Abdeckung zu erweitern. Ein LLM generiert dann synthetische Anfragen für diese Teil-Tabellen, die für hart-negative kontrastive Feinabstimmung verwendet werden, um das Embedding-Modell zu verbessern. Experimente über vier öffentliche Benchmarks (MimoTable, OTTQA, FetaQA und E2E-WTQ) zeigen, dass CGPT durchgängig die Retrieval-Baselines, einschließlich QGpT, übertrifft, mit einer durchschnittlichen Steigerung von R@1 um 16,54 Prozent. In einem vereinheitlichten Multi-Domain-Korpus-Setting demonstriert CGPT weiterhin starke domänenübergreifende Generalisierung und bleibt effektiv, selbst wenn kleinere LLMs für die synthetische Anfragengenerierung verwendet werden. Diese Ergebnisse deuten darauf hin, dass semantisch gesteuerte Teil-Tabellen-Konstruktion, kombiniert mit kontrastivem Training auf Basis LLM-generierter Supervision, ein effektives und skalierbares Paradigma für großskaliges Tabellenretrieval bietet. Unser Code ist verfügbar unter https://github.com/yumeow0122/CGPT.
Die Wahrnehmung und Interaktion in der realen Welt sind inhärent multimodal und umfassen nicht nur Sprache, sondern auch visuelle und akustische Informationen. Dies motiviert die Entwicklung von "Omni"-MLLMs (Multimodal Large Language Models), die sowohl multimodale Eingaben als auch Ausgaben unterstützen. Obwohl eine Reihe solcher Omni-MLLMs entstanden ist, greifen die meisten bestehenden Systeme weiterhin auf zusätzliche Expertenkomponenten zurück, um multimodale Generierung zu erreichen, was die Einfachheit eines einheitlichen Trainings und Inferenzvorgangs einschränkt. Autoregressive (AR) Modellierung – mit einem einzigen Tokenstrom, einem einzigen Next-Token-Ziel und einem einzigen Decoder – stellt im Textbereich eine elegante und skalierbare Grundlage dar. Davon motiviert präsentieren wir AR-Omni, ein vereinheitlichtes Any-to-Any-Modell innerhalb des autoregressiven Paradigmas, das ohne jegliche Experten-Decoder auskommt. AR-Omni unterstützt autoregressive Text- und Bildgenerierung sowie Streaming-Sprachgenerierung, alles unter einem einzigen Transformer-Decoder. Darüber hinaus adressieren wir drei praktische Herausforderungen der vereinheitlichten AR-Modellierung: Modalitätsungleichgewicht durch aufgabenbewusste Neugewichtung des Loss, visuelle Treue durch einen leichten, tokenbasierten Perceptual-Alignment-Loss für Bild-Token sowie den Stabilitäts-Kreativitäts-Kompromiss durch einen Finite-State-Decoding-Mechanismus. Empirisch erzielt AR-Omni eine hohe Qualität über alle drei Modalitäten hinweg bei gleichzeitiger Echtzeitfähigkeit und erreicht einen Real-Time-Faktor von 0,88 für die Sprachgenerierung.
Zeitreihendaten sind in realen Szenarien allgegenwärtig und entscheidend für kritische Anwendungen, die von Energiemanagement bis hin zur Verkehrssteuerung reichen. Folglich ist die Fähigkeit, über Zeitreihen zu schlussfolgern, eine grundlegende Kompetenz für Generalist-Modelle, um praktische Probleme zu lösen. Diese Dimension fehlt jedoch bemerkenswerterweise in bestehenden Benchmarks für Generalist-Modelle. Um diese Lücke zu schließen, stellen wir TSRBench vor, einen umfassenden multimodalen Benchmark, der entwickelt wurde, um das gesamte Spektrum der Zeitreihenreasoning-Fähigkeiten Stresstests zu unterziehen. TSRBench zeichnet sich aus durch: i) einen vielfältigen Satz von 4125 Problemen aus 14 Domänen, kategorisiert in 4 Hauptdimensionen: Wahrnehmung, Logisches Schlussfolgern, Vorhersage und Entscheidungsfindung. ii) 15 Aufgaben aus den 4 Dimensionen, die wesentliche Reasoning-Fähigkeiten bewerten (z.B. numerisches Reasoning). In umfangreichen Experimenten evaluierten wir über 30 führende proprietäre und Open-Source-LLMs, VLMs und TSLLMs innerhalb von TSRBench. Unsere Ergebnisse zeigen, dass: i) Skalierungsgesetze für Wahrnehmung und logisches Schlussfolgern gelten, für Vorhersagen jedoch zusammenbrechen; ii) starkes Reasoning keine genaue kontextbewusste Prognose garantiert, was auf eine Entkopplung von semantischem Verständnis und numerischer Vorhersage hindeutet; und iii) trotz der komplementären Natur textueller und visueller Darstellungen von Zeitreihen als Eingaben, aktuelle multimodale Modelle scheitern, diese effektiv zu fusionieren, um gegenseitige Leistungssteigerungen zu erzielen. TSRBench bietet eine standardisierte Evaluierungsplattform, die nicht nur bestehende Herausforderungen aufzeigt, sondern auch wertvolle Einblicke zur Weiterentwicklung von Generalist-Modellen bietet. Unser Code und Datensatz sind verfügbar unter https://tsrbench.github.io/.
Große Videogenerierungsmodelle haben ein emergentes physikalisches Kohärenzverhalten gezeigt und positionieren sich damit als potenzielle Weltmodelle. Dennoch klafft eine Lücke zwischen zeitgenössischen "zustandslosen" Videoarchitekturen und klassischen, zustandsbasierten Weltmodell-Theorien. Diese Arbeit schließt diese Lücke durch eine neuartige Taxonomie mit zwei zentralen Säulen: Zustandskonstruktion und Dynamikmodellierung. Wir kategorisieren die Zustandskonstruktion in implizite Paradigmen (Kontextmanagement) und explizite Paradigmen (latente Kompression), während die Dynamikmodellierung durch Wissensintegration und architektonische Neuformulierung analysiert wird. Darüber hinaus plädieren wir für einen Bewertungswandel von visueller Treue hin zu funktionalen Benchmarks, die physikalische Persistenz und kausales Reasoning testen. Abschließend identifizieren wir zwei kritische Forschungsfronten: die Verbesserung von Persistenz durch datengesteuerte Speicherung und komprimierte Treue sowie die Weiterentwicklung von Kausalität durch Entkopplung latenter Faktoren und Integration von Reasoning-Priors. Durch die Bewältigung dieser Herausforderungen kann sich das Feld von der Generierung visuell plausibler Videos hin zur Entwicklung robuster, allgemeiner Weltsimulatoren weiterentwickeln.
Die Videogenerierung dient als Grundbaustein für die Entwicklung von Weltmodellen, wobei multimodale kontextuelle Inferenz den entscheidenden Fähigkeitstest darstellt. Zu diesem Zweck präsentieren wir SkyReels-V3, ein konditionales Videogenerierungsmodell, das auf einem einheitlichen multimodalen In-Context-Learning-Framework mit Diffusion-Transformern aufbaut. Das SkyReels-V3-Modell unterstützt drei zentrale Generative Paradigmen innerhalb einer einzigen Architektur: Referenzbild-zu-Video-Synthese, Video-zu-Video-Extension und audiogesteuerte Videogenerierung. (i) Das Referenzbild-zu-Video-Modell ist darauf ausgelegt, hochwertige Videos mit starker Subjektidentitätserhaltung, zeitlicher Kohärenz und narrativer Konsistenz zu erzeugen. Um die Referenztreue und kompositionelle Stabilität zu verbessern, haben wir eine umfassende Datenverarbeitungspipeline entwickelt, die Cross-Frame-Pairing, Bildbearbeitung und semantische Neubeschreibung nutzt, um Copy-Paste-Artefakte effektiv zu reduzieren. Während des Trainings kommt eine Bild-Video-Hybridstrategie in Kombination mit Multi-Resolution-Joint-Optimierung zum Einsatz, um die Generalisierbarkeit und Robustheit in verschiedenen Szenarien zu verbessern. (ii) Das Video-Extension-Modell integriert die Modellierung räumlich-zeitlicher Konsistenz mit umfangreichem Videoverständnis und ermöglicht sowohl nahtlose Einzelszenen-Fortführung als auch intelligente Mehrszenen-Wechsel mit professionellen filmischen Mustern. (iii) Das Talking-Avatar-Modell unterstützt minutenlange audiogesteuerte Videogenerierung durch Training von Erst-und-Letzt-Bild-Einfügemustern und Rekonstruktion von Key-Frame-Inferenz-Paradigmen. Auf der Grundlage einer gesicherten visuellen Qualität wurde die Synchronisation von Audio und Video optimiert. Umfangreiche Evaluierungen zeigen, dass SkyReels-V3 state-of-the-art oder nahezu state-of-the-art Leistung in wichtigen Metriken erreicht, einschließlich visueller Qualität, Instruktionsbefolgung und spezifischen Aspektmetriken, und sich führenden Closed-Source-Systemen annähert. Github: https://github.com/SkyworkAI/SkyReels-V3.
Tabellenretrieval ist die Aufgabe, die relevantesten Tabellen aus großen Korpora anhand natürlicher Sprachabfragen zu ermitteln. Strukturelle und semantische Diskrepanzen zwischen unstrukturiertem Text und strukturierten Tabellen machen jedoch eine Einbettungsausrichtung besonders schwierig. Aktuelle Methoden wie QGpT versuchen, die Tabellensemantik durch die Generierung synthetischer Abfragen anzureichern, stützen sich aber nach wie vor auf grobe Teil-Tabellen-Stichproben und einfache Fusionsstrategien, was die semantische Vielfalt einschränkt und eine effektive Abfrage-Tabellen-Ausrichtung behindert. Wir stellen STAR (Semantic Table Representation) vor, ein leichtgewichtiges Framework, das die semantische Tabellendarstellung durch semantisches Clustering und gewichtete Fusion verbessert. STAR wendet zunächst Header-bewusstes K-means-Clustering an, um semantisch ähnliche Zeilen zu gruppieren, und wählt repräsentative Zentroid-Instanzen aus, um eine vielfältige Teil-Tabelle zu konstruieren. Anschließend werden clusterspezifische synthetische Abfragen generiert, um den semantischen Raum der Tabelle umfassend abzudecken. Schließlich setzt STAR gewichtete Fusionsstrategien ein, um Tabellen- und Abfrageeinbettungen zu integrieren und so eine feinkörnige semantische Ausrichtung zu ermöglichen. Dieser Aufbau ermöglicht es STAR, komplementäre Informationen aus strukturierten und textuellen Quellen zu erfassen und die Ausdrucksstärke von Tabellendarstellungen zu verbessern. Experimente mit fünf Benchmarks zeigen, dass STAR durchweg eine höhere Trefferquote (Recall) als QGpT auf allen Datensätzen erzielt, was die Wirksamkeit des semantischen Clusterings und der adaptiven gewichteten Fusion für eine robuste Tabellendarstellung demonstriert. Unser Code ist verfügbar unter https://github.com/adsl135789/STAR.
Generische LLM-Agenten werden häufig auf eine begrenzte Menge von Umgebungen nachtrainiert, aber anschließend in viel breiteren, unbekannten Domänen eingesetzt. In dieser Arbeit untersuchen wir die Herausforderung des agentenbasierten Nachtrainierens, wenn die zukünftigen Testdomänen unbekannt sind. Konkret analysieren wir, welche Eigenschaften von Reinforcement-Learning(RL)-Umgebungen und Modellierungsentscheidungen den größten Einfluss auf die Out-of-Domain-Leistung haben. Zunächst identifizieren wir zwei Umgebungsachsen, die stark mit domänenübergreifender Generalisierung korrelieren: (i) den Informationsreichtum des Zustands, d.h. die Menge an Informationen, die der Agent aus dem Zustand verarbeiten muss, und (ii) die Planungskomplexität, geschätzt über Zielerreichbarkeit und Trajektorienlänge unter einer Basis-Policy. Bemerkenswerterweise sind Domänenrealismus und textuelle Ähnlichkeit nicht die primären Faktoren; so führt beispielsweise die einfache Grid-World-Domäne Sokoban zu einer stärkeren Generalisierung in SciWorld als die realistischere ALFWorld. Aufbauend auf diesen Erkenntnissen zeigen wir weiter, dass bereits eine Erhöhung des Informationsreichtums des Zustands allein die domänenübergreifende Robustheit effektiv verbessern kann. Wir schlagen eine Randomisierungs-Technik vor, die ressourcenschonend und breit anwendbar ist: füge dem Zustand geringe Mengen ablenkender, zielirrelevanter Merkmale hinzu, um ihn informativer zu machen, ohne die Aufgabe zu verändern. Neben umgebungsseitigen Eigenschaften untersuchen wir auch mehrere Modellierungsentscheidungen: (a) SFT-Vorbereitung oder Mid-Training hilft, katastrophales Vergessen während des RL zu verhindern, untergräbt aber die Generalisierung auf Domänen, die nicht im Mid-Training-Datamix enthalten sind; und (b) das Aktivieren von schrittweisem Denken während des RL, das nicht immer die In-Domain-Leistung verbessert, spielt eine entscheidende Rolle für den Erhalt der Generalisierungsfähigkeit.
Durch den Einsatz von Multi-Teacher-Distillation bieten agglomerative Vision-Backbones ein einheitliches Studenten-Modell, das die unterschiedlichen Fähigkeiten mehrerer Lehrer-Modelle bewahrt und verbessert. In diesem Technologiebericht beschreiben wir die neueste Version der C-RADIO-Modellfamilie, C-RADIOv4, die auf AM-RADIO/RADIOv2.5 im Design aufbaut und bei gleicher Rechenkomplexität deutliche Verbesserungen bei wichtigen Downstream-Aufgaben bietet. Wir veröffentlichen die Modellvarianten -SO400M (412 Mio. Parameter) und -H (631 Mio.), die beide mit einem aktualisierten Set von Lehrer-Modellen trainiert wurden: SigLIP2, DINOv3 und SAM3. Neben Verbesserungen bei Kernmetriken und neuen Fähigkeiten durch die Nachahmung von SAM3 bietet die C-RADIOv4-Modellfamilie erweiterte Any-Resolution-Unterstützung, bringt die ViTDet-Option für drastisch verbesserte Effizienz bei hohen Auflösungen zurück und wird unter einer freizügigen Lizenz bereitgestellt.
Deep-Search-Agents, die darauf abzielen, komplexe Fragen zu beantworten, die eine Verknüpfung von Informationen über mehrere Dokumente hinweg erfordern, können den Informationsbeschaffungsprozess erheblich beschleunigen. Die manuelle Erfassung von Annotationen für diese Anwendung ist aufgrund langer und komplexer Suchpfade jedoch extrem kostspielig. Wir schlagen einen agentenbasierten Prozess vor, der automatisch hochwertige, schwierigkeitskontrollierte Deep-Search-Frage-Antwort-Paare für einen gegebenen Textkorpus und ein Zielschwierigkeitsniveau generiert. Unser Prozess, SAGE, besteht aus einem Datengenerator, der Frage-Antwort-Paare vorschlägt, und einem Suchagenten, der versucht, die generierte Frage zu lösen und Ausführungsfeedback für den Datengenerator bereitzustellen. Die beiden Komponenten interagieren über mehrere Runden hinweg, um die Frage-Antwort-Paare iterativ so lange zu verfeinern, bis sie das Zielschwierigkeitsniveau erfüllen. Unsere intrinsische Evaluation zeigt, dass SAGE Fragen generiert, die unterschiedliche Reasoning-Strategien erfordern, und gleichzeitig die Korrektheit und Schwierigkeit der generierten Daten signifikant erhöht. Unsere extrinsische Evaluation demonstriert einen relativen Leistungszuwachs von bis zu 23 % auf gängigen Deep-Search-Benchmarks durch das Training von Deep-Search-Agents mit unseren synthetischen Daten. Zusätzliche Experimente zeigen, dass Agenten, die mit unseren Daten trainiert wurden, zur Laufzeit ohne weiteres Training von einer festen Korpus-Retrieval- auf eine Google-Search-Umgebung wechseln können.
Viele Vision-Language-Action (VLA)-Modelle glätten Bildbereiche zu einer 1D-Token-Sequenz, was die für präzise Manipulationen notwendigen 2D-räumlichen Hinweise abschwächt. Wir stellen IVRA vor, eine leichtgewichtige, trainingsfreie Methode, die das räumliche Verständnis verbessert, indem Affinitätshinweise genutzt werden, die bereits im eingebauten Vision-Encoder des Modells verfügbar sind, ohne dass ein externer Encoder oder Neutraining erforderlich ist. IVRA injiziert diese Affinitätssignale selektiv in eine Language-Model-Schicht, in der instanzspezifische Merkmale vorliegen. Dieser Eingriff zur Inferenzzeit richtet die visuellen Token-Interaktionen neu aus und bewahrt die geometrische Struktur besser, während alle Modellparameter festgehalten werden. Wir demonstrieren die Allgemeingültigkeit von IVRA, indem wir es auf verschiedene VLA-Architekturen (LLaRA, OpenVLA und FLOWER) in simulierten Benchmarks für sowohl 2D- als auch 3D-Manipulation (VIMA und LIBERO) sowie bei verschiedenen Real-Roboter-Aufgaben anwenden. Auf 2D-VIMA verbessert IVRA den durchschnittlichen Erfolg um +4,2 % gegenüber der LLaRA-Baseline in einem Datensparsamkeitsregime. Auf 3D-LIBERO erzielt es konsistent Gewinne gegenüber den OpenVLA- und FLOWER-Baselines, einschließlich Verbesserungen, wenn die Baseline-Genauigkeit nahe der Sättigung liegt (96,3 % auf 97,1 %). Der gesamte Code und die Modelle werden öffentlich freigegeben. Visualisierungen sind verfügbar unter: jongwoopark7978.github.io/IVRA
Konventionelle Agentensysteme stoßen in offenen Umgebungen oft an Grenzen, wenn sich Aufgabenverteilungen kontinuierlich verschieben und externe Überwachung knapp ist. Ihre Abhängigkeit von statischen Werkzeugsätzen oder Offline-Training hält mit dieser Dynamik nicht Schritt, wodurch die Fähigkeitsgrenzen des Systems starr und unbekannt bleiben. Um dieses Problem zu lösen, schlagen wir das Paradigma der *In-Situ-Selbstevolution* vor. Dieser Ansatz behandelt sequenzielle Aufgabeninteraktionen als kontinuierlichen Erfahrungsstrom und ermöglicht es dem System, kurzfristige Ausführungsrückmeldungen in langfristig wiederverwendbare Fähigkeiten zu destillieren, ohne auf Ground-Truth-Labels zugreifen zu müssen. In diesem Rahmen identifizieren wir die Werkzeugevolution als kritischen Pfad zur Erweiterung der Fähigkeiten, da sie überprüfbare, binäre Rückmeldesignale liefert. Innerhalb dieses Frameworks entwickeln wir den Yunjue Agent, ein System, das iterativ Werkzeuge synthetisiert, optimiert und wiederverwendet, um neuen Herausforderungen zu begegnen. Um die evolutionäre Effizienz zu steigern, führen wir eine *Parallel Batch Evolution*-Strategie ein. Empirische Auswertungen über fünf verschiedene Benchmarks unter Zero-Start-Bedingungen demonstrieren signifikante Leistungssteigerungen gegenüber proprietären Baseline-Systemen. Zusätzlich bestätigen komplementäre Warm-Start-Evaluierungen, dass das akkumulierte Allgemeinwissen nahtlos auf neue Domänen übertragen werden kann. Schließlich schlagen wir eine neuartige Metrik zur Überwachung der Evolutionskonvergenz vor, die eine ähnliche Funktion erfüllt wie der Trainingsverlust in der konventionellen Optimierung. Wir veröffentlichen unsere Codebasis, System-Traces und evolvierten Werkzeuge als Open Source, um zukünftige Forschung zu widerstandsfähiger, sich selbst evolvierender Intelligenz zu fördern.
Die Ausrichtung großer Sprachmodelle (LLMs) zielt darauf ab, deren Ausgaben an menschliche Präferenzen anzupassen, während die personalisierte Ausrichtung Modelle weiter an individuelle Nutzer anpasst. Dies stützt sich auf personalisierte Belohnungsmodelle, die nutzerspezifische Präferenzen erfassen und automatisiert individuelles Feedback liefern. Die Entwicklung solcher Modelle sieht sich jedoch zwei kritischen Herausforderungen gegenüber: der Knappheit von Feedback einzelner Nutzer und der Notwendigkeit einer effizienten Anpassung an unbekannte Nutzer. Wir vertreten die Auffassung, dass die Bewältigung dieser Einschränkungen einen Paradigmenwechsel erfordert – weg von der Anpassung an Daten zur Erfassung von Nutzerpräferenzen hin zum Erlernen des Prozesses der Präferenzanpassung. Um dies zu realisieren, schlagen wir Meta Reward Modeling (MRM) vor, das personalisierte Belohnungsmodellierung als Meta-Lernproblem reformuliert. Konkret repräsentieren wir das Belohnungsmodell jedes Nutzers als gewichtete Kombination von Basis-Belohnungsfunktionen und optimieren die Initialisierung dieser Gewichte mittels eines Model-Agnostic Meta-Learning (MAML)-artigen Frameworks, um eine schnelle Anpassung bei begrenztem Feedback zu ermöglichen. Um Robustheit zu gewährleisten, führen wir das Robust Personalization Objective (RPO) ein, das während der Meta-Optimierung stärker schwer zu lernende Nutzer betont. Umfangreiche Experimente mit personalisierten Präferenzdatensätzen bestätigen, dass MRM die Few-Shot-Personalisierung verbessert, die Nutzerrobustheit erhöht und Baseline-Methoden konsistent übertrifft.
Trotz der zunehmenden Verbreitung großer Sprachmodelle (LLMs) in wissenschaftlichen Forschungsabläufen ist die automatisierte Unterstützung für akademische Repliken, ein entscheidender Schritt in der akademischen Kommunikation und im Peer-Review, weitgehend unerforscht. Bestehende Ansätze basieren typischerweise auf Standard-LLMs oder einfachen Pipelines, die mit dem Verständnis langer Kontexte kämpfen und oft keine zielgerichteten und überzeugenden Antworten liefern. In diesem Artikel stellen wir DRPG vor, ein agentenbasiertes Framework zur automatischen Generierung akademischer Repliken, das in vier Schritten arbeitet: Zerlege Reviews in atomare Kritikpunkte, Rufe relevante Beweise aus dem Paper ab, Plane Replikationsstrategien und Generiere Antworten entsprechend. Bemerkenswerterweise erreicht der Planner in DRPG eine Genauigkeit von über 98 % bei der Identifizierung der machbarsten Replikationsrichtung. Experimente mit Daten von Top-Konferenzen zeigen, dass DRPG bestehende Replikations-Pipelines deutlich übertrifft und mit nur einem 8B-Modell eine Leistung jenseits des durchschnittlichen menschlichen Niveaus erzielt. Unsere Analyse demonstriert weiterhin die Effektivität des Planner-Designs und seinen Wert bei der Bereitstellung multiperspektivischer und erklärbarer Vorschläge. Wir zeigten außerdem, dass DRPG auch in einer komplexeren Mehrrunden-Umgebung gut funktioniert. Diese Ergebnisse unterstreichen die Wirksamkeit von DRPG und sein Potenzial, hochwertige Replikationsinhalte bereitzustellen und die Skalierung akademischer Diskussionen zu unterstützen. Der Code für diese Arbeit ist verfügbar unter https://github.com/ulab-uiuc/DRPG-RebuttalAgent.
Eine der überzeugendsten Eigenschaften globaler diskreter Diffusions-Sprachmodelle ist ihre globale bidirektionale Kontextfähigkeit. Allerdings neigen bestehende blockbasierte Diffusionsstudien dazu, autoregressive Priors einzuführen, die zwar Vorteile bieten, aber dazu führen können, dass Modelle diese globale Kohärenz auf Makroebene verlieren. Um das globale Kontextverständnis zurückzugewinnen und gleichzeitig die Vorteile des semi-autoregressiven Paradigmas zu bewahren, schlagen wir Diffusion in Diffusion vor, einen "Entwurf-dann-Verfeinerung"-Rahmen, der entwickelt wurde, um die Irreversibilitäts- und Kurzsichtigkeitsprobleme inhärenter Blockdiffusionsmodelle zu überwinden. Unser Ansatz verwendet zunächst Blockdiffusion, um schnelle Entwürfe mit kleinen Blöcken zu generieren, und verfeinert diese Entwürfe dann durch globale bidirektionale Diffusion mit einem größeren bidirektionalen rezeptiven Feld. Wir nutzen Snapshot-Konfidenz-Neumaskierung, um die kritischsten Token zu identifizieren, die Änderungen erfordern, und wenden Mix-Scale-Training an, um die globalen Fähigkeiten des Blockdiffusionsmodells zu erweitern. Empirische Ergebnisse zeigen, dass unser Ansatz einen neuen Maßstab für diskrete Diffusionsmodelle auf dem OpenWebText-Datensatz setzt. Mit nur 26% des Feinabstimmungsbudgets der Baseline-Modelle reduzieren wir die generative Perplexität von 25,7 auf 21,9 und verringern so die Leistungslücke zu autoregressiven Modellen erheblich.
Code-Switching ist eine weit verbreitete Praxis unter der mehrsprachigen Weltbevölkerung, doch nur wenige Benchmarks bilden deren Komplexität in der alltäglichen Kommunikation genau ab. Wir stellen PingPong vor, einen Benchmark für natürliche, mehrseitige Code-Switching-Dialoge, der fünf Sprachkombinations-Varianten abdeckt, von denen einige dreisprachig sind. Unser Datensatz besteht von Menschen verfassten Gesprächen zwischen 2 und 4 Teilnehmern, die authentische, vielschichtige Strukturen aufweisen, in denen Antworten häufig auf wesentlich frühere Punkte im Dialog verweisen. Wir zeigen, dass unsere Daten deutlich natürlicher und strukturell vielfältiger sind als maschinell generierte Alternativen und eine größere Variation in Nachrichtenlänge, Sprecherdominanz und Antwortabstand bieten. Basierend auf diesen Dialogen definieren wir drei nachgelagerte Aufgaben: Fragebeantwortung, Dialogzusammenfassung und Themenklassifizierung. Die Evaluierung mehrerer modernster Sprachmodelle anhand von PingPong zeigt, dass die Leistung bei Code-Switching-Eingaben nach wie vor begrenzt ist, was den dringenden Bedarf an robusteren NLP-Systemen unterstreicht, die die Feinheiten realer mehrsprachiger Diskurse bewältigen können.
Eine genaue Transkription und Sprecherdiarisierung von gesprochenen Interaktionen zwischen Kindern und Erwachsenen ist entscheidend für die Entwicklungs- und klinische Forschung. Allerdings ist die manuelle Annotation zeitaufwändig und nur schwer zu skalieren. Bestehende automatisierte Systeme basieren typischerweise auf kaskadierten Pipelines für Sprecherdiarisierung und Spracherkennung, was zu Fehlerfortpflanzung führen kann. Dieses Papier stellt ein vereinheitlichtes End-to-End-Framework vor, das die Whisper-Encoder-Decoder-Architektur erweitert, um ASR und die Diarisierung der Sprecherrollen (Kind/Erwachsener) gemeinsam zu modellieren. Der vorgeschlagene Ansatz integriert: (i) ein Serialized-Output-Training-Schema, das Sprecherkennzeichnungen sowie Start- und Endzeitpunkte ausgibt, (ii) einen leichtgewichtigen Diarisierungs-Head auf Framebasis, der sprecherdiskriminative Encoder-Repräsentationen verbessert, (iii) diarisierungsgestützte Stilleunterdrückung für eine verbesserte zeitliche Präzision und (iv) ein auf einem Zustandsautomaten basierendes Forced-Decoding-Verfahren, das strukturell valide Ausgaben garantiert. Umfassende Auswertungen auf zwei Datensätzen zeigen durchgängige und erhebliche Verbesserungen gegenüber zwei kaskadierten Baseline-Systemen, erreichen niedrigere Multi-Talker-Word-Error-Rates und demonstrieren eine wettbewerbsfähige Diarisierungsgenauigkeit sowohl für Whisper-small- als auch Whisper-large-Modelle. Diese Ergebnisse unterstreichen die Wirksamkeit und praktische Nützlichkeit des vorgeschlagenen gemeinsamen Modellierungsframeworks zur Erstellung zuverlässiger, sprecherzugeordneter Transkripte von Kind-Erwachsenen-Interaktionen im großen Maßstab. Der Code und die Modellgewichte sind öffentlich verfügbar.
Mixture-of-Experts (MoE)-Modelle werden in der Regel mit expliziten Lastverteilungsbeschränkungen vortrainiert, um eine statistisch ausgeglichene Expertenzuordnung zu gewährleisten. Dennoch beobachten wir, dass selbst gut trainierte MoE-Modelle eine signifikant unausgeglichene Zuordnung aufweisen. Dieses Verhalten ist wohl natürlich – und sogar wünschenswert –, da eine unausgeglichene Zuordnung es Modellen ermöglicht, domänenspezifisches Wissen in einer Teilmenge von Experten zu bündeln. Expertenparallelismus (EP) ist darauf ausgelegt, MoE-Modelle zu skalieren, indem Experten auf mehrere Geräte verteilt werden, basierend auf der weniger diskutierten Annahme einer ausgeglichenen Zuordnung. Bei extremer Unausgeglichenheit kann EP eine unverhältnismäßig große Anzahl von Tokens an eine kleine Anzahl von Experten weiterleiten, was zu rechen- und speicherbedingten Ausfällen auf überlasteten Geräten während des Post-Trainings oder Inferenz führt, wo explizite Lastverteilung oft nicht anwendbar ist. Wir schlagen Least-Loaded Expert Parallelism (LLEP) vor, einen neuartigen EP-Algorithmus, der überschüssige Tokens und zugehörige Expertenparameter dynamisch von überlasteten Geräten zu ungenutzten Geräten umleitet. Dies stellt sicher, dass alle Geräte ihre Arbeitslasten innerhalb der minimalen kollektiven Latenzzeit und unter Einhaltung der Speicherbeschränkungen abschließen. Über verschiedene Modellskalen hinweg erreicht LLEP im Vergleich zu Standard-EP eine bis zu 5-fache Beschleunigung und eine 4-fache Reduzierung der Spitzenspeichernutzung. Dies ermöglicht ein schnelleres Post-Training und einen höheren Durchsatz bei der Inferenz, mit ~1,9-facher Geschwindigkeit für gpt-oss-120b. Wir untermauern unsere Methode mit umfangreichen theoretischen Analysen und umfassenden empirischen Auswertungen, einschließlich Ablationsstudien. Diese Ergebnisse beleuchten wichtige Zielkonflikte und ermöglichen einen prinzipienbasierten Rahmen für hardware-spezifische Hyperparameter-Optimierung, um eine optimale Leistung zu erzielen.
Effizientes Management des Key-Value (KV) Caches ist entscheidend für den praktischen Einsatz von Large Language Models (LLMs), bestehende Komprimierungstechniken führen jedoch oft zu einem Zielkonflikt zwischen Leistungseinbußen und Rechenaufwand. Wir schlagen eine neuartige, auf Gating basierende Methode zur Auslagerung aus dem KV-Cache für LLMs mit festen Gewichten vor, die hohe Komprimierungsraten mit vernachlässigbarem Rechenaufwand erreicht. Unser Ansatz führt leichtgewichtige Sink-Attention-Gating-Module ein, um kritische KV-Paare zu identifizieren und zu behalten, und lässt sich nahtlos sowohl in die Prefill- als auch in die Decoding-Phase integrieren. Der vorgeschlagene Gate-Trainingsalgorithmus basiert auf Forward-Passes eines LLMs, vermeidet somit aufwändige Backpropagation und erreicht dennoch eine starke Task-Generalisierung durch ein task-agnostisches Rekonstruktionsziel. Umfangreiche Experimente mit den Modellfamilien Qwen2.5-1M, Qwen3 und Gemma3 zeigen, dass unsere Methode bei einer Auslagerung von bis zu 70 % des KV-Caches eine nahezu verlustfreie Leistung beibehält. Die Ergebnisse sind konsistent über eine breite Palette von Aufgaben hinweg, einschließlich Langzeitkontextverständnis, Code-Verständnis und mathematischem Reasoning, was die Allgemeingültigkeit unseres Ansatzes demonstriert.
Große Sprachmodelle werden zunehmend für tiefgreifendes logisches Denken optimiert, wobei die korrekte Ausführung komplexer Aufgaben priorisiert wird gegenüber allgemeiner Konversation. Wir untersuchen, ob dieser Fokus auf Berechnungen einen "Tunnelblick" erzeugt, der in kritischen Situationen die Sicherheit außer Acht lässt. Wir stellen MortalMATH vor, einen Benchmark mit 150 Szenarien, in denen Nutzer um Algebra-Hilfe bitten und dabei zunehmend lebensbedrohliche Notfälle beschreiben (z.B. Schlaganfallsymptome, freier Fall). Wir beobachten eine deutliche Verhaltensspaltung: Generalistische Modelle (wie Llama-3.1) verweigern erfolgreich die Matheaufgabe, um auf die Gefahr zu reagieren. Im Gegensatz dazu ignorieren spezialisierte Reasoning-Modelle (wie Qwen-3-32b und GPT-5-nano) den Notfall oft vollständig und halten eine Aufgabenabschlussrate von über 95 Prozent aufrecht, während der Nutzer sein eigenes Sterben beschreibt. Darüber hinaus führt die für das Reasoning benötigte Rechenzeit zu gefährlichen Verzögerungen: bis zu 15 Sekunden, bevor überhaupt Hilfe angeboten wird. Diese Ergebnisse legen nahe, dass das Training von Modellen, unerbittlich korrekte Antworten zu verfolgen, unbeabsichtigt die für einen sicheren Einsatz erforderlichen Überlebensinstinkte verlernen lassen könnte.
Die Gestaltung von Benutzeroberflächen (User Interfaces, UIs) ist ein entscheidender Schritt bei der Produkteinführung, dem Aufbau von Portfolios oder der Personalisierung von Projekten. Dennoch haben Endnutzer ohne Design-Expertise oft Schwierigkeiten, ihre Absicht zu artikulieren und Designentscheidungen zu vertrauen. Bestehende, beispielbasierte Tools fördern entweder eine breite Exploration, was zu Überforderung und Design-Drift führen kann, oder erfordern die Anpassung eines einzelnen Beispiels, was das Risiko von Design-Fixierung birgt. Wir stellen UI Remix vor, ein interaktives System, das das Design mobiler Benutzeroberflächen durch einen beispielgesteuerten Design-Workflow unterstützt. Angetrieben durch ein multimodales, retrieval-erweitertes Generativmodell (Multimodal Retrieval-Augmented Generation, MMRAG) ermöglicht UI Remix die iterative Suche, Auswahl und Anpassung von Beispielen sowohl auf globaler (gesamte Oberfläche) als auch auf lokaler (Komponenten) Ebene. Um Vertrauen zu fördern, werden Quellen-Transparenzhinweise wie Bewertungen, Download-Zahlen und Entwicklerinformationen angezeigt. In einer empirischen Studie mit 24 Endnutzern verbesserte UI Remix signifikant die Fähigkeit der Teilnehmer, ihre Designziele zu erreichen, erleichterte effektive Iterationen und förderte die Erkundung alternativer Designs. Die Teilnehmer gaben ebenfalls an, dass die Quellen-Transparenzhinweise ihr Vertrauen in die Anpassung von Beispielen stärkten. Unsere Ergebnisse deuten auf neue Richtungen für KI-unterstützte, beispielgesteuerte Systeme hin, die Endnutzer befähigen, mit größerer Kontrolle, Vertrauen und Offenheit für Exploration zu gestalten.
Aufmerksamkeitsmatrizen sind grundlegend für die Transformer-Forschung und unterstützen eine breite Palette von Anwendungen, einschließlich Interpretierbarkeit, Visualisierung, Manipulation und Destillation. Dennoch konzentrieren sich die meisten bestehenden Analysen auf einzelne Aufmerksamkeitsköpfe oder -schichten und berücksichtigen nicht das globale Verhalten des Modells. Während frühere Arbeiten Aufmerksamkeitsformulierungen über mehrere Köpfe hinweg durch Mittelwertbildung und Matrixmultiplikationen erweitert oder Komponenten wie Normalisierung und FFNs einbezogen haben, fehlt es nach wie vor an einer einheitlichen und vollständigen Repräsentation, die alle Transformer-Blöcke umfasst. Wir schließen diese Lücke durch die Einführung von TensorLens, einer neuartigen Formulierung, die den gesamten Transformer als einen einzigen, eingabeabhängigen linearen Operator erfasst, der durch einen höhergradigen Aufmerksamkeits-Interaktions-Tensor ausgedrückt wird. Dieser Tensor kodiert gemeinsam Aufmerksamkeit, FFNs, Aktivierungen, Normalisierungen und Residualverbindungen und bietet somit eine theoretisch kohärente und ausdrucksstarke lineare Repräsentation der Modellberechnung. TensorLens ist theoretisch fundiert, und unsere empirische Validierung zeigt, dass es reichhaltigere Repräsentationen liefert als bisherige Aufmerksamkeitsaggregationsmethoden. Unsere Experimente belegen, dass der Aufmerksamkeitstensor als leistungsstarke Grundlage für die Entwicklung von Werkzeugen zur Interpretierbarkeit und Modellverständnis dienen kann. Unser Code ist als Supplement beigefügt.
LLM-gestützte Suchagenten werden zunehmend für mehrstufige Informationssuchaufgaben eingesetzt, doch der IR-Community fehlt ein empirisches Verständnis dafür, wie agentenbasierte Suchsitzungen ablaufen und wie abgerufene Evidenz genutzt wird. Dieser Beitrag präsentiert eine groß angelegte Log-Analyse agentenbasierter Suche auf Basis von 14,44 Millionen Suchanfragen (3,97 Millionen Sitzungen), die von DeepResearchGym gesammelt wurden, einer Open-Source-Such-API, die von externen agentenbasierten Clients aufgerufen wird. Wir strukturieren die Logs in Sitzungen, weisen sitzungsbasierte Intents und schrittweise Query-Reformulierungslabels mittels LLM-basierter Annotation zu und schlagen die Context-driven Term Adoption Rate (CTAR) vor, um zu quantifizieren, ob neu eingeführte Suchbegriffe auf zuvor abgerufene Evidenz zurückgeführt werden können. Unsere Analysen zeigen charakteristische Verhaltensmuster. Erstens enthalten über 90 % der mehrstufigen Sitzungen maximal zehn Schritte, und 89 % der Intervalle zwischen Schritten liegen unter einer Minute. Zweitens variiert das Verhalten je nach Intent. Faktenorientierte Sitzungen weisen eine hohe Wiederholungsrate auf, die über die Zeit zunimmt, während Sitzungen, die Reasoning erfordern, eine breitere Exploration beibehalten. Drittens nutzen Agenten Evidenz schrittübergreifend wieder. Im Durchschnitt tauchen 54 % der neu eingeführten Suchbegriffe im akkumulierten Evidenzkontext auf, wobei Beiträge aus früheren Schritten über die jüngste Abfrage hinausgehen. Die Ergebnisse legen nahe, dass agentenbasierte Suche von wiederholungsbewusstem Early Stopping, intent-adaptiven Retrieval-Budgets und expliziter schrittübergreifender Kontextverfolgung profitieren könnte. Wir planen, die anonymisierten Logs zu veröffentlichen, um zukünftige Forschung zu unterstützen.
Reinforcement Learning (RL) hat vielversprechende Ergebnisse in der aktiven Strömungskontrolle (AFC) gezeigt, dennoch ist der Fortschritt auf diesem Gebiet nach wie vor schwer zu bewerten, da bestehende Studien auf heterogenen Beobachtungs- und Aktuierungsschemata, numerischen Setups und Bewertungsprotokollen basieren. Aktuelle AFC-Benchmarks versuchen, diese Probleme anzugehen, sind jedoch stark auf externe numerische Strömungssimulationen (CFD-Solver) angewiesen, nicht vollständig differenzierbar und bieten nur eingeschränkte Unterstützung für 3D- und Multi-Agenten-Szenarien. Um diese Einschränkungen zu überwinden, stellen wir FluidGym vor, die erste eigenständige, vollständig differenzierbare Benchmark-Suite für RL in der AFC. Vollständig in PyTorch auf Basis des GPU-beschleunigten PICT-Solvers entwickelt, läuft FluidGym in einem einzigen Python-Stack, erfordert keine externe CFD-Software und bietet standardisierte Bewertungsprotokolle. Wir präsentieren Baseline-Ergebnisse mit PPO und SAC und stellen alle Umgebungen, Datensätze und trainierten Modelle als öffentliche Ressourcen zur Verfügung. FluidGym ermöglicht den systematischen Vergleich von Steuerungsmethoden, schafft eine skalierbare Grundlage für zukünftige Forschung in der lernbasierten Strömungskontrolle und ist unter https://github.com/safe-autonomous-systems/fluidgym verfügbar.
Da Multimodale Große Sprachmodelle (MLLMs) zunehmend stärkere Reasoning-Fähigkeiten erwerben, um komplexe, multi-bildliche Instruktionen zu verarbeiten, könnte dieser Fortschritt neue Sicherheitsrisiken bergen. Wir untersuchen dieses Problem durch die Einführung von MIR-SafetyBench, dem ersten Benchmark, der sich auf die Sicherheit beim Multi-Image-Reasoning konzentriert und aus 2.676 Instanzen über eine Taxonomie von 9 Multi-Image-Relationen besteht. Unsere umfangreichen Evaluierungen von 19 MLLMs zeigen einen besorgniserregenden Trend: Modelle mit fortschrittlicherer Multi-Image-Reasoning-Fähigkeit können anfälliger auf MIR-SafetyBench sein. Über die Angriffserfolgsraten hinaus stellen wir fest, dass viele als sicher eingestufte Antworten oberflächlich sind, oft bedingt durch Missverständnisse oder ausweichende, unverbindliche Reaktionen. Weiterhin beobachten wir, dass unsichere Generationen im Durchschnitt eine geringere Aufmerksamkeitsentropie aufweisen als sichere. Dieses interne Merkmal deutet auf ein mögliches Risiko hin, dass Modelle sich übermäßig auf die Aufgabenerfüllung konzentrieren und dabei Sicherheitsbeschränkungen vernachlässigen könnten. Unser Code und unsere Daten sind verfügbar unter https://github.com/thu-coai/MIR-SafetyBench.
Visuelle Token-Kompression wird häufig eingesetzt, um die Inferenzeffizienz großer visuell-sprachlicher Modelle (LVLMs) zu verbessern und ihren Einsatz in latenzsensiblen und ressourcenbeschränkten Szenarien zu ermöglichen. Bisherige Arbeiten konzentrierten sich jedoch hauptsächlich auf Effizienz und Leistung, während die Sicherheitsimplikationen der visuellen Token-Kompression weitgehend unerforscht bleiben. In dieser Arbeit zeigen wir erstmals, dass visuelle Token-Kompression die Robustheit von LVLMs erheblich verringert: Modelle, die bei unkomprimierter Inferenz robust sind, werden hochgradig anfällig, sobald Kompression aktiviert ist. Diese Schwachstellen sind zustandsspezifisch; Fehlermodi treten nur im komprimierten Modus auf und verschwinden vollständig, wenn die Kompression deaktiviert wird, was sie besonders versteckt und schwer zu diagnostizieren macht. Durch die Analyse der Schlüsselphasen des Kompressionsprozesses identifizieren wir Instabilität in der Token-Bedeutungsrangfolge als Hauptursache für diesen Robustheitsverlust. Geringfügige und unbemerkbare Perturbationen können Token-Rankings erheblich verändern, was den Kompressionsmechanismus dazu verleitet, aufgabenkritische Informationen fälschlicherweise zu verwerfen und letztlich zum Modellversagen führt. Aufbauend auf dieser Erkenntnis schlagen wir einen kompressionsbewussten Angriff (Compression-Aware Attack, CAA) vor, um diese Schwachstelle systematisch zu untersuchen und auszunutzen. CAA zielt direkt auf den Token-Auswahlmechanismus ab und induziert Fehler ausschließlich unter komprimierter Inferenz. Wir erweitern diesen Ansatz auf realistischere Black-Box-Szenarien und führen Transfer-CAA ein, bei dem weder das Zielmodell noch die Kompressionskonfiguration zugänglich sind. Wir evaluieren zudem mögliche Verteidigungsstrategien und stellen fest, dass diese nur begrenzten Schutz bieten. Umfangreiche Experimente mit verschiedenen Modellen, Datensätzen und Kompressionsmethoden zeigen, dass visuelle Token-Kompression die Robustheit erheblich beeinträchtigt und damit einen bisher übersehenen Zielkonflikt zwischen Effizienz und Sicherheit aufdeckt.
Die Zuverlässigkeit von Large Language Models (LLMs) in hochriskanten Bereichen wie dem Gesundheitswesen, dem Rechtswesen und der wissenschaftlichen Entdeckung wird häufig durch Halluzinationen beeinträchtigt. Diese Fehler lassen sich typischerweise auf zwei Quellen zurückführen: datengetriebene Halluzinationen und reasoning-getriebene Halluzinationen. Bisherige Erkennungsmethoden adressieren jedoch meist nur eine Quelle und stützen sich auf aufgabenspezifische Heuristiken, was ihre Generalisierbarkeit auf komplexe Szenarien einschränkt. Um diese Einschränkungen zu überwinden, führen wir die Hallucination Risk Bound ein, einen vereinheitlichten theoretischen Rahmen, der das Halluzinationsrisiko formal in datengetriebene und reasoning-getriebene Komponenten zerlegt, die jeweils mit Trainingszeit-Fehlanpassungen und Inferenzzeit-Instabilitäten verknüpft sind. Dies schafft eine prinzipielle Grundlage für die Analyse, wie Halluzinationen entstehen und sich entwickeln. Aufbauend auf dieser Grundlage stellen wir HalluGuard vor, einen auf dem Neural Tangent Kernel (NTK) basierenden Score, der die induzierte Geometrie und die erfassten Repräsentationen des NTK nutzt, um datengetriebene und reasoning-getriebene Halluzinationen gemeinsam zu identifizieren. Wir evaluieren HalluGuard auf 10 diversen Benchmarks, mit 11 kompetitiven Baseline-Methoden und 9 verbreiteten LLM-Architekturen und erreichen durchgängig State-of-the-Art-Leistung bei der Erkennung verschiedener Formen von LLM-Halluzinationen.
Mixture-of-Agents (MoA) verbessert die Leistung von LLMs durch geschichtete Zusammenarbeit, doch seine dichte Topologie erhöht Kosten und Latenz. Bestehende Methoden setzen LLM-Judges ein, um Antworten zu filtern, erfordern aber dennoch, dass alle Modelle vor der Bewertung Inferenz durchführen, was Kosten nicht effektiv senkt. Zudem fehlen ihnen Modellauswahlkriterien und sie haben Schwierigkeiten mit großen Modellpools, bei denen vollständige Inferenz kostspielig ist und Kontextlimits überschreiten kann. Um dies zu lösen, schlagen wir RouteMoA vor, ein effizientes Mixture-of-Agents-Framework mit dynamischem Routing. Es nutzt einen leichten Scorer für eine erste Vorauswahl, indem er grobkörnige Leistung anhand der Anfrage vorhersagt und die Kandidaten auf eine hochpotente Teilmenge ohne Inferenz eingrenzt. Eine Mischung von Judges verfeinert diese Scores dann durch leichte Selbst- und Fremdbewertung basierend auf vorhandenen Modellausgaben, was eine Nachkorrektur ohne zusätzliche Inferenz ermöglicht. Schließlich wählt ein Modellranking-Mechanismus Modelle aus, indem Leistung, Kosten und Latenz abgewogen werden. RouteMoA übertrifft MoA in verschiedenen Aufgaben und Modellpoolgrößen und reduziert die Kosten um 89,8 % und die Latenz um 63,6 % im großskaligen Modellpool.
Textured 3D Morphing zielt darauf ab, sanfte und plausible Übergänge zwischen zwei 3D-Objekten zu erzeugen und dabei sowohl strukturelle Kohärenz als auch feingranulare Erscheinung zu bewahren. Diese Fähigkeit ist nicht nur entscheidend für die Weiterentwicklung der 3D-Generierungsforschung, sondern auch für praktische Anwendungen in Animation, Bearbeitung und digitaler Inhaltserstellung. Bestehende Ansätze operieren entweder direkt auf der Geometrie, was sie auf eine reine Formveränderung beschränkt und Texturen vernachlässigt, oder übertragen 2D-Interpolationsstrategien in den 3D-Raum, was häufig zu semantischer Mehrdeutigkeit, struktureller Fehlausrichtung und Texturverschmierung führt. Diese Herausforderungen unterstreichen die Notwendigkeit, geometrische Konsistenz, Texturausrichtung und Robustheit während des gesamten Übergangsprozesses gemeinsam zu bewahren. Um dies zu adressieren, schlagen wir Interp3D vor, ein neuartiges, trainingsfreies Framework für texturiertes 3D-Morphing. Es nutzt generative Priors und übernimmt ein progressives Ausrichtungsprinzip, um sowohl geometrische Treue als auch Texturkohärenz zu gewährleisten. Ausgehend von einer semantisch ausgerichteten Interpolation im Konditionierungsraum erzwingt Interp3D strukturelle Konsistenz via SLAT (Structured Latent)-gesteuerter Strukturinterpolation und überträgt schließlich Erscheinungsdetails durch eine feingranulare Texturfusion. Für eine umfassende Evaluation erstellen wir einen dedizierten Datensatz, Interp3DData, mit abgestuften Schwierigkeitsgraden und bewerten die Generierungsergebnisse hinsichtlich Treue, Übergangsglätte und Plausibilität. Sowohl quantitative Metriken als auch Nutzerstudien belegen die signifikanten Vorteile unseres vorgeschlagenen Ansatzes gegenüber früheren Methoden. Der Quellcode ist verfügbar unter https://github.com/xiaolul2/Interp3D.