Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Trotz der rasanten jüngsten Fortschritte bei den Terminalfähigkeiten großer Sprachmodelle sind die Trainingsdatenstrategien hinter modernsten Terminal-Agenten weitgehend undurchsichtig. Wir schließen diese Lücke durch eine systematische Untersuchung von Data-Engineering-Praktiken für Terminal-Agenten und leisten zwei zentrale Beiträge: (1) Terminal-Task-Gen, eine schlanke Pipeline zur synthetischen Aufgabengenerierung, die seed-basierte und kompetenzbasierte Aufgabenkonstruktion unterstützt, und (2) eine umfassende Analyse von Daten- und Trainingsstrategien, einschließlich Filterung, Curriculum Learning, Langkontext-Training und Skalierungsverhalten. Unsere Pipeline erzeugt Terminal-Corpus, einen groß angelegten Open-Source-Datensatz für Terminal-Aufgaben. Mit diesem Datensatz trainieren wir Nemotron-Terminal, eine Modellfamilie, die auf Qwen3(8B, 14B, 32B) initialisiert wurde und erhebliche Verbesserungen auf Terminal-Bench 2.0 erzielt: Nemotron-Terminal-8B steigt von 2,5 % auf 13,0 %, Nemotron-Terminal-14B von 4,0 % auf 20,2 % und Nemotron-Terminal-32B von 3,4 % auf 27,4 % und erreicht damit die Leistung deutlich größerer Modelle. Um die Forschung in diesem Bereich zu beschleunigen, veröffentlichen wir unsere Modell-Checkpoints und den Großteil unserer synthetischen Datensätze unter https://huggingface.co/collections/nvidia/nemotron-terminal als Open Source.
Aufbauend auf der bestehenden Analyse von Retrieval-Köpfen in großen Sprachmodellen schlagen wir ein alternatives Reranking-Framework vor, das Modelle darauf trainiert, die Relevanz von Passagen und Abfragen anhand der Aufmerksamkeitswerte ausgewählter Köpfe zu schätzen. Dieser Ansatz bietet eine listwise-Lösung, die holistische Informationen innerhalb der gesamten Kandidatenliste während des Rankings nutzt. Gleichzeitig erzeugt er natürlicherweise kontinuierliche Relevanzwerte, was ein Training auf beliebigen Retrieval-Datensätzen ohne Likert-Skalen-Supervision ermöglicht. Unser Framework ist leichtgewichtig und effektiv, benötigt nur kleinere Modelle (z.B. 4B Parameter) und erzielt dennoch hohe Leistung. Umfangreiche Experimente zeigen, dass unsere Methode bestehende state-of-the-art pointwise- und listwise-Reranker in verschiedenen Domänen übertrifft, einschließlich Wikipedia- und langen narrativen Datensätzen. Zudem etabliert sie einen neuen State-of-the-Art auf dem LoCoMo-Benchmark, der Fähigkeiten im Dialogverständnis und Speichernutzung bewertet. Wir zeigen weiter, dass unser Framework flexible Erweiterungen unterstützt. Beispielsweise verbessert die Anreicherung von Kandidatenpassagen mit Kontextinformationen die Ranking-Genauigkeit, während das Training von Aufmerksamkeitsköpfen aus mittleren Schichten die Effizienz steigert, ohne die Leistung zu beeinträchtigen.
Reinforcement Learning für agentische multimodale Modelle leidet häufig unter Interaktionskollaps, bei dem Modelle lernen, den Werkzeugeinsatz und mehrstufiges Reasoning zu reduzieren, was die Vorteile agentischen Verhaltens einschränkt. Wir stellen PyVision-RL vor, ein Reinforcement-Learning-Framework für Open-Weight-Multimodal-Modelle, das das Training stabilisiert und Interaktionen aufrechterhält. Unser Ansatz kombiniert eine Oversampling-Filtering-Ranking-Rollout-Strategie mit einer akkumulativen Werkzeugbelohnung, um Kollaps zu verhindern und mehrstufigen Werkzeugeinsatz zu fördern. Mithilfe einer einheitlichen Trainingspipeline entwickeln wir PyVision-Image und PyVision-Video für Bild- und Videoverständnis. Für Video-Reasoning setzt PyVision-Video eine bedarfsgesteuerte Kontextkonstruktion ein, die während des Reasoningprozesses selektiv aufgabenrelevante Frames sampelt, um die Nutzung visueller Tokens erheblich zu reduzieren. Experimente zeigen eine hohe Leistungsfähigkeit und verbesserte Effizienz und demonstrieren, dass nachhaltige Interaktion und bedarfsgesteuerte visuelle Verarbeitung entscheidend für skalierbare multimodale Agenten sind.
Test-Time Training (TTT) mit KV-Bindung als Sequenzmodellierungsschicht wird gemeinhin als eine Form des Online-Meta-Lernens interpretiert, das zur Testzeit eine Schlüssel-Wert-Zuordnung auswendig lernt. Unsere Analyse deckt jedoch mehrere Phänomene auf, die dieser auf Auswendiglernen basierenden Interpretation widersprechen. Angeregt durch diese Erkenntnisse untersuchen wir die Formulierung von TTT erneut und zeigen, dass eine breite Klasse von TTT-Architekturen als eine Form eines gelernten linearen Attention-Operators ausgedrückt werden kann. Über die Erklärung zuvor rätselhafter Modellverhalten hinaus bietet diese Perspektive mehrere praktische Vorteile: Sie ermöglicht prinzipielle architektonische Vereinfachungen, erlaubt vollständig parallele Formulierungen, die die Leistung bei verbesserter Effizienz bewahren, und bietet eine systematische Reduktion verschiedener TTT-Varianten auf eine standardisierte lineare Attention-Form. Insgesamt betrachten unsere Ergebnisse TTT nicht als Auswendiglernen zur Testzeit, sondern als gelernte lineare Attention mit erweiterter Repräsentationskapazität.
Das Verständnis der physikalischen Struktur ist entscheidend für reale Anwendungen wie verkörperte Agenten, interaktives Design und Manipulation mit langem Zeithorizont. Dennoch konzentrieren sich gängige Evaluationen von Vision-Sprach-Modellen (VLM) nach wie vor auf strukturunabhängige, einstufige Setup-Formate (z.B. VQA), die nicht erfassen können, inwieweit Agenten in der Lage sind, zu schlussfolgern, wie Geometrie, Kontakt- und Stützrelationen gemeinsam einschränken, welche Aktionen in einer dynamischen Umgebung möglich sind. Um diese Lücke zu schließen, stellen wir den Causal Hierarchy of Actions and Interactions (CHAIN) Benchmark vor – eine interaktive, physikbasierte 3D-Testumgebung, die entwickelt wurde, um zu evaluieren, ob Modelle strukturierte Aktionssequenzen verstehen, planen und ausführen können, die auf physikalischen Zwängen basieren. CHAIN verlagert die Evaluation von passiver Wahrnehmung hin zu aktivem Problemlösen und umfasst Aufgaben wie das Zusammensetzen mechanischer Puzzles sowie 3D-Stapel- und Packaufgaben. Wir führen eine umfassende Studie modernster VLM- und diffusionsbasierter Modelle unter einheitlichen interaktiven Bedingungen durch. Unsere Ergebnisse zeigen, dass Spitzenmodelle nach wie vor Schwierigkeiten haben, physikalische Strukturen und kausale Zwänge zu internalisieren, häufig keine zuverlässigen Langzeitpläne erstellen können und wahrgenommene Strukturen nicht robust in effektive Aktionen umsetzen. Das Projekt ist verfügbar unter https://social-ai-studio.github.io/CHAIN/.
Wir untersuchen effiziente Multi-Vektor-Retrieval-Verfahren für Late Interaction in beliebigen Modalitäten. Late Interaction hat sich als dominantes Paradigma für Information Retrieval in Text, Bildern, visuellen Dokumenten und Videos etabliert, jedoch steigen deren Berechnungs- und Speicherkosten linear mit der Dokumentlänge, was es für bild-, video- und audioreiche Korpora kostspielig macht. Um diese Einschränkung zu adressieren, erforschen wir query-agnostische Methoden zur Komprimierung von Multi-Vektor-Dokumentrepräsentationen unter einem konstanten Vektor-Budget. Wir führen vier Ansätze zur Indexkomprimierung ein: Sequenzgrößenanpassung, Memory Tokens, hierarchisches Pooling und ein neuartiges aufmerksamkeitsgeführtes Clustering (AGC). AGC verwendet einen aufmerksamkeitsgesteuerten Mechanismus, um die semantisch bedeutsamsten Regionen eines Dokuments als Cluster-Zentroide zu identifizieren und die Token-Aggregation zu gewichten. Durch die Evaluierung dieser Methoden für Retrieval-Aufgaben in den Bereichen Text (BEIR), visuelle Dokumente (ViDoRe) und Video (MSR-VTT, MultiVENT 2.0) zeigen wir, dass aufmerksamkeitsgeführtes Clustering durchweg andere parametrisierte Komprimierungsmethoden (Sequenzgrößenanpassung und Memory Tokens) übertrifft, mehr Flexibilität bei der Indexgröße als nicht-parametrisches hierarchisches Clustering bietet und eine wettbewerbsfähige oder verbesserte Leistung im Vergleich zu einem vollständigen, unkomprimierten Index erzielt. Der Quellcode ist verfügbar unter: github.com/hanxiangqin/omni-col-press.
Vision-Language-Action (VLA)-Modelle vereinigen Wahrnehmung, Sprache und Steuerung für verkörperte Agenten, stehen jedoch aufgrund schnell steigender Rechen- und Speicheranforderungen vor erheblichen Herausforderungen bei der praktischen Implementierung, insbesondere wenn Modelle auf längere Zeithorizonte und größere Backbones skaliert werden. Um diese Engpässe zu adressieren, stellen wir QuantVLA vor, ein trainingsfreies Post-Training-Quantisierungs (PTQ)-Framework, das unseres Wissens nach der erste PTQ-Ansatz für VLA-Systeme und die erste erfolgreiche Quantisierung eines Diffusions-Transformer (DiT)-Aktionskopfes ist. QuantVLA integriert drei skalengekalibrierte Komponenten: (1) ein selektives Quantisierungslayout, das alle linearen Schichten sowohl im Sprach-Backbone als auch im DiT in Integer-Zahlen umwandelt, während die Aufmerksamkeitsprojektionen im Fließkommaformat verbleiben, um den ursprünglichen Operationsplan beizubehalten; (2) Attention Temperature Matching, einen leichtgewichtigen Skalierungsmechanismus pro Kopf, der die Aufmerksamkeitslogits stabilisiert und zur Inferenzzeit in die Dequantisierungsskalen eingefaltet wird; und (3) Output Head Balancing, eine pro-Schicht Kalibrierung der Restschnittstelle, die Energieabweichungen nach der Projektion mildert. Das Framework erfordert kein zusätzliches Training, nutzt nur einen kleinen ungelabelten Kalibrierungspuffer und unterstützt Integer-Kernel für niederbitige Gewichte und Aktivitäten, während die Architektur unverändert bleibt. Bei repräsentativen VLA-Modellen auf LIBERO übertrifft QuantVLA die Aufgabenerfolgsraten der Full-Precision-Baselines, erreicht etwa 70 % relative Speichereinsparungen bei den quantisierten Komponenten und erzielt eine 1,22-fache Beschleunigung der Ende-zu-Ende-Inferenzlatenz. Dies bietet einen praktischen Weg zu skalierbarer niederbitiger verkörperter Intelligenz unter strengen Rechen-, Speicher- und Energieeinschränkungen.
Deep Research Agents generieren Analysten-gleiche Berichte, doch ihre Bewertung bleibt aufgrund fehlender eindeutiger Referenzwerte und der multidimensionalen Natur von Forschungsqualität herausfordernd. Aktuelle Benchmarks schlagen unterschiedliche Methodologien vor, leiden jedoch unter dem „Mirage of Synthesis“-Effekt, bei dem starke oberflächliche Flüssigkeit und Zitationsübereinstimmung zugrunde liegende faktische und logische Mängel verschleiern können. Wir charakterisieren diese Lücke durch eine Taxonomie über vier Dimensionen, die eine kritische Fähigkeitsdiskrepanz aufdeckt: Statische Evaluatoren fehlen inhärent die Werkzeugnutzungsfähigkeiten, die zur Bewertung temporaler Validität und faktischer Korrektheit erforderlich sind. Um dies zu adressieren, schlagen wir DREAM (Deep Research Evaluation with Agentic Metrics) vor, ein Framework, das das Prinzip der Fähigkeitsparität verwirklicht, indem es die Evaluation selbst agentenbasiert gestaltet. DREAM strukturiert die Bewertung durch ein Evaluationsprotokoll, das abfrageagnostische Metriken mit adaptiven Metriken kombiniert, die von einem werkzeugnutzenden Agenten generiert werden. Dies ermöglicht zeitlich sensible Abdeckung, geerdete Verifikation und systematische Reasoning-Tests. Kontrollierte Evaluationen zeigen, dass DREAM signifikant empfindlicher auf faktischen und zeitlichen Verfall reagiert als bestehende Benchmarks und ein skalierbares, referenzfreies Evaluationsparadigma bietet.
Trotz jüngster Fortschritte bei Diffusionsmodellen enthalten KI-generierte Bilder nach wie vor häufig visuelle Artefakte, die den Realismus beeinträchtigen. Obwohl gründlicher vortrainierte und größere Modelle Artefakte reduzieren könnten, gibt es keine Gewähr dafür, dass sie vollständig beseitigt werden können, was die Artefaktminderung zu einem äußerst wichtigen Forschungsgebiet macht. Bisherige artefaktbewusste Methoden sind auf von Menschen annotierte Artefakt-Datensätze angewiesen, die kostspielig und schwer zu skalieren sind. Dies unterstreicht den Bedarf an einem automatisierten Ansatz, um zuverlässig artefaktannotierte Datensätze zu erstellen. In diesem Artikel stellen wir ArtiAgent vor, der effizient Paare aus realen und artefaktinjizierten Bildern erzeugt. Das System besteht aus drei Agenten: einem Wahrnehmungsagenten, der Entitäten und Subentitäten in realen Bildern erkennt und lokalisiert, einem Syntheseagenten, der über Artefaktinjektionswerkzeuge mittels neuartiger patch-basierter Embedding-Manipulation in einem Diffusion-Transformer Artefakte einfügt, und einem Kuratierungsagenten, der die synthetisierten Artefakte filtert und sowohl lokale als auch globale Erklärungen für jede Instanz generiert. Mit ArtiAgent synthetisieren wir 100.000 Bilder mit umfangreichen Artefaktannotationen und demonstrieren sowohl Wirksamkeit als auch Vielseitigkeit in verschiedenen Anwendungen. Der Code ist unter Link verfügbar.
Jüngste Fortschritte bei der KI-gesteuerten Programmierung haben es Agenten ermöglicht, komplexe Workflows über Kommandozeilenschnittstellen auszuführen. Allerdings sind bestehende Benchmarks durch kurze Aufgabenhorizonte, Datenkontamination durch GitHub-Scraping und einen Mangel an feingranularen Bewertungsmetriken eingeschränkt, sodass sie die für realistische Softwareentwicklung entscheidenden Fähigkeiten zur langfristigen Planung und Ausführung nicht rigoros evaluieren können. Um diese Lücken zu schließen, führen wir LongCLI-Bench ein, einen umfassenden Benchmark zur Bewertung agentenbasierter Fähigkeiten in langfristigen, realistischen Aufgaben. Wir haben 20 hochwertige, langfristige Aufgaben aus über 1.000 Informatikübungen und realen Workflows in vier Ingenieurskategorien kuratiert: Entwicklung von Grund auf, Funktionserweiterung, Fehlerbehebung und Refactoring. Für LongCLI-Bench schlagen wir ein Dual-Set-Testprotokoll vor, das die Anforderungserfüllung (Fail-to-Pass) und die Vermeidung von Regressionen (Pass-to-Pass) misst und eine schrittweise Bewertung zur genauen Lokalisierung von Ausführungsfehlern integriert. Umfangreiche Experimente zeigen, dass selbst modernste Agenten in LongCLI-Bench Erfolgsquoten von unter 20 % erreichen. Die schrittweise Analyse verdeutlicht weiterhin, dass die Mehrheit der Aufgaben bei weniger als 30 % Fertigstellung stagniert, was darauf hindeutet, dass kritische Fehler häufig in frühen Phasen auftreten. Obwohl Selbstkorrektur geringfügige Verbesserungen bringt, erzielt die Mensch-Agent-Kollaboration durch Planinjektion und interaktive Führung signifikant größere Fortschritte. Diese Ergebnisse unterstreichen, dass zukünftige Forschung die Entwicklung synergistischer Mensch-Agent-Workflows ebenso vorantreiben muss wie die Verbesserung der Planungs- und Ausführungsfähigkeiten von Agenten, um Schlüsselherausforderungen bei langfristigen Aufgaben zu bewältigen.
Die meisten Empfehlungs-Benchmarks bewerten, wie gut ein Modell das Nutzerverhalten imitiert. In der Finanzberatung können beobachtete Handlungen jedoch aufgrund von Marktvolatilität verrauscht oder kurzsichtig sein und mit den langfristigen Zielen eines Nutzers in Konflikt stehen. Die alleinige Behandlung der Nutzerauswahl als absolute Grundwahrheit vermengt daher Verhaltensimitation mit Entscheidungsqualität. Wir stellen Conv-FinRe vor, einen konversationellen und longitudinalen Benchmark für Aktienempfehlungen, der LLMs über reine Verhaltensabgleichung hinaus bewertet. Basierend auf einem Onboarding-Interview, schrittweisem Marktkontext und Beratungsdialogen müssen Modelle Ranglisten über einen festen Anlagehorizont generieren. Entscheidend ist, dass Conv-FinRe Multi-View-Referenzen bereitstellt, die beschreibendes Verhalten von normativer Nutzenbewertung unterscheiden, die auf investorspezifischen Risikopräferenzen basiert. Dies ermöglicht die Diagnose, ob ein LLM rationaler Analyse folgt, Nutzerrauschen imitiert oder von Marktmomentum getrieben wird. Wir konstruieren den Benchmark aus realen Marktdaten und menschlichen Entscheidungspfaden, instanziieren kontrollierte Beratungsgespräche und evaluieren eine Reihe modernster LLMs. Die Ergebnisse zeigen eine anhaltende Spannung zwischen rationaler Entscheidungsqualität und verhaltensbezogener Ausrichtung: Modelle, die bei nutzenbasiertem Ranking gut abschneiden, scheitern oft an der Übereinstimmung mit Nutzerentscheidungen, während verhaltensalignierte Modelle kurzfristiges Rauschen overfitten können. Der Datensatz ist auf Hugging Face öffentlich verfügbar, und die Codebasis ist auf GitHub zugänglich.
LLM-Agents werden zunehmend als allgemeine Systeme erwartet, die in der Lage sind, offene Benutzeranfragen zu lösen. Während bestehende Benchmarks sich auf domänenspezifische Umgebungen für die Entwicklung spezialisierter Agenten konzentrieren, erfordert die Bewertung allgemeiner Agenten realistischere Settings, die sie herausfordern, über mehrere Fähigkeiten und Werkzeuge hinweg in einer einheitlichen Umgebung zu operieren. Wir stellen General AgentBench vor, einen Benchmark, der einen solchen einheitlichen Rahmen zur Bewertung allgemeiner LLM-Agents in den Bereichen Suche, Programmierung, logisches Schlussfolgern und Werkzeugnutzung bereitstellt. Mithilfe von General AgentBench untersuchen wir systematisch Skalierungsverhalten zur Testzeit unter sequenzieller Skalierung (iterative Interaktion) und paralleler Skalierung (Sampling multipler Trajektorien). Die Evaluation von zehn führenden LLM-Agents zeigt eine erhebliche Leistungsverschlechterung beim Wechsel von domänenspezifischen Bewertungen zu diesem Allgemein-Agenten-Setting. Darüber hinaus stellen wir fest, dass keine der Skalierungsmethoden in der Praxis effektive Leistungsverbesserungen bringt, aufgrund zweier grundlegender Limitationen: Kontextobergrenze bei sequenzieller Skalierung und Verifizierungslücke bei paralleler Skalierung. Der Code ist öffentlich verfügbar unter https://github.com/cxcscmu/General-AgentBench.
Test-Time-Scaling kann die Modellleistung durch die Aggregation stochastischer Reasoning-Pfade verbessern. Die Erzielung einer probeneffizienten Test-Time-Self-Consistency bei begrenztem Budget bleibt jedoch eine ungelöste Herausforderung. Wir stellen PETS (Principled and Efficient Test-Time Self-Consistency) vor, das eine prinzipielle Untersuchung der Pfadallokation durch einen Optimierungsrahmen initiiert. Zentrale Bedeutung für unseren Ansatz hat die Self-Consistency-Rate, ein neues Maß, das als Übereinstimmung mit der Mehrheitsentscheidung bei unbegrenztem Budget definiert ist. Diese Formulierung macht eine probeneffiziente Test-Time-Allokation theoretisch fundiert und einer rigorosen Analyse zugänglich. Wir untersuchen sowohl Offline- als auch Online-Szenarien. Im Offline-Regime, bei dem alle Fragen im Voraus bekannt sind, verbinden wir die Pfadallokation mit Crowdsourcing, einem klassischen und gut entwickelten Bereich, indem wir Reasoning-Spuren als Arbeiter modellieren. Diese Perspektive ermöglicht es uns, auf bestehende umfangreiche Theorie zurückzugreifen, was zu theoretischen Garantien und einem effizienten, mehrheitsbasierten Allokationsalgorithmus führt. Im Online-Streaming-Regime, bei dem Fragen sequenziell eintreffen und Allokationen ad hoc vorgenommen werden müssen, schlagen wir eine neuartige Methode vor, die vom Offline-Rahmen inspiriert ist. Unser Ansatz passt die Budgets an den Schwierigkeitsgrad der Frage an und bewahrt dabei starke theoretische Garantien und Recheneffizienz. Experimente zeigen, dass PETS durchgängig eine gleichmäßige Allokation übertrifft. Auf GPQA erreicht PETS in beiden Szenarien eine perfekte Self-Consistency und reduziert gleichzeitig das Stichprobenbudget um bis zu 75 % (Offline) bzw. 55 % (Online) im Vergleich zur gleichmäßigen Allokation. Code ist verfügbar unter https://github.com/ZDCSlab/PETS.
Sprachmodell-Agenten (LM) haben beeindruckende Fähigkeiten bei der Lösung von Aufgaben gezeigt, die mehrere Interaktionen mit der Umgebung erfordern. Sie bleiben jedoch anfällig in Umgebungen, in denen ein einzelner Fehler häufig zu nicht behebbarem Scheitern führt, insbesondere unter strengen Durchführbarkeitsbedingungen. Wir analysieren systematisch bestehende Agenten-Frameworks und identifizieren unvollständige Planung und stochastische Ausführung als Hauptursachen. Um diese Herausforderungen zu bewältigen, schlagen wir Tool-guided Adaptive Planning with constrained Execution (TAPE) vor. TAPE verbessert die Planungsfähigkeit, indem mehrere Pläne in einem Graphen aggregiert werden und ein externer Solver zur Identifikation eines machbaren Pfades eingesetzt wird. Während der Ausführung nutzt TAPE constrained Decoding, um Rauschen bei der Stichprobenziehung zu reduzieren, und passt die Planung dynamisch an, sobald Umweltfeedback vom beabsichtigten Zustand abweicht. Experimente mit Sokoban, ALFWorld, MuSiQue und GSM8K-Hard zeigen, dass TAPE durchgängig bestehende Frameworks übertrifft, mit besonders großen Verbesserungen in schwierigen Szenarien. Die Erfolgsrate steigt im Durchschnitt um 21,0 Prozentpunkte bei schwierigen Einstellungen und um 20,0 Prozentpunkte für schwächere Basismodelle. Code und Daten verfügbar unter hier.
Große Sprachmodelle (LLMs) profitieren konsequent von skaliertem Chain-of-Thought (CoT)-Reasoning, leiden aber auch unter hohem Rechenaufwand. Um dieses Problem zu adressieren, zielt effizientes Reasoning darauf ab, kurze und dennoch präzise Denkpfade zu fördern, typischerweise durch Reward Shaping mittels Reinforcement Learning (RL). In diesem Papier untersuchen wir systematisch die Mechanismen des effizienten Reasoning für LLMs. Für eine umfassende Evaluation plädieren wir für fein granulierte Metriken, einschließlich der Längenverteilung bedingt auf Korrektheit und der Leistung über ein breites Spektrum von Token-Budgets von 2k bis 32k. Zunächst zeigen wir auf, dass der Trainingsprozess einem Zwei-Phasen-Paradigma folgt: Längenadaptation und Reasoning-Verfeinerung. Anschließend führen wir umfangreiche Experimente (etwa 0,2 Millionen GPU-Stunden) in einem einheitlichen Protokoll durch, wobei wir Trainings-Prompts und Rollouts, Reward Shaping und Optimierungsstrategien dekonstruieren. Ein zentraler Befund ist dabei, dass das Training auf relativ einfacheren Prompts erfolgen sollte, um die Dichte positiver Belohnungssignale sicherzustellen und so einen Längenzusammenbruch zu vermeiden. Gleichzeitig kann die erlernte Längenverzerrung domänenübergreifend generalisiert werden. Wir destillieren alle Erkenntnisse zu wertvollen Einsichten und praktischen Leitlinien und validieren diese weiterhin über die Qwen3-Serie hinweg, von 0,6B bis 30B, was die Robustheit und Generalisierbarkeit demonstriert.
Retrieval-Algorithmen wie BM25 und Query Likelihood mit Dirichlet-Glättung bleiben starke und effiziente Erststufen-Ranker, doch Verbesserungen basierten bisher weitgehend auf Parameteroptimierung und menschlicher Intuition. Wir untersuchen, ob ein großes Sprachmodell, geleitet durch einen Evaluator und evolutionäre Suche, automatisch verbesserte lexikalische Retrieval-Algorithmen entdecken kann. Wir stellen RankEvolve vor, ein Programmentwicklungssystem basierend auf AlphaEvolve, bei dem Kandidatenalgorithmen als ausführbarer Code repräsentiert und iterativ mutiert, rekombiniert und anhand der Retrieval-Leistung über 12 IR-Datensätze von BEIR und BRIGHT selektiert werden. RankEvolve startet mit zwei Ausgangsprogrammen: BM25 und Query Likelihood mit Dirichlet-Glättung. Die evolvierten Algorithmen sind neuartig, effektiv und zeigen vielversprechende Übertragbarkeit auf die vollständigen BEIR- und BRIGHT-Benchmarks sowie TREC DL 19 und 20. Unsere Ergebnisse deuten darauf hin, dass evaluatorgesteuerte LLM-Programmevolution ein praktikabler Weg zur automatischen Entdeckung neuartiger Ranking-Algorithmen ist.
Wir berichten über die Leistung von Aletheia (Feng et al., 2026b), einem mathematischen Forschungsagenten, der mit Gemini 3 Deep Think betrieben wird, bei der ersten FirstProof-Herausforderung. Innerhalb des vorgegebenen Zeitrahmens der Challenge löste Aletheia autonom 6 Probleme (2, 5, 7, 8, 9, 10) von 10 gemäß der Mehrheitsbewertung von Experten; wir merken an, dass die Experten lediglich bei Problem 8 nicht einstimmig waren. Zur vollständigen Transparenz erläutern wir unser Verständnis von FirstProof und legen Einzelheiten zu unseren Experimenten sowie unserer Evaluierung offen. Rohdaten der Prompts und Outputs sind unter https://github.com/google-deepmind/superhuman/tree/main/aletheia verfügbar.
Die effiziente Verarbeitung langer Sequenzen mit Transformer-Modellen erfordert in der Regel eine Aufteilung der Berechnungen über Beschleuniger mittels Context Parallelism. Die vorherrschenden Ansätze dieser Methodenfamilie, wie Ring Attention oder DeepSpeed Ulysses, ermöglichen eine Skalierung über die Kontextdimension, konzentrieren sich jedoch nicht auf Speichereffizienz, was die von ihnen unterstützten Sequenzlängen begrenzt. Fortgeschrittenere Techniken, wie Fully Pipelined Distributed Transformer oder das Auslagern von Aktivierungen, können die mögliche Kontextlänge weiter erhöhen, allerdings auf Kosten des Trainingsdurchsatzes. In diesem Artikel stellen wir UPipe vor, eine einfache, aber effektive Context-Parallelism-Technik, die eine feinkörnige Aufteilung auf Ebene der Attention-Heads vornimmt. Diese Technik reduziert den Speicherverbrauch der Aktivierungen im Self-Attention-Mechanismus erheblich, durchbricht die Beschränkung durch den Aktivierungsspeicher und ermöglicht damit deutlich längere Kontextlängen. Unser Ansatz verringert den Speicherverbrauch intermediärer Tensoren in der Attention-Schicht um bis zu 87,5 % für 32B-Transformer, bei gleicher Trainingsgeschwindigkeit wie bisherige Context-Parallelism-Techniken. UPipe kann eine Kontextlänge von 5 Millionen Tokens beim Training von Llama3-8B auf einem einzelnen 8xH100-Knoten unterstützen und übertrifft damit frühere Methoden um über 25 %.
Sprachmodelle auf Basis diskreter Diffusion haben aufgrund ihres Potenzials, schnellere Generierung als autoregressive Modelle zu ermöglichen, breites Interesse geweckt. In der Praxis zeigt sich jedoch eine starke Verschlechterung der Probenqualität im Few-Step-Bereich, wodurch sich diese Verheißung nicht erfüllt. Hier zeigen wir, dass Sprachmodelle, die auf flow-basierter kontinuierlicher Entrauschung aufbauen, die diskrete Diffusion sowohl in Qualität als auch Geschwindigkeit übertreffen können. Durch eine Neubetrachtung der Grundlagen von Flows über diskrete Modalitäten entwickeln wir ein flow-basiertes Sprachmodell (FLM), das euklidische Entrauschung auf One-Hot-Token-Kodierungen durchführt. Wir zeigen, dass das Modell trainiert werden kann, indem die bereinigten Daten über ein Kreuzentropie-Ziel vorhergesagt werden, wobei wir eine einfache Zeit-Reparameterisierung einführen, die die Trainingsstabilität und Generierungsqualität erheblich verbessert. Durch Distillation des FLM in seine zugehörige Flow-Map erhalten wir ein distilliertes Flow-Map-Sprachmodell (FMLM), das Few-Step-Generierung ermöglicht. Auf den Sprachdatensätzen LM1B und OWT erreicht FLM eine Generierungsqualität, die mit modernsten diskreten Diffusionsmodellen vergleichbar ist. Mit FMLM übertrifft unser Ansatz aktuelle Few-Step-Sprachmodelle durchgängig, wobei die Ein-Schritt-Generierung deren 8-Schritt-Qualität übertrifft. Unsere Arbeit stellt die weit verbreitete Hypothese infrage, dass diskrete Diffusionsprozesse für generative Modellierung über diskrete Modalitäten notwendig sind, und ebnet den Weg für beschleunigte flow-basierte Sprachmodellierung im großen Maßstab. Code ist verfügbar unter https://github.com/david3684/flm.
Echte Anfragen an KI-Agenten sind grundsätzlich unterbestimmt. Natürliche menschliche Kommunikation baut auf geteiltem Kontext und unausgesprochenen Randbedingungen auf, von denen Sprecher erwarten, dass Zuhörer sie erschließen. Bestehende agentenbasierte Benchmarks testen die Befolgung expliziter Anweisungen, bewerten jedoch nicht, ob Agenten implizite Anforderungen bezüglich Barrierefreiheit, Privatsphäre, katastrophaler Risiken und kontextueller Einschränkungen erfassen können. Wir stellen Implicit Intelligence vor, ein Evaluierungsframework, das prüft, ob KI-Agenten über reine Prompt-Befolgung hinaus zu echten Zielerfüllern werden können, ergänzt durch Agent-as-a-World (AaW), eine Testumgebung, in der interaktive Welten in menschenlesbaren YAML-Dateien definiert und durch Sprachmodelle simuliert werden. Unsere Szenarien zeichnen sich durch scheinbare Einfachheit in Nutzeranfragen, verborgene Komplexität in korrekten Lösungen und die Entdeckbarkeit von Randbedingungen durch Umgebungsexploration aus. Die Auswertung von 16 führenden und Open-Weight-Modellen über 205 Szenarien hinweg zeigt, dass selbst das leistungsstärkste Modell nur eine Szenario-Erfolgsquote von 48,3 % erreicht, was erhebliches Verbesserungspotenzial bei der Überbrückung der Lücke zwischen buchstabengetreuer Anweisungsbefolgung und menschenähnlichem kontextuellem Denken offenbart.
Embodied LLMs verleihen Robotern zwar eine hochrangige Aufgabenplanung, können jedoch nicht reflektieren, was schiefgelaufen ist oder warum. Dies macht den Einsatz zu einer Abfolge unabhängiger Versuche, bei denen sich Fehler wiederholen, anstatt sich zu Erfahrung anzusammeln. Inspiriert von menschlichen Reflective Practitioners führen wir Reflective Test-Time Planning ein, das zwei Reflexionsmodi integriert: Reflection-in-Action, bei dem der Agent Test-Time-Scaling nutzt, um vor der Ausführung multiple Handlungsoptionen durch interne Reflexionen zu generieren und zu bewerten; sowie Reflection-on-Action, das Test-Time-Training verwendet, um sowohl sein internes Reflexionsmodell als auch seine Handlungsstrategie nach der Ausführung auf Basis externer Reflexionen zu aktualisieren. Zusätzlich integrieren wir retrospektive Reflexion, die es dem Agenten ermöglicht, frühere Entscheidungen neu zu bewerten und Modellaktualisierungen im Nachhinein für eine korrekte langfristige Kreditzuweisung vorzunehmen. Experimente auf unserem neu entwickelten Long-Horizon Household Benchmark und dem MuJoCo Cupboard Fitting Benchmark zeigen signifikante Verbesserungen gegenüber Baseline-Modellen, wobei Ablationsstudien die komplementären Rollen von Reflection-in-Action und Reflection-on-Action validieren. Qualitative Analysen, einschließlich Versuchen mit echten Robotern, verdeutlichen Verhaltenskorrekturen durch Reflexion.
Diskrete Bild-Tokenizer haben sich als Schlüsselkomponente moderner visueller und multimodaler Systeme etabliert, da sie eine sequenzielle Schnittstelle für transformerbasierte Architekturen bereitstellen. Die meisten bestehenden Ansätze sind jedoch primär auf Rekonstruktion und Kompression optimiert und erzeugen oft Tokens, die lokale Texturen anstelle einer objektbasierten semantischen Struktur erfassen. Inspiriert von der inkrementellen und kompositionellen Natur menschlicher Kommunikation führen wir COMmunication inspired Tokenization (COMiT) ein, ein Framework zum Erlernen strukturierter diskreter visueller Token-Sequenzen. COMiT konstruiert eine latente Nachricht innerhalb eines festen Token-Budgets, indem es iterativ lokalisierte Bildausschnitte betrachtet und seine diskrete Repräsentation rekurrent aktualisiert. In jedem Schritt integriert das Modell neue visuelle Informationen und verfeinert sowie reorganisiert gleichzeitig die bestehende Token-Sequenz. Nach mehreren Encodierungs-Iterationen konditioniert die finale Nachricht einen Flow-Matching-Decoder, der das vollständige Bild rekonstruiert. Sowohl Encodierung als auch Decodierung werden innerhalb eines einzigen Transformer-Modells implementiert und end-to-end unter Verwendung einer Kombination aus Flow-Matching-Rekonstruktions- und semantischen Repräsentations-Alignment-Verlustfunktionen trainiert. Unsere Experimente zeigen, dass semantisches Alignment zwar eine Grundlage bietet, eine aufmerksamkeitsgesteuerte sequenzielle Tokenisierung jedoch entscheidend ist, um interpretierbare, objektzentrierte Token-Strukturen zu induzieren und die kompositionelle Generalisierung sowie das relationale Schließen im Vergleich zu früheren Methoden erheblich zu verbessern.
Die Vorhersage der Import-Container-Verweildauer (ICDT) ist eine Schlüsselaufgabe zur Steigerung der Produktivität in Containerterminals, da genaue Prognosen die Reduzierung von Nachladevorgängen durch Yard-Kräne ermöglichen. Um dieses Ziel zu erreichen, muss die Verweildauer einzelner Container präzise vorhergesagt werden. Die primären Einflussfaktoren der Verweildauer – Informationen zum Eigentümer und zur Ladung – liegen jedoch als unstrukturierter Text vor, was ihre effektive Nutzung in Machine-Learning-Modellen einschränkt. Diese Studie begegnet dieser Einschränkung durch einen kollaborativen Ansatz, der generative künstliche Intelligenz (Gen AI) mit maschinellem Lernen integriert. Der vorgeschlagene Rahmen nutzt Gen AI, um unstrukturierte Informationen in standardisierte internationale Codes zu überführen. Durch dynamische Neuberechnungen, die durch Aktualisierungen des Electronic Data Interchange-Status ausgelöst werden, kann das Machine-Learning-Modell die ICDT präzise vorhersagen. Umfangreiche Experimente mit realen Terminaldaten zeigen, dass die vorgeschlagene Methodik im Vergleich zu konventionellen Modellen ohne standardisierte Informationen eine Verbesserung des mittleren absoluten Fehlers von 13,88 % erreicht. Die Anwendung der verbesserten Vorhersagen auf Container-Stapelstrategien reduziert zudem die Anzahl der Umlagerungen um bis zu 14,68 %, was das Potenzial von Gen AI zur Steigerung der Terminalproduktivität empirisch validiert. Insgesamt liefert diese Studie sowohl technische als auch methodische Einblicke in den Einsatz von Gen AI in der Hafenlogistik und dessen Wirksamkeit.
Die Modellierung der Wirbelsäulenbewegung ist grundlegend für das Verständnis der menschlichen Biomechanik, wird jedoch in der Computer Vision aufgrund der komplexen Multi-Gelenk-Kinematik der Wirbelsäule und des Mangels an großflächigen 3D-Annotationen bisher wenig erforscht. Wir stellen ein biomechanik-bewusstes Keypoint-Simulationsframework vor, das bestehende menschliche Posenschätzungs-Datensätze mit anatomisch konsistenten 3D-Wirbelsäulen-Keypoints erweitert, die aus muskuloskelettalen Modellen abgeleitet werden. Mithilfe dieses Frameworks erstellen wir den ersten offenen Datensatz namens SIMSPINE, der spärliche 3D-Wirbelsäulenannotationen auf Wirbelebene für natürliche Ganzkörperbewegungen in Innenraum-Aufnahmen mit Mehrkamerasystemen ohne externe Fixierung bereitstellt. Mit 2,14 Millionen Bildern ermöglicht dies datengesteuertes Lernen der vertebralen Kinematik aus subtilen Haltungsvariationen und überbrückt die Lücke zwischen muskuloskelettaler Simulation und Computer Vision. Zusätzlich veröffentlichen wir vortrainierte Baseline-Modelle, darunter feinabgestimmte 2D-Detektoren, monokulare 3D-Pose-Lifting-Modelle und Multi-View-Rekonstruktions-Pipelines, und etablieren so einen einheitlichen Benchmark für biomechanisch valide Schätzung der Wirbelsäulenbewegung. Konkret verbessern unsere 2D-Wirbelsäulen-Baselines den State-of-the-Art von 0,63 auf 0,80 AUC in kontrollierten Umgebungen und von 0,91 auf 0,93 AP für Wirbelsäulentracking unter realen Bedingungen. Gemeinsam fördern das Simulationsframework und der SIMSPINE-Datensatz die Forschung in den Bereichen visuell gestützte Biomechanik, Bewegungsanalyse und digitale Menschmodellierung, indem sie reproduzierbare, anatomisch fundierte 3D-Wirbelsäulenschätzung unter natürlichen Bedingungen ermöglichen.
Uniform-State-Diskrete-Diffusionsmodelle zeichnen sich durch ihre Fähigkeit zur Selbstkorrektur bei der Generierung in wenigen Schritten und bei der Führung aus, was sie in diesen Kontexten autoregressiven oder Masked-Diffusionsmodellen überlegen macht. Allerdings erreicht ihre Abtastqualität bei ancestral Samplern mit zunehmender Schrittzahl ein Plateau. Wir stellen eine Familie von Predictor-Corrector (PC)-Samplern für diskrete Diffusion vor, die frühere Methoden verallgemeinern und auf beliebige Rauschprozesse anwendbar sind. In Kombination mit Uniform-State-Diffusion übertreffen unsere Sampler das ancestrale Sampling sowohl bei der Sprach- als auch bei der Bildmodellierung: Auf OpenWebText wird eine geringere generative Perplexität bei gleicher Unigram-Entropie erzielt, und auf CIFAR10 werden bessere FID/IS-Werte erreicht. Entscheidend ist, dass unsere PC-Methoden – im Gegensatz zu konventionellen Samplern – bei mehr Abtastschritten weiterhin Verbesserungen zeigen. Zusammengenommen stellen diese Ergebnisse die Annahme infrage, dass Masked Diffusion die unausweichliche Zukunft der diffusionsbasierten Sprachmodellierung sei. Darüber hinaus entwickeln wir für die Trainingsphase der Gaußschen Relaxation einen speichereffizienten Lehrplan, der die Trainingszeit im Vergleich zu Duo um 25 % und den Speicherbedarf um 33 % reduziert, bei vergleichbarer Perplexität auf OpenWebText und LM1B sowie starker Leistung in nachgelagerten Aufgaben. Code, Checkpoints und ein Video-Tutorial sind verfügbar unter: https://s-sahoo.com/duo-ch2
Optische Zeichenerkennung (OCR) hat durch Deep Learning und multimodale Modelle rasante Fortschritte gemacht, doch konzentrieren sich die meisten Methoden auf gut erforschte Schriftsysteme wie Lateinisch und Chinesisch. Ethnische Minderheitensprachen bleiben aufgrund komplexer Schriftsysteme, knapper Annotationen und vielfältiger historischer sowie moderner Formen untererforscht, was die Generalisierung in ressourcenarmen oder Zero-Shot-Szenarien erschwert. Um diese Herausforderungen zu bewältigen, stellen wir OmniOCR vor, ein universelles Framework für Schriften ethnischer Minderheiten. OmniOCR führt Dynamic Low-Rank Adaptation (Dynamic LoRA) ein, um Modellkapazitäten über Schichten und Schriften hinweg dynamisch zuzuteilen und so eine effektive Anpassung bei gleichzeitigem Erhalt des Wissens zu ermöglichen. Eine Sparsity-Regularisierung entfernt redundante Aktualisierungen und gewährleistet eine kompakte und effiziente Anpassung ohne zusätzliche Inferenzkosten. Evaluationen auf TibetanMNIST, Shui, antikem Yi und Dongba zeigen, dass OmniOCR Zero-Shot-Foundation-Modelle und Standard-Post-Training übertrifft, state-of-the-art Genauigkeit bei überlegener Parameter-Effizienz erreicht und im Vergleich zu den besten Baseline-Modellen die Genauigkeit auf diesen vier Datensätzen um 39 % bis 66 % steigert. Code: https://github.com/AIGeeksGroup/OmniOCR.
Große visuell-sprachliche Modelle (VLMs) haben durch iterative Optimierungsmethoden ein erhebliches Potenzial für komplexe Bildverständnisaufgaben gezeigt. Allerdings fehlen diesen Modellen im Allgemeinen effektive Selbstkorrekturmechanismen, was es ihnen erschwert, kognitive Verzerrungen eigenständig zu korrigieren. Infolgedessen geraten sie bei mehrfachen Überarbeitungen oft in repetitive und ineffektive Versuche und erreichen keine stabilen Verbesserungen der Antwortqualität. Um dieses Problem zu lösen, schlagen wir einen neuartigen iterativen Selbstkorrekturrahmen vor, der Modelle mit zwei Schlüsselfähigkeiten ausstattet: Fähigkeitsreflexion und Gedächtnisreflexion. Dieser Rahmen leitet das Modell an, zunächst Fehler zu diagnostizieren und einen Korrekturplan über Fähigkeitsreflexion zu generieren, dann Vergangenheitsversuche mittels Gedächtnisreflexion zu überprüfen, um Wiederholungen zu vermeiden und neue Lösungen zu erkunden, und schließlich die Antwort durch rigoroses Nachdenken zu optimieren. Experimente auf der anspruchsvollen OCRBench v2 Benchmark zeigen, dass OCR-Agent das aktuelle Open-Source-SOTA-Modell InternVL3-8B um +2,0 auf englischen und +1,2 auf chinesischen Teilmengen übertrifft und dabei state-of-the-art Ergebnisse im Bildverständnis (79,9) und Schlussfolgern (66,5) erzielt – selbst größere feinabgestimmte Modelle übertreffend. Unsere Methode zeigt, dass strukturierte, selbstbewusste Reflexion die Robustheit der Schlussfolgerung von VLMs ohne zusätzliches Training erheblich verbessern kann. Code: https://github.com/AIGeeksGroup/OCR-Agent.
Die Anonymisierung textueller Dokumente ist ein hochgradig kontextsensitives Problem: Das angemessene Gleichgewicht zwischen Privatsphärenschutz und Datennützlichkeit variiert je nach Datenbereich, Datenschutzzielen und nachgelagerten Anwendungen. Bisherige Anonymisierungsmethoden beruhen jedoch auf statischen, manuell entworfenen Strategien, denen die Flexibilität fehlt, um sich an unterschiedliche Anforderungen anzupassen, und die häufig domänenübergreifend nicht verallgemeinerbar sind. Wir führen adaptive Textanonymisierung ein, eine neue Aufgabenformulierung, bei der Anonymisierungsstrategien automatisch an spezifische Privatsphären-Nützlichkeits-Anforderungen angepasst werden. Wir schlagen ein Framework zur aufgaben spezifischen Prompt-Optimierung vor, das automatisch Anonymisierungsinstruktionen für Sprachmodelle erstellt und so die Anpassung an verschiedene Datenschutzziele, Domänen und Nutzungsmuster ermöglicht. Zur Evaluation unseres Ansatzes präsentieren wir einen Benchmark mit fünf Datensätzen, die unterschiedliche Domänen, Datenschutzauflagen und Nützlichkeitsziele abdecken. In allen evaluierten Settings erzielt unser Framework durchgängig eine bessere Privatsphären-Nützlichkeits-Abwägung als bestehende Baseline-Methoden, bleibt dabei recheneffizient und effektiv auf Open-Source-Sprachmodellen mit einer Leistung, die mit größeren Closed-Source-Modellen vergleichbar ist. Zudem zeigen wir, dass unsere Methode neuartige Anonymisierungsstrategien entdecken kann, die verschiedene Punkte entlang der Privatsphären-Nützlichkeits-Grenze erkunden.
Visuelle Textdarstellung (VTR) bleibt eine kritische Herausforderung in der Text-zu-Bild-Generierung, bei der selbst fortschrittliche Modelle häufig Text mit strukturellen Anomalien wie Verzerrungen, Unschärfe und Fehlausrichtung erzeugen. Wir stellen jedoch fest, dass führende MLLMs und spezialisierte OCR-Modelle größtenteils nicht in der Lage sind, diese strukturellen Anomalien wahrzunehmen, was einen kritischen Engpass sowohl für die VTR-Bewertung als auch für die RL-basierte Optimierung darstellt. Infolgedessen kämpfen selbst state-of-the-art Generatoren (z.B. SeedDream4.0, Qwen-Image) immer noch damit, strukturell korrekten Text darzustellen. Um dies zu lösen, schlagen wir TextPecker vor, eine Plug-and-Play-RL-Strategie zur Wahrnehmung struktureller Anomalien, die verrauschte Belohnungssignale mildert und mit jedem Text-zu-Bild-Generator funktioniert. Um diese Fähigkeit zu ermöglichen, erstellen wir einen Erkennungsdatensatz mit Annotationen struktureller Anomalien auf Zeichenebene und entwickeln eine Stroke-Editing-Synthese-Engine, um die Abdeckung struktureller Fehler zu erweitern. Experimente zeigen, dass TextPecker konsistent verschiedene Text-zu-Bild-Modelle verbessert; selbst beim bereits gut optimierten Qwen-Image erzielt es signifikante durchschnittliche Steigerungen von 4 % in der strukturellen Treue und 8,7 % in der semantischen Übereinstimmung für die chinesische Textdarstellung und etabliert damit einen neuen State-of-the-Art in der hochpräzisen VTR. Unsere Arbeit schließt eine Lücke in der VTR-Optimierung und bietet einen grundlegenden Schritt hin zu einer zuverlässigen und strukturell korrekten visuellen Texterzeugung.
Dieses Papier stellt LaS-Comp vor, einen Zero-Shot-Ansatz, der kategorienunabhängig die reichhaltigen geometrischen Priori-Informationen von 3D-Foundation-Modellen nutzt, um 3D-Formvervollständigung über verschiedene Arten von Teilbeobachtungen hinweg zu ermöglichen. Unsere Beiträge sind dreifach: Erstens nutzt unser Ansatz diese leistungsstarken generativen Priori-Informationen für die Vervollständigung durch ein komplementäres Zwei-Stufen-Design: (i) eine explizite Ersetzungsstufe, die die Geometrie der Teilbeobachtung erhält, um eine authentische Vervollständigung zu gewährleisten; und (ii) eine implizite Verfeinerungsstufe, die nahtlose Übergänge zwischen den beobachteten und synthetisierten Bereichen sicherstellt. Zweitens ist unser Framework trainingsfrei und mit verschiedenen 3D-Foundation-Modellen kompatibel. Drittens führen wir Omni-Comp ein, einen umfassenden Benchmark, der reale und synthetische Daten mit verschiedenen und anspruchsvollen Teilmustern kombiniert und so eine gründlichere und realistischere Evaluation ermöglicht. Sowohl quantitative als auch qualitative Experimente zeigen, dass unser Ansatz bisherige State-of-the-Art-Verfahren übertrifft. Unser Code und unsere Daten werden unter https://github.com/DavidYan2001/LaS-Comp verfügbar sein.
Der steigende Bedarf an großen Sprachmodellen (LLMs) erfordert Serversysteme, die viele gleichzeitige Anfragen mit unterschiedlichen Service Level Objectives (SLOs) bewältigen können. Dies verschärft das Head-of-Line (HoL)-Blockieren während der rechenintensiven Prefill-Phase, in der langlaufende Anfragen Ressourcen monopolisieren und höherpriorisierte verzögern, was zu weitverbreiteten Verstößen gegen die Time-to-First-Token (TTFT)-SLOs führt. Während chunked Prefill Unterbrechbarkeit ermöglicht, führt es zu einem inhärenten Zielkonflikt zwischen Reaktionsfähigkeit und Durchsatz: Eine Verringerung der Chunk-Größe verbessert die Antwortlatenz, verschlechtert jedoch die Recheneffizienz, während eine Vergrößerung der Chunk-Größe den Durchsatz maximiert, aber das Blockieren verstärkt. Dies erfordert einen adaptiven Präemptionsmechanismus. Die dynamische Abwägung zwischen Ausführungsgranularität und Scheduling-Overhead bleibt jedoch eine zentrale Herausforderung. In diesem Artikel stellen wir FlowPrefill vor, ein TTFT-Goodput-optimiertes Serversystem, das diesen Konflikt löst, indem es die Präemptionsgranularität von der Scheduling-Häufigkeit entkoppelt. Um adaptives Prefill-Scheduling zu erreichen, führt FlowPrefill zwei wesentliche Innovationen ein: 1) *Operator-Level Preemption*, das Operator-Grenzen nutzt, um eine feingranulare Ausführungsunterbrechung ohne den mit festen kleinen Chunks verbundenen Effizienzverlust zu ermöglichen; und 2) *Event-Driven Scheduling*, das Scheduling-Entscheidungen nur bei Anfrageankunft oder -abschluss auslöst und so eine effiziente Präemptionsreaktionsfähigkeit bei minimalem Control-Plane-Overhead unterstützt. Auswertungen mit Produktions-Traces zeigen, dass FlowPrefill den maximalen Goodput im Vergleich zu state-of-the-art Systemen um bis zu das 5,6-fache steigert, während heterogene SLOs eingehalten werden.
Die Erkennung von LLM-Trainingsdaten wird allgemein als Problem von Membership-Inference-Angriffen (MIA) betrachtet. Herkömmliche MIAs arbeiten jedoch passiv auf festen Modellgewichten unter Verwendung von Log-Likelihoods oder Textgenerierungen. In dieser Arbeit stellen wir Active Data Reconstruction Attack (ADRA) vor, eine Familie von MIAs, die ein Modell aktiv durch Training zur Rekonstruktion eines gegebenen Textes veranlasst. Wir stellen die Hypothese auf, dass Trainingsdaten besser rekonstruierbar sind als Nicht-Mitglieder, und dass der Unterschied in ihrer Rekonstruierbarkeit für Membership Inference genutzt werden kann. Angeregt durch Erkenntnisse, dass Reinforcement Learning (RL) bereits in den Gewichten kodierte Verhaltensweisen verstärkt, nutzen wir On-Policy-RL, um durch Feinabstimmung einer vom Zielmodell initialisierten Policy aktiv Datenrekonstruktion hervorzurufen. Um RL effektiv für MIA einzusetzen, entwerfen wir Rekonstruktionsmetriken und kontrastive Belohnungen. Die resultierenden Algorithmen ADRA und seine adaptive Variante ADRA+ verbessern sowohl die Rekonstruktion als auch die Detektion bei gegebenem Kandidatendatenpool. Experimente zeigen, dass unsere Methoden bestehende MIAs durchgängig in der Erkennung von Pre-Training-, Post-Training- und Distillationsdaten übertreffen, mit einer durchschnittlichen Verbesserung von 10,7 % gegenüber dem vorherigen Zweitplatzierten. Insbesondere verbessert \MethodPlus~Min-K%++ um 18,8 % bei BookMIA für Pre-Training-Erkennung und um 7,6 % bei AIME für Post-Training-Erkennung.