papers.description
In diesem Bericht stellen wir ERNIE 5.0 vor, ein natives autoregressives Fundamentmodell, das für einheitliches multimodales Verständnis und die Erzeugung von Text, Bildern, Video und Audio konzipiert ist. Alle Modalitäten werden von Grund auf unter einem einheitlichen "Next-Group-of-Tokens"-Prädiktionsziel trainiert, basierend auf einer ultrasparsamen Mixture-of-Experts (MoE)-Architektur mit modalitätsagnostischem Expert Routing. Um praktische Herausforderungen beim großflächigen Einsatz unter unterschiedlichen Ressourcenbeschränkungen zu adressieren, nutzt ERNIE 5.0 ein neuartiges elastisches Trainingsparadigma. Innerhalb eines einzigen Vor-Trainingsdurchlaufs erlernt das Modell eine Familie von Sub-Modellen mit variierenden Tiefen, Expert-Kapazitäten und Routing-Sparsity, was flexible Kompromisse zwischen Leistung, Modellgröße und Inferenzlatenz in speicher- oder zeitbeschränkten Szenarien ermöglicht. Darüber hinaus adressieren wir systematisch die Herausforderungen der Skalierung von Reinforcement Learning für einheitliche Fundamentmodelle und gewährleisten so ein effizientes und stabiles Post-Training unter ultrasparsen MoE-Architekturen und diversen multimodalen Einstellungen. Umfangreiche Experimente belegen, dass ERNIE 5.0 eine starke und ausgewogene Leistung über mehrere Modalitäten hinweg erzielt. Nach unserem Wissenstand ist ERNIE 5.0 unter öffentlich bekannten Modellen die erste produktionsreife Realisierung eines einheitlichen autoregressiven Modells mit Billionen von Parametern, das sowohl multimodales Verständnis als auch Erzeugung unterstützt. Um die weitere Forschung zu fördern, präsentieren wir detaillierte Visualisierungen des modalitätsagnostischen Expert Routings im vereinheitlichten Modell sowie eine umfassende empirische Analyse des elastischen Trainings, mit dem Ziel, der Community tiefgreifende Einblicke zu bieten.
Die Bereitstellung großer Sprachmodelle (LLMs) stößt bei der Verarbeitung langer Eingaben auf einen kritischen Engpass: den prohibitiv hohen Speicherbedarf des Key-Value-(KV)-Caches. Um diesen Engpass zu adressieren, nutzt das Paradigma des Token-Prünings die Aufmerksamkeitssparsität, um gezielt eine kleine, kritische Teilmenge von Tokens beizubehalten. Bisherige Ansätze sind jedoch unzureichend: Statische Methoden riskieren irreversible Informationsverluste, und dynamische Strategien verwenden Heuristiken, die die abfrageabhängige Natur der Token-Bedeutung ungenügend erfassen. Wir schlagen FASA vor, einen neuartigen Rahmen, der abfragebewusste Token-Auslagerung durch dynamische Vorhersage der Token-Bedeutung erreicht. FASA basiert auf einer neuen Erkenntnis zu RoPE: der Entdeckung funktionaler Sparsität auf der Ebene der Frequenzblöcke (FCs). Unsere zentrale Erkenntnis ist, dass eine kleine, identifizierbare Teilmenge "dominanter" FCs konsequent eine hohe kontextuelle Übereinstimmung mit dem vollständigen Aufmerksamkeitskopf aufweist. Dies bietet einen robusten und rechenkostenfreien Stellvertreter zur Identifikation relevanter Tokens. Aufbauend auf dieser Erkenntnis identifiziert FASA zunächst eine kritische Menge von Tokens mithilfe dominanter FCs und führt dann eine fokussierte Aufmerksamkeitsberechnung ausschließlich auf dieser reduzierten Teilmenge durch. Da nur auf einen kleinen Bruchteil des KV-Caches zugegriffen wird, reduziert FASA den Speicherbandbreitenbedarf und die Rechenkosten drastisch. Über ein Spektrum von Langkontext-Aufgaben hinweg, von Sequenzmodellierung bis hin zu komplexem CoT-Reasoning, übertrifft FASA konsequent alle Token-Auslagerungs-Baselines und erreicht nahezu Oracle-Genauigkeit, was eine bemerkenswerte Robustheit selbst unter eingeschränkten Budgets demonstriert. Bemerkenswerterweise erreicht FASA auf LongBench-V1 nahezu 100 % der Leistung des vollen KV-Caches bei Beibehaltung von nur 256 Tokens und erzielt auf AIME24 eine 2,56-fache Beschleunigung bei Nutzung von nur 18,9 % des Caches.
Jüngste Fortschritte bei Large Language Models (LLMs) konzentrierten sich weitgehend auf Skalierung in der Tiefe, bei der ein einzelner Agent langfristige Probleme mit mehrstufigem Reasoning und Werkzeugeinsatz löst. Wenn Aufgaben jedoch breiter werden, verlagert sich der entscheidende Engpass von individueller Kompetenz zu organisatorischer Fähigkeit. In dieser Arbeit untersuchen wir eine komplementäre Dimension der Skalierung in der Breite mit Multi-Agenten-Systemen, um breite Informationssuche zu adressieren. Bestehende Multi-Agenten-Systeme basieren oft auf manuell erstellten Workflows und wechselseitigen Interaktionen, die eine effektive Parallelisierung der Arbeit nicht leisten. Um diese Lücke zu schließen, schlagen wir WideSeek-R1 vor, ein Lead-Agent-Subagent-Framework, das durch Multi-Agent Reinforcement Learning (MARL) trainiert wird, um skalierbare Orchestrierung und parallele Ausführung zu synergisieren. Durch die Nutzung eines gemeinsamen LLM mit isolierten Kontexten und spezialisierten Werkzeugen optimiert WideSeek-R1 gemeinsam den Lead-Agenten und parallele Subagenten auf einem kuratierten Datensatz mit 20.000 breiten Informationssuchaufgaben. Umfangreiche Experimente zeigen, dass WideSeek-R1-4B einen Item-F1-Score von 40,0 % auf dem WideSearch-Benchmark erreicht, was mit der Leistung des Single-Agenten DeepSeek-R1-671B vergleichbar ist. Darüber hinaus zeigt WideSeek-R1-4B konsistente Leistungssteigerungen mit zunehmender Anzahl paralleler Subagenten, was die Wirksamkeit der Skalierung in der Breite unterstreicht.
Multimodale Prozessbelohnungsmodelle (MPRMs) sind zentral für die schrittweise Überwachung des visuellen Denkens in MLLMs. Das Training von MPRMs erfordert typischerweise groß angelegte, Monte-Carlo-annotierte Korpora, was erhebliche Trainingskosten verursacht. Diese Arbeit untersucht die Dateneffizienz beim MPRM-Training. Unsere vorläufigen Experimente zeigen, dass das MPRM-Training bei zufälliger Unterabtastung der Trainingsdaten schnell sättigt, was auf erhebliche Redundanz in bestehenden MC-annotierten Korpora hindeutet. Um dies zu erklären, formalisieren wir einen theoretischen Rahmen und zeigen, dass informative Gradientenupdates von zwei Faktoren abhängen: der Etikettenmischung aus positiven/negativen Schritten und der Etikettenzuverlässigkeit (durchschnittliche MC-Scores positiver Schritte). Aufbauend auf diesen Erkenntnissen schlagen wir den Balanced-Information Score (BIS) vor, der sowohl die Mischung als auch die Zuverlässigkeit auf Basis vorhandener MC-Signale auf Rollout-Ebene priorisiert, ohne zusätzliche Kosten zu verursachen. Über zwei Backbones (InternVL2.5-8B und Qwen2.5-VL-7B) auf VisualProcessBench hinweg erreichen mit BIS ausgewählte Teilmengen konsistent die Leistung der Vollständigen Daten und übertreffen sie sogar bei kleinen Anteilen. Bemerkenswerterweise erreicht die BIS-Teilmenge die Vollständige-Daten-Leistung mit nur 10 % der Trainingsdaten und übertrifft damit die zufällige Unterabtastung um relative 4,1 %.
Omni-modale Large Language Models (Omni-LLMs) haben beeindruckende Fähigkeiten bei Audio-Video-Verständnisaufgaben demonstriert. Allerdings führt ihre Abhängigkeit von langen multimodalen Token-Sequenzen zu erheblichem Rechenaufwand. Trotz dieser Herausgabe sind Token-Kompressionsmethoden für Omni-LLMs nach wie vor begrenzt. Um diese Lücke zu schließen, schlagen wir OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression) vor, einen modalitätsasymmetrischen Token-Kompressionsrahmen, der speziell für Omni-LLMs entwickelt wurde. Konkret verfolgt OmniSIFT eine Zwei-Stufen-Kompressionsstrategie: (i) ein räumlich-zeitliches Video-Bereinigungsmodul, das Redundanzen entfernt, die sowohl aus der Intra-Frame-Struktur als auch aus der Inter-Frame-Überlappung entstehen, und (ii) ein visuell gesteuertes Audio-Auswahlmodul, das Audio-Token filtert. Der gesamte Rahmen wird end-to-end über einen differenzierbaren Straight-Through-Estimator optimiert. Umfangreiche Experimente auf fünf repräsentativen Benchmarks belegen die Wirksamkeit und Robustheit von OmniSIFT. Bemerkenswerterweise führt OmniSIFT für Qwen2.5-Omni-7B nur 4,85 Mio. Parameter ein, bei gleichzeitig geringerer Latenz als trainingsfreie Baselines wie OmniZip. Mit nur 25 % des ursprünglichen Token-Kontexts übertrifft OmniSIFT durchgängig alle Kompressions-Baselines und übertrifft sogar die Leistung des Voll-Token-Modells bei mehreren Aufgaben.
Diese Arbeit stellt Hybrid Sparse Attention (HySparse) vor, eine neue Architektur, die jede Voll-Attention-Schicht mit mehreren Sparse-Attention-Schichten verschachtelt. Obwohl konzeptionell einfach, leitet HySparse die Token-Auswahl und KV-Caches jeder Sparse-Schicht strategisch direkt aus der vorhergehenden Voll-Attention-Schicht ab. Diese Architektur löst zwei grundlegende Einschränkungen früherer Sparse-Attention-Methoden. Erstens stützen sich konventionelle Ansätze typischerweise auf zusätzliche Stellgrößen, um die Token-Bedeutung vorherzusagen, was zusätzliche Komplexität und potenziell suboptimale Leistung mit sich bringt. Im Gegensatz dazu verwendet HySparse die Voll-Attention-Schicht als präzises Oracle, um wichtige Tokens zu identifizieren. Zweitens reduzieren bestehende Sparse-Attention-Designs oft die Berechnungskomplexität, ohne den KV-Cache zu verringern. HySparse ermöglicht es Sparse-Attention-Schichten, den KV-Cache der Voll-Attention wiederzuverwenden, wodurch sowohl Rechenaufwand als auch Speicherbedarf reduziert werden. Wir evaluieren HySparse anhand von 7B-Dense- und 80B-MoE-Modellen. In allen Konfigurationen übertrifft HySparse durchgängig sowohl die Voll-Attention als auch hybride SWA-Baselines. Bemerkenswerterweise werden beim 80B-MoE-Modell mit insgesamt 49 Schichten nur 5 Schichten mit Voll-Attention betrieben, dennoch erzielt HySparse erhebliche Leistungssteigerungen bei gleichzeitiger Reduzierung des KV-Cache-Speichers um fast das 10-fache.
Der Einsatz humanoider Roboter in realen Umgebungen ist grundlegend herausfordernd, da er eine enge Integration von Wahrnehmung, Fortbewegung und Manipulation bei Beobachtungen mit unvollständigen Informationen und sich dynamisch verändernden Umgebungen erfordert. Ebenso den robusten Übergang zwischen Teilaufgaben unterschiedlicher Art. Um diese Herausforderungen zu adressieren, schlagen wir eine neuartige Aufgabe vor – EgoActing –, die das direkte Verankern von hochleveligen Anweisungen in verschiedene, präzise, räumlich bewusste Aktionen des Humanoiden erfordert. Wir konkretisieren diese Aufgabe weiter, indem wir EgoActor vorstellen, ein vereinheitlichtes und skalierbares Vision-Language-Modell (VLM), das Fortbewegungsprimitive (z.B. gehen, drehen, seitwärts bewegen, Höhe ändern), Kopfbewegungen, Manipulationsbefehle und Mensch-Roboter-Interaktionen vorhersagen kann, um Wahrnehmung und Ausführung in Echtzeit zu koordinieren. Wir nutzen breite Überwachung anhand egocentrischer RGB-Daten aus realen Demonstrationen, räumlicher Reasoning-Frage-Antwort-Aufgaben und Demonstrationen in simulierten Umgebungen. Dies ermöglicht es EgoActor, robuste, kontextbewusste Entscheidungen zu treffen und flüssige Aktionsinferenz (unter 1s) sowohl mit 8B- als auch 4B-Parameter-Modellen durchzuführen. Umfangreiche Evaluierungen in simulierten und realen Umgebungen zeigen, dass EgoActor effektiv abstrakte Aufgabenplanung und konkrete Motorausführung überbrückt und dabei über verschiedene Aufgaben und ungesehene Umgebungen hinweg generalisiert.
Trotz rascher Fortschritte bei autoregressiven Video-Diffusionsmodellen stellt ein aufkommender Systemalgorithmus-Flaschenhals sowohl die Einsatzfähigkeit als auch die Generierungsleistung erheblich infrage: der KV-Cache-Speicher. In autoregressiven Videogenerierungsmodellen wächst der KV-Cache mit dem Generierungsverlauf und dominiert schnell den GPU-Speicher, wobei er oft 30 GB überschreitet und den Einsatz auf weit verbreiteter Hardware verhindert. Noch kritischer ist, dass eingeschränkte KV-Cache-Budgets den effektiven Arbeitsspeicher begrenzen, was direkt die Langzeitkonsistenz von Identität, Layout und Bewegung beeinträchtigt. Um diese Herausforderung zu bewältigen, präsentieren wir Quant VideoGen (QVG), einen trainingsfreien KV-Cache-Quantisierungsrahmen für autoregressive Video-Diffusionsmodelle. QVG nutzt die raumzeitliche Redundanz von Videos durch semantisch bewusstes Glätten, um residuals Signale mit geringer Amplitude und quantisierungsfreundlichen Eigenschaften zu erzeugen. Weiterhin wird eine progressive Residualquantisierung eingeführt, ein mehrstufiges Schema vom Groben zum Feinen, das Quantisierungsfehler reduziert und gleichzeitig einen sanften Qualitäts-Speicher-Kompromiss ermöglicht. In Benchmarks mit LongCat Video, HY WorldPlay und Self Forcing etabliert QVG eine neue Pareto-Grenze zwischen Qualität und Speichereffizienz, reduziert den KV-Cache-Speicherbedarf um bis zum 7,0-fachen bei einem End-to-End-Latenzoverhead von weniger als 4 % und übertrifft dabei bestehende Baseline-Methoden durchgängig in der Generierungsqualität.
Jüngste Fortschritte bei autonomen LLM-Agenten zeigen deren Fähigkeit, die Leistung durch iterative Interaktion mit der Umwelt zu verbessern. Wir definieren dieses Paradigma als Verbesserung zur Testzeit (Test-Time Improvement, TTI). Die Mechanismen, wie und warum TTI erfolgreich ist oder scheitert, bleiben jedoch weitgehend unklar, und bestehende Bewertungsmetriken erfassen weder ihre Aufgabendurchführungseffizienz, die Verhaltensanpassung nach fehlerhaften Aktionen noch den spezifischen Nutzungswert des Arbeitsgedächtnisses für die Aufgabenerfüllung. Um diese Lücken zu schließen, schlagen wir die Diagnostische Evaluierung zur Testzeitverbesserung (Test-time Improvement Diagnostic Evaluation, TIDE) vor – ein agenten- und umgebungsunabhängiges Framework, das TTI in drei umfassende und miteinander verbundene Dimensionen unterteilt. Das Framework misst (1) die allgemeine zeitliche Dynamik der Aufgabenerfüllung und identifiziert, ob die Leistung primär (2) durch rekursive Schleifenverhalten oder (3) durch belastenden akkumulierten Speicheraufwand eingeschränkt wird. Umfangreiche Experimente mit verschiedenen Agenten und Umgebungen zeigen mittels TIDE, dass zur Steigerung der Agentenleistung mehr nötig ist als das Hochskalieren interner Reasoning-Prozesse, und fordern eine explizite Optimierung der Interaktionsdynamik zwischen Agent und Umwelt.
Die Simulation von verformbaren Objekten unter komplexen Wechselwirkungen bleibt eine grundlegende Herausforderung für die realitätsnahe Robotermanipulation, wobei die Dynamik gemeinsam durch Umgebungseinflüsse und Roboteraktionen angetrieben wird. Bestehende Simulatoren verlassen sich auf vordefinierte Physik oder datengestützte Dynamiken ohne roboter-konditionierte Steuerung, was Genauigkeit, Stabilität und Generalisierung einschränkt. Dieses Papier stellt SoMA vor, einen 3D-Gaussian-Splatting-Simulator für die Weichkörpermanipulation. SoMA koppelt deformierbare Dynamik, Umgebungskräfte und Roboter-Gelenkaktionen in einem einheitlichen latenten neuronalen Raum für eine End-to-End-realitätsnahe Simulation. Die Modellierung von Interaktionen über gelernte Gaußsche Splats ermöglicht kontrollierbare, stabile Langzeitsimulationen und Generalisierung über beobachtete Trajektorien hinaus ohne vordefinierte physikalische Modelle. SoMA verbessert die Resimulationsgenauigkeit und Generalisierung bei realer Robotermanipulation um 20 % und ermöglicht die stabile Simulation komplexer Aufgaben wie langfristiges Falten von Stoff.
Diffusion Large Language Models (dLLMs) haben sich als vielversprechende Alternative zu rein autoregressiven Sprachmodellen etabliert, da sie mehrere Token parallel decodieren können. State-of-the-Art blockweise dLLMs sind jedoch auf einen "Remasking"-Mechanismus angewiesen, der nur die Tokens mit der höchsten Konfidenz decodiert und den Rest verwirft, was Rechenleistung effektiv verschwendet. Wir zeigen, dass die Wiederverwertung der Berechnungen der verworfenen Tokens vorteilhaft ist, da diese Token kontextuelle Informationen enthalten, die für nachfolgende Decodieriterationen nützlich sind. Vor diesem Hintergrund schlagen wir Residual Context Diffusion (RCD) vor, ein Modul, das diese verworfenen Token-Repräsentationen in kontextuelle Residuen umwandelt und sie für den nächsten Denoising-Schritt wieder zurückinjiziert. RCD verwendet eine entkoppelte Zwei-Phasen-Trainingspipeline, um die mit Backpropagation verbundenen Speicher-Engpässe zu umgehen. Wir validieren unsere Methode sowohl an Modellen für langes CoT-Reasoning (SDAR) als auch für kurzes CoT-Instruction-Following (LLaDA). Wir zeigen, dass ein Standard-dLLM mit nur ~1 Milliarde Token effizient in das RCD-Paradigma umgewandelt werden kann. RCD verbessert durchgängig die Leistung von führenden dLLMs um 5-10 Genauigkeitspunkte bei minimalem zusätzlichem Rechenaufwand über eine breite Palette von Benchmarks hinweg. Besonders bemerkenswert ist, dass RCD bei den anspruchsvollsten AIME-Aufgaben die Baseline-Genauigkeit nahezu verdoppelt und bei gleichen Genauigkeitsniveaus bis zu 4-5 mal weniger Denoising-Schritte erreicht.
Reinforcement Learning (RL) hat sich als Eckpfeiler für das Feinabstimmen von Large Language Models (LLMs) etabliert, wobei Proximal Policy Optimization (PPO) der de-facto Standardalgorithmus ist. Trotz seiner weiten Verbreitung argumentieren wir, dass der zentrale Mechanismus des Ratio-Clippings in PPO strukturell ungeeignet für die großen Vokabulare ist, die LLMs inhärent sind. PPO beschränkt Policy-Updates auf Basis des Wahrscheinlichkeitsverhältnisses der gesampelten Tokens, was als verrauschte Einzelstichproben-Monte-Carlo-Schätzung der wahren Policy-Divergenz dient. Dies erzeugt eine suboptimale Lern-Dynamik: Updates für Tokens mit geringer Wahrscheinlichkeit werden aggressiv überbestraft, während potenziell katastrophale Verschiebungen bei Tokens mit hoher Wahrscheinlichkeit unzureichend eingeschränkt werden, was zu Ineffizienz und Instabilität im Training führt. Um dies zu adressieren, schlagen wir Divergence Proximal Policy Optimization (DPPO) vor, die das heuristische Clipping durch eine prinzipiellere Beschränkung basierend auf einer direkten Schätzung der Policy-Divergenz (z.B. Total Variation oder KL) ersetzt. Um einen hohen Speicherbedarf zu vermeiden, führen wir die effizienten Binary- und Top-K-Approximationen ein, um die wesentliche Divergenz mit vernachlässigbarem Overhead zu erfassen. Umfangreiche empirische Auswertungen zeigen, dass DPPO im Vergleich zu bestehenden Methoden eine überlegene Trainingsstabilität und -effizienz erreicht und eine robustere Grundlage für RL-basiertes LLM-Finetuning bietet.
Aktuelle DiT-basierte Text-zu-Bild-Modelle setzen zunehmend auf LLMs als Textencoder. Dennoch bleibt die Textkonditionierung weitgehend statisch und nutzt oft nur eine einzige LLM-Schicht, obwohl eine ausgeprägte semantische Hierarchie über die LLM-Schichten hinweg und nicht-stationäre Denoising-Dynamiken sowohl über die Diffusionszeit als auch die Netzwerktiefe bestehen. Um den dynamischen Prozess der DiT-Generierung besser abzubilden und dadurch die generative Fähigkeit des Diffusionsmodells zu verbessern, führen wir einen einheitlichen Framework der normalisierten konvexen Fusion ein, der mit leichtgewichtigen Gating-Mechanismen ausgestattet ist, um mehrschichtige LLM-Hidden-States systematisch mittels zeitweiser, tiefenweiser und gemeinsamer Fusion zu organisieren. Experimente zeigen, dass sich die tiefenweise semantische Routing-Strategie als überlegene Konditionierungsmethode etabliert, die konsistent die Text-Bild-Abstimmung und die kompositionelle Generierung verbessert (z.B. +9,97 Punkte bei der GenAI-Bench Counting-Aufgabe). Im Gegensatz dazu stellen wir fest, dass eine rein zeitweise Fusion paradoxerweise die visuelle Generierungsqualität verschlechtern kann. Wir führen dies auf eine Trainings-Inferenz-Pfadinkongruenz zurück: Unter Classifier-Free Guidance bilden nominale Zeitschritte den effektiven SNR nicht korrekt ab, was zu semantisch fehlgetakteter Feature-Injektion während der Inferenz führt. Insgesamt positionieren unsere Ergebnisse das tiefenweise Routing als eine starke und effektive Baseline und unterstreichen die kritische Notwendigkeit von pfadbewussten Signalen, um eine robuste zeitabhängige Konditionierung zu ermöglichen.
Während jüngste Fortschritte bei neuronalen Repräsentationen und generativen Modellen die 3D-Inhaltserstellung revolutioniert haben, ist das Feld nach wie vor durch erhebliche Datenverarbeitungsengpässe eingeschränkt. Um dies zu adressieren, stellen wir HY3D-Bench vor, ein Open-Source-Ökosystem, das darauf abzielt, eine einheitliche, hochwertige Grundlage für 3D-Generierung zu schaffen. Unsere Beiträge sind dreifach: (1) Wir kuratieren eine Bibliothek von 250.000 hochwertigen 3D-Objekten, die aus groß angelegten Repositorien destilliert wurden, und setzen dabei eine rigorose Pipeline ein, um trainingsfertige Artefakte wie wasserdichte Meshes und Multi-View-Renderings bereitzustellen; (2) Wir führen eine strukturierte, teilbasierte Zerlegung ein, die die für feinkörnige Wahrnehmung und kontrollierbare Bearbeitung essentielle Granularität bietet; und (3) Wir überbrücken Verteilungslücken aus der realen Welt mittels einer skalierbaren AIGC-Synthesepipeline und tragen so 125.000 synthetische Assets bei, um die Diversität in Long-Tail-Kategorien zu erhöhen. Empirisch validiert durch das Training von Hunyuan3D-2.1-Small, demokratisiert HY3D-Bench den Zugang zu robusten Datenressourcen und zielt darauf ab, Innovationen in den Bereichen 3D-Wahrnehmung, Robotik und digitale Inhaltserstellung zu katalysieren.
Hochwertige wissenschaftliche Illustrationen sind entscheidend für die effektive Vermittlung komplexer wissenschaftlicher und technischer Konzepte, doch ihre manuelle Erstellung bleibt sowohl in der Wissenschaft als auch in der Industrie ein allgemein anerkannter Engpass. Wir stellen FigureBench vor, den ersten umfassenden Benchmark zur Erzeugung wissenschaftlicher Illustrationen aus langen wissenschaftlichen Texten. Er enthält 3.300 hochwertige wissenschaftliche Text-Bild-Paare, die verschiedene Text-zu-Illustration-Aufgaben aus wissenschaftlichen Artikeln, Übersichtsarbeiten, Blogs und Lehrbüchern abdecken. Darüber hinaus präsentieren wir AutoFigure, das erste agentenbasierte Framework, das automatisch hochwertige wissenschaftliche Illustrationen auf der Grundlage langer wissenschaftlicher Texte erzeugt. Konkret führt AutoFigure vor dem Rendern des Endergebnisses umfangreiche Denk-, Rekombinations- und Validierungsprozesse durch, um ein Layout zu erstellen, das sowohl strukturell fundiert als auch ästhetisch anspruchsvoll ist, und erzeugt so eine wissenschaftliche Illustration, die strukturelle Vollständigkeit und ästhetische Anziehungskraft vereint. Unter Nutzung der hochwertigen Daten von FigureBench führen wir umfangreiche Experimente durch, um die Leistung von AutoFigure mit verschiedenen Baseline-Methoden zu vergleichen. Die Ergebnisse zeigen, dass AutoFigure durchgängig alle Baseline-Methoden übertrifft und direkt publizierbare wissenschaftliche Illustrationen erzeugt. Der Code, der Datensatz und der Huggingface-Space sind unter https://github.com/ResearAI/AutoFigure veröffentlicht.
Group Relative Policy Optimization (GRPO) hat sich kürzlich als praktische Methode zur Ausrichtung großer Sprachmodelle an überprüfbaren Zielen etabliert. Unter spärlichen terminalen Belohnungen kommt GRPO jedoch oft zum Stillstand, da Rollouts innerhalb einer Gruppe häufig identische Belohnungen erhalten, was dazu führt, dass relative Vorteile zusammenbrechen und Aktualisierungen verschwinden. Wir schlagen self-hint aligned GRPO with privileged supervision (SAGE) vor, ein On-Policy Reinforcement-Learning-Framework, das privilegierte Hinweise während des Trainings einspielt, um die Rollout-Verteilung unter derselben terminalen Verifikator-Belohnung umzugestalten. Für jede Eingabe-Aufforderung x sampelt das Modell einen kompakten Hinweis h (z.B. einen Plan oder eine Zerlegung) und generiert dann eine Lösung τ, bedingt auf (x,h). Entscheidend ist, dass die Aufgabenbelohnung R(x,τ) unverändert bleibt; Hinweise erhöhen nur die Ergebnisvielfalt innerhalb der Gruppe bei endlicher Stichprobenziehung und verhindern so, dass GRPO-Vorteile unter spärlichen Belohnungen kollabieren. Zum Testzeitpunkt setzen wir h=varnothing und setzen die No-Hint-Policy ohne privilegierte Informationen ein. Darüber hinaus dient das Sammeln verschiedener Selbsthinweise als adaptiver Lehrplan, der die Engpässe des Lernenden effektiver verfolgt als feste Hinweise von einer initialen Policy oder einem stärkeren externen Modell. Experimente über 6 Benchmarks mit 3 LLMs zeigen, dass SAGE durchgängig GRPO übertrifft, im Durchschnitt um +2,0 bei Llama-3.2-3B-Instruct, +1,2 bei Qwen2.5-7B-Instruct und +1,3 bei Qwen3-4B-Instruct. Der Code ist verfügbar unter https://github.com/BaohaoLiao/SAGE.
Aktuelle Sprachmodelle (LMs) sind hervorragend im Umgang mit Prompts auf Basis ihres vortrainierten Wissens. Allerdings sind reale Aufgaben weitaus komplexer und kontextabhängig: Modelle müssen aus aufgabenspezifischen Kontexten lernen und neues Wissen jenseits der Vortrainingsinhalte nutzen, um Aufgaben zu lösen und Schlussfolgerungen zu ziehen. Wir bezeichnen diese Fähigkeit als Kontextlernen – eine grundlegende menschliche Kompetenz, die bisher weitgehend übersehen wurde. Daher stellen wir CL-bench vor, einen realistischen Benchmark mit 500 komplexen Kontexten, 1.899 Aufgaben und 31.607 Bewertungskriterien, die allesamt von erfahrenen Domain-Experten entwickelt wurden. Jede Aufgabe ist so gestaltet, dass die zu ihrer Lösung benötigten Informationen vollständig im entsprechenden Kontext enthalten sind. Die Bearbeitung von CL-bench-Aufgaben erfordert, dass Modelle aus dem Kontext lernen – von domänenspezifischem Wissen über Regelwerke und komplexe Prozeduren bis hin zu empirisch abgeleiteten Gesetzmäßigkeiten, die allesamt nicht im Vortraining enthalten waren. Dies geht weit über Langkontext-Aufgaben hinaus, die primär Abruf- oder Leseverständnis testen, sowie über In-Context-Learning-Aufgaben, bei denen Modelle lediglich einfache Aufgabenmuster anhand von Instruktionen und Beispielen lernen. Unsere Evaluierung von zehn führenden Sprachmodellen ergab, dass diese durchschnittlich nur 17,2% der Aufgaben lösen. Selbst das leistungsstärkste Modell, GPT-5.1, löst lediglich 23,7%, was zeigt, dass Sprachmodelle noch kein effektives Kontextlernen beherrschen – ein kritischer Engpass für die Bewältigung realer, kontextabhängiger Aufgaben. CL-bench ist ein Schritt towards die Entwicklung von Sprachmodellen mit dieser grundlegenden Fähigkeit, um sie intelligenter zu machen und ihren Einsatz in realen Szenarien voranzutreiben.
In den letzten zehn Jahren wurde die Entwicklung der generativen künstlichen Intelligenz (KI) von einem modellzentrierten Paradigma beherrscht, das durch Skalierungsgesetze vorangetrieben wurde. Trotz erheblicher Fortschritte bei der visuellen Qualität stößt dieser Ansatz an eine „Usability-Grenze“, die sich als Intent-Execution Gap manifestiert – also die grundlegende Diskrepanz zwischen der hochrangigen Absicht eines Erstellers und der stochastischen, Blackbox-artigen Natur aktueller Single-Shot-Modelle. In diesem Artikel stellen wir, inspiriert von Vibe Coding, Vibe AIGC vor – ein neues Paradigma für die Inhaltserstellung durch agentenbasierte Orchestrierung, das die autonome Synthese hierarchischer Multi-Agenten-Workflows darstellt. In diesem Paradigma geht die Rolle des Nutzers über traditionelles Prompt Engineering hinaus und entwickelt sich zu der eines „Commanders“, der einen „Vibe“ bereitstellt – eine hochrangige Repräsentation, die ästhetische Präferenzen, funktionale Logik etc. umfasst. Ein zentralisierter Meta-Planner fungiert dann als Systemarchitekt, der diesen „Vibe“ in ausführbare, überprüfbare und adaptive Agenten-Pipelines zerlegt. Durch den Übergang von stochastischer Inferenz zu logischer Orchestrierung überbrückt Vibe AIGC die Lücke zwischen menschlicher Vorstellungskraft und maschineller Ausführung. Wir sind der Ansicht, dass dieser Wandel die menschlich-KI-kollaborative Wirtschaft neu definieren wird, indem KI sich von einer fragilen Inferenzmaschine zu einem robusten, systemischen Engineering-Partner wandelt, der die Erstellung komplexer, langfristiger digitaler Assets demokratisiert.
Warum versagen vortrainierte Diffusions- oder Flow-Matching-Policies, wenn dieselbe Aufgabe in der Nähe eines Hindernisses, auf einer verschobenen Stützfläche oder inmitten leichter Unordnung ausgeführt wird? Solche Fehler spiegeln selten fehlende motorische Fähigkeiten wider; stattdessen offenbaren sie eine Limitation von Imitationslernen unter Train-Test-Shifts, bei der die Aktionsgenerierung eng an trainingsspezifische räumliche Konfigurationen und Aufgabenspezifikationen gekoppelt ist. Neu-Training oder Fine-Tuning zur Behebung dieser Fehler ist kostspielig und konzeptionell fehlausgerichtet, da die erforderlichen Verhaltensweisen bereits existieren, aber nicht selektiv zur Testzeit adaptiert werden können. Wir schlagen Vision-Language Steering (VLS) vor, ein trainingsfreies Framework für Inferenzzeit-Adaptation eingefrorener generativer Roboter-Policies. VLS behandelt Adaptation als ein Inferenzzeit-Steuerungsproblem, das den Sampling-Prozess einer vortrainierten Diffusions- oder Flow-Matching-Policy als Reaktion auf Out-of-Distribution-Beobachtungs-Sprache-Eingaben lenkt, ohne Policy-Parameter zu modifizieren. Indem VLS Vision-Language-Modelle nutzt, um trajectory-differenzierbare Reward-Funktionen zu synthetisieren, lenkt es das Denoising hin zu Aktions-Trajektorien, die Testzeit-Anforderungen an räumliche Gegebenheiten und Aufgaben erfüllen. In Simulationen und realen Evaluierungen übertrifft VLS durchgängig frühere Steering-Methoden und erzielt eine 31%ige Verbesserung auf CALVIN und einen 13%igen Zuwachs auf LIBERO-PRO. Der reale Einsatz auf einem Franka-Roboter demonstriert weiterhin robuste Inferenzzeit-Adaptation unter Testzeit-räumlichen und semantischen Shifts. Projektseite: https://vision-language-steering.github.io/webpage/
Fortschrittliche Sprachmodelle haben beeindruckende Fähigkeiten im logischen Denken und bei der langfristigen Werkzeugnutzung demonstriert. Bestehende RAG-Systeme (Retrieval-Augmented Generation) nutzen diese Fähigkeiten jedoch nicht aus. Sie stützen sich nach wie vor auf zwei Paradigmen: (1) die Entwicklung eines Algorithmus, der Passagen in einem einzigen Schritt abruft und sie zur Modelleingabe zusammenfügt, oder (2) die vorherige Definition eines Arbeitsablaufs, den das Modell schrittweise ausführt. Keines dieser Paradigmen ermöglicht es dem Modell, an Retrieval-Entscheidungen teilzunehmen, was eine effiziente Skalierung mit Modellverbesserungen verhindert. In diesem Artikel stellen wir A-RAG vor, ein agentenbasiertes RAG-Framework, das dem Modell hierarchische Retrieval-Schnittstellen direkt zugänglich macht. A-RAG bietet drei Retrieval-Werkzeuge: Keywordsuche, semantische Suche und das Lesen von Textabschnitten, die es dem Agenten ermöglichen, adaptiv nach Informationen über mehrere Granularitätsebenen hinweg zu suchen und diese abzurufen. Experimente mit mehreren Open-Domain-QA-Benchmarks zeigen, dass A-RAG bestehende Ansätze durchweg übertrifft, bei vergleichbarer oder geringerer Anzahl abgerufener Tokens. Dies demonstriert, dass A-RAG Modellfähigkeiten effektiv nutzt und sich dynamisch an verschiedene RAG-Aufgaben anpasst. Wir untersuchen des Weiteren systematisch, wie A-RAG mit der Modellgröße und Rechenleistung während der Testphase skaliert. Unser Code und der Evaluierungsdatensatz werden zur Verfügung gestellt, um zukünftige Forschung zu unterstützen. Code und Evaluierungsdatensatz sind verfügbar unter https://github.com/Ayanami0730/arag.
Suchagenten sind Sprachmodelle (LMs), die schlussfolgern und Wissensdatenbanken (oder das Web) durchsuchen, um Fragen zu beantworten; aktuelle Methoden überwachen nur die Endantwortgenauigkeit mittels Verstärkendem Lernen mit überprüfbaren Belohnungen (RLVR). Die meisten RLVR-Suchagenten bearbeiten allgemeine Frage-Antwort-Aufgaben (QA), was ihre Relevanz für technische KI-Systeme in Wissenschaft, Technik und Medizin einschränkt. In dieser Arbeit schlagen wir vor, Agenten für die Suche und das Schlussfolgern in wissenschaftlichen Artikeln zu trainieren – dies testet technisches Frage-Antworten, ist direkt relevant für echte Wissenschaftler, und die Fähigkeiten werden für zukünftige KI-Wissenschaftler-Systeme entscheidend sein. Konkret veröffentlichen wir ein Suchkorpus mit 16 Millionen biomedizinischen Artikelabstracts und erstellen einen anspruchsvollen faktischen QA-Datensatz namens PaperSearchQA mit 60.000 Stichproben, die aus dem Korpus beantwortet werden können, sowie Benchmarks. Wir trainieren Suchagenten in dieser Umgebung, um Nicht-RL-Retrieval-Baselines zu übertreffen; wir führen auch weitere quantitative Analysen durch und beobachten interessante Agentenverhalten wie Planung, Schlussfolgern und Selbstverifikation. Unser Korpus, Datensätze und Benchmarks sind mit der populären Search-R1-Codebasis für RLVR-Training kompatibel und werden auf https://huggingface.co/collections/jmhb/papersearchqa veröffentlicht. Schließlich sind unsere Methoden zur Datenerstellung skalierbar und leicht auf andere wissenschaftliche Domänen erweiterbar.
Das rasante Wachstum großer Sprachmodelle (LLMs) hat die Entwicklung von Single-GPU-Hardware übertroffen, wodurch der Modellumfang zunehmend durch die Speicherkapazität und nicht durch die Rechenleistung begrenzt wird. Während moderne Trainingssysteme den GPU-Speicher durch verteilten Parallelismus und Auslagerung über CPU- und Speicherebenen hinweg erweitern, behalten sie grundsätzlich ein GPU-zentriertes Ausführungsparadigma bei, bei dem GPUs persistente Modellreplikate und vollständige Autograd-Graphen hosten. Infolgedessen bleibt die Skalierung großer Modelle eng an Multi-GPU-Cluster, komplexe verteilte Laufzeitsysteme und unvorhersehbaren Host-Speicherverbrauch gekoppelt, was erhebliche Hindernisse für nachgelagerte Workloads auf Knotenebene wie Instruction Tuning, Alignment und Domänenanpassung schafft. Wir stellen Horizon-LM vor, ein speicherzentriertes Trainingssystem, das die Rollen von CPU und GPU für die Optimierung großer Modelle neu definiert. Horizon-LM behandelt den Host-Speicher als autoritativen Parameterspeicher und nutzt GPUs ausschließlich als transiente Recheneinheiten durch ein CPU-Master-, GPU-Worker-Ausführungsmodell. Durch die Eliminierung persistenter GPU-residenter Module und Autograd-Graphen, den Einsatz expliziter Neuberechnung mit manueller Gradientenpropagation und die Einführung einer gepipelineten Doppelpuffer-Ausführungsengine entkoppelt Horizon-LM den Modellumfang von der GPU-Anzahl und begrenzt die Speichernutzung auf den theoretischen Parameter-Footprint. Auf einer einzelnen H200-GPU mit 1,5 TB Host-RAM trainiert Horizon-LM zuverlässig Modelle mit bis zu 120 Milliarden Parametern. Auf einer Standard-A100-Maschine erreicht Horizon-LM eine bis zu 12,2-mal höhere Trainingsdurchsatzrate als DeepSpeed ZeRO-3 mit CPU-Auslagerung bei gleichzeitiger Wahrung der numerischen Korrektheit. Über Plattformen und Skalen hinweg erzielt Horizon-LM eine hohe Geräteauslastung und ein vorhersehbares Speicherwachstum und demonstriert, dass Host-Speicher – nicht GPU-Speicher – die tatsächliche Machbarkeitsgrenze für das Training großer Modelle auf Knotenebene definiert.
Die Entwicklung von Agenten auf Basis großer Sprachmodelle (LLM) für Software Engineering (SWE) wird durch den Mangel an verifizierbaren Datensätzen eingeschränkt, ein Engpass, der sich aus der Komplexität der Erstellung ausführbarer Umgebungen für verschiedene Programmiersprachen ergibt. Um dieses Problem zu lösen, stellen wir MEnvAgent vor, ein Multi-Language-Framework zur automatisierten Umgebungserstellung, das die skalierbare Generierung verifizierbarer Aufgabeninstanzen ermöglicht. MEnvAgent verwendet eine Multi-Agenten-Architektur nach dem Planungs-Ausführungs-Verifikations-Prinzip, um Konstruktionsfehler autonom zu beheben, und integriert einen neuartigen Mechanismus zur Wiederverwendung von Umgebungen, der den Rechenaufwand durch inkrementelles Patchen historischer Umgebungen reduziert. Evaluationen auf MEnvBench, einem neuen Benchmark mit 1.000 Aufgaben in 10 Programmiersprachen, zeigen, dass MEnvAgent Baseline-Methoden übertrifft, indem es die Fail-to-Pass (F2P)-Raten um 8,6 % verbessert und gleichzeitig die Zeitkosten um 43 % senkt. Zudem demonstrieren wir den Nutzen von MEnvAgent durch die Erstellung von MEnvData-SWE, dem bisher größten Open-Source-Polyglot-Datensatz realistischer, verifizierbarer Docker-Umgebungen, ergänzt durch Lösungsverläufe, die konsistente Leistungssteigerungen bei SWE-Aufgaben über eine breite Palette von Modellen ermöglichen. Unser Code, Benchmark und Datensatz sind unter https://github.com/ernie-research/MEnvAgent verfügbar.
Große Sprachmodelle (LLMs) können unbeabsichtigte Verzerrungen aus scheinbar harmlosen Trainingsdaten erwerben, selbst ohne explizite Hinweise oder bösartige Inhalte. Bestehende Methoden haben Schwierigkeiten, solche Risiken vor dem Fine-Tuning zu erkennen, was die nachträgliche Bewertung kostspielig und ineffizient macht. Um diese Herausforderung zu bewältigen, führen wir Data2Behavior ein, eine neue Aufgabe zur Vorhersage unbeabsichtigter Modellverhaltensweisen vor dem Training. Wir schlagen außerdem Manipulating Data Features (MDF) vor, einen leichtgewichtigen Ansatz, der Kandidatendaten über ihre mittleren Repräsentationen zusammenfasst und sie in den Forward-Pass eines Basismodells einspeist. Dies ermöglicht es, dass latente statistische Signale in den Daten die Modellaktivierungen formen und potenzielle Verzerrungen und Sicherheitsrisiken aufdecken, ohne dass Parameter aktualisiert werden müssen. MDF erreicht eine zuverlässige Vorhersage, während es nur etwa 20 % der GPU-Ressourcen verbraucht, die für Fine-Tuning erforderlich sind. Experimente mit Qwen3-14B, Qwen2.5-32B-Instruct und Gemma-3-12b-it bestätigen, dass MDF unbeabsichtigtes Verhalten antizipieren und Einblicke in Schwachstellen des Pre-Trainings liefern kann.
Die Steuerung von Agenten-Gedanken und -Beobachtungen während mehrstufiger Agent-Umgebungs-Interaktionen ist eine aufstrebende Strategie zur Verbesserung der Agenten-Effizienz. Bisherige Studien behandeln jedoch gesamte Interaktionsverläufe gleichwertig und übersehen, dass der Bedarf an Gedanken und der Nutzen von Beobachtungen über die einzelnen Stufen variieren. Daher untersuchen wir zunächst quantitativ, wie sich Gedanken und Beobachtungen auf die Wirksamkeit und Effizienz von Agenten auswirken. Aufbauend auf unseren Erkenntnissen schlagen wir Agent-Omit vor, ein einheitliches Trainingsframework, das LLM-Agenten befähigt, redundante Gedanken und Beobachtungen adaptiv auszulassen. Konkret synthetisieren wir zunächst eine kleine Menge von Cold-Start-Daten, die sowohl einstufige als auch mehrstufige Auslassungsszenarien umfassen, um den Agenten auf Auslassungsverhalten zu feinabstimmen. Darüber hinaus führen wir einen auslassungsbewussten agentenbasierten Verstärkungslernansatz ein, der einen dualen Sampling-Mechanismus und eine maßgeschneiderte Auslassungsbelohnung integriert, um die adaptive Auslassungsfähigkeit des Agenten zu fördern. Theoretisch beweisen wir, dass die Abweichung unserer Auslassungsstrategie durch die KL-Divergenz nach oben beschränkt ist. Experimentelle Ergebnisse auf fünf Agenten-Benchmarks zeigen, dass unser konstruierter Agent-Omit-8B eine mit sieben führenden LLM-Agenten vergleichbare Leistung erzielt und die beste Effektivitäts-Effizienz-Abwägung als sieben effiziente LLM-Agenten-Methoden erreicht. Unser Code und unsere Daten sind unter https://github.com/usail-hkust/Agent-Omit verfügbar.
Effektive Werkzeugnutzung und logisches Denken sind wesentliche Fähigkeiten großer Reasoning-Modelle (LRMs), um komplexe reale Probleme zu lösen. Durch empirische Analysen stellen wir fest, dass aktuelle LRMs in komplexen Werkzeugszenarien die Fähigkeit zur Teilschrittzerlegung vermissen lassen, was zu Lazy Reasoning führt. Um dies zu adressieren, schlagen wir ein zweistufiges Trainingsframework D-CORE vor (\textbf{D}ecomposing tasks and \textbf{Co}mposing \textbf{Re}asoning processes), das zunächst die Fähigkeit zur Aufgabenzergliederung durch Selbstdistillation fördert, gefolgt von diversitätsbewusstem bestärkendem Lernen (RL), um die reflektierende Reasoning-Fähigkeit der LRMs wiederherzustellen. D-CORE erzielt robuste Verbesserungen der Werkzeugnutzung über verschiedene Benchmarks und Modellgrößen hinweg. Experimente auf BFCLv3 demonstrieren die Überlegenheit unserer Methode: D-CORE-8B erreicht 77,7 % Genauigkeit und übertrifft das beste 8B-Modell um 5,7 %. Gleichzeitig setzt D-CORE-14B mit 79,3 % einen neuen State-of-the-Art und übertrifft 70B-Modelle, obwohl es fünfmal kleiner ist. Der Quellcode ist unter https://github.com/alibaba/EfficientAI verfügbar.
Jüngste Fortschritte bei vereinheitlichten multimodalen Modellen (UMM) haben bemerkenswerte Erfolge sowohl bei Verstehens- als auch bei Generierungsaufgaben gezeigt. Es bleibt jedoch unklar, ob diese beiden Fähigkeiten tatsächlich abgestimmt und in einem einzigen Modell integriert sind. Um dieser Frage nachzugehen, stellen wir GapEval vor, einen bidirektionalen Benchmark, der entwickelt wurde, um die Lücke zwischen Verstehens- und Generierungsfähigkeiten zu quantifizieren und die kognitive Kohärenz der beiden "vereinheitlichten" Richtungen quantitativ zu messen. Jede Frage kann in beiden Modalitäten (Bild und Text) beantwortet werden, was eine symmetrische Bewertung der bidirektionalen Inferenzfähigkeit eines Modells und seiner cross-modalen Konsistenz ermöglicht. Experimente zeigen eine beständige Lücke zwischen den beiden Richtungen über eine Vielzahl von UMMs mit unterschiedlichen Architekturen hinweg, was darauf hindeutet, dass aktuelle Modelle nur eine oberflächliche Vereinheitlichung und keine tiefe kognitive Konvergenz der beiden Fähigkeiten erreichen. Um den zugrundeliegenden Mechanismus weiter zu erforschen, führen wir eine empirische Studie aus der Perspektive der Wissensmanipulation durch, um die grundlegenden Limitierungen zu veranschaulichen. Unsere Ergebnisse deuten darauf hin, dass Wissen innerhalb von UMMs oft fragmentiert bleibt. Die Fähigkeitsentstehung und das Wissen über Modalitäten hinweg sind nicht synchronisiert, was den Weg für weitere Erkundungen ebnet.
Räumliches Denken ist ein grundlegender Aspekt der menschlichen Kognition, stellt jedoch nach wie vor eine große Herausforderung für zeitgenössische Vision-Language-Modelle (VLMs) dar. Bisherige Arbeiten stützten sich weitgehend auf synthetische oder von LLMs generierte Umgebungen mit begrenzten Aufgabendesigns und rätselartigen Arrangements, die es nicht schaffen, die reale Komplexität, visuelle Störfaktoren und vielfältige räumliche Beziehungen, auf die VLMs treffen, abzubilden. Um dies zu adressieren, stellen wir SpatiaLab vor, einen umfassenden Benchmark zur Bewertung des räumlichen Denkens von VLMs in realistischen, uneingeschränkten Kontexten. SpatiaLab umfasst 1.400 visuelle Frage-Antwort-Paare aus sechs Hauptkategorien: Relative Positionierung, Tiefe & Verdeckung, Ausrichtung, Größe & Maßstab, Räumliche Navigation und 3D-Geometrie, wobei jede Kategorie fünf Unterkategorien aufweist, was 30 verschiedene Aufgabentypen ergibt. Jede Unterkategorie enthält mindestens 25 Fragen, und jede Hauptkategorie umfasst mindestens 200 Fragen, was sowohl Multiple-Choice- als auch freie Bewertungen unterstützt. Experimente mit verschiedenen state-of-the-art VLMs, einschließlich Open- und Closed-Source-Modellen, reasoning-fokussierten und spezialisierten Modellen für räumliches Denken, zeigen eine erhebliche Lücke in den räumlichen Denkfähigkeiten im Vergleich zum Menschen. Im Multiple-Choice-Setup erreicht InternVL3.5-72B eine Genauigkeit von 54,93 % gegenüber 87,57 % beim Menschen. Im freien Antwortformat zeigen alle Modelle einen Leistungsabfall von etwa 10–25 %, wobei GPT-5-mini mit 40,93 % am höchsten abschneidet, verglichen mit 64,93 % beim Menschen. Diese Ergebnisse verdeutlichen zentrale Schwächen im Umgang mit komplexen räumlichen Beziehungen, Tiefenwahrnehmung, Navigation und 3D-Geometrie. Indem SpatiaLab einen vielfältigen, realweltlichen Bewertungsrahmen bietet, legt es kritische Herausforderungen und Chancen für die Weiterentwicklung des räumlichen Denkens von VLMs offen und stellt einen Benchmark bereit, um zukünftige Forschung in Richtung eines robusten, menschenähnlichen räumlichen Verständnisses zu lenken. SpatiaLab ist verfügbar unter: https://spatialab-reasoning.github.io/.
Das Training von großen Sprachmodellen (LLMs) für codebezogene Aufgaben hängt typischerweise von hochwertigen Code-Dokumentations-Paaren ab, deren Erstellung kostspielig ist und die für Nischen-Programmiersprachen oft nur begrenzt verfügbar sind. Wir stellen BatCoder vor, einen selbstüberwachten Verstärkungslernrahmen, der darauf ausgelegt ist, Code-Generierung und Dokumentationserstellung gemeinsam zu optimieren. BatCoder verwendet eine Back-Translation-Strategie: Aus Code wird zunächst eine Dokumentation generiert, anschließend wird die generierte Dokumentation verwendet, um den ursprünglichen Code zu rekonstruieren. Die semantische Ähnlichkeit zwischen dem ursprünglichen und dem rekonstruierten Code dient als implizite Belohnung, die es dem Verstärkungslernen ermöglicht, die Leistung des Modells sowohl bei der Code-Generierung aus Dokumentation als auch umgekehrt zu verbessern. Dieser Ansatz ermöglicht es, Modelle nur mit Code zu trainieren, was die verfügbaren Trainingsbeispiele erheblich erhöht. Ausgewertet auf HumanEval und MBPP mit einem 7B-Modell, erzielte BatCoder 83,5 % bzw. 81,0 % pass@1 und übertraf damit starke Open-Source-Baselines. Darüber hinaus zeigt der Rahmen eine konsistente Skalierbarkeit in Bezug auf sowohl die Größe des Trainingskorpus als auch die Modellkapazität.
Das Feinabstimmen großer Sprachmodelle (LLMs) auf Reasoning-Benchmarks mittels Verstärkendem Lernen erfordert eine spezifische, oft binäre Belohnungsfunktion für jeden Benchmark. Dies bringt zwei potenzielle Einschränkungen mit sich: die Notwendigkeit, die Belohnung zu entwerfen, und die potenziell spärliche Natur binärer Belohnungen. Hier untersuchen wir systematisch Belohnungen, die von der Wahrscheinlichkeit oder Log-Wahrscheinlichkeit abgeleitet sind, die Referenzantwort (oder eine andere in den Daten vorhandene Prompt-Fortsetzung) zu generieren. Diese haben den Vorteil, dass sie nicht auf spezifische Verifizierer angewiesen sind und in großem Maßstab verfügbar sind. Mehrere aktuelle Arbeiten haben die Verwendung ähnlicher Belohnungen befürwortet (z.B. VeriFree, JEPO, RLPR, NOVER). Wir vergleichen systematisch Varianten von wahrscheinlichkeitsbasierten Belohnungen mit Standard-Baselines und testen die Leistung sowohl auf standardisierten mathematischen Reasoning-Benchmarks als auch bei Langform-Antworten, für die kein externer Verifizierer verfügbar ist. Wir stellen fest, dass die Verwendung der Log-Wahrscheinlichkeit der Referenzantwort als Belohnung für Chain-of-Thought (CoT)-Lernen die einzige Option ist, die in allen Setups gut abschneidet. Diese Belohnung ist auch konsistent mit dem Next-Token-Log-Likelihood-Verlust, der während des Vorabtrainings verwendet wird. In verifizierbaren Settings erzielen Log-Wahrscheinlichkeits-Belohnungen vergleichbare oder bessere Erfolgsquoten als die Verstärkung mit Standard-Binärbelohnungen und führen zu einer viel besseren Perplexität. In nicht verifizierbaren Settings schneiden sie auf Augenhöhe mit SFT ab. Andererseits scheitern Methoden, die auf Wahrscheinlichkeit basieren, wie VeriFree, in nicht verifizierbaren Settings aufgrund der gegen Null gehenden Wahrscheinlichkeiten, die korrekte Antwort zu erhalten. Insgesamt etabliert dies Log-Wahrscheinlichkeits-Belohnungen als eine praktikable Methode für das CoT-Fine-Tuning, die die kurzen, verifizierbaren und die langen, nicht verifizierbaren Antwort-Settings miteinander verbindet.
Die derzeitige Evaluation verkörperter VLMs stützt sich auf statische, von Experten definierte und manuell annotierte Benchmarks, die eine starke Redundanz und ein Ungleichgewicht in der Abdeckung aufweisen. Dieses arbeitsintensive Paradigma zehrt an Rechen- und Annotationsressourcen, treibt die Kosten in die Höhe und verzerrt Modellrankings, was letztlich die iterative Entwicklung hemmt. Um dies zu adressieren, schlagen wir Agentic Automatic Evaluation (A2Eval) vor, den ersten agentenbasierten Rahmen, der die Benchmark-Kuration und Evaluation durch zwei kollaborative Agenten automatisiert. Der Data Agent leitet autonom Fähigkeitsdimensionen ab und erstellt eine ausgewogene, kompakte Testsuite, während der Eval Agent ausführbare Evaluationspipelines synthetisiert und validiert, wodurch eine vollständig autonome, hochpräzise Bewertung ermöglicht wird. In Evaluierungen über 10 Benchmarks und 13 Modelle hinweg komprimiert A2Eval Testsuiten um 85%, senkt die gesamten Rechenkosten um 77% und erreicht eine 4,6-fache Beschleunigung bei gleichbleibender Evaluationsqualität. Entscheidend ist, dass A2Eval systematische Ranking-Verzerrungen korrigiert, die Übereinstimmung mit menschlichen Bewertungen auf Spearmans Rho=0,85 verbessert und eine hohe Ranking-Treue (Kendalls Tau=0,81) beibehält, wodurch ein neuer Standard für hochpräzise, kostengünstige verkörperte Evaluation gesetzt wird. Unser Code und unsere Daten werden in Kürze veröffentlicht.
Grounded Multimodal Named Entity Recognition (GMNER) zielt darauf ab, textbasierte Entitäten zu extrahieren, ihnen semantische Kategorien zuzuordnen und sie in entsprechenden Bildregionen zu verankern. In dieser Arbeit untersuchen wir das Potenzial Multimodaler Großer Sprachmodelle (MLLMs), GMNER auf end-to-end Weise durchzuführen, und gehen damit über ihre typische Rolle als Hilfswerkzeuge in kaskadierten Pipelines hinaus. Entscheidend ist, dass unsere Untersuchung eine grundlegende Herausforderung aufdeckt: MLLMs weisen eine Modalitätsverzerrung (Modality Bias) auf, einschließlich visueller und textueller Verzerrung, die daraus resultiert, dass sie eher unimodale Abkürzungen nehmen als eine rigorose cross-modale Verifikation durchzuführen. Um dies zu adressieren, schlagen wir Modalitätsbewusstes Konsistenzreasoning (Modality-aware Consistency Reasoning, MCR) vor, das strukturiertes cross-modales Reasoning durch Multi-Style Reasoning Schema Injection (MRSI) und Constraint-guided Verifiable Optimization (CVO) erzwingt. MRSI transformiert abstrakte Constraints in ausführbare Reasoning-Ketten, während CVO das Modell befähigt, seine Reasoning-Pfade dynamisch mit Group Relative Policy Optimization (GRPO) abzugleichen. Experimente zu GMNER- und Visual-Grounding-Aufgaben zeigen, dass MCR die Modalitätsverzerrung wirksam abschwächt und eine überlegene Leistung im Vergleich zu existierenden Baselines erzielt.
Autoregressive Video-Diffusionsmodelle haben aufgrund ihrer kausalen Modellierung und iterativen Rauschunterdrückung in letzter Zeit erhebliches Forschungsinteresse geweckt. In dieser Arbeit stellen wir fest, dass die Multi-Head-Self-Attention in diesen Modellen historische Frames unterauslastet: etwa 25 % der Attention-Heads konzentrieren sich fast ausschließlich auf den aktuellen Frame, und das Verwerfen ihrer KV-Caches führt nur zu geringen Leistungseinbußen. Aufbauend darauf schlagen wir Dummy Forcing vor, eine einfache, aber effektive Methode zur Steuerung der Kontextzugänglichkeit über verschiedene Heads hinweg. Konkret reduziert die vorgeschlagene heterogene Speicherzuweisung redundante Kontextinformationen auf Head-Ebene, ergänzt durch dynamische Head-Programmierung zur adaptiven Klassifizierung von Head-Typen. Darüber hinaus entwickeln wir eine Context-Packing-Technik, um eine aggressivere Cache-Kompression zu erreichen. Ohne zusätzliches Training erzielt unser Dummy Forcing eine bis zu 2,0-fache Beschleunigung gegenüber der Basisversion und ermöglicht Videogenerierung mit 24,3 FPS bei einem Qualitätsverlust von weniger als 0,5 %. Die Projektseite ist unter https://csguoh.github.io/project/DummyForcing/ verfügbar.
Wir untersuchen maschinelle Übersetzung für fünf Turksprachen-Paare: Russisch-Baschkirisch, Russisch-Kasachisch, Russisch-Kirgisisch, Englisch-Tatarisch, Englisch-Tschuwaschisch. Das Finetuning von nllb-200-distilled-600M mit LoRA auf synthetischen Daten erzielte chrF++ 49,71 für Kasachisch und 46,94 für Baschkirisch. Das Prompting von DeepSeek-V3.2 mit ähnlichen, abgerufenen Beispielen erreichte chrF++ 39,47 für Tschuwaschisch. Für Tatarisch erzielten Zero-Shot- oder retrieverbasierte Ansätze chrF++ 41,6, während für Kirgisisch der Zero-Shot-Ansatz 45,6 erreichte. Wir veröffentlichen den Datensatz und die erhaltenen Gewichte.
Multi-Agent Discussion (MAD) hat in jüngster Zeit zunehmend an Aufmerksamkeit gewonnen, wobei mehrere LLM-Instanzen durch strukturierte Diskussionen gemeinsam Probleme lösen. Wir stellen jedoch fest, dass aktuelle MAD-Methoden leicht unter Diskussionsinkonsistenzen leiden, da LLMs aufgrund mangelnder Übereinstimmung ihrer individuellen Kontexte keine kohärente Lösung erzielen können. In diesem Artikel stellen wir eine Multi-LLM-Kontextlernmethode (M2CL) vor, die für jeden Agenten einen Kontextgenerator lernt, der in der Lage ist, durch automatische Informationsorganisation und -verfeinerung kontextbezogene Instruktionen pro Diskussionsrunde dynamisch zu generieren. Konkret trainiert M2CL, inspiriert durch unsere theoretischen Einsichten zu Kontextinstruktionen, die Generatoren mittels eines speziell entwickelten selbstadaptiven Mechanismus, um Kontextkohärenz und Ausgabediskrepanzen zu steuern. Dies ermöglicht es LLMs, eine vorzeitige Konvergenz auf Mehrheitsrauschen zu vermeiden und schrittweise den korrekten Konsens zu erreichen. Wir evaluieren M2CL auf anspruchsvollen Aufgaben, darunter akademisches Reasoning, embodied tasks und mobile Steuerung. Die Ergebnisse zeigen, dass die Leistung von M2CL bestehende Methoden signifikant um 20 % bis 50 % übertrifft, bei gleichzeitig guter Übertragbarkeit und Recheneffizienz.
Die rasche Verbreitung generativer 3D-Modelle hat einen kritischen Engpass in Animations-Pipelines geschaffen: das Rigging. Bestehende automatisierte Methoden sind grundlegend durch ihren Ansatz für das Skinning limitiert, das sie als ein schlecht gestelltes, hochdimensionales Regressionsproblem behandeln, das ineffizient zu optimieren ist und typischerweise von der Skelettgenerierung entkoppelt wird. Wir postulieren, dass dies ein Darstellungsproblem ist und führen SkinTokens ein: eine gelernte, kompakte und diskrete Darstellung für Skinning-Gewichte. Indem wir ein FSQ-CVAE nutzen, um die intrinsische Sparsity des Skinnings zu erfassen, rahmen wir die Aufgabe von einer kontinuierlichen Regression zu einem handhabbareren Problem der Token-Sequenzvorhersage um. Diese Darstellung ermöglicht TokenRig, einen einheitlichen autoregressiven Rahmen, der das gesamte Rig als eine einzige Sequenz von Skelettparametern und SkinTokens modelliert und die komplexen Abhängigkeiten zwischen Skeletten und Skin-Verformungen lernt. Das vereinheitlichte Modell eignet sich dann für eine Reinforcement-Learning-Phase, in der maßgeschneiderte geometrische und semantische Belohnungen die Generalisierung auf komplexe, außerhalb der Trainingsverteilung liegende Assets verbessern. Quantitativ führt die SkinTokens-Darstellung zu einer Verbesserung der Skinning-Genauigkeit um 98–133 Prozent gegenüber state-of-the-art Methoden, während das vollständige TokenRig-Framework, verfeinert mit RL, die Knochenvorhersage um 17–22 % steigert. Unsere Arbeit stellt einen vereinheitlichten, generativen Ansatz für Rigging vor, der eine höhere Qualität und Robustheit liefert und eine skalierbare Lösung für eine langjährige Herausforderung in der 3D-Inhaltserstellung bietet.
Diese Arbeit stellt Self-Rewarding Sequential Monte Carlo (SMC) vor, einen Inferenzzeit-Skalierungsalgorithmus, der eine effektive Stichprobenentnahme von maskierten Diffusions-Sprachmodellen (MDLMs) ermöglicht. Unser Algorithmus basiert auf der Beobachtung, dass die meisten existierenden MDLMs auf einer konfidenzbasierten Sampling-Strategie beruhen, bei der in jedem Schritt nur Token mit der höchsten Vorhersagekonfidenz beibehalten werden. Dies beschränkt die Generierung auf ein rauschempfindliches, gieriges Dekodierungsparadigma, was zu einem unvermeidlichen Kollaps der Vielfalt möglicher Pfade führt. Wir adressieren dieses Problem, indem wir mehrere interagierende Diffusionsprozesse parallel starten, sogenannte Partikel, zur Trajektorienexploration. Von entscheidender Bedeutung ist, dass wir die Trajektorien-Konfidenz als selbstbelohnendes Signal zur Zuweisung von Partikel-Gewichtungen einführen. Während des Samplings werden Partikel iterativ gewichtet und neu abgetastet, um die Generierung systematisch in Richtung global konfidenter, hochwertiger Stichproben zu lenken. Unser Self-Rewarding SMC wird an verschiedenen maskierten Diffusions-Sprachmodellen und Benchmarks verifiziert und erzielt signifikante Verbesserungen ohne zusätzliches Training oder Belohnungsführung, während es gleichzeitig die parallele Inferenzkapazität effektiv in verbesserte Sampling-Qualität umwandelt. Unser Code ist verfügbar unter https://github.com/Algolzw/self-rewarding-smc.
Wir stellen Protein-Autoregressive Modeling (PAR) vor, das erste multiskalige autoregressive Framework zur Generierung von Proteinrückgraten durch grob- bis feinkörnige Next-Scale-Prädiktion. Unter Nutzung der hierarchischen Natur von Proteinen erzeugt PAR Strukturen, die der Bildhauerei einer Statue ähneln – es formt eine grobe Topologie und verfeinert strukturelle Details über Skalen hinweg. Um dies zu erreichen, besteht PAR aus drei Schlüsselkomponenten: (i) Multiskalen-Downsampling-Operationen, die Proteinstrukturen während des Trainings über mehrere Skalen hinweg repräsentieren; (ii) ein autoregressiver Transformer, der Multiskalen-Informationen kodiert und konditionale Embeddings zur Steuerung der Strukturgenerierung erzeugt; (iii) ein flow-basierter Rückgrat-Decoder, der Rückgrat-Atome konditioniert auf diese Embeddings generiert. Darüber hinaus leiden autoregressive Modelle unter Exposure Bias, der durch die Diskrepanz zwischen Trainings- und Generierungsprozedur verursacht wird und die Qualität der Strukturgenerierung erheblich beeinträchtigt. Wir mildern dieses Problem effektiv durch noisy context learning und scheduled sampling, was eine robuste Rückgratgenerierung ermöglicht. Bemerkenswerterweise zeigt PAR eine starke Zero-Shot-Generalisation, unterstützt flexible, menschlich gesteuerte konditionale Generierung und Motif-Scaffolding ohne Feinabstimmung. Im Benchmark für unkonditionale Generierung lernt PAR effektiv Proteinverteilungen, erzeugt Rückgrate hoher Designqualität und zeigt ein günstiges Skalierungsverhalten. Zusammengenommen etablieren diese Eigenschaften PAR als vielversprechendes Framework für die Proteinstrukturgenerierung.
Die radiologische Analyse profitiert zunehmend von vortrainierten visuellen Repräsentationen, die heterogene Downstream-Aufgaben über verschiedene Bildgebungsmodalitäten hinweg unterstützen können. In dieser Arbeit stellen wir OmniRad vor, ein selbstüberwachtes radiologisches Fundamentmodell, das auf 1,2 Millionen medizinischen Bildern vortrainiert wurde und nach radiologisch inspirierten Prinzipien entwickelt wurde, die Repräsentationswiederverwendung und Cross-Task-Übertragbarkeit betonen. Wir evaluieren den vortrainierten Encoder unter verschiedenen Downstream-Anpassungsregimen, einschließlich leichtgewichtiger aufgabenspezifischer Adapter mit eingefrorenem Backbone sowie vollständigem End-to-End-Fine-Tuning für Klassifikation, was uns ermöglicht, sowohl die Repräsentationsqualität als auch die aufgabenspezifische Leistung zu bewerten. OmniRad wird auf einer breiten Palette öffentlicher Benchmarks evaluiert, die Klassifikation und Segmentierung über mehrere Modalitäten hinweg abdecken. Auf der MedMNISTv2-Kollektion verbessert OmniRad den Klassifikations-F1-Score um bis zu 2,05 % gegenüber konkurrierenden Fundamentmodellen. Für dichte Prädiktionen erzielt OmniRad durchschnittliche Dice-Score-Verbesserungen über sechs MedSegBench-Datensätze hinweg bei Verwendung eingefrorener Repräsentationen. Qualitative Analysen und Latent-Space-Visualisierungen deuten auf verbessertes Feature-Clustering und modalitätsbezogene Trennung hin.
Optimierung (PPO) wird in der jüngeren Literatur als die Standardmethode für den RL-Teil von RLHF positioniert. PPO schneidet empirisch gut ab, hat jedoch eine heuristische Motivation und behandelt die in LM-RLHF verwendete KL-Divergenz-Nebenbedingung auf ad-hoc-Weise. Zudem leidet es unter Oszillationen der Belohnung, Entropiekollaps, Drift der Wertfunktion und plötzlicher Policy-Divergenz, was häufige Neustarts und umfangreiche Hyperparameter-Tuning erfordert. In diesem Artikel entwickeln wir eine neue rein on-policy Actor-Critic-RL-Methode für die LM-RLHF-Umgebung. Wir stellen SAFE (Stable Alignment Finetuning with Entropy-aware control) vor, einen neuartigen RLHF-Algorithmus, der einen Double Soft-Min Critic für pessimistische Wertschätzung mit einem neuen mehrschichtigen Stabilisierungsframework kombiniert, das KL-Regulierung mit Entropie-Steuerung und PID-gesteuerte adaptive Schwellenwerte vereint. Im Gegensatz zu den symmetrischen KL-Strafen von Standard-PPO unterscheidet SAFE zwischen Exploration mit hoher Entropie und Modus-Kollaps mit niedriger Entropie und passt die Strafen dynamisch basierend auf der Belohnungsgeschwindigkeit an. Experimente mit einem 3-Milliarden-Parameter-Modell zeigen, dass SAFE eine um +5,15 % höhere durchschnittliche Trainingsbelohnung als PPO erzielt (0,725 vs. 0,689), vernachlässigbare Belohnungseinbrüche aufweist und eine überlegene KL-Kontrolle gegenüber PPO bietet. Unsere Methode fügt minimalen Rechenaufwand hinzu und bietet ein interpretierbares, absturzsicheres RLHF-Framework, das eine aggressive Lerngeschwindigkeit beibehält und gleichzeitig eine stabile Langzeitoptimierung gewährleistet, die für den Produktiveinsatz geeignet ist. Der Code ist verfügbar unter https://github.com/ryyzn9/SAFE.
Moderne Sprachmodelle werden fast ausschließlich auf Token-Sequenzen trainiert, die von einem festen Tokenizer erzeugt werden – einem externen verlustfreien Kompressor, der oft auf UTF-8-Bytefolgen arbeitet. Dadurch wird das Modell an diesen Kompressor gekoppelt. Diese Arbeit stellt Proxy-Kompression vor, ein alternatives Trainingsschema, das die Effizienzvorteile komprimierter Eingaben bewahrt, während es zur Inferenzzeit eine Ende-zu-Ende-Schnittstelle auf Rohtbyte-Ebene bereitstellt. Während des Trainings wird ein Sprachmodell gemeinsam auf Rohtbyte-Sequenzen und komprimierten Ansichten trainiert, die von externen Kompressoren erzeugt werden. Dabei lernt das Modell, komprimierte Sequenzen und Rohtbytes intern in Einklang zu bringen. Diese Ausrichtung ermöglicht einen starken Transfer zwischen den beiden Formaten, selbst wenn überwiegend auf komprimierten Eingaben trainiert wird, die zur Inferenz verworfen werden. Umfangreiche Experimente zur Code-Sprachmodellierung zeigen, dass Proxy-Kompression die Trainingseffizienz erheblich steigert und reine Byte-Level-Baselines bei festen Rechenbudgets signifikant übertrifft. Mit zunehmender Modellgröße werden diese Gewinne deutlicher, und proxy-trainierte Modelle erreichen schließlich die Leistung von Tokenizer-Ansätzen oder übertreffen sie, während sie ausschließlich auf Rohtbytes operieren und die inhärente Robustheit der Byte-Level-Modellierung beibehalten.
Die 4D-Generierung hat bemerkenswerte Fortschritte bei der Synthese dynamischer 3D-Objekte aus Eingabetexten, -bildern oder -videos erzielt. Bestehende Methoden repräsentieren Bewegung jedoch oft als implizites Verformungsfeld, was die direkte Steuerung und Bearbeitbarkeit einschränkt. Um dieses Problem zu lösen, schlagen wir SkeletonGaussian vor, einen neuartigen Rahmen zur Erzeugung editierbarer dynamischer 3D-Gaussians aus monokularen Videoeingaben. Unser Ansatz führt eine hierarchische artikulierte Repräsentation ein, die Bewegung explizit in eine spärliche, starre Bewegung, gesteuert durch ein Skelett, und eine feinkörnige nicht-starre Bewegung zerlegt. Konkret extrahieren wir ein robustes Skelett und steuern die starre Bewegung über Linear Blend Skinning, gefolgt von einer hexplanebasierten Verfeinerung für nicht-starre Verformungen, was die Interpretierbarkeit und Bearbeitbarkeit verbessert. Experimentelle Ergebnisse zeigen, dass SkeletonGaussian bestehende Methoden in der Generierungsqualität übertrifft und gleichzeitig intuitive Bewegungsbearbeitung ermöglicht, wodurch ein neues Paradigma für editierbare 4D-Generierung etabliert wird. Projektseite: https://wusar.github.io/projects/skeletongaussian/
Während Multi-Agenten-Systeme großer Sprachmodelle (LLM) durch iterativen Dialog überlegene Reasoning-Leistungen erzielen, wird ihr praktischer Einsatz durch hohe Rechenkosten und Fehlerfortpflanzung eingeschränkt. Dieses Papier stellt AgentArk vor, einen neuartigen Rahmen zur Distillation von Multi-Agenten-Dynamiken in die Gewichte eines einzelnen Modells, wodurch explizite Interaktionen zur Laufzeit effektiv in implizite Modellfähigkeiten transformiert werden. Dies stattet einen einzelnen Agenten mit der Intelligenz von Multi-Agenten-Systemen aus, bei gleichbleibender Recheneffizienz. Konkret untersuchen wir drei hierarchische Distillationsstrategien in verschiedenen Modellen, Aufgaben, Skalierungen und Szenarien: reasoning-verbessertes Fine-Tuning, trajektorienbasierte Augmentierung und prozessbewusste Distillation. Indem die Rechenlast vom Inferenz- auf den Trainingszeitpunkt verlagert wird, bewahren die distillierten Modelle die Effizienz eines einzelnen Agenten und zeigen gleichzeitig die starken Reasoning- und Selbstkorrekturfähigkeiten mehrerer Agenten. Sie weisen zudem eine verbesserte Robustheit und Generalisierung über verschiedene Reasoning-Aufgaben hinweg auf. Wir hoffen, dass diese Arbeit zukünftige Forschung zu effizienten und robusten Multi-Agenten-Systemen bereichern kann. Unser Code ist unter https://github.com/AIFrontierLab/AgentArk verfügbar.
Fehlschlüsse bei großen Sprachmodellen (LLMs) werden typischerweise nur am Ende einer Generierung gemessen, doch viele Fehler zeigen sich als prozessualer Zusammenbruch: Das Modell verliert "mitten im Schlussfolgern den Faden". Wir untersuchen, ob solche Zusammenbrüche anhand von zur Inferenzzeit verfügbaren Beobachtwerten aus Standard-APIs (Token-Log-Wahrscheinlichkeiten) erkennbar sind, ohne jegliches Training oder Fine-Tuning. Wir definieren ein einfaches Instabilitätssignal, das verteilungsbezogene Verschiebung (JSD) und Unsicherheit (Entropie) aufeinanderfolgender Schritte kombiniert, fassen jeden Trace durch seine maximale Instabilitätsstärke zusammen und zeigen, dass dieses Signal Fehler zuverlässig vorhersagt. Über GSM8K und HotpotQA hinweg sagt die Instabilitätsstärke falsche Antworten mit einer über dem Zufall liegenden AUC voraus und führt zu einem monotonen Abfall der Genauigkeit auf Bucket-Ebene im großen Maßstab über verschiedene Modellgrößen hinweg. Entscheidend ist, dass wir zeigen, dass Instabilität nicht einheitlich schädlich ist: Frühe Instabilität kann eine nachfolgende Stabilisierung und eine korrekte Endantwort widerspiegeln (korrigierende Instabilität), während späte Instabilität häufiger zu einem Fehler führt (destruktive Instabilität), selbst bei vergleichbaren Spitzenwerten. Dies deutet darauf hin, dass die Erholbarkeit nicht nur davon abhängt, wie stark sich die Verteilung ändert, sondern auch davon, wann solche Änderungen im Verhältnis zum verbleibenden Dekodierungshorizont auftreten. Die Methode ist modellagnostisch, kommt ohne Training aus und ist reproduzierbar. Sie wird als diagnostische Linse präsentiert und nicht als Korrektur- oder Steuerungsmechanismus.
Direkte Alignment-Methoden werden zunehmend eingesetzt, um große Sprachmodelle (LLMs) mit menschlichen Präferenzen abzugleichen. Viele reale Alignment-Probleme umfassen jedoch mehrere konfligierende Ziele, bei denen eine naive Aggregation von Präferenzen zu instabilem Training und schlechten Kompromissen führen kann. Insbesondere können gewichtete Verlustmethoden versagen, Update-Richtungen zu identifizieren, die alle Ziele gleichzeitig verbessern, und bestehende Multi-Objective-Ansätze verlassen sich oft auf explizite Reward-Modelle, was zusätzliche Komplexität einführt und benutzerspezifische Präferenzen verzerrt. Die Beiträge dieser Arbeit sind zweierlei. Erstens schlagen wir ein Reward-freies Alignment-Framework für konfligierende Ziele (RACO) vor, das direkt paarweise Präferenzdaten nutzt und Gradientenkonflikte durch eine neuartige beschnittene Variante des konfliktscheuen Gradientenabstiegs löst. Wir liefern Konvergenzgarantien zu Pareto-kritischen Punkten, die benutzerspezifische Zielgewichtungen respektieren, und zeigen weiterhin, dass das Beschneiden die Konvergenzrate im Zwei-Ziele-Setting strikt verbessern kann. Zweitens verbessern wir unsere Methode mithilfe einiger Heuristiken und führen Experimente durch, um die Kompatibilität des vorgeschlagenen Frameworks für das Alignment von LLMs zu demonstrieren. Sowohl qualitative als auch quantitative Auswertungen von Multi-Objective-Zusammenfassungs- und Safety-Alignment-Aufgaben über mehrere LLM-Familien hinweg (Qwen 3, Llama 3, Gemma 3) zeigen, dass unsere Methode im Vergleich zu bestehenden Multi-Objective-Alignment-Baselines konsistent bessere Pareto-Kompromisse erzielt.
Wir stellen LongVPO vor, ein neuartiges zweistufiges Direct-Preference-Optimierung-Framework, das kurz-kontextuelle Vision-Sprach-Modelle in die Lage versetzt, ultra-lange Videos robust zu verstehen, ohne dass Annotationen für lange Videos erforderlich sind. In Stufe 1 synthetisieren wir Präferenztripel, indem wir Fragen an einzelne kurze Clips anbinden, diese mit Ablenkern verschachteln und visuelle Ähnlichkeits- sowie fragenspezifische Filterung anwenden, um Positionsverzerrung zu mindern und eine eindeutige Supervision zu gewährleisten. Zudem approximieren wir die Bewertung des Referenzmodells für lange Kontexte, indem wir nur den Anker-Clip auswerten, was den Rechenaufwand verringert. In Stufe 2 setzen wir eine rekursive Beschriftungspipeline für lange Videos ein, um Metadaten auf Szenenebene zu generieren, und nutzen dann ein großes Sprachmodell, um Mehr-Segment-Verständnisfragen und unerwünschte Antworten zu erstellen, wodurch die Präferenzen des Modells durch Mehr-Segment-Verstandesaufgaben ausgerichtet werden. Mit nur 16.000 synthetischen Beispielen und ohne kostspielige menschliche Annotationen übertrifft LongVPO die state-of-the-art Open-Source-Modelle in mehreren Benchmarks für lange Videos, während es gleichzeitig eine starke Leistung bei kurzen Videos beibehält (z.B. in MVBench), und bietet so ein skalierbares Paradigma für effizientes Langform-Videoverständnis.
Wir stellen FOTBCD vor, einen großflächigen Gebäudeveränderungs-Erkennungsdatensatz, der aus autoritativen französischen Orthofotos und topografischen Gebäudedaten des IGN Frankreich abgeleitet wurde. Im Gegensatz zu bestehenden Benchmarks, die geografisch auf einzelne Städte oder begrenzte Regionen beschränkt sind, erstreckt sich FOTBCD über 28 Départements in ganz Frankreich, wobei 25 für das Training und drei geografisch getrennte Départements für die Evaluation zurückgehalten werden. Der Datensatz deckt diverse städtische, vorstädtische und ländliche Umgebungen mit einer Auflösung von 0,2 m/Pixel ab. Wir veröffentlichen öffentlich FOTBCD-Binary, einen Datensatz, der etwa 28.000 Vorher/Nachher-Bildpaare mit pixelgenauen binären Gebäudeveränderungsmasken umfasst, von denen jedes mit patchbezogenen räumlichen Metadaten verknüpft ist. Der Datensatz ist für großflächige Benchmarking- und Evaluierungszwecke unter geografischer Domänenverschiebung konzipiert, wobei Validierungs- und Teststichproben aus den zurückgehaltenen Départements stammen und manuell verifiziert wurden, um die Labelqualität sicherzustellen. Zusätzlich veröffentlichen wir FOTBCD-Instances, eine öffentlich verfügbare, instanzenbasiert annotierte Teilmenge, die mehrere tausend Bildpaare umfasst und das vollständige Annotationsschema der instanzenbasierten Vollversion von FOTBCD veranschaulicht. Unter Verwendung eines festen Referenz-Baselines benchmarken wir FOTBCD-Binary gegen LEVIR-CD+ und WHU-CD und liefern starke empirische Belege dafür, dass geografische Diversität auf Datensatzebene mit einer verbesserten domänenübergreifenden Generalisierung in der Gebäudeveränderungs-Erkennung einhergeht.
Encoder-only-Transformer bleiben unverzichtbar für Retrieval-, Klassifizierungs- und Ranking-Systeme, bei denen Latenz, Stabilität und Kosten entscheidend sind. Die meisten allgemeinen Encoder werden jedoch auf generischen Korpora trainiert, deren Abdeckung spezialisierter Domänen begrenzt ist. Wir stellen RexBERT vor, eine Familie von BERT-artigen Encodern, die speziell für E-Commerce-Semantik entwickelt wurde. Wir leisten drei Beiträge. Erstens veröffentlichen wir Ecom-niverse, einen Korpus mit 350 Milliarden Tokens, der aus diversen Einzelhandels- und Shopping-Quellen kuratiert wurde. Wir beschreiben eine modulare Pipeline, die E-Commerce-Inhalte aus FineFineWeb und anderen offenen Webressourcen isoliert und extrahiert, und charakterisieren die resultierende Domänenverteilung. Zweitens präsentieren wir ein reproduzierbares Vortrainierungsrezept, das auf den architektonischen Fortschritten von ModernBERT aufbaut. Das Rezept besteht aus drei Phasen: allgemeines Vortraining, Kontextverlängerung und temperierte Domänenspezialisierung. Drittens trainieren wir RexBERT-Modelle mit Parametergrößen von 17M bis 400M und evaluieren sie anhand von Token-Klassifizierung, semantischer Ähnlichkeit und allgemeinen Natural Language Understanding-Aufgaben mit E-Commerce-Datensätzen. Trotz 2-3 mal weniger Parameter übertrifft RexBERT größere allgemeine Encoder und erreicht oder übertrifft moderne Long-Context-Modelle in domänenspezifischen Benchmarks. Unsere Ergebnisse zeigen, dass hochwertige Domänendaten in Kombination mit einem prinzipienbasierten Trainingsansatz eine solidere Grundlage für E-Commerce-Anwendungen bieten als wahllose Skalierung allein.
Große Sprachmodelle (LLMs) produzieren weiterhin plausibel klingende, aber faktisch unbegründete Aussagen – ein Problem, das sich im Mehrfachdialog verschärft, wenn der Kontext wächst und frühe Fehler kaskadieren. Wir stellen HalluHard vor, einen anspruchsvollen Benchmark für Mehrfachhalluzinationen mit 950 Ausgangsfragen aus vier hochriskanten Domänen: Rechtsfälle, Forschungsfragen, medizinische Leitlinien und Programmierung. Wir operationalisieren Begründetheit durch die Forderung nach Inline-Zitaten für faktische Behauptungen. Zur Unterstützung einer zuverlässigen Bewertung in offenen Settings schlagen wir eine Bewertungspipeline vor, die iterativ Evidenz mittels Websuche abruft. Sie kann Volltextquellen (einschließlich PDFs) abrufen, filtern und parsen, um zu beurteilen, ob das zitierte Material die generierten Inhalte tatsächlich stützt. Über eine diverse Gruppe von proprietären und Open-Weight-Spitzenmodellen hinweg bleiben Halluzinationen selbst mit Websuche erheblich (ca. 30% für die stärkste Konfiguration, Opus-4.5 mit Websuche), wobei Fehler in der Inhaltsbegründung weiterhin häufig auftreten. Abschließend zeigen wir, dass das Halluzinationsverhalten durch Modellkapazität, Position im Dialogverlauf, effektives Schlussfolgern und die Art des erforderlichen Wissens beeinflusst wird.