papers.description
Autonome wissenschaftliche Entdeckung mit agentenbasierten großen Sprachmodellen (LLM) hat in letzter Zeit erhebliche Fortschritte gemacht und die Fähigkeit demonstriert, End-to-End-Forschungsworkflows zu automatisieren. Allerdings stützen sich bestehende Systeme weitgehend auf Laufzeit-zentrierte Ausführungsparadigmen, bei denen wiederholt umfangreiche wissenschaftliche Literatur online gelesen, zusammengefasst und darüber geschlussfolgert wird. Diese Strategie der Sofortberechnung verursacht hohe Rechenkosten, leidet unter den Einschränkungen des Kontextfensters und führt oft zu brüchiger Argumentation und Halluzinationen. Wir schlagen Idea2Story vor, ein vorberechnungsgesteuertes Framework für autonome wissenschaftliche Entdeckung, das das Literaturverständnis vom Online-Schlussfolgern auf die Offline-Wissenskonstruktion verlagert. Idea2Story sammelt kontinuierlich begutachtete Artikel zusammen mit deren Review-Feedback, extrahiert kerne methodische Einheiten, kombiniert wiederverwendbare Forschungsmuster und organisiert sie in einem strukturierten methodischen Wissensgraphen. Zur Laufzeit werden unspezifische Forschungsabsichten des Nutzers mit etablierten Forschungsparadigmen abgeglichen, was eine effiziente Abfrage und Wiederverwendung hochwertiger Forschungsmuster anstelle von offener Generierung und Trial-and-Error ermöglicht. Indem Forschungsplanung und -ausführung auf einem vorab erstellten Wissensgraphen basieren, mildert Idea2Story den Kontextfenster-Engpass von LLMs und reduziert wiederholtes Laufzeit-Schlussfolgern über Literatur erheblich. Wir führen qualitative Analysen und vorläufige empirische Studien durch, die zeigen, dass Idea2Story kohärente, methodisch fundierte und neuartige Forschungsmuster generieren und mehrere hochwertige Forschungsdemonstrationen in einer End-to-End-Umgebung produzieren kann. Diese Ergebnisse deuten darauf hin, dass Offline-Wissenskonstruktion eine praktische und skalierbare Grundlage für zuverlässige autonome wissenschaftliche Entdeckung bietet.
Text-to-Image (T2I)-Modelle haben bemerkenswerte Erfolge bei der Erstellung hochwertiger Bilder erzielt, scheitern jedoch häufig an der Darstellung komplexer räumlicher Beziehungen, wie z.B. räumlicher Wahrnehmung, Schlussfolgerungen oder Interaktionen. Diese kritischen Aspekte werden von aktuellen Benchmarks aufgrund ihrer kurzen oder informationsarmen Prompt-Gestaltung weitgehend vernachlässigt. In diesem Beitrag stellen wir SpatialGenEval vor, einen neuen Benchmark, der entwickelt wurde, um die räumliche Intelligenz von T2I-Modellen systematisch zu bewerten. Er umfasst zwei Schlüsselaspekte: (1) SpatialGenEval beinhaltet 1.230 lange, informationsdense Prompts aus 25 realen Szenarien. Jeder Prompt integriert 10 räumliche Teilbereiche und entsprechende 10 Multiple-Choice-Frage-Antwort-Paare, die von Objektposition und -anordnung bis hin zu Verdeckung und Kausalität reichen. Unsere umfassende Auswertung von 21 modernsten Modellen zeigt, dass höherwertiges räumliches Schlussfolgern ein primärer Engpass bleibt. (2) Um zu demonstrieren, dass der Nutzen unseres informationsdichten Designs über eine einfache Bewertung hinausgeht, erstellen wir außerdem den SpatialT2I-Datensatz. Dieser enthält 15.400 Text-Bild-Paare mit umgeschriebenen Prompts, um Bildkonsistenz bei gleichzeitiger Beibehaltung der Informationsdichte sicherzustellen. Feinabstimmungsergebnisse auf aktuellen Foundation-Modellen (d.h. Stable Diffusion-XL, Uniworld-V1, OmniGen2) führen zu konsistenten Leistungssteigerungen (+4,2 %, +5,7 %, +4,4 %) und realistischeren Effekten bei räumlichen Beziehungen, was einen datenzentrierten Paradigmenwechsel zur Erreichung räumlicher Intelligenz in T2I-Modellen aufzeigt.
Während Mixture-of-Experts (MoE)-Architekturen zum Standard für sparsames Skalieren großer Sprachmodelle geworden sind, sehen sie sich zunehmend mit abnehmenden Grenzerträgen und Systemengpässen konfrontiert. In dieser Arbeit untersuchen wir die Skalierung von Embeddings als eine wirksame, orthogonale Dimension zur Skalierung von Sparsamkeit. Durch eine umfassende Analyse und Experimente identifizieren wir spezifische Bereiche, in denen die Skalierung von Embeddings eine überlegene Pareto-Grenze im Vergleich zur Expert-Skalierung erreicht. Wir charakterisieren systematisch die kritischen architektonischen Faktoren, die diese Wirksamkeit bestimmen – von der Parameterbudgetierung bis zum Zusammenspiel mit Modellbreite und -tiefe. Darüber hinaus setzen wir durch die Integration maßgeschneiderter Systemoptimierungen und spekulativer Dekodierung diese Sparsamkeit effektiv in greifbare Beschleunigungen bei der Inferenz um. Angeleitet durch diese Erkenntnisse stellen wir LongCat-Flash-Lite vor, ein Modell mit 68,5B Parametern und ~3B aktivierten Parametern, das von Grund auf trainiert wurde. Obwohl über 30B Parameter für Embeddings reserviert sind, übertrifft LongCat-Flash-Lite nicht nur parameteräquivalente MoE-Baselines, sondern zeigt auch eine außergewöhnliche Wettbewerbsfähigkeit gegenüber bestehenden Modellen vergleichbarer Größe, insbesondere in agentenbasierten und Programmierdomänen.
Die Manipulation dynamischer Objekte stellt nach wie vor eine ungelöste Herausforderung für Vision-Language-Action (VLA)-Modelle dar. Trotz starker Generalisierungsfähigkeiten bei statischer Manipulation zeigen diese Modelle Schwächen in dynamischen Szenarien, die schnelle Wahrnehmung, zeitliche Antizipation und kontinuierliche Regelung erfordern. Wir präsentieren DynamicVLA, einen Rahmen für die Manipulation dynamischer Objekte, der zeitliches Reasoning und closed-loop-Adaption durch drei Schlüsseldesigns integriert: 1) ein kompaktes 0.4B-VLA-Modell mit einem Faltungs-Vision-Encoder für räumlich effiziente, strukturtreue Kodierung, das schnelle multimodale Inferenz ermöglicht; 2) Kontinuierliche Inferenz, die überlappendes Reasoning und Ausführung für geringere Latenz und rechtzeitige Anpassung an Objektbewegungen erlaubt; und 3) Latent-aware Action Streaming, das die Lücke zwischen Wahrnehmung und Ausführung durch zeitlich synchronisierte Aktionsausführung überbrückt. Um die fehlende Datengrundlage für dynamische Manipulation zu schaffen, führen wir den Dynamic Object Manipulation (DOM)-Benchmark ein, der von Grund auf mit einer automatisierten Datenerfassungspipeline aufgebaut wurde. Diese erfasst effizient 200.000 synthetische Episoden über 2.800 Szenen und 206 Objekte hinweg und ermöglicht die schnelle Erfassung von 2.000 realen Episoden ohne Teleoperation. Umfassende Evaluationen demonstrieren bemerkenswerte Verbesserungen in Reaktionsgeschwindigkeit, Wahrnehmung und Generalisierung, was DynamicVLA als einheitlichen Rahmen für allgemeine dynamische Objektmanipulation über verschiedene Embodiments hinweg positioniert.
Die Entwicklung großer visuell-sprachlicher Modelle treibt die Nachfrage nach Verwaltung und Anwendung massiver multimodaler Daten, wodurch OCR-Technologie, die Informationen aus visuellen Bildern extrahiert, zunehmend an Bedeutung gewinnt. Allerdings konzentrieren sich bestehende OCR-Methoden primär auf die Erkennung von Textelementen aus Bildern oder gescannten Dokumenten (textzentrierte OCR) und vernachlässigen die Identifikation visueller Elemente aus visuell informationsdichten Bildquellen (visuell-zentrierte OCR), wie Diagramme, Webseiten und wissenschaftliche Grafiken. In der Realität sind diese visuell informationsdichten Bilder im Internet weit verbreitet und besitzen bedeutenden praktischen Anwendungswert, beispielsweise in der Datenvisualisierung und Webseitenanalyse. In diesem technischen Bericht stellen wir OCRVerse vor, die erste ganzheitliche OCR-Methode in End-to-End-Manier, die eine Vereinheitlichung von textzentrierter und visuell-zentrierter OCR ermöglicht. Zu diesem Zweck haben wir eine umfassende Datenverarbeitung entwickelt, die ein breites Spektrum textzentrierter Dokumente wie Zeitungen, Zeitschriften und Bücher sowie visuell-zentrierter Render-Composites, einschließlich Diagrammen, Webseiten und wissenschaftlichen Grafiken, abdeckt. Darüber hinaus schlagen wir eine zweistufige SFT-RL-Multidomänen-Trainingsmethode für OCRVerse vor. SFT mischt direkt domänenübergreifende Daten zum Training und Aufbau von initialem Domänenwissen, während RL sich auf die Gestaltung personalisierter Belohnungsstrategien für die Charakteristiken jeder Domäne konzentriert. Insbesondere da verschiedene Domänen unterschiedliche Ausgabeformate und erwartete Ergebnisse erfordern, bieten wir im RL-Stadium ausreichend Flexibilität, um maßgeschneiderte Belohnungssignale für jede Domäne zu konfigurieren, wodurch domänenübergreifende Fusion verbessert und Datenkonflikte vermieden werden. Experimentelle Ergebnisse demonstrieren die Wirksamkeit von OCRVerse, das wettbewerbsfähige Ergebnisse über textzentrierte und visuell-zentrierte Datentypen hinweg erzielt und sogar mit großen Open-Source- und Closed-Source-Modellen vergleichbar ist.
Jüngste Fortschritte bei visuell-sprachlichen Modellen (VLM) haben bedeutende Verbesserungen im Bereich des visuellen Denkens vorangetrieben. Allerdings hinken Open-Source-VLMs proprietären Systemen noch hinterher, was hauptsächlich auf den Mangel an hochwertigen Daten für Denkprozesse zurückzuführen ist. Bestehende Datensätze bieten nur eine begrenzte Abdeckung anspruchsvoller Bereiche wie STEM-Diagramme und visuelle Rätsel und verfügen nicht über konsistente, langfristige Chain-of-Thought (CoT)-Annotationen, die für die Entwicklung starker Denkfähigkeiten entscheidend sind. Um diese Lücke zu schließen, stellen wir MMFineReason vor, einen groß angelegten multimodalen Denkdatensatz mit 1,8 Millionen Stichproben und 5,1 Milliarden Lösungstokens, der hochwertige Denkannotationen enthält, die aus Qwen3-VL-235B-A22B-Thinking destilliert wurden. Der Datensatz wurde durch einen systematischen Drei-Stufen-Prozess erstellt: (1) groß angelegte Datensammlung und -standardisierung, (2) CoT-Begründungsgenerierung und (3) umfassende Auswahl basierend auf Denkqualität und Schwierigkeitsbewusstsein. Der resultierende Datensatz umfasst STEM-Probleme, visuelle Rätsel, Spiele und komplexe Diagramme, wobei jede Stichprobe mit visuell fundierten Denkspuren annotiert ist. Wir feintunen Qwen3-VL-Instruct auf MMFineReason, um die MMFineReason-2B/4B/8B-Versionen zu entwickeln. Unsere Modelle erzielen neue state-of-the-art Ergebnisse für ihre Größenklasse. Bemerkenswerterweise übertrifft MMFineReason-4B erfolgreich Qwen3-VL-8B-Thinking, und MMFineReason-8B übertrifft sogar Qwen3-VL-30B-A3B-Thinking und nähert sich Qwen3-VL-32B-Thinking an, was eine bemerkenswerte Parameter-Effizienz demonstriert. Entscheidend ist, dass wir durch unsere schwierigkeitsbewusste Filterstrategie ein "Weniger ist mehr"-Phänomen aufdecken: Eine Teilmenge von nur 7 % (123.000 Stichproben) erreicht eine Leistung, die mit dem vollständigen Datensatz vergleichbar ist. Darüber hinaus zeigen wir einen synergetischen Effekt, bei dem eine auf Denkprozesse ausgerichtete Datenzusammensetzung gleichzeitig die allgemeinen Fähigkeiten steigert.
Große Sprachmodelle verteilen Rechenleistung gleichmäßig auf alle Tokens, obwohl einige Sequenzen trivial vorhersagbar sind, während andere tiefgreifende Schlussfolgerungen erfordern. Wir stellen ConceptMoE vor, das semantisch ähnliche Tokens dynamisch zu Konzeptrepräsentationen zusammenfasst und so eine implizite compute-allokation auf Token-Ebene durchführt. Ein lernbares Segmentierungsmodul identifiziert optimale Grenzen durch Messung der Ähnlichkeit zwischen Tokens und komprimiert Sequenzen um ein Zielverhältnis R, bevor sie in das rechenintensive Konzeptmodell eingehen. Entscheidend ist, dass die MoE-Architektur eine kontrollierte Evaluation ermöglicht: Wir verteilen die eingesparte Rechenleistung neu, um die aktivierten FLOPs der Baseline (ohne Attention-Map-Berechnung) und die Gesamtparameteranzahl abzugleichen, und isolieren so genuine architektonische Vorteile. Unter diesen Bedingungen übertrifft ConceptMoE Standard-MoE konsistent bei Sprach- und Sprach-Bild-Aufgaben, mit Steigerungen von +0,9 Punkten im Sprach-Pretraining, +2,3 Punkten im Langkontextverständnis und +0,6 Punkten in multimodalen Benchmarks. Bei der Konvertierung vortrainierter MoE-Modelle während kontinuierlichen Trainings mit Layer-Looping erreichen die Gewinne +5,5 Punkte, was die praktische Anwendbarkeit demonstriert. Neben der Leistungssteigerung reduziert ConceptMoE die Attention-Berechnung um bis zu R^2-fach und den KV-Cache um R-fach. Bei R=2 zeigen empirische Messungen Prefill-Beschleunigungen von bis zu 175 % und Decoding-Beschleunigungen von bis zu 117 % bei langen Sequenzen. Die minimalen architektonischen Modifikationen ermöglichen eine direkte Integration in bestehende MoE-Architekturen und zeigen, dass adaptive Verarbeitung auf Konzeptebene die Wirksamkeit und Effizienz großer Sprachmodelle grundlegend verbessert.
Die Streaming-Rekonstruktion aus monokularen Bildsequenzen bleibt eine Herausforderung, da bestehende Methoden typischerweise entweder hochwertiges Rendering oder präzise Geometrie begünstigen, jedoch selten beides gleichzeitig. Wir stellen PLANING vor, einen effizienten Echtzeit-Rekonstruktionsrahmen, der auf einer hybriden Repräsentation basiert, die explizite geometrische Primitive locker mit neuronalen Gaussians koppelt. Dies ermöglicht eine entkoppelte Modellierung von Geometrie und Erscheinungsbild. Diese Entkopplung unterstützt eine Online-Initialisierungs- und Optimierungsstrategie, die Geometrie- und Darstellungsupdates trennt, was eine stabile Streaming-Rekonstruktion mit deutlich reduzierter struktureller Redundanz ergibt. PLANING verbessert das dichte Mesh-Chamfer-L2 um 18,52 % gegenüber PGSR, übertrifft ARTDECO um 1,31 dB PSNR und rekonstruiert ScanNetV2-Szenen in unter 100 Sekunden – mehr als 5-mal schneller als 2D Gaussian Splatting – bei gleichbleibender Qualität der offline pro Szene optimierten Verfahren. Über die Rekonstruktionsqualität hinaus machen die strukturelle Klarheit und Recheneffizienz von PLANING es ideal für eine breite Palette nachgelagerter Anwendungen geeignet, wie die Modellierung großflächiger Szenen und simulationsfähige Umgebungen für embodied AI. Projektseite: https://city-super.github.io/PLANING/.
In diesem Bericht stellen wir die Qwen3-ASR-Familie vor, die zwei leistungsstarke All-in-One-Spracherkennungsmodelle und ein neuartiges nicht-autoregressives Modell zur Sprach-Forced-Alignment umfasst. Bei Qwen3-ASR-1.7B und Qwen3-ASR-0.6B handelt es sich um ASR-Modelle, die Spracherkennung und Sprachidentifikation für 52 Sprachen und Dialekte unterstützen. Beide nutzen umfangreiche Sprach-Trainingsdaten und die starken Audioverständnisfähigkeiten ihres Foundation-Modells Qwen3-Omni. Neben öffentlichen Benchmarks führen wir umfassende interne Evaluationen durch, da ASR-Modelle in öffentlichen Benchmarks nur geringfügig abweichen, in realen Szenarien jedoch erhebliche Qualitätsunterschiede aufweisen können. Die Experimente zeigen, dass die 1.7B-Version unter den quelloffenen ASR-Modellen SOTA-Leistung erzielt und mit den stärksten proprietären APIs konkurrieren kann, während die 0.6B-Version das beste Genauigkeits-Effizienz-Verhältnis bietet. Qwen3-ASR-0.6B kann eine durchschnittliche TTFT von nur 92 ms erreichen und bei einer Parallelität von 128 2000 Sekunden Sprache in 1 Sekunde transkribieren. Qwen3-ForcedAligner-0.6B ist ein LLM-basierter NAR-Zeitstempel-Prädiktor, der Text-Sprach-Paare in 11 Sprachen alignieren kann. Experimente zur Zeitstempelgenauigkeit zeigen, dass das vorgeschlagene Modell die drei stärksten Force-Alignment-Modelle übertrifft und Vorteile in Effizienz und Vielseitigkeit bietet. Um die Community-Forschung zu ASR und Audioverständnis weiter zu beschleunigen, veröffentlichen wir diese Modelle unter der Apache-2.0-Lizenz.
Die Entwicklung großer Sprachmodelle (LLMs) zu autonomen Agenten erfordert die Verwaltung umfangreicher, dynamischer Kontexte. Aktuelle Benchmarks sind jedoch weitgehend statisch und stützen sich auf passive Retrieval-Aufgaben, die die Komplexität der Agenten-Umgebungs-Interaktion, wie nicht-lineares Schließen und iteratives Feedback, nicht simulieren. Um dies zu adressieren, führen wir AgentLongBench ein, das Agenten durch simulierte Umgebungs-Rollouts auf Basis von Lateral Thinking Puzzles evaluiert. Dieses Framework erzeugt rigorose Interaktionsverläufe in wissensintensiven und wissensfreien Szenarien. Experimente mit modernsten Modellen und Gedächtnissystemen (32K bis 4M Tokens) decken eine kritische Schwäche auf: Während Agenten im statischen Retrieval versiert sind, haben sie Schwierigkeiten mit der dynamischen Informationssynthese, die für Arbeitsabläufe essenziell ist. Unsere Analyse zeigt, dass dieser Leistungsabfall durch die minimale Anzahl an Tokens bestimmt wird, die zur Beantwortung einer Anfrage benötigt wird. Dieser Faktor erklärt, warum die hohe Informationsdichte in massiven Werkzeugantworten eine deutlich größere Herausforderung darstellt als die für lange Dialoge typische Gedächtnisfragmentierung.
Agentisches Reinforcement Learning (Agentic RL) hat bemerkenswerte Erfolge dabei erzielt, Agenten zur Ausführung komplexer Denkprozesse und Werkzeugnutzung zu befähigen. Die meisten Methoden stützen sich jedoch nach wie vor auf spärliche, ergebnisbasierte Belohnungen für das Training. Eine solche Rückmeldung unterscheidet nicht zwischen der Qualität der Zwischenschritte in der Argumentation, was zu suboptimalen Trainingsergebnissen führt. In diesem Artikel stellen wir das Agent Reasoning Reward Model (Agent-RRM) vor, ein vielschichtiges Belohnungsmodell, das strukturierte Rückmeldungen für agentische Handlungsabläufe erzeugt. Diese umfassen (1) eine explizite Argumentationsspur, (2) eine fokussierte Kritik, die durch das Aufzeigen von Denkfehlern Anleitungen zur Verbesserung bietet, und (3) eine Gesamtbewertung, die die Leistung des Prozesses evaluiert. Unter Nutzung dieser Signale untersuchen wir systematisch drei Integrationsstrategien: Reagent-C (textunterstützte Verfeinerung), Reagent-R (belohnungsunterstützte Steuerung) und Reagent-U (vereinheitlichte Feedback-Integration). Umfangreiche Auswertungen über 12 verschiedene Benchmarks hinweg zeigen, dass Reagent-U erhebliche Leistungssprünge bewirkt und Werte von 43,7 % auf GAIA und 46,2 % auf WebWalkerQA erreicht, was die Wirksamkeit unseres Reasoning-Belohnungsmodells und der Trainingsschemata bestätigt. Code, Modelle und Datensätze werden vollständig veröffentlicht, um zukünftige Forschung zu unterstützen.
Aktuelle Forschung zur Erzeugung langer Videos hat sich von bidirektionalen zu autoregressiven Modellen verschoben, doch diese Methoden leiden häufig unter Fehlerakkumulation und einem Verlust der langfristigen Kohärenz. Obwohl sogenannte Attention-Sink-Frames eingeführt wurden, um diesen Leistungsabfall abzumildern, lösen sie oft einen kritischen Fehlermodus aus, den wir als Sink-Collapse bezeichnen: Der generierte Inhalt kehrt wiederholt zum Sink-Frame zurück, was zu abrupten Szenenresets und zyklischen Bewegungsmustern führt. Unsere Analyse zeigt, dass Sink-Collapse aus einem inherenten Konflikt zwischen der periodischen Struktur von Rotary Position Embedding (RoPE) und den in aktuellen generativen Modellen verbreiteten Multi-Head-Attention-Mechanismen entsteht. Um dieses Problem zu lösen, schlagen wir einen leichtgewichtigen, trainingsfreien Ansatz vor, der dieses Verhalten effektiv unterdrückt, indem Multi-Head-RoPE-Jitter eingeführt wird, der die Aufmerksamkeits-Homogenisierung zwischen den Heads aufbricht und den Kollaps über lange Zeithorizonte mildert. Umfangreiche Experimente zeigen, dass unsere Methode Sink-Collapse erfolgreich abschwächt, ohne die Generierungsqualität zu beeinträchtigen. Nach unserem Wissen erreicht diese Arbeit die erste Demonstration von Echtzeit-, Streaming- und unendlich langer Videogenerierung mit minimalem Qualitätsverlust. Als Beleg dieser Robustheit generieren wir durchgehende Videos mit einer Länge von bis zu 12 Stunden, was nach unserem Kenntnisstand zu den längsten öffentlich demonstrierten Ergebnissen in der Streaming-Videogenerierung zählt.
Elektroenzephalographie (EEG)-Foundation-Modelle sind kürzlich als vielversprechendes Paradigma für Brain-Computer-Interfaces (BCIs) aufgetaucht, mit dem Ziel, übertragbare neuronale Repräsentationen aus groß angelegten, heterogenen Aufzeichnungen zu lernen. Trotz rascher Fortschritte mangelt es an fairen und umfassenden Vergleichen bestehender EEG-Foundation-Modelle, bedingt durch inkonsistente Pre-Training-Ziele, Vorverarbeitungsmethoden und Evaluierungsprotokolle für nachgelagerte Aufgaben. Diese Arbeit schließt diese Lücke. Wir überprüfen zunächst 50 repräsentative Modelle und ordnen ihre Designentscheidungen in einen einheitlichen taxonomischen Rahmen ein, der Datenstandardisierung, Modellarchitekturen und selbstüberwachte Pre-Training-Strategien umfasst. Anschließend evaluieren wir 12 quelloffene Foundation-Modelle und wettbewerbsfähige spezialisierte Baseline-Modelle anhand von 13 EEG-Datensätzen, die neun BCI-Paradigmen abdecken. Mit Fokus auf den praktischen Einsatz betrachten wir sowohl die generalisierte Übertragbarkeit über verschiedene Versuchspersonen hinweg gemäß einem Leave-One-Subject-Out-Protokoll als auch die schnelle Kalibrierung im Rahmen einer Few-Shot-Einstellung innerhalb derselben Versuchsperson. Wir vergleichen weiterhin Full-Parameter-Fine-Tuning mit Linear Probing, um die Übertragbarkeit der vortrainierten Repräsentationen zu bewerten, und untersuchen den Zusammenhang zwischen Modellgröße und Leistung in nachgelagerten Aufgaben. Unsere Ergebnisse zeigen, dass: 1) Linear Probing häufig nicht ausreicht; 2) spezialisierte, von Grund auf trainierte Modelle bei vielen Aufgaben wettbewerbsfähig bleiben; und 3) größere Foundation-Modelle unter den derzeitigen Datenregimen und Trainingspraktiken nicht zwangsläufig zu besserer Generalisierungsleistung führen.
Während Large Language Models (LLMs) bei sprachbasierten agentenbasierten Aufgaben hervorragende Leistungen erbringen, bleibt ihre Anwendbarkeit auf ungesehene, nicht-linguistische Umgebungen (z.B. symbolische oder räumliche Aufgaben) begrenzt. Bisherige Arbeiten führen diese Leistungslücke auf die Diskrepanz zwischen der Vor-Trainingsverteilung und der Testverteilung zurück. In dieser Arbeit zeigen wir, dass der primäre Engpass die prohibitiv hohen Kosten der Exploration sind: Die Beherrschung dieser Aufgaben erfordert umfangreiche Versuchs- und Irrtumsprozesse, die für parameterstarke LLMs, die in einem hochdimensionalen semantischen Raum operieren, rechentechnisch nicht nachhaltig sind. Um dies zu adressieren, schlagen wir SCOUT (Sub-Scale Collaboration On Unseen Tasks) vor, einen neuartigen Rahmen, der Exploration von Exploitation entkoppelt. Wir setzen leichtgewichtige "Scouts" (z.B. kleine MLPs) ein, um die Umgebungsdynamik mit einer Geschwindigkeit und in einem Umfang zu erkunden, die LLMs bei weitem übersteigen. Die gesammelten Trajektorien werden genutzt, um das LLM via Supervised Fine-Tuning (SFT) zu bootstrappen, gefolgt von mehrstufigem Reinforcement Learning (RL), um sein latentes Weltwissen zu aktivieren. Empirisch ermöglicht SCOUT einem Qwen2.5-3B-Instruct-Modell, eine durchschnittliche Punktzahl von 0,86 zu erreichen, was proprietäre Modelle wie Gemini-2.5-Pro (0,60) signifikant übertrifft und gleichzeitig den GPU-Stundenverbrauch um etwa 60 % reduziert.
Öffentliche Repositorien beherbergen Millionen feinabgestimmter Modelle, dennoch konzentriert sich die Community-Nutzung unverhältnismäßig stark auf eine kleine Anzahl von Basis-Checkpoints. Wir untersuchen, ob diese Konzentration eine effiziente Marktselektion widerspiegelt oder ob systematisch überlegene Modelle übersehen werden. Durch eine umfangreiche Evaluierung von über 2.000 Modellen zeigen wir die Verbreitung von "verborgenen Juwelen" – unbeliebten Feinabstimmungen, die ihre populären Gegenstücke erheblich übertreffen. Bemerkenswerterweise finden wir innerhalb der Llama-3.1-8B-Familie selten heruntergeladene Checkpoints, die die mathematische Leistung von 83,2 % auf 96,0 % steigern, ohne die Inferenzkosten zu erhöhen. Die Entdeckung dieser Modelle durch exhaustive Evaluierung jedes hochgeladenen Modells ist jedoch rechenintensiv und unpraktikabel. Daher formulieren wir Modellentdeckung als ein Multi-Armed-Bandit-Problem und beschleunigen den Sequential-Halving-Suchalgorithmus durch die Verwendung gemeinsamer Abfragesets und aggressiver Eliminierungspläne. Unsere Methode identifiziert Top-Modelle mit nur 50 Abfragen pro Kandidat und beschleunigt die Entdeckung um mehr als das 50-fache.
Aktuelle Ansätze zur Reduzierung unerwünschter Fähigkeiten in Sprachmodellen sind weitgehend nachträglich und können daher von Angreifern leicht umgangen werden. Eine natürliche Alternative besteht darin, Fähigkeiten bereits während des Vorabtrainings zu formen. Anhand der Stellvertreteraufgabe, medizinische Fähigkeiten zu entfernen, zeigen wir, dass die einfache Intervention des Filterns von Vorabtrainingsdaten hochwirksam, robust und in großem Maßstab kostengünstig ist. Inspiriert durch Arbeiten zur Datenattribution zeigen wir, dass das Filtern von Tokens wirksamer ist als das Filtern ganzer Dokumente, da derselbe Effekt auf unerwünschte Fähigkeiten bei geringeren Einbußen bei erwünschten Fähigkeiten erzielt wird. Durch das Training von Modellen über zwei Größenordnungen hinweg demonstrieren wir anschließend, dass das Filtern mit zunehmender Skalierung wirksamer wird: Bei unseren größten Modellen führt Token-Filtering zu einer 7000-fachen Verlangsamung der Rechenleistung im zu vergessenden Bereich. Wir zeigen auch, dass Modelle, die mit Token-Filtering trainiert wurden, dennoch auf den zu vergessenden Bereich angepasst werden können. Im Zuge dessen führen wir eine Methodik zur Kennzeichnung von Tokens mit sparse Autoencodern und zur Destillation kostengünstiger, hochwertiger Klassifikatoren ein. Wir demonstrieren außerdem, dass das Filtern bei ausreichender Vorabtrainings-Rechenleistung robust gegenüber verrauschten Kennzeichnungen sein kann.
Das Lernen aus menschlichem Feedback basiert typischerweise auf Präferenzoptimierung, die Politikaktualisierungen durch Token-Regularisierung einschränkt. Allerdings ist die Präferenzoptimierung für Sprachmodelle besonders herausfordernd, da Ähnlichkeit im Token-Raum keine semantische oder verhaltensbezogene Ähnlichkeit impliziert. Um diese Herausforderung zu bewältigen, nutzen wir Latent-Space-Regularisierung für die Präferenzoptimierung von Sprachmodellen. Wir stellen GANPO vor, das Latent-Space-Regularisierung durch Bestrafung der Divergenz zwischen den internen Repräsentationen eines Politikmodells und eines Referenzmodells erreicht. Da latente Repräsentationen nicht mit expliziten Wahrscheinlichkeitsdichten assoziiert sind, verwenden wir einen von GANs inspirierten adversariellen Ansatz, um die Divergenz im latenten Raum zu minimieren. Wir integrieren GANPO als Regularisierer in bestehende Offline-Präferenzoptimierungsziele. Experimente über mehrere Modellarchitekturen und Aufgaben hinweg zeigen konsistente Verbesserungen durch Latent-Space-Regularisierung. Weiterhin finden wir durch den Vergleich von GANPO-induzierten inferentiellen Verzerrungen mit denen der Token-Regularisierung, dass GANPO unter Distribution Shift und Rauschen robustere strukturelle Rückmeldung liefert, bei vergleichbarer Downstream-Leistung mit geringem Rechenmehraufwand.
Nach dem Training durchgeführtes Reinforcement Learning (RL) ist ein dominanter Ansatz zur Verbesserung der Reasoning-Leistung großer Sprachmodelle (LLMs), doch zunehmende Belege deuten darauf hin, dass die Gewinne primär auf eine Verteilungsscharfung zurückgehen und nicht auf den Erwerb neuer Fähigkeiten. Jüngste Arbeiten haben gezeigt, dass das Abtasten der Potenzverteilung von LLMs mittels Markov-Chain-Monte-Carlo (MCMC) eine mit RL-Nachtraining vergleichbare Leistung erzielen kann, ohne auf externe Belohnungen angewiesen zu sein; die hohen Rechenkosten von MCMC machen solche Ansätze jedoch für eine breite Anwendung unpraktikabel. In dieser Arbeit schlagen wir eine theoretisch fundierte Alternative vor, die den Bedarf an iterativem MCMC eliminiert. Wir leiten eine neuartige Formulierung her, die zeigt, dass die globale Potenzverteilung durch eine tokenweise skalierte Niedrigtemperatur-Verteilung angenähert werden kann, wobei der Skalierungsfaktor die zukünftige Trajektorienqualität erfasst. Gestützt auf diese Erkenntnis führen wir einen trainierungs- und verifikatorfreien Algorithmus ein, der die generative Verteilung des Basismodells autoregressiv verschärft. Empirisch evaluieren wir unsere Methode an mathematischen, Frage-Antwort- und Code-Aufgaben über vier LLMs hinweg und zeigen, dass unsere Methode One-Shot-GRPO erreicht oder übertrifft, ohne auf externe Belohnungen angewiesen zu sein, während die Inferenzlatenz im Vergleich zu MCMC-basiertem Sampling um über das 10-fache reduziert wird.
Große Sprachmodelle (LLMs) haben sich rasant entwickelt; die meisten modernsten Modelle werden jedoch hauptsächlich in ressourcenstarken Sprachen wie Englisch und Chinesisch trainiert und evaluiert und oft von einer kleinen Anzahl von Organisationen entwickelt, die Zugang zu rechen- und datenintensiven Ressourcen haben. Diese Gatekeeping-Praxis errichtet eine praktische Barriere für souveräne Kontexte, in denen eine Institution auf regionaler oder nationaler Ebene oder ein Domäneninhaber die Kontrolle und das Verständnis über Modellgewichte, Trainingsdaten und den Einsatz bewahren muss, während sie mit begrenzten Ressourcen und unter strengen Transparenzanforderungen operieren. Zu diesem Zweck identifizieren wir zwei Kernanforderungen: (1) Adoptierbarkeit, also die Fähigkeit, ein Basismodell in einen allgemeinen Assistenten zu überführen, und (2) souveräne Fähigkeit, also die Fähigkeit, hochrelevante, regionsspezifische Aufgaben zu bewältigen (z.B. juristische Schlussfolgerungen in lokalen Sprachen und kulturelles Wissen). Wir untersuchen, ob diese Anforderungen erfüllt werden können, ohne auf massive Instruction-Datensätze oder komplexe Preference-Tuning-Pipelines und Reinforcement Fine-Tuning (RFT) in großem Maßstab zurückzugreifen. Wir stellen Typhoon S vor, eine minimale und offene Nachtrainierungsmethode, die supervised Fine-Tuning, On-Policy-Distillation und RFT in kleinem Maßstab kombiniert. Am Beispiel von Thai als repräsentativer Fallstudie zeigen wir, dass unser Ansatz sowohl souverän angepasste als auch allgemeine Basismodelle in instruktionsoptimierte Modelle mit starker Allgemeinleistung transformiert. Wir zeigen weiter, dass RFT in kleinem Maßstab mit InK-GRPO – einer Erweiterung von GRPO, die den GRPO-Verlust um einen Next-Word-Prediction-Verlust erweitert – das thailändische Rechtsverständnis und thailandspezifisches Wissen verbessert, während allgemeine Fähigkeiten erhalten bleiben. Unsere Ergebnisse deuten darauf hin, dass eine sorgfältig gestaltete Nachtrainierungsstrategie den erforderlichen Umfang an Instruktionsdaten und Rechenleistung reduzieren kann und somit einen praktischen Weg zu hochwertigen souveränen LLMs mit akademischen Ressourcen eröffnet.
Wir stellen Foundation-Sec-8B-Reasoning vor, das erste quelloffene native Reasoning-Modell für Cybersicherheit. Das Modell baut auf unserem zuvor veröffentlichten Foundation-Sec-8B-Basismodell (abgeleitet von Llama-3.1-8B-Base) auf und wird durch einen zweistufigen Prozess trainiert, der Supervised Fine-Tuning (SFT) und Reinforcement Learning from Verifiable Rewards (RLVR) kombiniert. Unser Training nutzt proprietäre Reasoning-Daten aus den Bereichen Cybersicherheitsanalyse, Befolgung von Anweisungen und mathematisches Reasoning. Die Evaluierung über 10 Cybersicherheits-Benchmarks und 10 allgemeine Benchmarks hinweg zeigt eine Leistung, die auf Cybersicherheitsaufgaben mit deutlich größeren Modellen wettbewerbsfähig ist, während gleichzeitig starke allgemeine Fähigkeiten erhalten bleiben. Das Modell zeigt eine effektive Generalisierung bei Multi-Hop-Reasoning-Aufgaben und eine starke Sicherheitsleistung, wenn es mit geeigneten System-Prompts und Guardrails eingesetzt wird. Diese Arbeit demonstriert, dass domainspezifische Reasoning-Modelle eine hohe Leistung bei spezialisierten Aufgaben erzielen können, während sie breite allgemeine Fähigkeiten beibehalten. Wir veröffentlichen das Modell unter https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
Langkontext-Fähigkeiten haben große Sprachmodelle (LLMs) erheblich gestärkt, um komplexe Aufgaben zu bewältigen, doch sie führen aufgrund der rechnerischen Komplexität zu erheblichen Effizienzengpässen. Bestehende effiziente Ansätze setzen oft auf komplexes Zusatztraining oder externe Modelle zur Komprimierung, was die Skalierbarkeit einschränkt und kritische feingranulare Informationen verwirft. In diesem Artikel stellen wir VTC-R1 vor, ein neues effizientes Reasoning-Paradigma, das Bild-Text-Komprimierung in den Denkprozess integriert. Anstatt lange textuelle Spuren zu verarbeiten, rendert VTC-R1 Zwischenergebnisse in kompakte Bilder, die iterativ als "optischer Speicher" in Vision-Language-Modelle zurückgespeist werden. Wir erstellen einen Trainingsdatensatz basierend auf OpenR1-Math-220K, der eine 3,4-fache Token-Komprimierung erreicht, und feintunen repräsentative VLMs – Glyph und Qwen3-VL. Umfangreiche Experimente auf Benchmarks wie MATH500, AIME25, AMC23 und GPQA-D zeigen, dass VTC-R1 durchgängig besser abschneidet als Standard-Langkontext-Reasoning. Darüber hinaus verbessert unser Ansatz die Inferenzeffizienz erheblich und erreicht eine 2,7-fache Beschleunigung der End-to-End-Latenz, was sein Potenzial als skalierbare Lösung für reasoning-intensive Anwendungen unterstreicht. Unser Code ist verfügbar unter https://github.com/w-yibo/VTC-R1.
Multimodale Large Language Models (MLLMs) leiden unter cross-modalen Halluzinationen, bei denen eine Modalität die Generierung bezüglich einer anderen unangemessen beeinflusst, was zu fabrizierten Ausgaben führt. Dies offenbart eine grundlegendere Schwäche in der Modalitätsinteraktionskontrolle. Um dieses Problem zu adressieren, schlagen wir Modality-Adaptive Decoding (MAD) vor, eine trainierungsfreie Methode, die modalitätsspezifische Dekodierungszweige basierend auf den Aufgabenanforderungen adaptiv gewichtet. MAD nutzt die inhärente Fähigkeit des Modells, die Relevanz von Modalitäten durch Abfrage selbst zu bewerten, welche Modalitäten für jede Aufgabe benötigt werden. Die extrahierten Modalitätswahrscheinlichkeiten werden dann verwendet, um kontrastive Dekodierungszweige adaptiv zu gewichten, was es dem Modell ermöglicht, sich auf relevante Informationen zu konzentrieren und gleichzeitig cross-modale Interferenzen zu unterdrücken. Umfangreiche Experimente auf CMM und AVHBench zeigen, dass MAD cross-modale Halluzinationen über mehrere audio-visuelle Sprachmodelle hinweg signifikant reduziert (7,8 % und 2,0 % Verbesserung für VideoLLaMA2-AV, 8,7 % und 4,7 % Verbesserung für Qwen2.5-Omni). Unser Ansatz zeigt, dass explizites Modalitätsbewusstsein durch Selbsteinschätzung entscheidend für robustes multimodales Reasoning ist und eine prinzipielle Erweiterung bestehender kontrastiver Dekodierungsmethoden darstellt. Unser Code ist verfügbar unter https://github.com/top-yun/MAD.
Moderne Diffusions- und Fluss-basierte Modelle zur Bildgenerierung weisen typischerweise zwei Kernmerkmale auf: (i) die Verwendung von mehrstufiger Abtastung und (ii) das Operieren in einem latenten Raum. Jüngste Fortschritte haben ermutigende Entwicklungen in beiden Bereichen erzielt und ebnen den Weg hin zu einstufiger Diffusion/Fluss ohne latente Räume. In dieser Arbeit gehen wir einen weiteren Schritt in Richtung dieses Ziels und schlagen "Pixel-MeanFlow" (pMF) vor. Unser zentraler Leitfaden ist die separate Formulierung des Netzwerk-Ausgaberaums und des Verlustraums. Das Netzwerkziel ist so konzipiert, dass es sich auf einer vermuteten niedrigdimensionalen Bildmannigfaltigkeit befindet (d.h. x-Prädiktion), während der Verlust über MeanFlow im Geschwindigkeitsraum definiert wird. Wir führen eine einfache Transformation zwischen der Bildmannigfaltigkeit und dem durchschnittlichen Geschwindigkeitsfeld ein. In Experimenten erzielt pMF starke Ergebnisse für die einstufige, latente-freie Generierung auf ImageNet bei 256x256 Auflösung (2.22 FID) und 512x512 Auflösung (2.48 FID) und schließt damit eine wichtige Lücke in diesem Bereich. Wir hoffen, dass unsere Studie die Grenzen diffusions- und fluss-basierter generativer Modelle weiter vorantreiben wird.
Die Sicherstellung von Sicherheit, Faktentreue und allgemeiner Qualität bei den Generierungen großer Sprachmodelle stellt eine kritische Herausforderung dar, insbesondere da diese Modelle zunehmend in realen Anwendungen eingesetzt werden. Der vorherrschende Ansatz zur Lösung dieser Probleme besteht darin, teure, sorgfältig kuratierte Datensätze zu sammeln und mehrstufiges Fine-Tuning und Alignment anzuwenden. Diese komplexe Pipeline kann jedoch nicht garantieren, dass während des Vortrainings erlernte Muster korrigiert werden. Daher ist die Behandlung dieser Probleme während des Vortrainings entscheidend, da es die Kernverhaltensweisen eines Modells prägt und verhindert, dass unsichere oder halluzinierte Ausgaben tief verankert werden. Um dieses Problem anzugehen, führen wir eine neue Vortrainingsmethode ein, die Dokumente streamt und bestärkendes Lernen (RL) verwendet, um die nächsten K generierten Tokens bei jedem Schritt zu verbessern. Ein starkes, nachtrainiertes Modell bewertet Kandidatengenerierungen – einschließlich Modell-Rollouts, des ursprünglichen Suffixes und eines umgeschriebenen Suffixes – hinsichtlich Qualität, Sicherheit und Faktentreue. Zu Beginn des Trainings stützt sich der Prozess auf die ursprünglichen und umgeschriebenen Suffixe; mit zunehmender Verbesserung des Modells belohnt RL hochwertige Rollouts. Dieser Ansatz baut von Grund auf qualitativ hochwertigere, sicherere und faktenbasiertere Modelle. In Experimenten erzielt unsere Methode im Vergleich zum standardmäßigen Vortraining relative Verbesserungen von 36,2 % bei der Faktentreue und 18,5 % bei der Sicherheit sowie Verbesserungen der Gewinnrate von bis zu 86,3 % bei der allgemeinen Generierungsqualität.
Wir stellen DeepSearchQA vor, einen Benchmark mit 900 Prompt-Aufgaben zur Bewertung von Agenten bei schwierigen, mehrstufigen informationsbasierten Aufgaben aus 17 verschiedenen Fachgebieten. Im Gegensatz zu traditionellen Benchmarks, die auf die Ermittlung einzelner Antworten oder breit angelegte Faktizität abzielen, zeichnet sich DeepSearchQA durch einen Datensatz anspruchsvoller, handgefertigter Aufgaben aus, die entwickelt wurden, um die Fähigkeit eines Agenten zu bewerten, komplexe Suchpläne zur Erstellung erschöpfender Antwortlisten auszuführen. Dieser Wechsel im Design testet explizit drei kritische, aber bisher unzureichend bewertete Fähigkeiten: 1) die systematische Zusammenstellung fragmentierter Informationen aus unterschiedlichen Quellen, 2) Deduplizierung und Entitätsauflösung zur Sicherstellung der Präzision und 3) die Fähigkeit, Stoppkriterien in einem offenen Suchraum abzuleiten. Jede Aufgabe ist als kausale Kette strukturiert, bei der die Informationsgewinnung für einen Schritt vom erfolgreichen Abschluss des vorherigen abhängt, was langfristige Planung und Kontextbewahrung erfordert. Alle Aufgaben basieren auf dem offenen Web mit objektiv überprüfbaren Antwortmengen. Unsere umfassende Evaluierung modernster Agenten-Architekturen zeigt erhebliche Leistungsdefizite auf: Selbst die fortschrittlichsten Modelle haben Schwierigkeiten, eine hohe Trefferquote mit Präzision in Einklang zu bringen. Wir beobachten deutliche Fehlermuster, die von vorzeitigem Abbruch (Untererfassung) bis zu Absicherungsverhalten reichen, bei denen Agenten ein zu weit gespanntes Netz von Antworten mit geringer Konfidenz werfen, um die Trefferquote künstlich zu erhöhen. Diese Ergebnisse verdeutlichen erheblichen Verbesserungsbedarf in aktuellen Agenten-Designs und positionieren DeepSearchQA als ein essenzielles Diagnosewerkzeug, um zukünftige Forschung hin zu robusteren Deep-Research-Fähigkeiten zu lenken.
Um effizientes und dichtes Chain-of-Thought (CoT)-Reasoning zu erreichen, optimieren latente Reasoning-Methoden Large Language Models (LLMs) so, dass sie diskrete Sprach-Tokens durch kontinuierliche latente Tokens ersetzen. Diese Methoden verbrauchen im Vergleich zum konventionellen sprachbasierten CoT-Reasoning weniger Tokens und haben das Potenzial, in einem dichten latenten Raum zu planen. Allerdings werden aktuelle latente Tokens in der Regel durch Nachahmung von Sprach-Labels supervidiert. Da es für eine Frage mehrere äquivalente, aber unterschiedliche CoT-Labels geben kann, kann die passive Nachahmung eines beliebigen Labels zu minderwertigen latenten Token-Repräsentationen und latenten Reasoning-Strategien führen, was die potenzielle Planungsfähigkeit beeinträchtigt und zu deutlichen Lücken zwischen Training und Testphase führt. In dieser Arbeit betonen wir die Bedeutung einer aktiven Planung über den Repräsentationsraum der latenten Tokens hinweg, um die optimale latente Reasoning-Strategie zu erreichen. Daher schlagen wir die Active Latent Planning-Methode (ATP-Latent) vor, die den Supervisionsprozess der latenten Tokens als Conditional Variational Auto-Encoder (VAE) modelliert, um einen glatteren latenten Raum zu erhalten. Darüber hinaus führt ATP-Latent Reinforcement Learning (RL) mit einer zusätzlichen Kohärenz-Belohnung durch, die auf der Konsistenz zwischen den VAE-dekodierten Inhalten der latenten Tokens basiert, um einen gelenkten RL-Prozess zu ermöglichen und so die sinnvollste latente Reasoning-Strategie zu fördern. In Experimenten mit LLaMA-1B erzielt ATP-Latent auf vier Benchmarks eine Steigerung der Genauigkeit um +4,1 % und eine Reduzierung der Tokens um -3,3 % im Vergleich zu fortschrittlichen Baseline-Methoden. Der Code ist verfügbar unter https://github.com/zz1358m/ATP-Latent-master.
Hybride Transformer-Architekturen, die Softmax-Attention-Blöcke mit rekurrenten neuronalen Netzen (RNNs) kombinieren, haben für die Modellierung langer Kontexte ein vorteilhaftes Verhältnis zwischen Leistung und Durchsatz gezeigt. Ihre Verbreitung und Erforschung wird jedoch durch die prohibitiv hohen Kosten eines Large-Scale-Pre-Trainings von Grund auf behindert. Jüngste Studien haben gezeigt, dass vortrainierte Softmax-Attention-Blöcke durch Parametertransfer und Wissensdistillation in RNN-Blöcke umgewandelt werden können. Diese Transfermethoden erfordern jedoch erhebliche Mengen an Trainingsdaten (mehr als 10 Milliarden Tokens), und die resultierenden Hybridmodelle zeigen auch eine schlechte Leistung bei langen Kontexten – also genau in dem Szenario, in dem Hybridmodelle signifikante Inferenzbeschleunigungen gegenüber Transformer-Modellen aufweisen. In diesem Artikel stellen wir HALO (Hybrid Attention via Layer Optimization) vor, eine Pipeline zur Distillation von Transformer-Modellen in RNN-Attention-Hybridmodelle. Anschließend präsentieren wir HypeNet, eine Hybridarchitektur mit überlegener Längengeneralisierung, die durch ein neuartiges Verfahren zur Positionskodierung (HyPE genannt) und verschiedene architektonische Modifikationen ermöglicht wird. Wir wandeln die Qwen3-Serie mit HALO in HypeNet um und erreichen dabei eine Leistung, die mit der der ursprünglichen Transformer-Modelle vergleichbar ist, bei gleichzeitig überlegener Leistung und Effizienz im Langkontext. Für die Konvertierung werden lediglich 2,3 Milliarden Tokens benötigt, was weniger als 0,01 % der Pre-Training-Daten entspricht.
Aufgrund begrenzter überwachter Trainingsdaten werden große Sprachmodelle (LLMs) typischerweise durch ein selbstüberwachtes „Vorhersagen des nächsten Wortes“-Lernziel auf einer großen Menge unstrukturierter Textdaten vortrainiert. Um das resultierende Modell für Nutzer nützlich zu machen, wird es anschließend mit einer deutlich geringeren Menge an „Instruction-Tuning“-Daten weiter trainiert, die aus überwachten Trainingsbeispielen von Anweisungen und Antworten bestehen. Um die begrenzte Menge an überwachten Daten zu überwinden, schlagen wir ein Verfahren vor, das das Wissen in internetgroßen Vortrainingsdokumenten in Milliarden von synthetischen Trainingspaaren aus Anweisungen und Antworten umwandeln kann. Der resultierende Datensatz, genannt FineInstructions, verwendet etwa 18 Millionen Anweisungsvorlagen, die aus echten, von Nutzern verfassten Abfragen und Prompts erstellt wurden. Diese Anweisungsvorlagen werden mit von Menschen geschriebenen Quelldokumenten aus unstrukturierten Vortrainingskorpora abgeglichen und instanziiert. Mit synthetischen „überwachten“ Trainingsdaten, die in diesem Umfang generiert werden, kann ein LLM von Grund auf ausschließlich mit dem Instruction-Tuning-Ziel vortrainiert werden, was erheblich näher an der erwarteten Downstream-Nutzung von LLMs liegt (Reaktion auf Nutzer-Prompts). Wir führen kontrollierte Token-für-Token-Trainingsexperimente durch und stellen fest, dass das Vortraining mit FineInstructions das standardmäßige Vortraining sowie andere vorgeschlagene synthetische Vortrainingsverfahren auf Standard-Benchmarks zur Messung der Qualität freiformulierter Antworten übertrifft. Unsere Ressourcen sind unter https://huggingface.co/fineinstructions verfügbar.
Der Erfolg von Hyper-Connections (HC) in neuronalen Netzen (NN) hat auch Probleme im Zusammenhang mit deren Trainingsinstabilität und eingeschränkter Skalierbarkeit aufgezeigt. Die Manifold-Constrained Hyper-Connections (mHC) mildern diese Herausforderungen, indem sie den Residual Connection-Raum auf ein Birkhoff-Polytop projizieren. Allerdings weisen sie zwei Probleme auf: 1) Der iterative Sinkhorn-Knopp (SK)-Algorithmus liefert nicht immer exakt doppelt-stochastische Residualmatrizen; 2) mHC verursacht eine prohibitive Parameterkomplexität von O(n³C), wobei n die Breite des Residual Streams und C die Feature-Dimension ist. Die kürzlich vorgeschlagene mHC-lite parametrisiert die Residualmatrix über den Birkhoff-von-Neumann-Satz neu, um Doppelt-Stochastizität zu garantieren, sieht sich aber ebenfalls einer faktoriellen Explosion der Parameterkomplexität von O(nC · n!) gegenüber. Um beide Herausforderungen zu adressieren, schlagen wir KromHC vor, das Kronecker-Produkte kleinerer doppelt-stochastischer Matrizen verwendet, um die Residualmatrix in mHC zu parametrisieren. Durch die Durchsetzung von Manifold-Constraints über die faktorisierten Residualmatrizen entlang jedes Modus des tensorisierten Residual Streams garantiert KromHC exakte Doppelt-Stochastizität der Residualmatrizen und reduziert gleichzeitig die Parameterkomplexität auf O(n²C). Umfassende Experimente zeigen, dass KromHC mit state-of-the-art (SOTA) mHC-Varianten gleichzieht oder diese sogar übertrifft, dabei jedoch deutlich weniger trainierbare Parameter benötigt. Der Code ist unter https://github.com/wz1119/KromHC verfügbar.
Während die mechanistische Interpretierbarkeit interpretierbare Schaltkreise in großen Sprachmodellen identifiziert hat, bleiben deren kausale Ursprünge in den Trainingsdaten schwer fassbar. Wir stellen Mechanistic Data Attribution (MDA) vor, einen skalierbaren Rahmen, der Einflussfunktionen nutzt, um interpretierbare Einheiten auf spezifische Trainingsbeispiele zurückzuführen. Durch umfangreiche Experimente mit der Pythia-Modellfamilie validieren wir kausal, dass gezielte Interventionen – das Entfernen oder Anreichern eines kleinen Anteils hoch einflussreicher Beispiele – die Herausbildung interpretierbarer Heads signifikant moduliert, während zufällige Interventionen keine Wirkung zeigen. Unsere Analyse zeigt, dass repetitive strukturelle Daten (z.B. LaTeX, XML) als mechanistischer Katalysator wirken. Darüber hinaus beobachten wir, dass Interventionen, die auf die Bildung von Induction Heads abzielen, eine gleichzeitige Veränderung der Fähigkeit des Modells zum In-Context-Learning (ICL) bewirken. Dies liefert direkte kausale Evidenz für die langjährige Hypothese zum funktionalen Zusammenhang zwischen Induction Heads und ICL. Abschließend schlagen wir eine Pipeline zur mechanistischen Datenanreicherung vor, die konsistent die Schaltkreis-Konvergenz über verschiedene Modellgrößen hinweg beschleunigt und damit eine prinzipienbasierte Methodik zur Steuerung der Entwicklungsverläufe von LLMs bietet.
Sprachmodellbasierte Agenten, die über längere Interaktionszeiträume operieren, stehen vor anhaltenden Herausforderungen bei der Bewahrung zeitlich verankerter Informationen und der Aufrechterhaltung von Verhaltenskonsistenz über Sitzungen hinweg – ein Fehlermodus, den wir als *Seelenverlust* bezeichnen. Wir stellen BMAM (*Brain-inspired Multi-Agent Memory*) vor, eine allgemeine Speicherarchitektur, die den Agentspeicher als eine Menge funktional spezialisierter Subsysteme modelliert und nicht als einen einzelnen unstrukturierten Speicher. Inspiriert von kognitiven Gedächtnissystemen zerlegt BMAM das Gedächtnis in episodische, semantische, salienz-bewusste und kontrollorientierte Komponenten, die auf komplementären Zeitskalen operieren. Um langfristiges Schließen zu unterstützen, organisiert BMAM episodische Erinnerungen entlang expliziter Zeitachsen und ruft Evidenz durch die Fusion mehrerer komplementärer Signale ab. Experimente auf dem LoCoMo-Benchmark zeigen, dass BMAM unter der standardmäßigen Langzeitevaluierung eine Genauigkeit von 78,45 Prozent erreicht, und Ablationsanalysen bestätigen, dass das hippocampusinspirierte episodische Gedächtnissubsystem eine entscheidende Rolle beim zeitlichen Schließen spielt.
Quantisierung hat die Rechen- und Speichereffizienz beim Training großer Sprachmodelle (LLMs) erheblich verbessert. Bestehende Ansätze müssen ihre Aktualisierungen jedoch weiterhin in hoher Präzision akkumulieren: Konkret müssen Gradientenupdates auf einen Hochpräzisions-Gewichtspuffer, sogenannte Master-Weights, angewendet werden. Dieser Puffer verursacht einen erheblichen Speichermehraufwand, insbesondere bei Sparse Mixture of Experts (SMoE)-Modellen, bei denen Modellparameter und Optimiererzustände den Speicherverbrauch dominieren. Um dies zu lösen, führen wir den Error-Compensating Optimizer (ECO) ein, der Master-Weights eliminiert, indem er Aktualisierungen direkt auf quantisierte Parameter anwendet. ECO quantisiert die Gewichte nach jedem Schritt und injiziert den resultierenden Quantisierungsfehler sorgfältig in den Optimierer-Momentum-Term, wodurch eine Fehlerrückkopplungsschleife ohne zusätzlichen Speicherbedarf entsteht. Wir beweisen, dass ECO unter Standardannahmen und einer abklingenden Lernrate gegen eine Nachbarschaft mit konstantem Radius um das Optimum konvergiert, während eine naive Entfernung der Master-Weights zu einem Fehler führen kann, der umgekehrt proportional zur Lernrate ist. Wir präsentieren empirische Ergebnisse für das Pre-Training kleiner Transformer (30-800M), eines Gemma-3-1B-Modells und eines SMoE-Modells mit 2,1B Parametern unter FP8-Quantisierung sowie für das Fine-Tuning von DeepSeek-MoE-16B in INT4-Präzision. Durchgängig erreicht ECO die Genauigkeit der Baseline mit Master-Weights bis nahezu verlustfrei und verschiebt die Pareto-Front für statischen Speicherverbrauch gegenüber Validierungsverlust signifikant.
Skalierung hat die jüngsten Fortschritte bei visuellen Basismodellen vorangetrieben, doch die Übertragung dieses Paradigmas auf die metrische Tiefenschätzung bleibt aufgrund von heterogenem Sensorrauschen, kameraabhängigen Verzerrungen und metrischer Mehrdeutigkeit in verrauschten, quellenübergreifenden 3D-Daten eine Herausforderung. Wir stellen Metric Anything vor, ein einfaches und skalierbares Vortrainierungsframework, das metrische Tiefe aus verrauschten, diversen 3D-Quellen erlernt – ohne manuell erstellte Prompts, kameraspezifische Modellierung oder aufgabenspezifische Architekturen. Kern unseres Ansatzes ist der Sparse Metric Prompt, der durch zufälliges Maskieren von Tiefenkarten erzeugt wird und als universelle Schnittstelle dient, die räumliches Reasoning von Sensor- und Kameraverzerrungen entkoppelt. Unter Verwendung von etwa 20 Millionen Bild-Tiefen-Paaren aus rekonstruierten, aufgenommenen und gerenderten 3D-Daten von über 10000 Kameramodellen demonstrieren wir – erstmalig – einen klaren Skalierungstrend im Bereich der metrischen Tiefenschätzung. Das vortrainierte Modell überzeugt bei Prompt-gesteuerten Aufgaben wie Tiefenvervollständigung, Super-Resolution und Radar-Kamera-Fusion, während sein destillierter, Prompt-freier Student state-of-the-art Ergebnisse bei monokularer Tiefenschätzung, Kamerakalibrierung, mono-/multiview metrischer 3D-Rekonstruktion und VLA-Planung erzielt. Wir zeigen auch, dass die Verwendung des vortrainierten ViT von Metric Anything als visueller Encoder die Fähigkeiten Multimodaler Großer Sprachmodelle im Bereich der räumlichen Intelligenz erheblich steigert. Diese Ergebnisse belegen, dass die metrische Tiefenschätzung von denselben Skalierungsgesetzen profitieren kann, die moderne Basismodelle antreiben, und ebnen den Weg zu skalierbarer und effizienter metrischer Wahrnehmung in der realen Welt. Wir veröffentlichen Metric Anything unter http://metric-anything.github.io/metric-anything-io/, um die Forschung in der Community zu unterstützen.
Vereinheitlichte multimodale Modelle (UMMs) integrieren sowohl visuelles Verständnis als auch Generierung innerhalb eines einzigen Frameworks. Ihr ultimatives Bestreben ist es, einen Kreislauf zu schaffen, in dem Verständnis und Generierung sich gegenseitig verstärken. Während neuere Post-Training-Methoden erfolgreich Verständnis genutzt haben, um die Generierung zu verbessern, bleibt die umgekehrte Richtung – die Nutzung von Generierung zur Verbesserung des Verständnisses – weitgehend unerforscht. In dieser Arbeit schlagen wir UniMRG (Unified Multi-Representation Generation) vor, eine einfache, aber effektive, architekturunabhängige Post-Training-Methode. UniMRG verbessert die Verständnisfähigkeiten von UMMs durch die Einbindung zusätzlicher Generierungsaufgaben. Konkret trainieren wir UMMs dazu, mehrere intrinsische Repräsentationen von Eingabebildern zu generieren – nämlich Pixel (Rekonstruktion), Tiefe (Geometrie) und Segmentierung (Struktur) – parallel zu standardmäßigen visuellen Verständniszielen. Durch die Synthese dieser diversen Repräsentationen erfassen UMMs komplementäre Informationen bezüglich Erscheinungsbild, räumlicher Beziehungen und struktureller Anordnung. Folglich entwickeln UMMs ein tieferes und umfassenderes Verständnis visueller Eingaben. Umfangreiche Experimente mit verschiedenen UMM-Architekturen zeigen, dass unsere Methode die feinkörnige Wahrnehmung deutlich verbessert, Halluzinationen reduziert und das räumliche Verständnis verbessert, während gleichzeitig die Generierungsfähigkeiten gesteigert werden.
Wir stellen FROST vor, eine aufmerksamkeitsbasierte Methode für effizientes Reasoning. Im Gegensatz zu traditionellen Ansätzen nutzt FROST Aufmerksamkeitsgewichte, um unbedeutende Reasoning-Pfade auszusortieren, was kürzere und zuverlässigere Reasoning-Trajektorien ergibt. Methodisch führen wir das Konzept der Reasoning-Ausreißer ein und entwerfen einen aufmerksamkeitsbasierten Mechanismus zu deren Entfernung. Theoretisch bewahrt und verbessert FROST die Reasoning-Fähigkeit des Modells, während Ausreißer auf Satzebene eliminiert werden. Empirisch validieren wir FROST anhand von vier Benchmarks mit zwei leistungsstarken Reasoning-Modellen (Phi-4-Reasoning und GPT-OSS-20B) und übertreffen state-of-the-art Methoden wie TALE und ThinkLess. Bemerkenswerterweise erzielt FROST eine durchschnittliche Reduktion der Token-Nutzung um 69,68 % und eine Steigerung der Genauigkeit um 26,70 % gegenüber dem Basismodell. Darüber hinaus reduziert FROST in Bewertungen von Aufmerksamkeits-Ausreißer-Metriken die maximale Infinity-Norm um 15,97 % und die durchschnittliche Kurtosis um 91,09 % im Vergleich zum Basismodell. Code ist verfügbar unter https://github.com/robinzixuan/FROST.
Audiovisuelle Basismodelle, die vortrainiert wurden, um Ton und visuelle Inhalte gemeinsam zu generieren, haben kürzlich eine beispiellose Fähigkeit zur Modellierung multimodaler Generierung und Bearbeitung gezeigt, wodurch neue Möglichkeiten für nachgelagerte Aufgaben eröffnet werden. Unter diesen Aufgaben könnte die Videosynchronisation besonders von solchen Vorwissen profitieren, doch die meisten bestehenden Lösungen basieren nach wie vor auf komplexen, aufgabenspezifischen Pipelines, die in realen Anwendungsszenarien an ihre Grenzen stoßen. In dieser Arbeit stellen wir einen Single-Model-Ansatz vor, der ein grundlegendes Audio-Video-Diffusionsmodell durch ein leichtgewichtiges LoRA für Video-zu-Video-Synchronisation adaptiert. Das LoRA ermöglicht es dem Modell, sich an einem Eingabe-Audio-Video zu orientieren und gleichzeitig übersetzten Audio sowie synchronisierte Gesichtsbewegungen zu generieren. Um dieses LoRA zu trainieren, nutzen wir das generative Modell selbst, um gepaarte mehrsprachige Videos derselben Sprecherperson zu synthetisieren. Konkret generieren wir mehrsprachige Videos mit Sprachwechseln innerhalb eines einzelnen Clips und rekonstruieren anschließend das Gesicht und den Audio in jeder Hälfte, um sie an die Sprache der anderen Hälfte anzupassen. Durch die Nutzung des reichen generativen Vorwissens des audiovisuellen Modells bewahrt unser Ansatz die Sprecheridentität und Lippensynchronisation und bleibt dabei robust gegenüber komplexen Bewegungen und realen Dynamiken. Wir demonstrieren, dass unser Ansatz hochwertige synchronisierte Videos mit verbesserter visueller Qualität, Lippensynchronisation und Robustheit im Vergleich zu bestehenden Synchronisationspipelines erzeugt.
Die meisten Methoden des Reinforcement Learning (RL) für das Training großer Sprachmodelle (LLMs) erfordern Ground-Truth-Labels oder aufgabenspezifische Verifizierer, was die Skalierbarkeit einschränkt, wenn die Korrektheit mehrdeutig oder teuer zu ermitteln ist. Wir führen Reinforcement Learning from Meta-Evaluation (RLME) ein, das einen Generator optimiert, indem es Belohnungen verwendet, die aus den Antworten eines Evaluators auf natürlichsprachliche Meta-Fragen abgeleitet werden (z. B. "Ist die Antwort korrekt?" oder "Ist die Schlussfolgerung logisch konsistent?"). RLME behandelt die Wahrscheinlichkeit einer positiven Bewertung durch den Evaluator als Belohnung und aktualisiert den Generator mittels gruppenrelativer Politikoptimierung, wodurch Lernen ohne Labels ermöglicht wird. In einer Reihe von Experimenten zeigen wir, dass RLME eine mit labelbasiertem Training vergleichbare Genauigkeit und Stichprobeneffizienz erreicht, kontrollierbare Kompromisse zwischen mehreren Zielen ermöglicht, Modelle hin zu zuverlässigen Denkmustern anstatt zu nachträglicher Rationalisierung lenkt und auf Open-Domain-Szenarien verallgemeinert, in denen Ground-Truth-Labels nicht verfügbar sind. Dadurch erweitert RLME die Domänen, in denen LLMs mit RL trainiert werden können.
Jüngste Fortschritte im Reinforcement Learning für die Codegenerierung haben robuste Umgebungen unerlässlich gemacht, um Reward Hacking zu verhindern. Da LLMs zunehmend als Bewerter in codebasiertem RL eingesetzt werden, ist ihre Fähigkeit, Reward Hacking zu erkennen, noch unzureichend erforscht. In diesem Artikel schlagen wir eine neuartige Taxonomie von Reward-Exploits vor, die 54 Kategorien umspannt, und stellen TRACE (Testing Reward Anomalies in Code Environments) vor, einen synthetisch erstellten und human-verifizierten Benchmark mit 517 Testtrajektorien. Im Gegensatz zu früheren Arbeiten, die die Erkennung von Reward Hacks in isolierten Klassifikationsszenarien evaluieren, kontrastieren wir diese Evaluationen mit einem realistischeren, kontrastiven Anomalieerkennungsaufbau auf TRACE. Unsere Experimente zeigen, dass Modelle Reward Hacks in kontrastiven Settings effektiver erfassen als in isolierten Klassifikationssettings, wobei GPT-5.2 im höchsten Reasoning-Modus die beste Erkennungsrate von 63 % erzielt, verglichen mit 45 % in isolierten Settings auf TRACE. Aufbauend auf dieser Erkenntnis zeigen wir, dass state-of-the-art Modelle erheblich größere Schwierigkeiten mit semantisch kontextualisierten Reward Hacks haben als mit syntaktisch kontextualisierten. Wir führen weiterhin qualitative Analysen des Modellverhaltens sowie Ablationsstudien durch, die zeigen, dass das Verhältnis von benignen zu gehackten Trajektorien und die Größe der Analysecluster die Erkennungsleistung erheblich beeinflussen. Wir veröffentlichen den Benchmark und die Evaluierungs-Harness, um der Community zu ermöglichen, TRACE zu erweitern und ihre Modelle zu evaluieren.
Die Entdeckung extremaler Strukturen in der Mathematik erfordert die Navigation durch weite und nichtkonvexe Landschaften, in denen analytische Methoden wenig Orientierung bieten und eine Brute-Force-Suche unlösbar wird. Wir stellen FlowBoost vor, ein generatives Framework mit geschlossenem Regelkreis, das lernt, seltene und extremale geometrische Strukturen zu entdecken, indem es drei Komponenten kombiniert: (i) ein geometrie-bewusstes, konditionales Flow-Matching-Modell, das lernt, hochwertige Konfigurationen zu sampeln, (ii) eine belohnungsgesteuerte Policy-Optimierung mit Aktions-Exploration, die den Generierungsprozess direkt auf das Ziel hin optimiert und dabei Diversität bewahrt, und (iii) eine stochastische Lokalsuche sowohl für die Erzeugung von Trainingsdaten als auch für die finale Verfeinerung. Im Gegensatz zu vorherigen Open-Loop-Ansätzen, wie PatternBoost, das mit gefilterten diskreten Stichproben neu trainiert, oder AlphaEvolve, das auf eingefrorene Large Language Models (LLMs) als evolutionäre Mutationsoperatoren angewiesen ist, erzwingt FlowBoost die geometrische Machbarkeit während des Samplings und leitet das Belohnungssignal direkt in das generative Modell weiter. Dadurch schließt es den Optimierungszyklus, benötigt deutlich kleinere Trainingsdatenmengen und kürzere Trainingszeiten, reduziert die erforderlichen äußeren Schleifeniterationen um Größenordnungen und beseitigt die Abhängigkeit von LLMs. Wir demonstrieren das Framework an vier geometrischen Optimierungsproblemen: Kugelpackungen in Hyperwürfeln, Kreispackungen zur Maximierung der Radien-Summe, das Heilbronn-Dreiecks-Problem und die Minimierung der Sterndiskrepanz. In mehreren Fällen entdeckt FlowBoost Konfigurationen, die die besten bekannten Ergebnisse erreichen oder übertreffen. Bei Kreispackungen verbessern wir die besten bekannten unteren Schranken und übertreffen das LLM-basierte System AlphaEvolve, wobei wir erheblich weniger Rechenressourcen verbrauchen.
Audio-Fingerprinting bietet eine identifizierbare Darstellung akustischer Signale, die später für Identifikations- und Retrieval-Systeme verwendet werden kann. Um eine diskriminative Repräsentation zu erhalten, wird das Eingabe-Audio üblicherweise in kürzere Zeitintervalle segmentiert, wodurch lokale akustische Merkmale extrahiert und analysiert werden können. Moderne neuronale Ansätze arbeiten typischerweise mit kurzen Audio-Segmenten fester Dauer, doch die Wahl der Segmentdauer erfolgt oft heuristisch und wird selten eingehend untersucht. In dieser Arbeit untersuchen wir, wie sich die Segmentlänge auf die Leistung von Audio-Fingerprinting auswirkt. Wir erweitern eine bestehende neuronale Fingerprinting-Architektur, um verschiedene Segmentlängen zu unterstützen, und bewerten die Retrieval-Genauigkeit über verschiedene Segmentlängen und Abfragedauern hinweg. Unsere Ergebnisse zeigen, dass kurze Segmentlängen (0,5 Sekunden) generell eine bessere Leistung erzielen. Darüber hinaus evaluieren wir die Fähigkeit von LLMs, die beste Segmentlänge zu empfehlen, wobei sich zeigt, dass GPT-5-mini unter drei untersuchten LLMs konsistent die besten Vorschläge über fünf Bewertungskriterien hinweg liefert. Unsere Erkenntnisse bieten praktische Orientierungshilfen für die Auswahl der Segmentdauer in großen neuronalen Audio-Retrieval-Systemen.
Grafikdesign beinhaltet oft die Erkundung verschiedener stilistischer Richtungen, was für Laien zeitaufwändig sein kann. Wir behandeln dieses Problem der stilistischen Verbesserung von Designs auf Basis natürlicher Sprachinstruktionen. Während VLMs (Vision-Language Models) erste Erfolge im Grafikdesign gezeigt haben, ist ihr vortrainiertes Wissen über Stile oft zu allgemein und mit domänenspezifischen Daten nicht abgestimmt. Beispielsweise könnten VLMs Minimalismus mit abstrakten Designs assoziieren, während Designer Form- und Farbwahl betonen. Unsere zentrale Erkenntnis ist, dass Design-Daten – eine Sammlung realer Designs, die implizit Gestaltungsprinzipien erfassen – genutzt werden können, um Designwissen zu erlernen und stilistische Verbesserungen zu steuern. Wir schlagen PRISM (PRior-Informed Stylistic Modification) vor, das eine Designwissensbasis in drei Phasen aufbaut und anwendet: (1) Clustering von Designs mit hoher Varianz zur Erfassung stilistischer Diversität, (2) Zusammenfassung jedes Clusters in anwendbares Designwissen und (3) Abruf relevanter Wissenselemente während der Inferenz zur ermöglichten stilbewussten Verbesserung. Experimente mit dem Crello-Datensatz zeigen, dass PRISM mit einem durchschnittlichen Rang von 1.49 (näher an 1 ist besser) die beste Stilausrichtung unter den Baseline-Methoden erzielt. Nutzerstudien bestätigen diese Ergebnisse und zeigen, dass PRISM von Designern konsistent bevorzugt wird.
Web-Agenten bergen großes Potenzial für die Automatisierung komplexer Computeraufgaben, doch ihre Interaktionen beinhalten langfristige, sequenzielle Entscheidungsfindung mit irreversiblen Aktionen. In solchen Settings ist die auf Ergebnisse basierende Steuerung spärlich und verzögert, belohnt oft falsche Trajektorien und unterstützt Skalierung zur Inferenzzeit nicht. Dies motiviert den Einsatz von Process Reward Models (WebPRMs) für die Web-Navigation, doch bestehende Ansätze bleiben begrenzt: Skalare WebPRMs reduzieren Fortschritt auf grobe, schwach fundierte Signale, während checklistenbasierte WebPRMs auf anfälliger Template-Matching angewiesen sind, die bei Layout- oder semantischen Änderungen versagt und oft oberflächlich korrekte Aktionen fälschlich als erfolgreich kennzeichnet, was wenig Einsicht oder Interpretierbarkeit bietet. Um diese Herausforderungen zu adressieren, führen wir WebArbiter ein, ein reasoning-first, principle-inducing WebPRM, das Belohnungsmodellierung als Textgenerierung formuliert und strukturierte Begründungen erzeugt, die mit einem Präferenzurteil enden und die Aktion identifizieren, die unter dem aktuellen Kontext am meisten zur Aufgabenerfüllung beiträgt. Das Training folgt einer Zwei-Stufen-Pipeline: Reasoning Distillation stattet das Modell mit kohärentem, prinzipiengeleitetem Denken aus, und Reinforcement Learning korrigiert Lehrer-Bias durch direkte Ausrichtung der Urteile an Korrektheit, was stärkere Generalisierung ermöglicht. Zur systematischen Evaluation veröffentlichen wir WebPRMBench, einen umfassenden Benchmark über vier diverse Web-Umgebungen mit reichhaltigen Aufgaben und hochwertigen Präferenzannotationen. Auf WebPRMBench übertrifft WebArbiter-7B den stärksten Baseline, GPT-5, um 9,1 Punkte. Bei belohnungsgeführter Trajektoriensuche auf WebArena-Lite übertrifft es das beste bisherige WebPRM um bis zu 7,2 Punkte, was seine Robustheit und praktischen Wert bei komplexen realen Webaufgaben unterstreicht.
Visuelle Foundation Models liefern starke perzeptive Merkmale für die Robotik, doch ihre dichten Repräsentationen mangeln es an expliziter objektbasierter Struktur, was die Robustheit und Kontrahierbarkeit bei Manipulationsaufgaben einschränkt. Wir stellen STORM (Slot-basierte, aufgabenbewusste, objektzentrierte Repräsentation für robotische Manipulation) vor, ein leichtgewichtiges Adaptionsmodul, das eingefrorene visuelle Foundation Models mit einer kleinen Menge semantisch bewusster Slots für die robotische Manipulation erweitert. Anstatt große Backbones neu zu trainieren, setzt STORM eine mehrphasige Trainingsstrategie ein: Objektzentrierte Slots werden zunächst durch visuell-semantisches Pre-training unter Verwendung von Sprach-Embeddings stabilisiert und anschließend gemeinsam mit einer nachgeschalteten Manipulationspolicy adaptiert. Dieses gestufte Lernen verhindert eine degenerierte Slot-Bildung und bewahrt die semantische Konsistenz, während die Wahrnehmung mit den Aufgabenzielen in Einklang gebracht wird. Experimente auf Benchmarks zur Objekterkennung und simulierten Manipulationsaufgaben zeigen, dass STORM die Generalisierung gegenüber visuellen Ablenkern und die Steuerungsleistung im Vergleich zur direkten Verwendung eingefrorener Foundation-Model-Merkmale oder dem End-to-End-Training objektzentrierter Repräsentationen verbessert. Unsere Ergebnisse unterstreichen die mehrphasige Adaptation als einen effizienten Mechanismus zur Transformation generischer Foundation-Model-Merkmale in aufgabenbewusste, objektzentrierte Repräsentationen für die robotische Steuerung.
Die Generalisierungsfähigkeiten von Robotermanipulationspolitiken werden maßgeblich durch die Wahl der visuellen Repräsentationen beeinflusst. Bisherige Ansätze stützen sich typischerweise auf Repräsentationen, die mit vortrainierten Encodern extrahiert werden, wobei zwei dominierende Merkmalstypen zum Einsatz kommen: Globale Merkmale, die ein gesamtes Bild in einem einzigen gepoolten Vektor zusammenfassen, und dichte Merkmale, die eine patchenweise Einbettung aus der letzten Encoder-Schicht bewahren. Obwohl weit verbreitet, vermischen beide Merkmalstypen aufgabenrelevante und irrelevante Informationen, was zu einer schlechten Generalisierung unter Verteilungsverschiebungen führt, wie z.B. bei Änderungen der Beleuchtung, Texturen oder bei der Anwesenheit von Ablenkungselementen. In dieser Arbeit untersuchen wir eine strukturierte Zwischenlösung: slotbasierte objektzentrierte Repräsentationen (SBOCR), die dichte Merkmale zu einer endlichen Menge von objektähnlichen Entitäten gruppieren. Diese Repräsentation ermöglicht es, das Rauschen, das der Robotermanipulationspolitik zugeführt wird, auf natürliche Weise zu reduzieren, während genügend Information für eine effiziente Aufgabendurchführung erhalten bleibt. Wir vergleichen eine Reihe von globalen und dichten Repräsentationen mit den slotbasierten Zwischenrepräsentationen anhand einer Reihe von simulierten und realen Manipulationsaufgaben, die von einfach bis komplex reichen. Wir bewerten ihre Generalisierung unter verschiedenen visuellen Bedingungen, einschließlich Änderungen der Beleuchtung, der Textur und der Anwesenheit von Ablenkungselementen. Unsere Ergebnisse zeigen, dass auf SBOCR basierende Politiken in Generalisierungsszenarien Politiken auf Basis von dichten und globalen Repräsentationen übertreffen, selbst ohne aufgabenspezifisches Vortraining. Diese Erkenntnisse legen nahe, dass SBOCR eine vielversprechende Richtung für den Entwurf von visuellen Systemen darstellt, die in dynamischen, realen Roboterumgebungen effektiv generalisieren.
Jüngste Fortschritte bei generativen Fundamentalmodellen, oft als "Weltmodelle" bezeichnet, haben das Interesse an ihrer Anwendung für kritische Aufgaben wie Roboterplanung und das Training autonomer Systeme beflügelt. Für einen zuverlässigen Einsatz müssen diese Modelle eine hohe physikalische Treue aufweisen und reale Dynamiken präzise simulieren. Bestehende physikbasierte Video-Benchmarks leiden jedoch unter Vermischung (Entanglement), bei der ein einzelner Test mehrere physikalische Gesetze und Konzepte gleichzeitig bewertet, was ihre diagnostische Fähigkeit grundlegend einschränkt. Wir stellen WorldBench vor, einen neuartigen videobasierten Benchmark, der speziell für konzeptspezifische, entflochtene Evaluationen entwickelt wurde. Dies ermöglicht es uns, das Verständnis eines einzelnen physikalischen Konzepts oder Gesetzes streng isoliert und gezielt zu bewerten. Um WorldBench umfassend zu gestalten, entwerfen wir Benchmarks auf zwei Ebenen: 1) eine Evaluation des intuitiven physikalischen Verständnisses mit Konzepten wie Objektpermanenz oder Maßstab/Perspektive und 2) eine Evaluation niedrigstufiger physikalischer Konstanten und Materialeigenschaften wie Reibungskoeffizienten oder Fluidviskosität. Wenn state-of-the-art videobasierte Weltmodelle auf WorldBench evaluiert werden, zeigen sich spezifische Fehlermuster bei bestimmten Physikkonzepten. Alle getesteten Modelle wiesen die für die Erzeugung zuverlässiger realer Interaktionen erforderliche physikalische Konsistenz nicht auf. Durch seine konzeptspezifische Evaluation bietet WorldBench einen nuancierteren und skalierbaren Rahmen für die rigorose Bewertung der physikalischen Denkfähigkeiten von Videogenerierungs- und Weltmodellen und ebnet so den Weg für robusteres und generalisierbareres, weltmodellgestütztes Lernen.