papers.description
Finanzmärkte sind verrauscht und nicht-stationär, was die Alphagenerierung im Backtesting stark anfällig für Rauschen und plötzliche Marktregimewechsel macht. Obwohl neuere agentenbasierte Frameworks die Automatisierung der Alphagenerierung verbessern, fehlt es ihnen oft an kontrollierbarer Mehrrunden-Suche und zuverlässiger Wiederverwendung validierter Erfahrungen. Um diese Herausforderungen zu bewältigen, schlagen wir QuantaAlpha vor, ein evolutionäres Framework für die Alphagenerierung, das jeden End-to-End-Generierungsdurchlauf als Trajektorie behandelt und Faktoren durch trajektorienbasierte Mutations- und Crossover-Operationen verbessert. QuantaAlpha lokalisiert suboptimale Schritte in jeder Trajektorie für gezielte Revision und rekombiniert komplementäre Hochertragssegmente, um effektive Muster wiederzuverwenden. Dies ermöglicht strukturierte Exploration und Verfeinerung über Iterationen hinweg. Während der Faktorgenerierung erzwingt QuantaAlpha semantische Konsistenz über Hypothese, Faktorausdruck und ausführbaren Code hinweg und begrenzt gleichzeitig Komplexität und Redundanz der generierten Faktoren, um Überlagerung zu mindern. Umfangreiche Experimente mit dem China Securities Index 300 (CSI 300) zeigen konsistenten Gewinn gegenüber starken Baseline-Modellen und früheren agentenbasierten Systemen. Bei Verwendung von GPT-5.2 erreicht QuantaAlpha einen Informationskoeffizienten (IC) von 0,1501, mit einer annualisierten Rendite (ARR) von 27,75 % und einem maximalen Drawdown (MDD) von 7,98 %. Darüber hinaus übertragen sich auf dem CSI 300 generierte Faktoren effektiv auf den China Securities Index 500 (CSI 500) und den Standard & Poor's 500 Index (S&P 500) und erzielen über vier Jahre kumulative Überrenditen von 160 % bzw. 137 %, was auf eine hohe Robustheit von QuantaAlpha bei Marktverteilungsverschiebungen hindeutet.
Da nachträgliches Training zunehmend zentral für die Verbesserung großer Sprachmodelle wird, beobachten wir einen anhaltenden Sättigungsengpass: Sobald Modelle eine hohe Konfidenz erreichen, bringt weiteres Training abnehmende Grenzerträge. Während bestehende Methoden weiterhin Zielvorhersagen verstärken, finden wir, dass informative Überwachungssignale in den eigenen historischen Schwachzuständen der Modelle latent vorhanden bleiben. Angeregt durch diese Beobachtung schlagen wir WMSS (Weak Agents Can Make Strong Agents Stronger – Schwache Agenten können starke Agenten stärker machen) vor, ein Nachtraining-Paradigma, das schwache Checkpoints nutzt, um die weitere Optimierung zu steuern. Durch die Identifikation von behebbaren Lernlücken mittels Entropiedynamik und deren Verstärkung durch kompensatorisches Lernen ermöglicht WMSS starken Agenten, sich über die konventionelle Nachtrainingssättigung hinaus zu verbessern. Experimente mit mathematischen Reasoning- und Codegenerierungs-Datensätzen zeigen, dass mit unserem Ansatz trainierte Agenten effektive Leistungssteigerungen erzielen, ohne zusätzliche Inferenzkosten zu verursachen.
Audio ist für Videos in der realen Welt unverzichtbar, doch Generierungsmodelle haben Audiokomponenten weitgehend vernachlässigt. Aktuelle Ansätze zur Erzeugung audiovisueller Inhalte basieren häufig auf kaskadierten Pipelines, die Kosten erhöhen, Fehler akkumulieren und die Gesamtqualität beeinträchtigen. Während Systeme wie Veo 3 und Sora 2 den Wert simultaner Generierung betonen, bringt die gemeinsame multimodale Modellierung einzigartige Herausforderungen in Architektur, Daten und Training mit sich. Zudem hemmt die proprietäre Natur bestehender Systeme den Fortschritt auf diesem Gebiet. In dieser Arbeit stellen wir MOVA (MOSS Video and Audio) vor, ein Open-Source-Modell zur Generierung hochwertiger, synchronisierter audiovisueller Inhalte – inklusive realistischer lippensynchroner Sprache, kontextbewusster Soundeffekte und inhaltsbezogener Musik. MOVA nutzt eine Mixture-of-Experts-Architektur (MoE) mit insgesamt 32 Mrd. Parametern, von denen 18 Mrd. während des Inferenzvorgangs aktiv sind. Es unterstützt die IT2VA-Generierungsaufgabe (Image-Text to Video-Audio). Durch die Veröffentlichung der Modellgewichte und des Codes wollen wir die Forschung vorantreiben und eine lebendige Community von Entwicklern fördern. Die veröffentlichte Codebasis umfasst umfassende Unterstützung für effiziente Inferenz, LoRA-Finetuning und Prompt-Optimierung.
Trotz des Erfolgs multimodalen kontrastiven Lernens bei der Ausrichtung visueller und linguistrischer Repräsentationen bleibt eine anhaltende geometrische Anomalie bestehen: die Modality Gap. Einbettungen verschiedener Modalitäten, die identische Semantik ausdrücken, besetzen systematisch versetzte Regionen. Bisherige Ansätze zur Überbrückung dieser Lücke sind weitgehend durch zu vereinfachende isotrope Annahmen eingeschränkt, was ihre Anwendung in großflächigen Szenarien behindert. In diesem Beitrag gehen wir auf diese Einschränkungen ein, indem wir die geometrische Form der Modality Gap präzise charakterisieren und sie für effizientes Modell-Scaling nutzbar machen. Zuerst schlagen wir die Fixed-frame Modality Gap Theory vor, die die Modality Gap innerhalb eines eingefrorenen Referenzrahmens in stabile Verzerrungen und anisotrope Residuen zerlegt. Angeleitet durch diese präzise Modellierung führen wir ReAlign ein, eine trainierungsfreie Modalitätsausrichtungsstrategie. Unter Nutzung von Statistiken aus massiven ungepaarten Daten richtet ReAlign Textrepräsentationen in die Verteilung der Bildrepräsentationen über einen dreistufigen Prozess aus, der Anchor-, Trace- und Centroid-Alignment umfasst und dadurch die geometrische Fehlausrichtung explizit korrigiert. Aufbauend auf ReAlign schlagen wir ReVision vor, ein skalierbares Trainingsparadigma für Multimodale Large Language Models (MLLMs). ReVision integriert ReAlign in die Pre-Training-Phase und ermöglicht es dem Modell, die Verteilung visueller Repräsentationen aus ungepaartem Text zu erlernen, noch bevor ein visuelles Instruction Tuning stattfindet – und dies ohne den Bedarf an großvolumigen, hochwertigen Bild-Text-Paaren. Unser Framework demonstriert, dass statistisch ausgerichtete, ungepaarte Daten teure Bild-Text-Paare effektiv ersetzen können und damit einen robusten Pfad für das effiziente Skalieren von MLLMs eröffnen.
Aktuelle Vision-Language-Action (VLA)-Modelle arbeiten mit einer festen Rechentiefe und verwenden die gleiche Rechenleistung für einfache Anpassungen wie für komplexe Mehrschritt-Manipulationen. Während Chain-of-Thought (CoT)-Prompting variable Berechnungen ermöglicht, skaliert es den Speicherbedarf linear und ist für kontinuierliche Aktionsräume ungeeignet. Wir stellen Recurrent-Depth VLA (RD-VLA) vor, eine Architektur, die Rechenanpassungsfähigkeit durch latente iterative Verfeinerung anstelle expliziter Token-Erzeugung erreicht. RD-VLA verwendet einen rekurrenten, gewichtsgebundenen Aktionskopf, der beliebige Inferenztiefen mit konstantem Speicherbedarf unterstützt. Das Modell wird mit truncated Backpropagation Through Time (TBPTT) trainiert, um den Verfeinerungsprozess effizient zu überwachen. Bei der Inferenz weist RD-VLA Rechenleistung dynamisch mittels eines adaptiven Stoppkriteriums basierend auf latenter Konvergenz zu. Experimente mit anspruchsvollen Manipulationsaufgaben zeigen, dass rekurrente Tiefe entscheidend ist: Aufgaben, die bei Einzeliteration-Inferenz vollständig scheitern (0 % Erfolgsrate), erreichen mit vier Iterationen über 90 % Erfolgsrate, während einfachere Aufgaben schnell sättigen. RD-VLA bietet einen skalierbaren Weg zur Testzeit-Rechenleistung in der Robotik, ersetzt token-basiertes Reasoning durch latentes Reasoning und erreicht damit konstanten Speicherverbrauch und bis zu 80-fache Beschleunigung der Inferenz gegenüber früheren reasoning-basierten VLA-Modellen. Projektseite: https://rd-vla.github.io/
LLM-Agenten bergen ein erhebliches Potenzial für die Weiterentwicklung der wissenschaftlichen Forschung. Um diesen Fortschritt zu beschleunigen, stellen wir AIRS-Bench (den AI Research Science Benchmark) vor, eine Sammlung von 20 Aufgaben, die aus aktuellen maschinellen Lernpublikationen stammen. Diese Aufgaben umfassen verschiedene Domänen, darunter Sprachmodellierung, Mathematik, Bioinformatik und Zeitreihenvorhersage. Die AIRS-Bench-Aufgaben bewerten agentenbasierte Fähigkeiten über den gesamten Forschungslebenszyklus – einschließlich Ideengenerierung, Experimentanalyse und iterativer Verbesserung – ohne bereitgestellten Referenzcode. Das AIRS-Bench-Aufgabenformat ist vielseitig und ermöglicht eine einfache Integration neuer Aufgaben sowie einen rigorosen Vergleich verschiedener Agenten-Frameworks. Wir etablieren Baseline-Werte mit modernsten Modellen in Kombination mit sequenziellen und parallelen Scaffolds. Unsere Ergebnisse zeigen, dass Agenten bei vier Aufgaben den menschlichen State-of-the-Art übertreffen, bei sechzehn anderen jedoch darunter bleiben. Selbst wenn Agenten menschliche Benchmarks übertreffen, erreichen sie nicht die theoretische Leistungsobergrenze der zugrundeliegenden Aufgaben. Diese Ergebnisse deuten darauf hin, dass AIRS-Bench noch lange nicht ausgeschöpft ist und erheblichen Verbesserungsspielraum bietet. Wir veröffentlichen die AIRS-Bench-Aufgabendefinitionen und den Evaluierungscode als Open Source, um die weitere Entwicklung autonomer wissenschaftlicher Forschung voranzutreiben.
Wir stellen InternAgent-1.5 vor, ein einheitliches System, das für end-to-end wissenschaftliche Entdeckungen in rechnerischen und empirischen Domänen konzipiert ist. Das System basiert auf einer strukturierten Architektur, die aus drei koordinierten Subsystemen für Generierung, Verifikation und Evolution besteht. Diese Subsysteme werden durch grundlegende Fähigkeiten für tiefgehende Forschung, Lösungsoptimierung und Langzeitgedächtnis unterstützt. Die Architektur ermöglicht es InternAgent-1.5, kontinuierlich über längere Entdeckungszyklen hinweg zu operieren und dabei kohärentes und sich verbesserndes Verhalten beizubehalten. Sie befähigt das System auch, rechnerische Modellierung und Laborexperimente innerhalb eines einzigen, einheitlichen Systems zu koordinieren. Wir evaluieren InternAgent-1.5 anhand wissenschaftlicher Reasoning-Benchmarks wie GAIA, HLE, GPQA und FrontierScience, wobei das System eine führende Leistung erzielt, die starke grundlegende Fähigkeiten demonstriert. Über diese Benchmarks hinaus bewerten wir weiterhin zwei Kategorien von Entdeckungsaufgaben. In Algorithmen-Entdeckungsaufgaben entwirft InternAgent-1.5 autonom wettbewerbsfähige Methoden für zentrale Probleme des maschinellen Lernens. In empirischen Entdeckungsaufgaben führt es vollständige rechnerische oder Labor-Experimente durch und erzeugt wissenschaftliche Erkenntnisse in den Bereichen Geowissenschaften, Lebenswissenschaften, Biologie und Physik. Insgesamt zeigen diese Ergebnisse, dass InternAgent-1.5 einen allgemeinen und skalierbaren Rahmen für autonome wissenschaftliche Entdeckungen bereitstellt.
Während LLaDA2.0 das Skalierungspotenzial von Block-Diffusionsmodellen im 100-Milliarden-Parameter-Bereich und deren inhärente Parallelisierbarkeit demonstrierte, ist das empfindliche Gleichgewicht zwischen Decodiergeschwindigkeit und Generierungsqualität eine schwer fassbare Grenze geblieben. Heute enthüllen wir LLaDA2.1, einen Paradigmenwechsel, der diesen Zielkonflikt überwinden soll. Durch die nahtlose Integration von Token-zu-Token (T2T)-Editierung in das konventionelle Mask-zu-Token (M2T)-Schema führen wir ein gemeinsames, konfigurierbares Schwellenwert-Decodierverfahren ein. Diese strukturelle Innovation führt zu zwei distincten Persönlichkeiten: den Schnellmodus (S-Modus), der kühn den M2T-Schwellenwert senkt, um traditionelle Beschränkungen zu umgehen, und sich auf T2T verlässt, um die Ausgabe zu verfeinern; und den Qualitätsmodus (Q-Modus), der auf konservative Schwellenwerte setzt, um überlegene Benchmark-Leistungen mit vertretbarem Effizienzverlust zu sichern. Als Weiterentwicklung und gestützt auf ein erweitertes Kontextfenster implementieren wir den ersten groß angelegten Reinforcement-Learning (RL)-Rahmen, der speziell für dLLMs maßgeschneidert ist und durch spezielle Techniken zur stabilen Gradientenschätzung verankert wird. Diese Ausrichtung schärft nicht nur die Präzision des logischen Schlussfolgerns, sondern steigert auch die Treue bei der Befolgung von Anweisungen und überbrückt so die Kluft zwischen Diffusionsdynamik und komplexer menschlicher Intentionalität. Wir beschließen diese Arbeit mit der Veröffentlichung von LLaDA2.1-Mini (16B) und LLaDA2.1-Flash (100B). In 33 rigorosen Benchmarks erzielt LLaDA2.1 eine starke Aufgabenleistung und eine blitzschnelle Decodiergeschwindigkeit. Trotz seiner 100 Milliarden Parameter erreicht es bei Coding-Aufgaben eine erstaunliche Geschwindigkeit von 892 TPS auf HumanEval+, 801 TPS auf BigCodeBench und 663 TPS auf LiveCodeBench.
Online Policy Learning direkt in der physischen Welt ist eine vielversprechende, aber herausfordernde Richtung für verkörperte Intelligenz. Im Gegensatz zur Simulation können Echtzeitsysteme nicht beliebig beschleunigt, kostengünstig zurückgesetzt oder massenhaft repliziert werden, was skalierbare Datenerfassung, heterogene Bereitstellung und effektives Training über lange Zeithorizonte erschwert. Diese Herausforderungen zeigen, dass Echtzeit-Policy-Learning nicht nur ein algorithmisches Problem ist, sondern grundlegend ein Systemproblem. Wir präsentieren USER, ein Unified and extensible SystEm for Real-world online policy learning. USER behandelt physische Roboter als First-Class-Hardwareressourcen neben GPUs durch eine einheitliche Hardwareabstraktionsschicht, die automatische Erkennung, Verwaltung und Planung heterogener Roboter ermöglicht. Zur Bewältigung der Cloud-Edge-Kommunikation führt USER eine adaptive Kommunikationsebene mit tunnelingbasierter Vernetzung, verteilten Datenkanälen zur Traffic-Lokalisierung und streamingmultiprozessororientierter Gewichtssynchronisation ein, um GPU-seitigen Overhead zu regulieren. Auf dieser Infrastruktur aufbauend organisiert USER das Lernen als vollständig asynchrones Framework mit einem persistenten, cachebewussten Puffer, das effiziente Langzeitexperimente mit robustem Absturz-Wiederherstellungsmechanismus und Wiederverwendung historischer Daten ermöglicht. Zudem bietet USER erweiterbare Abstraktionen für Belohnungen, Algorithmen und Policies, die Online-Imitation oder Reinforcement Learning von CNN/MLP, generativen Policies und großen Vision-Language-Action (VLA)-Modellen innerhalb einer einheitlichen Pipeline unterstützen. Ergebnisse sowohl in der Simulation als auch in der realen Welt zeigen, dass USER Multi-Roboter-Koordination, heterogene Manipulatoren, Edge-Cloud-Kollaboration mit großen Modellen und langlaufendes asynchrones Training ermöglicht und damit eine einheitliche und erweiterbare Systemgrundlage für Echtzeit-Online-Policy-Learning bietet.
Die Konvergenz von künstlicher Intelligenz und Materialwissenschaft bietet eine transformative Chance, doch eine echte Beschleunigung der Entdeckung erfordert einen Wechsel von aufgabenisolierten, feinabgestimmten Modellen hin zu agentenbasierten Systemen, die über den gesamten Entdeckungszyklus hinweg planen, handeln und lernen. Dieser Übersichtsartikel vertritt eine einzigartige, pipeline-zentrierte Sichtweise, die von der Korpuskuratierung und Vorabtrainierung über Domänenanpassung und Instruktionsfeinabstimmung bis hin zu zielkonditionierten Agenten reicht, die mit Simulations- und Experimentierplattformen interagieren. Im Gegensatz zu früheren Übersichtsarbeiten behandeln wir den gesamten Prozess als ein End-to-End-System, das auf greifbare Entdeckungsergebnisse und nicht auf Stellvertreter-Benchmarks optimiert werden soll. Diese Perspektive ermöglicht es uns nachzuvollziehen, wie Upstream-Entwurfsentscheidungen – wie Datenkuratierung und Trainingsziele – durch effektive Kreditzuweisung auf den Downstream-Erfolg im Experiment ausgerichtet werden können. Um Gemeinschaften zu verbinden und einen gemeinsamen Referenzrahmen zu schaffen, stellen wir zunächst eine integrierte Sichtweise vor, die Terminologie, Evaluierung und Arbeitsablaufschritte in der KI und Materialwissenschaft abstimmt. Anschließend analysieren wir das Feld durch zwei fokussierte Linsen: Aus KI-Perspektive werden die Stärken von LLMs in den Bereichen Mustererkennung, prädiktive Analytik und natürliche Sprachverarbeitung für Literaturrecherche, Materialcharakterisierung und Eigenschaftsvorhersage detailliert beschrieben; aus materialwissenschaftlicher Perspektive werden Anwendungen im Materialdesign, der Prozessoptimierung und der Beschleunigung computergestützter Arbeitsabläufe durch Integration externer Werkzeuge (z.B. DFT, Robotiklabore) hervorgehoben. Abschließend kontrastieren wir passive, reaktive Ansätze mit agentenbasierter Gestaltung, katalogisieren aktuelle Beiträge und plädieren für Systeme, die langfristige Ziele mit Autonomie, Gedächtnis und Werkzeugeinsatz verfolgen. Dieser Übersichtsartikel skizziert eine praktische Roadmap hin zu autonomen, sicherheitsbewussten LLM-Agenten, die auf die Entdeckung neuartiger und nützlicher Materialien abzielen.
Die Anwendung von GRPO auf Flow-Matching-Modelle hat sich für die Text-zu-Bild-Generierung als wirksam erwiesen. Bisherige Paradigmen propagieren jedoch typischerweise eine ergebnisbasierte Belohnung über alle vorhergehenden Denoising-Schritte hinweg, ohne die lokale Wirkung jedes Schrittes zu unterscheiden. Darüber hinaus vergleicht das aktuelle gruppenweise Ranking hauptsächlich Trajektorien zu gleichen Zeitpunkten und ignoriert Abhängigkeiten innerhalb der Trajektorie, bei denen bestimmte frühe Denoising-Aktionen spätere Zustände über verzögerte, implizite Interaktionen beeinflussen können. Wir schlagen TurningPoint-GRPO (TP-GRPO) vor, ein GRPO-Framework, das die schrittweise Belohnungssparsität verringert und Langzeiteffekte innerhalb der Denoising-Trajektorie explizit modelliert. TP-GRPO führt zwei wesentliche Innovationen ein: (i) Es ersetzt ergebnisbasierte Belohnungen durch schrittweise inkrementelle Belohnungen, die ein dichtes, schrittbewusstes Lernsignal bereitstellen und so die "reine" Wirkung jeder Denoising-Aktion besser isolieren, und (ii) es identifiziert Wendepunkte – Schritte, die den lokalen Belohnungstrend umkehren und die nachfolgende Belohnungsentwicklung mit dem Gesamttrend der Trajektorie in Einklang bringen – und weist diesen Aktionen eine aggregierte Langzeitbelohnung zu, um ihre verzögerte Wirkung zu erfassen. Wendepunkte werden ausschließlich über Vorzeichenwechsel in den inkrementellen Belohnungen erkannt, was TP-GRPO effizient und hyperparameterfrei macht. Umfangreiche Experimente belegen zudem, dass TP-GRPO Belohnungssignale effektiver nutzt und die Generierung konsistent verbessert. Democode ist verfügbar unter https://github.com/YunzeTong/TurningPoint-GRPO.
Aktuelle Fortschritte bei Bildgenerierungsmodellen ermöglichen die Vorhersage zukünftiger Zustände grafischer Benutzeroberflächen (GUI) basierend auf Benutzeranweisungen. Bestehende Benchmarks konzentrieren sich jedoch hauptsächlich auf die allgemeine visuelle Qualität, wodurch die Bewertung von Zustandsübergängen und zeitlicher Kohärenz in GUI-spezifischen Kontexten untererforscht bleibt. Um diese Lücke zu schließen, stellen wir GEBench vor, einen umfassenden Benchmark zur Bewertung dynamischer Interaktionen und zeitlicher Kohärenz in der GUI-Generierung. GEBench umfasst 700 sorgfältig zusammengestellte Beispiele aus fünf Aufgabenkategorien, die sowohl Einzelschritt-Interaktionen als auch Mehrschritt-Trajektorien in realen und fiktiven Szenarien sowie die Lokalisierung von Referenzpunkten abdecken. Zur systematischen Evaluation schlagen wir GE-Score vor, eine neuartige fünfdimensionale Metrik, die Zielerreichung, Interaktionslogik, Inhaltskonsistenz, GUI-Plausibilität und visuelle Qualität bewertet. Umfangreiche Evaluationen aktueller Modelle zeigen, dass diese zwar gute Leistungen bei Einzelschritt-Übergängen erbringen, jedoch erhebliche Schwierigkeiten haben, zeitliche Kohärenz und räumliche Verankerung über längere Interaktionssequenzen aufrechtzuerhalten. Unsere Ergebnisse identifizieren die Ikoneninterpretation, Textdarstellung und Lokalisierungspräzision als kritische Engpässe. Diese Arbeit legt eine Grundlage für systematische Bewertungen und weist vielversprechende Richtungen für zukünftige Forschung zur Entwicklung hochwertiger generativer GUI-Umgebungen auf. Der Code ist verfügbar unter: https://github.com/stepfun-ai/GEBench.
Die Lösung offener wissenschaftlicher Fragen bleibt eine Herausforderung für große Sprachmodelle, insbesondere aufgrund inhärent unzuverlässiger Supervision und Evaluation. Der Engpass liegt in der Datenerstellung und Reward-Design für wissenschaftliches Post-Training. Wir entwickeln eine groß angelegte, systematische Datenverarbeitungspipeline, die heterogene Open-Source-Wissenschaftsdaten in den Dr. SCI-Datensatz transformiert. Dieser umfasst 1 Million Fragen aus acht MINT-Fächern mit expliziten verifizierbaren/offenen Aufteilungen, skalierbaren Schwierigkeitsannotationen und feinkörnigen Bewertungsrastern, die die Evaluation offener Antworten operationalisieren. Aufbauend auf diesem Datensatz schlagen wir die Dr. SCI-Post-Training-Pipeline vor, die den standardmäßigen SFT->RL-Workflow durch drei Komponenten neu gestaltet: (i) Exploration-Expanding SFT, das die Abdeckung der Reasoning-Muster des Modells vor dem RL-Training erweitert; (ii) Dynamic Difficulty Curriculum, das die Trainingsdaten an die sich entwickelnde wissenschaftliche Fähigkeit des Modells anpasst; und (iii) SciRubric-Guided RL, das stabiles Reinforcement Learning für offene wissenschaftliche Fragen durch rasterbasierte Evaluation mit expliziter Antwortkorrektheit ermöglicht. Das mit der Dr. SCI-Pipeline trainierte Qwen3-4B-Base erzielt 63,2 auf GPQA-diamond und 32,4 auf GPQA-general, übertrifft konsistent starke post-trainierte Baselines wie o1-mini und GPT-4o und demonstriert substanzielle Fortschritte im wissenschaftlichen Reasoning, insbesondere in offenen Settings.
Trotz der wachsenden Videoverständnisfähigkeiten aktueller Multimodaler Großer Sprachmodelle (MLLMs) bewerten bestehende Video-Benchmarks primär das Verständnis auf Basis des statischen, internen Wissens der Modelle, anstatt ihrer Fähigkeit, aus dynamischen, neuartigen Kontexten mit wenigen Beispielen zu lernen und sich anzupassen. Um diese Lücke zu schließen, stellen wir Demo-gesteuertes Video-In-Context-Lernen vor, eine neuartige Aufgabe, die sich auf das Lernen aus In-Context-Demonstrationen zur Beantwortung von Fragen zu Zielvideos konzentriert. Dazu schlagen wir Demo-ICL-Bench vor, eine anspruchsvolle Benchmark zur Bewertung von Demo-gesteuerten Video-In-Context-Lernfähigkeiten. Demo-ICL-Bench wurde aus 1200 instruktionalen YouTube-Videos mit zugehörigen Fragen erstellt, aus denen zwei Arten von Demonstrationen abgeleitet werden: (i) die Zusammenfassung von Videountertiteln für Textdemonstrationen und (ii) entsprechende instruktionale Videos als Videodemonstrationen. Um diese neue Herausforderung effektiv zu bewältigen, entwickeln wir Demo-ICL, ein MLLM mit einer Zwei-Phasen-Trainingsstrategie: videoüberwachtes Feintuning und informationsgestützte Direct Preference Optimization, die gemeinsam die Fähigkeit des Modells verbessern, aus In-Context-Beispielen zu lernen. Umfangreiche Experimente mit state-of-the-art MLLMs bestätigen die Schwierigkeit von Demo-ICL-Bench, demonstrieren die Wirksamkeit von Demo-ICL und zeigen damit zukünftige Forschungsrichtungen auf.
Speicher wird für Agenten auf Basis großer Sprachmodelle (LLM), die über ein einzelnes Kontextfenster hinaus operieren, zunehmend zentral, doch die meisten bestehenden Systeme verlassen sich auf offline, abfrageunabhängige Speicherkonstruktion, die ineffizient sein und abfragekritische Informationen verwerfen kann. Obwohl die Laufzeit-Speichernutzung eine naheliegende Alternative darstellt, verursachen frühere Ansätze oft erheblichen Overhead und bieten nur begrenzte explizite Kontrolle über den Leistungs-Kosten-Kompromiss. In dieser Arbeit stellen wir BudgetMem vor, ein Laufzeit-Agentenspeicherframework für explizite, abfragebewusste Leistungs-Kosten-Steuerung. BudgetMem strukturiert die Speicherverarbeitung als eine Reihe von Speichermodulen, die jeweils in drei Budgetstufen (d.h. Niedrig/Mittel/Hoch) angeboten werden. Ein leichtgewichtiger Router führt eine Budgetstufen-Routing über Module hinweg durch, um Aufgabenleistung und Speicherkonstruktionskosten abzuwägen. Dies wird als kompakte neuronale Policy implementiert, die mit bestärkendem Lernen trainiert wird. Unter Verwendung von BudgetMem als einheitlicher Testplattform untersuchen wir drei komplementäre Strategien zur Realisierung von Budgetstufen: Implementierung (Methodenkomplexität), Reasoning (Inferenzverhalten) und Kapazität (Modellgröße des Moduls). Auf LoCoMo, LongMemEval und HotpotQA übertrifft BudgetMem starke Baseline-Methoden, wenn die Leistung priorisiert wird (d.h. im Hochbudget-Betrieb), und liefert bessere Genauigkeits-Kosten-Grenzen unter strengeren Budgets. Darüber hinaus entwirrt unsere Analyse die Stärken und Schwächen verschiedener Stufenstrategien und klärt auf, wann jede Achse unter variierenden Budgetregimen die günstigsten Kompromisse liefert.
Große Sprachmodelle (LLMs) sind zunehmend in der Lage, langandauernde, realweltliche Aufgaben auszuführen. Allerdings verschlechtert sich ihre Zuverlässigkeit oft mit wachsender Kontextmenge, ein Phänomen, das als "Kontextverfall" bekannt ist. Bestehende Benchmarks für langen Kontext konzentrieren sich hauptsächlich auf Einzelschritt-Szenarien, die die Fähigkeit eines Modells bewerten, Informationen aus einem langen Textabschnitt abzurufen. In realistischen Szenarien müssen LLMs jedoch oft als Agenten agieren, die Umgebungen erkunden, Anweisungen und Pläne befolgen, nützliche Informationen extrahieren und korrekte Aktionen unter dynamisch wachsendem Kontext vorhersagen. Um Sprachagenten in solchen Settings zu bewerten, führen wir LOCA-bench (eine Benchmark für LOng-Context Agents) ein. Ausgehend von einer Aufgabenaufforderung nutzt LOCA-bench eine automatisierte und skalierbare Steuerung von Umweltzuständen, um die Kontextlänge des Agenten zu regulieren. Dieser Aufbau ermöglicht es LOCA-bench, die Kontextlänge auf kontrollierte Weise potenziell bis ins Unendliche zu erweitern, während die zugrundeliegende Aufgaben-Semantik unverändert bleibt. LOCA-bench bewertet Sprachagenten als Kombination von Modellen und Gerüststrukturen, einschließlich verschiedener Kontextmanagement-Strategien. Während die Agentenleistung im Allgemeinen abnimmt, wenn die Umweltzustände komplexer werden, können fortschrittliche Kontextmanagement-Techniken die Gesamterfolgsquote erheblich verbessern. Wir veröffentlichen LOCA-bench als Open Source, um eine Plattform zur Bewertung von Modellen und Gerüststrukturen in langen Kontexten und agentenbasierten Szenarien bereitzustellen: https://github.com/hkust-nlp/LOCA-bench
Die Weiterentwicklung großer Sprachmodelle (LLM) hat die Entwicklung von Suchagenten erheblich beschleunigt, die in der Lage sind, autonom Informationen durch mehrschrittige Web-Interaktionen zu sammeln. Es wurden verschiedene Benchmarks vorgeschlagen, um solche Agenten zu bewerten. Bestehende Benchmarks konstruieren Abfragen jedoch oft rückwärts aus Antworten, was zu unnatürlichen Aufgaben führt, die nicht mit den realen Anforderungen übereinstimmen. Darüber hinaus konzentrieren sich diese Benchmarks tendenziell entweder auf das Auffinden spezifischer Informationen oder auf die Aggregation von Informationen aus mehreren Quellen, während sie sich auf statische Antwortmengen stützen, die anfällig für Datenkontamination sind. Um diese Lücken zu schließen, stellen wir GISA vor, einen Benchmark für allgemeine informationssuchende Assistenten, der 373 von Menschen erstellte Abfragen umfasst, die authentische Informationssuch-Szenarien widerspiegeln. GISA zeichnet sich durch vier strukturierte Antwortformate (Element, Menge, Liste und Tabelle) aus, die eine deterministische Bewertung ermöglichen. Es integriert sowohl tiefgehende Schlussfolgerungen als auch breite Informationsaggregation innerhalb vereinheitlichter Aufgaben und enthält einen Live-Teil mit periodisch aktualisierten Antworten, um Auswendiglernen zu erschweren. Besonders hervorzuheben ist, dass GISA für jede Abfrage vollständige menschliche Suchverläufe bereitstellt, die Goldstandard-Referenzen für die Prozessüberwachung und Imitationslernen bieten. Experimente mit gängigen LLMs und kommerziellen Suchprodukten zeigen, dass selbst das leistungsstärkste Modell nur eine exakte Trefferquote von 19,30 % erreicht, wobei die Leistung insbesondere bei Aufgaben, die komplexe Planung und umfassende Informationsbeschaffung erfordern, deutlich abfällt. Diese Ergebnisse verdeutlichen ein erhebliches Verbesserungspotenzial für die Zukunft.
Die Ausführung komplexer Terminalaufgaben bleibt eine erhebliche Herausforderung für Open-Weight-LLMs, die durch zwei grundlegende Einschränkungen beeinträchtigt wird. Erstens sind hochwertige, ausführbare Trainingsumgebungen rar: Aus realen Repositories synthetisierte Umgebungen sind nicht vielfältig und skalierbar genug, während von LLMs generierte Trajektorien unter Halluzinationen leiden. Zweitens nutzt standardmäßiges Instruction Tuning Expertentrajektorien, die selten einfache Fehler aufweisen, die bei kleineren Modellen häufig vorkommen. Dies führt zu einer Verteilungsdiskordanz, die Studentenmodelle unzureichend auf die Bewältigung eigener Laufzeitfehler vorbereitet. Um diese Lücken zu schließen, stellen wir TermiGen vor, eine End-to-End-Pipeline zur Synthese verifizierbarer Umgebungen und robuster Expertentrajektorien. TermiGen generiert zunächst funktional valide Aufgaben und Docker-Container über eine iterative Multi-Agenten-Verfehlerungsschleife. Anschließend setzen wir ein Generator-Critic-Protokoll ein, das aktiv Fehler während der Trajektoriensammlung injiziert und so Daten mit vielen Fehlerkorrekturzyklen synthetisiert. Auf diesem TermiGen-generierten Datensatz feintuning-optimiert, erzielt unser TermiGen-Qwen2.5-Coder-32B eine Passrate von 31,3 % auf TerminalBench. Dies etabliert einen neuen State-of-the-Art für Open-Weight-Modelle, übertrifft bestehende Baselines und überholt bemerkenswerterweise leistungsfähige proprietäre Modelle wie o4-mini. Der Datensatz ist verfügbar unter https://github.com/ucsb-mlsec/terminal-bench-env.
Die Erstellung tiefgehender Forschungsberichte erfordert die großflächige Erfassung von Informationen und die Synthese erkenntnisgetriebener Analysen, was eine erhebliche Herausforderung für aktuelle Sprachmodelle darstellt. Die meisten bestehenden Ansätze folgen einem Plan-then-write-Paradigma, dessen Leistung stark von der Qualität des anfänglichen Gliederungsentwurfs abhängt. Die Erstellung einer umfassenden Gliederung erfordert jedoch selbst hohe reasoning-Fähigkeiten, weshalb aktuelle Systeme für tiefgehende Recherchen fast ausschließlich auf Closed-Source- oder Online-Großmodelle angewiesen sind. Diese Abhängigkeit schafft praktische Barrieren für den Einsatz und birgt Sicherheits- und Datenschutzrisiken für nutzergenerierte Daten. In dieser Arbeit stellen wir AgentCPM-Report vor, eine leichtgewichtige, aber leistungsstarke lokale Lösung, bestehend aus einem Framework, das den menschlichen Schreibprozess nachbildet, und einem Deep-Research-Agenten mit 8 Milliarden Parametern. Unser Framework nutzt eine Writing As Reasoning Policy (WARP), die es Modellen ermöglicht, Gliederungen während der Berichterstellung dynamisch zu überarbeiten. Im Rahmen dieser Policy wechselt der Agent zwischen evidenzbasierter Entwurfserstellung und reasoning-gesteuerter Vertiefung, wodurch gemeinsam Informationsbeschaffung, Wissensverfeinerung und iterative Gliederungsentwicklung unterstützt werden. Um kleinen Modellen diese Fähigkeit effektiv zu vermitteln, führen wir eine Multi-Stage Agentic Training-Strategie ein, bestehend aus Cold-Start, Reinforcement Learning für atomare Fähigkeiten und Reinforcement Learning für ganzheitliche Pipelines. Experimente auf DeepResearch Bench, DeepConsult und DeepResearch Gym zeigen, dass AgentCPM-Report führende Closed-Source-Systeme übertrifft, mit erheblichen Verbesserungen bei der Erkenntnistiefe (Insight).
Räumliche verkörperte Intelligenz erfordert, dass Agenten unter partieller Beobachtbarkeit handeln, um Informationen zu erlangen. Während multimodale Foundation-Modelle in passiver Wahrnehmung exzellieren, ist ihre Fähigkeit zur aktiven, selbstgesteuerten Exploration noch wenig erforscht. Wir schlagen die Theorie des Raums vor, definiert als die Fähigkeit eines Agenten, durch selbstgesteuerte, aktive Exploration aktiv Informationen zu erwerben und aus sequenziellen, partiellen Beobachtungen eine räumliche Überzeugung zu konstruieren, zu revidieren und zu nutzen. Wir evaluieren dies anhand eines Benchmarks, bei dem das Ziel eine neugiergetriebene Exploration zur Erstellung einer akkuraten kognitiven Karte ist. Eine Schlüsselinnovation ist die Abfrage der räumlichen Überzeugung, bei der Modelle aufgefordert werden, ihre internen räumlichen Repräsentationen in jedem Schritt preiszugeben. Unsere Evaluation modernster Modelle zeigt mehrere kritische Engpässe auf. Erstens identifizieren wir eine Aktiv-Passiv-Lücke, bei der die Leistung signifikant abfällt, wenn Agenten Informationen autonom sammeln müssen. Zweitens stellen wir eine hohe Ineffizienz fest, da Modelle im Vergleich zu programmbasierten Stellvertretern unsystematisch explorieren. Durch die Überzeugungsabfrage diagnostizieren wir, dass Wahrnehmung zwar ein initialer Engpass ist, globale Überzeugungen jedoch unter Instabilität leiden, die räumliches Wissen über Zeit degradieren lässt. Schließlich decken wir mithilfe eines Paradigmas der falschen Überzeugung eine Überzeugungsträgheit auf, bei der Agenten veraltete Prioritäten nicht mit neuen Evidenzen aktualisieren. Dieses Problem tritt bei textbasierten Agenten auf, ist jedoch bei visuationsbasierten Modellen besonders ausgeprägt. Unsere Ergebnisse legen nahe, dass aktuelle Foundation-Modelle Schwierigkeiten haben, während aktiver Exploration kohärente, revisierbare räumliche Überzeugungen aufrechtzuerhalten.
Diese Arbeit stellt WorldCompass vor, ein neuartiges Reinforcement-Learning-(RL)-Nachtrainierungs-Framework für langfristige, interaktive videobasierte Weltmodelle, das es diesen ermöglicht, die Welt basierend auf Interaktionssignalen genauer und konsistenter zu erkunden. Um die Exploration des Weltmodells effektiv zu "steuern", führen wir drei zentrale Innovationen ein, die auf das autoregressive Videogenerierungs-Paradigma zugeschnitten sind: 1) Clip-basierte Rollout-Strategie: Wir generieren und bewerten mehrere Stichproben für einen einzelnen Ziel-Clip, was die Rollout-Effizienz erheblich steigert und fein granulare Belohnungssignale liefert. 2) Komplementäre Belohnungsfunktionen: Wir entwerfen Belohnungsfunktionen sowohl für die Interaktionsfolgegenauigkeit als auch für die visuelle Qualität, die direkte Aufsicht bieten und Belohnungsmanipulation effektiv unterdrücken. 3) Effizienter RL-Algorithmus: Wir setzen die negativitätsbewusste Feinabstimmung (Negative-Aware Fine-Tuning) in Verbindung mit verschiedenen Effizienzoptimierungen ein, um die Modellkapazität effizient und effektiv zu steigern. Evaluationen am state-of-the-art Open-Source-Weltmodell WorldPlay zeigen, dass WorldCompass die Interaktionsgenauigkeit und visuelle Treue in verschiedenen Szenarien signifikant verbessert.
Chemische Large Language Models (LLMs) stützen sich überwiegend auf explizite Chain-of-Thought (CoT) in natürlicher Sprache, um komplexe Schlussfolgerungen durchzuführen. Chemisches Denken ist jedoch inhärent kontinuierlich und strukturell, und die Zwangsjacke diskreter linguistischer Tokens führt zu einer grundlegenden Repräsentationslücke, die sowohl Effizienz als auch Leistung beeinträchtigt. Wir stellen LatentChem vor, eine latente Reasoning-Schnittstelle, die die chemische Berechnung von der textuellen Generierung entkoppelt. Dies ermöglicht es Modellen, mehrstufige Schlussfolgerungen direkt im kontinuierlichen latenten Raum durchzuführen, während Sprache nur für die endgültigen Ausgaben genutzt wird. Bemerkenswerterweise beobachten wir ein konsistentes emergentes Verhalten: Wenn Modelle ausschließlich auf Aufgabenerfolg optimiert werden, internalisieren sie das Reasoning spontan und verlassen zunehmend ausführliche textuelle Ableitungen zugunsten impliziter latenter Berechnungen. Diese Verschiebung ist nicht nur stilistisch, sondern recheneffizient vorteilhaft. In verschiedenen chemischen Reasoning-Benchmarks erzielt LatentChem eine Non-Tie-Win-Rate von 59,88 % gegenüber starken CoT-basierten Baselines auf ChemCoTBench und erreicht dabei eine durchschnittliche Beschleunigung des Inferenzvorgangs um den Faktor 10,84. Unsere Ergebnisse liefern empirische Belege dafür, dass chemisches Reasoning natürlicher und effektiver als kontinuierliche latente Dynamik realisiert wird denn als diskretisierte linguistische Trajektorien.
Langzeit-Inferenz mit Large Language Models (LLMs) ist aufgrund quadratischer Aufmerksamkeitskosten und wachsender Key-Value-Caches kostspielig, was die Kompression des Kontexts motiviert. In dieser Arbeit untersuchen wir soft context compression, bei der ein langer Kontext in einen kleinen Satz kontinuierlicher Repräsentationen verdichtet wird. Bestehende Methoden nutzen typischerweise das LLM selbst als trainierbaren Kompressor und stützen sich auf schichtweise Selbstaufmerksamkeit, um Informationen iterativ zu aggregieren. Wir argumentieren, dass dieses Paradigma unter zwei strukturellen Limitierungen leidet: (i) progressive Überschreibung von Repräsentationen über Schichten hinweg und (ii) unkoordinierte Zuteilung der Kompressionskapazität über Tokens hinweg. Wir schlagen ComprExIT (Context Compression via Explicit Information Transmission) vor, ein leichtgewichtiges Framework, das soft compression in ein neues Paradigma überführt: explizite Informationsübertragung über eingefrorene LLM-Hidden-States. Dies entkoppelt die Kompression von der internen Selbstaufmerksamkeitsdynamik des Modells. ComprExIT führt (i) tiefenweise Übertragung durch, um mehrschichtige Informationen selektiv in Token-Anker zu übertragen und progressive Überschreibung zu mildern, sowie (ii) breitenweise Übertragung, um Anker über einen global optimierten Übertragungsplan in eine kleine Anzahl von Slots zu aggregieren und so eine koordinierte Zuteilung von Informationen zu gewährleisten. In sechs Question-Answering-Benchmarks übertrifft ComprExIT durchgängig state-of-the-art Kontextkompressionsmethoden, bei einem Zuwachs von nur ~1 % zusätzlichen Parametern, was demonstriert, dass explizite und koordinierte Informationsübertragung effektivere und robustere Langzeit-Kontextkompression ermöglicht.
Deduktion, Induktion und Abduktion sind grundlegende Denkparadigmen und zentral für das menschliche logische Denken. Obwohl die Verbesserung des logischen Denkens von Large Language Models (LLMs) bedeutende Forschungsanstrengungen angezogen hat, ist das Ausmaß, in dem diese grundlegenden Paradigmen Generalisierung bewirken, noch nicht systematisch erforscht worden. In dieser Studie beleuchten wir, wie das Zusammenspiel zwischen diesen Kernparadigmen das Denkverhalten von LLMs beeinflusst. Zu diesem Zweck sammeln wir zunächst einen neuen Datensatz von Denkpfaden aus symbolischen Aufgaben, die jeweils eines der drei grundlegenden Paradigmen adressieren, um von konkretem Weltwissen zu abstrahieren. Anschließend untersuchen wir wirksame Methoden, um diese Fähigkeiten in LLMs zu induzieren. Wir experimentieren mit einer Reihe von Methoden, darunter einfaches Fine-Tuning und komplexere Ansätze, um die Modelltiefe zu erhöhen oder ein dichtes Modell in ein Mixture-of-Experts-Modell umzuwandeln. Wir evaluieren die induzierten Modelle umfassend an realistischen, domänenübergreifenden Aufgaben, die vollständig in natürlicher Sprache formuliert sind und reales Weltwissen enthalten. Unsere Ergebnisse zeigen, dass unser Ansatz eine starke Generalisierbarkeit mit erheblichen Leistungssteigerungen (bis zu 14,60) über realistische Aufgaben hinweg erzielt.
Große Reasoning-Modelle (LRMs) erzielen eine hohe Leistung bei komplexen Reasoning-Aufgaben, indem sie lange, mehrstufige Reasoning-Trajektorien generieren. Die Skalierung zur Inferenzzeit verursacht jedoch erhebliche Bereitstellungskosten. Eine zentrale Herausforderung besteht darin, dass sich der Generierungsaufwand innerhalb einer einzelnen Ausgabe unterscheidet, während bestehende effizienzorientierte Ansätze diese Intra-Generierungs-Variation entweder ignorieren oder auf überwachtes Token-Level-Routing mit hoher Systemkomplexität angewiesen sind. Wir stellen RelayGen vor, ein trainierungsfreies, segmentbasiertes Laufzeit-Modellwechsel-Framework, das die Schwankungen im Aufwand beim langen Reasoning ausnutzt. Durch eine Offline-Analyse der Generierungsunsicherheit mittels Token-Wahrscheinlichkeitsmargen zeigen wir, dass eine grobgranulare, segmentbasierte Steuerung ausreicht, um Schwierigkeitsübergänge innerhalb einer Reasoning-Trajektorie zu erfassen. RelayGen identifiziert modellspezifische Wechselhinweise, die den Übergang zu Segmenten mit geringerem Schwierigkeitsgrad signalisieren, und delegiert deren Fortsetzung dynamisch an ein kleineres Modell, während das Reasoning mit hohem Schwierigkeitsgrad auf dem großen Modell erhalten bleibt. Über mehrere Reasoning-Benchmarks hinweg reduziert RelayGen die Inferenzlatenz erheblich, während der Großteil der Genauigkeit der großen Modelle erhalten bleibt. In Kombination mit spekulativer Dekodierung erreicht RelayGen eine bis zu 2,2-fache End-zu-Ende-Beschleunigung bei einem Genauigkeitsverlust von weniger als 2 %, ohne dass zusätzliches Training oder gelernte Routing-Komponenten erforderlich sind.
Gewichts-Only-Quantisierung hat sich als Standardansatz für die effiziente Bereitstellung großer Sprachmodelle (LLMs) etabliert. Bestehende Methoden scheitern jedoch daran, Modelle effizient auf binäre (1-Bit) Niveaus zu komprimieren, da sie entweder große Mengen an Daten und Rechenleistung erfordern oder zusätzlichen Speicherbedarf verursachen. In dieser Arbeit stellen wir NanoQuant vor, die erste Post-Training-Quantisierungsmethode (PTQ), die LLMs sowohl auf binäre als auch auf Sub-1-Bit-Niveaus komprimiert. NanoQuant formuliert Quantisierung als ein Problem der niedrigrangigen binären Faktorisierung und komprimiert Full-Precision-Gewichte zu niedrigrangigen binären Matrizen und Skalierungsfaktoren. Konkret nutzt es eine effiziente Alternating Direction Method of Multipliers (ADMM), um latente binäre Matrizen und Skalierungsfaktoren präzise zu initialisieren, und justiert die initialisierten Parameter anschließend durch einen Block- und Modellrekonstruktionsprozess. Folglich setzt NanoQuant eine neue Pareto-Grenze in der speicherarmen Post-Training-Quantisierung und erreicht state-of-the-art Genauigkeit selbst bei Sub-1-Bit-Kompressionsraten. NanoQuant macht die großflächige Bereitstellung auf Consumer-Hardware praktikabel. Beispielsweise komprimiert es Llama2-70B um das 25,8-fache in nur 13 Stunden auf einer einzelnen H100, was den Betrieb eines 70B-Modells auf einer Consumer-8-GB-GPU ermöglicht.
Foundation Models, einschließlich Large Language Models (LLMs), Multimodaler Large Language Models (MLLMs), Bildgenerierungsmodellen (d. h. Text-zu-Bild-Modelle und Bildbearbeitungsmodelle) und Videogenerierungsmodellen, haben sich zu essenziellen Werkzeugen mit breiten Anwendungen in verschiedenen Bereichen wie Recht, Medizin, Bildung, Finanzen, Wissenschaft und darüber hinaus entwickelt. Da diese Modelle zunehmend im realen Einsatz sind, ist die Gewährleistung ihrer Zuverlässigkeit und Verantwortung für Wissenschaft, Industrie und Regierungen von kritischer Bedeutung. Dieser Übersichtsartikel behandelt die zuverlässige und verantwortungsvolle Entwicklung von Foundation Models. Wir untersuchen kritische Themen, einschließlich Verzerrung und Fairness, Sicherheit und Privatsphäre, Unsicherheit, Erklärbarkeit und Distributionsverschiebung. Unsere Forschung behandelt auch Modellbeschränkungen, wie Halluzinationen, sowie Methoden wie Alignment und die Erkennung von KI-generierten Inhalten (AIGC). Für jeden Bereich geben wir einen Überblick über den aktuellen Stand des Feldes und skizzieren konkrete zukünftige Forschungsrichtungen. Zusätzlich diskutieren wir die Schnittstellen zwischen diesen Bereichen, heben ihre Verbindungen und gemeinsamen Herausforderungen hervor. Wir hoffen, dass unser Übersichtsartikel die Entwicklung von Foundation Models fördert, die nicht nur leistungsstark, sondern auch ethisch, vertrauenswürdig, zuverlässig und gesellschaftlich verantwortungsvoll sind.
Kürzlich haben autoregressive (AR) Video-Diffusionsmodelle bemerkenswerte Leistungen erzielt. Aufgrund ihrer begrenzten Trainingsdauern entsteht jedoch eine Trainings-Test-Lücke bei Tests über längere Zeiträume, was zu schnellen visuellen Verschlechterungen führt. In Anlehnung an Self Forcing, das die Trainings-Test-Lücke innerhalb der Trainingsdauer untersucht, analysiert diese Arbeit die Trainings-Test-Lücke über die Trainingsdauer hinaus, d.h. die Lücke zwischen den begrenzten Zeiträumen während des Trainings und den offenen Zeiträumen während des Tests. Da offene Tests über jedes endliche Trainingsfenster hinausgehen können und das Training mit langen Videos rechenintensiv ist, verfolgen wir eine trainingsfreie Lösung, um diese Lücke zu schließen. Um eine trainingsfreie Lösung zu erforschen, führen wir eine systematische Analyse der AR-Cache-Verwaltung durch. Diese Erkenntnisse führen zu Rolling Sink. Aufbauend auf Self Forcing (trainiert mit nur 5-Sekunden-Clips) skaliert Rolling Sink die AR-Videosynthese zur Testzeit effektiv auf ultra-lange Dauer (z.B. 5-30 Minuten bei 16 FPS), mit konsistenten Motiven, stabilen Farben, kohärenten Strukturen und flüssigen Bewegungen. Wie umfangreiche Experimente zeigen, erreicht Rolling Sink im Vergleich zu SOTA-Baselines eine überlegene visuelle Qualität und zeitliche Konsistenz über lange Zeiträume. Projektseite: https://rolling-sink.github.io/
Trotz rascher Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) bleibt das visuell-räumliche Schließen unzuverlässig, wenn korrekte Antworten davon abhängen, wie eine Szene aus nicht gesehenen oder alternativen Blickwinkeln erscheinen würde. Jüngste Arbeiten adressieren dies durch eine Anreicherung des Schließens mit Weltmodellen für visuelle Imagination. Fragen wie wann Imagination tatsächlich notwendig ist, wie viel davon vorteilhaft ist und wann sie schädlich wird, sind jedoch nach wie vor kaum verstanden. In der Praxis kann wahllose Imagination den Rechenaufwand erhöhen und die Leistung sogar verschlechtern, indem sie irreführende Evidenz einführt. In dieser Arbeit präsentieren wir eine eingehende Analyse von Visualisierungen zur Laufzeit (Test-Time Visual Imagination) als eine kontrollierbare Ressource für räumliches Schließen. Wir untersuchen, wann statische visuelle Evidenz ausreicht, wann Imagination das Schließen verbessert und wie übermäßige oder unnötige Imagination Genauigkeit und Effizienz beeinflusst. Um diese Analyse zu unterstützen, führen wir AVIC ein, einen adaptiven Framework zur Laufzeit mit Weltmodellen, der explizit über die Hinlänglichkeit der aktuellen visuellen Evidenz urteilt, bevor er visuelle Imagination selektiv aufruft und skaliert. Über räumliche Schließ-Benchmarks (SAT, MMSI) und einen Benchmark für embodierte Navigation (R2R) hinweg zeigen unsere Ergebnisse klare Szenarien auf, in denen Imagination kritisch, marginal oder schädlich ist, und belegen, dass selektive Kontrolle feste Imaginationsstrategien bei deutlich weniger Weltmodell-Aufrufen und Sprach-Tokens übertreffen oder gleichziehen kann. Insgesamt unterstreichen unsere Ergebnisse die Bedeutung einer Analyse und Kontrolle von Visualisierungen zur Laufzeit für effizientes und zuverlässiges räumliches Schließen.
Die Erstellung schrittweiser "How-to"-Prozeduren ist eine zentrale Fähigkeit von LLMs: Anleitungen werden in Chatbots häufig angefragt, und schrittweise Planung ist entscheidend für das Schlussfolgern bei komplexen Aufgaben. Dennoch bleiben die Messung und Verbesserung der prozeduralen Validität in großem Maßstab für reale Aufgaben eine Herausforderung und sind bisher wenig erforscht. Um dies zu adressieren, stellen wir How2Everything vor, einen skalierbaren Rahmen zur Bewertung und Verbesserung der zielbedingten Verfahrensgenerierung. Unser Framework umfasst How2Mine, das 351.000 Prozeduren aus 980.000 Webseiten über 14 Themenbereiche hinweg extrahiert und problemlos auf größere Korpora skaliert werden kann. Aus diesem Pool erstellen wir How2Bench, einen Evaluierungsdatensatz mit 7.000 Beispielen, der thematisch ausgewogen ist. Um Modelloutputs zuverlässig zu bewerten, entwickeln wir How2Score, ein Evaluierungsprotokoll, das einen LLM-Bewerter einsetzt, um zu erkennen, ob eine Generierung kritische Fehler enthält, die das Erreichen des Ziels verhindern würden. Für eine kostengünstige, reproduzierbare Evaluation destillieren wir ein Frontier-Modell in ein offenes 8B-Modell, das eine Übereinstimmung von 80,5 % mit menschlichen Annotatoren erreicht. How2Bench zeigt klare Skalierungstrends über Modellgrößen und Trainingsphasen hinweg auf und liefert bereits früh im Pre-Training Signale. Schließlich verbessert Reinforcement Learning unter Verwendung von How2Score als Belohnung die Leistung auf How2Bench um mehr als 10 Punkte bei drei Modellen, ohne systematische Verschlechterungen in Standard-Benchmarks, wobei die Gewinne robust gegenüber oberflächlicher Auswendiglernung von Quelldokumenten oder Formatkonformität sind. Zusammengenommen zeigt How2Everything, wie Webdaten aus dem Pre-Training einen geschlossenen Kreislauf zur Fähigkeitsbewertung und -verbesserung im großen Maßstab unterstützen können.
Das Erzeugen von Denkprozessen hat sich als leistungsstarke Technik erwiesen, um die Leistung großer Sprachmodelle (LLMs) bei komplexen Aufgaben durch induziertes Denken zu verbessern. Ihre Wirksamkeit in realistischen, nutzerbeteiligten Agentenszenarien bleibt jedoch unklar. In dieser Arbeit führen wir eine umfassende Studie über die Wirkung expliziten Denkens in nutzerbeteiligten LLM-Agenten durch. Unsere Experimente umfassen sieben Modelle, drei Benchmarks und zwei Denk-Instanziierungen, die wir sowohl durch eine quantitative Taxonomieanalyse der Antworten als auch durch qualitative Fallstudien zur Fehlerfortpflanzung auswerten. Entgegen den Erwartungen stellen wir fest, dass obligatorisches Denken in nutzerbeteiligten Settings für Agenten oft nachteilig ist und zu anomalen Leistungseinbußen bei verschiedenen LLMs führt. Unsere zentrale Erkenntnis zeigt, dass Denken Agenten „introvertierter“ macht, indem es Antworten verkürzt und die Informationspreisgabe an Nutzer reduziert, was den Informationsaustausch zwischen Agent und Nutzer schwächt und zu nachgelagerten Aufgabenfehlern führt. Darüber hinaus demonstrieren wir, dass explizites Auffordern zur Informationspreisgabe die Leistung über verschiedene Modellfamilien hinweg zuverlässig verbessert, was nahelegt, dass proaktive Transparenz ein entscheidender Hebel für die Agentenoptimierung ist. Insgesamt legt unsere Studie nahe, dass das Bewusstsein für Informations-transparenz eine entscheidende, aber bislang wenig erforschte Perspektive für das zukünftige Design von Denkagenten in realen Szenarien darstellt. Unser Code ist verfügbar unter https://github.com/deeplearning-wisc/Thinking-Agent.
Aktuelle Paradigmen zur Code-Verifikation stützen sich stark auf externe Mechanismen – wie ausführungsbasierte Unit-Tests oder zusätzliche LLM-Prüfer –, die oft arbeitsintensiv sind oder durch die Fähigkeiten des bewertenden Modells selbst begrenzt werden. Dies wirft eine grundlegende, aber bisher unerforschte Frage auf: Kann die funktionale Korrektheit eines LLMs ausschließlich anhand seiner internen Rechenstruktur bewertet werden? Unser Hauptziel ist es zu untersuchen, ob die neuronalen Dynamiken des Modells intern decodierbare Signale kodieren, die die logische Validität während der Code-Generierung vorhersagbar machen. Inspiriert von mechanistischer Interpretierbarkeit schlagen wir vor, Code-Verifikation als eine mechanistische Diagnoseaufgabe zu behandeln, bei der die explizite algorithmische Trajektorie des Modells in zeilenbezogene Attributionsgraphen abgebildet wird. Durch die Zerlegung komplexer Residualflüsse zielen wir darauf ab, die strukturellen Signaturen zu identifizieren, die solide Argumentation von logischem Versagen innerhalb der internen Schaltkreise des Modells unterscheiden. Analysen in Python, C++ und Java bestätigen, dass intrinsische Korrektheitssignale über verschiedene Syntaxen hinweg robust sind. Topologische Merkmale dieser internen Graphen sagen Korrektheit verlässlicher vorher als oberflächliche Heuristiken und ermöglichen gezielte kausale Interventionen, um fehlerhafte Logik zu korrigieren. Diese Ergebnisse etablieren interne Introspektion als eine decodierbare Eigenschaft zur Verifikation von generiertem Code. Unser Code ist unter https://github.com/bruno686/CodeCircuit verfügbar.
Die Entwicklung künstlicher Intelligenz kann als Evolution datengetriebener Lernparadigmen betrachtet werden, wobei aufeinanderfolgende Verschiebungen in der Datenorganisation und -nutzung fortlaufend Fortschritte in den Modellfähigkeiten vorantreiben. Die aktuelle LLM-Forschung wird von einem Paradigma dominiert, das stark auf unidirektionaler Skalierung der Datengröße basiert und zunehmend auf Grenzen bei der Datenverfügbarkeit, den Erfassungskosten und der Trainingseffizienz stößt. In dieser Arbeit vertreten wir die Auffassung, dass die Entwicklung von AGI in eine neue Phase der Daten-Modell-Koevolution eintritt, in der Modelle aktiv das Datenmanagement steuern, während hochwertige Daten wiederum die Modellfähigkeiten verstärken. Um diese Vision umzusetzen, schlagen wir einen abgestuften Datenmanagement-Rahmen vor, der den gesamten LLM-Trainingslebenszyklus über heterogene Lernziele und Kostenbeschränkungen hinweg unterstützen soll. Konkret führen wir ein L0-L4-abgestuftes Datenmanagement-System ein, das von rohen, ungeprüften Ressourcen bis hin zu organisiertem und verifizierbarem Wissen reicht. Entscheidend ist, dass LLMs vollständig in Datenmanagementprozesse – wie Qualitätsbewertung und Inhaltsbearbeitung – integriert werden, um Daten über alle Stufen hinweg zu verfeinern. Jede Stufe ist durch spezifische Dateneigenschaften, Managementstrategien und Trainingsrollen charakterisiert, was eine strategische Allokation von Daten über verschiedene LLM-Trainingsphasen hinweg ermöglicht, einschließlich Vor-, Zwischen- und Alignment-Training. Der Rahmen balanciert Datenqualität, Erfassungskosten und marginalen Trainingsnutzen aus und bietet einen systematischen Ansatz für skalierbares und nachhaltiges Datenmanagement. Wir validieren die Wirksamkeit des vorgeschlagenen Rahmens durch empirische Studien, in denen abgestufte Datensätze aus Rohkorpora erstellt und über mehrere Trainingsphasen hinweg genutzt werden. Experimentelle Ergebnisse zeigen, dass die stufenbewusste Datennutzung die Trainingseffizienz und Modellleistung signifikant verbessert. Um weitere Forschung zu ermöglichen, veröffentlichen wir unsere abgestuften Datensätze und Verarbeitungswerkzeuge für die Community.
Reinforcement Learning (RL) wird häufig für die Steuerung humanoider Roboter eingesetzt, wobei On-Policy-Methoden wie Proximal Policy Optimization (PPO) durch groß angelegte Parallelsimulation ein robustes Training und in einigen Fällen sogar Zero-Shot-Übertragung auf echte Roboter ermöglichen. Die geringe Sample-Effizienz von On-Policy-Algorithmen begrenzt jedoch die sichere Anpassung an neue Umgebungen. Obwohl Off-Policy-RL und modellbasiertes RL eine verbesserte Sample-Effizienz gezeigt haben, besteht weiterhin eine Lücke zwischen groß angelegtem Pretraining und effizientem Finetuning bei humanoiden Systemen. In dieser Arbeit zeigen wir, dass Off-Policy-Soft Actor-Critic (SAC) mit Large-Batch-Updates und einem hohen Update-To-Data (UTD)-Verhältnis groß angelegtes Pretraining von Lokomotionspolitiken für humanoide Roboter zuverlässig unterstützt und Zero-Shot-Übertragung auf reale Roboter erreicht. Für die Anpassung demonstrieren wir, dass diese SAC-vortrainierten Politiken in neuen Umgebungen und Out-of-Distribution-Aufgaben mit modellbasierten Methoden feinabgestimmt werden können. Die Datensammlung in der neuen Umgebung erfolgt durch eine deterministische Politik, während stochastische Exploration auf ein physikalisch informiertes Weltmodell beschränkt wird. Diese Trennung mindert die Risiken zufälliger Exploration während der Anpassung, bewahrt aber gleichzeitig die explorative Abdeckung für Verbesserungen. Insgesamt verbindet der Ansatz die Zeit effiziente groß angelegte Simulation während des Pretrainings mit der Sample-Effizienz modellbasierten Lernens während des Finetunings.
Wir stellen MotionCrafter vor, ein auf Video-Diffusion basierendes Framework, das gemeinsam 4D-Geometrie rekonstruiert und dichte Bewegung aus einem monokularen Video schätzt. Der Kern unserer Methode ist eine neuartige gemeinsame Repräsentation von dichten 3D-Punktkarten und 3D-Szenenflüssen in einem gemeinsamen Koordinatensystem sowie ein neuartiger 4D-VAE, um diese Repräsentation effektiv zu erlernen. Im Gegensatz zu früheren Arbeiten, die die 3D-Werte und Latents zwingen, streng mit den RGB-VAE-Latents übereinzustimmen – trotz ihrer grundlegend unterschiedlichen Verteilungen – zeigen wir, dass eine solche Ausrichtung unnötig ist und zu suboptimaler Leistung führt. Stattdessen führen wir eine neue Datenormalisierung und VAE-Trainingsstrategie ein, die Diffusions-Priors besser überträgt und die Rekonstruktionsqualität erheblich verbessert. Umfangreiche Experimente über mehrere Datensätze hinweg belegen, dass MotionCrafter state-of-the-art Leistung sowohl in der Geometrierekonstruktion als auch in der Schätzung dichten Szenenflusses erreicht und Verbesserungen von 38,64 % bzw. 25,0 % in der Geometrie- und Bewegungsrekonstruktion liefert, alles ohne jegliche Nachoptimierung. Projektseite: https://ruijiezhu94.github.io/MotionCrafter_Page
Während die Sprachsynthese in den letzten Jahren rasante Fortschritte verzeichnet hat, stehen quelloffene Systeme zur Gesangssynthese (Singing Voice Synthesis, SVS) vor erheblichen Hindernissen für den industriellen Einsatz, insbesondere in Bezug auf Robustheit und Zero-Shot-Generalisierung. In diesem Bericht stellen wir SoulX-Singer vor, ein hochwertiges, quelloffenes SVS-System, das unter praktischen Gesichtspunkten für den Einsatz konzipiert wurde. SoulX-Singer unterstützt eine kontrollierbare Gesangserzeugung auf Basis either symbolischer Noten (MIDI) oder melodischer Repräsentationen und ermöglicht so eine flexible und ausdrucksstarke Steuerung in realen Produktionsworkflows. Das System, das mit mehr als 42.000 Stunden Stimmdaten trainiert wurde, unterstützt Mandarin-Chinesisch, Englisch und Kantonesisch und erzielt durchgängig state-of-the-art Synthesequalität über verschiedene Sprachen hinweg unter diversen musikalischen Bedingungen. Darüber hinaus schaffen wir SoulX-Singer-Eval, einen dedizierten Benchmark mit strenger Trennung von Trainings- und Testdaten, um eine zuverlässige Bewertung der Zero-Shot-SVS-Leistung in praktischen Szenarien zu ermöglichen und eine systematische Evaluation in Zero-Shot-Settings zu erleichtern.
Die Realisierung einer stabilen und energieeffizienten Fortbewegung ist entscheidend dafür, dass humanoide Roboter kontinuierlich in realen Anwendungsszenarien operieren können. Bestehende MPC- und RL-Ansätze stützen sich häufig auf energiebezogene Metriken, die in einen multiobjektiven Optimierungsrahmen eingebettet sind. Diese erfordern eine umfangreiche Hyperparameterabstimmung und führen oft zu suboptimalen Strategien. Um diese Herausforderungen zu bewältigen, schlagen wir ECO (Energy-Constrained Optimization) vor, einen constraint-basierten RL-Rahmen, der energiebezogene Metriken von Belohnungen trennt und sie als explizite Ungleichheitsnebenbedingungen reformuliert. Diese Methode bietet eine klare und interpretierbare physikalische Darstellung der Energiekosten und ermöglicht eine effizientere und intuitivere Hyperparameterabstimmung zur Verbesserung der Energieeffizienz. ECO führt dedizierte Nebenbedingungen für Energieverbrauch und Referenzbewegung ein, die durch die Lagrange-Methode durchgesetzt werden, um ein stabiles, symmetrisches und energieeffizientes Gehen für humanoide Roboter zu erreichen. Wir evaluierten ECO im Vergleich zu MPC, Standard-RL mit Reward-Shaping sowie vier state-of-the-art constraint-basierten RL-Methoden. Experimente, einschließlich Sim-to-Sim- und Sim-to-Real-Transfers auf dem kindgroßen humanoiden Roboter BRUCE, zeigen, dass ECO den Energieverbrauch im Vergleich zu den Baseline-Methoden signifikant reduziert und gleichzeitig eine robuste Gehleistung beibehält. Diese Ergebnisse unterstreichen einen bedeutenden Fortschritt in der energieeffizienten Fortbewegung humanoider Roboter. Alle experimentellen Demonstrationen sind auf der Projektwebsite verfügbar: https://sites.google.com/view/eco-humanoid.
Belohnungsmodelle (RMs) sind entscheidend für das Training großer Sprachmodelle (LLMs), basieren jedoch typischerweise auf umfangreichen, von Menschen annotierten Präferenzpaaren. Mit der weiten Verbreitung von LLMs sind Interaktionen in der Praxis als reichhaltige Quelle impliziter Belohnungssignale aufgetaucht. Dies wirft die Frage auf: Können wir Belohnungsmodelle direkt aus Interaktionen in der Praxis entwickeln? In dieser Arbeit untersuchen wir diese Möglichkeit, indem wir WildChat als Interaktionsquelle nutzen und eine Pipeline vorschlagen, um zuverlässiges menschliches Feedback zu extrahieren. Dies ergibt 186.000 hochwertige Instanzen für das Training von WildReward mittels ordinaler Regression direkt auf Basis von Nutzerfeedback, ohne Präferenzpaare. Umfangreiche Experimente zeigen, dass WildReward eine vergleichbare oder sogar überlegene Leistung im Vergleich zu konventionellen Belohnungsmodellen erzielt, mit verbesserter Kalibrierung und konsistenter Bewertung über verschiedene Stichproben hinweg. Wir beobachten zudem, dass WildReward direkt von der Nutzerdiversität profitiert, wobei mehr Nutzer zu stärkeren Belohnungsmodellen führen. Abschließend wenden wir WildReward auf Online-DPO-Training an und beobachten signifikante Verbesserungen bei verschiedenen Aufgaben. Code und Daten sind unter https://github.com/THU-KEG/WildReward verfügbar.
Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als eine entscheidende Methode zur Verbesserung der Denkfähigkeiten von Large Language Models (LLMs) etabliert. Kontinuierliches Training führt jedoch häufig zu einem Kollaps der Policy-Entropie, der sich durch einen schnellen Entropieabfall auszeichnet. Dies resultiert in vorzeitiger Überzuversicht, reduzierter Ausgabevielfalt und verschwindenden Gradientennormen, die das Lernen hemmen. Gradient-Preserving Clipping ist ein Hauptfaktor, der diese Dynamiken beeinflusst, doch bestehende Gegenmaßnahmen sind weitgehend statisch und es fehlt ein Rahmenwerk, das Clipping-Mechanismen mit einer präzisen Entropiesteuerung verbindet. Dieses Papier schlägt vor, die Entropiesteuerung im RL aus der Perspektive des Gradient-Preserving Clipping neu zu gestalten. Wir verifizieren zunächst theoretisch und empirisch die Beiträge spezifischer Importance-Sampling-Ratio-Bereiche zum Entropiewachstum und -abbau. Gestützt auf diese Erkenntnisse führen wir einen neuartigen Regulierungsmechanismus ein, der einen dynamischen Clipping-Schwellenwert verwendet, um die Entropie präzise zu steuern. Darüber hinaus entwerfen und evaluieren wir dynamische Entropiesteuerungsstrategien, einschließlich Anstieg-gefolgt-von-Abfall, Abfall-Anstieg-Abfall und oszillatorischem Abfall. Experimentelle Ergebnisse zeigen, dass diese Strategien den Entropiekollaps wirksam abmildern und eine überlegene Leistung über mehrere Benchmarks hinweg erzielen.
Die Zuteilung von Rechenkapazität zur Testzeit in großen Reasoning-Modellen (LRMs) wird häufig eingesetzt und findet Anwendung in mathematischer Problemlösung, Codesynthese und Planung. Jüngste Arbeiten haben dieses Problem durch Skalierung von Self-Consistency und parallelem Denken angegangen, indem generische „Denk-Tokens“ hinzugefügt und Modelle dazu angehalten wurden, die Frage vor der Beantwortung erneut zu lesen. Leider führen diese Ansätze entweder aufgabenagnostische Tokens ein oder erzwingen Heuristiken, die die spontane Wiederholung, die viele LRMs am Anfang ihrer internen Gedankenketten zeigen, weder erklären noch oft ignorieren. Im Gegensatz dazu analysieren und nutzen wir die Tendenz des Modells, die Frage neu zu formulieren – was wir als Echo der Eingabe (Echo of Prompt, EOP) bezeichnen – als einen vorlademechanismus zur Steuerung des Rechenaufwands. Wir formalisieren deren probabilistische Kosten, indem wir die Echo-Entfernung als ablehnungsbasierte Konditionierung betrachten und die Echo-Wahrscheinlichkeitslücke ΔL als berechenbaren Proxy definieren. Dies liefert die fehlende theoretische Verbindung, die frühe Wiederholung mit Likelihood-Gewinnen und nachgelagerter Genauigkeit verknüpft. Allerdings gibt es allein noch nicht vor, wie EOP ausgenutzt werden kann. Daher entwickeln wir Echo-Distilled SFT (ED-SFT), um durch überwachtes Feinabstimmen ein „Echo-dann-Argumentieren“-Muster zu verankern, und Echoic Prompting (EP), um das Modell während der Ablaufverfolgung erneut zu verankern, ohne Training zu benötigen. Obwohl vielversprechend, ist die Quantifizierung des Nutzens über reine Wortreichheit hinaus nicht trivial. Daher führen wir längenkontrollierte und suffixkontrollierte Likelihood-Analysen zusammen mit schichtenweisen Aufmerksamkeitsstudien durch, die zeigen, dass EOP die Aufmerksamkeit von der Antwort auf den Antwortpräfix in mittleren Schichten erhöht, was mit einem Aufmerksamkeits-Neufokussierungsmechanismus konsistent ist. Wir evaluieren auf GSM8K, MathQA, Hendrycks-MATH, AIME24 und MATH-500 unter identischen Dekodierungseinstellungen und Budgets und stellen konsistente Verbesserungen gegenüber den Baselines fest. Code ist verfügbar unter https://github.com/hhh2210/echoes-as-anchors.
Agentische Systeme werden anhand von Benchmarks bewertet, bei denen Agenten mit Umgebungen interagieren, um Aufgaben zu lösen. Die meisten Arbeiten berichten einen pass@1-Score, der auf einer einzigen Ausführung pro Aufgabe basiert, in der Annahme, dass dies eine zuverlässige Leistungsschätzung liefert. Wir überprüfen diese Annahme, indem wir 60.000 agentische Trajektorien auf SWE-Bench-Verified sammeln, die drei Modelle und zwei Scaffolds umfassen. Wir stellen eine erhebliche Varianz fest: Die pass@1-Schätzwerte einer einzelnen Ausführung variieren um 2,2 bis 6,0 Prozentpunkte, je nachdem, welche Ausführung ausgewählt wird, mit Standardabweichungen von über 1,5 Prozentpunkten selbst bei Temperatur 0. Diese Varianz hat kritische Implikationen: Berichtete Verbesserungen von 2–3 Prozentpunkten könnten Evaluationsrauschen widerspiegeln und nicht echten algorithmischen Fortschritt. Durch Token-level-Analysen zeigen wir, dass sich Trajektorien früh, oft innerhalb der ersten wenigen Prozent der Tokens, verzweigen und dass diese kleinen Unterschiede zu unterschiedlichen Lösungsstrategien kaskadieren. Um eine zuverlässige Evaluation agentischer Systeme zu ermöglichen, empfehlen wir drei konkrete Praktiken: (1) Schätzung von pass@1 aus mehreren unabhängigen Ausführungen pro Aufgabe, insbesondere bei der Messung kleiner Verbesserungen, (2) Verwendung von statistischer Power-Analyse, um die Anzahl der benötigten Ausführungen zur Erkennung erwarteter Effektgrößen zu bestimmen, und (3) Berücksichtigung von Metriken wie pass@k (optimistische Schranke) und pass^k (pessimistische Schranke) mit k>1, um das gesamte Leistungsspektrum besser zu charakterisieren. Obwohl diese Praktiken die Evaluationskosten erhöhen, sind sie entscheidend, um echten wissenschaftlichen Fortschritt von statistischem Rauschen zu unterscheiden.
Tokenisierung ist eine entscheidende Designentscheidung für neuronale Sprachmodellierung in morphologisch reichen Sprachen (MRL) wie Türkisch, wo produktive Agglutination sowohl die Vokabular-Effizienz als auch die morphologische Treue herausfordert. Bisherige Studien haben Tokenizer-Familien und Vokabulargrößen untersucht, variieren jedoch typischerweise (i) das Vokabular ohne systematische Kontrolle des Trainingskorpus des Tokenizers, (ii) bieten nur begrenzte intrinsische Diagnosen und (iii) evaluieren nur einen schmalen Ausschnitt an Downstream-Aufgaben. Wir präsentieren die erste umfassende, prinzipiengeleitete Studie zur türkischen Subword-Tokenisierung; ein "Subwords-Manifest", das gemeinsam Vokabulargröße und die Größe des Tokenizer-Trainingskorpus variiert (Kopplung von Daten und Vokabular), mehrere Tokenizer-Familien unter angeglichenen Parameterbudgets vergleicht (WordPiece, Morphologie-Level- und Character-Baselines) und sowohl über semantische (NLI, STS, Sentimentanalyse, NER), syntaktische (POS, Dependency Parsing) als auch morphologiesensitive Proben evaluiert. Um zu erklären, warum Tokenizer erfolgreich sind oder scheitern, führen wir ein morphologiebewusstes Diagnose-Toolkit ein, das über grobe Aggregate hinausgeht und boundary-level Mikro-/Makro-F1, entkoppelte Lemma-Atomarität vs. Surface-Boundary-Treffer, Über-/Unter-Segmentierungs-Indizes, Character-/Wort-Editierdistanzen (CER/WER), Fortsetzungsraten sowie Affixtyp-Abdeckung und Token-Level-Atomarität misst. Unsere Beiträge sind vierfach: (i) eine systematische Untersuchung der Trias Vokabular-Korpus-Erfolg; (ii) ein vereinheitlichter, morphologiebewusster Evaluierungsrahmen, der intrinsische Diagnosen mit extrinsischen Ergebnissen verknüpft; (iii) kontrollierte Vergleiche, die identifizieren, wann sich Tokenisierung auf Character- und Morphologie-Ebene auszahlt; und (iv) eine Open-Source-Veröffentlichung von Evaluierungscode, Tokenizer-Pipelines und Modellen. Als erste Arbeit dieser Art liefert dieses "Subwords-Manifest" umsetzbare Leitlinien für den Bau effektiver Tokenizer in MRLs und schafft eine reproduzierbare Grundlage für zukünftige Forschung.
Das Verständnis von Emotionen ist entscheidend für die Entwicklung sozial intelligenter Agenten. Obwohl neuere multimodale Large Language Models bei dieser Aufgabe starke Leistungen gezeigt haben, bestehen weiterhin zwei zentrale Herausforderungen: trügerische Assoziationen zwischen Emotionen und irrelevanten audiovisuellen Hinweisen sowie Halluzinationen von audiovisuellen Hinweisen, die durch Text-Priors im Sprachmodell-Backbone angetrieben werden. Um diese Probleme zu quantifizieren und zu verstehen, führen wir EmoReAlM ein, einen Benchmark, der entwickelt wurde, um MLLMs hinsichtlich Hinweis-Emotions-Assoziationen, Halluzinationen und Modalitätsübereinstimmung zu bewerten. Anschließend schlagen wir AVEm-DPO vor, eine Präferenzoptimierungstechnik, die Modellantworten mit audiovisuellen Eingaben und emotionszentrierten Abfragen in Einklang bringt. Konkret konstruieren wir Präferenzen über Antworten, die trügerische Assoziationen oder Halluzinationen aufweisen, sowie über Paare audiovisueller Eingaben, die durch Textprompts gesteuert werden. Wir integrieren zudem einen Regularisierungsterm, der die Abhängigkeit von Text-Priors bestraft und dadurch modalspezifische Hinweishalluzinationen reduziert. Experimentelle Ergebnisse auf DFEW, RAVDESS und EMER zeigen, dass unsere Methode die Leistung der Referenz-Baselinemodelle signifikant verbessert, mit relativen Leistungssteigerungen von 6–19 % in Zero-Shot-Szenarien. Durch die Bereitstellung eines rigorosen Benchmarks und eines robusten Optimierungsrahmens ermöglicht diese Arbeit eine prinzipiengeleitete Bewertung und Verbesserung von MLLMs für Emotionsverständnis und soziale KI. Code, Modelle und der Benchmark werden unter https://avere-iclr.github.io veröffentlicht.
Jüngste Fortschritte bei Mixture-of-Experts-Architekturen haben gezeigt, dass einzelne Expertenmodelle föderiert trainiert werden können, d.h. isoliert von anderen Experten, indem ein gemeinsames Basismodell zur Koordination genutzt wird. Wir stellen jedoch die Hypothese auf, dass vollwertige Experten für alle Domänen nicht notwendig sind und stattdessen Low-Rank-Adapter ausreichen könnten. Hier stellen wir FlexMoRE vor, eine Flexible Mixture of Rank-heterogeneous Experts, die entweder vollwertige Experten oder Adapter mit geeignetem Rang sein können. Wir untersuchen systematisch den Zielkonflikt zwischen Expertenrang und Leistung bei nachgelagerten Aufgaben, indem wir 6 Experten mit Rängen von 2⁰ bis 2¹⁴ evaluieren, was Experimente mit 150 Mixtures (96 mit 2 Experten, 54 mit 7 Experten) umfasst, die über 120 Aufgaben hinweg bewertet werden. Für unsere Experimente bauen wir auf FlexOlmo auf und wandeln dessen vortrainierte Experten in Low-Rank-Versionen um. Unsere Regressionsanalyse vom Expertenrang zur Downstream-Leistung zeigt, dass der beste Rang für reasoning-lastige Benchmarks deutlich höher ist als für wissenslastige Benchmarks. Diese Erkenntnisse zur Rangsensitivität haben direkte Auswirkungen auf die Speichereffizienz: Bei Verwendung optimaler Ränge erzielt FlexMoRE eine verbesserte Downstream-Leistung (Durchschnittswert 47,18) im Vergleich zur Baseline-Mixture aus vollwertigen Experten im FlexOlmo-Stil (Durchschnittswert 45,46) mit weniger als einem Drittel der Parameter (10,75B für FlexMoRE vs. 33,27B für FlexOlmo). Der gesamte Code wird verfügbar gemacht.
Moderne Sprachmodelle (LMs) neigen dazu, Teile ihrer Trainingsdaten auswendig zu lernen und wörtliche Passagen wiederzugeben. Wenn die zugrundeliegenden Quellen sensibel oder urheberrechtlich geschützt sind, wirft eine solche Reproduktion Fragen der Einwilligung und Vergütung für Urheber sowie Compliance-Risiken für Entwickler auf. Wir schlagen Anchored Decoding vor, eine Plug-and-Play-Methode für die Inferenzzeit zur Unterdrückung wörtlicher Kopien: Sie ermöglicht die Dekodierung von jedem riskanten LM, das mit Daten gemischter Lizenzen trainiert wurde, indem die Generierung in begrenzter Nähe zu einem permissiv trainierten sicheren LM gehalten wird. Anchored Decoding verteilt ein benutzerdefiniertes Informationsbudget adaptiv über den Generierungspfad und erzwingt Schritt-für-Schritt-Einschränkungen, die eine garantierte Sequenzebene ergeben, was einen einstellbaren Kompromiss zwischen Risiko und Nutzen ermöglicht. Um Anchored Decoding praktisch nutzbar zu machen, führen wir ein neu permissiv trainiertes sicheres Modell (TinyComma 1.8B) sowie Anchored_{Byte} Decoding ein, eine Byte-Ebene-Variante unserer Methode, die eine fusionierte Dekodierung über verschiedene Vokabulare mittels des ByteSampler-Frameworks (Hayase et al., 2025) ermöglicht. Wir evaluieren unsere Methoden an sechs Modellpaaren in Langform-Evaluierungen von Urheberrechtsrisiko und Nutzen. Anchored und Anchored_{Byte} Decoding definieren eine neue Pareto-Grenze, die nahezu originale Flüssigkeit und Faktentreue bewahrt und gleichzeitig bis zu 75 % der messbaren Kopierlücke (gemittelt über sechs Kopiermetriken) zwischen der riskanten Basislinie und einer sicheren Referenz eliminiert, bei einem moderaten Inferenz-Overhead.
Große Sprachmodelle nutzen KV-Caches, um redundante Berechnungen während des autoregressiven Decodierens zu vermeiden. Mit wachsender Kontextlänge kann das Lesen und Schreiben des Caches jedoch schnell die GPU-Speicherbandbreite sättigen. Neuere Arbeiten haben KV-Cache-Kompression untersucht, doch die meisten Ansätze vernachlässigen die datenabhängige Natur von KV-Caches und deren Variation über die Schichten hinweg. Wir stellen KV-CoRE (KV-Cache Compressibility by Rank Evaluation) vor, eine SVD-basierte Methode zur Quantifizierung der datenabhängigen Niedrigrang-Komprimierbarkeit von KV-Caches. KV-CoRE berechnet die optimale Niedrigrang-Approximation unter der Frobenius-Norm und ermöglicht durch Gradientenfreiheit und Inkrementalität eine effiziente datensatzweite, schichtenspezifische Auswertung. Mit dieser Methode analysieren wir mehrere Modelle und Datensätze aus fünf englischen Domänen und sechzehn Sprachen und decken systematische Muster auf, die Komprimierbarkeit mit Modellarchitektur, Trainingsdaten und Sprachabdeckung verknüpfen. Im Rahmen dieser Analyse verwenden wir den Normalized Effective Rank als Metrik für die Komprimierbarkeit und zeigen, dass er stark mit Leistungseinbußen unter Kompression korreliert. Unsere Studie etabliert einen prinzipienbasierten Evaluierungsrahmen und den ersten umfassenden Benchmark für KV-Cache-Komprimierbarkeit in LLMs, was Erkenntnisse für dynamische, datenbewusste Kompression und datenzentrierte Modellentwicklung liefert.
Multi-Vector Late-Interaction Retriever wie ColBERT erreichen state-of-the-art Retrieval-Qualität, jedoch werden ihre Abfragezeiten maßgeblich durch die exhaustive Berechnung token-basierter MaxSim-Interaktionen für jedes Kandidatendokument bestimmt. Während eine Approximation der Late Interaction durch Single-Vector-Repräsentationen die Kosten reduziert, führt dies oft zu erheblichen Genauigkeitseinbußen. Wir stellen Col-Bandit vor, einen Abfragezeit-Pruning-Algorithmus, der diese Rechenlast verringert, indem er das Re-Ranking als ein Top-K-Identifikationsproblem mit endlicher Population modelliert. Col-Bandit verwaltet unsicherheitsbewusste Schranken für partiell beobachtete Dokument-Scores und enthüllt adaptiv nur die (Dokument, Query-Token)-MaxSim-Einträge, die benötigt werden, um die Top-Ergebnisse innerhalb statistischer Entscheidungsgrenzen mit einstellbarer Relaxierung zu bestimmen. Im Gegensatz zu grobgranularen Ansätzen, die vollständige Dokumente oder Token offline ausschließen, sparsifiziert Col-Bandit die Interaktionsmatrix on-the-fly. Es fungiert als Zero-Shot, Drop-in-Layer für Standard-Multi-Vektor-Systeme, erfordert keine Indexmodifikationen, Offline-Vorverarbeitung oder Modell-Neutraining. Experimente auf textuellen (BEIR) und multimodalen (REAL-MM-RAG) Benchmarks zeigen, dass Col-Bandit die Ranking-Genauigkeit erhält und gleichzeitig die MaxSim-FLOPs um bis zum 5-fachen reduziert. Dies deutet darauf hin, dass dichtes Late-Interaction-Scoring erhebliche Redundanz enthält, die zur Abfragezeit effizient identifiziert und entfernt werden kann.
Agent Skills erweitern LLM-Agenten um wiederverwendbare, programmähnliche Module, die Auslösebedingungen, prozedurale Logik und Werkzeuginteraktionen definieren. Da diese Skills in öffentlichen Marktplätzen zunehmen, ist unklar, welche Typen verfügbar sind, wie Nutzer sie annehmen und welche Risiken sie bergen. Um diese Fragen zu beantworten, führen wir eine datengestützte Analyse von 40.285 öffentlich gelisteten Skills eines großen Marktplatzes durch. Unsere Ergebnisse zeigen, dass die Veröffentlichung von Skills tendenziell in kurzen Schüben erfolgt, die Verschiebungen in der Aufmerksamkeit der Community nachvollziehen. Wir stellen außerdem fest, dass sich die Skill-Inhalte stark auf Software-Engineering-Workflows konzentrieren, während Informationsbeschaffung und Inhaltserstellung einen erheblichen Teil der Nutzung ausmachen. Über Inhalttrends hinaus decken wir ein ausgeprägtes Ungleichgewicht zwischen Angebot und Nachfrage in verschiedenen Kategorien auf und zeigen, dass die meisten Skills trotz einer schwerlastigen Längenverteilung innerhalb typischer Prompt-Budgets bleiben. Schließlich beobachten wir eine starke Homogenität des Ökosystems mit weitverbreiteter Redundanz auf Intent-Ebene und identifizieren nicht-triviale Sicherheitsrisiken, einschließlich Skills, die zustandsändernde oder systemweite Aktionen ermöglichen. Insgesamt liefern unsere Erkenntnisse eine quantitative Momentaufnahme von Agent Skills als aufstrebende Infrastrukturschicht für Agenten und informieren zukünftige Arbeiten zur Wiederverwendung, Standardisierung und sicherheitsbewussten Gestaltung von Skills.
Partielle Differentialgleichungen sind präzise in der Modellierung physikalischer, biologischer und graphischer Phänomene. Numerische Methoden leiden jedoch unter dem Fluch der Dimensionalität, hohen Berechnungskosten und domainspezifischer Diskretisierung. Unser Ziel ist es, Vor- und Nachteile verschiedener PDE-Löser zu untersuchen und diese auf spezifische wissenschaftliche Simulationsprobleme anzuwenden, einschließlich Vorwärtslösungen, inverser Probleme und Gleichungsentdeckung. Insbesondere erweitern wir den kürzlich vorgestellten CNF-Framework-Löser (NeurIPS 2023) auf multidimensionale abhängige Variable und nichtlineare Settings, zusammen mit nachgelagerten Anwendungen. Die Ergebnisse umfassen die Implementierung ausgewählter Methoden, Selbstoptimierungstechniken, Evaluierung an Benchmark-Problemen sowie einen umfassenden Überblick über neuronale PDE-Löser und wissenschaftliche Simulationsanwendungen.
Retrieval-augmented Generation (RAG) verbessert das Schlussfolgern von LLMs bei wissensintensiven Aufgaben, jedoch verursachen bestehende RAG-Pipelines erheblichen Abruf- und Generierungsaufwand bei der Anwendung auf großskalige Entity Matching. Um diese Einschränkung zu adressieren, führen wir CE-RAG4EM ein, eine kosteneffiziente RAG-Architektur, die den Rechenaufwand durch blockbasierte Batch-Retrieval und -Generierung reduziert. Wir präsentieren außerdem einen einheitlichen Rahmen zur Analyse und Bewertung von RAG-Systemen für Entity Matching, der blockierungsbewusste Optimierungen und Abrufgranularität in den Fokus stellt. Umfangreiche Experimente legen nahe, dass CE-RAG4EM eine vergleichbare oder verbesserte Matching-Qualität erreichen kann, während die End-to-End-Laufzeit im Vergleich zu starken Baselines erheblich reduziert wird. Unsere Analyse zeigt weiterhin, dass wichtige Konfigurationsparameter einen inhärenten Zielkonflikt zwischen Leistung und Aufwand aufweisen, was praktische Leitlinien für den Entwurf effizienter und skalierbarer RAG-Systeme für Entity Matching und Datenintegration bietet.
Wir stellen Aster vor, einen KI-Agenten für autonome wissenschaftliche Entdeckungen, der mehr als 20-mal schneller arbeiten kann als bestehende Frameworks. Bei einer gegebenen Aufgabe, einem initialen Programm und einem Skript zur Bewertung der Leistung des Programms verbessert Aster das Programm iterativ und erreicht häufig neue State-of-the-Art-Leistungen. Die signifikante Reduzierung der für neue Entdeckungen benötigten Iterationen erweitert den Bereich der handhabbaren Probleme auf Aufgaben mit langen Bewertungsdauern, wie etwa mehrstündige Machine-Learning-Trainingsläufe. Wir haben Aster auf Probleme in den Bereichen Mathematik, GPU-Kernel-Engineering, Biologie, Neurowissenschaften und Sprachmodell-Training angewendet. Konkret: das Erdős-Minimum-Overlap-Problem, die Optimierung des TriMul-Kernels, ein Rauschunterdrückungsproblem bei der Einzelzellanalyse, das Training eines neuronalen Aktivitätsvorhersagemodells für gute Leistungen im ZAPBench und den NanoGPT-Speedrun-Wettbewerb. Aster erzielt in jeder Aufgabe State-of-the-Art-Ergebnisse, mit Ausnahme von ZAPBench, wo es die Leistung der besten menschlichen Lösung mit weniger als 1/190 der Rechenleistung erreicht. Aster ist über eine Web-Oberfläche und eine API unter asterlab.ai zugänglich.
Große Sprachmodelle (LLMs) versprechen, Entdeckungen zu beschleunigen, indem sie über die sich ständig erweiternde wissenschaftliche Landschaft hinweg Schlüsse ziehen. Die Herausforderung besteht jedoch nicht mehr im Zugang zu Informationen, sondern darin, diese auf sinnvolle, domänenübergreifende Weise zu verknüpfen. In der Materialwissenschaft, wo Innovation die Integration von Konzepten von der molekularen Chemie bis zur mechanischen Performance erfordert, ist dies besonders ausgeprägt. Weder Menschen noch Einzel-Agenten-LLMs können dieser Informationsflut vollständig Herr werden, wobei Letztere oft zu Halluzinationen neigen. Um diesen Engpass zu adressieren, stellen wir einen Multi-Agenten-Framework vor, der durch umfangreiche Wissensgraphen geleitet wird, um nachhaltige Ersatzstoffe für per- und polyfluorierte Alkylsubstanzen (PFAS) zu finden – Chemikalien, die derzeit unter strenger regulatorischer Beobachtung stehen. Die Agenten im Framework spezialisieren sich auf Problemzerlegung, Evidenzrecherche, Extraktion von Designparametern und Graph-Traversierung, um verborgene Verbindungen zwischen verschiedenen Wissensbereichen aufzudecken und so die Hypothesengenerierung zu unterstützen. Ablationsstudien zeigen, dass die vollständige Multi-Agenten-Pipeline einzeiliges Prompting übertrifft, was den Wert von verteilter Spezialisierung und relationalem Schlussfolgern unterstreicht. Wir demonstrieren, dass das System durch die Anpassung von Graph-Traversierungsstrategien zwischen ausbeutenden Suchen, die sich auf domänenkritische Ergebnisse konzentrieren, und explorativen Suchen, die neuartige Querverbindungen aufdecken, wechseln kann. Am Beispiel von biomedizinischen Schläuchen generiert das Framework nachhaltige PFAS-freie Alternativen, die tribologische Performance, thermische Stabilität, Chemikalienbeständigkeit und Biokompatibilität in Einklang bringen. Diese Arbeit etabliert einen Framework, der Wissensgraphen mit Multi-Agenten-Systemen kombiniert, um den Materialdesignraum zu erweitern, und präsentiert mehrere erste Designkandidaten, um den Ansatz zu veranschaulichen.
Texteinbettungen ermöglichen zahlreiche NLP-Anwendungen, sind jedoch erheblichen Datenschutzrisiken durch Embedding-Inversionsangriffe ausgesetzt, die sensible Attribute offenlegen oder Rohtext rekonstruieren können. Bestehende Differential-Privacy-Verteidigungsansätze gehen von einheitlicher Sensitivität über alle Embedding-Dimensionen aus, was zu übermäßigem Rauschen und eingeschränkter Nutzbarkeit führt. Wir stellen SPARSE vor, ein nutzerzentriertes Framework für konzeptspezifischen Datenschutz in Texteinbettungen. SPARSE kombiniert (1) differenzierbare Maskenlernverfahren zur Identifikation privatsphäresensitiver Dimensionen für benutzerdefinierte Konzepte mit (2) dem Mahalanobis-Mechanismus, der elliptisches Rauschen anwendet, das an die Dimensionssensitivität kalibriert wird. Im Gegensatz zur traditionellen sphärischen Rauschinjektion perturbiert SPARSE selektiv privatsphäresensitive Dimensionen und erhält gleichzeitig nicht-sensitive Semantik bei. Evaluierungen über sechs Datensätze mit drei Embedding-Modellen und Angriffsszenarien zeigen, dass SPARSE durchgängig Privatsphäre-Leckagen reduziert und gleichzeitig eine überlegene Downstream-Leistung im Vergleich zu modernen DP-Methoden erzielt.
Aktuelle Forschung zeigt, dass Preference-Alignment(PA)-Ziele als Divergenzschätzer zwischen alignierten (ausgewählten) und nicht-alignierten (abgelehnten) Antwortverteilungen wirken. In dieser Arbeit erweitern wir diese divergenzbasierte Perspektive auf allgemeine Alignment-Settings, wie Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), bei denen nur Umweltbelohnungen verfügbar sind. Innerhalb dieses vereinheitlichten Rahmens schlagen wir f-Group Relative Policy Optimization (f-GRPO), eine Klasse von On-Policy-Reinforcement-Learning, und f-Hybrid Alignment Loss (f-HAL), ein hybrides On-/Off-Policy-Ziel, für das allgemeine Alignment von LLMs basierend auf der variationellen Darstellung von f-Divergenzen vor. Wir liefern theoretische Garantien, dass diese Klassen von Zielen die durchschnittliche Belohnung nach dem Alignment verbessern. Empirisch validieren wir unseren Rahmen sowohl für RLVR- (mathematisches Reasoning) als auch PA-Aufgaben (Safety Alignment) und demonstrieren dabei überlegene Leistung und Flexibilität im Vergleich zu aktuellen Methoden.
Wir präsentieren die erste umfassende Lean-4-Formalisierung der statistischen Lerntheorie (SLT), die in der Theorie empirischer Prozesse verankert ist. Unsere durchgängige formale Infrastruktur implementiert die fehlenden Inhalte in der neuesten Lean-4-Mathlib-Bibliothek, einschließlich einer vollständigen Entwicklung der Gaußschen Lipschitz-Konzentration, der ersten Formalisierung des Dudley'schen Entropie-Integraltheorems für sub-Gaußsche Prozesse und einer Anwendung auf (sparse) Kleinste-Quadrate-Regression mit einer scharfen Konvergenzrate. Das Projekt wurde mittels eines menschlich-KI-kollaborativen Arbeitsablaufs durchgeführt, bei dem Menschen Beweisstrategien entwerfen und KI-Agenten die taktische Beweiskonstruktion ausführen, was zu einem von Menschen verifizierten Lean-4-Werkzeugkasten für SLT führte. Über die Implementierung hinaus deckt der Formalisierungsprozess implizite Annahmen und fehlende Details in Standard-SLT-Lehrbüchern auf und löst diese, was ein detailliertes, zeilenweises Verständnis der Theorie erzwingt. Diese Arbeit schafft eine wiederverwendbare formale Grundlage und ebnet den Weg für zukünftige Entwicklungen in der Maschinellen-Lernen-Theorie. Der Code ist verfügbar unter https://github.com/YuanheZ/lean-stat-learning-theory.
Universal Multimodal Retrieval (UMR) zielt auf eine beliebige Suche über Text und visuelle Inhalte ab, doch moderne Embedding-Modelle erweisen sich nach wie vor als anfällig, wenn Anfragen latentes Schließen erfordern (z.B. das Auflösen unterbestimmter Referenzen oder das Abgleichen kompositioneller Beschränkungen). Wir argumentieren, dass diese Anfälligkeit oft datenbedingt ist: Wenn Bilder "stille" Beweise enthalten und Anfragen Schlüsselsemantik implizit lassen, muss ein einzelner Embedding-Durchlauf sowohl schließen als auch komprimieren, was fehleranfällige Feature-Zuordnungen begünstigt. Wir schlagen ein datenzentriertes Framework vor, das diese Rollen entkoppelt, indem das Schließen vor dem Retrieval externalisiert wird. Mithilfe eines leistungsstarken Vision-Language-Modells machen wir implizite Semantik explizit, indem wir visuelle Beweise in Korpus-Einträgen umfassend beschriften, mehrdeutige multimodale Referenzen in Anfragen auflösen und umständliche Anweisungen in prägnante Retrieval-Beschränkungen umformulieren. Eine reine Verbesserung zur Inferenzzeit ist unzureichend; der Retriever muss auf diesen semantisch dichten Repräsentationen trainiert werden, um eine Verteilungswerschiebung zu vermeiden und das hinzugefügte Signal voll auszuschöpfen. Auf M-BEIR erzielt unsere mit Schließen angereicherte Trainingsmethode durchgängig bessere Ergebnisse als starke Baselines, wobei Ablation Studies zeigen, dass die Korpus-Verbesserung vor allem wissensintensive Anfragen begünstigt, während die Anfrage-Verbesserung entscheidend für Anfragen mit kompositionellen Änderungen ist. Wir veröffentlichen unseren Code unter https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
Kollektive Bewegungen in Fischschwärmen veranschaulichen emergente Selbstorganisation in Systemen aktiver Materie, doch sind computergestützte Werkzeuge zur Simulation und Analyse dieser Dynamiken nach wie vor fragmentiert über verschiedene Forschungsgruppen hinweg. Wir stellen dewi-kadita vor, eine Open-Source-Python-Bibliothek, die das dreidimensionale Couzin-Zonenmodell mit umfassenden Entropiediagnosen implementiert, die speziell für die Erforschung marinen Kollektivverhaltens entwickelt wurden. Die Bibliothek führt sieben informationstheoretische Metriken ein – Schwarm-Kohäsionsentropie, Polarisationsentropie, Tiefenschichtungsentropie, Drehimpulsentropie, Nearest-Neighbor-Entropie, Geschwindigkeitskorrelationsentropie und Schwarmformentropie – die unterschiedliche organisatorische Merkmale charakterisieren, die für klassische Ordnungsparameter nicht zugänglich sind. Diese Metriken fließen in einen Ozeanischen Schwarmindex (Oceanic Schooling Index, OSI) ein, der ein einzelnes skalares Maß für kollektive Unordnung bereitstellt. Die Validierung anhand vier kanonischer Konfigurationen (Schwarm, Torus, dynamisch parallel, hochgradig parallel) bestätigt die korrekte Reproduktion bekannter Phasenverhalten: Der Schwarm bewahrt Unordnung mit einer Polarisation P < 0,1 und OSI ≈ 0,71, während der hochgradig parallele Zustand P = 0,998 mit OSI = 0,24 erreicht und die Geschwindigkeitskorrelationsentropie gegen Null verschwindet. Das Entropie-Framework unterscheidet erfolgreich zwischen der Torus- und der dynamisch parallelen Konfiguration, die vergleichbare Ordnungsparametergrößen, aber unterschiedliche Organisationsmechanismen aufweisen. Numba-JIT-Kompilierung (Just-in-Time) beschleunigt die Berechnung paarweiser Wechselwirkungen um das 10- bis 100-fache und ermöglicht so Simulationen von 150–250 Agenten über 1000–2000 Zeitschritte innerhalb von fünf Minuten auf Standard-Workstation-Hardware. Die NetCDF4-Ausgabe gewährleistet Interoperabilität mit ozeanographischen Analysewerkzeugen. Die Bibliothek adressiert den Bedarf an standardisierter, reproduzierbarer Infrastruktur in der Kollektivverhaltensmodellierung, analog zu etablierten Molekulardynamik-Codes.
Kausale Entdeckung ist entscheidend für die Weiterentwicklung datengetriebener Bereiche wie wissenschaftliche KI und Datenanalyse, doch bestehende Ansätze stoßen bei der Skalierung auf große Graphen auf erhebliche Zeit- und Speichereffizienzengpässe. Um diese Herausforderung zu bewältigen, stellen wir CauScale vor, eine neuronale Architektur für effiziente kausale Entdeckung, die Inferenz auf Graphen mit bis zu 1000 Knoten skaliert. CauScale verbessert die Zeiteffizienz durch eine Reduktionseinheit, die Datenembedding komprimiert, und die Speichereffizienz durch gebundene Attention-Gewichte, die die Pfleg axisenspezifischer Attention-Maps vermeidet. Um eine hohe Genauigkeit der kausalen Entdeckung zu gewährleisten, verwendet CauScale ein Zwei-Stream-Design: Ein Datenstrom extrahiert relationale Evidenz aus hochdimensionalen Beobachtungen, während ein Graphstrom statistische Graph-Priors integriert und wichtige strukturelle Signale bewahrt. CauScale skaliert erfolgreich auf 500-Knoten-Graphen während des Trainings, wo frühere Arbeiten aufgrund von Speicherbeschränkungen scheitern. In Testdaten mit variierenden Graphgrößen und kausalen Mechanismen erzielt CauScale 99,6 % mAP auf In-Distribution-Daten und 84,4 % auf Out-of-Distribution-Daten, bei gleichzeitiger Beschleunigung der Inferenz um das 4- bis 13.000-fache gegenüber früheren Methoden. Unsere Projektseite befindet sich unter https://github.com/OpenCausaLab/CauScale.