papers.description
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge im Verständnis von Quellcode erzielt, doch mit zunehmender Größe von Softwaresystemen ist die Recheneffizienz zu einem kritischen Engpass geworden. Derzeit basieren diese Modelle auf einem textbasierten Paradigma, das Quellcode als lineare Sequenz von Tokens behandelt, was zu einem linearen Anstieg der Kontextlänge und der damit verbundenen Rechenkosten führt. Der rasante Fortschritt multimodaler LLMs (MLLMs) eröffnet die Möglichkeit, die Effizienz zu optimieren, indem Quellcode als gerenderte Bilder dargestellt wird. Im Gegensatz zu Text, der schwer zu komprimieren ist, ohne die semantische Bedeutung zu verlieren, eignet sich die Bildmodalität von Natur aus für Komprimierung. Durch Anpassung der Auflösung können Bilder auf einen Bruchteil ihrer ursprünglichen Token-Kosten skaliert werden, während sie für visuell fähige Modelle erkennbar bleiben. Um die Machbarkeit dieses Ansatzes zu untersuchen, führen wir die erste systematische Studie zur Effektivität von MLLMs für das Code-Verständnis durch. Unsere Experimente zeigen: (1) MLLMs können Code effektiv verstehen bei erheblicher Token-Reduzierung und erreichen bis zu 8-fache Kompression; (2) MLLMs können visuelle Hinweise wie Syntax-Hervorhebungen effektiv nutzen und verbessern die Code-Vervollständigungsleistung bei 4-facher Kompression; und (3) Code-Verständnisaufgaben wie Klonerkennung zeigen eine außergewöhnliche Widerstandsfähigkeit gegenüber visueller Kompression, wobei einige Kompressionsraten sogar geringfügig besser abschneiden als Rohtexteingaben. Unsere Ergebnisse unterstreichen sowohl das Potenzial als auch die aktuellen Grenzen von MLLMs im Code-Verständnis und weisen auf einen Wechsel hin zur Bildmodalität der Coderepräsentation als Weg zu effizienterem Inferieren.
Sprachagenten haben großes Potenzial für die Automatisierung von Aufgaben gezeigt. Die Verwirklichung dieses Potenzials für zunehmend komplexe, langfristige Aufgaben hat den Aufstieg eines Sub-Agenten-als-Werkzeuge-Paradigmas zur Lösung mehrstufiger Aufgaben vorangetrieben. Bisherigen Ansätzen fehlt jedoch eine dynamische Abstraktionssicht auf Sub-Agenten, was die Anpassungsfähigkeit beeinträchtigt. Wir begegnen dieser Herausforderung mit einer einheitlichen, framework-agnostischen Agentenabstraktion, die jeden Agenten als ein Tupel aus Anweisung, Kontext, Werkzeugen und Modell beschreibt. Dieses Tupel fungiert als eine kompositionelle Rezeptur für Fähigkeiten und ermöglicht es dem System, spezialisierte Ausführungsinstanzen für jede Aufgabe bedarfsgesteuert zu erzeugen. Aufbauend auf dieser Abstraktion führen wir ein agentenbasiertes System namens AOrchestra ein, bei dem der zentrale Orchestrator das Tupel in jedem Schritt konkretisiert: Er kuratiert aufgabenrelevanten Kontext, wählt Werkzeuge und Modelle aus und delegiert die Ausführung durch automatische, spontane Agentenerstellung. Ein solcher Aufbau reduziert den Engineering-Aufwand und bleibt framework-agnostisch mit Plug-and-Play-Unterstützung für verschiedene Agenten als Aufgabenausführer. Er ermöglicht zudem einen kontrollierbaren Kompromiss zwischen Leistung und Kosten, der das System in die Nähe der Pareto-Effizienz bringt. In drei anspruchsvollen Benchmarks (GAIA, SWE-Bench, Terminal-Bench) erzielt AOrchestra in Kombination mit Gemini-3-Flash eine relative Verbesserung von 16,28 % gegenüber der stärksten Baseline. Der Code ist verfügbar unter: https://github.com/FoundationAgents/AOrchestra
Diese Arbeit geht auf frühere ergänzende Beobachtungen zur Dynamik von Chain-of-Thought (CoT) zurück: Es wird gezeigt, dass Large Language Models (LLMs) latente Planung nachfolgender Schlussfolgerungen betreiben, noch bevor CoT explizit auftritt, was die Bedeutung von explizitem CoT verringert; dennoch bleibt CoT für Aufgaben mit mehrstufiger Argumentation entscheidend. Um das Verständnis zwischen den internen Zuständen von LLMs und ihren verbalisierten Reasoning-Pfaden zu vertiefen, untersuchen wir die latente Planungsstärke von LLMs mittels unserer Abfragemethode Tele-Lens, die auf verborgenen Zuständen in verschiedenen Aufgabenbereichen angewendet wird. Unsere empirischen Ergebnisse deuten darauf hin, dass LLMs einen myopischen Planungshorizont aufweisen und primär inkrementelle Übergänge ohne präzise globale Planung vollziehen. Aufbauend auf dieser Eigenschaft stellen wir eine Hypothese zur Verbesserung der Unsicherheitsschätzung von CoT auf und validieren, dass eine kleine Teilmenge von CoT-Positionen die Unsicherheit des gesamten Pfades effektiv repräsentieren kann. Wir betonen ferner die Bedeutung der Nutzung von CoT-Dynamiken und demonstrieren, dass eine automatische Erkennung von CoT-Umgehungen ohne Leistungseinbußen möglich ist. Unser Code, unsere Daten und Modelle sind unter https://github.com/lxucs/tele-lens verfügbar.
Die Automatisierung der KI-Forschung unterscheidet sich von allgemeiner Softwareentwicklung durch rechenintensive Evaluierung (z.B. Modelltraining) und undurchsichtige Leistungszuordnung. Aktuelle LLM-basierte Agenten scheitern hier oft, indem sie monolithische Skripte generieren, die Ausführungskosten und kausale Faktoren ignorieren. Wir stellen MARS (Modular Agent with Reflective Search) vor, ein für autonome KI-Forschung optimiertes Framework. MARS basiert auf drei Säulen: (1) Budgetbewusste Planung durch kosteneingeschränkte Monte-Carlo-Baumsuche (MCTS), um Leistung und Ausführungsaufwand explizit abzuwägen; (2) Modulare Konstruktion mittels einer "Design-Zerlegung-Implementierung"-Pipeline zur Verwaltung komplexer Forschungsrepositorys; und (3) Vergleichendes reflektives Gedächtnis, das die Verdienstzuweisung durch Analyse von Lösungsunterschieden adressiert, um hochsignifikante Erkenntnisse zu destillieren. MARS erreicht unter vergleichbaren Bedingungen state-of-the-art-Leistung unter Open-Source-Frameworks auf MLE-Bench und bleibt mit den Top-Methoden der globalen Bestenliste wettbewerbsfähig. Zudem zeigt das System qualitative "Aha!"-Momente, bei denen 63% aller genutzten Lektionen aus übergreifendem Transfer zwischen Zweigen stammen, was demonstriert, dass der Agent Erkenntnisse effektiv über Suchpfade hinweg verallgemeinert.
Während Large Language Models (LLMs) bei kurzfristigen Aufgaben hervorragend abschneiden, stellt die Skalierung auf langfristige, agentenbasierte Workflows nach wie vor eine Herausforderung dar. Der Kernengpass liegt in der Knappheit von Trainingsdaten, die authentische Langzeitabhängigkeiten und übergreifende evolutionäre Dynamiken erfassen – bestehende Synthesemethoden beschränken sich entweder auf Einzelmerkmal-Szenarien, die durch die Modellverteilung eingeschränkt sind, oder verursachen prohibitive Kosten für menschliche Annotationen und können somit keine skalierbare, hochwertige Supervision bieten. Wir adressieren dies, indem wir die Datensynthese durch die Linse realer Softwareevolution neu konzipieren. Unsere zentrale Erkenntnis: Pull-Request (PR)-Sequenzen verkörpern auf natürliche Weise die Supervisionssignale für langfristiges Lernen. Sie zerlegen komplexe Ziele in überprüfbare Einheiten, wahren funktionale Kohärenz über Iterationen hinweg und kodieren authentische Verfeinerungsmuster durch Bug-Fix-Historien. Aufbauend darauf schlagen wir daVinci-Agency vor, das strukturierte Supervision aus PR-Ketten durch drei verzahnte Mechanismen systematisch extrahiert: (1) progressive Aufgabenzerlegung via fortlaufender Commits, (2) Durchsetzung langfristiger Konsistenz durch einheitliche funktionale Ziele und (3) überprüfbare Verfeinerung aus authentischen Bug-Fix-Pfaden. Im Gegensatz zu synthetischen Trajektorien, die jeden Schritt unabhängig behandeln, bewahrt die PR-basierte Struktur von daVinci-Agency inherent die kausalen Abhängigkeiten und iterativen Verfeinerungen, die für das Erlernen von zielgerichtetem Dauerhaftverhalten essenziell sind, und ermöglicht eine natürliche Ausrichtung auf projektweite, vollständige Aufgabenmodellierung. Die resultierenden Trajektorien sind umfangreich – durchschnittlich 85k Tokens und 116 Tool-Aufrufe – und dennoch bemerkenswert dateneffizient: Das Fine-Tuning von GLM-4.6 mit nur 239 daVinci-Agency-Beispielen führt zu breiten Verbesserungen in Benchmarks, mit einem bemerkenswerten relativen Zuwachs von 47 % auf Toolathlon. Über die Benchmark-Leistung hinaus bestätigt unsere Analyse ...
Bestehende Methoden zur Steuerung menschlicher Bewegungen in der Videogenerierung basieren typischerweise entweder auf 2D-Posen oder expliziten 3D-parametrischen Modellen (z.B. SMPL) als Steuersignale. Allerdings binden 2D-Posen die Bewegung starr an die antreibende Kameraperspektive, was die Synthese neuartiger Ansichten verhindert. Explizite 3D-Modelle sind zwar strukturell informativ, leiden jedoch unter inhärenten Ungenauigkeiten (z.B. Tiefenmehrdeutigkeit und ungenaue Dynamik), die – wenn sie als starke Randbedingung verwendet werden – das mächtige intrinsische 3D-Verständnis großskaliger Videogeneratoren überlagern. In dieser Arbeit betrachten wir Bewegungssteuerung aus einer 3D-bewussten Perspektive neu und plädieren für eine implizite, perspektivenunabhängige Bewegungsrepräsentation, die sich natürlich mit den räumlichen Priors des Generators abstimmt, anstatt von extern rekonstruierten Randbedingungen abzuhängen. Wir stellen 3DiMo vor, das gemeinsam einen Bewegungskodierer mit einem vortrainierten Videogenerator trainiert, um Antriebsbilder in kompakte, perspektivenunabhängige Bewegungstoken zu destillieren, die semantisch via Cross-Attention eingefügt werden. Um das 3D-Verständnis zu fördern, trainieren wir mit perspektivenreicher Supervision (d.h. Einzelansichts-, Mehransichts- und Bewegtkameravideos), wodurch Bewegungs konsistenz über verschiedene Blickwinkel erzwungen wird. Zusätzlich verwenden wir eine auxiliary geometrische Supervision, die SMPL nur zur frühen Initialisierung nutzt und dann auf Null abklingt. Dies ermöglicht dem Modell, von externer 3D-Führung zu einem echten, aus den Daten und den Priors des Generators erlernten räumlichen 3D-Bewegungsverständnis überzugehen. Experimente bestätigen, dass 3DiMo antreibende Bewegungen mit flexibler, textgesteuerter Kamerakontrolle getreu reproduziert und bestehende Methoden sowohl in der Bewegungsqualität als auch der visuellen Qualität signifikant übertrifft.
Weltmodelle haben sich als entscheidende Forschungsfront in der KI entwickelt, mit dem Ziel, große Modelle durch die Integration physikalischer Dynamiken und Weltwissen zu erweitern. Das Kernziel besteht darin, Agenten zu befähigen, komplexe Umgebungen zu verstehen, vorherzusagen und mit ihnen zu interagieren. Die gegenwärtige Forschungslage bleibt jedoch fragmentiert, wobei sich die Ansätze überwiegend auf die Einbringung von Weltwissen in isolierte Aufgaben konzentrieren, wie visuelle Vorhersage, 3D-Schätzung oder symbolisches Grounding, anstatt eine einheitliche Definition oder ein Rahmenwerk zu etablieren. Obwohl diese aufgabenspezifischen Integrationen Leistungsverbesserungen erzielen, fehlt ihnen oft die systematische Kohärenz, die für ein holistisches Weltverständnis erforderlich ist. In diesem Beitrag analysieren wir die Grenzen solcher fragmentierter Ansätze und schlagen eine einheitliche Designspezifikation für Weltmodelle vor. Wir argumentieren, dass ein robustes Weltmodell keine lose Sammlung von Fähigkeiten sein sollte, sondern ein normatives Rahmenwerk, das Interaktion, Wahrnehmung, symbolisches Schließen und räumliche Repräsentation integral vereint. Diese Arbeit zielt darauf ab, eine strukturierte Perspektive zu bieten, um zukünftige Forschung in Richtung allgemeinerer, robusterer und prinzipienbasierter Weltmodelle zu lenken.
Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat sich als zentrale Methode zur Verbesserung des logischen Denkvermögens von LLMs etabliert. Standardframeworks wie Group Relative Policy Optimization (GRPO) verwenden jedoch typischerweise ein einheitliches Rollout-Budget, was zu Ressourcenineffizienz führt. Darüber hinaus stützen sich bestehende adaptive Methoden oft auf instanzspezifische Metriken, wie etwa Aufgaben-Bestehensquoten, die den dynamischen Lernzustand des Modells nicht erfassen. Um diese Einschränkungen zu adressieren, schlagen wir CoBA-RL vor, einen Reinforcement-Learning-Algorithmus, der darauf ausgelegt ist, Rollout-Budgets adaptiv basierend auf der sich entwickelnden Fähigkeit des Modells zuzuteilen. Konkret nutzt CoBA-RL eine fähigkeitsorientierte Wertfunktion, um Aufgaben ihrem potenziellen Trainingsgewinn zuzuordnen, und setzt eine heap-basierte Greedy-Strategie ein, um die Verteilung von Rechenressourcen auf Samples mit hohem Trainingswert effizient selbst zu kalibrieren. Umfangreiche Experimente belegen, dass unser Ansatz die Abwägung zwischen Exploration und Exploitation wirksam orchestriert und durchgängige Verbesserungen der Generalisierungsfähigkeit über mehrere anspruchsvolle Benchmarks hinweg erzielt. Diese Ergebnisse unterstreichen, dass die Quantifizierung des Trainingswerts von Samples und die Optimierung der Budgetzuweisung entscheidend für den Fortschritt der Effizienz von LLMs nach dem Training sind.
Distribution Matching Distillation (DMD) richtet einen mehrstufigen Generator an seinem wenigschnittigen Gegenstück aus, um hochwertige Generierung bei geringen Inferenzkosten zu ermöglichen. Allerdings neigt DMD zu Moduszusammenbruch, da seine Reverse-KL-Formulierung von Natur aus modus-suchendes Verhalten fördert. Bisherige Abhilfemaßnahmen basieren typischerweise auf perzeptueller oder adversarieller Regularisierung, was erheblichen Rechenaufwand und Trainingsinstabilität verursacht. In dieser Arbeit schlagen wir ein rollengetrenntes Distillationsframework vor, das die Rollen der destillierten Schritte explizit entkoppelt: Der erste Schritt ist der Bewahrung der Probenvielfalt über ein Zielprädiktionsziel (z.B. v-Prediction) gewidmet, während nachfolgende Schritte die Qualitätsverbesserung unter dem standardmäßigen DMD-Verlust fokussieren, wobei die Gradienten des DMD-Ziels im ersten Schritt blockiert werden. Wir bezeichnen diesen Ansatz als Diversity-Preserved DMD (DP-DMD), der trotz seiner Einfachheit – ohne perzeptuelles Backbone, ohne Diskriminator, ohne Zusatznetzwerke und ohne zusätzliche Ground-Truth-Bilder – die Probenvielfalt bewahrt und dabei eine visuelle Qualität auf Augenhöhe mit state-of-the-art Methoden in umfangreichen Text-zu-Bild-Experimenten beibehält.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben es Softwareentwicklungs-Agenten ermöglicht, komplexe Codeänderungsaufgaben zu bewältigen. Die meisten bestehenden Ansätze verlassen sich auf Ausführungsfeedback aus containerisierten Umgebungen, die einen abhängigkeitskompletten Setup sowie die physische Ausführung von Programmen und Tests erfordern. Obwohl wirksam, ist dieses Paradigma ressourcenintensiv und schwierig zu warten, was das Agententraining erheblich erschwert und die Skalierbarkeit begrenzt. Wir schlagen SWE-World vor, ein Docker-freies Framework, das physische Ausführungsumgebungen durch ein gelerntes Surrogat für das Training und die Evaluation von Softwareentwicklungs-Agenten ersetzt. SWE-World nutzt LLM-basierte Modelle, die auf echten Agent-Umgebungs-Interaktionsdaten trainiert wurden, um Zwischenausführungsergebnisse und finales Testfeedback vorherzusagen, sodass Agenten lernen können, ohne mit physischen containerisierten Umgebungen zu interagieren. Dieses Design bewahrt die standardmäßige Agent-Umgebungs-Interaktionsschleife, während der Bedarf an kostspieligem Umgebungsaufbau und -wartung während der Agentenoptimierung und -evaluation entfällt. Da SWE-World zudem die finalen Evaluationsergebnisse von Kandidatentrajektorien ohne echte Einreichung simulieren kann, ermöglicht es die Auswahl der besten Lösung unter mehreren Testzeitversuchen und erleichtert so effektives Test-Time Scaling (TTS) in Softwareentwicklungsaufgaben. Experimente auf SWE-bench Verified zeigen, dass SWE-World Qwen2.5-Coder-32B von 6,2 % auf 52,0 % durch Docker-freies SFT, auf 55,0 % mit Docker-freiem RL und auf 68,2 % mit weiterem TTS steigert. Der Code ist verfügbar unter https://github.com/RUCAIBox/SWE-World.
In diesem technischen Bericht stellen wir SWE-Master vor, ein quelloffenes und vollständig reproduzierbares Post-Training-Framework zur Entwicklung effektiver Software Engineering Agents. SWE-Master untersucht systematisch die gesamte Agent-Entwicklungspipeline, einschließlich der Synthese von Lehrer-Trajektorien und Datenkuratierung, langhorizontlichem SFT (Supervised Fine-Tuning), Reinforcement Learning mit realer Ausführungsrückmeldung und dem Design von Inferenz-Frameworks. Ausgehend von einem quelloffenen Basismodell mit begrenzten anfänglichen SWE-Fähigkeiten demonstriert SWE-Master, wie systematische Optimierungsmethoden starke Fähigkeiten zur Lösung langhorizontlicher SWE-Aufgaben hervorbringen können. Wir evaluieren SWE-Master auf SWE-bench Verified, einem Standard-Benchmark für realistische Software-Engineering-Aufgaben. Unter identischen experimentellen Bedingungen erreicht unser Ansatz mit Qwen2.5-Coder-32B eine Lösungsrate von 61,4 % und übertrifft damit existierende quelloffene Baseline-Modelle deutlich. Durch die weitere Integration von Test-Time Scaling (TTS) mit LLM-basierter Umgebungsrückmeldung erreicht SWE-Master 70,8 % bei TTS@8, was ein starkes Leistungspotenzial demonstriert. SWE-Master bietet eine praktische und transparente Grundlage für die Förderung reproduzierbarer Forschung zu Software Engineering Agents. Der Code ist verfügbar unter https://github.com/RUCAIBox/SWE-Master.
Heutzutage bleiben das Training und die Bewertung von DeepResearch-generierten Berichten aufgrund des Mangels an verifizierbaren Belohnungssignalen eine Herausforderung. Dementsprechend hat sich die bewertungsrasterbasierte Evaluation zu einer gängigen Praxis entwickelt. Bestehende Ansätze verlassen sich jedoch entweder auf grobe, vordefinierte Bewertungsraster, denen eine ausreichende Granularität fehlt, oder auf manuell erstellte, abfragespezifische Raster, die kostspielig und schwer zu skalieren sind. In diesem Artikel schlagen wir eine Pipeline vor, um an menschliche Präferenzen angepasste, abfragespezifische Bewertungsraster-Generatoren für die DeepResearch-Berichterstellung zu trainieren. Wir erstellen zunächst einen Datensatz mit DeepResearch-artigen Abfragen, die mit menschlichen Präferenzen für Berichtspaare annotiert sind, und trainieren die Raster-Generatoren mittels Reinforcement Learning mit einer hybriden Belohnungsfunktion, die menschliche Präferenzüberwachung und LLM-basierte Rasterbewertung kombiniert. Um langfristiges Schlussfolgern besser zu handhaben, führen wir weiterhin einen Multi-Agenten-Markov-Zustands (MaMs)-Workflow für die Berichtsgenerierung ein. Wir zeigen empirisch, dass unsere vorgeschlagenen Raster-Generatoren eine diskriminativere und besser an menschliche Präferenzen angepasste Überwachung liefern als bestehende Raster-Design-Strategien. Darüber hinaus übertreffen DeepResearch-Systeme, die mit unseren Raster-Generatoren im MaMs-Trainingsframework integriert sind, durchgängig alle Open-Source-Baseline-Systeme auf der DeepResearch Bench und erreichen eine Leistung, die mit der führender Closed-Source-Modelle vergleichbar ist.
Paralleles Denken hat sich als vielversprechendes Paradigma für logisches Schließen erwiesen, verursacht jedoch erhebliche Rechenlasten. Bestehende Effizienzmethoden stützen sich primär auf lokale, pro-Trajektorie-Signale und verfügen über keine prinzipiellen Mechanismen zur Nutzung globaler Dynamiken über parallele Zweige hinweg. Wir führen 2D-Abfragen ein, eine Schnittstelle, die die Breite-Tiefe-Dynamik des parallelen Denkens offenlegt, indem periodisch Zwischenantworten aller Zweige abgerufen werden. Unsere Analyse zeigt drei zentrale Erkenntnisse: nicht-monotone Skalierung bei Breite-Tiefe-Zuteilungen, heterogene Schließlängen der Zweige und frühe Stabilisierung des globalen Konsenses. Aufbauend auf diesen Erkenntnissen präsentieren wir Parallel-Probe, einen trainierungsfreien Controller zur Online-Optimierung parallelen Denkens. Parallel-Probe nutzt konsensbasierte Frühbeendigung zur Steuerung der Schließtiefe und abweichungsbasierte Zweigausdünnung zur dynamischen Anpassung der Breite. Umfangreiche Experimente über drei Benchmarks und mehrere Modelle hinweg zeigen, dass Parallel-Probe eine überlegene Pareto-Grenze für die Skalierung zur Testzeit etabliert. Im Vergleich zum Standardverfahren der Mehrheitsentscheidung reduziert es sequenzielle Tokens um bis zu 35,8% und die Gesamttokenkosten um über 25,8% bei gleichbleibend hoher Genauigkeit.
Jüngste Fortschritte bei multimodalen Belohnungsmodellen (RMs) haben die Entwicklung der visuellen Generierung erheblich vorangetrieben. Bestehende Frameworks verwenden typischerweise Bradley-Terry-artige Präferenzmodellierung oder setzen generative VLMs als Bewerter ein und optimieren anschließend visuelle Generierungsmodelle durch Reinforcement Learning. Allerdings leiden aktuelle RMs unter inhärenten Limitationen: Sie folgen oft einem Einheitsansatz, der von einer einheitlichen Präferenzverteilung ausgeht oder auf festen Bewertungskriterien basiert. Infolgedessen sind sie unempfindlich gegenüber inhalts-spezifischen visuellen Hinweisen, was zu systematischen Fehlanpassungen an subjektive und kontextabhängige menschliche Präferenzen führt. Inspiriert von der menschlichen Bewertung schlagen wir daher UnifiedReward-Flex vor, ein vereinheitlichtes personalisiertes Belohnungsmodell für die Bildgenerierung, das Belohnungsmodellierung mit flexiblem und kontextadaptivem Reasoning verbindet. Konkret interpretiert das Modell bei gegebenem Prompt und generiertem visuellen Inhalt zunächst die semantische Absicht und verankert diese in visuellen Evidenzen, um dann dynamisch eine hierarchische Bewertung durch Instanziierung feingranularer Kriterien unter sowohl vordefinierten als auch selbst-generierten übergeordneten Dimensionen zu konstruieren. Unser Trainingsprozess folgt einem zweistufigen Ablauf: (1) Zunächst destillieren wir strukturierte, hochwertige Reasoning-Traces aus fortschrittlichen Closed-Source-VLMs, um das SFT zu bootstrappen und dem Modell flexibles, kontextadaptives Reasoning-Verhalten zu verleihen; (2) Anschließend führen wir Direct Preference Optimization (DPO) anhand sorgfältig kuratierter Präferenzpaare durch, um die Reasoning-Treue und diskriminative Ausrichtung weiter zu verstärken. Um die Wirksamkeit zu validieren, integrieren wir UnifiedReward-Flex in das GRPO-Framework für Bild- und Videosynthese. Umfangreiche Ergebnisse demonstrieren seine Überlegenheit.
Reranking ist eine entscheidende Komponente moderner Retrieval-Systeme, die typischerweise einen effizienten Erststufen-Retriever mit einem ausdrucksstärkeren Modell kombinieren, um Ergebnisse zu verfeinern. Während große Reasoning-Modelle rasche Fortschritte im textzentrierten Reranking vorangetrieben haben, ist reasoning-basiertes Reranking für die Videoretrieval noch wenig erforscht. Um diese Lücke zu schließen, stellen wir RANKVIDEO vor, einen reasoning-basierten Reranker für die Videoretrieval, der explizit über Query-Video-Paare unter Verwendung des Videoinhalts reasoniert, um die Relevanz zu bewerten. RANKVIDEO wird mittels eines zweistufigen Curriculums trainiert, das aus wahrnehmungsgestütztem supervised Fine-Tuning gefolgt von Reranking-Training besteht, das pointwise-, pairwise- und Teacher-Confidence-Distillation-Ziele kombiniert, und wird durch eine Data-Synthesis-Pipeline zur Konstruktion von reasoning-intensiven Query-Video-Paaren unterstützt. Experimente auf dem groß angelegten MultiVENT 2.0 Benchmark zeigen, dass RANKVIDEO die Retrieval-Leistung innerhalb eines zweistufigen Frameworks konsistent verbessert, durchschnittlich eine Steigerung von 31 % bei nDCG@10 erzielt und textbasierte sowie vision-language Reranking-Alternativen übertrifft, bei gleichzeitig höherer Effizienz.
Reinforcement Learning mit Verifizierbaren Belohnungen (RLVR) hat das Reasoning von LLMs vorangetrieben, bleibt jedoch durch ineffiziente Exploration unter begrenzten Rollout-Budgets eingeschränkt, was zu geringer Sampling-Erfolgsrate und instabilem Training bei komplexen Aufgaben führt. Wir stellen fest, dass viele Explorationsfehler nicht von der Problemerschwerung herrühren, sondern von einer kleinen Anzahl von Prompt-Tokens, die Interferenzen verursachen. Aufbauend auf dieser Erkenntnis schlagen wir das Less Noise Sampling Framework (LENS) vor, das zunächst durch Identifizierung und Entfernung von Interferenz-Tokens promoptet. Anschließend überträgt es erfolgreiche Rollouts aus dem Bereinigungsprozess, um die Policy-Optimierung auf den ursprünglichen verrauschten Prompts zu überwachen, wodurch das Modell lernt, Interferenzen in realen, verrauschten Prompting-Szenarien zu ignorieren. Experimentelle Ergebnisse zeigen, dass LENS GRPO deutlich übertrifft, höhere Leistung und schnellere Konvergenz liefert, mit einem durchschnittlichen Gewinn von 3,88 % und einer mehr als 1,6-fachen Beschleunigung. Unsere Arbeit unterstreicht die kritische Rolle der Bereinigung von Interferenz-Tokens bei der Verbesserung der Rollout-Effizienz und bietet eine neue Perspektive für die RLVR-Forschung.
Die Suchintelligenz entwickelt sich von der Tiefenrecherche zur Breitenrecherche, einem Paradigma, das für das parallele Abrufen und Synthetisieren umfassender Informationen unter komplexen Randbedingungen entscheidend ist. Dennoch wird der Fortschritt auf diesem Gebiet durch das Fehlen spezieller Benchmarks und Optimierungsmethoden für die Suchbreite behindert. Um diese Herausforderungen zu bewältigen, untersuchen wir die Breitenrecherche aus zwei Perspektiven: Datenpipeline und Agentenoptimierung. Erstens stellen wir WideSeekBench vor, einen Benchmark für allgemeine breit angelegte Informationssuche (General Broad Information Seeking, GBIS), der durch eine rigorose mehrstufige Datenpipeline erstellt wurde, um Diversität in Bezug auf Informationsumfang, logische Randbedingungen und Domänen sicherzustellen. Zweitens führen wir WideSeek ein, eine dynamische hierarchische Multi-Agenten-Architektur, die basierend auf Aufgabenanforderungen autonom parallele Sub-Agenten erzeugen kann. Darüber hinaus entwerfen wir ein einheitliches Trainingsframework, das Multi-Agenten-Trajektorien linearisiert und das System durch end-to-end Reinforcement Learning optimiert. Experimentelle Ergebnisse demonstrieren die Wirksamkeit von WideSeek und Multi-Agenten-Reinforcement-Learning und zeigen, dass die Skalierung der Anzahl von Agenten eine vielversprechende Richtung für die Weiterentwicklung des Breitenrecherche-Paradigmas darstellt.
In der diskreten generativen Modellierung zeigen zwei dominante Paradigmen unterschiedliche Fähigkeiten: Masked Diffusion Language Models (MDLM) zeichnen sich durch semantisches Verständnis und Zero-Shot-Generalisierung aus, während Uniform-noise Diffusion Language Models (UDLM) eine hohe Erzeugungsqualität mit wenigen Schritten erreichen. Keines der Paradigmen erzielt jedoch eine ausgewogene Leistung in beiden Dimensionen. Um dieses Problem zu lösen, schlagen wir XDLM vor, das die beiden Paradigmen durch einen stationären Rauschkern verbindet. XDLM bietet zwei wesentliche Beiträge: (1) Es bietet eine prinzipielle theoretische Vereinheitlichung von MDLM und UDLM, wobei jedes Paradigma als Spezialfall abgeleitet wird; und (2) einen verringerten Memory-Engpass, ermöglicht durch eine algebraische Vereinfachung der posterior-Wahrscheinlichkeiten. Experimente zeigen, dass XDLM die Pareto-Grenze zwischen Verständnisfähigkeit und Erzeugungsqualität erweitert. Quantitativ übertrifft XDLM UDLM um 5,4 Punkte bei Zero-Shot-Textbenchmarks und übertrifft MDLM in der Bildgenerierung mit wenigen Schritten (FID 54,1 vs. 80,8). Bei der Skalierung zur Feinabstimmung eines Large Language Models mit 8B Parametern erreicht XDLM 15,0 MBPP in nur 32 Schritten und verdoppelt damit effektiv die Baseline-Leistung. Schließlich zeigt die Analyse der Trainingsdynamik das überlegene Skalierungspotenzial von XDLM auf lange Sicht. Der Code ist verfügbar unter https://github.com/MzeroMiko/XDLM.
Das Homotopie-Paradigma, ein allgemeines Prinzip zur Lösung anspruchsvoller Probleme, findet sich in verschiedenen Bereichen wie robuster Optimierung, globaler Optimierung, Polynomnullstellensuche und Sampling. Praktische Löser für diese Probleme folgen typischerweise einer Prädiktor-Korrektor (PC)-Struktur, greifen jedoch auf handgefertigte Heuristiken für Schrittweiten und Iterationsabbruch zurück, die oft suboptimal und aufgabenspezifisch sind. Um dies zu adressieren, fassen wir diese Probleme in einem einheitlichen Rahmen zusammen, der den Entwurf eines allgemeinen neuronalen Lösers ermöglicht. Aufbauend auf dieser vereinheitlichten Sichtweise schlagen wir Neural Predictor-Corrector (NPC) vor, das handgefertigte Heuristiken durch automatisch gelernte Strategien ersetzt. NPC formuliert die Strategieauswahl als sequenzielles Entscheidungsproblem und nutzt bestärkendes Lernen, um effiziente Strategien automatisch zu entdecken. Um die Generalisierung weiter zu verbessern, führen wir einen amortisierten Trainingsmechanismus ein, der ein einmaliges Offline-Training für eine Problemklasse und effiziente Online-Inferenz für neue Instanzen ermöglicht. Experimente an vier repräsentativen Homotopieproblemen zeigen, dass unsere Methode effektiv auf unbekannte Instanzen generalisiert. Sie übertrifft klassische und spezialisierte Baseline-Methoden durchweg in der Effizienz und zeigt gleichzeitig überlegene Stabilität über verschiedene Aufgaben hinweg, was den Wert der Vereinheitlichung von Homotopieverfahren in einem einzigen neuronalen Rahmen unterstreicht.
Die quadratische Komplexität der Aufmerksamkeit bleibt das zentrale Hindernis bei der Inferenz mit langen Kontexten in großen Sprachmodellen. Bisherige Beschleunigungsmethoden verdünnen entweder die Aufmerksamkeitsmatrix mit strukturierten Mustern oder entfernen Token dauerhaft in bestimmten Schichten, was irrelevante Token beibehalten oder auf irreversible Frühentscheidungen angewiesen sein kann – trotz der schicht- und kopfabhängigen Dynamik der Token-Bedeutung. In dieser Arbeit schlagen wir Token Sparse Attention vor, einen leichtgewichtigen und dynamischen Sparsifikationsmechanismus auf Token-Ebene, der pro Kopf Q, K, V auf einen reduzierten Token-Satz während der Aufmerksamkeitsberechnung komprimiert und die Ausgabe dann zurück auf die ursprüngliche Sequenz dekomprimiert, wodurch Token-Informationen in nachfolgenden Schichten neu bewertet werden können. Darüber hinaus eröffnet Token Sparse Attention einen neuen Gestaltungsansatz an der Schnittstelle von Token-Auswahl und sparser Aufmerksamkeit. Unser Ansatz ist vollständig kompatibel mit Implementierungen dichter Aufmerksamkeit, einschließlich Flash Attention, und kann nahtlos mit existierenden sparsen Aufmerksamkeitskernen kombiniert werden. Experimentelle Ergebnisse zeigen, dass Token Sparse Attention durchgängig die Genauigkeits-Latenz-Abwägung verbessert und eine bis zu 3,23-fache Beschleunigung der Aufmerksamkeitsberechnung bei 128K Kontextlänge mit weniger als 1% Genauigkeitsverlust erreicht. Diese Ergebnisse demonstrieren, dass dynamische und verschachtelte Sparsifikation auf Token-Ebene eine komplementäre und effektive Strategie für skalierbare Inferenz mit langem Kontext darstellt.
Die Unterstützung nicht-experimentierter Benutzer bei der Entwicklung komplexer interaktiver Websites ist zu einer beliebten Aufgabe für LLM-gestützte Code-Agenten geworden. Allerdings neigen bestehende Code-Agenten dazu, nur Frontend-Webseiten zu generieren, wobei der Mangel an echter Full-Stack-Datenverarbeitung und -speicherung durch aufwendige visuelle Effekte kaschiert wird. Es ist bemerkenswert, dass die Erstellung produktionsreifer Full-Stack-Webanwendungen weitaus anspruchsvoller ist als die reine Generierung von Frontend-Webseiten, da sie eine sorgfältige Steuerung des Datenflusses, ein umfassendes Verständnis sich ständig aktualisierender Pakete und Abhängigkeiten sowie eine präzise Lokalisierung schwer auffindbarer Fehler in der Codebasis erfordert. Um diese Schwierigkeiten zu bewältigen, stellen wir FullStack-Agent vor, ein einheitliches Agentensystem für agentenbasiertes Full-Stack-Programmieren, das aus drei Teilen besteht: (1) FullStack-Dev, ein Multi-Agenten-Framework mit starken Fähigkeiten in den Bereichen Planung, Code-Bearbeitung, Navigation in Codebasen und Fehlerlokalisierung. (2) FullStack-Learn, eine innovative Methode zur Datenskalierung und Selbstverbesserung, die gecrawlte und synthetisierte Website-Repositories zurückübersetzt, um das zugrundeliegende LLM von FullStack-Dev zu verbessern. (3) FullStack-Bench, ein umfassender Benchmark, der die Frontend-, Backend- und Datenbankfunktionen der generierten Website systematisch testet. Unser FullStack-Dev übertrifft die bisherige state-of-the-art-Methode um 8,7 %, 38,2 % bzw. 15,9 % bei den Frontend-, Backend- und Datenbank-Testfällen. Zusätzlich steigert FullStack-Learn die Leistung eines 30B-Modells durch Selbstverbesserung um 9,7 %, 9,5 % bzw. 2,8 % bei den drei Testfallgruppen, was die Wirksamkeit unseres Ansatzes demonstriert. Der Code ist unter https://github.com/mnluzimu/FullStack-Agent verfügbar.
Die Bestimmung einer effektiven Datenmischung ist ein Schlüsselfaktor beim Vortraining großer Sprachmodelle (LLM), bei dem Modelle allgemeine Kompetenz mit Fähigkeiten in anspruchsvollen Aufgaben wie Mathematik und Programmierung in Einklang bringen müssen. Die Identifizierung einer optimalen Mischung bleibt jedoch eine ungelöste Herausforderung, da bestehende Ansätze entweder auf unzuverlässigen Proxy-Experimenten im kleinen Maßstab beruhen oder unverhältnismäßig teure groß angelegte Explorationen erfordern. Um dies zu lösen, schlagen wir Decouple Searching from Training Mix (DeMix) vor, einen neuartigen Rahmen, der Modellfusion nutzt, um optimale Datenverhältnisse vorherzusagen. Anstatt Proxy-Modelle für jede beprobte Mischung zu trainieren, trainiert DeMix Komponentenmodelle auf Kandidatendatensätzen im großen Maßstab und leitet Datenmischungs-Proxys durch gewichtete Modellfusion ab. Dieses Paradigma entkoppelt die Suchkosten von den Trainingskosten, ermöglicht die Bewertung unbegrenzter beprobter Mischungen ohne zusätzlichen Trainingsaufwand und erleichtert so die Entdeckung besserer Mischungen durch mehr Suchversuche. Umfangreiche Experimente zeigen, dass DeMix den Zielkonflikt zwischen Ausreichendheit, Genauigkeit und Effizienz aufhebt und die optimale Mischung mit höherer Benchmark-Leistung bei geringeren Suchkosten erzielt. Zusätzlich veröffentlichen wir die DeMix Corpora, einen umfassenden 22-Billionen-Token-Datensatz, der hochwertige Vortrainingsdaten mit validierten Mischungen umfasst, um offene Forschung zu ermöglichen. Unser Code und die DeMix Corpora sind verfügbar unter https://github.com/Lucius-lsr/DeMix.
Adaptives multimodales Reasoning hat sich als vielversprechende Grenzdisziplin in Vision-Language-Modellen (VLMs) etabliert, mit dem Ziel, dynamisch zwischen werkzeuggestütztem visuellem Reasoning und Textreasoning zu wechseln, um sowohl Effektivität als auch Effizienz zu steigern. Bisherige Evaluierungen stützen sich jedoch auf statische Schwierigkeitslabels und vereinfachte Metriken, die die dynamische Natur des Schwierigkeitsgrads in Bezug auf unterschiedliche Modellkapazitäten nicht erfassen. Folglich verschleiern sie den Unterschied zwischen adaptiver Modusauswahl und allgemeiner Leistung, während sie feingranulare Prozessanalysen vernachlässigen. In diesem Artikel stellen wir AdaptMMBench vor, einen umfassenden Benchmark für adaptives multimodales Reasoning in fünf Domänen: Realwelt, OCR, GUI, Wissen und Mathematik, die sowohl direkte Wahrnehmungs- als auch komplexe Reasoningaufgaben umfassen. AdaptMMBench nutzt eine Matthews-Korrelationskoeffizienten (MCC)-Metrik, um die Auswahlrationalität verschiedener Reasoningmodi zu bewerten und isoliert diese Metakognitionsfähigkeit durch dynamische Identifikation von Aufgabenschwierigkeiten basierend auf den Fähigkeitsgrenzen der Modelle. Darüber hinaus ermöglicht AdaptMMBench eine mehrdimensionale Prozessevaluation über Schlüsselschrittabdeckung, Werkzeugeffektivität und Recheneffizienz. Unsere Evaluation zeigt, dass zwar adaptive Modusauswahl mit der Modellkapazität skaliert, sie sich jedoch deutlich von der Endgenauigkeit entkoppelt. Im Gegensatz dazu korreliert die Schlüsselschrittabdeckung mit der Leistung, obwohl die Werkzeugeffektivität über verschiedene Modellarchitekturen hinweg stark inkonsistent bleibt.
Das Verständnis von Kultur erfordert schlussfolgern über Kontext, Tradition und implizites soziales Wissen hinaus, weit über das bloße Abrufen isolierter Fakten hinaus. Dennoch stützen sich die meisten auf Kultur fokussierten Frage-Antwort-Benchmarks (QA) auf Single-Hop-Fragen, die es Modellen ermöglichen könnten, oberflächliche Hinweise auszunutzen, anstatt echtes kulturelles Schlussfolgern zu demonstrieren. In dieser Arbeit stellen wir ID-MoCQA vor, den ersten groß angelegten Multi-Hop-QA-Datensatz zur Bewertung des kulturellen Verständnisses großer Sprachmodelle (LLMs), der in indonesischen Traditionen verankert und sowohl auf Englisch als auch auf Indonesisch verfügbar ist. Wir präsentieren einen neuen Rahmen, der systematisch Single-Hop-Kulturfragen in Multi-Hop-Schlussfolgerungsketten über sechs Hinweistypen (z.B. Common Sense, zeitlich, geografisch) transformiert. Unsere mehrstufige Validierungspipeline, die Expertenüberprüfung und LLM-as-a-Judge-Filterung kombiniert, gewährleistet hochwertige Frage-Antwort-Paare. Unsere Evaluation aktueller Modelle zeigt erhebliche Lücken im kulturellen Schlussfolgern auf, insbesondere bei Aufgaben, die nuancierte Inferenz erfordern. ID-MoCQA bietet einen anspruchsvollen und essenziellen Benchmark für die Weiterentwicklung der kulturellen Kompetenz von LLMs.
Autoregressive Videoweltsmodelle sagen zukünftige visuelle Beobachtungen auf der Grundlage von Aktionen voraus. Obwohl sie über kurze Zeithorizonte effektiv sind, haben diese Modelle oft Schwierigkeiten mit der Langzeiterzeugung, da sich kleine Vorhersagefehler im Laufe der Zeit akkumulieren. Bisherige Methoden mildern dies durch den Einsatz vortrainierter Lehrermodelle und Sequenzebenen-Distributionsabgleich, was zusätzliche Rechenkosten verursacht und die Fehlerausbreitung über den Trainingshorizont hinaus nicht verhindert. In dieser Arbeit schlagen wir LIVE vor, ein Langzeits-Interaktives Videoweltmodell, das eine begrenzte Fehlerakkumulation durch ein neuartiges Zyklus-Konsistenz-Ziel erzwingt und so die Notwendigkeit einer lehrergestützten Destillation beseitigt. Konkret führt LIVE zunächst einen Vorwärts-Durchlauf aus ground-truth Bildern durch und wendet dann einen umgekehrten Generierungsprozess an, um den Ausgangszustand zu rekonstruieren. Der Diffusionsverlust wird anschließend für den rekonstruierten Endzustand berechnet, was eine explizite Beschränkung der Langzeit-Fehlerausbreitung darstellt. Darüber hinaus bieten wir eine einheitliche Betrachtungsweise, die verschiedene Ansätze umfasst, und führen einen progressiven Trainingslehrplan zur Stabilisierung des Trainings ein. Experimente zeigen, dass LIVE state-of-the-art Leistung in Langzeit-Benchmarks erreicht und stabile, hochwertige Videos erzeugt, die weit über die Trainingssequenzlängen hinausgehen.
Modality Following beschreibt die Fähigkeit multimodaler Großsprachmodelle (MLLMs), multimodale Kontexte selektiv auf der Grundlage von Benutzeranweisungen zu nutzen. Diese Fähigkeit ist grundlegend für die Sicherheit und Zuverlässigkeit von MLLMs in realen Anwendungsszenarien. Die zugrundeliegenden Mechanismen dieses Entscheidungsprozesses sind jedoch noch weitgehend unverstanden. In dieser Arbeit untersuchen wir seinen Wirkmechanismus durch die Linse des Informationsflusses. Unsere Ergebnisse zeigen, dass Instruktionstoken als strukturelle Anker für die Modalitätsarbitrierung fungieren: Flache Aufmerksamkeitsschichten führen einen nicht-selektiven Informations transfer durch und leiten multimodale Hinweise zu diesen Ankern als latenten Puffer; Der Modalitätswettbewerb wird in tiefen Aufmerksamkeitsschichten unter Führung der Instruktionsabsicht aufgelöst, während MLP-Schichten semantische Trägheit aufweisen und als gegensätzliche Kraft wirken. Darüber hinaus identifizieren wir eine spärliche Menge spezialisierter Aufmerksamkeitsköpfe, die diese Arbitrierung antreiben. Kausale Interventionen zeigen, dass die Manipulation von nur 5 % dieser kritischen Köpfe die Modality-Following-Rate durch Blockierung um 60 % verringern oder sie durch gezielte Verstärkung fehlgeschlagener Proben um 60 % erhöhen kann. Unsere Arbeit stellt einen bedeutenden Schritt in Richtung Modelltransparenz dar und bietet einen prinzipienbasierten Rahmen für die Orchestrierung multimodaler Informationen in MLLMs.
Rollenspezialisierung in Multi-LLM-Agenten-Systemen wird häufig über Multi-LoRA realisiert, wobei Agenten ein vortrainiertes Backbone teilen und sich nur durch leichtgewichtige Adapter unterscheiden. Obwohl sie Basis-Modellgewichte gemeinsam nutzen, baut und speichert jeder Agent seinen eigenen KV-Cache für dieselben langen, tool-augmentierten Trajektorien unabhängig, was erheblichen Speicher- und Rechenaufwand verursacht. Bestehende KV-Cache-Sharing-Methoden übersehen weitgehend diese Multi-LoRA-Situation. Wir beobachten, dass sich die Caches zwischen Agenten hauptsächlich in den Adapter-Ausgaben unterscheiden, während Aktivierungen aus dem gemeinsamen vortrainierten Backbone hochgradig ähnlich bleiben. Basierend auf dieser Beobachtung schlagen wir LRAgent vor, ein KV-Cache-Sharing-Framework für Multi-LoRA-Agenten, das den Cache in eine gemeinsame Basis-Komponente aus den vortrainierten Gewichten und eine adapterabhängige Komponente aus den LoRA-Gewichten zerlegt. LRAgent reduziert den Speicherbedarf, indem es die Basis-Komponente shared und die Adapter-Komponente in ihrer inhärenten Niedrig-Rang-Form speichert, und verringert den Rechenaufwand weiter – ermöglicht durch Shared-A-Multi-LoRA-Architekturen –, indem es auch den Niedrig-Rang-Cache shared und redundante Berechnungen für Kontexte vermeidet, die bereits von anderen Agenten verarbeitet wurden. Um Adapter-Beiträge zur Laufzeit effizient zu rekonstruieren, führen wir Flash-LoRA-Attention ein, einen Kernel, der die Attention-Berechnung umordnet, um die Materialisierung des Niedrig-Rang-Caches in voller Dimension zu vermeiden. LRAgent erreicht einen Durchsatz und eine Latenz bis zum ersten Token (Time-to-First-Token), die nahe an einem vollständig shared Caching liegen, und bewahrt dabei eine Genauigkeit nahe der Non-Shared-Caching-Baseline in agentenbasierten Frage-Antwort-Benchmarks.
Suchintegriertes Reasoning ermöglicht es Sprachagenten, statisches parametrisches Wissen zu transzendieren, indem sie aktiv externe Quellen abfragen. Allerdings wird das Training dieser Agenten mittels Reinforcement Learning durch das Problem der Kreditzuweisung auf multiplen Skalen behindert: bestehende Methoden stützen sich typischerweise auf spärliche, trajectorienbezogene Belohnungen, die nicht zwischen hochwertigem Reasoning und glücklichen Vermutungen unterscheiden können, was zu redundanten oder irreführenden Suchverhalten führt. Um dies zu adressieren, schlagen wir Search-R2 vor, ein neuartiges Actor-Refiner-Kollaborationsframework, das das Reasoning durch gezielte Interventionen verbessert, wobei beide Komponenten während des Trainings gemeinsam optimiert werden. Unser Ansatz zerlegt den Generierungsprozess in einen Actor, der initiale Reasoning-Trajektorien erzeugt, und einen Meta-Refiner, der fehlerhafte Schritte selektiv diagnostiziert und über einen 'Cut-and-Regenerate'-Mechanismus repariert. Um feinkörnige Supervision zu ermöglichen, führen wir ein hybrides Belohnungsdesign ein, das Ergebnisrichtigkeit mit einer dichten Prozessbelohnung koppelt, welche die Informationsdichte der abgerufenen Evidenz quantifiziert. Theoretisch formalisieren wir die Actor-Refiner-Interaktion als eine geglättete Mischpolitik und beweisen, dass selektive Korrektur strikte Leistungssteigerungen gegenüber starken Baselines erzielt. Umfangreiche Experimente über verschiedene allgemeine und Multi-Hop-QA-Datensätze zeigen, dass Search-R2 durchgängig starke RAG- und RL-basierte Baselines über verschiedene Modellskalen hinweg übertrifft und eine überlegene Reasoning-Genauigkeit mit minimalem Overhead erreicht.
Da sich große Sprachmodelle (LLMs) von kuratierten Trainingsdatensätzen hin zu offenen realen Umgebungen bewegen, tritt eine grundlegende Einschränkung zutage: Statisches Training kann mit den kontinuierlichen Veränderungen des Einsatzumfelds nicht Schritt halten. Die Skalierung von Rechenleistung während des Trainings und des Inferenzzeitpunkts verbessert zwar statische Fähigkeiten, schließt jedoch diese Trainings-Einsatz-Lücke nicht. Wir vertreten die Ansicht, dass zur Bewältigung dieser Einschränkung eine neue Skalierungsachse erforderlich ist: Evolution. Bestehende Methoden zur Anpassung während des Einsatzes – sei es parametrisches Fine-Tuning oder heuristische Speicheranreicherung – entbehren der strategischen Agentivität, die notwendig ist, um Fehler zu diagnostizieren und dauerhafte Verbesserungen zu erzielen. Unser Standpunkt ist, dass agentenbasierte Evolution die unausweichliche Zukunft der LLM-Adaption darstellt, wobei die Evolution selbst von einer festen Pipeline zu einem autonomen Evolutionsagenten erhoben wird. Wir setzen diese Vision in einem allgemeinen Framework namens A-Evolve um, das Verbesserungen während des Einsatzes als einen bewussten, zielgerichteten Optimierungsprozess über persistente Systemzustände behandelt. Des Weiteren postulieren wir die Evolutions-Skalierungshypothese: Die Anpassungsfähigkeit skaliert mit der für die Evolution bereitgestellten Rechenleistung, was agentenbasierte Evolution als skalierbaren Weg für anhaltende, offene Adaptation in der realen Welt positioniert.
Wir stellen WorldVQA vor, einen Benchmark, der entwickelt wurde, um das atomare visuelle Weltwissen von Multimodalen Großsprachmodellen (MLLMs) zu evaluieren. Im Gegensatz zu aktuellen Bewertungen, die oft das Abrufen von visuellem Wissen mit logischem Schlussfolgern vermischen, entkoppelt WorldVQA diese Fähigkeiten, um streng zu messen, „was das Modell auswendig gelernt hat“. Der Benchmark bewertet die atomare Fähigkeit, visuelle Entitäten zu verorten und zu benennen, anhand einer stratifizierten Taxonomie, die von gängigen Objekten der Hauptklassen bis hin zu seltenen Long-Tail-Exemplaren reicht. Wir erwarten, dass WorldVQA als ein rigoroser Test für visuelle Faktizität dient und damit einen Standard zur Bewertung der enzyklopädischen Breite und der Halluzinationsraten aktueller und zukünftiger Frontier-Modelle etabliert.
Autonome Agenten, die auf großen Sprachmodellen (LLMs) basieren, versprechen eine End-to-End-Beschleunigung wissenschaftlicher Entdeckungen, doch die rigorose Bewertung ihrer Fähigkeit zu überprüfbaren Entdeckungen bleibt eine zentrale Herausforderung. Bestehende Benchmarks sehen sich einem Zielkonflikt gegenüber: Sie verlassen sich entweder stark auf LLM-als-Gutachter-Bewertungen automatisch generierter Forschungsergebnisse oder optimieren bequeme, aber isolierte Leistungskennzahlen, die nur grobe Stellvertreter für wissenschaftliche Erkenntnisse darstellen. Um diese Lücke zu schließen, führen wir FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) ein, einen Benchmark, der Agenten durch die Wiederentdeckung etablierter Erkenntnisse aus aktueller, einflussreicher Machine-Learning-Forschung bewertet. Den Agenten wird lediglich eine übergeordnete Forschungsfrage aus einer veröffentlichten, verifizierten Studie vorgegeben, und sie müssen autonom Ideen explorieren, Experimente entwerfen, Code implementieren, ihre Pläne ausführen und durch empirische Evidenz gestützte Schlussfolgerungen ziehen. Wir evaluieren eine Reihe modernster Agenten mit fortschrittlichen LLM-Architekturen wie gpt-5 auf FIRE-Bench. Unsere Ergebnisse zeigen, dass vollständige wissenschaftliche Forschungszyklen für aktuelle Agentensysteme nach wie vor herausfordernd sind: Selbst die leistungsstärksten Agenten erzielen nur begrenzte Wiederentdeckungserfolge (<50 F1), weisen eine hohe Varianz zwischen Durchläufen auf und zeigen wiederkehrende Fehlermuster im experimentellen Design, der Ausführung und der evidenzbasierten Argumentation. FIRE-Bench bietet einen rigorosen und diagnostischen Rahmen, um Fortschritte in Richtung zuverlässiger, agentengesteuerter wissenschaftlicher Entdeckungen zu messen.
Die Ausrichtung von Objekten mit entsprechenden textuellen Beschreibungen ist eine grundlegende Herausforderung und eine realistische Anforderung im Bereich des visuell-sprachlichen Verständnisses. Während aktuelle multimodale Einbettungsmodelle bei der globalen Bild-Text-Ausrichtung hervorragende Ergebnisse erzielen, haben sie oft Schwierigkeiten mit der feinkörnigen Ausrichtung zwischen Bildregionen und spezifischen Phrasen. In dieser Arbeit stellen wir ObjEmbed vor, ein neuartiges MLLM-Einbettungsmodell, das das Eingabebild in mehrere regionale Einbettungen zerlegt, die jeweils einem einzelnen Objekt entsprechen, zusammen mit globalen Einbettungen. Es unterstützt eine breite Palette visueller Verständnisaufgaben wie visuelle Verankerung, lokale Bildretrieval und globales Bildretrieval. ObjEmbed zeichnet sich durch drei Schlüsseleigenschaften aus: (1) Objektorientierte Repräsentation: Es erfasst sowohl semantische als auch räumliche Aspekte von Objekten, indem es zwei komplementäre Einbettungen für jede Region erzeugt: eine Objekteinbettung für semantisches Matching und eine IoU-Einbettung, die die Lokalisierungsqualität vorhersagt. Der endgültige Objekt-Matching-Score kombiniert semantische Ähnlichkeit mit dem vorhergesagten IoU und ermöglicht so eine genauere Wiederauffindbarkeit. (2) Vielseitigkeit: Es bewältigt nahtlos sowohl regions- als auch bildbezogene Aufgaben. (3) Effiziente Kodierung: Alle Objekte in einem Bild werden zusammen mit dem Vollbild in einem einzigen Vorwärtsdurchlauf kodiert, was hohe Effizienz gewährleistet. Eine überlegene Leistung in 18 diversen Benchmarks demonstriert seine starke semantische Diskriminationsfähigkeit.
Die pan-karzinome Screening in großvolumigen CT-Scans stellt nach wie vor eine Herausforderung für bestehende KI-Methoden dar, was hauptsächlich auf die Schwierigkeit zurückzuführen ist, verschiedene Arten winziger Läsionen in großen CT-Volumina zu lokalisieren. Das extreme Ungleichgewicht zwischen Vordergrund und Hintergrund verhindert erheblich, dass sich Modelle auf krankhafte Regionen konzentrieren, während redundante Fokussierung auf gesunde Regionen nicht nur die Effizienz verringert, sondern auch die False-Positive-Rate erhöht. Inspiriert von der diagnostischen Strategie des "Blickens und Fokussierens" bei Radiologen führen wir GF-Screen ein, ein Reinforcement-Learning-Framework für das Pan-Karzinom-Screening nach dem Glance-and-Focus-Prinzip. GF-Screen verwendet ein Glance-Modell zur Lokalisierung krankhafter Regionen und ein Focus-Modell zur präzisen Segmentierung der Läsionen, wobei die Segmentierungsergebnisse des Focus-Modells genutzt werden, um das Glance-Modell mittels Reinforcement Learning (RL) zu belohnen. Konkret schneidet das Glance-Modell eine Gruppe von Teilvolumina aus dem gesamten CT-Volumen aus und lernt, die Teilvolumina mit Läsionen für die Segmentierung durch das Focus-Modell auszuwählen. Da der Auswahlvorgang für das Segmentierungstraining nicht differenzierbar ist, schlagen wir vor, die Segmentierungsergebnisse zur Belohnung des Glance-Modells zu verwenden. Zur Optimierung des Glance-Modells führen wir ein neuartiges Gruppen-Relativ-Lernparadigma ein, das gruppenrelative Vergleiche nutzt, um Vorhersagen mit hohem Vorteil zu priorisieren und Vorhersagen mit geringem Vorteil innerhalb von Teilvolumengruppen zu verwerfen, was nicht nur die Effizienz steigert, sondern auch False Positives reduziert. Auf diese Weise erweitern wir erstmals effektiv modernste RL-Techniken, um die spezifischen Herausforderungen des Pan-Karzinom-Screenings zu bewältigen. Umfangreiche Experimente mit 16 internen und 7 externen Datensätzen über 9 Läsionstypen hinweg demonstrierten die Wirksamkeit von GF-Screen. Bemerkenswerterweise führt GF-Screen die öffentliche Validierungsrangliste des MICCAI FLARE25 Pan-Karzinom-Challenges an und übertrifft die Champion-Lösung von FLARE24 mit deutlichem Abstand (+25,6 % DSC und +28,2 % NSD).
In jüngster Zeit besteht ein erhebliches Forschungsinteresse daran, große Sprachmodelle (LLMs) mit Verstärkendem Lernen (RL) für reale Aufgaben zu trainieren, wie z.B. die Code-Generierung über mehrere Schritte. Obwohl Online-RL tendenziell besser abschneidet als Offline-RL, verhindern seine höheren Trainingskosten und seine Instabilität eine breite Anwendung. In diesem Beitrag knüpfen wir an die Beobachtung an, dass die mehrstufige Code-Generierung als ein einstufiger, wiederherstellbarer Markov-Entscheidungsprozess formuliert werden kann, und schlagen Contextual Bandit Learning with Offline Trajectories (Cobalt) vor – eine neue Methode, die die Vorteile von Online- und Offline-RL kombiniert. Cobalt sammelt zunächst Code-Generierungspfade mithilfe eines Referenz-LLMs und unterteilt diese in Teilpfade als kontextuelle Prompts. Während des anschließenden Online-Bandit-Lernens wird das LLM dann trainiert, jeden Teilpfad-Prompt durch einstufige Code-Generierung zu vervollständigen. Cobalt übertrifft zwei mehrstufige Online-RL-Baselines, die auf GRPO und VeRPO basieren, und verbessert R1-Distill 8B und Qwen3 8B auf LiveCodeBench erheblich um bis zu 9,0 bzw. 6,2 absolute Pass@1-Punkte. Zudem analysieren wir In-Context-Reward-Hacking-Verhalten von LLMs und erweitern das Cobalt-Training um perturbierte Pfade, um diesem Problem entgegenzuwirken. Insgesamt zeigen unsere Ergebnisse, dass Cobalt eine vielversprechende Lösung für iterative Entscheidungsaufgaben wie die mehrstufige Code-Generierung darstellt. Unser Code und unsere Daten sind unter https://github.com/OSU-NLP-Group/cobalt verfügbar.
Trotz jüngster Fortschritte bei visuell-sprachlichen Modellen (VLMs) scheitern bestehende Ansätze häufig daran, personalisierte Antworten auf der Grundlage der spezifischen Erfahrungen des Nutzers zu generieren, da sie nicht in der Lage sind, visuelle Eingaben mit dem akkumulierten visuell-textuellen Kontext eines Nutzers zu verknüpfen. Wir formulieren diese Herausforderung neu als kontextualisierte visuelle Personalisierung, die die visuelle Erkennung und textuelle Abfrage personalisierter visueller Erfahrungen durch VLMs bei der Interpretation neuer Bilder erfordert. Um dieses Problem zu lösen, schlagen wir CoViP vor, einen einheitlichen Rahmen, der personalisierte Bildbeschreibung als Kernaufgabe der kontextualisierten visuellen Personalisierung behandelt und diese Fähigkeit durch reinforcement-learning-basiertes Nachtraining und beschreibungsaugmentierte Generierung verbessert. Wir führen zudem diagnostische Evaluationen ein, die textuelle Abkürzungslösungen explizit ausschließen und überprüfen, ob VLMs tatsächlich visuellen Kontext nutzen. Umfangreiche Experimente zeigen, dass bestehende Open-Source- und proprietäre VLMs erhebliche Einschränkungen aufweisen, während CoViP nicht nur die personalisierte Bildbeschreibung verbessert, sondern auch ganzheitliche Gewinne über nachgelagerte Personalisierungsaufgaben hinweg erzielt. Diese Ergebnisse unterstreichen CoViP als eine entscheidende Stufe zur Ermöglichung einer robusten und generalisierbaren kontextualisierten visuellen Personalisierung.
Große Sprachmodelle (LLMs) und Vision-Sprach-Modelle (VLMs) haben bemerkenswerte Fähigkeiten demonstriert. Ihre Bereitstellung wird jedoch durch erhebliche Rechenkosten behindert. Bestehende strukturierte Pruning-Methoden sind zwar hardwareeffizient, leiden aber oft unter erheblichen Genauigkeitseinbußen. In diesem Artikel argumentieren wir, dass dieses Versagen auf einen stufenagnostischen Pruning-Ansatz zurückzuführen ist, der die asymmetrischen Rollen zwischen der Prefill- und der Decode-Phase übersieht. Durch die Einführung eines virtuellen Gate-Mechanismus zeigt unsere Bedeutunganalyse, dass tiefe Schichten entscheidend für die Next-Token-Prädiktion (Decode) sind, aber weitgehend redundant für die Kontextkodierung (Prefill) bleiben. Gestützt auf diese Erkenntnis schlagen wir Prefill-Only Pruning (POP) vor, eine stufenbewusste Inferenzstrategie, die tiefe Schichten während der rechenintensiven Prefill-Phase sicher auslässt, während das vollständige Modell für die sensible Decode-Phase erhalten bleibt. Um den Übergang zwischen den Phasen zu ermöglichen, führen wir unabhängige Key-Value (KV)-Projektionen zur Aufrechterhaltung der Cache-Integrität sowie eine Strategie zur Behandlung der Phasengrenze ein, um die Genauigkeit des ersten generierten Tokens sicherzustellen. Umfangreiche Experimente mit Llama-3.1, Qwen3-VL und Gemma-3 über verschiedene Modalitäten hinweg zeigen, dass POP eine Beschleunigung der Prefill-Latenz um bis zum 1,37-fachen bei minimalem Leistungsverlust erreicht und so die Grenzen des Accuracy-Efficiency-Trade-offs bestehender strukturierter Pruning-Methoden effektiv überwindet.
Die Verankerung von grafischen Benutzeroberflächen (GUI) zielt darauf ab, natürliche Sprachbefehle in ausführbare Bildschirmkoordinaten zu übersetzen, um eine automatisierte GUI-Interaktion zu ermöglichen. Dennoch können fehlerhafte Verankerungen zu kostspieligen, schwer rückgängig zu machenden Aktionen führen (z.B. fehlerhafte Zahlungsfreigaben), was Bedenken hinsichtlich der Modellzuverlässigkeit aufwirft. In diesem Artikel stellen wir SafeGround vor, ein unsicherheitsbewusstes Framework für GUI-Verankerungsmodelle, das risikobewusste Vorhersagen durch Kalibrierungen vor dem Testen ermöglicht. SafeGround nutzt eine verteilungsbewusste Unsicherheitsquantifizierungsmethode, um die räumliche Streuung stochastischer Stichproben aus den Ausgaben eines beliebigen Modells zu erfassen. Anschließend leitet SafeGround durch den Kalibrierungsprozess einen Entscheidungsschwellenwert zur Testzeit mit statistisch garantiert kontrollierter Falschentdeckungsrate (FDR) ab. Wir wenden SafeGround auf mehrere GUI-Verankerungsmodelle für den anspruchsvollen ScreenSpot-Pro-Benchmark an. Experimentelle Ergebnisse zeigen, dass unser Unsicherheitsmaß bestehende Baseline-Methoden durchgängig in der Unterscheidung korrekter von inkorrekten Vorhersagen übertrifft, während der kalibrierte Schwellenwert eine zuverlässige Risikokontrolle und das Potenzial für erhebliche Verbesserungen der Systemgenauigkeit auf Systemebene ermöglicht. Über mehrere GUI-Verankerungsmodelle hinweg steigert SafeGround die Systemgenauigkeit um bis zu 5,38 Prozentpunkte gegenüber einer reinen Gemini-Inferenz.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben neue Wege zur Beschleunigung der wissenschaftlichen Forschung eröffnet. Während Modelle zunehmend in der Lage sind, bei Routineaufgaben zu unterstützen, ist ihr Potenzial, zu neuartigen, experten-level mathematischen Entdeckungen beizutragen, weniger gut verstanden. Wir präsentieren eine Sammlung von Fallstudien, die demonstrieren, wie Forscher erfolgreich mit fortschrittlichen KI-Modellen, insbesondere Googles Gemini-basierten Modellen (insbesondere Gemini Deep Think und seinen erweiterten Varianten), zusammengearbeitet haben, um offene Probleme zu lösen, Vermutungen zu widerlegen und neue Beweise in verschiedenen Bereichen der theoretischen Informatik sowie in anderen Gebieten wie Wirtschaftswissenschaften, Optimierung und Physik zu generieren. Aufbauend auf diesen Erfahrungen leiten wir gemeinsame Techniken für eine effektive Mensch-KI-Kollaboration in der theoretischen Forschung ab, wie iterative Verfeinerung, Problemzerlegung und interdisziplinären Wissenstransfer. Während die Mehrheit unserer Ergebnisse aus dieser interaktiven, konversationellen Methodik stammt, heben wir auch spezifische Beispiele hervor, die über Standard-Chat-Schnittstellen hinausgehen. Dazu gehört der Einsatz des Modells als rigoroser gegnerischer Gutachter, um subtile Fehler in bestehenden Beweisen aufzudecken, sowie seine Einbettung in eine "neuro-symbolische" Schleife, die autonom Code schreibt und ausführt, um komplexe Ableitungen zu verifizieren. Zusammengenommen unterstreichen diese Beispiele das Potenzial von KI nicht nur als Werkzeug zur Automatisierung, sondern als vielseitiger, echter Partner im kreativen Prozess der wissenschaftlichen Entdeckung.
Transformationsbasierte, datenschutzbewahrende Gesichtserkennung (PPFR) zielt darauf ab, Identitäten zu verifizieren, während Gesichtsdaten vor Angreifern und böswilligen Dienstanbietern verborgen werden. Bisherige Evaluierungen behandeln Privatsphäre größtenteils als Widerstandsfähigkeit gegen Pixel-rekonstruktion, gemessen an PSNR und SSIM. Wir zeigen, dass diese rekonstruktionszentrierte Sichtweise unzulänglich ist. Wir stellen FaceLinkGen vor, einen Identitätsextraktionsangriff, der Verknüpfung/Abgleich und Gesichtsregenerierung direkt aus geschützten Templates durchführt, ohne originale Pixel wiederherzustellen. Bei drei aktuellen PPFR-Systemen erreicht FaceLinkGen eine Abgleichgenauigkeit von über 98,5 % und eine Regenerierungsquote von über 96 % und übertrifft selbst in einer Near-Zero-Knowledge-Umgebung noch 92 % beim Abgleich und 94 % bei der Regenerierung. Diese Ergebnisse offenbaren eine strukturelle Lücke zwischen Pixelverzerrungsmetriken, die weit verbreitet in der PPFR-Evaluierung eingesetzt werden, und tatsächlicher Privatsphäre. Wir zeigen, dass visuelle Verschleierung Identitätsinformationen sowohl für externe Eindringlinge als auch für nicht vertrauenswürdige Dienstanbieter weitgehend zugänglich lässt.
Kleine Sprachmodelle werden zunehmend als vielversprechender, kostengünstiger Ansatz für agentenbasierte KI angesehen, wobei Befürworter behaupten, dass sie für agentenbasierte Workflows ausreichend leistungsfähig sind. Allerdings bleibt unklar, wie gut kleine Agenten bei komplexeren Aufgaben skalieren, wann große Modelle notwendig werden und wie kleine Agenten besser für langfristige Workloads genutzt werden können. In dieser Arbeit zeigen wir empirisch, dass die Leistung kleiner Agenten bei tiefgreifenden Such- und Coding-Aufgaben mit der Komplexität nicht mithält, und wir stellen Strategy Auctions for Workload Efficiency (SALE) vor – einen Agentenrahmen, der von Freelancer-Märkten inspiriert ist. In SALE bieten Agenten mit kurzen strategischen Plänen, die durch einen systematischen Kosten-Nutzen-Mechanismus bewertet und über einen gemeinsamen Auktionsspeicher verfeinert werden. Dies ermöglicht eine aufgabenspezifische Routing-Entscheidung und kontinuierliche Selbstverbesserung, ohne einen separaten Router trainieren oder alle Modelle bis zum Abschluss laufen lassen zu müssen. Bei tiefgreifenden Such- und Coding-Aufgaben unterschiedlicher Komplexität reduziert SALE die Abhängigkeit vom größten Agenten um 53 %, senkt die Gesamtkosten um 35 % und übertrifft konsistent die Pass@1-Leistung des größten Agenten – bei nur minimalem Overhead über die Ausführung der finalen Ablaufverfolgung hinaus. Etablierte Router, die auf Aufgabenbeschreibungen basieren, liegen dagegen entweder unter der Leistung des größten Agenten oder senken die Kosten nicht – oft beides – was ihre mangelnde Eignung für agentenbasierte Workflows unterstreicht. Diese Ergebnisse deuten darauf hin, dass kleine Agenten für komplexe Workloads zwar unzureichend sein mögen, aber durch koordinierte Aufgabenverteilung und Selbstverbesserung zur Laufzeit effektiv „hochskaliert“ werden können. Im weiteren Sinne plädieren sie für eine systemische Betrachtung agentenbasierter KI, bei der Leistungssteigerungen weniger von immer größeren Einzelmodellen, sondern mehr von marktinspirierten Koordinationsmechanismen kommen, die heterogene Agenten zu effizienten, adaptiven Ökosystemen organisieren.
In dieser Arbeit betrachten wir die Optimierung von Transformer-Architekturen aus der Perspektive der Geometrie zweiter Ordnung und stellen eine direkte Verbindung zwischen Architekturdesign, Aktivierungsskala, der Hessematrix und der maximal tolerierbaren Lernrate her. Wir führen eine einfache Normalisierungsstrategie ein, genannt SimpleNorm, die durch ihre Konstruktion intermediate Aktivierungsskalen stabilisiert. Durch die Analyse der Hesse-Matrix des Loss in Bezug auf Netzwerkaktivierungen zeigen wir theoretisch, dass SimpleNorm die Spektralnorm der Hesse-Matrix signifikant reduziert und dadurch größere stabile Lernraten ermöglicht. Wir validieren unsere theoretischen Erkenntnisse durch umfangreiche Experimente mit großen GPT-Modellen im Parameterumfang von 1B, 1,4B, 7B und 8B. Empirisch toleriert SimpleGPT, unser auf SimpleNorm basierendes Netzwerk, 3- bis 10-fach höhere Lernraten als der Standard, zeigt durchgängig starke Optimierungsstabilität und erzielt wesentlich bessere Leistungen als etablierte Baseline-Modelle. Konkret erreicht SimpleGPT beim Training von Modellen im 7B-Maßstab über 60.000 Schritte einen Trainingsloss, der 0,08 niedriger ist als bei LLaMA2 mit QKNorm – eine Reduktion des Loss von 2,290 auf 2,208. Unser Quellcode wird unter https://github.com/Ocram7/SimpleGPT veröffentlicht.
Mit dem Aufkommen großer Sprachmodelle (LLMs) haben allgemeine Agenten grundlegende Fortschritte erlebt. Die Bewertung dieser Agenten stellt jedoch einzigartige Herausforderungen dar, die sie von statischen Benchmark-Tests für Frage-Antwort-Systeme unterscheiden. Wir beobachten, dass aktuelle Agenten-Benchmarks stark durch externe Faktoren verzerrt werden, einschließlich System-Prompts, Toolset-Konfigurationen und Umgebungsdynamiken. Bisherige Evaluationen basieren oft auf fragmentierten, forschungsspezifischen Frameworks, bei denen das Prompt-Engineering für Schlussfolgerungen und Tool-Nutzung erheblich variiert. Dies macht es schwierig, Leistungssteigerungen dem Modell selbst zuzuordnen. Zudem führt das Fehlen standardisierter Umgebungsdaten zu nicht nachvollziehbaren Fehlern und nicht reproduzierbaren Ergebnissen. Dieser Mangel an Standardisierung führt zu erheblicher Ungerechtigkeit und Intransparenz in diesem Forschungsbereich. Wir sind der Ansicht, dass ein einheitliches Bewertungsframework für den rigorosen Fortschritt in der Agenten-Evaluation unerlässlich ist. Zu diesem Zweck stellen wir einen Vorschlag vor, der auf die Standardisierung der Agentenbewertung abzielt.
Die medizinische Bildsegmentierung entwickelt sich von aufgabenspezifischen Modellen hin zu generalisierbaren Frameworks. Jüngste Forschung nutzt multimodale Large Language Models (MLLMs) als autonome Agenten und setzt Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ein, um spezialisierte Werkzeuge wie das Segment Anything Model (SAM) zu orchestrieren. Diese Ansätze basieren jedoch oft auf starren Einzelschritt-Interaktionsstrategien und verfügen über keine prozessuale Überwachung während des Trainings, was ihre Fähigkeit einschränkt, das dynamische Potenzial interaktiver Werkzeuge voll auszuschöpfen und zu redundanten Aktionen führt. Um diese Lücke zu schließen, schlagen wir MedSAM-Agent vor, ein Framework, das interaktive Segmentierung als mehrstufigen autonomen Entscheidungsprozess neu formuliert. Zunächst führen wir eine Hybrid-Prompting-Strategie zur Erzeugung expertenkuratierter Trajektorien ein, die es dem Modell ermöglicht, menschenähnliche Entscheidungsheuristiken und adaptive Verfeinerungsstrategien zu internalisieren. Darüber hinaus entwickeln wir eine zweistufige Trainingspipeline, die mehrstufige End-to-End-Ergebnisverifikation mit einem klinisch treuen Prozessbelohnungsdesign integriert, um Interaktionsparsimonie und Entscheidungseffizienz zu fördern. Umfangreiche Experimente über 6 Bildgebungsmodalitäten und 21 Datensätze hinweg demonstrieren, dass MedSAM-Agent state-of-the-art Leistung erreicht und autonome medizinische Reasoning mit robuster, iterativer Optimierung effektiv vereint. Der Code ist verfügbar unter https://github.com/CUHK-AIM-Group/MedSAM-Agent.
Klinische Gehirn-Text-Schnittstellen sind für gelähmte Patienten konzipiert, die keine umfangreichen Trainingsaufnahmen zur Verfügung stellen können. Pre-Training verbessert die dateneffiziente Generalisierung durch das Erlernen statistischer A-priori-Informationen über verschiedene Probanden hinweg, doch diese A-priori-Informationen hängen entscheidend vom Kontext ab. Während natürliche Sprache sich allmählich über Minuten entfalten kann, pre-trainieren die meisten Methoden mit nur wenigen Sekunden Kontext. Daher schlagen wir MEG-XL vor, ein Modell, das mit 2,5 Minuten MEG-Kontext pro Sample pre-trai
Forschungen mit privatsphäresensitiven Daten waren stets durch Datenknappheit eingeschränkt – ein deutlicher Gegensatz zu anderen Bereichen, die von der Skalierung von Daten profitiert haben. Diese Herausforderung wird zunehmend dringlicher, da modernen KI-Agenten – wie OpenClaw und Gemini Agent – dauerhafter Zugang zu hochsensiblen persönlichen Informationen gewährt wird. Um diesen langjährigen Engpass und die wachsenden Risiken zu bewältigen, stellen wir Privasis (engl. für „Privacy Oasis“, Datenschutz-Oase) vor: den ersten millionenfach skalierten, vollständig synthetischen Datensatz, der komplett neu erstellt wurde – ein umfangreiches Reservoir an Texten mit vielfältigen und differenzierten privaten Informationen – konzipiert, um Forschung in Bereichen zu erweitern und zu beschleunigen, in denen die Verarbeitung sensibler sozialer Daten unvermeidbar ist. Im Vergleich zu bestehenden Datensätzen bietet Privasis mit 1,4 Millionen Datensätzen eine um Größenordnungen größere Skalierung bei hoher Qualität und deutlich größere Diversität über verschiedene Dokumenttypen hinweg, darunter Krankengeschichten, Rechtsdokumente, Finanzunterlagen, Kalender und Textnachrichten mit insgesamt 55,1 Millionen annotierten Attributen wie Ethnizität, Geburtsdatum, Arbeitsplatz usw. Wir nutzen Privasis, um mit unserer Pipeline, die Texte zerlegt und gezielte Bereinigungen anwendet, ein Parallelkorpus für Textbereinigung (Sanitisierung) zu erstellen. Unsere kompakten Bereinigungsmodelle (≤4B), die auf diesem Datensatz trainiert wurden, übertreffen state-of-the-art Großsprachmodelle wie GPT-5 und Qwen-3 235B. Wir planen, Daten, Modelle und Code zu veröffentlichen, um zukünftige Forschung in privatsphäresensitiven Domänen und zu Agenten zu beschleunigen.
Die Verbesserung der Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) basiert typischerweise entweder auf der Fähigkeit des Modells, eine korrekte Lösung zu generieren, die verstärkt werden kann, oder auf der Existenz eines stärkeren Modells, das das Problem lösen kann. Viele schwierige Probleme bleiben jedoch selbst für aktuelle State-of-the-Art-Modelle unlösbar, was die Extraktion valider Trainingssignale verhindert. Eine vielversprechende Alternative ist die Nutzung hochwertiger menschlicher Expertenlösungen, doch die naive Nachahmung dieser Daten scheitert, da sie grundsätzlich außerhalb der Verteilung liegt: Expertenlösungen sind typischerweise didaktisch und enthalten implizite Denklücken, die für menschliche Leser und nicht für Computermodelle gedacht sind. Zudem sind hochwertige Expertenlösungen teuer, was generalisierbare, sample-effiziente Trainingsmethoden erfordert. Wir schlagen Distribution Aligned Imitation Learning (DAIL) vor, eine zweistufige Methode, die die Verteilungslücke überbrückt, indem sie zunächst Expertenlösungen in detaillierte, in-distribution Reasoning-Traces umwandelt und dann ein kontrastives Lernziel anwendet, um das Lernen auf die Erkenntnisse und Methoden der Experten zu fokussieren. Wir zeigen, dass DAIL mit weniger als 1000 hochwertigen Expertenlösungen Pass@k-Steigerungen von 10–25 % bei Qwen2.5-Instruct- und Qwen3-Modellen erreichen, die Reasoning-Effizienz um das 2- bis 4-fache verbessern und Out-of-Domain-Generalisierung ermöglichen kann.
Hochwertiges Feedback ist entscheidend für eine effektive Mensch-KI-Interaktion. Es schließt Wissenslücken, korrigiert Abschweifungen und formt das Systemverhalten – sowohl während der Interaktion als auch im gesamten Modellentwicklungsprozess. Trotz seiner Bedeutung ist menschliches Feedback für KI-Systeme jedoch oft unzureichend und von geringer Qualität. Diese Lücke motiviert eine kritische Untersuchung des menschlichen Feedbackverhaltens in Interaktionen mit KIs. Um die Herausforderungen zu verstehen und zu überwinden, die Nutzer daran hindern, hochwertiges Feedback zu geben, führten wir zwei Studien durch, die die Feedback-Dynamik zwischen Menschen und konversationellen Agenten (CAs) untersuchten. Unsere formative Studie identifizierte durch die Linse der Grice'schen Maximen vier Feedback-Barrieren – gemeinsamer Bezugsrahmen, Verifizierbarkeit, Kommunikation und Informationsgehalt –, die hochwertiges Feedback seitens der Nutzer verhindern. Aufbauend auf diesen Erkenntnissen leiten wir drei Design-Desiderate ab und zeigen, dass Systeme mit unterstützenden Strukturen, die diesen Desideraten entsprechen, Nutzern ermöglichten, qualitativ besseres Feedback zu geben. Abschließend rufen wir die breitere KI-Community zum Handeln auf, um die Fähigkeiten großer Sprachmodelle so weiterzuentwickeln, dass sie Feedback-Barrieren überwinden können.
Die Beziehungen zwischen Objekten und Sprache sind grundlegend für eine bedeutungsvolle Kommunikation zwischen Menschen und KI sowie für praktisch nützliche verkörperte Intelligenz. Wir stellen HieraNav vor, eine multi-granulare, open-vocabulary Zielnavigation, bei der Agenten natürliche Sprachbefehle interpretieren, um Ziele auf vier semantischen Ebenen zu erreichen: Szene, Raum, Region und Instanz. Zu diesem Zweck präsentieren wir Language as a Map (LangMap), einen groß angelegten Benchmark, der auf realen 3D-Innenraumscans basiert und umfassende, menschlich verifizierte Annotationen sowie Aufgaben über diese Ebenen hinweg umfasst. LangMap bietet Regionsbezeichnungen, diskriminierende Regionsbeschreibungen, diskriminierende Instanzbeschreibungen für 414 Objektkategorien und über 18.000 Navigationsaufgaben. Jedes Ziel verfügt sowohl über kurze als auch detaillierte Beschreibungen, was eine Evaluation über verschiedene Anweisungsstile hinweg ermöglicht. LangMap erreicht eine überlegene Annotationsqualität und übertrifft GOAT-Bench in der diskriminativen Genauigkeit um 23,8 % bei viermal weniger Wörtern. Umfassende Evaluationen von Zero-Shot- und supervidierten Modellen auf LangMap zeigen, dass ein reichhaltigerer Kontext und Gedächtnis die Erfolgsrate verbessern, während langschwänzige, kleine, kontextabhängige und entfernte Ziele sowie die Erfüllung mehrerer Ziele nach wie vor herausfordernd bleiben. HieraNav und LangMap etablieren eine rigorose Testumgebung für die Weiterentwicklung der sprachgesteuerten, verkörperten Navigation. Projekt: https://bo-miao.github.io/LangMap
Das Verständnis der Funktionsweise von Transformer-Komponenten in LLMs ist von zentraler Bedeutung, da sie den Kern der jüngsten technologischen Fortschritte im Bereich der künstlichen Intelligenz darstellen. In dieser Arbeit beleuchten wir erneut die Herausforderungen im Zusammenhang mit der Interpretierbarkeit von Feed-Forward-Modulen (FFNs) und schlagen MemoryLLM vor, das darauf abzielt, FFNs von der Self-Attention zu entkoppeln. Dies ermöglicht es uns, die entkoppelten FFNs als kontextfreien, token-basierten neuronalen Abrufspeicher zu untersuchen. Im Einzelnen untersuchen wir, wie Eingabe-Tokens auf Speicherstellen innerhalb der FFN-Parameter zugreifen und welche Bedeutung dem FFN-Speicher in verschiedenen Downstream-Aufgaben zukommt. MemoryLLM erreicht kontextfreie FFNs, indem diese isoliert von der Self-Attention direkt mit Token-Embeddings trainiert werden. Dieser Ansatz ermöglicht es, FFNs als token-basierte Lookup-Tabellen (ToLs) vorzuberechnen, was einen bedarfsgesteuerten Transfer zwischen VRAM und Speicher erlaubt und zusätzlich die Inferenzeffizienz steigert. Wir stellen zudem Flex-MemoryLLM vor, das sich zwischen einem konventionellen Transformer-Design und MemoryLLM positioniert. Diese Architektur überbrückt die Leistungslücke, die durch das Training von FFNs mit kontextfreien Token-Embeddings entsteht.
Multimodale Empfehlungssysteme integrieren typischerweise Nutzerverhalten mit multimodalen Daten von Artikeln, um genauere Nutzerpräferenzen zu erfassen. Gleichzeitig nutzt die multimodale Empfehlung mit dem Aufkommen großer Modelle (LMs) zunehmend deren Stärken im semantischen Verständnis und kontextuellen Reasoning. Allerdings sind LM-Repräsentationen inhärent für allgemeine semantische Aufgaben optimiert, während Empfehlungsmodelle stark auf spärliche eindeutige Identitätsmerkmale (IDs) von Nutzern/Artikeln angewiesen sind. Bisherige Arbeiten übersehen die grundlegende Repräsentationsdivergenz zwischen großen Modellen und Empfehlungssystemen, was zu inkompatiblen multimodalen Repräsentationen und suboptimaler Empfehlungsleistung führt. Um diese Lücke zu schließen, schlagen wir RecGOAT vor, ein neuartiges yet einfaches Dual-Semantic-Alignment-Framework für LLM-gestützte multimodale Empfehlungen, das theoretisch garantierte Alignment-Fähigkeit bietet. RecGOAT verwendet zunächst Graph-Attention-Netzwerke zur Anreicherung kollaborativer Semantik durch Modellierung von Artikel-Artikel-, Nutzer-Artikel- und Nutzer-Nutzer-Beziehungen unter Nutzung von LM-Repräsentationen und Interaktionshistorie. Darüber hinaus entwerfen wir ein Dual-Granularity-Progressive-Multimodality-ID-Alignment-Framework, das Instanzen- und Verteilungsebene-Semantik-Alignment via Cross-Modal Contrastive Learning (CMCL) bzw. Optimal Adaptive Transport (OAT) erreicht. Theoretisch zeigen wir, dass die vereinheitlichten Repräsentationen aus unserem Alignment-Framework überlegene semantische Konsistenz und Vollständigkeit aufweisen. Umfangreiche Experimente auf drei öffentlichen Benchmarks belegen, dass RecGOAT State-of-the-Art-Leistung erzielt und unsere theoretischen Erkenntnisse empirisch validiert. Zusätzlich bestätigt der Einsatz auf einer großskaligen Online-Werbeplattform die Effektivität und Skalierbarkeit des Modells in industriellen Empfehlungsszenarien. Code verfügbar unter https://github.com/6lyc/RecGOAT-LLM4Rec.
Viele maschinelle Lernsysteme haben Zugang zu mehrere Evidenzquellen für dasselbe Vorhersageziel, doch diese Quellen unterscheiden sich oft in ihrer Zuverlässigkeit und Informativität zwischen verschiedenen Eingaben. In der bioakustischen Klassifikation kann die Artenidentität sowohl aus dem akustischen Signal als auch aus dem räumlich-zeitlichen Kontext wie Standort und Jahreszeit abgeleitet werden; während die Bayes'sche Inferenz eine multiplikative Evidenzkombination nahelegt, haben wir in der Praxis typischerweise nur Zugang zu diskriminativen Prädiktoren anstatt zu kalibrierten generativen Modellen. Wir stellen Fusion under INdependent Conditional Hypotheses (FINCH) vor, ein adaptives log-lineares Evidenzfusions-Framework, das einen vortrainierten Audio-Klassifikator mit einem strukturierten räumlich-zeitlichen Prädiktor integriert. FINCH erlernt eine pro-Stichprobe Gating-Funktion, die die Zuverlässigkeit kontextueller Informationen aus Unsicherheits- und Informativitätsstatistiken schätzt. Die resultierende Fusionsfamilie enthält den reinen Audio-Klassifikator als Spezialfall und begrenzt explizit den Einfluss kontextueller Evidenz, was zu einer risikobegrenzten Hypothesenklasse mit einem interpretierbaren Audio-Fallback führt. In Benchmarks übertrifft FINCH konsistent Festgewichts-Fusion und reine Audio-Baselines, verbessert die Robustheit und Fehlerkompromisse selbst dann, wenn kontextuelle Informationen isoliert betrachtet schwach sind. Wir erreichen state-of-the-art Leistung auf CBI und wettbewerbsfähige oder verbesserte Leistung auf mehreren Teilmengen von BirdSet mit einem leichtgewichtigen, interpretierbaren, evidenzbasierten Ansatz. Code ist verfügbar: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md{anonymous-repository}}
Der Key-Value (KV)-Cache von Large Language Models (LLMs) ist präfixbasiert, was die Verarbeitung von Kontexten in beliebiger Reihenfolge äußerst ineffizient macht. Position-Independent Caching (PIC) wurde vorgeschlagen, um die Wiederverwendung von KV-Caches ohne Positionsbeschränkungen zu ermöglichen; bestehende Ansätze führen jedoch oft zu erheblichen Genauigkeitseinbußen, was ihre praktische Anwendung einschränkt. Um dieses Problem zu lösen, schlagen wir natives PIC vor, indem wir einen Encoder in verbreitete decoder-only LLMs reintegrieren und diesen explizit für die PIC-Unterstützung trainieren. Wir entwickeln weiterhin COMB, ein PIC-fähiges Caching-System, das nahtlos in bestehende Inferenz-Frameworks integriert werden kann. Experimentelle Ergebnisse zeigen, dass COMB die Time-to-First-Token (TTFT) um 51–94 % reduziert und den Durchsatz bei vergleichbarer Genauigkeit verdreifacht. Darüber hinaus demonstriert die Qualitätsverbesserung bei der Verwendung von DeepSeek-V2-Lite-Chat die Anwendbarkeit von COMB auf andere Arten von decoder-only LLMs. Unser Code ist verfügbar unter https://github.com/shijuzhao/Comb.