papers.description
Wir stellen LongCat-Flash-Thinking-2601 vor, ein quelloffenes Reasoning-Modell vom Typ Mixture-of-Experts (MoE) mit 560 Milliarden Parametern und überragender agentenbasierter Reasoning-Fähigkeit. LongCat-Flash-Thinking-2601 erzielt state-of-the-art Leistungen unter quelloffenen Modellen in einer breiten Palette von agentenbasierten Benchmarks, einschließlich agentenbasierter Suche, agentenbasierter Werkzeugnutzung und werkzeugintegriertem Reasoning. Über die Benchmark-Leistungen hinaus zeigt das Modell eine starke Generalisierungsfähigkeit bei komplexen Werkzeuginteraktionen und ein robustes Verhalten unter verrauschten realen Umgebungen. Seine fortgeschrittenen Fähigkeiten resultieren aus einem einheitlichen Trainingsframework, das domain-paralleles Expertentraining mit anschließender Fusion kombiniert, zusammen mit einem end-to-end Co-Design von Datenerstellung, Umgebungen, Algorithmen und Infrastruktur, das vom Pre-Training bis zum Post-Training reicht. Insbesondere wird die starke Generalisierungsfähigkeit des Modells bei komplexer Werkzeugnutzung durch unsere eingehende Erforschung der Skalierung von Umgebungen und prinzipiengeleiteter Aufgabenkonstruktion angetrieben. Um langschwänzige, schiefe Generierung und mehrstufige agentenbasierte Interaktionen zu optimieren und ein stabiles Training über mehr als 10.000 Umgebungen in über 20 Domänen hinweg zu ermöglichen, erweitern wir systematisch unser asynchrones Reinforcement-Learning-Framework DORA für stabiles und effizientes Training in großem Maßstab über mehrere Umgebungen. Darüber hinaus führen wir, in der Erkenntnis, dass reale Aufgaben inhärent verrauscht sind, eine systematische Analyse und Zerlegung realer Rauschmuster durch und entwerfen gezielte Trainingsverfahren, um solche Unvollkommenheiten explizit in den Trainingsprozess zu integrieren, was zu einer verbesserten Robustheit für reale Anwendungen führt. Um die Leistung bei komplexen Reasoning-Aufgaben weiter zu steigern, führen wir einen „Heavy Thinking“-Modus ein, der effektives Skalieren zur Testzeit ermöglicht, indem Reasoning-Tiefe und -Breite durch intensives paralleles Denken gemeinsam erweitert werden.
LLM-Agenten haben bemerkenswerte Fähigkeiten in der Softwareentwicklung demonstriert, doch ihre Leistung wird durch lange Interaktionskontexte beeinträchtigt, die hohe API-Kosten und Latenzzeiten verursachen. Obwohl verschiedene Kontextkomprimierungsansätze wie LongLLMLingua entstanden sind, um diese Herausforderung zu bewältigen, verlassen sie sich typischerweise auf feste Metriken wie PPL und ignorieren die aufgaben spezifische Natur des Codeverständnisses. Folglich stören sie häufig die syntaktische und logische Struktur und scheitern daran, kritische Implementierungsdetails zu erhalten. In diesem Artikel schlagen wir SWE-Pruner vor, einen selbstadaptiven Kontextreduzierungsrahmen, der speziell für Code-Agenten entwickelt wurde. Inspiriert davon, wie menschliche Programmierer Quellcode während der Entwicklung und Fehlersuche "selektiv überfliegen", führt SWE-Pruner aufgabenbewusste adaptive Reduzierung für lange Kontexte durch. Basierend auf der aktuellen Aufgabe formuliert der Agent ein explizites Ziel (z.B. "Fokus auf Fehlerbehandlung") als Hinweis, um die Reduzierungsziele zu steuern. Ein leichter neuronaler Skimmer (0,6B Parameter) wird trainiert, um dynamisch relevante Zeilen aus dem umgebenden Kontext anhand des Ziels auszuwählen. Evaluationen über vier Benchmarks und mehrere Modelle validieren die Wirksamkeit von SWE-Pruner in verschiedenen Szenarien, wobei eine Token-Reduzierung von 23–54 % bei Agentenaufgaben wie SWE-Bench Verified und eine Kompression von bis zu 14,84x bei Einzelrunden-Aufgaben wie LongCodeQA mit minimalen Leistungseinbußen erreicht wird.
Standard Vision-Language-Action (VLA)-Modelle feintunen typischerweise explizit für die Roboterkontrolle ein monolithisches Vision-Language-Model (VLM)-Backbone. Dieser Ansatz erzeugt jedoch einen kritischen Zielkonflikt zwischen der Beibehaltung eines allgemeinen semantischen Hochverständnisses und dem Erlernen niedrigschwelliger, feingranularer sensomotorischer Fähigkeiten, was oft zu einem "katastrophalen Vergessen" der offenen Welt-Fähigkeiten des Modells führt. Um diesen Konflikt zu lösen, stellen wir TwinBrainVLA vor, eine neuartige Architektur, die einen generalistischen VLM mit universellem Semantikverständnis und einen spezialisierten VLM für verkörperte Propriozeption zur gemeinsamen Roboterkontrolle koordiniert. TwinBrainVLA kombiniert synergistisch ein eingefrorenes "linkes Gehirn", das ein robustes allgemeines visuelles Reasoning beibehält, mit einem trainierbaren "rechten Gehirn", das auf verkörperte Wahrnehmung spezialisiert ist, über einen neuartigen Asymmetric Mixture-of-Transformers (AsyMoT)-Mechanismus. Dieses Design ermöglicht es dem rechten Gehirn, semantisches Wissen dynamisch vom eingefrorenen linken Gehirn abzufragen und es mit propriozeptiven Zuständen zu fusionieren, wodurch eine umfangreiche Konditionierung für einen Flow-Matching-Action-Expert bereitgestellt wird, um präzise kontinuierliche Steuerungen zu generieren. Umfangreiche Experimente auf den SimplerEnv- und RoboCasa-Benchmarks zeigen, dass TwinBrainVLA im Vergleich zu state-of-the-art Baselines eine überlegene Manipulationsleistung erzielt und gleichzeitig explizit die umfassenden visuellen Verständnisfähigkeiten des vortrainierten VLM erhält. Dies bietet eine vielversprechende Richtung für den Bau universell einsetzbarer Roboter, die gleichzeitig ein hohes semantisches Verständnis und eine niedrigschwellige physische Geschicklichkeit erreichen.
Moderne Vision-Language-Modelle (VLMs) sind in Bezug auf mehrstufige visuelle Interaktionen nach wie vor unzureichend charakterisiert, insbesondere hinsichtlich der Integration von Wahrnehmung, Gedächtnis und Handlung über lange Zeithorizonte. Wir stellen VisGym vor, eine Testumgebung mit 17 verschiedenen Szenarien zur Evaluierung und zum Training von VLMs. Die Suite umfasst symbolische Rätsel, Verständnis realer Bilder, Navigation und Manipulation und bietet flexible Kontrolle über Schwierigkeitsgrad, Eingabedarstellung, Planungshorizont und Feedback. Zudem stellen wir mehrstufige Löser bereit, die strukturierte Demonstrationen generieren und überwachtes Finetuning ermöglichen. Unsere Auswertungen zeigen, dass alle Spitzenmodelle in interaktiven Settings Schwierigkeiten haben und sowohl in einfachen (46,6 %) als auch schwierigen (26,0 %) Konfigurationen niedrige Erfolgsquoten erzielen. Unsere Experimente offenbaren bemerkenswerte Limitationen: Modelle können lange Kontexte nicht effektiv nutzen und schneiden mit unbegrenztem Verlauf schlechter ab als mit gekürzten Fenstern. Zudem stellen wir fest, dass mehrere textbasierte symbolische Aufgaben deutlich schwieriger werden, sobald sie visuell dargestellt werden. Explizite Zielbeobachtungen, textuelles Feedback und explorative Demonstrationen in teilweise beobachtbaren oder unbekannten Dynamik-Umgebungen für überwachtes Finetuning führen jedoch zu konsistenten Verbesserungen, was konkrete Fehlermodi und Wege zur Verbesserung mehrstufiger visueller Entscheidungsfindung aufzeigt. Code, Daten und Modelle sind verfügbar unter: https://visgym.github.io/.
Aktuelle fundamentale Video-zu-Video-Diffusionsmodelle haben beeindruckende Ergebnisse bei der Bearbeitung von Nutzervideos durch Veränderung von Erscheinungsbild, Bewegung oder Kameraführung erzielt. In der Praxis ist die Videobearbeitung jedoch oft ein iterativer Prozess, bei dem Nutzer die Ergebnisse über mehrere Interaktionsrunden hinweg verfeinern. In diesem Mehrschritt-Szenario haben aktuelle Videoeditoren Schwierigkeiten, die Quer-Konsistenz über sequenzielle Bearbeitungsschritte hinweg aufrechtzuerhalten. In dieser Arbeit gehen wir erstmals das Problem der Quer-Konsistenz bei der Mehrschritt-Videobearbeitung an und stellen Memory-V2V vor – einen einfachen, aber effektiven Rahmen, der bestehende Video-zu-Video-Modelle mit explizitem Speicher erweitert. Auf Basis eines externen Caches zuvor bearbeiteter Videos nutzt Memory-V2V präzise Retrieval- und dynamische Tokenisierungsstrategien, um den aktuellen Bearbeitungsschritt an vorherigen Ergebnissen zu konditionieren. Um Redundanzen und Rechenaufwand weiter zu reduzieren, schlagen wir einen lernbaren Token-Kompressor innerhalb der DiT-Architektur vor, der redundante Konditionierungstoken komprimiert und dabei essentielle visuelle Hinweise bewahrt, was eine Gesamtbeschleunigung von 30 % erreicht. Wir validieren Memory-V2V anspruchsvollen Aufgaben wie Video-Novel-View-Synthese und textkonditionierter Langvideo-Bearbeitung. Umfangreiche Experimente zeigen, dass Memory-V2V Videos erzeugt, die bei minimalem Rechenaufwand signifikant querkonsistenter sind, während die aufgabenspezifische Leistung state-of-the-art-Baselines beibehalten oder sogar übertroffen wird. Projektseite: https://dohunlee1.github.io/MemoryV2V
Jüngste Fortschritte bei Deep Research Agents (DRAs) transformieren die automatisierte Wissensentdeckung und Problemlösung. Während sich die Mehrheit der bestehenden Bemühungen auf die Verbesserung der Policy-Fähigkeiten durch Post-Training konzentriert, schlagen wir ein alternatives Paradigma vor: die selbstständige Evolution der Fähigkeiten des Agenten durch iteratives Überprüfen der Outputs des Policy-Modells, geleitet von sorgfältig erstellten Bewertungsrubriken. Dieser Ansatz führt zu einem Inference-Time-Scaling der Verifikation, bei dem sich ein Agent selbst verbessert, indem er seine generierten Antworten bewertet, um iteratives Feedback und Verfeinerungen zu erzeugen. Wir leiten die Rubriken auf Basis einer automatisch konstruierten DRA-Fehler-Taxonomie ab, die Agentenfehler systematisch in fünf Hauptkategorien und dreizehn Unterkategorien einteilt. Wir stellen DeepVerifier vor, einen rubrikbasierten Outcome-Reward-Verifier, der die Asymmetrie der Verifikation nutzt und Vanilla-Agent-as-Judge- sowie LLM-Judge-Baselines im Meta-Evaluation-F1-Score um 12 % bis 48 % übertrifft. Um eine praktische Selbstevolution zu ermöglichen, integriert sich DeepVerifier als Plug-and-Play-Modul während der Test-Time-Inference. Der Verifier erzeugt detailliertes, rubrikbasiertes Feedback, das an den Agenten zurückgespielt wird, um ein iteratives Bootstrapping zur Verfeinerung der Antworten ohne zusätzliches Training zu ermöglichen. Dieses Test-Time-Scaling erzielt Genauigkeitssteigerungen von 8 % bis 11 % auf anspruchsvollen Teilmengen von GAIA und XBench-DeepResearch, wenn es durch leistungsstarke Closed-Source-LLMs angetrieben wird. Schließlich veröffentlichen wir, um die Open-Source-Entwicklung zu unterstützen, DeepVerifier-4K, einen kuratierten Supervised-Fine-Tuning-Datensatz mit 4.646 hochwertigen Agentenschritten, die sich auf die DRA-Verifikation konzentrieren. Diese Beispiele betonen Reflexion und Selbstkritik und ermöglichen es Open-Modellen, robuste Verifikationsfähigkeiten zu entwickeln.
Reinforcement Learning (RL) ist entscheidend für die Verbesserung der komplexen Denkfähigkeiten großer Sprachmodelle (LLMs). Allerdings sind bestehende RL-Trainingspipelines rechnerisch ineffizient und ressourcenintensiv, wobei die Rollout-Phase über 70 % der gesamten Trainingszeit ausmacht. Quantisiertes RL-Training, insbesondere unter Verwendung von FP8-Präzision, bietet einen vielversprechenden Ansatz zur Minderung dieses Engpasses. Eine häufig angewandte Strategie nutzt FP8-Präzision während des Rollouts, behält jedoch BF16-Präzision für das Training bei. In dieser Arbeit präsentieren wir die erste umfassende Studie zu FP8-RL-Training und zeigen, dass die weit verbreitete BF16-Training- + FP8-Rollout-Strategie unter langen Rollout-Horizonten und anspruchsvollen Aufgaben unter schwerer Trainingsinstabilität und katastrophalem Genauigkeitsverlust leidet. Unsere Analyse zeigt, dass diese Fehler auf den Off-Policy-Charakter des Ansatzes zurückzuführen sind, der eine erhebliche numerische Diskrepanz zwischen Training und Inferenz einführt. Aufbauend auf diesen Beobachtungen schlagen wir Jet-RL vor, ein FP8-RL-Trainingsframework, das eine robuste und stabile RL-Optimierung ermöglicht. Die Kernidee besteht darin, einen einheitlichen FP8-Präzisionsfluss sowohl für das Training als auch für den Rollout zu verwenden, um so numerische Abweichungen zu minimieren und die Notwendigkeit ineffizienter kalibrierung zwischen den Schritten zu beseitigen. Umfangreiche Experimente validieren die Wirksamkeit von Jet-RL: Unsere Methode erreicht eine Beschleunigung von bis zu 33 % in der Rollout-Phase, bis zu 41 % in der Trainingsphase und eine 16 %ige Ende-zu-Ende-Beschleunigung gegenüber BF16-Training, bei gleichzeitig stabiler Konvergenz über alle Einstellungen hinweg und nur vernachlässigbarer Genauigkeitseinbuße.
Obwohl künstliche Intelligenz (KI) bereits tief in verschiedene Phasen des Forschungsarbeitsablaufs integriert ist und bemerkenswerte Fortschritte erzielt hat, bleibt die akademische Erwiderung (Rebuttal) eine bedeutende und unzureichend erforschte Herausforderung. Dies liegt daran, dass es sich bei einer Erwiderung um einen komplexen Prozess strategischer Kommunikation unter starker Informationsasymmetrie handelt und nicht um eine einfache technische Debatte. Folglich stoßen aktuelle Ansätze an Grenzen, da sie weitgehend oberflächliche linguistische Muster imitieren und das wesentliche Element der Perspektivenübernahme für eine effektive Persuasion vernachlässigen. In diesem Artikel stellen wir RebuttalAgent vor, den ersten Rahmenansatz, der akademische Erwiderungen in der Theory of Mind (ToM) verankert. Dies wird durch einen ToM-Strategie-Antwort (TSR)-Prozess operationalisiert, der den mentalen Zustand des Gutachters modelliert, Persuasionstrategien formuliert und strategiebasierte Antworten generiert. Um unseren Agenten zu trainieren, erstellen wir RebuttalBench, einen umfangreichen Datensatz, der durch einen neuartigen Kritik-und-Verbesserungs-Ansatz synthetisiert wird. Unser Trainingsprozess umfasst zwei Stufen: Beginnend mit einer überwachten Feinjustierung (SFT), um den Agenten mit ToM-basierter Analyse- und Strategieplanungsfähigkeiten auszustatten, gefolgt von einer Verstärkungslernphase (RL), die einen Selbstbelohnungsmechanismus für skalierbare Selbstverbesserung nutzt. Für eine zuverlässige und effiziente automatische Evaluation entwickeln wir weiterhin Rebuttal-RM, einen spezialisierten Bewertungsalgorithmus, der mit über 100.000 Stichproben aus multi-sourcigen Erwiderungsdaten trainiert wurde und eine Bewertungskonsistenz mit menschlichen Präferenzen erreicht, die leistungsstarke Richter-Modelle wie GPT-4.1 übertrifft. Umfangreiche Experimente zeigen, dass RebuttalAgent die Basismodellleistung bei automatischen Metriken im Durchschnitt um 18,3 % signifikant übertrifft und dabei auch fortschrittliche proprietäre Modelle sowohl in automatischen als auch in humanen Evaluationen übertrifft. Haftungsausschluss: Der generierte Erwiderungsinhalt dient nur als Referenz, um Autoren zu inspirieren und beim Verfassen zu unterstützen. Er soll nicht die eigene kritische Analyse und Antwort des Autors ersetzen.
Diffusion Transformer haben kürzlich bemerkenswerte Leistungen in der Videogenerierung gezeigt. Allerdings führen die langen Eingabesequenzen aufgrund der quadratischen Komplexität der Voll-Attention zu hohen Latenzen. Verschiedene sparse Attention-Mechanismen wurden vorgeschlagen. Trainingsfreie sparse Attention ist durch begrenzte Sparsity eingeschränkt und bietet daher nur moderate Beschleunigung, während trainingsbasierte Methoden eine viel höhere Sparsity erreichen können, aber erhebliche Daten- und Rechenressourcen für das Training erfordern. In dieser Arbeit schlagen wir SALAD vor, das einen leichten linearen Attention-Zweig parallel zur sparse Attention einführt. Durch einen eingabeabhängigen Gating-Mechanismus, der die beiden Zweige fein austariert, erreicht unsere Methode 90 % Sparsity und eine 1,72-fache Beschleunigung bei der Inferenz, bei gleichbleibender Generierungsqualität im Vergleich zur Voll-Attention-Baseline. Darüber hinaus ist unser Fine-Tuning-Prozess hocheffizient und erfordert nur 2.000 Videobeispiele und 1.600 Trainingsschritte bei einer Batch-Größe von 8.
Data-Science-Agents versprechen, die Entdeckung und Erkenntnisgenerierung zu beschleunigen, indem sie Daten in ausführbare Analysen und Ergebnisse umwandeln. Bisherige Data-Science-Benchmarks sind jedoch unzureichend, da sie über fragmentierte Evaluierungsschnittstellen verfügen, die Benchmark-übergreifende Vergleiche erschweren, ein begrenztes Aufgabenspektrum abdecken und eine mangelnde rigorose Datenbasis aufweisen. Insbesondere zeigen wir, dass ein erheblicher Teil der Aufgaben in aktuellen Benchmarks gelöst werden kann, ohne die tatsächlichen Daten zu verwenden. Um diese Einschränkungen zu adressieren, führen wir DSGym ein, einen standardisierten Rahmen zur Evaluierung und zum Training von Data-Science-Agents in abgeschlossenen Ausführungsumgebungen. Im Gegensatz zu statischen Benchmarks bietet DSGym eine modulare Architektur, die es einfach macht, Aufgaben, Agenten-Grundgerüste und Werkzeuge hinzuzufügen, und positioniert es so als eine lebendige, erweiterbare Testplattform. Wir haben DSGym-Tasks kuratiert, eine ganzheitliche Aufgabensammlung, die bestehende Benchmarks standardisiert und verfeinert, indem sie nach Qualität und der Möglichkeit von Kurzschlusslösungen filtert. Wir erweitern die Abdeckung weiter mit (1) DSBio: expertengestützten Bioinformatik-Aufgaben, die in der Literatur verankert sind, und (2) DSPredict: anspruchsvollen Vorhersageaufgaben aus Bereichen wie Computer Vision, molekularer Prädiktion und Einzelzell-Perturbation. Über die Evaluierung hinaus ermöglicht DSGym das Training von Agents durch eine ausführungsverifizierte Daten-Synthese-Pipeline. Als Fallstudie haben wir einen Trainingsdatensatz mit 2.000 Beispielen erstellt und in DSGym ein 4B-Modell trainiert, das in standardisierten Analyse-Benchmarks GPT-4o übertrifft. Insgesamt ermöglicht DSGym eine rigorose End-to-End-Messung, ob Agents Datenanalysen in realistischen wissenschaftlichen Kontexten planen, implementieren und validieren können.
Strategische Entscheidungsfindung in Multi-Agenten-Umgebungen stellt eine zentrale Herausforderung für große Sprachmodelle (LLMs) dar, insbesondere wenn Koordination und Verhandlung über längere Gespräche hinweg stattfinden müssen. Während neuere Arbeiten den Einsatz von LLMs in isolierten Entscheidungsaufgaben untersucht haben, wurde der Optimierung langfristiger Ziele durch Dialog bislang wenig Beachtung geschenkt. Wir stellen GameTalk vor, einen Rahmen zum Trainieren von LLMs für strategische Entscheidungen durch mehrstufige Interaktionen. Im Gegensatz zu früheren Arbeiten, die sich auf Einzelschritt-Ziele oder statische Aktionsvorhersage konzentrieren, trainieren wir LLMs darauf, ein globales Ziel über gesamte Konversationen hinweg zu optimieren. Wir erreichen dies durch die Anpassung von Fine-Tuning-Methoden wie GRPO, DPO und STaR, um Belohnungssignale zu integrieren, die von der gesamten Interaktion abhängen. Wir bewerten diesen Ansatz anhand einer Reihe zunehmend komplexer Spiele, die entwickelt wurden, um verschiedene Aspekte des Schlussfolgerns, der Koordination und der Modellierung von Gegenspielern zu testen. Unsere Ergebnisse zeigen, dass GameTalk nicht trainierte Modelle signifikant übertrifft, insbesondere unter Reward Shaping, wobei DPO durchweg die größten Leistungssteigerungen erzielt. Diese Ergebnisse positionieren konversationsbasiertes Fine-Tuning als einen vielversprechenden Weg, damit LLMs in interaktiven Umgebungen schlussfolgern, verhandeln und handeln können.
Jüngste Fortschritte haben die Rolle von Large Language Models bei Brettspielen von spielenden Agenten zu kreativen Co-Designern erweitert. Es bleibt jedoch eine kritische Lücke: Aktuelle Systeme sind nicht in der Lage, konstruktive Kritik auf der Grundlage der entstehenden Benutzererfahrung zu liefern. Diese Lücke zu schließen ist grundlegend für eine harmonische Mensch-KI-Kollaboration, da sie Designer befähigt, ihre Kreationen durch externe Perspektiven zu verfeinern und gleichzeitig Modelle vor verzerrten oder unvorhersehbaren Ergebnissen zu bewahren. Die Automatisierung von Kritik für Brettspiele stellt zwei Herausforderungen dar: das Erschließen der latenten Dynamik, die Regeln mit dem Gameplay verbindet, ohne eine explizite Engine, und die Modellierung der subjektiven Heterogenität verschiedener Spielergruppen. Um diese zu adressieren, haben wir einen Datensatz mit 1.727 strukturell korrigierten Regelwerken und 150.000 Bewertungen kuratiert, die mittels Qualitätsbewertung und facettensensibler Stichprobenauswahl ausgewählt wurden. Wir erweitern diese Daten um Mechanics-Dynamics-Aesthetics (MDA)-Reasoning, um die kausale Lücke zwischen geschriebenen Regeln und Spielererfahrung explizit zu überbrücken. Weiter destillieren wir Spieler-Personas und führen MeepleLM ein, ein spezialisiertes Modell, das personaspezifische Denkmuster internalisiert, um das subjektive Feedback verschiedener Spieler-Archetypen genau zu simulieren. Experimente zeigen, dass MeepleLM die neuesten kommerziellen Modelle (z.B. GPT-5.1, Gemini3-Pro) sowohl in der Community-Ausrichtung als auch in der Kritikqualität signifikant übertrifft und in Nutzerstudien zur Bewertung des Nutzens eine Präferenzrate von 70 % erreicht. MeepleLM dient als zuverlässiger virtueller Playtester für allgemeine interaktive Systeme und markiert einen entscheidenden Schritt hin zu einer publikumsorientierten, erfahrungsbewussten Mensch-KI-Kollaboration.
Dieses Papier stellt Mecellem-Modelle vor, einen Rahmen zur Entwicklung spezialisierter Sprachmodelle für den türkischen Rechtsbereich durch Domain-Adaption-Strategien. Wir leisten zwei Beiträge: (1) Encoder-Modell, das von Grund auf vortrainiert wurde: Bidirektionale Encoder auf ModernBERT-Basis, vortrainiert auf einem türkisch-dominierten Korpus von 112,7 Milliarden Tokens. Wir implementieren eine Checkpoint-Auswahlstrategie, die während des Trainings die Retrieval-Leistung downstream evaluiert und zeigt, dass optimale Checkpoints die besten Retrieval-Werte erreichen, bevor der Vortrainierungsverlust sein Minimum erreicht. Unsere Encoder-Modelle erreichen Top-3-Platzierungen im türkischen Retrieval-Ranking, wobei kleinere Modelle (155M Parameter) vergleichbare Leistung zu größeren Referenzmodellen (307M-567M Parameter) erzielen. Unser Ansatz erreicht 92,36% Produktionseffizienz im Vergleich zu State-of-the-Art-Modellen (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%) und rangiert trotz geringerem Rechenaufwand insgesamt auf Platz vier. SOTA-Modelle basieren auf mehrstufigen, rechenintensiven Trainingspipelines, was unseren Ansatz mit einstufigem Vortraining gefolgt von effizientem Nachtraining zu einer kostengünstigen Alternative macht; (2) Decoder-Modell mit kontinuierlichem Vortraining (CPT): Qwen3-1.7B und Qwen3-4B Modelle, die durch kontrolliertes Curriculum Learning an den türkischen Rechtsbereich angepasst wurden. Vierphasiges CPT mit optimalen Stichprobenverhältnissen ermöglicht den graduellen Übergang von allgemeinem Sprachwissen zu spezialisierter Rechtsterminologie und Langkontext-Verarbeitung. Dieser Ansatz erreicht eine Reduktion der Perplexität um 36,2% auf türkischen Rechtstexten und demonstriert damit die Gewinne durch Domain-Adaption.
Diagrammverständnis ist eine entscheidende Fähigkeit für Vision-Language-Models (VLMs). Die Entwicklung quelloffener Modelle wird jedoch stark durch den Mangel an hochwertigen Trainingsdaten behindert. Bestehende Datensätze leiden unter einer doppelten Herausforderung: synthetische Diagramme sind oft simplistisch und repetitiv, während die zugehörigen Frage-Antwort-Paare anfällig für Halluzinationen sind und die für komplexe Aufgaben notwendige Reasoning-Tiefe fehlt. Um diese Lücke zu schließen, schlagen wir ChartVerse vor, einen skalierbaren Framework zur Synthese komplexer Diagramme und verlässlicher Reasoning-Daten von Grund auf. (1) Um den Engpass einfacher Muster zu adressieren, führen wir zunächst Rollout Posterior Entropy (RPE) ein, eine neuartige Metrik zur Quantifizierung von Diagrammkomplexität. Angeleitet durch RPE entwickeln wir einen komplexitätsbewussten Diagramm-Coder, der autonom vielfältige, hochkomplexe Diagramme via ausführbarer Programme synthetisiert. (2) Um Reasoning-Strenge zu gewährleisten, entwickeln wir eine wahrheitsverankerte inverse QA-Synthese. Abweichend von der Standardgenerierung nutzen wir ein antwort-zuerst-Paradigma: Wir extrahieren deterministische Antworten direkt aus dem Quellcode, generieren Fragen bedingt auf diesen Ankern und erzwingen strikte Konsistenzprüfung. Um Schwierigkeitsgrad und Reasoning-Tiefe weiter zu steigern, filtern wir Samples basierend auf der Modell-Fail-Rate und destillieren hochwertige Chain-of-Thought (CoT)-Reasoning-Pfade. Wir kuratieren ChartVerse-SFT-600K und ChartVerse-RL-40K unter Verwendung von Qwen3-VL-30B-A3B-Thinking als Teacher-Modell. Experimentelle Ergebnisse zeigen, dass ChartVerse-8B state-of-the-art Leistung erreicht und dabei bemerkenswerterweise sein Teacher-Modell übertrifft sowie mit dem stärkeren Qwen3-VL-32B-Thinking konkurrieren kann.
Umgebungen sind der Engpass für sich selbst verbessernde Agenten. Aktuelle Terminal-Benchmarks wurden für die Evaluation, nicht für das Training entwickelt; Reinforcement Learning erfordert eine skalierbare Pipeline, nicht nur einen Datensatz. Wir stellen Endless Terminals vor, eine vollständig autonome Pipeline, die prozedural Terminal-Aufgaben ohne menschliche Annotation erzeugt. Die Pipeline umfasst vier Stufen: Generierung vielfältiger Aufgabenbeschreibungen, Erstellung und Validierung containerisierter Umgebungen, Erzeugung von Abschlusstests und Filterung nach Lösbarkeit. Aus dieser Pipeline gewinnen wir 3255 Aufgaben, die Dateioperationen, Log-Management, Datenverarbeitung, Skripterstellung und Datenbankoperationen abdecken. Wir trainieren Agenten mit standardmäßigem PPO mit binären Belohnungen auf Episodenebene und einer minimalen Interaktionsschleife: ohne Retrieval, Multi-Agenten-Koordination oder spezielle Werkzeuge. Trotz dieser Einfachheit zeigen auf Endless Terminals trainierte Modelle erhebliche Verbesserungen: Auf unserem zurückgehaltenen Dev-Set verbessert sich Llama-3.2-3B von 4,0 % auf 18,2 %, Qwen2.5-7B von 10,7 % auf 53,3 % und Qwen3-8B-openthinker-sft von 42,6 % auf 59,0 %. Diese Verbesserungen übertragen sich auf human-kurierte Benchmarks: Modelle, die auf Endless Terminals trainiert wurden, zeigen erhebliche Gewinne auf zurückgehaltenen, human-kurierten Benchmarks: Auf TerminalBench 2.0 verbessert sich Llama-3.2-3B von 0,0 % auf 2,2 %, Qwen2.5-7B von 2,2 % auf 3,4 % und Qwen3-8B-openthinker-sft von 1,1 % auf 6,7 % und übertrifft dabei in jedem Fall alternative Ansätze, einschließlich Modelle mit komplexeren Agenten-Scaffolds. Diese Ergebnisse demonstrieren, dass einfaches RL erfolgreich ist, wenn Umgebungen skalieren.
Große Sprachmodelle (LLMs) sehen sich mit der Herausforderung des "Wissensstichtags" konfrontiert, bei dem ihr eingefrorenes parametrisches Gedächtnis die direkte Verinnerlichung neuer Informationen verhindert. Obwohl überwachte Feinabstimmung (SFT) häufig zur Aktualisierung des Modellwissens eingesetzt wird, aktualisiert sie oft faktische Inhalte, ohne die Fähigkeit des Modells, die neu integrierten Informationen für Frage-Antwort-Aufgaben oder Entscheidungsfindung zu nutzen, zuverlässig zu verbessern. Bestärkendes Lernen (RL) ist entscheidend für den Erwerb von Denkfähigkeiten; jedoch machen die hohen Rechenkosten es für eine effiziente Online-Anpassung unpraktikabel. Wir beobachten empirisch, dass die durch SFT und RL induzierten Parameteraktualisierungen nahezu orthogonal zueinander sind. Aufbauend auf dieser Beobachtung schlagen wir Parametric Skill Transfer (PaST) vor, einen Rahmen, der modularen Kompetenztransfer für eine effiziente und effektive Wissensanpassung unterstützt. Indem wir einen domänenunabhängigen Skill-Vektor aus einer Quell-Domäne extrahieren, können wir Wissensmanipulationsfähigkeiten linear in ein Zielmodell injizieren, nachdem dieses eine leichtgewichtige SFT auf neuen Daten durchlaufen hat. Experimente auf Wissensintegrations-Frage-Antwort-Benchmarks (SQuAD, LooGLE) und agenten-basierten Werkzeugnutzungs-Benchmarks (ToolBench) demonstrieren die Wirksamkeit unserer Methode. Auf SQuAD übertrifft PaST den state-of-the-art SFT-Baselineansatz zur Selbstbearbeitung um bis zu 9,9 Punkte. PaST skaliert weiterhin auf Frage-Antwort-Aufgaben mit langem Kontext auf LooGLE mit einem absoluten Genauigkeitsgewinn von 8,0 Punkten und verbessert die Zero-Shot-Erfolgsquoten auf ToolBench im Durchschnitt um +10,3 Punkte mit konsistenten Steigerungen über Werkzeugkategorien hinweg, was auf eine starke Skalierbarkeit und domänenübergreifende Übertragbarkeit des Skill-Vektors hindeutet.
Eine präzise semantische Segmentierung von Histopathologie-Bildern ist entscheidend für quantitative Gewebeanalysen und nachgelagerte klinische Modellierungen. Aktuelle Segmentierungs-Foundation-Modelle haben die Generalisierungsfähigkeit durch groß angelegtes Pre-Training verbessert, bleiben jedoch schlecht mit der Pathologie abgestimmt, da sie Segmentierung als eine statische visuelle Vorhersageaufgabe behandeln. Hier stellen wir VISTA-PATH vor, ein interaktives, klassenbewusstes Pathologie-Segmentierungs-Foundation-Modell, das entwickelt wurde, um heterogene Strukturen aufzulösen, Expertenfeedback zu integrieren und pixelgenaue Segmentierungen zu erzeugen, die direkt für die klinische Interpretation bedeutsam sind. VISTA-PATH kombiniert die Segmentierung mit visuellem Kontext, semantischen Gewebebeschreibungen und optionalen, von Experten bereitgestellten räumlichen Prompts, was eine präzise Multi-Klassen-Segmentierung über heterogene Pathologie-Bilder hinweg ermöglicht. Um dieses Paradigma zu unterstützen, haben wir VISTA-PATH Data kuratiert, einen groß angelegten Pathologie-Segmentierungskorpus, der über 1,6 Millionen Bild-Maske-Text-Triplets aus 9 Organen und 93 Gewebeklassen umfasst. In umfangreichen Hold-out- und externen Benchmarks übertrifft VISTA-PATH durchgängig bestehende Segmentierungs-Foundation-Modelle. Wichtig ist, dass VISTA-PATH eine dynamische menschliche Nachbearbeitung in der Schleife unterstützt, indem spärliche, patch-basierte Bounding-Box-Annotationsfeedbacks in die Ganzschnitt-Segmentierung propagiert werden. Abschließend zeigen wir, dass die hochpräzise, klassenbewusste Segmentierung von VISTA-PATH ein bevorzugtes Modell für die computergestützte Pathologie ist. Es verbessert die Analyse der Tumormikroumgebung durch den vorgeschlagenen Tumor-Interaktions-Score (TIS), der starke und signifikante Assoziationen mit dem Patientenüberleben aufweist. Zusammengenommen etablieren diese Ergebnisse VISTA-PATH als ein Foundation-Modell, das die Pathologie-Bildsegmentierung von einer statischen Vorhersage zu einer interaktiven und klinisch fundierten Repräsentation für die digitale Pathologie erhebt. Quellcode und Demo sind unter https://github.com/zhihuanglab/VISTA-PATH verfügbar.
Große Sprachmodelle (LLMs) werden heutzutage umfassend für verschiedene Arten von Softwareentwicklungsaufgaben eingesetzt, hauptsächlich für die Codegenerierung. Frühere Forschungen haben gezeigt, wie geeignetes Prompt-Engineering Entwickler dabei unterstützen kann, ihre Prompts für die Codegenerierung zu verbessern. Bislang existieren jedoch keine spezifischen Richtlinien, die Entwickler zum Verfassen geeigneter Prompts für die Codegenerierung anleiten. In dieser Arbeit leiten wir entwicklungsbezogene Richtlinien zur Prompt-Optimierung ab und evaluieren sie. Zunächst verwenden wir einen iterativen, testgetriebenen Ansatz, um Codegenerierungs-Prompts automatisch zu verfeinern, und wir analysieren die Ergebnisse dieses Prozesses, um Prompt-Verbesserungselemente zu identifizieren, die zu bestandenen Tests führen. Wir nutzen diese Elemente, um 10 Richtlinien für die Prompt-Verbesserung abzuleiten, die sich auf die präzisere Spezifikation von Ein-/Ausgaben, Vor- und Nachbedingungen, das Bereitstellen von Beispielen, verschiedene Arten von Details oder das Klären von Unklarheiten beziehen. Wir führen eine Bewertung mit 50 Praktikern durch, die ihre Nutzung der abgeleiteten Prompt-Verbesserungsmuster sowie deren wahrgenommene Nützlichkeit berichten, was nicht immer der tatsächlichen Nutzung vor der Kenntnis unserer Richtlinien entspricht. Unsere Ergebnisse führen zu Implikationen nicht nur für Praktiker und Ausbilder, sondern auch für diejenigen, die bessere LLM-gestützte Softwareentwicklungswerkzeuge entwickeln wollen.