papers.description
Die Entwicklung von Large Language Models (LLMs) zu autonomen Agenten hat den Umfang der KI-gestützten Programmierung von lokaler Code-Generierung auf komplexe, repository-weite und ausführungsgesteuerte Problemlösung erweitert. Aktuelle Benchmarks bewerten jedoch überwiegend Code-Logik in statischen Kontexten und vernachlässigen die dynamischen, prozessumspannenden Anforderungen realer Ingenieursarbeit, insbesondere in der Backend-Entwicklung, die rigorose Umgebungskonfiguration und Service-Deployment erfordert. Um diese Lücke zu schließen, führen wir ABC-Bench ein, einen Benchmark, der explizit zur Bewertung agentenbasierter Backend-Programmierung innerhalb eines realistischen, ausführbaren Workflows konzipiert wurde. Mithilfe einer skalierbaren automatisierten Pipeline haben wir 224 praktische Aufgaben aus Open-Source-Repositories kuratiert, die 8 Programmiersprachen und 19 Frameworks abdecken. Im Gegensatz zu früheren Evaluationen erfordert ABC-Bench von den Agenten, den gesamten Entwicklungslebenszyklus zu bewältigen – von der Repository-Erkundung bis zur Instanziierung containerisierter Dienste – und externe End-to-End-API-Tests zu bestehen. Unsere umfassende Auswertung zeigt, dass selbst modernste Modelle bei diesen ganzheitlichen Aufgaben mit zuverlässiger Leistung kämpfen, was eine erhebliche Diskrepanz zwischen aktuellen Modellfähigkeiten und den Anforderungen praktischer Backend-Entwicklung aufzeigt. Unser Code ist verfügbar unter https://github.com/OpenMOSS/ABC-Bench.
Große Sprachmodelle lösen komplexe Denkaufgaben oft effektiver mit Chain-of-Thought (CoT), allerdings auf Kosten langer Token-Sequenzen mit geringer Bandbreite. Menschen hingegen denken oft „weich“, indem sie eine Verteilung über plausible nächste Schritte aufrechterhalten. Davon motiviert schlagen wir Multiplex Thinking vor, einen stochastischen Soft-Reasoning-Mechanismus, der bei jedem Denkschritt K Kandidaten-Tokens sampelt und ihre Embeddings zu einem einzigen kontinuierlichen Multiplex-Token aggregiert. Dies bewahrt das Vokabular-Embedding-Prior und die Sampling-Dynamik der standardmäßigen diskreten Generierung, während es eine handhabbare Wahrscheinlichkeitsverteilung über Multiplex-Rollouts induziert. Folglich können Multiplex-Trajektorien direkt mit On-Policy Reinforcement Learning (RL) optimiert werden. Wichtig ist, dass Multiplex Thinking selbstadaptiv ist: Wenn das Modell sicher ist, verhält sich das Multiplex-Token nahezu diskret wie Standard-CoT; bei Unsicherheit repräsentiert es kompakt mehrere plausible nächste Schritte, ohne die Sequenzlänge zu erhöhen. In anspruchsvollen mathematischen Reasoning-Benchmarks übertrifft Multiplex Thinking durchgängig starke diskrete CoT- und RL-Baselines von Pass@1 bis Pass@1024 und erzeugt dabei kürzere Sequenzen. Der Code und die Checkpoints sind verfügbar unter https://github.com/GMLR-Penn/Multiplex-Thinking.
Prompt-basierte Segmentierungs-Foundation-Modelle wie SAM3 haben durch interaktives und konzeptbasiertes Prompting starke Generalisierungsfähigkeiten demonstriert. Ihre direkte Anwendbarkeit auf die medizinische Bildsegmentierung bleibt jedoch durch erhebliche Domänenverschiebungen, das Fehlen privilegierter räumlicher Prompts und die Notwendigkeit eingeschränkt, komplexe anatomische und volumetrische Strukturen zu erfassen. Hier stellen wir Medical SAM3 vor, ein Foundation-Modell für universelle prompt-gesteuerte medizinische Bildsegmentierung, das durch vollständiges Fine-Tuning von SAM3 auf groß angelegten, heterogenen 2D- und 3D-Bildgebungsdatensätzen mit gepaarten Segmentierungsmasken und Text-Prompts gewonnen wurde. Durch eine systematische Analyse des ursprünglichen SAM3 beobachten wir, dass seine Leistung auf medizinischen Daten erheblich abnimmt, wobei seine scheinbare Wettbewerbsfähigkeit weitgehend auf starken geometrischen Priors wie ground-truth-basierten Begrenzungsrahmen beruht. Diese Erkenntnisse motivieren eine vollständige Modellanpassung, die über reines Prompt-Engineering hinausgeht. Durch Fine-Tuning der Modellparameter von SAM3 auf 33 Datensätzen über 10 medizinische Bildgebungsmodalitäten hinweg erwirbt Medical SAM3 robuste domänenspezifische Repräsentationen, während es die prompt-gesteuerte Flexibilität beibehält. Umfangreiche Experimente über Organe, Bildgebungsmodalitäten und Dimensionen hinweg demonstrieren konsistente und signifikante Leistungssteigerungen, insbesondere in anspruchsvollen Szenarien, die durch semantische Mehrdeutigkeit, komplexe Morphologie und langreichweitige 3D-Kontexte gekennzeichnet sind. Unsere Ergebnisse etablieren Medical SAM3 als universelles, textgeführtes Segmentierungs-Foundation-Modell für die medizinische Bildgebung und unterstreichen die Bedeutung einer ganzheitlichen Modellanpassung für eine robuste prompt-gesteuerte Segmentierung unter starker Domänenverschiebung. Code und Modell werden unter https://github.com/AIM-Research-Lab/Medical-SAM3 verfügbar gemacht.
Eine genaue Einschätzung der Modellkonfidenz ist entscheidend für den Einsatz großer Sprachmodelle (LLMs) in faktenbasierten Hochrisikobereichen. Obwohl retrieval-augmented generation (RAG) weit verbreitet ist, um die Faktenbasis zu verbessern, ist die Konfidenzkalibrierung in RAG-Umgebungen nach wie vor wenig verstanden. Wir führen eine systematische Studie über vier Benchmarks durch, die zeigt, dass LLMs aufgrund von verrauschten abgerufenen Kontexten eine schlechte Kalibrierungsleistung aufweisen. Insbesondere neigen widersprüchliche oder irrelevante Belege dazu, die falsche Gewissheit des Modells zu verstärken, was zu schwerwiegender Überkonfidenz führt. Um dieses Problem zu lösen, schlagen wir NAACL-Regeln (Noise-AwAre Confidence CaLibration Rules) vor, die eine prinzipielle Grundlage zur Behebung von Überkonfidenz bei Rauschen bieten. Weiter entwickeln wir NAACL, ein rauschbewusstes Kalibrierungsframework, das Supervision aus etwa 2.000 HotpotQA-Beispielen synthetisiert, die von diesen Regeln geleitet wird. Durch überwachtes Feintuning (SFT) mit diesen Daten stattet NAACL Modelle mit intrinsischem Rauschbewusstsein aus, ohne auf stärkere Lehrermodelle angewiesen zu sein. Empirische Ergebnisse zeigen, dass NAACL erhebliche Verbesserungen bringt und ECE-Scores um 10,9 % in-domain und 8,0 % out-of-domain steigert. Indem NAACL die Lücke zwischen Retrieval-Rauschen und verbaler Kalibrierung schließt, ebnet es den Weg für sowohl präzise als auch epistemisch verlässliche LLMs.
Große Sprachmodelle können verschiedene Personas repräsentieren, nehmen jedoch typischerweise standardmäßig eine hilfsbereite Assistenten-Identität an, die während des Post-Trainings kultiviert wurde. Wir untersuchen die Struktur des Persona-Raums von Modellen, indem wir Aktivierungsrichtungen extrahieren, die verschiedenen Charakterarchetypen entsprechen. Über mehrere verschiedene Modelle hinweg stellen wir fest, dass die führende Komponente dieses Persona-Raums eine "Assistenten-Achse" ist, die erfasst, inwieweit ein Modell in seinem Standard-Assistentenmodus operiert. Eine Steuerung in Richtung der Assistenten-Richtung verstärkt hilfreiches und harmloses Verhalten; eine Abweichung davon erhöht die Tendenz des Modells, sich als andere Entitäten zu identifizieren. Darüber hinaus führt eine stärkere Abweichung oft zu einem mystischen, theatralischen Sprechstil. Wir stellen fest, dass diese Achse auch in vortrainierten Modellen vorhanden ist, wo sie primär hilfreiche menschliche Archetypen wie Berater und Coaches fördert und spirituelle hemmt. Die Messung von Abweichungen entlang der Assistenten-Achse sagt "Persona-Drift" voraus, ein Phänomen, bei dem Modelle in schädliche oder bizarre Verhaltensweisen abgleiten, die untypisch für ihre gewöhnliche Persona sind. Wir finden, dass Persona-Drift oft durch Gespräche verursacht wird, die Meta-Reflexion über die Modellprozesse erfordern oder emotional verletzliche Nutzer betreffen. Wir zeigen, dass die Beschränkung von Aktivierungen auf einen festen Bereich entlang der Assistenten-Achse das Modellverhalten in diesen Szenarien stabilisieren kann – und auch gegenüber adversarischen, persona-basierten Jailbreaks. Unsere Ergebnisse deuten darauf hin, dass Post-Training Modelle in eine bestimmte Region des Persona-Raums steuert, sie aber nur locker daran bindet, was Arbeiten zu Trainings- und Steuerungsstrategien motiviert, die Modelle tiefer in einer kohärenten Persona verankern.
Die Steuerung großer Sprachmodelle (LLMs) durch Aktivierungsinterventionen hat sich als leichtgewichtige Alternative zum Fine-Tuning für Alignment und Personalisierung etabliert. Jüngste Arbeiten zur bidirektionalen Präferenzoptimierung (BiPO) zeigen, dass dichte Steuerungsvektoren direkt aus Präferenzdaten nach Art der Direct Preference Optimization (DPO) erlernt werden können, was die Kontrolle über Wahrhaftigkeit, Halluzinationen und Sicherheitsverhalten ermöglicht. Allerdings verschränken dichte Steuerungsvektoren aufgrund neuronaler Multisemantik oft mehrere latente Faktoren, was ihre Wirksamkeit und Stabilität in feinkörnigen Szenarien wie kulturellem Alignment einschränkt, wo eng verwandte Werte und Verhaltensweisen (z.B. zwischen nahöstlichen Kulturen) unterschieden werden müssen. In diesem Artikel schlagen wir Yet another Policy Optimization (YaPO) vor, eine referenzfreie Methode, die sparse Steuerungsvektoren im latenten Raum eines Sparse Autoencoders (SAE) erlernt. Durch die Optimierung sparser Codes erzeugt YaPO entflochtene, interpretierbare und effiziente Steuerungsrichtungen. Empirisch zeigen wir, dass YaPO im Vergleich zu dichten Steuerungs-Baselines schneller konvergiert, eine höhere Leistung erzielt und eine verbesserte Trainingsstabilität aufweist. Über kulturelles Alignment hinaus verallgemeinert YaPO auf eine Reihe von alignmentbezogenen Verhaltensweisen, einschließlich Halluzinationen, Streben nach Reichtum, Jailbreaks und Machtstreben. Wichtig ist, dass YaPO allgemeines Wissen bewahrt, ohne messbare Verschlechterung auf MMLU. Insgesamt zeigen unsere Ergebnisse, dass YaPO ein allgemeines Rezept für effizientes, stabiles und feinkörniges Alignment von LLMs bietet, mit breiten Anwendungen in Steuerbarkeit und Domänenanpassung. Der zugehörige Code und die Daten sind öffentlich verfügbar: https://github.com/MBZUAI-Paris/YaPO.
Reinforcement Learning with Verifiable Rewards (RLVR) ist sehr effektiv für die Verbesserung des logischen Schließens von LLMs, doch jüngste Erkenntnisse zeigen, dass Modelle wie Qwen 2.5 selbst mit irreführenden oder falschen Belohnungen erhebliche Leistungssteigerungen erzielen. Wir untersuchen dieses Phänomen und identifizieren ein "Perplexity-Paradoxon": Irreführendes RLVR löst eine Divergenz aus, bei der die Perplexität der Antwort-Tokens sinkt, während die Kohärenz auf der Prompt-Seite abnimmt. Dies deutet darauf hin, dass das Modell das logische Schließen umgeht und sich stattdessen auf Memorisierung verlegt. Mittels Path Patching, Logit Lens, JSD-Analyse und Neuronalen Differentialgleichungen decken wir eine verborgene Anchor-Adapter-Schaltung auf, die diesen Abkürzungsmechanismus ermöglicht. Wir lokalisieren einen funktionalen Anker in den mittleren Schichten (L18-20), der das Abrufen memorierter Lösungen auslöst, gefolgt von strukturellen Adaptern in späteren Schichten (L21+), die Repräsentationen transformieren, um das Abkürzungssignal zu verarbeiten. Abschließend zeigen wir, dass die Skalierung spezifischer MLP-Keys innerhalb dieser Schaltung eine bidirektionale kausale Steuerung ermöglicht – eine künstliche Verstärkung oder Unterdrückung der durch Kontamination getriebenen Leistung. Unsere Ergebnisse liefern eine mechanistische Roadmap zur Identifikation und Minderung von Datenkontamination in RLVR-optimierten Modellen. Code ist verfügbar unter https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
Die Animation von Charakterbildern gewinnt in verschiedenen Bereichen zunehmend an Bedeutung, angetrieben durch die Nachfrage nach robustem und flexiblem Multi-Subject-Rendering. Während bestehende Methoden bei der Einzelpersonenanimation hervorragende Ergebnisse erzielen, haben sie Schwierigkeiten mit beliebigen Subjektanzahlen, unterschiedlichen Charaktertypen und räumlichen Fehlausrichtungen zwischen Referenzbild und antreibenden Posen. Wir führen diese Einschränkungen auf eine zu starre räumliche Bindung zurück, die eine strikte pixelgenaue Ausrichtung zwischen Pose und Referenz erzwingt, sowie auf die Unfähigkeit, Bewegung konsistent den intendierten Subjekten zuzuordnen. Um diese Herausforderungen zu bewältigen, schlagen wir CoDance vor, ein neuartiges Unbind-Rebind-Framework, das die Animation beliebiger Subjektanzahlen, -typen und räumlicher Konfigurationen auf Basis einer einzigen, potenziell fehlausgerichteten Posensequenz ermöglicht. Konkret verwendet das Unbind-Modul einen neuartigen Pose-Shift-Encoder, um die starre räumliche Bindung zwischen Pose und Referenz aufzubrechen, indem es stochastische Perturbationen sowohl auf Posen als auch deren latente Merkmale anwendet und das Modell so zwingt, eine positionsunabhängige Bewegungsrepräsentation zu erlernen. Um präzise Steuerung und Subjektzuordnung zu gewährleisten, entwickeln wir anschließend ein Rebind-Modul, das semantische Führung durch Textprompts und räumliche Führung durch Subjektmasken nutzt, um die gelernte Bewegung zu den intendierten Charakteren zu lenken. Darüber hinaus führen wir zur umfassenden Evaluation einen neuen Multi-Subject-CoDanceBench ein. Umfangreiche Experimente auf CoDanceBench und bestehenden Datensätzen zeigen, dass CoDance state-of-the-art Leistung erreicht und bemerkenswerte Generalisierungsfähigkeit über diverse Subjekte und räumliche Anordnungen hinweg aufweist. Der Code und die Gewichte werden quelloffen veröffentlicht.
Die Bewertung, ob multimodale große Sprachmodelle tiefgehendes Verständnis für längere wissenschaftliche Arbeiten entwickeln, bleibt eine Herausforderung: reine Antwortmetriken und synthetische „Nadel-im-Heuhaufen“-Tests belohnen oft das Abgleichen von Antworten, ohne eine kausale, evidenzverknüpfte Argumentationskette im Dokument zu erfordern. Wir schlagen das „Fisch-im-Ozean“-Paradigma (FITO) vor, das von Modellen verlangt, explizite cross-modale Evidenzketten innerhalb originaler wissenschaftlicher Dokumente zu konstruieren. Um FITO zu operationalisieren, erstellen wir SIN-Data, einen wissenschaftlichen, verschachtelten Korpus, der die native Verzahnung von Text und Abbildungen bewahrt. Darauf aufbauend entwickeln wir SIN-Bench mit vier progressiven Aufgaben: Evidenzentdeckung (SIN-Find), Hypothesenverifikation (SIN-Verify), begründetes Frage-Antworten (SIN-QA) und evidenzgestützte Synthese (SIN-Summary). Weiter führen wir „Keine Evidenz, Keine Punktzahl“ ein, bei der Vorhersagen nur bewertet werden, wenn sie auf überprüfbare Anker zurückgeführt werden, und diagnostizieren die Evidenzqualität anhand von Übereinstimmung, Relevanz und Logik. Experimente mit acht MLLMs zeigen, dass die Verankerung der primäre Engpass ist: Gemini-3-pro erzielt die beste durchschnittliche Gesamtpunktzahl (0,573), während GPT-5 die höchste Antwortgenauigkeit bei SIN-QA erreicht (0,767), aber bei evidenzbasierter Gesamtbewertung schwächer abschneidet – was eine Lücke zwischen Korrektheit und nachvollziehbarer Begründung offenlegt.
PubMed-OCR ist ein OCR-zentrierter Korpus wissenschaftlicher Artikel, der aus Open-Access-PDFs von PubMed Central abgeleitet wurde. Jedes Seitenbild wurde mit Google Cloud Vision annotiert und in einem kompakten JSON-Schema mit Begrenzungsrahmen auf Wort-, Zeilen- und Absatzebene veröffentlicht. Der Korpus umfasst 209.500 Artikel (1,5 Millionen Seiten; ca. 1,3 Milliarden Wörter) und unterstützt layoutbewusste Modellierung, koordinatenbasierte Frage-Antwort-Systeme sowie die Evaluation von OCR-abhängigen Verarbeitungspipelines. Wir analysieren Korpusmerkmale (z.B. Zeitschriftenabdeckung und erkannte Layoutelemente) und erörtern Einschränkungen, darunter die Abhängigkeit von einer einzigen OCR-Engine und die heuristische Zeilenrekonstruktion. Wir veröffentlichen die Daten und das Schema, um nachgelagerte Forschung zu erleichtern, und laden zu Erweiterungen ein.
Um Robotern komplexe Manipulationsaufgaben beizubringen, ist es heute gängige Praxis, ein vortrainiertes Vision-Language-Action-Modell (VLA) auf aufgabenspezifische Daten zu feinabstimmen. Da dieser Ansatz jedoch bestehende Repräsentationen aktualisiert, ist er für den langfristigen Einsatz in der realen Welt ungeeignet, in der Roboter kontinuierlich an neue Aufgaben und Umgebungen anpassungsfähig sein müssen, während sie bereits erworbenes Wissen beibehalten. Bestehende Methoden für kontinuierliches Lernen in der Robotik erfordern typischerweise die Speicherung früherer Daten (Exemplare), haben Schwierigkeiten mit langen Aufgabenfolgen oder sind für den Einsatz auf Aufgabenkennungen angewiesen. Um diese Einschränkungen zu überwinden, schlagen wir CLARE vor, einen allgemeinen, parameter-effizienten Rahmen für exemplarfreies kontinuierliches Lernen mit VLAs. CLARE führt leichte modulare Adapter in ausgewählten Feedforward-Schichten ein und erweitert das Modell autonom nur dort, wo es beim Lernen einer neuen Aufgabe notwendig ist, geleitet durch schichtweise Ähnlichkeit der Merkmale. Während des Einsatzes aktiviert ein Autoencoder-basierter Routing-Mechanismus dynamisch die relevantesten Adapter, ohne dass Aufgabenkennungen erforderlich sind. Durch umfangreiche Experimente mit dem LIBERO-Benchmark zeigen wir, dass CLARE hohe Leistung bei neuen Aufgaben erreicht, ohne dass ein katastrophales Vergessen früherer Aufgaben auftritt, und dabei sogar exemplarbasierte Methoden signifikant übertrifft. Code und Daten sind verfügbar unter https://tum-lsy.github.io/clare.