papers.description
Wir stellen MiroThinker v1.0 vor, einen Open-Source-Forschungsagenten, der entwickelt wurde, um werkzeuggestütztes Denkvermögen und informationssuchende Fähigkeiten voranzutreiben. Im Gegensatz zu früheren Agenten, die lediglich die Modellgröße oder Kontextlänge erhöhen, erforscht MiroThinker Interaktionsskalierung auf Modellebene, indem das Modell systematisch trainiert wird, tiefere und häufigere Agenten-Umgebungs-Interaktionen als dritte Dimension der Leistungsverbesserung zu bewältigen. Anders als die LLM-Testzeit-Skalierung, die isoliert arbeitet und bei längeren Denkketten ein Verschlechterungsrisiko birgt, nutzt die interaktive Skalierung Umgebungsfeedback und externen Informationserwerb, um Fehler zu korrigieren und Handlungspfade zu verfeinern. Durch bestärkendes Lernen erreicht das Modell eine effiziente Interaktionsskalierung: Mit einem 256K-Kontextfenster kann es bis zu 600 Werkzeugaufrufe pro Aufgabe durchführen, was anhaltendes mehrstufiges Denkvermögen und komplexe Forschungs-Workflows in der realen Welt ermöglicht. Über vier repräsentative Benchmarks hinweg – GAIA, HLE, BrowseComp und BrowseComp-ZH – erreicht die 72B-Variante eine Genauigkeit von bis zu 81,9 %, 37,7 %, 47,1 % bzw. 55,6 % und übertrifft damit frühere Open-Source-Agenten und nähert sich kommerziellen Gegenstücken wie GPT-5-high. Unsere Analyse zeigt, dass MiroThinker konsistent von der interaktiven Skalierung profitiert: Die Forschungsleistung verbessert sich vorhersagbar, wenn das Modell tiefere und häufigere Agenten-Umgebungs-Interaktionen eingeht, was demonstriert, dass die Interaktionstiefe Skalierungsverhalten analog zur Modellgröße und Kontextlänge aufweist. Diese Erkenntnisse etablieren die Interaktionsskalierung als dritte kritische Dimension für die Entwicklung von Forschungsagenten der nächsten Generation, die Modellkapazität und Kontextfenster ergänzt.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Domänen demonstriert, doch ihr Training bleibt ressourcen- und zeitintensiv, erfordert massive Rechenleistung und eine sorgfältige Orchestrierung der Trainingsverfahren. Model Souping – die Praxis, die Gewichte mehrerer Modelle derselben Architektur zu mitteln – hat sich als vielversprechende Vor- und Nachtrainingstechnik etabliert, die die Leistung ohne teures Neutraining verbessern kann. In diesem Artikel stellen wir Soup Of Category Experts (SoCE) vor, einen prinzipienbasierten Ansatz für Model Souping, der Benchmark-Zusammensetzungen nutzt, um optimale Modellkandidaten zu identifizieren und nicht-uniforme gewichtete Mittelung anwendet, um die Leistung zu maximieren. Im Gegensatz zu früheren Ansätzen mit uniformer Mittelung nutzt unsere Methode die Beobachtung, dass Benchmark-Kategorien oft geringe Interkorrelationen in der Modellleistung aufweisen. SoCE identifiziert "Experten"-Modelle für jeden schwach korrelierten Kategorie-Cluster und kombiniert sie mittels optimierter gewichteter Mittelung anstelle uniformer Gewichte. Wir demonstrieren, dass die vorgeschlagene Methode die Leistung und Robustheit über mehrere Domänen hinweg verbessert, einschließlich multilingualer Fähigkeiten, Tool Calling und Mathematik, und state-of-the-art Ergebnisse auf dem Berkeley Function Calling Leaderboard erzielt.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Grenze vom Rätsellösen hin zu wissenschaftlich fundiertem Denken verschoben – der Art, die benötigt wird, um Probleme zu lösen, deren Antworten der Natur standhalten müssen und nicht lediglich einem Bewertungsschema entsprechen. Die Physik stellt den schärfsten Test für diesen Wandel dar, da sie Symbole auf fundamentale Weise mit der Realität verbindet und als Eckpfeiler der meisten modernen Technologien dient. In dieser Arbeit gelingt es uns, die physikalische Forschung voranzutreiben, indem wir große Sprachmodelle mit außergewöhnlichen Fähigkeiten im physikalischen Denken entwickeln, die insbesondere bei der Lösung von Olympiade-Niveau-Physikproblemen hervorstechen. Wir stellen P1 vor, eine Familie von Open-Source-Modellen für physikalisches Denken, die vollständig durch Reinforcement Learning (RL) trainiert wurden. Unter ihnen ist P1-235B-A22B das erste Open-Source-Modell mit Goldmedaillen-Leistung bei der jüngsten Internationalen Physikolympiade (IPhO 2025) und gewinnt 12 Goldmedaillen bei 13 internationalen/regionalen Physikwettbewerben in den Jahren 2024/2025. P1-30B-A3B übertrifft ebenfalls fast alle anderen Open-Source-Modelle bei der IPhO 2025 und erhält eine Silbermedaille. Weiterhin ausgestattet mit einem agentenbasierten Framework, PhysicsMinions, erreicht P1-235B-A22B+PhysicsMinions den Gesamtsieg bei der IPhO 2025 und erzielt den höchsten Durchschnittswert über die 13 Physikwettbewerbe. Neben der Physik zeigen die P1-Modelle auch hervorragende Leistungen bei anderen Denkaufgaben wie Mathematik und Programmierung, was die große Allgemeingültigkeit der P1-Serie unterstreicht.
Wir stellen Uni-MoE 2.0 aus der Lychee-Familie vor. Als vollständig quelloffenes omnimodales Großmodell (OLM) erweitert es die Fähigkeiten der Uni-MoE-Reihe von Lychee maßgeblich im sprachzentrierten multimodalen Verstehen, Schließen und Generieren. Basierend auf der dichten Qwen2.5-7B-Architektur entwickeln wir Uni-MoE-2.0-Omni von Grund auf durch drei Kernbeiträge: ein Dynamic-Capacity Mixture-of-Experts (MoE)-Design, eine progressive Trainingsstrategie, verstärkt durch eine iterative Reinforcement-Strategie, sowie eine sorgfältig kuratierte multimodale Datenabgleich-Technik. Das Modell beherrscht omnimodales Verstehen sowie die Generierung von Bildern, Text und Sprache. Architektonisch balanciert unser neues MoE-Framework mittels gemeinsamer, gerouteter und inaktiver Experten Recheneffizienz und Leistungsfähigkeit für 10 cross-modale Eingaben, während unser Omni-Modality 3D RoPE räumlich-zeitliche Cross-Modalitäts-Ausrichtung in der Self-Attention-Schicht gewährleistet. Beim Training nutzen wir nach cross-modaler Vorverarbeitung eine progressive, überwachte Feinabstimmungsstrategie, die modalitiespezifische Experten aktiviert und durch ausgewogene Datenkomposition sowie eine iterative GSPO-DPO-Methode verstärkt wird, um RL-Training zu stabilisieren und das Schließen zu verbessern. Datenseitig ist das Basismodell, trainiert mit circa 75B Tokens quelloffener multimodaler Daten, mit speziellen Sprach- und Bildgenerierungs-Tokens ausgestattet, die es ermöglichen, diese Generierungsaufgaben durch Konditionierung seiner Ausgaben auf sprachliche Hinweise zu erlernen. Umfangreiche Evaluierungen über 85 Benchmarks zeigen, dass unser Modell state-of-the-art oder höchst wettbewerbsfähige Leistungen im Vergleich zu führenden OLMs erzielt und Qwen2.5-Omni (trainiert mit 1,2T Tokens) in über 50 von 76 Benchmarks übertrifft. Zu den zentralen Stärken zählen Videoverstehen (+7 % im Durchschnitt über 8 Benchmarks), omnimodales Verstehen (+7 % im Durchschnitt über 4 Benchmarks) sowie audiovisuelles Schließen (+4 %). Es verbessert ebenfalls die Verarbeitung langandauernder Sprache (Reduktion der WER um 4,2 %) und führt bei Low-Level-Bildverarbeitung und kontrollierbarer Generierung über 5 Metriken an.
Wir stellen Part-X-MLLM vor, ein natives 3D-multimodales Großsprachmodell, das verschiedene 3D-Aufgaben vereinheitlicht, indem es diese als Programme in einer strukturierten, ausführbaren Grammatik formuliert. Gegeben einen RGB-Punktwolke und eine natürliche Sprachaufforderung generiert unser Modell autoregressiv eine einzige, kohärente Token-Sequenz, die teilbezogene Begrenzungsrahmen, semantische Beschreibungen und Bearbeitungsbefehle kodiert. Diese strukturierte Ausgabe dient als vielseitige Schnittstelle, um nachgelagerte geometrie-bewusste Module für teilbasierte Generierung und Bearbeitung anzusteuern. Durch die Entkopplung der symbolischen Planung von der geometrischen Synthese ermöglicht unser Ansatz, dass jede kompatible Geometrie-Engine über eine einzige, sprachnative Frontend gesteuert werden kann. Wir vortrainieren eine Dual-Encoder-Architektur, um Struktur von Semantik zu entflechten, und instruktions-finetunen das Modell auf einem groß angelegten, teilzentrierten Datensatz. Experimente zeigen, dass unser Modell hervorragend hochwertige, strukturierte Pläne erzeugt und durch eine einheitliche Schnittstelle state-of-the-art Leistung in geerdeten Frage-Antwort-Szenarien, kompositioneller Generierung und lokalisierter Bearbeitung ermöglicht. Projektseite: https://chunshi.wang/Part-X-MLLM/
Während denkbewusste Generierung darauf abzielt, die Leistung bei komplexen Aufgaben zu verbessern, identifizieren wir einen kritischen Fehlermodus, bei dem bestehende sequenzielle, autoregressive Ansätze die Leistung paradoxerweise aufgrund von Fehlerfortpflanzung verschlechtern können. Um dieses Problem systematisch zu analysieren, schlagen wir ParaBench vor, einen neuen Benchmark, der entwickelt wurde, um sowohl Text- als auch Bildausgabemodalitäten zu bewerten. Unsere Analyse mit ParaBench zeigt, dass diese Leistungsverschlechterung stark mit einer schlechten Ausrichtung zwischen der generierten Reasoning-Abläufe und dem endgültigen Bild korreliert. Um dies zu beheben, schlagen wir ein paralleles multimodales Diffusionsframework, MMaDA-Parallel, vor, das eine kontinuierliche, bidirektionale Interaktion zwischen Text und Bildern entlang der gesamten Denoising-Trajektorie ermöglicht. MMaDA-Parallel wird durch supervidiertes Finetuning trainiert und anschließend durch Paralleles Verstärkungslernen (Parallel Reinforcement Learning, ParaRL) weiter optimiert, eine neuartige Strategie, die semantische Belohnungen entlang der Trajektorie anwendet, um cross-modale Konsistenz zu erzwingen. Experimente bestätigen, dass unser Modell die cross-modale Ausrichtung und semantische Konsistenz signifikant verbessert und eine Steigerung der Output-Alignment-Metrik um 6,9 % auf ParaBench im Vergleich zum State-of-the-Art-Modell Bagel erreicht, wodurch ein robusteres Paradigma für denkbewusste Bildsynthese etabliert wird. Unser Code ist unter https://github.com/tyfeld/MMaDA-Parallel quelloffen verfügbar.
Aktuelle Diffusionsmodelle zur Rauschunterdrückung "entrauschen" nicht im klassischen Sinne, das heißt, sie sagen keine sauberen Bilder direkt vorher. Stattdessen sagen die neuronalen Netze Rauschen oder eine verrauschte Größe vorher. In diesem Artikel legen wir dar, dass die Vorhersage sauberer Daten und die Vorhersage verrauschter Größen grundlegend verschieden sind. Gemäß der Mannigfaltigkeitsannahme sollten natürliche Daten auf einer niedrigdimensionalen Mannigfaltigkeit liegen, während verrauschte Größen dies nicht tun. Ausgehend von dieser Annahme befürworten wir Modelle, die direkt saubere Daten vorhersagen, was scheinbar leistungsschwachen Netzwerken ermöglicht, in sehr hochdimensionalen Räumen effektiv zu arbeiten. Wir zeigen, dass einfache Transformer mit großen Patches auf Pixeln starke generative Modelle sein können: ohne Tokenisierer, ohne Vorabtraining und ohne zusätzlichen Verlust. Unser Ansatz ist konzeptionell nichts weiter als "einfach Bild-Transformer", oder wie wir es nennen: JiT. Wir berichten über wettbewerbsfähige Ergebnisse mit JiT und großen Patchgrößen von 16 und 32 auf ImageNet bei Auflösungen von 256 und 512, wo die Vorhersage hochdimensionaler verrauschter Größen katastrophal scheitern kann. Da unsere Netze zurück zu den Grundlagen der Mannigfaltigkeit abbilden, kehrt unsere Forschung zu den Grundlagen zurück und verfolgt ein in sich geschlossenes Paradigma für Transformer-basierte Diffusion auf rohen natürlichen Daten.
Große Sprachmodelle haben ein starkes Potenzial als Reranker gezeigt, um die Gesamtleistung von RAG-Systemen zu verbessern. Allerdings sind bestehende Reranking-Paradigmen durch ein grundlegendes theoretisches und praktisches Dilemma eingeschränkt: Punktweise Methoden, obwohl einfach und hochflexibel, bewerten Dokumente unabhängig voneinander, was sie anfällig für den "Ranking-Myopie-Fehler" macht, da sie die relative Bedeutung zwischen Dokumenten übersehen. Im Gegensatz dazu können listenweise Methoden den globalen Ranking-Kontext erfassen, leiden jedoch unter inhärenter "Listenstarrheit", was zu erheblichen Skalierbarkeits- und Flexibilitätsproblemen bei der Verarbeitung großer Kandidatenmengen führt. Um diese Herausforderungen zu bewältigen, schlagen wir Groupwise vor, ein neuartiges Reranking-Paradigma. Bei diesem Ansatz werden die Abfrage und eine Gruppe von Kandidatendokumenten gemeinsam in das Modell eingespeist, das innerhalb der Gruppe Vergleiche durchführt, um individuelle Relevanzwerte für jedes Dokument zu vergeben. Dieses Design bewahrt die Flexibilität punktweiser Methoden und ermöglicht gleichzeitig die Vergleichsfähigkeit listenweiser Methoden. Wir setzen weiterhin GRPO für das Modelltraining ein, ausgestattet mit einer heterogenen Belohnungsfunktion, die Ranking-Metriken mit einer verteilungsbasierten Belohnung kombiniert, die auf eine Angleichung der Bewertungsverteilungen über Gruppen abzielt. Um den Engpass durch den Mangel an hochwertigen gelabelten Daten zu überwinden, schlagen wir zudem eine innovative Pipeline zur Synthese hochwertiger Retrieval- und Ranking-Daten vor. Die resultierenden Daten können nicht nur zum Training des Rerankers, sondern auch des Retrievers genutzt werden. Umfangreiche Experimente validieren die Wirksamkeit unseres Ansatzes. Auf zwei reasoning-intensiven Retrieval-Benchmarks, BRIGHT und R2MED.
Die 3D-Modellierung entwickelt sich von statischen visuellen Darstellungen hin zu physischen, artikulierten Assets, die direkt in Simulationen und Interaktionen eingesetzt werden können. Die meisten bestehenden 3D-Generierungsmethoden vernachlässigen jedoch wesentliche physikalische und Artikulationseigenschaften, was ihre Nützlichkeit für embodied AI einschränkt. Um diese Lücke zu schließen, stellen wir PhysX-Anything vor, das erste simulationsfertige physikalische 3D-Generierungsframework, das aus einem einzelnen beliebigen Bild hochwertige simulationsfertige 3D-Assets mit expliziter Geometrie, Artikulation und physikalischen Attributen erzeugt. Konkret schlagen wir das erste VLM-basierte physikalische 3D-Generierungsmodell vor, zusammen mit einer neuen 3D-Repräsentation, die Geometrie effizient tokenisiert. Diese reduziert die Anzahl der Tokens um das 193-fache, ermöglicht explizites Geometrielernen innerhalb standardmäßiger VLM-Token-Budgets ohne Einführung spezieller Tokens während des Fine-Tunings und verbessert die Generierungsqualität erheblich. Zudem haben wir zur Überwindung der begrenzten Vielfalt bestehender physikalischer 3D-Datensätze einen neuen Datensatz, PhysX-Mobility, erstellt, der die Objektkategorien früherer physikalischer 3D-Datensätze um über das Doppelte erweitert und mehr als 2.000 gängige Alltagsobjekte mit umfangreichen physikalischen Annotationen umfasst. Umfangreiche Experimente mit PhysX-Mobility und beliebigen Bildern demonstrieren, dass PhysX-Anything eine starke Generierungsleistung und robuste Generalisierung bietet. Simulationsbasierte Experimente in einer MuJoCo-ähnlichen Umgebung validieren zudem, dass unsere simulationsfertigen Assets direkt für kontaktintensives robotisches Policy-Learning verwendet werden können. Wir sind überzeugt, dass PhysX-Anything eine breite Palette nachgelagerter Anwendungen, insbesondere in embodied AI und physikbasierten Simulationen, wesentlich stärken kann.
Die rasche Entwicklung von Video-Generierungsmodellen hat ihren Fokus von der Erzeugung visuell plausibler Ergebnisse auf Aufgaben verlagert, die physikalische Plausibilität und logische Konsistenz erfordern. Trotz jüngster Durchbrüche wie der Ketten-von-Bildern-Argumentation von Veo 3 bleibt jedoch unklar, ob diese Modelle ähnliche Denkfähigkeiten wie große Sprachmodelle (LLMs) aufweisen können. Bestehende Benchmarks bewerten hauptsächlich visuelle Qualität und zeitliche Kohärenz, erfassen aber keine höherwertigen Denkfähigkeiten. Um diese Lücke zu schließen, schlagen wir TiViBench vor, einen hierarchischen Benchmark, der speziell zur Bewertung der Denkfähigkeiten von Bild-zu-Video (I2V)-Generierungsmodellen entwickelt wurde. TiViBench bewertet systematisch das Denkvermögen über vier Dimensionen hinweg: i) Strukturelles Denken & Suche, ii) Räumliches & visuelles Musterdenken, iii) Symbolisches & logisches Denken und iv) Aktionsplanung & Aufgabenausführung, die 24 verschiedene Aufgabenstellungen über drei Schwierigkeitsgrade abdecken. Durch umfangreiche Evaluationen zeigen wir, dass kommerzielle Modelle (z.B. Sora 2, Veo 3.1) ein stärkeres Denkpotenzial aufweisen, während Open-Source-Modelle ungenutztes Potenzial offenbaren, das weiterhin durch begrenzte Trainingsumfänge und Datenvielfalt eingeschränkt bleibt. Um dieses Potenzial weiter zu erschließen, führen wir VideoTPO ein, eine einfache, aber effektive Testzeit-Strategie, die von Präferenzoptimierung inspiriert ist. Durch LLM-Selbstanalyse generierter Kandidaten zur Identifikation von Stärken und Schwächen verbessert VideoTPO die Denkleistung erheblich, ohne zusätzliches Training, Daten oder Belohnungsmodelle zu benötigen. Gemeinsam ebnen TiViBench und VideoTPO den Weg für die Bewertung und Weiterentwicklung von Denkfähigkeiten in Video-Generierungsmodellen und legen eine Grundlage für zukünftige Forschung in diesem aufstrebenden Bereich.
Automatisierte Red-Teaming-Frameworks für Large Language Models (LLMs) sind zunehmend ausgefeilter geworden, weisen jedoch eine grundlegende Einschränkung auf: Ihre Jailbreak-Logik beschränkt sich auf die Auswahl, Kombination oder Verfeinerung bereits bestehender Angriffsstrategien. Dies hemmt ihre Kreativität und macht sie unfähig, völlig neue Angriffsmechanismen autonom zu erfinden. Um diese Lücke zu schließen, stellen wir EvoSynth vor, ein autonomes Framework, das das Paradigma von der Angriffsplanung zur evolutionären Synthese von Jailbreak-Methoden verschiebt. Anstatt Prompts zu verfeinern, setzt EvoSynth ein Multi-Agenten-System ein, um neuartige, codebasierte Angriffsalgorithmen autonom zu entwickeln, weiterzuentwickeln und auszuführen. Entscheidend ist, dass es eine Selbstkorrekturschleife auf Code-Ebene enthält, die es ermöglicht, die eigene Angriffslogik iterativ als Reaktion auf Fehler umzuschreiben. In umfangreichen Experimenten zeigen wir, dass EvoSynth nicht nur einen neuen State-of-the-Art etabliert, indem es eine Angriffserfolgsrate (Attack Success Rate, ASR) von 85,5 % gegen hochrobuste Modelle wie Claude-Sonnet-4.5 erreicht, sondern auch Angriffe generiert, die deutlich vielfältiger sind als die bestehender Methoden. Wir veröffentlichen unser Framework, um zukünftige Forschung in dieser neuen Richtung der evolutionären Synthese von Jailbreak-Methoden zu fördern. Der Code ist verfügbar unter: https://github.com/dongdongunique/EvoSynth.
Von großen Sprachmodellen (LLM) gesteuerte Agenten verwandeln digitale Geräte von passiven Werkzeugen in proaktive, intelligente Kollaborateure. Allerdings sind die meisten bestehenden Frameworks nach wie vor auf ein einzelnes Betriebssystem oder Gerät beschränkt, was geräteübergreifende Workflows anfällig und größtenteils manuell macht. Wir stellen UFO^3 vor, ein System, das heterogene Endpunkte – Desktops, Server, mobile Geräte und Edge-Devices – in einem einzigen Orchestrierungs-Fabric vereint. UFO^3 modelliert jede Benutzeranfrage als eine veränderbare TaskConstellation: einen verteilten DAG (gerichteten azyklischen Graphen) aus atomaren Teilaufgaben (TaskStars) mit expliziten Kontroll- und Datenabhängigkeiten (TaskStarLines). Die TaskConstellation entwickelt sich kontinuierlich weiter, während Ergebnisse von verteilten Geräten eintreffen, was asynchrone Ausführung, adaptive Fehlerbehebung und dynamische Optimierung ermöglicht. Ein Constellation Orchestrator führt Aufgaben sicher und asynchron aus und wendet dabei dynamische DAG-Aktualisierungen an, während das Agent Interaction Protocol (AIP) persistente, latenzarme Kanäle für zuverlässige Aufgabenverteilung und Ergebnisstreaming bereitstellt. Diese Designs lösen die traditionellen Grenzen zwischen Geräten und Plattformen auf und ermöglichen es Agenten, nahtlos zusammenzuarbeiten und ihre kollektive Intelligenz zu verstärken. Wir evaluieren UFO^3 auf NebulaBench, einem Benchmark mit 55 geräteübergreifenden Aufgaben über 5 Maschinen und 10 Kategorien hinweg. UFO^3 erreicht eine Teilaufgaben-Abschlussrate von 83,3 %, eine Aufgaben-Erfolgsrate von 70,9 %, erschließt Parallelität mit einer durchschnittlichen Breite von 1,72 und reduziert die End-to-End-Latenz um 31 % im Vergleich zu einer sequenziellen Baseline. Fehlerinjektionsexperimente demonstrieren einen graceful degradation und Recovery bei transienten und permanenten Agentenausfällen. Diese Ergebnisse zeigen, dass UFO^3 eine präzise, effiziente und widerstandsfähige Aufgabenorchestrierung über heterogene Geräte hinweg erreicht und isolierte Agenten zu einem kohärenten, adaptiven Computing-Fabric vereint, das sich über die Landschaft des Ubiquitous Computing erstreckt.
Vision–Language–Action (VLA)-Modelle haben kürzlich vielversprechende Leistungen bei einer Vielzahl von verkörperten Aufgaben gezeigt, erreichen jedoch noch keine ausreichende Zuverlässigkeit und Generalisierungsfähigkeit, insbesondere beim Einsatz über verschiedene Verkörperungen oder reale Umgebungen hinweg. In dieser Arbeit stellen wir NORA-1.5 vor, ein VLA-Modell, das auf dem vortrainierten NORA-Backbone aufbaut und um einen auf Flow-Matching basierenden Aktions-Experten erweitert wird. Diese alleinige architektonische Verbesserung erzielt bereits erhebliche Leistungssteigerungen und ermöglicht es NORA-1.5, NORA und mehrere state-of-the-art VLA-Modelle in simulierten und realen Benchmarks zu übertreffen. Um die Robustheit und Aufgabenbewältigung weiter zu verbessern, entwickeln wir eine Reihe von Belohnungsmodellen für das Nachtraining von VLA-Policies. Unsere Belohnungen kombinieren (i) ein aktionskonditioniertes Weltmodell (WM), das bewertet, ob generierte Aktionen zum gewünschten Ziel führen, und (ii) eine Heuristik zur Abweichung von der Ground-Truth, die gute von schlechten Aktionen unterscheidet. Mithilfe dieser Belohnungssignale erstellen wir Präferenzdatensätze und passen NORA-1.5 durch Direct Preference Optimization (DPO) an Zielverkörperungen an. Umfangreiche Auswertungen zeigen, dass das belohnungsgesteuerte Nachtraining die Leistung in Simulation und realen Robotik-Umgebungen konsistent verbessert und signifikante Zuverlässigkeitsgewinne für VLA-Modelle durch einfache, aber effektive Belohnungsmodelle demonstriert. Unsere Ergebnisse unterstreichen NORA-1.5 und belohnungsgeführtes Nachtraining als einen vielversprechenden Weg hin zu zuverlässigeren, für den realen Einsatz geeigneten, verkörperten Agenten.
Die Segment-Anything-Model-Familie (SAM) hat sich als weit verbreitetes Vision-Foundation-Modell etabliert, doch ihre Fähigkeit, die Segmentierungsgranularität zu steuern, bleibt begrenzt. Benutzer müssen Ergebnisse oft manuell verfeinern – durch Hinzufügen weiterer Prompts oder Auswahl aus vorab generierten Masken – um das gewünschte Detaillierungsniveau zu erreichen. Dieser Prozess ist häufig mehrdeutig, da derselbe Prompt mehreren plausiblen Masken entsprechen kann, und die Erfassung dichter Annotationen über alle Granularitäten hinweg ist unverhältnismäßig aufwändig, was überwachte Lösungen unpraktikabel macht. Um diese Einschränkung zu adressieren, stellen wir UnSAMv2 vor, das Segmentierung in beliebiger Granularität ohne menschliche Annotationen ermöglicht. UnSAMv2 erweitert die Divide-and-Conquer-Strategie von UnSAM, indem es zahlreiche Masken-Granularitäts-Paare entdeckt und eine neuartige Granularitätssteuerungs-Einbettung einführt, die eine präzise, kontinuierliche Kontrolle des Segmentierungsmaßstabs ermöglicht. Bemerkenswerterweise verbessert UnSAMv2 mit nur 6.000 ungelabelten Bildern und 0,02 % zusätzlichen Parametern SAM-2 erheblich und erreicht Segmentierung in beliebiger Granularität über interaktive, ganzbild- und videobasierte Segmentierungsaufgaben hinweg. In Evaluierungen auf über 11 Benchmarks verbessert UnSAMv2 NoC₉₀ (5,69 → 4,75), 1-IoU (58,0 → 73,1) und AR₁₀₀₀ (49,6 → 68,3) und zeigt, dass geringe Mengen ungelabelter Daten mit einer granularitätsbewussten selbstüberwachten Lernmethode das Potenzial von Vision-Foundation-Modellen freisetzen können.
Multimodale, von LLMs angetriebene Agenten haben kürzlich beeindruckende Fähigkeiten in der Webnavigation demonstriert, die es Agenten ermöglichen, komplexe Browser-Aufgaben in verschiedenen Domänen zu erledigen. Allerdings kämpfen aktuelle Agenten mit wiederholten Fehlern und fehlender Fähigkeit, aus vergangenen Erfahrungen über Sitzungen hinweg zu lernen, was ihre langfristige Robustheit und Stichprobeneffizienz einschränkt. Wir stellen WebCoach vor, ein modellagnostisches, sich selbst weiterentwickelndes Framework, das Web-Browsing-Agenten mit persistentem, sitzungsübergreifendem Gedächtnis ausstattet und so verbesserte langfristige Planung, Reflexion und kontinuierliches Lernen ohne Neutraining ermöglicht. WebCoach besteht aus drei Schlüsselkomponenten: (1) einem WebCondenser, der Roh-Navigationsprotokolle in prägnante Zusammenfassungen standardisiert; (2) einem Externen Speicher (External Memory Store), der vollständige Trajektorien als episodische Erfahrungen organisiert; und (3) einem Coach, der relevante Erfahrungen basierend auf Ähnlichkeit und Aktualität abruft und entscheidet, ob taskspezifische Ratschläge via Runtime-Hooks in den Agenten injiziert werden. Dieser Entwurf befähigt Web-Agenten, auf Langzeitgedächtnis über ihr natives Kontextfenster hinaus zuzugreifen, was die Robustheit in komplexen Browser-Aufgaben verbessert. Darüber hinaus erreicht WebCoach Selbstevolution durch kontinuierliche Kuratierung des episodischen Gedächtnisses aus neuen Navigations-Trajektorien, was es Agenten ermöglicht, sich ohne Neutraining über die Zeit zu verbessern. Evaluationen auf dem WebVoyager-Benchmark zeigen, dass WebCoach die Leistung von Browser-Agenten über drei verschiedene LLM-Backbones hinweg konsistent verbessert. Mit einem 38B-Modell steigert es die Aufgaben-Erfolgsquote von 47 % auf 61 %, während die durchschnittliche Anzahl der Schritte reduziert oder beibehalten wird. Bemerkenswerterweise erreichen kleinere Basismodelle mit WebCoach eine Leistung, die mit der desselben Web-Agenten unter Verwendung von GPT-4o vergleichbar ist.
Erdbeobachtungsdaten stellen eine besondere Herausforderung dar: Sie sind räumlich wie Bilder, sequenziell wie Video oder Text und hochgradig multimodal. Wir stellen OlmoEarth vor: ein multimodales, raumzeitliches Foundation-Modell, das eine neuartige, für den Erdbeobachtungsbereich entwickelte Formulierung des selbstüberwachten Lernens, eine Maskierungsstrategie und eine Loss-Funktion verwendet. OlmoEarth erzielt im Vergleich zu 12 anderen Foundation-Modellen state-of-the-art Leistungen in einer Vielzahl von Forschungsbenchmarks und realen Aufgaben von externen Partnern. Bei der Auswertung von Embeddings erzielt OlmoEarth die beste Leistung in 15 von 24 Aufgaben, und mit Full Fine-Tuning ist es in 19 von 29 Aufgaben das beste Modell. Wir setzen OlmoEarth als Backbone einer End-to-End-Plattform für die Datenerfassung, -beschriftung, -training und Inferenz von Erdbeobachtungsmodellen ein. Die OlmoEarth-Plattform bringt hochmoderne Foundation-Modelle und leistungsstarke Datenverwaltungswerkzeuge in die Hände von Non-Profit-Organisationen und NGOs, die daran arbeiten, die größten Probleme der Welt zu lösen. Der OlmoEarth-Quellcode, die Trainingsdaten und die vortrainierten Gewichte sind unter https://github.com/allenai/olmoearth_pretrain verfügbar.
Große Sprachmodelle (LLMs) verändern nahezu alle Branchen, einschließlich der Softwareentwicklung. In den letzten Jahren wurden zahlreiche LLM-Agenten entwickelt, um praktische Softwareprobleme zu lösen. Solche Softwareagenten sind typischerweise mit einer Reihe von Codierungswerkzeugen ausgestattet und können autonom entscheiden, welche nächsten Aktionen ausgeführt werden sollen, um vollständige Handlungsabläufe zur Lösung end-to-end Softwareaufgaben zu bilden. Obwohl vielversprechend, erfordern sie in der Regel einen speziellen Entwurf und können dennoch suboptimal sein, da es äußerst anspruchsvoll und kostspielig ist, den gesamten Designraum für Agentengerüste vollständig zu erschließen. In der Erkenntnis, dass Softwareagenten inhärent selbst Software sind, die weiter verfeinert/verändert werden kann, haben Forscher kürzlich eine Reihe selbstverbessernder Softwareagenten vorgeschlagen, darunter die Darwin-Gödel-Maschine (DGM). Allerdings erfordern solche selbstverbessernden Agenten kostspieliges Offline-Training an spezifischen Benchmarks und generalisieren möglicherweise nicht gut über verschiedene LLMs oder Benchmarks hinweg. In diesem Artikel stellen wir Live-SWE-agent vor, den ersten Live-Softwareagenten, der sich autonom und kontinuierlich während der Laufzeit bei der Lösung praktischer Softwareprobleme weiterentwickeln kann. Konkret beginnt Live-SWE-agent mit dem grundlegendsten Agentengerüst, das nur Zugriff auf Bash-Werkzeuge hat (z.B. mini-SWE-agent), und entwickelt seine eigene Gerüstimplementierung autonom weiter, während er reale Softwareprobleme löst. Unsere Auswertung auf dem weit verbreiteten SWE-bench Verified Benchmark zeigt, dass Live-SWE-agent eine beeindruckende Lösungsrate von 75,4% ohne Skalierung zur Testzeit erreichen kann, womit er alle bestehenden Open-Source-Softwareagenten übertrifft und an die Leistung der besten proprietären Lösung heranreicht. Darüber hinaus übertrifft Live-SWE-agent state-of-the-art manuell entwickelte Softwareagenten auf dem neueren SWE-Bench Pro Benchmark und erreicht die bisher beste bekannte Lösungsrate von 45,8%.
In-Context-Learning (ICL) – die Fähigkeit eines Modells, aus Beispielen in seiner Eingabe abstrakte Muster abzuleiten und anzuwenden – wurde intensiv bei großen Sprachmodellen untersucht, die für die Vorhersage des nächsten Tokens auf menschlichen Texten trainiert wurden. Tatsächlich wird dieses emergente Verhalten in früheren Arbeiten oft auf besondere statistische Eigenschaften der menschlichen Sprache zurückgeführt. Dies wirft eine grundlegende Frage auf: Kann ICL auch in anderen Sequenzdomänen rein durch groß angelegtes prädiktives Training organisch entstehen? Um dies zu untersuchen, wenden wir uns genomischen Sequenzen zu, einer alternativen symbolischen Domäne, die reich an statistischer Struktur ist. Konkret untersuchen wir das Evo2-Genommodell, das vorwiegend für die Vorhersage des nächsten Nukleotids (A/T/C/G) trainiert wurde, in einem Umfang, der mit mittelgroßen LLMs vergleichbar ist. Wir entwickeln einen kontrollierten experimentellen Rahmen, der symbolische Reasoning-Aufgaben umfasst, die sowohl in linguistischer als auch in genomischer Form instanziiert werden. Dies ermöglicht einen direkten Vergleich von ICL zwischen genomischen und linguistischen Modellen. Unsere Ergebnisse zeigen, dass genomische Modelle, ähnlich wie ihre linguistischen Gegenstücke, logarithmisch-lineare Verbesserungen in der Musterinduktion zeigen, wenn die Anzahl der In-Context-Demonstrationen zunimmt. Nach unserem besten Wissen ist dies der erste Nachweis für organisch emergentes ICL in genomischen Sequenzen, was die Hypothese stützt, dass ICL als Folge groß angelegter prädiktiver Modellierung auf Basis reichhaltiger Daten entsteht. Diese Erkenntnisse erweitern emergentes Meta-Lernen über die Sprache hinaus und deuten auf eine einheitliche, modalitätsunabhängige Sichtweise von In-Context-Learning hin.
Große Sprachmodelle (LLMs) haben die Wissensgraphen-Fragebeantwortung (KGQA) erheblich vorangetrieben, doch bestehende Systeme sind typischerweise darauf optimiert, hochrelevante, aber vorhersehbare Antworten zu liefern. Eine fehlende, jedoch wünschenswerte Fähigkeit ist es, LLMs so zu nutzen, dass sie überraschende und neuartige („serendipitive“) Antworten vorschlagen. In diesem Artikel definieren wir formal die serendipity-bewusste KGQA-Aufgabe und schlagen das SerenQA-Framework vor, um die Fähigkeit von LLMs zu bewerten, unerwartete Erkenntnisse in wissenschaftlichen KGQA-Aufgaben zu entdecken. SerenQA umfasst eine rigorose Serendipity-Metrik, die auf Relevanz, Neuheit und Überraschung basiert, sowie einen expertenannotierten Benchmark, der aus dem Clinical Knowledge Graph mit Fokus auf Drug Repurposing abgeleitet wurde. Zusätzlich beinhaltet es eine strukturierte Evaluierungspipeline, die drei Teilaufgaben umfasst: Wissensabruf, Subgraphen-Inferenz und Serendipity-Exploration. Unsere Experimente zeigen, dass state-of-the-art LLMs zwar gute Leistungen beim Abruf erbringen, sie jedoch nach wie vor Schwierigkeiten haben, wirklich überraschende und wertvolle Entdeckungen zu identifizieren, was auf erheblichen Verbesserungsbedarf für die Zukunft hinweist. Unsere kuratierten Ressourcen und die erweiterte Version sind veröffentlicht unter: https://cwru-db-group.github.io/serenQA.
Vision-Language Models (VLMs) zeichnen sich durch starke Zero-Shot-Inferenz aus, leiden jedoch häufig unter Leistungseinbußen bei Domänenverschiebungen zur Testzeit. Aus diesem Grund haben sich in letzter Zeit episodische Test-Time-Adaptierungsstrategien als leistungsstarke Techniken etabliert, um VLMs an ein einzelnes unmarkiertes Bild anzupassen. Bisherige Adaptierungsstrategien, wie etwa Test-Time-Prompt-Tuning, erfordern jedoch typischerweise Backpropagation durch große Encoder-Gewichte oder die Modifikation zentraler Modellkomponenten. In dieser Arbeit stellen wir Spectrum-Aware Test-Time Steering (STS) vor, ein leichtgewichtiges Adaptierungsframework, das einen spektralen Unterraum aus den textuellen Einbettungen extrahiert, um principale semantische Richtungen zu definieren. Es lernt, latente Repräsentationen auf spektrumsensitive Weise zu steuern, indem eine kleine Anzahl von pro-Sample-Verschiebungsparametern angepasst wird, um die Entropie über augmentierte Ansichten zu minimieren. STS operiert vollständig während der Inferenz im latenten Raum, ohne Backpropagation durch oder Modifikation der eingefrorenen Encoder. Aufbauend auf standardisierten Evaluierungsprotokollen zeigen unsere umfassenden Experimente, dass STS state-of-the-art Test-Time-Adaptierungsmethoden deutlich übertrifft oder zumindest gleichauf liegt, während es nur eine Handvoll zusätzlicher Parameter einführt und eine bis zu 8-fach schnellere Inferenzgeschwindigkeit bei einem 12-fach geringeren Speicherbedarf im Vergleich zu konventionellem Test-Time-Prompt-Tuning erreicht. Der Code ist verfügbar unter https://github.com/kdafnis/STS.
Multimodale Large Language Models werden zunehmend in der biomedizinischen Bildgebung eingesetzt, doch das wissenschaftliche Reasoning in der Mikroskopie wird nach wie vor durch die Knappheit an großvolumigen, hochwertigen Trainingsdaten limitiert. Wir stellen MicroVQA++ vor, einen dreistufigen, großvolumigen und hochwertigen Mikroskopie-VQA-Korpus, der aus dem BIOMEDICA-Archiv abgeleitet wurde. Stufe eins bootstrappt die Supervision aus expertengestützten Abbildungs-Bildunterschriften-Paaren aus begutachteten Artikeln. Stufe zwei wendet HiCQA-Graph an, einen neuartigen heterogenen Graphen über Bilder, Bildunterschriften und Frage-Antwort-Paare, der NLI-basierte textuelle Inferenz, CLIP-basierte Vision-Language-Abgleichung und Agenten-Signale fusioniert, um inkonsistente Samples zu identifizieren und zu filtern. Stufe drei nutzt einen multimodalen Large Language Model (MLLM)-Agenten zur Generierung von Multiple-Choice-Fragen (MCQ), gefolgt von einer menschlichen Überprüfung. Das resultierende Release umfasst einen großen Trainings-Split und einen menschlich geprüften Test-Split, dessen Bloom-Level-Verteilung schwieriger Samples den MicroVQA-Benchmark übertrifft. Unsere Arbeit liefert (i) einen qualitätskontrollierten Datensatz, der Expertenliteratur mit graphbasierter Filterung und menschlicher Verfeinerung koppelt; (ii) HiCQA-Graph, den ersten Graphen, der (Bild, Bildunterschrift, Frage-Antwort-Paar) gemeinsam modelliert, um cross-modale Konsistenzfilterung durchzuführen; (iii) Belege dafür, dass sorgfältige Datenerstellung es 4B-skaligen MLLMs ermöglicht, wettbewerbsfähige Mikroskopie-Reasoning-Leistung (z.B. mit GPT-5 vergleichbar) zu erreichen und state-of-the-art Leistung unter Open-Source-MLLMs zu erzielen. Code und Datensatz werden nach Abschluss des Review-Prozesses veröffentlicht.
Große Sprachmodelle (Large Language Models, LLMs) haben bemerkenswerte Leistungen in einer Vielzahl von Aufgaben gezeigt, doch die Mehrheit der leistungsstärksten Modelle bleibt quellgeschlossen oder nur teilweise offen, was die Transparenz und Reproduzierbarkeit einschränkt. In dieser Arbeit stellen wir Instella vor, eine Familie vollständig offener Sprachmodelle mit drei Milliarden Parametern, die ausschließlich auf offen verfügbaren Daten und einer offenen Codebasis trainiert wurden. Angetrieben durch AMD Instinct MI300X GPUs wurde Instella durch groß angelegtes Vorabtraining, allgemeine Instruktionsfeinabstimmung und Abstimmung auf menschliche Präferenzen entwickelt. Obwohl wesentlich weniger Vorabtrainings-Tokens als viele vergleichbare Modelle verwendet wurden, erzielt Instella state-of-the-art Ergebnisse unter vollständig offenen Modellen und ist konkurrenzfähig mit führenden Open-Weight-Modellen vergleichbarer Größe. Wir veröffentlichen zudem zwei spezialisierte Varianten: Instella-Long, das Kontextlängen von bis zu 128.000 Tokens verarbeiten kann, und Instella-Math, ein auf logisches Schließen spezialisiertes Modell, das durch überwachte Feinabstimmung und bestärkendes Lernen an mathematischen Aufgaben verbessert wurde. Diese Beiträge etablieren Instella gemeinsam als eine transparente, leistungsstarke und vielseitige Alternative für die Community und fördern so das Ziel einer offenen und reproduzierbaren Forschung im Bereich Sprachmodellierung.
Multimodale große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten im logischen Denken und Befolgen von Anweisungen demonstriert, doch ihr erweiterter Modalitätsraum führt zu neuen kompositionellen Sicherheitsrisiken, die aus komplexen Text-Bild-Interaktionen entstehen. Solche cross-modalen Kopplungen können unsichere Semantiken erzeugen, selbst wenn einzelne Eingaben harmlos sind, was das fragile Sicherheitsbewusstsein aktueller MLLMs offenlegt. Während neuere Arbeiten die Sicherheit verbessern, indem sie Modelle dazu anleiten, über potenzielle Risiken nachzudenken, können unregulierte Denktraces die Alignment-Eigenschaften beeinträchtigen; obwohl Group Relative Policy Optimization (GRPO) eine selbstbelohnte Verfeinerung ohne menschliche Aufsicht ermöglicht, fehlen ihm verifizierbare Signale für die Sicherheit des Schlussfolgerns. Um dies zu adressieren, schlagen wir SafeGRPO vor – einen selbstbelohnten multimodalen Sicherheits-Alignment-Rahmen, der regelgesteuerte Belohnungskonstruktion in GRPO integriert und eine interpretierbare und verifizierbare Optimierung der Sicherheit des Schlussfolgerns ermöglicht. Aufbauend auf dem konstruierten SafeTag-VL-3K-Datensatz mit expliziten visuellen, textuellen und kombinierten Sicherheits-Tags führt SafeGRPO schrittgesteuertes Sicherheitsdenken durch, um strukturiertes Reasoning und Verhaltensalignment durchzusetzen, und verbessert dadurch wesentlich das multimodale Sicherheitsbewusstsein, die kompositionelle Robustheit und die Stabilität des Schlussfolgerns über diverse Benchmarks hinweg, ohne allgemeine Fähigkeiten zu beeinträchtigen.
Die Ausrichtung von Repräsentationen aus verschiedenen Modalitäten hat kürzlich Einblicke in die strukturellen Ähnlichkeiten und nachgelagerten Fähigkeiten verschiedener Encoder über diverse Datentypen hinweg geliefert. Während bedeutende Fortschritte bei der Ausrichtung von Bildern mit Text erzielt wurden, ist die zeitliche Natur von Videodaten in diesem Kontext weitgehend unerforscht. In dieser Arbeit führen wir die erste umfassende Studie zur Video-Text-Repräsentationsausrichtung durch und untersuchen die Fähigkeiten moderner Video- und Sprach-Encoder. Unsere Ergebnisse liefern mehrere zentrale Erkenntnisse. Erstens zeigen wir, dass die cross-modale Ausrichtung stark von der Reichhaltigkeit der visuellen (statische Bilder vs. Mehrbild-Videos) und textuellen (einzelne Beschriftung vs. Sammlung) Daten abhängt, die zur Testzeit bereitgestellt werden, insbesondere bei Verwendung modernster Video-Encoder. Wir schlagen parametrische Skalierungsgesetze für die Testzeit vor, die dieses Verhalten erfassen und bemerkenswerte Vorhersagekraft gegenüber empirischen Beobachtungen zeigen. Zweitens untersuchen wir die Korrelation zwischen semantischer Ausrichtung und der Leistung bei sowohl semantischen als auch nicht-semantischen Downstream-Aufgaben und liefern erste Belege dafür, dass eine starke Ausrichtung zu Text-Encodern mit allgemeingültigen Video-Repräsentationen und -Verständnis verbunden sein könnte. Schließlich korrelieren wir temporale Reasoning-Fähigkeiten mit cross-modaler Ausrichtung und schaffen so eine anspruchsvolle Testumgebung für Vision-and-Language-Modelle. Insgesamt führt unsere Arbeit Video-Text-Ausrichtung als informative Zero-Shot-Methode ein, um die Repräsentationsstärke verschiedener Encoder für räumlich-zeitliche Daten zu untersuchen. Die Projektseite ist unter https://video-prh.github.io/ zu finden.
Da sich große Sprachmodelle (LLMs) zu hochentwickelten autonomen Agenten entwickeln, die komplexe Softwareentwicklungsaufgaben bewältigen können, wird die Bewertung ihrer realen Fähigkeiten entscheidend. Bestehende Benchmarks wie LoCoBench~qiu2025locobench bewerten zwar das Code-Verständnis in langen Kontexten, konzentrieren sich jedoch auf Einzelabfragen und können die mehrschrittige Interaktivität, Werkzeugnutzungsmuster und das adaptive Denken, die von realen Code-Agenten benötigt werden, nicht erfassen. Wir stellen LoCoBench-Agent vor, einen umfassenden Bewertungsrahmen, der speziell zur Evaluierung von LLM-Agenten in realistischen, langkontextigen Softwareentwicklungsworkflows entwickelt wurde. Unser Framework erweitert die 8.000 Szenarien von LoCoBench zu interaktiven Agentenumgebungen und ermöglicht eine systematische Bewertung von Mehrfachdialogen, Werkzeugnutzungseffizienz, Fehlerbehebung und Architekturkonsistenz über längere Entwicklungssitzungen hinweg. Wir führen zudem eine Bewertungsmethodik mit 9 Metriken in den Dimensionen Verständnis und Effizienz ein. Unser Framework stattet Agenten mit 8 spezialisierten Werkzeugen (Dateioperationen, Suche, Codeanalyse) aus und evaluiert sie über Kontextlängen von 10.000 bis 1 Million Tokens, was eine präzise Bewertung der Langkontextleistung ermöglicht. Durch systematische Evaluierung modernster Modelle zeigen wir mehrere zentrale Erkenntnisse: (1) Agenten weisen eine bemerkenswerte Robustheit in langen Kontexten auf; (2) es besteht ein Zielkonflikt zwischen Verständnis und Effizienz mit negativer Korrelation, bei dem gründliche Exploration das Verständnis erhöht, aber die Effizienz verringert; und (3) die Konversationseffizienz variiert stark zwischen den Modellen, wobei strategische Werkzeugnutzungsmuster hochperformante Agenten unterscheiden. Als erster Langkontext-LLM-Agenten-Benchmark für Software Engineering schafft LoCoBench-Agent eine rigorose Grundlage zur Messung von Agentenfähigkeiten, Identifizierung von Leistungslücken und Weiterentwicklung autonomer Softwareentwicklung im großen Maßstab.
Zielorientierte persuasive Dialoge, wie sie beispielsweise im Telemarketing Anwendung finden, erfordern anspruchsvolle Mehrschritt-Planung und strikte faktische Korrektheit – eine erhebliche Herausforderung auch für modernste Großsprachmodelle (Large Language Models, LLMs). Bisherige Arbeiten sind häufig durch einen Mangel an aufgabenspezifischen Daten eingeschränkt, und der direkte Einsatz von LLMs leidet unter strategischer Brüchigkeit und faktischen Halluzinationen. In diesem Beitrag stellen wir zunächst TeleSalesCorpus vor, den ersten auf realen Daten basierenden Dialogdatensatz für diesen Bereich, und veröffentlichen ihn. Anschließend präsentieren wir AI-Salesman, einen neuartigen Rahmen mit einer zweistufigen Architektur. Für die Trainingsphase entwickeln wir einen bayessianisch überwachten Reinforcement-Learning-Algorithmus, der robuste Verkaufsstrategien aus verrauschten Dialogen erlernt. Für die Inferenzphase führen wir den Dynamic Outline-Guided Agent (DOGA) ein, der eine vordefinierte Skriptbibliothek zur dynamischen, schrittweisen strategischen Steuerung nutzt. Darüber hinaus entwerfen wir ein umfassendes Bewertungsframework, das feinkörnige Metriken für Schlüsselverkaufskompetenzen mit dem LLM-as-a-Judge-Paradigma kombiniert. Experimentelle Ergebnisse belegen, dass unser AI-Salesman Baseline-Modelle sowohl in automatischen Metriken als auch in umfassenden menschlichen Evaluationen signifikant übertrifft und seine Wirksamkeit in komplexen persuasiven Szenarien unter Beweis stellt.
Bestehende retrieval-augmentierte Generationssysteme (RAG) verwenden typischerweise eine zentralisierte Architektur, was hohe Kosten für Datensammlung, Integration und Verwaltung sowie Datenschutzbedenken verursacht. Es besteht ein großer Bedarf an einem dezentralen RAG-System, das Grundmodelle in die Lage versetzt, Informationen direkt von Datenbesitzern zu nutzen, die die volle Kontrolle über ihre Quellen behalten. Dezentralisierung bringt jedoch eine Herausforderung mit sich: Die zahlreichen unabhängigen Datenquellen variieren erheblich in ihrer Zuverlässigkeit, was die Abrufgenauigkeit und Antwortqualität beeinträchtigen kann. Um dies zu adressieren, verfügt unser dezentrales RAG-System über einen neuartigen Zuverlässigkeitsbewertungsmechanismus, der jede Quelle dynamisch anhand der Qualität ihrer Antwortbeiträge bewertet und hochwertige Quellen während des Abrufs priorisiert. Um Transparenz und Vertrauen zu gewährleisten, wird der Bewertungsprozess sicher durch blockchain-basierte Smart Contracts verwaltet, wodurch verifizierbare und fälschungssichere Zuverlässigkeitsaufzeichnungen ohne zentrale Instanz entstehen. Wir evaluieren unser dezentrales System mit zwei Llama-Modellen (3B und 8B) in zwei simulierten Umgebungen, in denen sechs Datenquellen unterschiedliche Zuverlässigkeitsgrade aufweisen. Unser System erzielt eine Leistungssteigerung von +10,7 % gegenüber seinem zentralisierten Gegenstück in realweltähnlichen Umgebungen mit unzuverlässigen Daten. Bemerkenswerterweise nähert es sich der Obergrenzenleistung zentralisierter Systeme unter ideal zuverlässigen Datenbedingungen. Die dezentrale Infrastruktur ermöglicht eine sichere und vertrauenswürdige Bewertungsverwaltung und erzielt durch gebündelte Update-Operationen etwa 56 % marginale Kosteneinsparungen. Unser Code und System sind unter github.com/yining610/Reliable-dRAG quelloffen verfügbar.
Ultraschall (US) ist eines der am weitesten verbreiteten bildgebenden Verfahren in der Medizin, was auf seine geringen Kosten, Portabilität, Echtzeit-Feedback und das Fehlen ionisierender Strahlung zurückzuführen ist. Die Interpretation von Ultraschallbildern ist jedoch nach wie vor stark untersucherabhängig und variiert erheblich zwischen verschiedenen anatomischen Regionen, Aufnahmeprotokollen und Gerätetypen. Diese Variationen, zusammen mit spezifischen Herausforderungen wie Speckle-Rauschen, geringem Kontrast und begrenzten standardisierten Annotationen, behindern die Entwicklung von generalisierbaren, label-effizienten Ultraschall-KI-Modellen. In diesem Artikel stellen wir OpenUS vor, das erste reproduzierbare, quelloffene Ultraschall-Foundation-Model, das auf einer umfangreichen Sammlung öffentlicher Daten aufbaut. OpenUS verwendet ein Vision-Mamba-Backbone, das sowohl lokale als auch globale Langreichweiten-Abhängigkeiten im Bild erfasst. Um während des Pre-Trainings reichhaltige Merkmale zu extrahieren, führen wir ein neuartiges, selbstadaptives Maskierungsframework ein, das kontrastives Lernen mit maskierter Bildmodellierung kombiniert. Diese Strategie integriert die Aufmerksamkeitskarte des Teacher-Modells mit dem Rekonstruktionsverlust des Student-Modells, um klinisch relevante Maskierung adaptiv zu verfeinern und so die Effektivität des Pre-Trainings zu steigern. OpenUS wendet außerdem einen dynamischen Lernplan an, um den Schwierigkeitsgrad des Pre-Training-Prozesses progressiv anzupassen. Um das Foundation-Model zu entwickeln, haben wir den bisher größten öffentlichen Ultraschalldatensatz zusammengestellt, der über 308.000 Bilder aus 42 öffentlich verfügbaren Datensätzen umfasst und verschiedene anatomische Regionen, Institutionen, Bildgebungsgeräte und Krankheitstypen abdeckt. Unser vortrainiertes OpenUS-Model kann leicht für spezifische Downstream-Aufgaben angepasst werden, indem es als Backbone für eine label-effiziente Feinabstimmung dient. Der Code ist verfügbar unter https://github.com/XZheng0427/OpenUS.