papers.description
Große Sprachmodelle (LLMs) haben sich zu agentenbasierten Systemen entwickelt, die in der Lage sind, Werkzeuge autonom zu nutzen und mehrstufige Schlussfolgerungen für die Lösung komplexer Probleme anzustellen. Allerdings schneiden nachträgliche Trainingsansätze, die auf allgemeinen Basismodellen aufbauen, in agentenbasierten Aufgaben durchweg schlechter ab, insbesondere in Open-Source-Implementierungen. Wir identifizieren die Ursache: Das Fehlen robuster agentenbasierter Basismodelle zwingt die Modelle während des nachträglichen Trainings dazu, gleichzeitig diverse agentenbasierte Verhaltensweisen zu erlernen und sie an Experten-Demonstrationen auszurichten, wodurch grundlegende Optimierungsspannungen entstehen. Zu diesem Zweck schlagen wir als Erste vor, Agentic Continual Pre-training (Agentic CPT) in die Trainingspipeline für tiefgehende Forschungsagenten zu integrieren, um leistungsstarke agentenbasierte Basismodelle zu entwickeln. Basierend auf diesem Ansatz entwickeln wir ein tiefgehendes Forschungsagentenmodell namens AgentFounder. Wir evaluieren unser AgentFounder-30B anhand von 10 Benchmarks und erzielen state-of-the-art Leistungen, während es eine starke Fähigkeit zur Werkzeugnutzung beibehält, insbesondere 39,9 % auf BrowseComp-en, 43,3 % auf BrowseComp-zh und 31,5 % Pass@1 auf HLE.
Dieses Papier befasst sich mit Open-Ended Deep Research (OEDR), einer komplexen Herausforderung, bei der KI-Agenten umfangreiche, webweite Informationen in aussagekräftige Berichte synthetisieren müssen. Aktuelle Ansätze leiden unter zweifachen Einschränkungen: statische Forschungspipelines, die die Planung vom Erwerb von Beweisen entkoppeln, und Einmal-Generierungsparadigmen, die leicht unter Langkontext-Problemen wie „Verlust in der Mitte“ und Halluzinationen leiden. Um diese Herausforderungen zu bewältigen, stellen wir WebWeaver vor, ein neuartiges Dual-Agenten-Framework, das den menschlichen Forschungsprozess nachahmt. Der Planer arbeitet in einem dynamischen Zyklus, bei dem der Erwerb von Beweisen iterativ mit der Optimierung des Gliederungsentwurfs verknüpft wird, um eine umfassende, quellengestützte Gliederung zu erstellen, die mit einer Speicherbank von Beweisen verknüpft ist. Der Schreiber führt dann einen hierarchischen Abruf- und Schreibprozess durch und verfasst den Bericht abschnittsweise. Durch den gezielten Abruf nur der notwendigen Beweise aus der Speicherbank für jeden Teil werden Langkontext-Probleme effektiv gemildert. Unser Framework setzt einen neuen Maßstab auf wichtigen OEDR-Benchmarks, darunter DeepResearch Bench, DeepConsult und DeepResearchGym. Diese Ergebnisse bestätigen unsere menschenzentrierte, iterative Methodik und zeigen, dass adaptive Planung und fokussierte Synthese entscheidend sind, um hochwertige, zuverlässige und gut strukturierte Berichte zu erstellen.
Das Überwinden menschlicher kognitiver Grenzen stellt eine entscheidende Herausforderung im Training von LLMs dar. Proprietäre agentenbasierte Systeme wie DeepResearch haben übermenschliche Fähigkeiten bei extrem komplexen Informationssuch-Benchmarks wie BrowseComp demonstriert, eine Leistung, die bisher unerreichbar war. Wir vertreten die These, dass ihr Erfolg auf einem ausgeklügelten Denkmuster beruht, das in Open-Source-Modellen fehlt: die Fähigkeit, extreme Unsicherheit systematisch zu reduzieren, wenn man sich durch riesige Informationslandschaften bewegt. Basierend auf dieser Erkenntnis stellen wir WebSailor vor, eine vollständige Post-Training-Methodik, die darauf abzielt, diese entscheidende Fähigkeit zu vermitteln. Unser Ansatz umfasst die Generierung neuartiger, hochgradig unsicherer Aufgaben durch strukturiertes Sampling und Informationsverschleierung, RFT-Cold-Start und einen effizienten agentenbasierten RL-Trainingsalgorithmus, Duplicating Sampling Policy Optimization (DUPO). Mit dieser integrierten Pipeline übertrifft WebSailor alle Open-Source-Agenten bei komplexen Informationssuchaufgaben deutlich, erreicht die Leistung proprietärer Agenten und schließt die Fähigkeitslücke.
Große Sprachmodelle (LLM)-basierte Web-Agenten zeigen starke Leistungen bei wissensintensiven Aufgaben, werden jedoch durch die Beschränkungen des Kontextfensters in Paradigmen wie ReAct behindert. Komplexe Abfragen, die mehrere Entitäten, verflochtene Beziehungen und hohe Unsicherheit beinhalten, erfordern umfangreiche Suchzyklen, die den Kontextbudget schnell erschöpfen, bevor vollständige Lösungen erreicht werden. Um diese Herausforderung zu bewältigen, führen wir ReSum ein, ein neuartiges Paradigma, das eine unbegrenzte Exploration durch periodische Kontextzusammenfassung ermöglicht. ReSum wandelt wachsende Interaktionsverläufe in kompakte Argumentationszustände um, behält das Bewusstsein für frühere Entdeckungen bei und umgeht gleichzeitig die Kontextbeschränkungen. Für die Paradigmenanpassung schlagen wir ReSum-GRPO vor, das GRPO mit segmentierter Trajektorien-Schulung und Vorteilsausstrahlung integriert, um Agenten mit der zusammenfassungsbasierten Argumentation vertraut zu machen. Umfangreiche Experimente mit Web-Agenten unterschiedlicher Größenordnungen über drei Benchmarks zeigen, dass ReSum eine durchschnittliche absolute Verbesserung von 4,5\% gegenüber ReAct erzielt, mit weiteren Gewinnen von bis zu 8,2\% nach der ReSum-GRPO-Schulung. Bemerkenswerterweise erreicht unser WebResummer-30B (eine ReSum-GRPO-geschulte Version von WebSailor-30B) mit nur 1K Trainingsproben 33,3\% Pass@1 auf BrowseComp-zh und 18,3\% auf BrowseComp-en und übertrifft damit bestehende Open-Source-Web-Agenten.
Fortgeschrittene agentenbasierte Intelligenz ist eine Voraussetzung für den Einsatz von Large Language Models in praktischen, realen Anwendungen. Verschiedene reale APIs erfordern präzise, robuste Funktionsaufruf-Intelligenz, die Agenten durch Interaktion in unterschiedlichen Umgebungen entwickeln müssen. Die Breite der Funktionsaufruf-Kompetenz ist eng mit der Vielfalt der Umgebungen verbunden, in denen Agenten trainiert werden. In dieser Arbeit skalieren wir Umgebungen als einen Schritt zur Weiterentwicklung allgemeiner agentenbasierter Intelligenz. Dies führt zu zwei zentralen Herausforderungen: (i) wie man Umgebungen auf prinzipielle Weise skaliert und (ii) wie man agentenbasierte Fähigkeiten effektiv aus Erfahrungen trainiert, die durch Interaktionen mit diesen Umgebungen gewonnen werden. Um diese zu bewältigen, entwerfen wir ein skalierbares Framework, das automatisch heterogene, vollständig simulierte Umgebungen konstruiert und systematisch den Raum der Funktionsaufruf-Szenarien erweitert. Wir passen außerdem eine zweiphasige Feinabstimmungsstrategie für Agenten an: Zunächst statten wir Agenten mit grundlegenden agentenbasierten Fähigkeiten aus, bevor wir sie für domänenspezifische Kontexte spezialisieren. Umfangreiche Experimente auf agentenbasierten Benchmarks, tau-bench, tau2-Bench und ACEBench, zeigen, dass unser trainiertes Modell, AgentScaler, die Funktionsaufruf-Fähigkeit von Modellen signifikant verbessert.
Jüngste Fortschritte in Deep-Research-Systemen haben das Potenzial von KI-Agenten aufgezeigt, eigenständig Wissen aus externen Quellen zu entdecken und zu synthetisieren. In diesem Artikel stellen wir WebResearcher vor, ein neuartiges Framework zur Entwicklung solcher Agenten, das auf zwei Schlüsselkomponenten basiert: (1) WebResearcher, ein iteratives Deep-Research-Paradigma, das Deep Research als Markov-Entscheidungsprozess reformuliert, bei dem Agenten ihre Erkenntnisse periodisch in sich entwickelnde Berichte integrieren, während sie fokussierte Arbeitsbereiche aufrechterhalten, wodurch die Kontextüberlastung und Rauschkontamination überwunden werden, die bestehende monokontextuelle Ansätze plagen; und (2) WebFrontier, eine skalierbare Datensynthese-Engine, die hochwertige Trainingsdaten durch werkzeuggestützte Komplexitätssteigerung generiert und die systematische Erstellung von Forschungsaufgaben ermöglicht, die die Lücke zwischen passiver Wissensabrufung und aktiver Wissenskonstruktion schließen. Bemerkenswerterweise stellen wir fest, dass die Trainingsdaten aus unserem Paradigma die Werkzeugnutzungsfähigkeiten sogar für traditionelle monokontextuelle Methoden signifikant verbessern. Darüber hinaus skaliert unser Paradigma natürlich durch paralleles Denken, was eine gleichzeitige Multi-Agenten-Exploration für umfassendere Schlussfolgerungen ermöglicht. Umfangreiche Experimente über 6 anspruchsvolle Benchmarks zeigen, dass WebResearcher state-of-the-art Leistung erzielt und sogar proprietäre Spitzensysteme übertrifft.
Die Erstellung hochwertiger 3D-Assets, ein Eckpfeiler der modernen Spieleentwicklung, war lange Zeit durch arbeitsintensive und spezialisierte Workflows geprägt. Dieses Papier stellt Hunyuan3D Studio vor, eine End-to-End-KI-gestützte Content-Erstellungsplattform, die darauf abzielt, die Spieleproduktionspipeline durch die Automatisierung und Vereinfachung der Generierung von spielbereiten 3D-Assets zu revolutionieren. Im Kern integriert Hunyuan3D Studio eine Reihe fortschrittlicher neuronaler Module (wie Part-level 3D Generation, Polygon Generation, Semantic UV usw.) in ein kohärentes und benutzerfreundliches System. Dieser einheitliche Rahmen ermöglicht die schnelle Umwandlung eines einzelnen Konzeptbildes oder einer textuellen Beschreibung in ein vollständig realisiertes, produktionsreifes 3D-Modell mit optimierter Geometrie und hochwertigen PBR-Texturen. Wir zeigen, dass die von Hunyuan3D Studio generierten Assets nicht nur visuell ansprechend sind, sondern auch den strengen technischen Anforderungen moderner Spiel-Engines entsprechen, wodurch die Iterationszeit erheblich verkürzt und die Einstiegshürde für die 3D-Content-Erstellung gesenkt wird. Indem Hunyuan3D Studio eine nahtlose Brücke von der kreativen Absicht zum technischen Asset schafft, stellt es einen bedeutenden Fortschritt für KI-gestützte Workflows in der Spieleentwicklung und interaktiven Medien dar.
Wir untersuchen die Policy-Gradient-Optimierung für Large Language Models (LLMs) aus einer Single-Stream-Perspektive neu. Vorherrschende gruppenbasierte Methoden wie GRPO reduzieren die Varianz durch On-the-Fly-Baselines, leiden jedoch unter kritischen Schwächen: häufige degenerierte Gruppen löschen Lernsignale, und Synchronisationsbarrieren behindern die Skalierbarkeit. Wir führen Single-stream Policy Optimization (SPO) ein, das diese Probleme durch Design eliminiert. SPO ersetzt gruppenspezifische Baselines durch einen persistenten, KL-adaptiven Werttracker und normalisiert Vorteile global über den Batch hinweg, wodurch ein stabiles, varianzarmes Lernsignal für jede Stichprobe bereitgestellt wird. Da SPO gruppenfrei ist, ermöglicht es einen höheren Durchsatz und skaliert effektiv in langfristigen oder toolintegrierten Umgebungen, in denen die Generierungszeiten variieren. Darüber hinaus ermöglicht der persistente Werttracker auf natürliche Weise einen adaptiven Lehrplan durch priorisierte Stichproben. Experimente mit Qwen3-8B zeigen, dass SPO glatter konvergiert und eine höhere Genauigkeit als GRPO erreicht, während es gleichzeitig die auf degenerierte Gruppen verschwendete Rechenleistung eliminiert. Ablationsstudien bestätigen, dass die Vorteile von SPO auf seinem prinzipienbasierten Ansatz zur Baseline-Schätzung und Vorteilsnormalisierung beruhen, was einen robusteren und effizienteren Weg für das LLM-Schließen bietet. Über fünf schwierige mathematische Benchmarks mit Qwen3-8B hinweg verbessert SPO den durchschnittlichen maj@32 um +3,4 Prozentpunkte (pp) gegenüber GRPO, angetrieben durch erhebliche absolute Punktgewinne auf anspruchsvollen Datensätzen, einschließlich +7,3 pp auf BRUMO 25, +4,4 pp auf AIME 25, +3,3 pp auf HMMT 25, und erzielt konsistente relative Gewinne in pass@k über die bewerteten k-Werte hinweg. Der Erfolg von SPO stellt den vorherrschenden Trend in Frage, RL-Algorithmen mit zusätzlicher Komplexität zu versehen, und zeigt einen Weg auf, bei dem grundlegende Prinzipien, nicht architektonische Workarounds, die nächste Welle des Fortschritts im LLM-Schließen vorantreiben.
Wir präsentieren ein Spatial Region 3D (SR-3D) bewusstes Vision-Language-Modell, das Einzelbild-2D-Bilder und Multi-View-3D-Daten durch einen gemeinsamen visuellen Token-Raum verbindet. SR-3D unterstützt flexibles Region-Prompting, das es Benutzern ermöglicht, Regionen mit Begrenzungsrahmen, Segmentierungsmasken auf jedem Frame oder direkt in 3D zu annotieren, ohne dass eine umfassende Multi-Frame-Beschriftung erforderlich ist. Dies erreichen wir, indem wir 2D-visuelle Merkmale mit 3D-Positions-Einbettungen anreichern, wodurch das 3D-Modell auf starke 2D-Priors zurückgreifen kann, um eine genauere räumliche Schlussfolgerung über Frames hinweg zu ermöglichen, selbst wenn die interessierenden Objekte nicht im selben Blickfeld auftreten. Umfangreiche Experimente sowohl auf allgemeinen 2D-Vision-Language- als auch auf spezialisierten 3D-räumlichen Benchmarks zeigen, dass SR-3D state-of-the-art Leistung erzielt, was seine Effektivität bei der Vereinheitlichung von 2D- und 3D-Repräsentationsräumen für die Szenenverständigung unterstreicht. Darüber hinaus beobachten wir die Anwendbarkeit auf Videos in freier Wildbahn ohne sensorische 3D-Eingaben oder Ground-Truth-3D-Annotationen, bei denen SR-3D räumliche Beziehungen und metrische Messungen präzise ableitet.
Große Sprachmodelle (LLMs) haben kürzlich das Feld des automatisierten Theorembeweisens (ATP) vorangetrieben und durch weit verbreitete Skalierungsstrategien zur Testzeit erhebliche Leistungssteigerungen erzielt, insbesondere durch reflektierende Chain-of-Thought (CoT)-Argumentation und erhöhte Sampling-Durchläufe. Beide Ansätze führen jedoch zu einem erheblichen Rechenaufwand für die Inferenz. Darüber hinaus regulieren bestehende Kostenanalysen typischerweise nur die Anzahl der Sampling-Durchläufe, während die erheblichen Unterschiede in den Sampling-Kosten, die durch verschiedene Skalierungsstrategien entstehen, vernachlässigt werden. In diesem Artikel vergleichen wir systematisch die Effizienz verschiedener Skalierungsstrategien zur Testzeit für ATP-Modelle und zeigen die Ineffizienz der derzeitigen State-of-the-Art (SOTA) Open-Source-Ansätze auf. Anschließend untersuchen wir Ansätze, um die Token-Nutzung und die Anzahl der Sampling-Durchläufe erheblich zu reduzieren, während die ursprüngliche Leistung beibehalten wird. Konkret schlagen wir zwei komplementäre Methoden vor, die in eine einheitliche EconRL-Pipeline integriert werden können, um verstärkte Vorteile zu erzielen: (1) einen dynamischen Chain-of-Thought (CoT)-Wechselmechanismus, der entwickelt wurde, um unnötigen Token-Verbrauch zu reduzieren, und (2) diverse parallel skalierte Verstärkungslernen (RL) mit trainierbaren Präfixen, um die Erfolgsrate bei begrenzten Sampling-Durchläufen zu erhöhen. Experimente auf miniF2F und ProofNet zeigen, dass unser EconProver eine vergleichbare Leistung zu Baseline-Methoden mit nur 12 % der Rechenkosten erreicht. Diese Arbeit bietet umsetzbare Erkenntnisse für den Einsatz von leichtgewichtigen ATP-Modellen ohne Leistungseinbußen.
Menschen sind bemerkenswert dateneffizient, wenn es darum geht, sich an neue, unbekannte Bedingungen anzupassen, wie beispielsweise das Fahren eines neuen Autos. Im Gegensatz dazu sind moderne robotische Steuerungssysteme, wie neuronale Netzwerk-Policies, die mit Reinforcement Learning (RL) trainiert wurden, stark auf einzelne Umgebungen spezialisiert. Aufgrund dieser Überanpassung ist bekannt, dass sie bereits bei geringfügigen Unterschieden, wie der Simulation-to-Reality (Sim2Real)-Lücke, versagen und selbst bei minimalen Änderungen am System eine Systemidentifikation und ein erneutes Training erfordern. In dieser Arbeit stellen wir RAPTOR vor, eine Methode zur Ausbildung einer hochadaptiven Foundation-Policy für die Steuerung von Quadrocoptern. Unsere Methode ermöglicht das Training einer einzigen, end-to-end neuronalen Netzwerk-Policy, die eine Vielzahl von Quadrocoptern steuern kann. Wir testen 10 verschiedene reale Quadrocopter mit einem Gewicht von 32 g bis 2,4 kg, die sich auch in Motortyp (gebürstet vs. bürstenlos), Rahmentyp (weich vs. starr), Propellertyp (2/3/4-Blatt) und Flugcontroller (PX4/Betaflight/Crazyflie/M5StampFly) unterscheiden. Wir stellen fest, dass eine winzige, dreischichtige Policy mit nur 2084 Parametern ausreicht, um sich ohne Anpassung (Zero-Shot) an eine Vielzahl von Plattformen anzupassen. Die Anpassung durch In-Context Learning wird durch eine Rekurrenz in der versteckten Schicht ermöglicht. Die Policy wird durch einen neuartigen Meta-Imitation-Learning-Algorithmus trainiert, bei dem wir 1000 Quadrocopter sampeln und für jeden eine Lehrer-Policy mit Reinforcement Learning trainieren. Anschließend werden die 1000 Lehrer in eine einzige, adaptive Schüler-Policy destilliert. Wir stellen fest, dass sich die resultierende Foundation-Policy innerhalb von Millisekunden ohne Anpassung (Zero-Shot) an unbekannte Quadrocopter anpasst. Wir testen die Fähigkeiten der Foundation-Policy ausgiebig unter zahlreichen Bedingungen (Trajektorienverfolgung, Innen-/Außenbereich, Windstörungen, Anstoßen, verschiedene Propeller).
Multimodales Denken bleibt eine grundlegende Herausforderung in der künstlichen Intelligenz. Trotz erheblicher Fortschritte im textbasierten Denken haben selbst modernste Modelle wie GPT-o3 Schwierigkeiten, eine starke Leistung in multimodalen Szenarien aufrechtzuerhalten. Um diese Lücke zu schließen, führen wir ein beschriftungsgestütztes Denkframework ein, das visuelle und textuelle Modalitäten effektiv verbindet. Unser Ansatz erreichte den ersten Platz beim ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, was seine Wirksamkeit und Robustheit unterstreicht. Darüber hinaus validieren wir seine Generalisierungsfähigkeit auf dem MathVerse-Benchmark für geometrisches Denken, was die Vielseitigkeit unserer Methode demonstriert. Unser Code ist öffentlich verfügbar unter https://github.com/OpenDCAI/SciReasoner.
Wir stellen Stable Part Diffusion 4D (SP4D) vor, ein Framework zur Generierung von gepaarten RGB- und kinematischen Teilvideos aus monokularen Eingaben. Im Gegensatz zu herkömmlichen Methoden zur Teilesegmentierung, die auf erscheinungsbasierten semantischen Hinweisen beruhen, lernt SP4D, kinematische Teile zu erzeugen – strukturelle Komponenten, die mit der Objektartikulation ausgerichtet und über Ansichten und Zeit hinweg konsistent sind. SP4D verwendet ein Dual-Branch-Diffusionsmodell, das RGB-Bilder und entsprechende Teilesegmentierungskarten gemeinsam synthetisiert. Um die Architektur zu vereinfachen und flexibel unterschiedliche Teilanzahlen zu ermöglichen, führen wir ein räumliches Farbkodierungsschema ein, das Teilmasken auf kontinuierliche, RGB-ähnliche Bilder abbildet. Diese Kodierung ermöglicht es dem Segmentierungszweig, das latente VAE des RGB-Zweigs zu teilen, während die Teilesegmentierung durch einfache Nachbearbeitung wiederhergestellt werden kann. Ein Bidirectional Diffusion Fusion (BiDiFuse)-Modul verbessert die konsistente Übereinstimmung zwischen den Zweigen, unterstützt durch einen kontrastiven Teilkonsistenzverlust, um die räumliche und zeitliche Ausrichtung der Teilvorhersagen zu fördern. Wir zeigen, dass die generierten 2D-Teilkarten in 3D gehoben werden können, um Skelettstrukturen und harmonische Skinning-Gewichte mit wenigen manuellen Anpassungen abzuleiten. Um SP4D zu trainieren und zu evaluieren, erstellen wir KinematicParts20K, einen kuratierten Datensatz von über 20.000 geriggten Objekten, die aus Objaverse XL (Deitke et al., 2023) ausgewählt und verarbeitet wurden, jeweils gepaart mit Multi-View-RGB- und Teilvideosequenzen. Experimente zeigen, dass SP4D stark auf verschiedene Szenarien verallgemeinert, einschließlich realer Videos, neu generierter Objekte und seltener artikulierter Posen, und kinematikbewusste Ausgaben erzeugt, die sich für nachgelagerte Animations- und bewegungsbezogene Aufgaben eignen.
Kürzlich haben Multimodale Große Sprachmodelle (MLLMs) in verschiedenen Bereichen erhebliche Aufmerksamkeit erregt. Ihre weit verbreitete Anwendung hat jedoch auch ernsthafte Sicherheitsbedenken aufgeworfen. In diesem Artikel decken wir ein neues Sicherheitsrisiko von MLLMs auf: Die Ausgabepräferenz von MLLMs kann durch sorgfältig optimierte Bilder beliebig manipuliert werden. Solche Angriffe erzeugen oft kontextuell relevante, aber voreingenommene Antworten, die weder offensichtlich schädlich noch unethisch sind, was ihre Erkennung erschwert. Konkret stellen wir eine neuartige Methode vor, die sogenannte Preference Hijacking (Phi), um die Antwortpräferenzen von MLLMs mithilfe eines präferenzmanipulierten Bildes zu steuern. Unsere Methode funktioniert während der Inferenz und erfordert keine Modifikationen am Modell. Zusätzlich führen wir eine universelle Hijacking-Störung ein – eine übertragbare Komponente, die in verschiedene Bilder eingebettet werden kann, um die Antworten von MLLMs in Richtung beliebiger, vom Angreifer vorgegebener Präferenzen zu lenken. Experimentelle Ergebnisse über verschiedene Aufgaben hinweg demonstrieren die Wirksamkeit unseres Ansatzes. Der Code für Phi ist unter https://github.com/Yifan-Lan/Phi verfügbar.
Wir stellen eine neuartige Trainingsmethodik namens zELO vor, die die Retrieval-Leistung durch die Analyse optimiert, dass Ranking-Aufgaben statisch äquivalent zu einem Thurstone-Modell sind. Basierend auf der zELO-Methode verwenden wir unüberwachte Daten, um eine Reihe von state-of-the-art Open-Weight-Reranker-Modellen zu trainieren: zerank-1 und zerank-1-small. Diese Modelle erzielen die höchsten Retrieval-Werte in mehreren Domänen, darunter Finanzen, Recht, Code und MINT, und übertreffen proprietäre Closed-Source-Reranker sowohl bei NDCG@10 als auch bei Recall. Diese Modelle zeigen auch eine große Vielseitigkeit, indem sie ihre 0-Shot-Leistung auf domänenfremden und privaten Kundendatensätzen beibehalten. Die Trainingsdaten umfassten 112.000 Abfragen und 100 Dokumente pro Abfrage und wurden end-to-end aus nicht annotierten Abfragen und Dokumenten in weniger als 10.000 H100-Stunden trainiert.
Wir präsentieren eine einfache, vollständig korrekte und annahmenarme Alternative für den umstrittenen "Domain-Extension"-Schritt in Schritt 9 eines kürzlich veröffentlichten Algorithmus für Fenster-QFT-Gitter mit komplex-gaußschen Fenstern~chen2024quantum. Der veröffentlichte Schritt~9 leidet unter einer Periodizitäts-/Unterstützungsinkongruenz. Wir stellen eine Paarverschiebungsdifferenz-Konstruktion vor, die alle unbekannten Versätze kohärent auslöscht, einen exakten uniformen CRT-Coset-Zustand über Z_{P} erzeugt und dann die QFT verwendet, um die beabsichtigte modulare lineare Beziehung durchzusetzen. Die unitäre Operation ist reversibel, verwendet poly(log M_2) Gatter und bewahrt die Asymptotik des Algorithmus. Projektseite: https://github.com/yifanzhang-pro/quantum-lattice.
Jüngste Fortschritte in der Kompression von Large Language Models (LLMs), wie Quantisierung und Pruning, haben bemerkenswerte Erfolge erzielt. Da diese Techniken jedoch allmählich an ihre jeweiligen Grenzen stoßen, wird es zunehmend schwieriger, sich für eine weitere Kompression auf eine einzelne Methode zu verlassen. In dieser Arbeit untersuchen wir eine alternative Lösung durch die Kombination von Quantisierung und Sparsity. Dieser gemeinsame Ansatz, obwohl vielversprechend, führt zu neuen Herausforderungen aufgrund der inhärent widersprüchlichen Anforderungen an die Gewichtsverteilungen: Quantisierung bevorzugt kompakte Bereiche, während Pruning von hoher Varianz profitiert. Um dieses Problem anzugehen, schlagen wir Optimal Brain Restoration (OBR) vor, ein allgemeines und trainingsfreies Framework, das Pruning und Quantisierung durch Fehlerkompensation zwischen beiden in Einklang bringt. OBR minimiert die Leistungseinbußen bei nachgelagerten Aufgaben, indem es auf einem zweistufigen Hessian-Ziel aufbaut, das dann durch Surrogat-Approximation in ein handhabbares Problem umformuliert und schließlich durch Gruppenfehlerkompensation zu einer geschlossenen Lösung führt. Experimente zeigen, dass OBR eine aggressive W4A4KV4-Quantisierung mit 50 % Sparsity auf bestehenden LLMs ermöglicht und im Vergleich zum FP16-dichten Baseline eine Beschleunigung von bis zu 4,72x und eine Speicherreduzierung von 6,4x erreicht.
Kontinuumsroboter revolutionieren Bronchoskopieverfahren, indem sie den Zugang zu komplexen Lungenwegen ermöglichen und gezielte Eingriffe erleichtern. Ihre Entwicklung wird jedoch durch den Mangel an realistischen Trainings- und Testumgebungen eingeschränkt: Die Erfassung realer Daten ist aufgrund ethischer Einschränkungen und Patientensicherheitsbedenken schwierig, und die Entwicklung von Autonomiealgorithmen erfordert realistische Bildgebung und physikalische Rückmeldungen. Wir präsentieren ROOM (Realistic Optical Observation in Medicine), ein umfassendes Simulationsframework, das zur Erzeugung fotorealistischer Bronchoskopie-Trainingsdaten entwickelt wurde. Durch die Nutzung von Patient-CT-Scans rendert unsere Pipeline multimodale Sensordaten, einschließlich RGB-Bilder mit realistischem Rauschen und Lichtreflexen, metrischen Tiefenkarten, Oberflächennormalen, optischem Fluss und Punktwolken in medizinisch relevanten Maßstäben. Wir validieren die von ROOM erzeugten Daten in zwei zentralen Aufgaben der medizinischen Robotik – der Multi-View-Posenschätzung und der monokularen Tiefenschätzung – und zeigen dabei vielfältige Herausforderungen auf, die state-of-the-art-Methoden überwinden müssen, um in diesen medizinischen Kontexten eingesetzt zu werden. Darüber hinaus demonstrieren wir, dass die von ROOM erzeugten Daten zur Feinabstimmung bestehender Tiefenschätzungsmodelle verwendet werden können, um diese Herausforderungen zu bewältigen, und auch andere nachgelagerte Anwendungen wie die Navigation ermöglichen. Wir erwarten, dass ROOM die großflächige Datengenerierung über diverse Patientenanatomien und Verfahrensszenarien ermöglichen wird, die in klinischen Umgebungen schwer zu erfassen sind. Code und Daten: https://github.com/iamsalvatore/room.
Die Digitalisierung pathologischer Bilder in gigapixelgroße Whole Slide Images (WSIs) hat neue Möglichkeiten für die Computational Pathology (CPath) eröffnet. Da positives Gewebe nur einen kleinen Teil der gigapixelgroßen WSIs ausmacht, konzentrieren sich bestehende Multiple Instance Learning (MIL)-Methoden typischerweise auf die Identifizierung relevanter Instanzen mithilfe von Aufmerksamkeitsmechanismen. Dies führt jedoch zu einer Verzerrung hin zu leicht klassifizierbaren Instanzen, während schwierige Instanzen vernachlässigt werden. Aktuelle Studien haben gezeigt, dass schwierige Beispiele entscheidend für die präzise Modellierung diskriminativer Grenzen sind. Indem wir diesen Ansatz auf Instanzebene anwenden, entwickeln wir ein neuartiges MIL-Framework mit Masked Hard Instance Mining (MHIM-MIL), das eine Siamese-Struktur mit einer Konsistenzbedingung nutzt, um schwierige Instanzen zu erkunden. MHIM-MIL verwendet eine klassenbewusste Instanzwahrscheinlichkeit und einen Momentum Teacher, um relevante Instanzen zu maskieren und implizit schwierige Instanzen für das Training des Student-Modells zu extrahieren. Um vielfältige, nicht redundante schwierige Instanzen zu erhalten, setzen wir großflächige zufällige Maskierung ein und nutzen ein globales Recycle-Netzwerk, um das Risiko des Verlusts wichtiger Merkmale zu minimieren. Darüber hinaus aktualisiert der Student den Teacher mithilfe eines exponentiellen gleitenden Durchschnitts, wodurch neue schwierige Instanzen für nachfolgende Trainingsiterationen identifiziert und die Optimierung stabilisiert werden. Experimentelle Ergebnisse zu Aufgaben der Krebsdiagnose, Subtypisierung, Überlebensanalyse und 12 Benchmarks zeigen, dass MHIM-MIL die neuesten Methoden sowohl in der Leistung als auch in der Effizienz übertrifft. Der Code ist verfügbar unter: https://github.com/DearCaat/MHIM-MIL.
Die Erzeugung von differenziell privaten (DP) synthetischen Daten ist eine vielversprechende Technik zur Nutzung privater Datensätze, die ansonsten nicht für Modelltraining oder andere Analysen freigegeben werden können. Während sich ein Großteil der Forschungsliteratur auf die Generierung privater unstrukturierter Text- und Bilddaten konzentriert hat, sind in Unternehmensumgebungen strukturierte Daten (z. B. tabellarische) häufiger anzutreffen, die oft natürliche Sprachfelder oder -komponenten enthalten. Bestehende Techniken zur Bewertung synthetischer Daten (z. B. FID) haben Schwierigkeiten, die strukturellen Eigenschaften und Korrelationen solcher Datensätze zu erfassen. In dieser Arbeit schlagen wir Struct-Bench vor, ein Framework und Benchmark zur Bewertung synthetischer Datensätze, die aus strukturierten Datensätzen mit natürlichen Sprachdaten abgeleitet wurden. Das Struct-Bench-Framework erfordert, dass Benutzer eine Repräsentation ihrer Datenstruktur als kontextfreie Grammatik (CFG) bereitstellen. Unser Benchmark umfasst 5 reale und 2 synthetisch generierte Datensätze, die jeweils mit CFGs annotiert sind. Wir zeigen, dass diese Datensätze selbst für modernste DP-Methoden zur Erzeugung synthetischer Daten eine erhebliche Herausforderung darstellen. Struct-Bench beinhaltet auch Referenzimplementierungen verschiedener Metriken und eine Bestenliste, wodurch Forschern eine standardisierte Evaluierungsplattform zur Verfügung gestellt wird, um Methoden zur Erzeugung privatsphäreschützender synthetischer Daten zu bewerten und zu untersuchen. Darüber hinaus präsentieren wir eine Fallstudie, die zeigt, wie Struct-Bench verwendet werden kann, um die Qualität synthetischer Daten von Private Evolution (PE) bei strukturierten Daten zu verbessern. Der Benchmark und die Bestenliste sind öffentlich unter https://struct-bench.github.io verfügbar.
Die automatische Differenzierung durch digitale Signalverarbeitungsalgorithmen für die virtuelle Analogmodellierung hat in letzter Zeit an Popularität gewonnen. Diese Algorithmen sind in der Regel recheneffizienter als Black-Box-Neuronale Netze, die auf dichten Matrixmultiplikationen basieren. Aufgrund ihrer differenzierbaren Natur können sie mit neuronalen Netzen integriert und gemeinsam mithilfe von Gradientenabstiegsalgorithmen trainiert werden, was zu effizienteren Systemen führt. Darüber hinaus haben Signalverarbeitungsalgorithmen deutlich weniger Parameter als neuronale Netze, was die Anwendung des Newton-Raphson-Verfahrens ermöglicht. Dieses Verfahren bietet eine schnellere und robustere Konvergenz als der Gradientenabstieg, allerdings auf Kosten eines quadratischen Speicherbedarfs. In diesem Artikel wird eine Methode vorgestellt, um analoge Pegelverstärker mithilfe eines digitalen Feed-Forward-Kompressors zu emulieren, dessen Parameter über das Newton-Raphson-Verfahren optimiert werden. Wir zeigen, dass ein digitaler Kompressor das Verhalten unserer Zielkomponente, des Teletronix LA-2A, erfolgreich annähern kann. Verschiedene Strategien zur Berechnung der Hessematrix werden verglichen. Wir nutzen parallele Algorithmen für rekursive Filter, um ein effizientes Training auf modernen GPUs zu erreichen. Das resultierende Modell wird in ein VST-Plugin umgesetzt und unter https://github.com/aim-qmul/4a2a quelloffen zur Verfügung gestellt.