papers.description
Logisches Denken ist ein grundlegender kognitiver Prozess, der Inferenz, Problemlösung und Entscheidungsfindung zugrunde liegt. Während große Sprachmodelle (LLMs) in geschlossenen Umgebungen starke Denkfähigkeiten demonstrieren, haben sie in offenen und dynamischen Umgebungen Schwierigkeiten. Agentenbasiertes Denken markiert einen Paradigmenwechsel, indem es LLMs als autonome Agenten neu definiert, die durch kontinuierliche Interaktion planen, handeln und lernen. In diesem Übersichtsartikel strukturieren wir agentenbasiertes Denken entlang drei komplementärer Dimensionen. Erstens charakterisieren wir die Umgebungsdynamik durch drei Ebenen: grundlegendes agentenbasiertes Denken, das Kernfähigkeiten einzelner Agenten etabliert, einschließlich Planung, Werkzeugnutzung und Suche in stabilen Umgebungen; sich selbst entwickelndes agentenbasiertes Denken, das untersucht, wie Agenten diese Fähigkeiten durch Feedback, Gedächtnis und Anpassung verfeinern; und kollektives Multi-Agenten-Denken, das Intelligenz auf kollaborative Settings ausdehnt, die Koordination, Wissensaustausch und gemeinsame Ziele umfassen. Über diese Ebenen hinweg unterscheiden wir In-Context-Denken, das die Interaktion zur Testzeit durch strukturierte Orchestrierung skaliert, von Post-Training-Denken, das Verhalten durch Bestärkendes Lernen und überwachtes Feinabstimmen optimiert. Wir geben weiterhin einen Überblick über repräsentative Frameworks für agentenbasiertes Denken in realen Anwendungen und Benchmarks, einschließlich Wissenschaft, Robotik, Gesundheitswesen, autonomer Forschung und Mathematik. Dieser Übersichtsartikel fasst Methoden des agentenbasierten Denkens zu einem einheitlichen Fahrplan zusammen, der Denken und Handeln verbindet, und skizziert offene Herausforderungen und zukünftige Richtungen, einschließlich Personalisierung, langfristiger Interaktion, Weltmodellierung, skalierbarem Multi-Agenten-Training und Governance für den Einsatz in der realen Welt.
Deep Research Agents (DRAs) generieren zitatreiche Berichte durch mehrstufige Suche und Synthese, doch bestehende Benchmarks zielen hauptsächlich auf rein textbasierte Settings oder kurze multimodale Frage-Antwort-Szenarien ab und verfehlen die end-to-end Nutzung multimodaler Evidenz. Wir stellen MMDeepResearch-Bench (MMDR-Bench) vor, einen Benchmark mit 140 von Experten erstellten Aufgaben aus 21 Domänen, wobei jede Aufgabe ein Bild-Text-Bündel bereitstellt, um multimodales Verständnis und zitatorisch fundierte Berichterstellung zu evaluieren. Im Vergleich zu früheren Aufbauten betont MMDR-Bench die berichtsartige Synthese mit expliziter Evidenznutzung, bei der Modelle visuelle Artefakte mit belegten Aussagen verknüpfen und Konsistenz über Narrativ, Zitate und visuelle Referenzen hinweg wahren müssen. Wir schlagen weiterhin eine einheitliche, interpretierbare Evaluierungspipeline vor: Formula-LLM Adaptive Evaluation (FLAE) für die Berichtsqualität, Trustworthy Retrieval-Aligned Citation Evaluation (TRACE) für die zitatorische Evidenzabstimmung und Multimodal Support-Aligned Integrity Check (MOSAIC) für die Text-Bild-Integrität. Jede Komponente erzeugt feingranulare Signale, die über eine einzelne Gesamtpunktzahl hinausgehende Fehlerdiagnosen unterstützen. Experimente mit 25 state-of-the-art Modellen zeigen systematische Zielkonflikte zwischen Generierungsqualität, Zitierdisziplin und multimodaler Verankerung auf. Sie verdeutlichen, dass allein starke sprachliche Qualität keine korrekte Evidenznutzung garantiert und dass multimodale Integrität ein zentraler Engpass für Deep Research Agents bleibt.
Das Verfassen effektiver Erwiderungen ist eine anspruchsvolle Aufgabe, die mehr erfordert als sprachliche Gewandtheit, da sie eine präzise Abstimmung zwischen der Absicht des Gutachters und den Manuskriptdetails erfordert. Bisherige Ansätze behandeln dies typischerweise als ein Direct-to-Text-Generierungsproblem, was zu Halluzinationen, übersehenen Kritikpunkten und einem Mangel an überprüfbaren Bezügen führt. Um diese Einschränkungen zu adressieren, stellen wir RebuttalAgent vor, das erste Multi-Agenten-Framework, das die Erwiderungsgenerierung als eine evidenzbasierte Planungsaufgabe neu konzipiert. Unser System zerlegt komplexes Feedback in atomare Kritikpunkte und konstruiert dynamisch hybride Kontexte, indem komprimierte Zusammenfassungen mit hochpräzisen Textstellen synthetisiert werden, während es ein autonomes und bedarfsgesteuertes externes Suchmodul integriert, um Kritikpunkte zu lösen, die externe Literatur erfordern. Durch die Generierung eines überprüfbaren Antwortplans vor der Abfassung stellt RebuttalAgent sicher, dass jedes Argument explizit in interner oder externer Evidenz verankert ist. Wir validieren unseren Ansatz auf der vorgeschlagenen RebuttalBench und zeigen, dass unsere Pipeline starke Baseline-Modelle in Bezug auf Abdeckung, Aussagetreue und strategische Kohärenz übertrifft und somit einen transparenten und steuerbaren Assistenten für den Peer-Review-Prozess bietet. Der Code wird veröffentlicht.
Videogenerierungsmodelle haben die verkörperte Intelligenz erheblich vorangebracht und neue Möglichkeiten eröffnet, um diverse Roboterdaten zu generieren, die Wahrnehmung, Entscheidungsfindung und Handlung in der physischen Welt erfassen. Die Synthese hochwertiger Videos, die reale robotische Interaktionen präzise widerspiegeln, bleibt jedoch eine Herausforderung, und das Fehlen eines standardisierten Benchmarks schränkt faire Vergleiche und Fortschritte ein. Um diese Lücke zu schließen, stellen wir einen umfassenden Robotik-Benchmark vor, RBench, der zur Bewertung roboterorientierter Videogenerierung in fünf Aufgabenbereichen und vier verschiedenen Verkörperungen konzipiert ist. Er bewertet sowohl die Korrektheit auf Aufgabenniveau als auch die visuelle Qualität durch reproduzierbare Teilmetriken, darunter strukturelle Konsistenz, physikalische Plausibilität und Handlungsvollständigkeit. Die Evaluation von 25 repräsentativen Modellen zeigt erhebliche Defizite bei der Erzeugung physikalisch realistischer Roboterverhalten auf. Darüber hinaus erreicht der Benchmark einen Spearman-Korrelationskoeffizienten von 0,96 mit menschlichen Bewertungen, was seine Wirksamkeit bestätigt. Während RBench die notwendige Perspektive bietet, um diese Defizite zu identifizieren, erfordert die Erreichung physikalischer Realismus über die Evaluation hinaus die Behebung des kritischen Mangels an hochwertigen Trainingsdaten. Aufbauend auf diesen Erkenntnissen führen wir eine optimierte vierstufige Datenpipeline ein, die zu RoVid-X führt, dem größten Open-Source-Robotikdatensatz für Videogenerierung mit 4 Millionen annotierten Videoclips, der Tausende von Aufgaben abdeckt und mit umfassenden physikalischen Eigenschaftsannotationen angereichert ist. Zusammengenommen bildet dieses synergetische Ökosystem aus Evaluation und Daten eine robuste Grundlage für rigorose Bewertung und skalierbares Training von Videomodellen und beschleunigt die Entwicklung verkörperter KI hin zu allgemeiner Intelligenz.
GutenOCR ist eine Familie von geerdeten OCR-Frontends, die durch Feinabstimmung von Qwen2.5-VL-3B und Qwen2.5-VL-7B entwickelt wurden. Die daraus resultierenden Einzel-Checkpoint-Vision-Sprach-Modelle bieten Lese-, Erkennungs- und Verankerungsfunktionen über eine einheitliche, promptbasierte Schnittstelle. Die Modelle, die auf Geschäftsdokumenten, wissenschaftlichen Artikeln und synthetischen Verankerungsdaten trainiert wurden, unterstützen das Lesen ganzer Seiten und lokaler Bereiche mit Begrenzungsrahmen auf Zeilen- und Absatzebene sowie bedingte Abfragen nach dem Muster „Wo ist x?“. Wir führen ein evaluiertes Protokoll für geerdete OCR ein und zeigen, dass GutenOCR-7B den kombinierten geerdeten OCR-Score seines Qwen2.5-VL-7B-Backbones auf 10.500 zurückgehaltenen Geschäfts- und Wissenschaftsseiten mehr als verdoppelt (von 0,40 auf 0,82). Auf Fox und OmniDocBench v1.5 verbessert unser Ansatz die OCR auf Bereichs- und Zeilenebene sowie die Texterkennungserkennungsrate erheblich, zeigt jedoch Kompromisse bei der Linearisierung auf Seitenebene, farbgesteuerter OCR und formelreichen Layouts auf.
Reinforcement Learning (RL) ist von zentraler Bedeutung für das Post-Training, insbesondere für agentische Modelle, die spezielle Reasoning-Fähigkeiten erfordern. In diesem Kontext bietet Model Merging einen praktischen Mechanismus, um mehrere RL-trainierte Agenten aus verschiedenen Aufgaben in ein einziges generalistisches Modell zu integrieren. Bestehende Merging-Methoden sind jedoch für Supervised Fine-Tuning (SFT) konzipiert und eignen sich als suboptimal, um aufgaben-spezifische Fähigkeiten bei RL-trainierten agentischen Modellen zu erhalten. Die Ursache liegt in einer Task-Vektor-Diskrepanz zwischen RL und SFT: On-Policy-RL erzeugt hochgradig spärliche und heterogene Task-Vektoren, während SFT-Merging implizit von dichten und global vergleichbaren Task-Vektoren ausgeht. Wenn unter dieser Diskrepanz die Standardmethode des globalen Durchschnitts angewendet wird, werden RLs nicht-überlappende Task-Vektoren, die kritische aufgaben-spezifische Verhaltensweisen kodieren, reduziert und Parameterupdates verwässert. Um dieses Problem zu lösen, schlagen wir Reinforced Agent Merging (RAM) vor, ein verteilungsbewusstes Merging-Framework, das explizit für RL-trainierte agentische Modelle entwickelt wurde. RAM entwirrt gemeinsame und aufgaben-spezifische, einzigartige Parameterupdates, mittelt gemeinsame Komponenten und bewahrt einzigartige Komponenten selektiv, während es sie neu skaliert, um die Verwässerung von Parameterupdates zu verhindern. Experimente in mehreren Agenten-Domänen und mit verschiedenen Modellarchitekturen zeigen, dass RAM nicht nur Merging-Baselines übertrifft, sondern auch synergetisches Potenzial zwischen Agenten freisetzt, um eine Leistung zu erzielen, die die von spezialisierten Agenten in ihren jeweiligen Domänen übertrifft.
Aktuelle End-to-End-Sprachdialogsysteme nutzen Speech-Tokenizer und neuronale Audiocodecs, um LLMs den direkten Betrieb auf diskreten Sprachrepräsentationen zu ermöglichen. Diese Modelle zeigen jedoch oft eine begrenzte Sprecheridentitätserhaltung, was personalisierte Sprachinteraktionen behindert. In dieser Arbeit stellen wir Chroma 1.0 vor, das erste Open-Source-Echtzeit-End-to-End-Sprachdialogmodell, das sowohl Latenzzeiten im Subsekundenbereich als auch hochqualitatives personalisiertes Voice-Cloning erreicht. Chroma erzielt durch einen verschachtelten Text-Audio-Token-Plan (1:2), der Streaming-Generierung unterstützt, eine Ende-zu-Ende-Latenz von unter einer Sekunde und bewahrt gleichzeitig eine hochwertige personalisierte Sprachsynthese über Mehrfachdialoge hinweg. Unsere experimentellen Ergebnisse zeigen, dass Chroma eine relative Verbesserung der Sprecherähnlichkeit von 10,96 % gegenüber der menschlichen Baseline erreicht, bei einem Echtzeitfaktor (RTF) von 0,43 und unter Beibehaltung starker Reasoning- und Dialogfähigkeiten. Unser Code und unsere Modelle sind öffentlich verfügbar unter https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma und https://huggingface.co/FlashLabs/Chroma-4B.
Chain-of-Thought (CoT) Prompting hat bemerkenswerte Erfolge dabei erzielt, die Reasoning-Fähigkeiten von Large Language Models (LLMs) zu erschließen. Obwohl CoT Prompting das logische Schließen verbessert, verursacht sein ausufernder Textumfang erheblichen Rechenaufwand. Neuere Arbeiten konzentrieren sich oft ausschließlich auf die Ergebnisausrichtung und vernachlässigen die Überwachung des intermediären Reasoning-Prozesses. Diese Defizite verschleiern die Analysierbarkeit der latenten Reasoning-Kette. Um diese Herausforderungen zu adressieren, stellen wir Render-of-Thought (RoT) vor, den ersten Framework, der die Reasoning-Kette verdinglicht, indem textuelle Schritte in Bilder gerendert werden, wodurch die latente Begründung explizit und nachvollziehbar wird. Konkret nutzen wir die Vision-Encoder existierender Vision Language Models (VLMs) als semantische Anker, um die Vision-Einbettungen mit dem textuellen Raum abzugleichen. Dieses Design gewährleistet eine Plug-and-Play-Implementierung ohne zusätzlichen Pre-Training-Overhead. Umfangreiche Experimente mit Benchmarks für mathematisches und logisches Reasoning zeigen, dass unsere Methode im Vergleich zu explizitem CoT eine 3- bis 4-fache Token-Kompression und eine erhebliche Inferenz-Beschleunigung erreicht. Darüber hinaus hält sie mit anderen Methoden in puncto Leistung wettbewerbsfähig mit, was die Machbarkeit dieses Paradigmas validiert. Unser Code ist verfügbar unter https://github.com/TencentBAC/RoT.
Die Dokumentenextraktion ist eine Kernkomponente digitaler Workflows, doch bestehende Vision-Language-Modelle (VLMs) begünstigen überwiegend Hochressourcensprachen. Thai stellt aufgrund der Skriptkomplexität durch nicht-lateinische Buchstaben, dem Fehlen expliziter Wortgrenzen und der Verbreitung hochgradig unstrukturierter realer Dokumente zusätzliche Herausforderungen dar, was die Wirksamkeit aktueller Open-Source-Modelle einschränkt. Dieses Papier stellt Typhoon OCR vor, ein offenes VLM für die Dokumentenextraktion, das für Thai und Englisch optimiert ist. Das Modell wurde auf Basis von Vision-Language-Backbones mittels eines thailändisch-zentrierten Trainingsdatensatzes feinabgestimmt. Der Datensatz wurde durch eine mehrstufige Datenkonstruktionspipeline entwickelt, die traditionelle OCR, VLM-basierte Restrukturierung und kuratierte synthetische Daten kombiniert. Typhoon OCR ist ein einheitliches Framework, das Texterkennung, Layoutrekonstruktion und dokumentenübergreifende strukturelle Konsistenz ermöglicht. Die neueste Iteration unseres Modells, Typhoon OCR V1.5, ist ein kompaktes und inferenzeffizientes Modell, das entwickelt wurde, um die Abhängigkeit von Metadaten zu verringern und die Bereitstellung zu vereinfachen. Umfassende Evaluierungen über diverse thailändische Dokumentkategorien hinweg – einschließlich Finanzberichten, Behördendokumenten, Büchern, Infografiken und handgeschriebenen Dokumenten – zeigen, dass Typhoon OCR eine Leistung erreicht, die mit größeren proprietären Spitzenmodellen vergleichbar ist oder diese übertrifft, und dies bei deutlich geringeren Rechenkosten. Die Ergebnisse demonstrieren, dass offene Vision-Language-OCR-Modelle eine präzise Textextraktion und Layoutrekonstruktion für thailändische Dokumente erreichen können, wobei sie eine mit proprietären Systemen vergleichbare Leistung erzielen und dabei ressourcenschonend und einfach bereitzustellen bleiben.
Große Encoder-Decoder-Modelle wie Whisper erzielen starke Offline-Transkriptionsergebnisse, bleiben jedoch aufgrund hoher Latenz für Streaming-Anwendungen unpraktikabel. Dennoch wird die offene thailändische ASR-Landschaft aufgrund der Verfügbarkeit vortrainierter Checkpoints weiterhin von diesen Offline-Architekturen dominiert, was eine kritische Lücke bei effizienten Streaming-Lösungen hinterlässt. Wir präsentieren Typhoon ASR Real-time, ein FastConformer-Transducer-Modell mit 115M Parametern für die latenzarme thailändische Spracherkennung. Wir zeigen, dass rigorose Textnormalisierung die Auswirkungen von Modellskalierung erreichen kann: Unser kompaktes Modell erzielt eine 45-fache Reduzierung der Rechenkosten im Vergleich zu Whisper Large-v3 bei vergleichbarer Genauigkeit. Unsere Normalisierungspipeline löst systematische Mehrdeutigkeiten in der thailändischen Transkription – einschließlich kontextabhängiger Zahlendarstellung und Wiederholungsmarkierungen (mai yamok) – und schafft so konsistente Trainingsziele. Weiterhin führen wir einen zweistufigen Curriculum-Learning-Ansatz für die Adaption an den Isan-Dialekt (Nordost-Thailand) ein, der die Leistung im Zentralthailändischen erhält. Um die Reproduzierbarkeitsherausforderungen in der thailändischen ASR zu adressieren, veröffentlichen wir den Typhoon ASR Benchmark, einen Goldstandard menschlich annotierter Datensätze mit Transkriptionen nach etablierten thailändischen Sprachkonventionen, der standardisierte Evaluierungsprotokolle für die Forschungsgemeinschaft bereitstellt.
Agentische Systeme sind in jüngster Zeit zum dominanten Paradigma für formales Theorembeweisen geworden und erzielen starke Leistungen durch die Koordination mehrerer Modelle und Werkzeuge. Allerdings basieren bestehende Ansätze oft auf aufgabenspezifischen Pipelines und trainierten formalen Beweisern, was ihre Flexibilität und Reproduzierbarkeit einschränkt. In diesem Artikel schlagen wir das Paradigma vor, das direkt einen allgemeinen Coding-Agenten als formalen mathematischen Reasoner verwendet. Dieses Paradigma ist motiviert durch (1) Ein allgemeiner Coding-Agent bietet eine natürliche Schnittstelle für diverse Reasoning-Aufgaben über das Beweisen hinaus, (2) Die Leistung kann durch einfaches Ersetzen des zugrundeliegenden Basismodells ohne Training verbessert werden, und (3) MCP ermöglicht flexible Erweiterung und autonomen Aufruf spezialisierter Werkzeuge, wodurch komplexe Designs vermieden werden. Basierend auf diesem Paradigma stellen wir Numina-Lean-Agent vor, das Claude Code mit Numina-Lean-MCP kombiniert, um autonome Interaktion mit Lean, Abruf relevanter Theoreme, informelles Beweisen und auxiliary Reasoning-Werkzeuge zu ermöglichen. Mit Claude Opus 4.5 als Basismodell löst Numina-Lean-Agent alle Probleme im Putnam 2025 (12 / 12) und erreicht damit die Leistung des besten Closed-Source-Systems. Über die Benchmark-Bewertung hinaus demonstrieren wir weiterhin seine Allgemeingültigkeit, indem wir mit Mathematikern interagieren, um den Brascamp-Lieb-Satz erfolgreich zu formalisieren. Wir veröffentlichen Numina-Lean-Agent und alle Lösungen unter https://github.com/project-numina/numina-lean-agent.
Die Relevanzsuche wird durch agentenbasierte KI neu definiert und erfordert multimodales Denken, das über konventionelle, ähnlichkeitsbasierte Paradigmen hinausgeht. Composed Image Retrieval (CIR) verkörpert diesen Wandel, da jede Abfrage ein Referenzbild mit textuellen Modifikationen kombiniert und somit ein kompositionelles Verständnis über Modalitäten hinweg erfordert. Während embedding-basierte CIR-Methoden Fortschritte erzielt haben, bleiben sie in ihrer Perspektive begrenzt, erfassen nur eingeschränkte cross-modale Hinweise und mangelt es ihnen an semantischer Schlussfolgerung. Um diese Einschränkungen zu adressieren, stellen wir XR vor – ein trainierungsfreies Multi-Agenten-Framework, das die Relevanzsuche als einen progressiv koordinierten Denkprozess neu definiert. Es orchestriert drei spezialisierte Agententypen: Imaginations-Agenten synthetisieren Zielrepräsentationen durch cross-modale Generierung, Ähnlichkeits-Agenten führen über hybride Matching-Verfahren eine grobe Filterung durch, und Frage-Agenten verifizieren die faktische Konsistenz durch gezieltes Schlussfolgern zur Feinabstimmung. Durch progressive Multi-Agenten-Koordination verfeinert XR die Relevanzsuche iterativ, um sowohl semantischen als auch visuellen Abfragebeschränkungen gerecht zu werden, und erzielt auf FashionIQ, CIRR und CIRCO eine Steigerung von bis zu 38 % gegenüber starken trainierungsfreien und trainierten Baseline-Modellen, während Ablationstudien belegen, dass jeder Agententyp essenziell ist. Code ist verfügbar: https://01yzzyu.github.io/xr.github.io/.
Finanzagenten, die auf großen Sprachmodellen (LLMs) basieren, werden zunehmend für Investitionsanalysen, Risikobewertungen und automatisierte Entscheidungsfindung eingesetzt. Dabei führen ihre Fähigkeiten zur Planung, zum Aufruf von Tools und zur Manipulation veränderbaren Zustands in hochriskanten und stark regulierten Finanzumgebungen zu neuen Sicherheitsrisiken. Bisher konzentrieren sich bestehende Sicherheitsbewertungen jedoch weitgehend auf die Inhaltskonformität auf Sprachebenenmodell oder abstrakte Agentenkonfigurationen und erfassen keine ausführungsbasierten Risiken, die aus realen operativen Workflows und zustandsändernden Aktionen entstehen. Um diese Lücke zu schließen, schlagen wir FinVault vor, den ersten ausführungsbasierten Sicherheitsbenchmark für Finanzagenten. Dieser umfasst 31 regulierungsfallgesteuerte Sandbox-Szenarien mit beschreibbaren Zustandsdatenbanken und expliziten Compliance-Anforderungen, zusammen mit 107 realen Schwachstellen und 963 Testfällen, die systematisch Prompt-Injection, Jailbreaking, finanziell angepasste Angriffe sowie harmlose Eingaben zur False-Positive-Bewertung abdecken. Experimentelle Ergebnisse zeigen, dass bestehende Abwehrmechanismen in realistischen Finanzagenten-Umgebungen weiterhin unwirksam bleiben: Die durchschnittliche Angriffserfolgsrate (ASR) erreicht bei modernsten Modellen bis zu 50,0 % und bleibt selbst für die robustesten Systeme (ASR 6,7 %) nicht vernachlässigbar. Dies unterstreicht die begrenzte Übertragbarkeit aktueller Sicherheitsentwürfe und die Notwendigkeit stärkerer finanzspezifischer Schutzmaßnahmen. Unser Code ist unter https://github.com/aifinlab/FinVault verfügbar.
Wir stellen RoboBrain 2.5 vor, ein Next-Generation-Embodied-AI-Foundation-Model, das durch umfangreiches Training mit hochwertiger raumzeitlicher Supervision die allgemeine Wahrnehmung, das räumliche Schließen und die zeitliche Modellierung vorantreibt. Aufbauend auf seinem Vorgänger führt RoboBrain 2.5 zwei wesentliche Funktionserweiterungen ein. Konkret erschließt das Modell *Präzises 3D-Räumliches Schließen*, indem es von einer 2D-pixelrelativen Verankerung zu einer tiefenbewussten Koordinatenvorhersage und einem Verständnis absoluter metrischer Constraints übergeht. Es generiert vollständige 3D-Bewegungstrajektorien als geordnete Keypoint-Sequenzen unter physikalischen Randbedingungen. Ergänzend zu dieser räumlichen Präzision etabliert das Modell eine *Dichte Zeitliche Werteinschätzung*, die eine dichte, schrittbewusste Fortschrittsvorhersage und ein Verständnis des Ausführungszustands über verschiedene Blickwinkel hinweg bereitstellt und damit stabile Feedback-Signale für nachgelagertes Lernen erzeugt. Gemeinsam erweitern diese Verbesserungen das Framework hin zu einer stärker physikalisch fundierten und ausführungsbewussten verkörperten Intelligenz für komplexe, feinkörnige Manipulationsaufgaben. Der Code und die Checkpoints sind auf der Projektwebsite verfügbar: https://superrobobrain.github.io
Wir identifizieren ein neuartiges Phänomen bei Sprachmodellen: harmloses Fine-Tuning von Frontier-Modellen kann zu einem Privatsphärenkollaps führen. Wir stellen fest, dass diverse, subtile Muster in Trainingsdaten die kontextuelle Privatsphäre beeinträchtigen können, darunter die Optimierung auf Hilfsbereitschaft, die Exposition gegenüber Benutzerinformationen, emotionaler und subjektiver Dialog sowie Debugging-Code, der interne Variablen ausgibt, unter anderem. Feinabgestimmte Modelle verlieren ihre Fähigkeit, kontextuelle Privatsphärennormen zu berücksichtigen, teilen Informationen unangemessen mit Tools und verletzen Speichergrenzen über Kontexte hinweg. Der Privatsphärenkollaps ist ein „stiller Fehler“, da die Modelle bei standardmäßigen Sicherheits- und Nutzlichkeitsbenchmarks hohe Leistung beibehalten, während sie gleichzeitig schwerwiegende Privatsphärenschwachstellen aufweisen. Unsere Experimente zeigen Anzeichen eines Privatsphärenkollapses bei sechs Modellen (geschlossene und Open-Weight), fünf Fine-Tuning-Datensätzen (realweltliche und kontrollierte Daten) und zwei Aufgabenkategorien (agentenbasierte und speicherbasierte). Unsere mechanistische Analyse zeigt, dass Privatsphärendarstellungen im Vergleich zu erhaltenen aufgabenrelevanten Merkmalen einzigartig anfällig für Fine-Tuning sind. Unsere Ergebnisse decken eine kritische Lücke in aktuellen Sicherheitsbewertungen auf, insbesondere für den Einsatz spezialisierter Agenten.
Wir stellen Motion 3-to-4 vor, ein vorwärtsgerichtetes Framework zur Synthese hochwertiger 4D-Dynamikobjekte aus einem einzelnen monokularen Video und einem optionalen 3D-Referenzgitter. Obwohl jüngste Fortschritte die Generierung von 2D-, Video- und 3D-Inhalten erheblich verbessert haben, bleibt die 4D-Synthese aufgrund begrenzter Trainingsdaten und der inhärenten Mehrdeutigkeit bei der Rekonstruktion von Geometrie und Bewegung aus einer monokularen Perspektive schwierig. Motion 3-to-4 adressiert diese Herausforderungen, indem es die 4D-Synthese in die Generierung einer statischen 3D-Form und die Bewegungsrekonstruktion zerlegt. Unser Modell lernt unter Verwendung eines kanonischen Referenzgitters eine kompakte latente Bewegungsrepräsentation und sagt pro Frame Vertex-Trajektorien vorher, um eine vollständige, zeitlich kohärente Geometrie wiederherzustellen. Ein skalierbarer frame-weiser Transformer ermöglicht zudem Robustheit gegenüber variierenden Sequenzlängen. Evaluationen sowohl auf Standard-Benchmarks als auch auf einem neuen Datensatz mit präziser Ground-Truth-Geometrie zeigen, dass Motion 3-to-4 im Vergleich zu früheren Arbeiten eine überlegene Detailtreue und räumliche Konsistenz liefert. Die Projektseite ist unter https://motion3-to-4.github.io/ verfügbar.
Viele gesprochene Sprachen, einschließlich des Englischen, weisen eine große Vielfalt an Dialekten und Akzenten auf, was die Akzentsteuerung zu einer wichtigen Fähigkeit für flexible Text-zu-Sprache-Modelle (TTS) macht. Aktuelle TTS-Systeme erzeugen akzentuierte Sprache typischerweise, indem sie Sprecher-Embeddings verwenden, die mit bestimmten Akzenten verknüpft sind. Obwohl wirksam, bietet dieser Ansatz nur begrenzte Interpretierbarkeit und Steuerbarkeit, da die Embeddings auch Merkmale wie Klangfarbe und Emotion kodieren. In dieser Studie analysieren wir die Wechselwirkung zwischen Sprecher-Embeddings und linguistisch motivierten phonologischen Regeln bei der Synthese von akzentuierter Sprache. Am Beispiel von amerikanischem und britischem Englisch implementieren wir Regeln für Flapping, Rhotizität und Vokalkorrespondenzen. Wir schlagen die Phonem-Shift-Rate (PSR) vor, eine neuartige Metrik, die quantifiziert, wie stark Embeddings regelbasierte Transformationen bewahren oder überschreiben. Experimente zeigen, dass die Kombination von Regeln mit Embeddings authentischere Akzente liefert, während Embeddings Regeln abschwächen oder überschreiben können, was eine Verflechtung von Akzent und Sprecheridentität offenbart. Unsere Ergebnisse unterstreichen Regeln als Hebel für die Akzentsteuerung und als Rahmen für die Bewertung von Entflechtung in der Sprachgenerierung.
Diese Arbeit erweitert die autonome Roboterexploration durch die Integration von semantischer Agenten-Ebene-Planung mit schneller lokaler Steuerung. Wir stellen FARE vor, einen hierarchischen autonomen Explorationsframework, der ein großes Sprachmodell (LLM) für globale Planung mit einer Reinforcement-Learning (RL)-Policy für lokale Entscheidungsfindung kombiniert. FARE folgt einem Paradigma des schnellen und langsamen Denkens. Das langsam denkende LLM-Modul interpretiert eine knappe textuelle Beschreibung der unbekannten Umgebung und erstellt eine agentenbasierte Explorationsstrategie, die anschließend über einen topologischen Graphen in eine Abfolge globaler Wegpunkte überführt wird. Um die Planungseffizienz weiter zu steigern, nutzt dieses Modul einen Modularitäts-basierten Reduktionsmechanismus, der redundante Graphenstrukturen entfernt. Das schnell denkende RL-Modul führt die Exploration durch Reaktion auf lokale Beobachtungen aus, während es durch die LLM-generierten globalen Wegpunkte geleitet wird. Die RL-Policy wird zusätzlich durch einen Belohnungsterm geformt, der die Einhaltung der globalen Wegpunkte fördert und so kohärentes sowie robustes Closed-Loop-Verhalten ermöglicht. Diese Architektur entkoppelt semantische Planung von geometrischer Entscheidungsfindung und erlaubt jedem Modul, in seiner geeigneten zeitlichen und räumlichen Skala zu operieren. In anspruchsvollen simulierten Umgebungen zeigen unsere Ergebnisse, dass FARE substantiale Verbesserungen der Explorationseffizienz gegenüber state-of-the-art Baseline-Methoden erzielt. Wir setzen FARE weiterhin auf Hardware ein und validieren es in einer komplexen, großflächigen 200m×130m Gebäudeumgebung.
Große Sprachmodelle haben einen tiefgreifenden Nutzen im medizinischen Bereich demonstriert. Ihre Anwendung zur autonomen Navigation in elektronischen Gesundheitsakten (EHRs) bleibt jedoch durch die Abhängigkeit von aufbereiteten Eingaben und vereinfachten Abfragetasks eingeschränkt. Um die Lücke zwischen idealisierten experimentellen Settings und realistischen klinischen Umgebungen zu schließen, präsentieren wir AgentEHR. Dieser Benchmark fordert Agenten heraus, komplexe Entscheidungsaufgaben wie Diagnose und Behandlungsplanung auszuführen, die langreichweitiges interaktives Reasoning direkt in rohen und verrauschten Datenbanken erfordern. Bei der Bearbeitung dieser Aufgaben stellen wir fest, dass bestehende Summarisierungsmethoden unweigerlich unter kritischem Informationsverlust und gebrochener Reasoning-Kontinuität leiden. Um dies zu adressieren, schlagen wir RetroSum vor, einen neuartigen Framework, der einen retrospektiven Summarisierungsmechanismus mit einer sich entwickelnden Erfahrungsstrategie vereint. Durch dynamisches Neubewerten der Interaktionshistorie verhindert der retrospektive Mechanismus Informationsverluste im langen Kontext und gewährleistet ununterbrochene logische Kohärenz. Zusätzlich überbrückt die Evolutionsstrategie die Domänenlücke durch das Abrufen angesammelter Erfahrungen aus einem Gedächtnisspeicher. Umfangreiche empirische Auswertungen demonstrieren, dass RetroSum Leistungssteigerungen von bis zu 29,16 % gegenüber wettbewerbsfähigen Baselines erzielt und gleichzeitig die gesamten Interaktionsfehler um bis zu 92,3 % signifikant reduziert.
Modelle für das Erlernen von Bildrepräsentationen sind in der Regel entweder für die Erkennung oder die Generierung konzipiertiert. Verschiedene Formen des kontrastiven Lernens helfen Modellen dabei, zu lernen, wie sie Bilder in Einbettungen (Embeddings) umwandeln, die für Klassifizierung, Detektion und Segmentierung nützlich sind. Andererseits können Modelle so trainiert werden, dass sie Bilder unter Verwendung von pixelbasierten, perzeptuellen und adversen Verlustfunktionen rekonstruieren, um einen latenten Raum zu erlernen, der für die Bildgenerierung geeignet ist. Wir streben danach, diese beiden Ansätze mit einem Modell zu vereinen, das in dieser Form einzigartig ist und Repräsentationen erlernt, die gleichzeitig für die Erkennung und die Generierung nützlich sind. Wir trainieren unser Modell als Hyper-Netzwerk für implizite neuronale Repräsentationen, das lernt, Bilder auf Modellgewichte abzubilden, um eine schnelle und präzise Rekonstruktion zu ermöglichen. Darüber hinaus integrieren wir unser INR-Hyper-Netzwerk mit Wissensdistillation, um dessen Generalisierungsfähigkeit und Leistung zu verbessern. Über das neuartige Trainingsdesign hinaus lernt das Modell auch einen beispiellos komprimierten Einbettungsraum mit herausragender Leistung für verschiedene visuelle Aufgaben. Das vollständige Modell kann mit state-of-the-art Ergebnissen für das Erlernen von Bildrepräsentationen konkurrieren und ermöglicht gleichzeitig generative Fähigkeiten durch seine hochwertigen, kompakten Einbettungen. Der Code ist verfügbar unter https://github.com/tiktok/huvr.
Große Sprachmodelle zeigen eine überraschende Empfindlichkeit gegenüber der Struktur der Eingabeaufforderung, doch die Mechanismen, die dieser Empfindlichkeit zugrunde liegen, sind nach wie vor nur unzureichend verstanden. In dieser Arbeit führen wir eine eingehende Untersuchung eines auffälligen Falls durch: Bei der Beantwortung von Multiple-Choice-Fragen erzielt die Platzierung des Kontextes vor den Fragen und Optionen (CQO) durchgängig eine um über 14 Prozentpunkte höhere Leistung als die umgekehrte Reihenfolge (QOC), und dies über eine Vielzahl von Modellen und Datensätzen hinweg. Durch eine systematische Architekturanalyse identifizieren wir kausale Aufmerksamkeit als den zentralen Mechanismus: In QOC-Eingabeaufforderungen verhindert die kausale Maske, dass Optionstokens auf den Kontext zugreifen, was zu einem Informationsengpass führt, bei dem der Kontext für die Optionen unsichtbar wird.
Moderne CI/CD-Pipelines, die agentengenerierten Code integrieren, weisen einen strukturellen Fehler in der Zurechnung von Verantwortung auf. Entscheidungen werden durch formal korrekte Freigabeprozesse ausgeführt, doch keine Instanz besitzt sowohl die Autorität, diese Entscheidungen zu genehmigen, als auch die epistemische Fähigkeit, ihre Grundlage sinnhaft zu verstehen. Wir definieren diesen Zustand als Verantwortungsvakuum: einen Zustand, in dem Entscheidungen getroffen werden, aber Verantwortung nicht zugerechnet werden kann, weil Autorität und Verifikationsfähigkeit nicht zusammenfallen. Wir zeigen, dass es sich hierbei nicht um eine Prozessabweichung oder einen technischen Defekt handelt, sondern um eine strukturelle Eigenschaft von Deployment-Prozessen, bei denen der Durchsatz der Entscheidungsgenerierung die begrenzte menschliche Verifikationskapazität übersteigt. Wir identifizieren eine Skalierungsgrenze unter Standard-Deployment-Annahmen, einschließlich paralleler Agentengenerierung, CI-basierter Validierung und individualisierter menschlicher Freigabepunkte. Jenseits eines bestimmten Durchsatz-Schwellenwerts hört die Verifikation auf, als Entscheidungskriterium zu fungieren, und wird durch ritualisierte Freigabe auf Basis von Stellvertretersignalen ersetzt. Personalisierte Verantwortung wird in diesem Regime strukturell unerreichbar. Wir beschreiben weiterhin eine CI-Verstärkungsdynamik, bei der eine zunehmende automatisierte Validierungsabdeckung die Dichte der Stellvertretersignale erhöht, ohne die menschliche Kapazität wiederherzustellen. Unter festen Zeit- und Aufmerksamkeitsbeschränkungen beschleunigt dies kognitive Entlastung im weiteren Sinne und vergrößert die Kluft zwischen formaler Freigabe und epistemischem Verständnis. Zusätzliche Automatisierung verstärkt daher das Verantwortungsvakuum, anstatt es zu mildern. Wir kommen zu dem Schluss, dass das Verantwortungsvakuum ein unsichtbarer, aber beständiger Ausfallmodus in skalierten Agenten-Deployments bleibt, es sei denn, Organisationen gestalten Entscheidungsgrenzen explizit neu oder verlagern die Verantwortung weg von Einzelentscheidungen hin zu Batch- oder Systemverantwortung.
Web-AI-Agenten wie ChatGPT Agent und GenSpark werden zunehmend für routinemäßige webbasierte Aufgaben eingesetzt, basieren jedoch nach wie vor auf textbasierten Eingabeaufforderungen, verfügen über keine proaktive Erkennung der Benutzerabsicht und bieten keine Unterstützung für interaktive Datenanalyse und Entscheidungsfindung. Wir stellen WebSeek vor, eine Browser-Erweiterung mit gemischter Initiative, die es Nutzern ermöglicht, Informationen aus Webseiten zu entdecken und zu extrahieren, um dann greifbare Datenartefakte – wie Tabellen, Listen und Visualisierungen – flexibel innerhalb einer interaktiven Arbeitsfläche zu erstellen, zu transformieren und zu verfeinern. In dieser Umgebung können Nutzer Analysen durchführen – einschließlich Daten-transformationen wie dem Zusammenführen von Tabellen oder dem Erstellen von Visualisierungen – während eine integrierte KI sowohl proaktiv kontextsensitive Hilfestellungen und Automatisierung anbietet als auch reaktiv auf explizite Benutzeranfragen reagiert. Eine explorative Nutzerstudie (N=15) mit WebSeek als Untersuchungsinstrument zeigt die vielfältigen Analysestrategien der Teilnehmer und unterstreicht deren Wunsch nach Transparenz und Kontrolle während der Mensch-KI-Kollaboration.
Die Korteweg-de Vries (KdV)-Gleichung dient als grundlegendes Modell in der nichtlinearen Wellenphysik und beschreibt das Gleichgewicht zwischen dispersiver Spreizung und nichtlinearer Versteilung, das zur Entstehung von Solitonen führt. Dieser Artikel stellt sangkuriang vor, eine Open-Source-Python-Bibliothek zur Lösung dieser Gleichung mittels Fourier-Pseudospektraler Diskretisierung im Raum gekoppelt mit adaptiver Zeitintegration hoher Ordnung. Die Implementierung nutzt Just-in-Time (JIT)-Kompilierung für recheneffiziente Leistung bei gleichzeitiger Zugänglichkeit für Lehrzwecke. Die Validierung umfasst zunehmend komplexe Szenarien, darunter die Ausbreitung isolierter Solitone, symmetrische Zwei-Wellen-Konfigurationen, überholende Kollisionen zwischen Wellen unterschiedlicher Amplitude und Drei-Körper-Wechselwirkungen. Die Erhaltung der klassischen Invarianten wird throughout überwacht, wobei die Abweichungen in allen Testfällen gering bleiben. Die gemessenen Solitongeschwindigkeiten stimmen eng mit den theoretischen Vorhersagen auf Basis der für integrable Systeme charakteristischen Amplituden-Geschwindigkeits-Beziehung überein. Ergänzende Diagnosen aus der Informationstheorie und Recurrence-Analyse bestätigen, dass die berechneten Lösungen die reguläre Phasenraumstruktur bewahren, die für vollständig integrable Dynamik erwartet wird. Der Löser gibt Daten in standardisierten wissenschaftlichen Formaten aus, die mit gängigen Analysetools kompatibel sind, und erzeugt Visualisierungen der raumzeitlichen Wellenentwicklung. Durch die Kombination von numerischer Genauigkeit mit praktischer Zugänglichkeit auf moderaten Rechenressourcen bietet sangkuriang eine Plattform, die sich sowohl für die Demonstration nichtlinearer Wellenphänomene im Unterricht als auch für explorative Forschung in der Solitonendynamik eignet.
Obwohl sich viele Forschungsarbeiten auf KI-Erklärungen konzentriert haben, um Entscheidungen in komplexen Informationssuchaufgaben wie der Faktenprüfung zu unterstützen, ist die Rolle von Belegen erstaunlich wenig erforscht. In unserer Studie variierten wir systematisch den Erklärungstyp, die Vorhersagesicherheit der KI und die Korrektheit der KI-Systemratschläge für nicht-experimentelle Teilnehmer, die die Richtigkeit von Behauptungen und KI-Systemvorhersagen bewerteten. Den Teilnehmern wurde die Möglichkeit gegeben, die zugrundeliegenden Belege leicht einzusehen. Wir fanden heraus, dass die Teilnehmer durchgängig auf Belege zurückgriffen, um KI-Aussagen über alle experimentellen Bedingungen hinweg zu validieren. Wenn den Teilnehmern Erklärungen in natürlicher Sprache präsentiert wurden, wurden Belege seltener genutzt, obwohl sie darauf zurückgriffen, wenn diese Erklärungen unzureichend oder fehlerhaft erschienen. Qualitative Daten deuten darauf hin, dass die Teilnehmer versuchten, die Zuverlässigkeit der Belegquellen abzuleiten, obwohl die Quellenidentitäten bewusst weggelassen wurden. Unsere Ergebnisse zeigen, dass Belege eine Schlüsselkomponente dafür sind, wie Menschen die Zuverlässigkeit von durch ein KI-System präsentierten Informationen bewerten, und in Kombination mit Erklärungen in natürlicher Sprache eine wertvolle Entscheidungshilfe bieten. Weitere Forschung ist dringend erforderlich, um zu verstehen, wie Belege präsentiert werden sollten und wie Menschen in der Praxis mit ihnen interagieren.
Während große Sprachmodelle (LLMs) bei monolingualem mathematischem und gesundem Menschenverstand gute Leistungen zeigen, bleiben sie für mehrsprachige medizinische Anwendungen unzuverlässig, was ihren Einsatz in multilingualen Gesundheitssystemen behindert. Wir adressieren dieses Problem, indem wir zunächst CUREMED-BENCH vorstellen, einen hochwertigen, mehrsprachigen Datensatz für medizinisches Reasoning mit offenen Verständnisfragen und einer einzigen überprüfbaren Antwort, der dreizehn Sprachen abdeckt, einschließlich unterrepräsentierter Sprachen wie Amharisch, Yoruba und Swahili. Aufbauend auf diesem Datensatz schlagen wir CURE-MED vor, ein curriculum-informiertes Reinforcement-Learning-Framework, das code-switching-bewusstes supervidiertes Fine-Tuning und Group Relative Policy Optimization integriert, um logische Korrektheit und Sprachstabilität gemeinsam zu verbessern. Über dreizehn Sprachen hinweg übertrifft unser Ansatz durchgängig starke Baseline-Modelle und skaliert effektiv, wobei er bei 7B Parametern 85,21 % Sprachkonsistenz und 54,35 % logische Korrektheit sowie bei 32B Parametern 94,96 % Sprachkonsistenz und 70,04 % logische Korrektheit erreicht. Diese Ergebnisse unterstützen zuverlässiges und gerechtes mehrsprachiges medizinisches Reasoning in LLMs. Der Code und der Datensatz sind unter https://cure-med.github.io verfügbar.