papers.description
Die Bildgeolokalisierungsaufgabe zielt darauf ab, den Aufnahmeort eines Bildes anhand visueller Hinweise überall auf der Erde vorherzusagen. Bestehende Large Vision-Language-Modelle (LVLM) nutzen Weltwissen, Chain-of-Thought-Reasoning und agentenbasierte Fähigkeiten, übersehen jedoch eine gängige menschliche Strategie – die Verwendung von Karten. In dieser Arbeit statten wir das Modell zunächst mit der Fähigkeit „Denken mit Karten“ aus und formulieren es als Agent-in-the-Map-Schleife. Wir entwickeln ein zweistufiges Optimierungsschema dafür, bestehend aus bestärkendem Lernen (RL) für Agenten, gefolgt von parallelem Test-Time-Scaling (TTS). Das RL stärkt die agentenbasierte Fähigkeit des Modells, um die Stichprobeneffizienz zu verbessern, und das parallele TTS ermöglicht es dem Modell, mehrere Kandidatenpfade zu erkunden, bevor es die endgültige Vorhersage trifft, was für die Geolokalisierung entscheidend ist. Um unsere Methode an aktuellen und unkontrollierten Bildern zu evaluieren, stellen wir außerdem MAPBench vor, einen umfassenden Trainings- und Evaluierungsbenchmark für Geolokalisierung, der vollständig aus realen Bildern besteht. Experimentelle Ergebnisse zeigen, dass unsere Methode bestehende Open- und Closed-Source-Modelle bei den meisten Metriken übertrifft und speziell Acc@500m von 8,0 % auf 22,1 % verbessert, verglichen mit Gemini-3-Pro im Google Search/Map-gestützten Modus.
Die Autoformalisierung, die natürliche mathematische Sprache in formale Aussagen übersetzt, um maschinelles Schließen zu ermöglichen, steht in der Praxis vor grundlegenden Herausforderungen aufgrund der multimodalen Natur der physikalischen Welt, in der die Physik das Ablegen versteckter Randbedingungen (z.B. Masse oder Energie) aus visuellen Elementen erfordert. Um dies zu adressieren, schlagen wir MMFormalizer vor, das die Autoformalisierung über Text hinaus erweitert, indem es adaptive Verankerung mit Entitäten aus realen mathematischen und physikalischen Domänen integriert. MMFormalizer konstruiert rekursiv formale Aussagen aus wahrnehmungsbasierten Primitiven durch rekursive Verankerung und Axiomkomposition, wobei adaptiver rekursiver Abbruch sicherstellt, dass jede Abstraktion durch visuelle Evidenz gestützt und in dimensionaler oder axiomatischer Verankerung verankert ist. Wir evaluieren MMFormalizer anhand eines neuen Benchmarks, PhyX-AF, der 115 kuratierte Beispiele aus MathVerse, PhyX, Synthetischer Geometrie und Analytischer Geometrie umfasst und verschiedene multimodale Autoformalisierungsaufgaben abdeckt. Die Ergebnisse zeigen, dass Spitzenmodelle wie GPT-5 und Gemini-3-Pro die höchste Kompilierungs- und semantische Genauigkeit erreichen, wobei GPT-5 im physikalischen Schließen hervorsticht, während Geometrie die herausforderndste Domäne bleibt. Insgesamt bietet MMFormalizer einen skalierbaren Rahmen für vereinheitlichte multimodale Autoformalisierung, der Wahrnehmung und formales Schließen verbindet. Nach unserem Wissen ist dies die erste multimodale Autoformalisierungsmethode, die klassische Mechanik (abgeleitet vom Hamilton-Formalismus), sowie Relativitätstheorie, Quantenmechanik und Thermodynamik verarbeiten kann. Weitere Details sind auf unserer Projektseite verfügbar: MMFormalizer.github.io
Es wird ein photorealistisches und steuerbares 3D-Karikaturisierungsframework für Gesichter vorgestellt. Wir beginnen mit einer auf intrinsischer Gaußscher Krümmung basierenden Oberflächenüberzeichnungstechnik, die in Kombination mit Textur tendenziell zu weichgezeichneten Darstellungen führt. Um dies zu beheben, greifen wir auf 3D Gaussian Splatting (3DGS) zurück, das kürzlich für die Erstellung realistischer Freisicht-Avatare demonstriert wurde. Aus einer Multiview-Sequenz extrahieren wir ein FLAME-Mesh, lösen eine krümmungsgewichtete Poisson-Gleichung und erhalten deren überzeichnete Form. Die direkte Deformation der Gaußverteilungen führt jedoch zu unbefriedigenden Ergebnissen, weshalb wir Pseudoground-Truth-Karikaturbilder synthetisieren, indem wir jedes Einzelbild mittels lokaler affiner Transformationen in seine überzeichnete 2D-Darstellung überführen. Anschließend entwickeln wir ein Trainingsschema, das zwischen echter und synthetischer Überwachung alterniert und es einer einzelnen Gaußsammlung ermöglicht, sowohl natürliche als auch überzeichnete Avatare darzustellen. Dieses Schema verbessert die Detailtreue, unterstützt lokale Bearbeitungen und erlaubt eine kontinuierliche Steuerung der Karikaturintensität. Um Echtzeitverformungen zu ermöglichen, wird eine effiziente Interpolation zwischen der originalen und der überzeichneten Oberfläche eingeführt. Wir analysieren weiterhin und zeigen, dass diese eine begrenzte Abweichung von geschlossenen Lösungen aufweist. In quantitativen und qualitativen Evaluierungen übertreffen unsere Ergebnisse frühere Arbeiten und liefern photorealistische, geometriegesteuerte Karikaturavatare.
Große Sprachmodelle (LLMs) lernen oft keine effektiven langen Denkketten (Long CoT) durch Imitation von menschlichen oder nicht-Long-CoT-LLMs. Um dies zu verstehen, postulieren wir, dass effektive und erlernbare Long-CoT-Trajektorien in einer einheitlichen Betrachtung stabile, molekülähnliche Strukturen aufweisen, die durch drei Interaktionstypen gebildet werden: Tiefes Schlussfolgern (kovalentenartig), Selbstreflexion (wasserstoffbrückenähnlich) und Selbsterkundung (van-der-Waals-ähnlich). Analysen destillierter Trajektorien zeigen, dass diese Strukturen durch Long-CoT-Fine-Tuning entstehen und nicht durch Nachahmung von Schlüsselwörtern. Wir führen das Konzept der Effektiven Semantischen Isomere ein und zeigen, dass nur Bindungen, die eine schnelle Entropiekonvergenz fördern, stabiles Long-CoT-Lernen unterstützen, während struktureller Wettbewerb das Training beeinträchtigt. Aufbauend auf diesen Erkenntnissen stellen wir Mole-Syn vor, eine Methode basierend auf Distributions-Transfer-Graphen, welche die Synthese effektiver Long-CoT-Strukturen anleitet und so die Leistung sowie die Stabilität von Reinforcement Learning über verschiedene Benchmarks hinweg steigert.
In diesem Bericht stellen wir die Qwen3-VL-Embedding- und Qwen3-VL-Reranker-Modellreihen vor, die neuesten Erweiterungen der Qwen-Familie, die auf dem Qwen3-VL-Basismodell aufbauen. Gemeinsam bieten sie eine End-to-End-Pipeline für hochpräzise multimodale Suche, indem sie verschiedene Modalitäten – einschließlich Text, Bilder, Dokumentenbilder und Video – in einen einheitlichen Repräsentationsraum abbilden. Das Qwen3-VL-Embedding-Modell verwendet ein mehrstufiges Trainingsparadigma, das von groß angelegtem kontrastivem Pre-Training bis zur Distillation von Reranking-Modellen fortschreitet, um semantisch reiche hochdimensionale Vektoren zu erzeugen. Es unterstützt Matryoshka Representation Learning, ermöglicht flexible Embedding-Dimensionen und verarbeitet Eingaben von bis zu 32.000 Tokens. Ergänzend dazu führt Qwen3-VL-Reranker eine feinkörnige Relevanzschätzung für Query-Dokument-Paare mittels einer Cross-Encoder-Architektur mit Cross-Attention-Mechanismen durch. Beide Modellreihen erben die multilingualen Fähigkeiten von Qwen3-VL, unterstützen mehr als 30 Sprachen und werden in Parameterumfängen von 2B und 8B veröffentlicht, um unterschiedlichen Bereitstellungsanforderungen gerecht zu werden. Empirische Auswertungen zeigen, dass die Qwen3-VL-Embedding-Reihe state-of-the-art Ergebnisse in diversen multimodalen Embedding-Benchmarks erzielt. Insbesondere erreicht Qwen3-VL-Embedding-8B einen Gesamtscore von 77,8 auf MMEB-V2 und belegt damit den ersten Platz unter allen Modellen (Stand: 8. Januar 2025). Dieser Bericht stellt die Architektur, Trainingsmethodik und praktischen Fähigkeiten der Reihe vor und demonstriert deren Wirksamkeit bei verschiedenen multimodalen Retrieval-Aufgaben, einschließlich Bild-Text-Retrieval, Visual Question Answering und Video-Text-Matching.
Reinforcement Learning (RL) hat sich als entscheidende Technik zur Verbesserung von LLM-basierten Deep-Search-Agenten erwiesen. Bestehende Ansätze stützen sich jedoch hauptsächlich auf Belohnungen basierend auf binären Ergebnissen, die weder die Vollständigkeit noch die Faktizität des Reasoning-Prozesses der Agenten erfassen und oft zu unerwünschtem Verhalten wie der Ausnutzung von Abkürzungen und Halluzinationen führen. Um diese Einschränkungen zu adressieren, schlagen wir Citation-aware Rubric Rewards (CaRR) vor, ein feinkörniges Belohnungsframework für Deep-Search-Agenten, das die Vollständigkeit der Argumentation, faktische Fundierung und Evidenzverknüpfung betont. CaRR zerlegt komplexe Fragen in überprüfbare Single-Hop-Bewertungskriterien und verlangt von Agenten, diese Kriterien zu erfüllen, indem sie verborgene Entitäten explizit identifizieren, diese mit korrekten Zitaten belegen und vollständige Evidenzketten aufbauen, die zur vorhergesagten Antwort führen. Wir führen zudem Citation-aware Group Relative Policy Optimization (C-GRPO) ein, das CaRR mit Ergebnisfeedback kombiniert, um robuste Deep-Search-Agenten zu trainieren. Experimente zeigen, dass C-GRPO durchgängig Standard-RL-Baselines, die auf Ergebnissen basieren, in mehreren Deep-Search-Benchmarks übertrifft. Unsere Analyse bestätigt ebenfalls, dass C-GRPO die Ausnutzung von Abkürzungen wirksam unterbindet, umfassendes, evidenzbasiertes Reasoning fördert und eine starke Generalisierungsfähigkeit für offene Deep-Research-Aufgaben aufweist. Unser Code und unsere Daten sind unter https://github.com/THUDM/CaRR verfügbar.
Große Sprachmodelle (LLMs) sollen darauf trainiert werden, als Agenten in verschiedenen realen Umgebungen zu agieren, aber dieser Prozess ist auf reichhaltige und vielfältige Tool-Interaktions-Sandboxes angewiesen. Der Zugang zu realen Systemen ist jedoch oft eingeschränkt; LLM-simulierte Umgebungen neigen zu Halluzinationen und Inkonsistenzen; und manuell erstellte Sandboxes sind schwer zu skalieren. In diesem Artikel stellen wir EnvScaler vor, einen automatisierten Framework für skalierbare Tool-Interaktionsumgebungen durch programmatische Synthese. EnvScaler besteht aus zwei Komponenten. Zuerst konstruiert SkelBuilder diverse Umgebungsgerüste durch Topic Mining, Logikmodellierung und Qualitätsbewertung. Anschließend generiert ScenGenerator für jede Umgebung mehrere Aufgaben-Szenarien und regelbasierte Trajektorien-Validierungsfunktionen. Mit EnvScaler synthetisieren wir 191 Umgebungen und etwa 7.000 Szenarien und wenden diese auf Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) für die Qwen3-Serienmodelle an. Ergebnisse auf drei Benchmarks zeigen, dass EnvScaler die Fähigkeit von LLMs, Aufgaben in komplexen Umgebungen mit mehrstufigen, multi-tool Interaktionen zu lösen, signifikant verbessert. Wir veröffentlichen unseren Code und unsere Daten unter https://github.com/RUC-NLPIR/EnvScaler.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) ermöglichen agentenbasierte Systeme, die mit Verstärkungslernen (RL) über mehrstufige Interaktionsverläufe trainiert werden. Die praktische Anwendung wird jedoch durch schnell wachsende Textverläufe eingeschränkt, die Token-Budgets und Speicherverbrauch in die Höhe treiben. Wir stellen AgentOCR vor, ein Framework, das die überlegene Informationsdichte visueller Tokens nutzt, indem es den akkumulierten Beobachtungs-Aktions-Verlauf als kompaktes gerendertes Bild darstellt. Um mehrstufige Rollouts skalierbar zu machen, schlägt AgentOCR segmentbasiertes optisches Caching vor. Dieser Mechanismus zerlegt den Verlauf in hashbare Segmente und verwaltet einen visuellen Cache, um redundantes Neu-Rendern zu eliminieren. Über feste Darstellungen hinaus führt AgentOCR agentische Selbstkompression ein, bei der der Agent aktiv eine Kompressionsrate ausgibt und mit kompressionssensiblem Reward trainiert wird, um Aufgaben-erfolg und Token-Effizienz adaptiv auszubalancieren. Wir führen umfangreiche Experimente auf anspruchsvollen agentischen Benchmarks durch: ALFWorld und suchbasierte Frageantwortung. Bemerkenswerterweise zeigen die Ergebnisse, dass AgentOCR über 95 % der Leistung textbasierter Agenten bewahrt und gleichzeitig den Token-Verbrauch erheblich reduziert (>50 %), was zu konsistenter Token- und Speichereffizienz führt. Unsere weitere Analyse validiert eine 20-fache Beschleunigung des Renderings durch segmentbasiertes optisches Caching sowie die effektive strategische Balance der Selbstkompression.
Autonome maschinelle Lernagenten haben die wissenschaftliche Entdeckung revolutioniert, bleiben jedoch durch ein Generiere-Führe-Rückmeldung-Paradigma eingeschränkt. Bisherige Ansätze leiden unter einem gravierenden Ausführungsengpass, da die Hypothesenbewertung strikt auf kostspieliger physischer Ausführung beruht. Um diese physischen Beschränkungen zu umgehen, internalisieren wir Ausführungspriors, um teure Laufzeitprüfungen durch sofortiges prädiktives Schließen zu ersetzen, inspiriert von World Models. In dieser Arbeit formalisieren wir die Aufgabe der datenzentrierten Lösungspräferenz und erstellen einen umfassenden Korpus mit 18.438 paarweisen Vergleichen. Wir zeigen, dass LLMs signifikante prädiktive Fähigkeiten aufweisen, wenn sie mit einem verifizierten Datenanalysebericht vorbereitet werden, und erreichen dabei eine Genauigkeit von 61,5 % sowie eine robuste Konfidenzkalibrierung. Schließlich instanziieren wir diesen Rahmen in FOREAGENT, einem Agenten, der eine Prädiziere-dann-Prüfe-Schleife einsetzt und eine 6-fache Beschleunigung der Konvergenz erreicht, während er ausführungsbasierte Baseline-Methoden um +6 % übertrifft. Unser Code und Datensatz werden demnächst unter https://github.com/zjunlp/predict-before-execute öffentlich verfügbar sein.
Jüngste Fortschritte in der Videogenerierung wurden von Diffusions- und Flow-Matching-Modellen dominiert, die hochwertige Ergebnisse liefern, aber rechenintensiv und schwer zu skalieren bleiben. In dieser Arbeit stellen wir VideoAR vor, den ersten groß angelegten visuell-autoregressiven (VAR) Rahmen für die Videogenerierung, der Multi-Skalen-Nächster-Frame-Vorhersage mit autoregressiver Modellierung kombiniert. VideoAR entwirrt räumliche und zeitliche Abhängigkeiten durch die Integration von intra-frame VAR-Modellierung mit kausaler Nächster-Frame-Vorhersage, unterstützt durch einen 3D-Multi-Skalen-Tokenizer, der räumlich-zeitliche Dynamiken effizient kodiert. Um die Langzeitkonsistenz zu verbessern, schlagen wir Multi-Skalen Temporal RoPE, Cross-Frame-Fehlerkorrektur und Random Frame Mask vor, die gemeinsam die Fehlerfortpflanzung reduzieren und die zeitliche Kohärenz stabilisieren. Unsere mehrstufige Vor-Trainings-Pipeline richtet räumliches und zeitliches Lernen progressiv über steigende Auflösungen und Zeitdauern aus. Empirisch erzielt VideoAR neue state-of-the-art Ergebnisse unter autoregressiven Modellen, verbessert den FVD auf UCF-101 von 99,5 auf 88,6 bei gleichzeitiger Reduzierung der Inferenzschritte um über das 10-fache und erreicht einen VBench-Score von 81,74 – vergleichbar mit diffusionsbasierten Modellen, die eine Größenordnung größer sind. Diese Ergebnisse zeigen, dass VideoAR die Leistungslücke zwischen autoregressiven und Diffusions-Paradigmen verkleinert und eine skalierbare, effiziente und zeitlich konsistente Grundlage für die zukünftige Videogenerierungsforschung bietet.
Preference-Tuning passt vortrainierte Sprachmodelle an menschliche Bewertungen von Qualität, Hilfsbereitschaft oder Sicherheit an, indem es auf explizite Präferenzsignale optimiert und nicht nur auf Wahrscheinlichkeit. Frühere Arbeiten haben gezeigt, dass Preference-Tuning die Leistung und Hilfsbereitschaft verringert, wenn es außerhalb der Trainingsdomäne evaluiert wird. Inwieweit Anpassungsstrategien diese Domänenverschiebung abmildern, ist jedoch noch unerforscht. Wir stellen uns dieser Herausforderung, indem wir eine umfassende und systematische Studie zur Generalisierung der Ausrichtung unter Domänenverschiebung durchführen. Wir vergleichen fünf gängige Ausrichtungsziele und verschiedene Anpassungsstrategien von der Quell- zur Zieldomäne, einschließlich überwachter Feinabstimmung und Pseudolabeling in der Zieldomäne, über Zusammenfassungs- und Frage-Antwort-Hilfsbereitschaftsaufgaben hinweg. Unsere Ergebnisse zeigen systematische Unterschiede in der Generalisierung zwischen den Ausrichtungszielen unter Domänenverschiebung. Wir zeigen, dass auf Pseudolabeling basierende Anpassungsstrategien die Verschlechterung durch Domänenverschiebung erheblich reduzieren können.
Da Large Language Models (LLMs) zunehmend in realen Anwendungsszenarien eingesetzt werden, ist Korrektheit allein nicht ausreichend. Eine zuverlässige Implementierung erfordert die Aufrechterhaltung wahrheitsgemäßer Überzeugungen unter kontextuellen Störungen. Bisherige Evaluierungsmethoden stützen sich weitgehend auf punktuelle Konfidenzmaße wie Self-Consistency, die brüchige Überzeugungen verschleiern können. Wir zeigen, dass sich sogar Fakten mit perfekter Self-Consistency unter leichten kontextuellen Einflüssen rapid verschlechtern können. Um diese Lücke zu schließen, schlagen wir Neighbor-Consistency Belief (NCB) vor, ein strukturelles Maß für die Robustheit von Überzeugungen, das die Antwortkohärenz in einer konzeptuellen Nachbarschaft bewertet. Zur Validierung der Effizienz von NCB führen wir ein neues kognitives Stress-Test-Protokoll ein, das die Stabilität von Outputs unter kontextuellen Störungen untersucht. Experimente mit verschiedenen LLMs zeigen, dass die Performance von Daten mit hohem NCB-Wert relativ resistenter gegen Störungen ist. Abschließend präsentieren wir Structure-Aware Training (SAT), das kontextinvariante Überzeugungsstrukturen optimiert und die Brüchigkeit von Long-Tail-Wissen um circa 30% reduziert. Code wird unter https://github.com/zjunlp/belief verfügbar sein.
Jüngste Fortschritte in der Videogenerierung haben die Entwicklung von „Weltmodellen“ ermöglicht, die in der Lage sind, potenzielle Zukunftsszenarien für Robotik und Planung zu simulieren. Die präzise Zielvorgabe für diese Modelle bleibt jedoch eine Herausforderung: Textanweisungen sind oft zu abstrakt, um physische Nuancen zu erfassen, während Zielbilder für dynamische Aufgaben häufig nicht praktikabel spezifizierbar sind. Um dieses Problem zu lösen, stellen wir Goal Force vor, einen neuartigen Rahmen, der es Nutzern ermöglicht, Ziele über explizite Kraftvektoren und Zwischendynamiken zu definieren – ähnlich wie Menschen physikalische Aufgaben konzeptualisieren. Wir trainieren ein Videogenerierungsmodell auf einem kuratierten Datensatz synthetischer kausaler Primitive – wie elastische Kollisionen und fallende Dominosteine – und bringen ihm bei, Kräfte durch Zeit und Raum zu propagieren. Obwohl unser Modell nur auf einfachen physikalischen Daten trainiert wurde, zeigt es bemerkenswerte Zero-Shot-Generalisierung auf komplexe, realistische Szenarien, einschließlich Werkzeugmanipulation und kausaler Mehrobjektketten. Unsere Ergebnisse deuten darauf hin, dass Modelle durch die Verankerung der Videogenerierung in grundlegenden physikalischen Wechselwirkungen als implizite neuronale Physiksimulatoren fungieren können, was eine präzise, physikbewusste Planung ohne externe Engines ermöglicht. Wir veröffentlichen alle Datensätze, Code, Modellgewichte und interaktive Videodemos auf unserer Projektseite.
Große Sprachmodelle haben eine rasante Entwicklung durchlaufen und sich zu einer Schlüsseltechnologie für intelligente Finanzoperationen entwickelt. Allerdings sind bestehende Benchmarks oft durch Fallstricke wie die Abhängigkeit von simulierten oder allgemeinen Stichproben und die Fokussierung auf singuläre, offline-statische Szenarien eingeschränkt. Folglich entsprechen sie nicht den Anforderungen an Authentizität und Echtzeit-Reaktionsfähigkeit in Finanzdienstleistungen, was zu einer erheblichen Diskrepanz zwischen Benchmark-Leistung und tatsächlicher operationeller Effizienz führt. Um dies zu adressieren, stellen wir BizFinBench.v2 vor, den ersten groß angelegten Evaluierungs-Benchmark, der auf authentischen Geschäftsdaten aus chinesischen und US-Aktienmärkten basiert und Online-Bewertung integriert. Wir führten eine Clusteranalyse authentischer Nutzeranfragen von Finanzplattformen durch, was zu acht grundlegenden Aufgaben und zwei Online-Aufgaben in vier Kernanwendungsszenarien führte – insgesamt 29.578 Experten-level Frage-Antwort-Paare. Experimentelle Ergebnisse zeigen, dass ChatGPT-5 eine bemerkenswerte Genauigkeit von 61,5 % in den Hauptaufgaben erreicht, obwohl eine erhebliche Lücke zu Finanzexperten bestehen bleibt; bei Online-Aufgaben übertrifft DeepSeek-R1 alle anderen kommerziellen LLMs. Fehleranalysen identifizieren weiterhin die spezifischen Fähigkeitsdefizite bestehender Modelle in praktischen Finanzgeschäftskontexten. BizFinBench.v2 überwindet die Grenzen aktueller Benchmarks, erreicht eine geschäftsorientierte Dekonstruktion der finanziellen Fähigkeiten von LLMs und bietet eine präzise Grundlage zur Bewertung der Effizienz beim breiten Einsatz von LLMs im Finanzbereich. Die Daten und der Code sind verfügbar unter https://github.com/HiThink-Research/BizFinBench.v2.
Monokulare Tiefenschätzung zielt darauf ab, die Tiefeninformationen von 3D-Szenen aus 2D-Bildern wiederherzustellen. Jüngste Arbeiten haben bedeutende Fortschritte erzielt, doch die Abhängigkeit von groß angelegten Datensätzen und komplexen Decodern hat ihre Effizienz und Generalisierungsfähigkeit eingeschränkt. In diesem Beitrag schlagen wir einen leichtgewichtigen und datenzentrierten Rahmenansatz für die null-Shot monokulare Tiefenschätzung vor. Zunächst setzen wir DINOv3 als visuellen Encoder ein, um hochwertige dichte Merkmale zu erhalten. Zweitens entwerfen wir, um die inhärenten Nachteile der komplexen Struktur des DPT zu adressieren, den Simple Depth Transformer (SDT), einen kompakten transformerbasierten Decoder. Im Vergleich zum DPT verwendet dieser einen Einzelweg-Feature-Fusion- und Upsampling-Prozess, um den Rechenaufwand der skalenübergreifenden Merkmalsfusion zu reduzieren, und erreicht dabei eine höhere Genauigkeit, während die Anzahl der Parameter um etwa 85 %–89 % reduziert wird. Darüber hinaus schlagen wir eine qualitätsbasierte Filterstrategie vor, um schädliche Stichproben herauszufiltern, wodurch die Datensatzgröße verringert und gleichzeitig die allgemeine Trainingsqualität verbessert wird. Umfangreiche Experimente auf fünf Benchmarks zeigen, dass unser Rahmenansatz den DPT in puncto Genauigkeit übertrifft. Diese Arbeit unterstreicht die Bedeutung einer Ausgewogenheit zwischen Modellentwurf und Datenqualität, um eine effiziente und generalisierbare null-Shot Tiefenschätzung zu erreichen. Code: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
Große Sprachmodelle (LLMs) finden inzwischen breite Anwendung in verschiedenen Bereichen der Finanzwelt. Da ihre Trainingsdaten größtenteils von Menschen verfassten Textkorpora entstammen, können LLMs eine Reihe menschlicher Verzerrungen (Biases) übernehmen. Verhaltensbezogene Verzerrungen können zu Instabilität und Unsicherheit in Entscheidungsprozessen führen, insbesondere bei der Verarbeitung finanzieller Informationen. Bisherige Forschungen zu LLM-Bias konzentrierten sich jedoch hauptsächlich auf direkte Befragungen oder vereinfachte, allgemeine Rahmenbedingungen, wobei die komplexen realen Finanzumgebungen und hochriskanten, kontextsensitiven, mehrsprachigen Aufgaben zur Erkennung finanzieller Fehlinformationen (\mfmd) nur begrenzt berücksichtigt wurden. In dieser Arbeit schlagen wir \mfmdscen vor, einen umfassenden Benchmark zur Bewertung verhaltensbezogener Verzerrungen von LLMs in \mfmd über verschiedene Wirtschaftsszenarien hinweg. In Zusammenarbeit mit Finanzexperten konstruieren wir drei Arten komplexer Finanzszenarien: (i) rollen- und persönlichkeitsbasierte, (ii) rollen- und regionsbasierte sowie (iii) rollenbasierte Szenarien, die Ethnizität und religiöse Überzeugungen einbeziehen. Wir entwickeln ferner einen mehrsprachigen Datensatz zu finanziellen Fehlinformationen, der Englisch, Chinesisch, Griechisch und Bengalisch abdeckt. Durch die Integration dieser Szenarien mit Fehlinformationsbehauptungen ermöglicht \mfmdscen eine systematische Evaluation von 22 Mainstream-LLMs. Unsere Ergebnisse zeigen, dass ausgeprägte verhaltensbezogene Verzerrungen sowohl bei kommerziellen als auch Open-Source-Modellen bestehen bleiben. Dieses Projekt wird unter https://github.com/lzw108/FMD verfügbar sein.
Suchagenten auf Basis großer Sprachmodelle (Large Language Models, LLMs) haben sich als vielversprechend für die Bewältigung von wissensintensiven Problemen erwiesen, indem sie Information-Retrieval-Fähigkeiten integrieren. Bisherige Arbeiten konzentrieren sich weitgehend auf die Optimierung der Reasoning-Paradigmen von Suchagenten, während die Qualität der intermediären Suchanfragen während des Reasoning-Prozesses weitgehend unberücksichtigt bleibt. Infolgedessen sind die generierten Anfragen oft unpräzise, was zu unerwarteten Retrieval-Ergebnissen führt und letztlich die Gesamteffektivität der Suchagenten begrenzt. Um dieses Problem zu mildern, stellen wir SmartSearch vor, ein Framework, das auf zwei Schlüsselmechanismen aufbaut: (1) Prozessbelohnungen (Process Rewards), die eine feingranulare Überwachung der Qualität jeder intermediären Suchanfrage durch eine Dual-Level-Credit-Assessment ermöglichen. (2) Query-Verfeinerung (Query Refinement), die die Optimierung der Query-Generierung fördert, indem qualitativ minderwertige Suchanfragen selektiv verfeinert und darauf aufbauend nachfolgende Suchrunden neu generiert werden. Um dem Suchagenten zu ermöglichen, die Fähigkeit zur Verbesserung der Query-Qualität unter Anleitung der Prozessbelohnungen schrittweise zu internalisieren, entwerfen wir ein dreistufiges Curriculum-Learning-Framework. Dieses Framework führt den Agenten durch eine Progression von Imitation über Alignment bis hin zur Generalisierung. Experimentelle Ergebnisse zeigen, dass SmartSearch durchgängig bestehende Baseline-Methoden übertrifft, und zusätzliche quantitative Analysen bestätigen weiterhin seine signifikanten Verbesserungen sowohl in der Such Effizienz als auch in der Query-Qualität. Der Code ist verfügbar unter https://github.com/MYVAE/SmartSearch.
Diese Arbeit stellt Orient Anything V2 vor, ein erweitertes Foundation-Modell für das einheitliche Verständnis der 3D-Orientierung und -Rotation von Objekten aus einzelnen oder gepaarten Bildern. Aufbauend auf Orient Anything V1, das die Orientierung über eine einzige eindeutige Vorderseite definiert, erweitert V2 diese Fähigkeit, um Objekte mit diversen Rotationssymmetrien zu handhaben und relative Rotationen direkt zu schätzen. Diese Verbesserungen werden durch vier zentrale Innovationen ermöglicht: 1) Skalierbare 3D-Assets, die durch generative Modelle synthetisiert werden und eine breite Abdeckung von Kategorien sowie eine ausgeglichene Datenverteilung gewährleisten; 2) Ein effizientes, modellgestütztes Annotationssystem, das robust 0 bis N gültige Vorderseiten für jedes Objekt identifiziert; 3) Ein symmetrieawarees, periodisches Verteilungsanpassungsziel, das alle plausiblen vorderseitigen Orientierungen erfasst und die Rotationssymmetrie von Objekten effektiv modelliert; 4) Eine Multi-Frame-Architektur, die relative Objektrotationen direkt vorhersagt. Umfangreiche Experimente zeigen, dass Orient Anything V2 state-of-the-art Zero-Shot-Leistungen in den Bereichen Orientierungsschätzung, 6DoF-Posenschätzung und Objektsymmetrieerkennung über 11 weit verbreitete Benchmarks hinweg erzielt. Das Modell demonstriert eine starke Generalisierungsfähigkeit und erweitert die Anwendbarkeit der Orientierungsschätzung für diverse Downstream-Aufgaben signifikant.
Mixture-of-Experts (MoE) hat sich zu einem bedeutenden Paradigma für die Skalierung von Large Language Models (LLMs) entwickelt. Parameter-effizientes Fine-Tuning (PEFT), wie beispielsweise LoRA, wird häufig eingesetzt, um vortrainierte MoE-LLMs für nachgelagerte Aufgaben anzupassen. Bisherige Ansätze weisen jedoch allen Experten identische LoRA-Ränge zu und übersehen dabei die intrinsische funktionale Spezialisierung innerhalb von MoE-LLMs. Diese gleichmäßige Zuweisung führt zu einer Fehlallokation von Ressourcen: aufgabenspezifisch relevante Experten werden unterversorgt, während weniger relevante Experten redundante Parameter erhalten. Wir schlagen ein Framework namens DR-LoRA (Dynamic Rank LoRA) vor, das die LoRA-Ränge der Experten während des Fine-Tunings dynamisch auf der Grundlage aufgabenspezifischer Anforderungen erhöht. DR-LoRA verwendet einen Expert Saliency Scoring-Mechanismus, der die Routing-Häufigkeit der Experten und die Bedeutung ihrer LoRA-Ränge integriert, um den Bedarf jedes Experten an zusätzlicher Kapazität zu quantifizieren. Experten mit höheren Saliency-Scores werden bei der Rang-Erweiterung priorisiert, was die automatische Bildung einer heterogenen Rangverteilung ermöglicht, die auf die Zielaufgabe zugeschnitten ist. Experimente auf mehreren Benchmarks zeigen, dass DR-LoRA unter gleichem Parameterbudget durchweg Standard-LoRA und statischen Allokationsstrategien überlegen ist und eine bessere Aufgabenleistung bei effizienterer Parameternutzung erzielt.
Suchaugmentierte große Sprachmodelle (Large Language Models, LLMs) übertreffen andere Modelle bei wissensintensiven Aufgaben durch die Integration externer Abfragen. Allerdings neigen sie oft zu Über-Suchen – sie rufen die Suchfunktion unnötig auf, selbst wenn dies die Antwortqualität nicht verbessert, was zu rechenineffizientem Verhalten und Halluzinationen durch die Einbeziehung irrelevanter Kontexte führt. In dieser Arbeit führen wir eine systematische Evaluation von Über-Suchen über mehrere Dimensionen hinweg durch, einschließlich Fragentypen, Modellkategorien, Abfragebedingungen und mehrteiligen Konversationen. Unsere Ergebnisse zeigen: (i) Suchen verbessert generell die Antwortgenauigkeit bei beantwortbaren Fragen, verschlechtert jedoch die Zurückhaltung bei unbeantwortbaren; (ii) Über-Suchen ist ausgeprägter in Modellen für komplexes Schließen und tiefgehenden Recherchesystemen, wird durch verrauschte Abfragen verstärkt und potenziert sich über mehrere Runden in mehrteiligen Konversationen; und (iii) die Zusammensetzung der abgerufenen Evidenz ist entscheidend, da das Vorhandensein negativer Evidenz die Zurückhaltung verbessert. Um Über-Suchen zu quantifizieren, führen wir Tokens Per Correctness (TPC) ein, eine Evaluationsmetrik, die den Kompromiss zwischen Leistung und Kosten für suchaugmentierte LLMs erfasst. Abschließend untersuchen wir Ansätze zur Minderung sowohl auf der Frage- als auch auf der Abfrageebene und veröffentlichen OverSearchQA, um die weitere Forschung zu effizienten suchaugmentierten LLMs zu fördern.
Multi-Agent Systems (MAS) sind zu einem leistungsstarken Paradigma für die Entwicklung hochperformanter intelligenter Anwendungen geworden. Innerhalb dieser Systeme spielt der Router, der für die Bestimmung zuständig ist, welche Expert-Agents eine bestimmte Anfrage bearbeiten sollen, eine entscheidende Rolle für die Gesamtleistung. Bestehende Routing-Strategien lassen sich generell in zwei Kategorien einteilen: Performancerouting, das Latenz und Kosten über Modelle unterschiedlicher Größe ausbalanciert, und Task-Routing, das Anfragen domainspezifischen Experten zuweist, um die Genauigkeit zu verbessern. In realen Unternehmensanwendungen ist Task-Routing besser geeignet; die meisten bestehenden Ansätze stützen sich jedoch auf statische Einzel-Label-Entscheidungen, die zwei wesentliche Einschränkungen mit sich bringen: (i) Schwierigkeiten bei der nahtlosen Integration neuer Agenten bei der Erweiterung von Geschäftsdomänen und (ii) Routing-Konflikte, die durch überlappende Agenten-Fähigkeiten verursacht werden, was letztlich die Genauigkeit und Robustheit beeinträchtigt. Um diese Herausforderungen zu bewältigen, schlagen wir TCAndon-Router (TCAR) vor: einen adaptiven Reasoning-Router für die Multi-Agenten-Kollaboration. Im Gegensatz zu traditionellen Routern unterstützt TCAR die dynamische Integration von Agenten und generiert zunächst eine Reasoning-Kette in natürlicher Sprache, bevor er eine Gruppe von Kandidaten-Agenten vorhersagt, die in der Lage sind, die Anfrage zu bearbeiten. Zusätzlich entwerfen wir eine kollaborative Ausführungspipeline, in der ausgewählte Agenten unabhängig Antworten produzieren, die dann von einem dedizierten Refining-Agenten zu einer einzigen hochwertigen Antwort aggregiert und verfeinert werden. Experimente auf öffentlichen Datensätzen und mit realen Unternehmensdaten zeigen, dass TCAR die Routing-Genauigkeit signifikant verbessert, Routing-Konflikte reduziert und in mehrdeutigen Szenarien robust bleibt. Wir haben TCAR unter https://huggingface.co/tencent/TCAndon-Rooter veröffentlicht, um zukünftige Forschung zu erklärbarem und kollaborativem Multi-Agenten-Routing zu unterstützen.
Große Sprachmodelle (LLMs) werden zunehmend als intelligente Agenten eingesetzt, die schlussfolgern, planen und mit ihrer Umgebung interagieren. Um effektiv auf Szenarien mit langem Zeithorizont zu skalieren, ist eine Schlüsselfähigkeit für solche Agenten ein Gedächtnismechanismus, der vergangene Erfahrungen speichern, organisieren und abrufen kann, um nachgelagerte Entscheidungsfindung zu unterstützen. Die meisten bestehenden Ansätze organisieren und speichern Erinnerungen jedoch auf flache Weise und stützen sich auf einfache, ähnlichkeitsbasierte Abruftechniken. Selbst wenn strukturiertes Gedächtnis eingeführt wird, haben bestehende Methoden oft Schwierigkeiten, die logischen Beziehungen zwischen Erfahrungen oder Gedächtniseinheiten explizit zu erfassen. Darüber hinaus ist der Gedächtniszugriff weitgehend von der aufgebauten Struktur entkoppelt und beruht immer noch auf flachem semantischem Abruf, was Agenten daran hindert, logisch über langfristige Abhängigkeiten zu schlussfolgern. In dieser Arbeit schlagen wir CompassMem vor, ein ereigniszentriertes Gedächtnisframework, das von der Event Segmentation Theory inspiriert ist. CompassMem organisiert das Gedächtnis als Ereignisgraph, indem es Erfahrungen inkrementell in Ereignisse segmentiert und diese durch explizite logische Relationen verknüpft. Dieser Graph dient als Logikkarte und ermöglicht es Agenten, strukturierte und zielgerichtete Navigation im Gedächtnis durchzuführen, die über oberflächlichen Abruf hinausgeht, um schrittweise wertvolle Erinnerungen zur Unterstützung langfristiger Schlussfolgerungen zu sammeln. Experimente auf LoCoMo und NarrativeQA zeigen, dass CompassMem die Abruf- und Reasoning-Leistung über mehrere Basismodelle hinweg konsistent verbessert.
Da generative Modelle allgegenwärtig werden, besteht ein dringender Bedarf an feinkörniger Steuerung des Generierungsprozesses. Doch während sich kontrollierte Generierungsverfahren von Prompting bis hin zum Fine-Tuning vervielfachen, bleibt eine grundlegende Frage unbeantwortet: Sind diese Modelle überhaupt wirklich kontrollierbar? In dieser Arbeit stellen wir einen theoretischen Rahmen bereit, um diese Frage formal zu beantworten. Indem wir die Mensch-Modell-Interaktion als Steuerungsprozess betrachten, schlagen wir einen neuartigen Algorithmus zur Schätzung der kontrollierbaren Bereiche von Modellen in einem Dialogkontext vor. Besonders bemerkenswert sind unsere formalen Garantien zum Schätzfehler als Funktion der Stichprobenkomplexität: Wir leiten probably-approximately-correct-Schranken für Schätzungen kontrollierbarer Mengen ab, die verteilungsfrei sind, keine Annahmen außer der Beschränktheit der Ausgaben verwenden und für jedes Black-Box-nichtlineare Steuerungssystem (d.h. jedes generative Modell) funktionieren. Wir demonstrieren den theoretischen Rahmen empirisch an verschiedenen Aufgaben zur Steuerung von Dialogprozessen, sowohl für Sprachmodelle als auch für Text-zu-Bild-Generierung. Unsere Ergebnisse zeigen, dass die Kontrollierbarkeit von Modellen überraschend fragil und stark abhängig vom experimentellen Setting ist. Dies unterstreicht die Notwendigkeit rigoroser Kontrollierbarkeitsanalysen, die den Fokus vom bloßen Versuch der Kontrolle hin zu einem grundlegenden Verständnis ihrer Grenzen verlagern.
Die Ausrichtung künstlicher Intelligenz (KI) umfasst sowohl das normative Problem der Spezifikation, wie KI-Systeme handeln sollten, als auch das technische Problem der Gewährleistung, dass KI-Systeme diesen Spezifikationen entsprechen. Bislang hat sich die KI-Ausrichtung generell eine wichtige Wissens- und Praxisquelle zur Bewältigung dieser Probleme übersehen: das Recht. In diesem Beitrag wollen wir diese Lücke schließen, indem wir untersuchen, wie Rechtsnormen, Prinzipien und Methoden genutzt werden können, um Probleme der Ausrichtung anzugehen und die Gestaltung von KI-Systemen zu informieren, die sicher und ethisch operieren. Dieses neue Feld – die rechtliche Ausrichtung – konzentriert sich auf drei Forschungsrichtungen: (1) die Gestaltung von KI-Systemen, damit sie den Inhalt von Rechtsnormen einhalten, die durch legitime Institutionen und Prozesse entwickelt wurden, (2) die Anpassung von Methoden der Rechtsauslegung, um zu steuern, wie KI-Systeme schlussfolgern und Entscheidungen treffen, und (3) die Nutzung rechtlicher Konzepte als strukturelle Blaupause zur Bewältigung von Herausforderungen bezüglich Zuverlässigkeit, Vertrauen und Kooperation in KI-Systemen. Diese Forschungsrichtungen werfen neue konzeptionelle, empirische und institutionelle Fragen auf, darunter die Untersuchung des spezifischen Rechtsrahmens, den bestimmte KI-Systeme befolgen sollten, die Entwicklung von Evaluierungsmethoden zur Bewertung ihrer Rechtskonformität in realen Anwendungsszenarien und die Erarbeitung von Governance-Strukturen zur praktischen Umsetzung rechtlicher Ausrichtung. Die Bearbeitung dieser Fragen erfordert Expertise aus Rechtswissenschaft, Informatik und anderen Disziplinen und bietet diesen Gemeinschaften die Möglichkeit, bei der Gestaltung von KI für das Gemeinwohl zusammenzuarbeiten.
Jüngste Fortschritte bei Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) für das Schlussfolgern großer Sprachmodelle (LLMs) werden durch eine anhaltende Herausforderung behindert: Exploration Collapse. Die semantische Homogenität zufälliger Rollouts fängt Modelle häufig in engen, überoptimierten Verhaltensweisen ein. Während bestehende Methoden die Policy-Entropie zur Förderung der Exploration nutzen, stoßen sie auf inhärente Grenzen. Globale Entropieregularisierung ist anfällig für Reward Hacking, was zu bedeutungsloser Weitschweifigkeit führen kann, während lokale, token-selektive Updates mit der starken induktiven Verzerrung vortrainierter Modelle kämpfen. Um dies zu adressieren, schlagen wir Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO) vor, einen neuartigen Ansatz, der die Exploration von der statistischen Perturbation von Token-Verteilungen auf das topologische Verzweigen von Reasoning-Pfaden verlagert. IIB-LPO löst latente Verzweigungen in Hoch-Entropie-Zuständen aus, um Reasoning-Pfade zu diversifizieren, und nutzt das Information-Bottleneck-Prinzip sowohl als Trajektorienfilter als auch als Selbstbelohnungsmechanismus, um präzise und informative Exploration zu gewährleisten. Empirische Ergebnisse über vier mathematische Reasoning-Benchmarks zeigen, dass IIB-LPO state-of-the-art Leistung erreicht und frühere Methoden um bis zu 5,3 % in der Genauigkeit und 7,4 % in Diversitätsmetriken übertrifft.
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben diese zu einem vielversprechenden Paradigma für Agenten gemacht, wobei langfristige Planung und Entscheidungsfindung als zentrale Allzweckfähigkeiten für die Anpassung an verschiedene Szenarien und Aufgaben hervortreten. Echtzeitstrategie-Spiele (RTS) dienen als ideale Testumgebung zur Bewertung dieser beiden Fähigkeiten, da ihr inhärenter Spielverlauf sowohl strategische Planung auf Makroebene als auch taktische Anpassung und Aktionsausführung auf Mikroebene erfordert. Bestehende, auf RTS-Spielen basierende Umgebungen leiden entweder unter relativ hohen Rechenanforderungen oder fehlender Unterstützung für textuelle Beobachtungen, was die Nutzung von RTS-Spielen zur LLM-Evaluierung eingeschränkt hat. Aus dieser Motivation heraus präsentieren wir TowerMind, eine neuartige Umgebung, die im Tower-Defense (TD)-Subgenre von RTS-Spielen angesiedelt ist. TowerMind bewahrt die zentralen Evaluierungsstärken von RTS-Spielen zur Bewertung von LLMs, zeichnet sich jedoch durch geringe Rechenanforderungen und einen multimodalen Beobachtungsraum aus, der pixelbasierte, textuelle und strukturierte Spielzustandsrepräsentationen umfasst. Zusätzlich unterstützt TowerMind die Bewertung von Modellhalluzinationen und bietet einen hohen Grad an Anpassbarkeit. Wir entwerfen fünf Benchmark-Level, um mehrere weit verbreitete LLMs unter verschiedenen multimodalen Eingabeeinstellungen zu evaluieren. Die Ergebnisse zeigen eine deutliche Leistungslücke zwischen LLMs und menschlichen Experten sowohl in den Fähigkeits- als auch in den Halluzinationsdimensionen. Die Experimente verdeutlichen weiterhin zentrale Limitationen im LLM-Verhalten, wie unzureichende Planungsvalidierung, mangelnde Multifinalität in der Entscheidungsfindung und ineffiziente Aktionsnutzung. Wir evaluieren außerdem zwei klassische Reinforcement-Learning-Algorithmen: Ape-X DQN und PPO. Durch seinen leichtgewichtigen und multimodalen Aufbau ergänzt TowerMind die bestehende Landschaft RTS-basierter Umgebungen und führt einen neuen Benchmark für das Feld der KI-Agenten ein. Der Quellcode ist öffentlich auf GitHub verfügbar (https://github.com/tb6147877/TowerMind).
Die Bewertung der Gesichtsbildqualität (FIQA) ist entscheidend für zuverlässige Gesichtserkennungssysteme. Bisherige Ansätze nutzen hauptsächlich Endschicht-Repräsentationen, während trainierungsfreie Methoden mehrere Vorwärtsdurchläufe oder Backpropagation erfordern. Wir stellen ViTNT-FIQA vor, einen trainierungsfreien Ansatz, der die Stabilität der Entwicklung von Patch-Embeddings über intermediäre Vision-Transformer-(ViT)-Blöcke hinweg misst. Wir zeigen, dass hochwertige Gesichtsbilder stabile Merkmalsverfeinerungspfade über Blöcke hinweg aufweisen, während degradierte Bilder unregelmäßige Transformationen zeigen. Unser Verfahren berechnet euklidische Abstände zwischen L2-normalisierten Patch-Embeddings aufeinanderfolgender Transformer-Blöcke und aggregiert diese zu bildbasierten Qualitätswerten. Wir validieren diese Korrelation empirisch an einem qualitätsbewerteten synthetischen Datensatz mit kontrollierten Degradationsstufen. Im Gegensatz zu bestehenden trainierungsfreien Ansätzen benötigt ViTNT-FIQA nur einen einzigen Vorwärtsdurchlauf ohne Backpropagation oder Architekturmodifikationen. Durch umfassende Evaluation auf acht Benchmarks (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C) zeigen wir, dass ViTNT-FIQA wettbewerbsfähige Leistung mit state-of-the-art Methoden erreicht, dabei Recheneffizienz bewahrt und sofort auf vortrainierte ViT-basierte Gesichtserkennungsmodelle anwendbar ist.
Wir schlagen ein Framework vor, das die Kosten von Inferenzzeit-Ressourcen amortisiert, indem es flüchtige Kritiken in abrufbare Richtlinien umwandelt – durch ein dateibasiertes Speichersystem und agentengesteuerte Tool-Aufrufe. Wir evaluieren diese Methode auf der Rubric Feedback Bench, einem neuartigen Datensatz für rubrikbasiertes Lernen. Experimente zeigen, dass unsere erweiterten LLMs schnell die Leistung von Testzeit-Verfeinerungspipelines erreichen, während sie die Inferenzkosten drastisch reduzieren.
Echtzeit-Multimodale Auto-Vervollständigung ist entscheidend für digitale Assistenten, Chatbots, Designtools und Gesundheitsberatungen, bei denen Benutzereingaben auf geteiltem visuellem Kontext basieren. Wir stellen Multimodale Auto-Vervollständigung (MAC) vor, eine Aufgabe, die bevorstehende Zeichen in Live-Chats anhand teilweise eingegebenen Texts und visueller Hinweise vorhersagt. Im Gegensatz zur traditionellen rein textbasierten Auto-Vervollständigung (TAC) verankert MAC Vorhersagen im multimodalen Kontext, um die Benutzerabsicht besser zu erfassen. Um diese Aufgabe zu ermöglichen, passen wir MMDialog und ImageChat an, um Benchmark-Datensätze zu erstellen. Wir bewerten führende Vision-Language-Modelle (VLMs) gegen starke textuelle Baselines und beleuchten Zielkonflikte zwischen Genauigkeit und Effizienz. Wir präsentieren Router-Suggest, ein Router-Framework, das dynamisch zwischen textuellen Modellen und VLMs basierend auf dem Dialogkontext auswählt, sowie eine leichtgewichtige Variante für ressourcenbeschränkte Umgebungen. Router-Suggest erreicht eine 2,3- bis 10-fache Beschleunigung gegenüber dem leistungsstärksten VLM. Eine Benutzerstudie zeigt, dass VLMs textuelle Modelle bei der Benutzerzufriedenheit signifikant übertreffen, insbesondere durch Einsparung von Tippaufwand und Verbesserung der Vervollständigungsqualität in Mehrfachdialogen. Diese Ergebnisse unterstreichen die Notwendigkeit multimodalen Kontexts für Auto-Vervollständigungen, um intelligentere, benutzerbewusste Assistenten zu ermöglichen.
Afrika beherbergt über ein Drittel aller Sprachen der Welt, ist jedoch in der KI-Forschung nach wie vor unterrepräsentiert. Wir stellen Afri-MCQA vor, den ersten multikulturellen Benchmark für Frage-Antwort-Aufgaben, der 7.500 Frage-Antwort-Paare in 15 afrikanischen Sprachen aus 12 Ländern umfasst. Der Benchmark bietet parallele Frage-Antwort-Paare in Englisch und afrikanischen Sprachen in Text- und Sprachmodalitäten und wurde vollständig von Muttersprachlern erstellt. Die Evaluierung großer Sprachmodelle (LLMs) anhand von Afri-MCQA zeigt, dass Open-Weight-Modelle in allen untersuchten Kulturräumen schlecht abschneiden, mit einer Genauigkeit nahe null bei offenen VQA-Aufgaben, wenn die Abfrage in der Muttersprache oder per Spracheingabe erfolgt. Um die linguistische Kompetenz zu bewerten, haben wir Kontrollexperimente eingeschlossen, die diesen spezifischen Aspekt unabhängig vom Kulturwissen erfassen sollen. Dabei beobachten wir signifikante Leistungsunterschiede zwischen Muttersprachen und Englisch, sowohl bei Text als auch bei Sprache. Diese Ergebnisse unterstreichen die Notwendigkeit von sprachzentrierten Ansätzen, kulturell fundiertem Pre-training und cross-lingualem Kulturtransfer. Um eine inklusivere Entwicklung multimodaler KI für afrikanische Sprachen zu unterstützen, veröffentlichen wir unser Afri-MCQA unter einer akademischen Lizenz bzw. CC BY-NC 4.0 auf HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
Die Persona-Konditionierung kann als behaviorale A-priori-Information für große Sprachmodelle (LLMs) betrachtet werden und wird oft pauschal als Methode zur Vermittlung von Expertise und Verbesserung der Sicherheit angenommen. Ihre Auswirkungen auf klinische Entscheidungen mit hohen Konsequenzen sind jedoch kaum charakterisiert. Wir evaluieren systematisch die persona-basierte Steuerung in klinischen LLMs und untersuchen, wie Berufsrollen (z.B. Notarzt, Pflegekraft) und Interaktionsstile (kühn vs. vorsichtig) das Verhalten über verschiedene Modelle und medizinische Aufgaben hinweg beeinflussen. Wir bewerten die Leistung bei klinischer Triage und Patientensicherheits-Aufgaben mittels multidimensionaler Evaluationen, die Aufgaben-Genauigkeit, Kalibrierung und sicherheitsrelevantes Risikoverhalten erfassen. Wir finden systematische, kontextabhängige und nicht-monotone Effekte: Medizinische Personas verbessern die Leistung in kritischen Versorgungsaufgaben mit Gewinnen von bis zu ca. +20 % bei Genauigkeit und Kalibrierung, verschlechtern jedoch die Leistung in der primärärztlichen Versorgung in ähnlichem Maße. Der Interaktionsstil moduliert die Risikoneigung und -sensitivität, jedoch in stark modellabhängiger Weise. Während aggregierte LLM-Judge-Rankings medizinische Personas in sicherheitskritischen Fällen bevorzugen, zeigten menschliche Kliniker eine moderate Übereinstimmung bezüglich Sicherheitskonformität (durchschnittliches Cohens κ = 0,43), äußerten jedoch in 95,9 % ihrer Antworten zur Urteilsqualität geringes Vertrauen. Unsere Arbeit zeigt, dass Personas als behaviorale Priors fungieren, die kontextabhängige Zielkonflikte einführen, anstatt Sicherheit oder Expertise zu garantieren. Der Code ist verfügbar unter https://github.com/rsinghlab/Persona_Paradox.