papers.description
Sprachagenten haben ein bemerkenswertes Potenzial bei der Websuche und Informationsbeschaffung gezeigt. Allerdings gehen diese Suchagenten davon aus, dass Nutzeranfragen vollständig und eindeutig sind – eine Annahme, die sich von der Realität unterscheidet, in der Nutzer mit unvollständigen Anfragen beginnen, die Klärung durch Interaktion erfordern. Dennoch verfügen die meisten Agenten über keine interaktiven Mechanismen während des Suchprozesses, und bestehende Benchmark-Tests können diese Fähigkeit nicht bewerten. Um diese Lücke zu schließen, stellen wir InteractComp vor, einen Benchmark-Test, der entwickelt wurde, um zu bewerten, ob Suchagenten Mehrdeutigkeiten in Anfragen erkennen und aktiv durch Interaktion während der Suche auflösen können. Gemäß dem Prinzip „einfach zu verifizieren, interaktiv zu disambiguieren“ haben wir 210 von Experten kuratierte Fragen aus 9 Domänen mithilfe einer Target-Distractor-Methodik erstellt, die echte Mehrdeutigkeiten erzeugt, die nur durch Interaktion aufgelöst werden können. Die Auswertung von 17 Modellen zeigt ein frappierendes Versagen: Das beste Modell erreicht lediglich 13,73 % Genauigkeit, obwohl es mit vollständigem Kontext 71,50 % erreicht. Dies offenbart systematische Selbstüberschätzung statt reasoning-Defizite. Erzwungene Interaktion führt zu dramatischen Verbesserungen, was latente Fähigkeiten zeigt, die aktuelle Strategien nicht nutzen. Eine Langzeitanalyse zeigt, dass die Interaktionsfähigkeiten über 15 Monate stagnierten, während sich die Suchleistung versiebenfachte – ein kritischer blinder Fleck. Diese Stagnation, gepaart mit der inhärenten Sofortrückmeldung bei Suchaufgaben, macht InteractComp zu einer wertvollen Ressource sowohl für die Bewertung als auch das Training von Interaktionsfähigkeiten in Suchagenten. Der Code ist verfügbar unter https://github.com/FoundationAgents/InteractComp.
Wir stellen Tongyi DeepResearch vor, ein agentenbasiertes Großsprachmodell, das speziell für langfristige, tiefgehende Informationsrecherche-Aufgaben konzipiert wurde. Um autonome tiefgehende Recherchefähigkeiten zu fördern, wird Tongyi DeepResearch durch ein End-to-End-Trainingsframework entwickelt, das agentenbasierte Mid-Training- und Post-Training-Verfahren kombiniert und damit skalierbares Reasoning und Informationsbeschaffung über komplexe Aufgaben hinweg ermöglicht. Wir entwickelten eine hochskalierbare Data-Synthesis-Pipeline, die vollautomatisch abläuft, ohne auf kostspielige menschliche Annotation angewiesen zu sein, und alle Trainingsphasen unterstützt. Durch die Konstruktion maßgeschneiderter Umgebungen für jede Phase ermöglicht unser System stabile und konsistente Interaktionen throughout. Tongyi DeepResearch verfügt über insgesamt 30,5 Milliarden Parameter, wobei pro Token nur 3,3 Milliarden aktiviert werden, und erzielt state-of-the-art Leistungen in einer Reihe von agentenbasierten Deep-Research-Benchmarks, darunter Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES und xbench-DeepSearch-2510. Wir stellen das Modell, das Framework und die vollständigen Lösungen als Open Source zur Verfügung, um die Community zu befähigen.
LLM-basierte Web-Agenten zeigen immenses Potenzial für die Informationssuche, doch ihre Effektivität bei langfristigen Aufgaben wird durch einen grundlegenden Zielkonflikt in der Kontextverwaltung beeinträchtigt. Gängige, auf ReAct basierende Agenten leiden unter Kontextsättigung, da sie ungefilterte, rohe Verläufe anhäufen, während Methoden, die bei jedem Schritt den gesamten Verlauf starr zusammenfassen, das Risiko eines irreversiblen Verlusts kritischer Details bergen. Als Lösung führen wir AgentFold ein, ein neuartiges Agenten-Paradigma, das auf proaktiver Kontextverwaltung basiert und vom menschlichen kognitiven Prozess der retrospektiven Konsolidierung inspiriert ist. AgentFold behandelt seinen Kontext als einen dynamischen kognitiven Arbeitsbereich, der aktiv gestaltet wird, und nicht als ein passives Protokoll, das gefüllt werden muss. In jedem Schritt lernt es, eine `Falt`-Operation auszuführen, die seinen historischen Verlauf auf mehreren Ebenen verwaltet: Es kann granulare Verdichtungen durchführen, um wesentliche, feinkörnige Details zu bewahren, oder tiefgreifende Konsolidierungen, um gesamte mehrstufige Teilaufgaben zu abstrahieren. Die Ergebnisse auf prominenten Benchmarks sind bemerkenswert: Mit einfachem Supervised Fine-Tuning (ohne kontinuierliches Pre-Training oder RL) erreicht unser AgentFold-30B-A3B-Agent 36,2 % auf BrowseComp und 47,3 % auf BrowseComp-ZH. Bemerkenswerterweise übertrifft diese Leistung nicht nur Open-Source-Modelle mit deutlich größerem Umfang, wie DeepSeek-V3.1-671B-A37B, oder hält mit ihnen Schritt, sondern übertrifft auch führende proprietäre Agenten wie OpenAIs o4-mini.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben rasche Entwicklungen bei Vision-Language-Action (VLA)-Modellen für die Robotermanipulation vorangetrieben. Obwohl in vielen Szenarien effektiv, stützen sich aktuelle Ansätze weitgehend auf explizite Anweisungen, während in realen Interaktionen Menschen selten direkt Anweisungen erteilen. Eine effektive Zusammenarbeit erfordert, dass Roboter Benutzerabsichten proaktiv ableiten. In dieser Arbeit führen wir kontextuelle cross-modale Anweisungen ein, eine neue Rahmenbedingung, in der Absichten aus gesprochenen Dialogen, Umgebungsgeräuschen und visuellen Hinweisen anstelle expliziter Befehle abgeleitet werden. Um diese neue Rahmenbedingung zu adressieren, präsentieren wir RoboOmni, ein Perceiver-Thinker-Talker-Executor-Framework auf Basis end-to-end omni-modaler LLMs, das Absichtserkennung, Interaktionsbestätigung und Aktionsausführung vereint. RoboOmni fusioniert auditorische und visuelle Signale räumlich-zeitlich für eine robuste Absichtserkennung und unterstützt zugleich direkte Sprachinteraktion. Um den Mangel an Trainingsdaten für proaktive Absichtserkennung in der Robotermanipulation zu beheben, erstellen wir OmniAction, bestehend aus 140.000 Episoden, über 5.000 Sprechern, 2.400 Ereignisgeräuschen, 640 Hintergründen und sechs kontextuellen Anweisungstypen. Experimente in Simulation und realen Umgebungen zeigen, dass RoboOmni text- und ASR-basierte Baseline-Methoden in Erfolgsquote, Inferenzgeschwindigkeit, Absichtserkennung und proaktiver Unterstützung übertrifft.
Wir stellen Game-TARS vor, einen generalistischen Spiel-Agenten, der mit einem einheitlichen, skalierbaren Aktionsraum trainiert wurde, der an menschenausgerichtete native Tastatur-Maus-Eingaben geknüpft ist. Im Gegensatz zu API- oder GUI-basierten Ansätzen ermöglicht dieses Paradigma ein kontinuierliches Pre-Training in großem Maßstab über heterogene Domänen hinweg, einschließlich Betriebssystemen, dem Web und Simulationsspielen. Game-TARS wurde mit über 500B Tokens auf vielfältigen Trajektorien und multimodalen Daten vorab trainiert. Zu den Schlüsseltechniken gehören ein abklingender kontinuierlicher Verlust zur Reduzierung kausaler Verwirrung und eine effiziente Sparse-Thinking-Strategie, die Abtiefe des Denkens und Inferenzkosten in Einklang bringt. Experimente zeigen, dass Game-TARS auf Open-World-Minecraft-Aufgaben eine ungefähr doppelt so hohe Erfolgsrate wie das vorherige State-of-the-Art-Modell erzielt, in ungesehenen Web-3D-Spielen nahe an die Allgemeingültigkeit von unerfahrenen Menschen heranreicht und in FPS-Benchmarks GPT-5, Gemini-2.5-Pro und Claude-4-Sonnet übertrifft. Skalierungsergebnisse zu Trainings- und Testzeit bestätigen, dass der einheitliche Aktionsraum Verbesserungen aufrechterhält, wenn er auf spielübergreifende und multimodale Daten skaliert wird. Unsere Ergebnisse demonstrieren, dass einfache, skalierbare Aktionsrepräsentationen in Kombination mit groß angelegtem Pre-Training einen vielversprechenden Weg zu generalistischen Agenten mit breiten Computeranwendungsfähigkeiten darstellen.
Die Erzeugung von Videos im kontinuierlichen Raum hat rasante Fortschritte gemacht, während diskrete Ansätze aufgrund von Fehlerakkumulation und Inkonsistenzen über lange Kontexte zurückfallen. In dieser Arbeit besinnen wir uns auf diskrete generative Modellierung und stellen Uniform discRete diffuSion with metric pAth (URSA) vor – einen einfachen, aber leistungsstarken Rahmen, der die Lücke zu kontinuierlichen Ansätzen für die skalierbare Videogenerierung schließt. Im Kern formuliert URSA die Videogenerierungsaufgabe als iterative globale Verfeinerung diskreter raumzeitlicher Tokens. Es integriert zwei Schlüsseldesigns: einen linearisierten Metrikpfad und einen auflösungsabhängigen Zeitschritt-Verschiebungsmechanismus. Diese Designs ermöglichen es URSA, effizient auf hochauflösende Bildsynthese und langandauernde Videogenerierung zu skalieren, wobei deutlich weniger Inferenzschritte benötigt werden. Zusätzlich führen wir eine asynchrone zeitliche Feinabstimmungsstrategie ein, die vielseitige Aufgaben innerhalb eines einzelnen Modells vereinheitlicht, einschließlich Interpolation und Bild-zu-Video-Generierung. Umfangreiche Experimente mit anspruchsvollen Benchmarks für Video- und Bildgenerierung zeigen, dass URSA durchweg bestehende diskrete Methoden übertrifft und eine Leistung erreicht, die mit modernsten kontinuierlichen Diffusionsmethoden vergleichbar ist. Code und Modelle sind verfügbar unter https://github.com/baaivision/URSA.
Öffentlich zugängliche Forschungsergebnisse zur groß angelegten überwachten Feinabstimmung (Supervised Finetuning, SFT) von KI-Agenten bleiben relativ selten, da die Erhebung von Trainingsdaten für Agenten besondere Herausforderungen birgt. In dieser Arbeit vertreten wir die Auffassung, dass der Engpass nicht in einem Mangel an grundlegenden Datenquellen liegt, sondern dass eine große Vielfalt an Daten über heterogene Formate, Werkzeuge und Schnittstellen fragmentiert ist. Zu diesem Zweck führen wir das Agent Data Protocol (ADP) ein, eine schlanke Repräsentationssprache, die als "Interlingua" zwischen Agenten-Datensätzen in verschiedenen Formaten und nachgelagerten, vereinheitlichten Trainings-Pipelines für Agenten dient. Das Design von ADP ist ausdrucksstark genug, um eine große Bandbreite von Aufgaben abzubilden, einschließlich API-/Werkzeugnutzung, Browsen, Programmieren, Softwareentwicklung und allgemeinen agentenbasierten Workflows, bleibt dabei aber einfach zu parsen und zu trainieren, ohne dass anpassungsbezogenes Engineering auf Datensatzebene erforderlich ist. In Experimenten vereinheitlichten wir eine breite Sammlung von 13 bestehenden Agenten-Trainingsdatensätzen in das ADP-Format und konvertierten die standardisierten ADP-Daten in trainierbare Formate für mehrere Agenten-Frameworks. Wir führten eine SFT mit diesen Daten durch und erzielten einen durchschnittlichen Leistungszuwachs von ~20 % gegenüber den entsprechenden Basismodellen. Zudem erreicht der Ansatz state-of-the-art oder nahezu SOTA Leistungen in standardisierten Benchmarks für Programmierung, Browsen, Werkzeugnutzung und Forschung, ohne domainspezifische Abstimmung. Der gesamte Code und die Daten wurden öffentlich zugänglich gemacht, in der Hoffnung, dass ADP dazu beitragen kann, die Barrieren für standardisiertes, skalierbares und reproduzierbares Agententraining zu senken.
Bestehende Vision-Language-Action (VLA)-Modelle agieren in der 3D-Realwelt, basieren jedoch typischerweise auf 2D-Encodern, was eine räumliche Verständnislücke hinterlässt, die Generalisierung und Anpassungsfähigkeit einschränkt. Aktuelle 3D-Integrationsverfahren für VLAs erfordern entweder spezielle Sensoren und übertragen sich schlecht über Modalitäten hinweg, oder sie fügen schwache Hinweise ein, denen Geometrie fehlt und die die Vision-Language-Abgleichung verschlechtern. In dieser Arbeit stellen wir FALCON (From Spatial to Action) vor, ein neuartiges Paradigma, das reichhaltige 3D-Raumtokens in den Aktionskopf injiziert. FALCON nutzt räumliche Foundation-Modelle, um starke geometrische A-priori-Informationen allein aus RGB-Daten zu liefern, und beinhaltet ein Embodied Spatial Model, das optional Tiefen- oder Posendaten für höhere Genauigkeit bei Verfügbarkeit fusionieren kann, ohne Neutraining oder Architekturänderungen. Um das Sprachverständnis zu bewahren, werden die Raumtokens von einem räumlich erweiterten Aktionskopf verarbeitet, anstatt in das Vision-Language-Rückgrat konkateniert zu werden. Diese Konstruktionen ermöglichen es FALCON, Einschränkungen in der räumlichen Repräsentation, Modalitätsübertragbarkeit und Abgleichung zu adressieren. In umfassenden Evaluierungen über drei Simulations-Benchmarks und elf Realwelt-Aufgaben hinweg erzielt unser vorgeschlagenes FALCON state-of-the-art Leistung, übertrifft durchgängig wettbewerbsfähige Baseline-Methoden und bleibt robust unter Unordnung, räumlicher Prompt-Konditionierung sowie Variationen in Objektgröße und -höhe.
Kürzlich hat die Bildbearbeitung auf Basis von Diffusion-in-Transformer-Modellen eine rasante Entwicklung durchlaufen. Bestehende Bearbeitungsmethoden ermöglichen jedoch oft keine effektive Steuerung des Bearbeitungsgrades, was ihre Fähigkeit zur Erzielung stärker individualisierter Ergebnisse einschränkt. Um diese Einschränkung zu adressieren, untersuchen wir den MM-Attention-Mechanismus innerhalb des DiT-Modells und stellen fest, dass die Query- und Key-Tokens einen Bias-Vektor teilen, der nur von der Ebene abhängt. Wir interpretieren diesen Bias als Repräsentation des inherenten Bearbeitungsverhaltens des Modells, während die Delta-Werte zwischen jedem Token und seinem entsprechenden Bias die inhalts-spezifischen Bearbeitungssignale kodieren. Aufbauend auf dieser Erkenntnis schlagen wir Group Relative Attention Guidance (GRAG) vor, eine einfache, aber effektive Methode, die die Delta-Werte verschiedener Tokens neu gewichtet, um den Fokus des Modells auf das Eingabebild relativ zur Bearbeitungsanweisung zu modulieren. Dies ermöglicht eine kontinuierliche und fein abgestufte Steuerung der Bearbeitungsintensität ohne jegliche Anpassung. Umfangreiche Experimente mit bestehenden Bildbearbeitungs-Frameworks zeigen, dass GRAG mit nur vier Codezeilen integriert werden kann und dabei konsistent die Bearbeitungsqualität verbessert. Darüber hinaus erreicht GRAG im Vergleich zur häufig verwendeten Classifier-Free Guidance eine glattere und präzisere Steuerung des Bearbeitungsgrades. Unser Code wird unter https://github.com/little-misfit/GRAG-Image-Editing veröffentlicht.
Spekulatives Decoding beschleunigt die Inferenz von LLMs, indem ein kleiner Draft-Modell verwendet wird, um mehrere Token vorzuschlagen, die ein Target-Modell parallel verifiziert. Die Erweiterung dieses Konzepts auf Batches ist für den Produktionseinsatz unerlässlich, führt jedoch zum Problem der ungleichlangen Tensoren (Ragged Tensor Problem): Sequenzen im selben Batch akzeptieren unterschiedlich viele Draft-Token, was die Rechtsausrichtung zerstört und Positions-IDs, Attention-Masks und den KV-Cache-Zustand korrumpiert. Wir zeigen, dass mehrere existierende Batch-Implementierungen die Äquivalenz der Ausgaben verletzen – die grundlegende Anforderung, dass spekulatives Decoding identische Token-Sequenzen wie die Standard-autoregressive Generierung erzeugen muss. Diese Verletzungen treten genau aufgrund einer unsachgemäßen Handhabung des Ragged Tensor Problems auf. Als Antwort darauf (1) charakterisieren wir die Synchronisationsanforderungen, die Korrektheit garantieren, (2) präsentieren einen korrektheitsorientierten Batch-Algorithmus für spekulatives Decoding (EQSPEC), der zeigt, dass die Neuausrichtung 40 % des Overheads verursacht, und (3) führen EXSPEC ein, das einen gleitenden Pool von Sequenzen verwaltet und dynamisch Gruppen gleicher Länge bildet, um den Neuausrichtungs-Overhead zu reduzieren und gleichzeitig die spekulativen Geschwindigkeitssteigerungen pro Sequenz beizubehalten. Auf dem SpecBench-Datensatz erzielt unser Ansatz über Vicuna-7B/68M, Qwen3-8B/0.6B und GLM-4-9B/0.6B Target/Draft-Paare hinweg einen bis zu 3-fachen Durchsatzgewinn bei einer Batch-Größe von 8 im Vergleich zur Batch-Größe 1, mit effizienter Skalierung bis zur Batch-Größe 8, bei gleichzeitiger Wahrung von 95 % Ausgabeäquivalenz. Unsere Methode benötigt keine benutzerdefinierten Kernel und lässt sich sauber in bestehende Inferenz-Stacks integrieren. Unser Code ist verfügbar unter https://github.com/eBay/spec_dec.
Auf LLMs basierende Suchagenten werden zunehmend mit entitätszentrierten synthetischen Daten trainiert, um komplexe, wissensintensive Aufgaben zu lösen. Allerdings verwerfen gängige Trainingsmethoden wie Group Relative Policy Optimization (GRPO) diese wertvollen Entitätsinformationen und stützen sich stattdessen auf spärliche, ergebnisbasierte Belohnungen. Diese kritische Einschränkung führt dazu, dass sie informative "Near-Miss"-Beispiele – solche mit weitgehend korrekter Schlussfolgerung, aber einer fehlerhaften Endantwort – nicht von kompletten Fehlschlägen unterscheiden können und wertvolle Lernsignale verwerfen. Wir adressieren dieses Problem, indem wir genau die Entitäten nutzen, die während des Trainings verworfen werden. Unsere empirische Analyse zeigt eine starke positive Korrelation zwischen der Anzahl der während des Schlussfolgerungsprozesses eines Agenten identifizierten Ground-Truth-Entitäten und der Genauigkeit der Endantwort. Aufbauend auf dieser Erkenntnis führen wir Entity-aware Group Relative Policy Optimization (E-GRPO) ein, einen neuartigen Rahmen, der eine dichte, entitätsbewusste Belohnungsfunktion formuliert. E-GRPO weist falschen Beispielen teilweise Belohnungen proportional zu ihrer Entitäten-Übereinstimmungsrate zu, was es dem Modell ermöglicht, effektiv aus diesen "Near-Misses" zu lernen. Experimente mit verschiedenen Question-Answering (QA) und Deep-Research-Benchmarks zeigen, dass E-GRPO durchgängig und signifikant die GRPO-Baseline übertrifft. Darüber hinaus zeigt unsere Analyse, dass E-GRPO nicht nur eine höhere Genauigkeit erreicht, sondern auch effizientere Schlussfolgerungsstrategien induziert, die weniger Tool-Aufrufe erfordern, was einen effektiveren und sample-effizienteren Ansatz zur Ausrichtung von Suchagenten demonstriert.
Das Training großer Sprachmodell-Agenten an Aufgaben an der Grenze ihrer Fähigkeiten ist entscheidend, um fortschrittliches Denkvermögen zu erschließen. Wir stellen einen Daten-Synthese-Ansatz vor, der von der pädagogischen Theorie der Zone der nächsten Entwicklung (ZNE) inspiriert ist. Diese definiert diese Grenze als Aufgaben, die ein LLM nicht alleine lösen kann, aber mit Anleitung meistern kann. Zur Umsetzung präsentieren wir die AgentFrontier Engine, eine automatisierte Pipeline, die hochwertige, multidisziplinäre Daten synthetisiert, die sich genau innerhalb der ZNE des LLM befinden. Diese Engine unterstützt sowohl fortgesetztes Pre-Training mit wissensintensiven Daten als auch gezieltes Post-Training an komplexen Denkaufgaben. Aus demselben Framework leiten wir die ZNE-Prüfung ab, einen dynamischen und automatisierten Benchmark, der entwickelt wurde, um die Fähigkeiten von Agenten an diesen Grenzaufgaben zu bewerten. Wir trainieren das AgentFrontier-30B-A3B-Modell auf unseren synthetisierten Daten, das state-of-the-art Ergebnisse auf anspruchsvollen Benchmarks wie "Humanity's Last Exam" erzielt und sogar einige führende proprietäre Agenten übertrifft. Unsere Arbeit zeigt, dass ein ZNE-gesteuerter Ansatz zur Datensynthese einen skalierbaren und effektiven Weg bietet, um leistungsfähigere LLM-Agenten zu entwickeln.
Durch Fortschritte bei Entscheidungsfindung und logischem Denkvermögen zeigen multimodale Agenten ein großes Potenzial in Computerszenarien. Bisherige Evaluationen konzentrierten sich hauptsächlich auf die Bewertung von GUI-Interaktionsfähigkeiten, während Tool-Invocation-Fähigkeiten, wie sie beispielsweise durch das Model Context Protocol (MCP) ermöglicht werden, weitgehend unberücksichtigt blieben. Ein Vergleich von Agenten mit integrierter Tool-Invocation mit solchen, die nur auf GUI-Interaktion evaluiert wurden, ist von Natur aus unfair. Wir stellen OSWorld-MCP vor, den ersten umfassenden und fairen Benchmark zur Bewertung der Tool-Invocation-, GUI-Bedienungs- und Entscheidungsfähigkeiten von Computer-Nutzungs-Agenten in einer realen Umgebung. Wir entwerfen eine neuartige Pipeline zur automatischen Code-Generierung, um Tools zu erstellen, und kombinieren diese mit einer kuratierten Auswahl bestehender Tools. Strenge manuelle Validierung ergibt 158 hochwertige Tools (die 7 häufige Anwendungen abdecken), die jeweils auf korrekte Funktionalität, praktische Anwendbarkeit und Vielseitigkeit überprüft wurden. Umfangreiche Evaluationen modernster multimodaler Agenten auf OSWorld-MCP zeigen, dass MCP-Tools generell die Aufgabenerfolgsraten verbessern (z.B. von 8,3 % auf 20,4 % für OpenAI o3 bei 15 Schritten, von 40,1 % auf 43,3 % für Claude 4 Sonnet bei 50 Schritten), was die Bedeutung der Bewertung von Tool-Invocation-Fähigkeiten unterstreicht. Allerdings weisen selbst die stärksten Modelle relativ niedrige Tool-Invocation-Raten auf (nur 36,3 %), was Verbesserungspotenzial aufzeigt und die Herausforderung des Benchmarks unterstreicht. Durch die explizite Messung von MCP-Tool-Nutzungsfähigkeiten vertieft OSWorld-MCP das Verständnis multimodaler Agenten und setzt einen neuen Standard für die Leistungsbewertung in komplexen, tool-unterstützten Umgebungen. Unser Code, unsere Umgebung und unsere Daten sind öffentlich unter https://osworld-mcp.github.io verfügbar.
Große Sprachmodelle (LLMs) haben kürzlich Code-Agenten ermöglicht, die in der Lage sind, Visualisierungscode zu generieren, auszuführen und zu überarbeiten. Bestehende Modelle scheitern in praktischen Workflows jedoch häufig an begrenzter Sprachabdeckung, unzuverlässiger Ausführung und dem Fehlen iterativer Korrekturmechanismen. Der Fortschritt wurde durch eingeschränkte Datensätze und Benchmarks behindert, die Einzelrunden-Generierung und Einzelsprachen-Aufgaben betonen. Um diese Herausforderungen zu bewältigen, stellen wir drei komplementäre Ressourcen zur Weiterentwicklung von Visualisierungs-Code-Agenten vor. VisCode-Multi-679K ist ein umfangreicher, überwachter Datensatz mit 679.000 validierten und ausführbaren Visualisierungsbeispielen sowie mehrstufigen Korrekturdialogen in 12 Programmiersprachen. VisPlotBench ist ein Benchmark für die systematische Evaluation, der ausführbare Aufgaben, gerenderte Ausgaben und Protokolle sowohl für die initiale Generierung als auch für mehrstufiges Selbst-Debugging umfasst. Schließlich präsentieren wir VisCoder2, eine Familie mehrsprachiger Visualisierungsmodelle, die auf VisCode-Multi-679K trainiert wurden. Experimente zeigen, dass VisCoder2 starke Open-Source-Baselines signifikant übertrifft und sich der Leistung proprietärer Modelle wie GPT-4.1 annähert. Durch iteratives Selbst-Debugging werden weitere Gewinne erzielt, was bei der 32B-Skala zu einer Gesamt-Ausführungs-Erfolgsquote von 82,4 % führt, insbesondere in symbolischen oder kompilierabhängigen Sprachen.
Auf großen Sprachmodellen (LLM) basierende Agenten haben sich als ein transformativer Ansatz für die Lösung offener Probleme erwiesen, wobei die Informationsbeschaffung (Information Seeking, IS) eine Kernfähigkeit darstellt, die autonomes Denken und Entscheidungsfindung ermöglicht. Während sich frühere Forschung weitgehend auf die Verbesserung der Retrieval-Tiefe konzentrierte, stellen wir fest, dass aktuelle IS-Agenten oft unter geringer Such-Effizienz leiden, was wiederum die Gesamtleistung beeinträchtigt. Ein wesentlicher Faktor für diese Ineffizienz ist die geringe Dichte von Ziel-Entitäten in Trainingsaufgaben, was die Möglichkeiten der Agenten einschränkt, effiziente Suchverhalten zu erlernen und zu verallgemeinern. Um diese Herausforderungen zu adressieren, schlagen wir WebLeaper vor, ein Framework zur Konstruktion von IS-Aufgaben mit hoher Abdeckung und zur Generierung effizienter Lösungsverläufe. Wir formulieren IS als ein baumstrukturiertes Denkproblem, wodurch eine wesentlich größere Anzahl von Ziel-Entitäten in einem begrenzten Kontext eingebettet werden kann. Unter Nutzung kuratierter Wikipedia-Tabellen schlagen wir drei Varianten zur Synthese von IS-Aufgaben vor – Basic, Union und Reverse-Union –, um systematisch sowohl die IS-Effizienz als auch die Wirksamkeit zu steigern. Abschließend kuratieren wir Trainingsverläufe, indem wir nur jene beibehalten, die gleichzeitig präzise und effizient sind, um sicherzustellen, dass das Modell sowohl auf Korrektheit als auch auf Suchleistung optimiert wird. Umfangreiche Experimente in einfachen und umfassenden Szenarien, durchgeführt auf fünf IS-Benchmarks (BrowserComp, GAIA, xbench-DeepSearch, WideSearch und Seal-0), demonstrieren, dass unsere Methode durchgängig Verbesserungen sowohl in der Effektivität als auch in der Effizienz gegenüber starken Baseline-Methoden erzielt.
Paralleles Denken erweitert die Erkundungsbreite und ergänzt die tiefgehende Erkundung von informationssuchenden (IS) Agenten, um die Problemlösungsfähigkeit weiter zu verbessern. Herkömmliches paralleles Denken steht in diesem Kontext jedoch vor zwei zentralen Herausforderungen: Ineffizienz durch wiederholtes Neuaufsetzen von Grund auf und Schwierigkeiten bei der Integration langfristiger Denkpfade während der Antwortgenerierung, da begrenzte Kontextkapazität eine vollständige Berücksichtigung des Denkprozesses verhindert. Um diese Probleme zu adressieren, schlagen wir ParallelMuse vor, ein zweistufiges Paradigma für tiefgehende IS-Agenten. Die erste Stufe, Funktionalitäts-spezifisches Teil-Rollout, unterteilt generierte Sequenzen in funktionale Bereiche und führt unsicherheitsgesteuerte Pfadwiederverwendung und Verzweigung durch, um die Erkundungseffizienz zu steigern. Die zweite Stufe, Komprimierte Denkaggregation, nutzt Redundanzen im Denkprozess, um für die Antwortableitung relevante Informationen verlustfrei zu komprimieren und eine kohärente Endantwort zu synthetisieren. Experimente mit verschiedenen Open-Source-Agenten und Benchmarks zeigen eine Leistungssteigerung von bis zu 62 % bei einer Reduzierung des Erkundungs-Token-Verbrauchs um 10–30 %.
Während Multimodale Large Language Models (MLLMs) bei der visuellen Wahrnehmung hervorragende Leistungen erbringen, haben sie oft Schwierigkeiten mit komplexen Szenarien, die visuelle Planung und Vorstellungskraft erfordern. Inspiriert davon, wie Menschen Skizzen als eine Form des visuellen Denkens nutzen, um Ideen zu entwickeln und zu kommunizieren, stellen wir Latent Sketchpad vor – ein Framework, das MLLMs mit einem internen visuellen Notizblock ausstattet. Die internen visuellen Repräsentationen von MLLMs waren traditionell auf perzeptuelles Verständnis beschränkt. Wir nutzen sie um, um generatives visuelles Denken zu unterstützen, ohne die Reasoning-Fähigkeiten zu beeinträchtigen. Aufbauend auf modernsten MLLMs integriert unser Ansatz die visuelle Generierung direkt in ihren nativen autoregressiven Reasoning-Prozess. Dies ermöglicht es dem Modell, textuelles Reasoning mit der Generierung visueller Latents zu verschachteln. Diese Latents leiten den internen Denkprozess und können zur besseren Interpretierbarkeit in Skizzenbilder übersetzt werden. Um dies zu realisieren, führen wir zwei Komponenten ein: einen kontextbewussten Vision Head, der visuelle Repräsentationen autoregressiv erzeugt, und einen vortrainierten Sketch Decoder, der diese in menscheninterpretierbare Bilder rendert. Wir evaluieren das Framework auf unserem neuen Datensatz MazePlanning. Experimente mit verschiedenen MLLMs zeigen, dass Latent Sketchpad eine vergleichbare oder sogar überlegene Reasoning-Leistung gegenüber ihren Backbone-Modellen erbringt. Es verallgemeinert zudem über verschiedene moderne MLLMs, einschließlich Gemma3 und Qwen2.5-VL. Indem unser Framework das textuelle Reasoning des Modells auf visuelles Denken erweitert, eröffnet es neue Möglichkeiten für eine reichhaltigere Mensch-Computer-Interaktion und breitere Anwendungen. Weitere Details und Ressourcen sind auf unserer Projektseite verfügbar: https://latent-sketchpad.github.io/.
Das Training von kritisierenden Sprachmodellen zur Bewertung und Rückmeldung von Modellausgaben ist ein vielversprechender Ansatz, um LLMs für komplexe Denkaufgaben zu verbessern. Bisherige Methoden setzen jedoch typischerweise auf stärkere Aufsichtsinstanzen für die Annotation von Kritikdaten. Um dieses Problem zu lösen, schlagen wir Critique-RL vor, einen Online-RL-Ansatz zur Entwicklung kritisierender Sprachmodelle ohne stärkere Überwachung. Unser Ansatz basiert auf einem Zwei-Spieler-Paradigma: Der Akteur generiert eine Antwort, der Kritiker liefert Feedback, und der Akteur verfeinert die Antwort entsprechend. Wir zeigen zunächst, dass die alleinige Abhängigkeit von indirekten Belohnungssignalen aus den Ausgaben des Akteurs für die RL-Optimierung oft zu unbefriedigenden Kritikern führt: Während deren Hilfsbereitschaft (d.h. konstruktives Feedback zu geben) zunimmt, bleibt die Diskriminierungsfähigkeit (d.h. die Unterscheidung, ob eine Antwort hochwertig ist oder nicht) unzureichend, was nur zu marginalen Leistungssteigerungen führt. Um dies zu überwinden, verwendet Critique-RL eine zweistufige Optimierungsstrategie. In Stufe I wird die Diskriminierungsfähigkeit des Kritikers mit direkten regelbasierten Belohnungssignalen verstärkt; in Stufe II werden indirekte Belohnungen basierend auf der Verfeinerung durch den Akteur eingeführt, um die Hilfsbereitschaft des Kritikers zu verbessern, während dessen Diskriminierungsfähigkeit durch geeignete Regularisierung erhalten bleibt. Umfangreiche Experimente über verschiedene Aufgaben und Modelle hinweg zeigen, dass Critique-RL substantiale Leistungsverbesserungen erzielt. Beispielsweise erreicht es für Qwen2.5-7B einen Zuwachs von 9,02 % bei domainspezifischen Aufgaben und 5,70 % bei domänenübergreifenden Aufgaben, was sein Potenzial unterstreicht.
Trotz rascher Fortschritte bei multimodalen großen Sprachmodellen und großen Audio-Sprach-Modellen testen bestehende Audio-Benchmarks größtenteils Semantik, die aus Textbeschreibungen abgeleitet werden kann, was Defizite in der feinkörnigen perzeptuellen Reasoning-Fähigkeit verschleiert. Wir formalisieren eine auditive 4D-Intelligenz, die als das Reasoning über Schalldynamiken in Zeit und 3D-Raum definiert wird, und stellen STAR-Bench zu deren Messung vor. STAR-Bench kombiniert eine Grundlegende Akustische Wahrnehmung (sechs Attribute unter absoluten und relativen Regimen) mit einem Holistischen Räumlich-Zeitlichen Reasoning, das Segment-Neuanordnung für kontinuierliche und diskrete Prozesse sowie räumliche Aufgaben umfasst, die von statischer Lokalisierung über Mehrquellen-Beziehungen bis hin zu dynamischen Trajektorien reichen. Unsere Datenkuratierungs-Pipeline nutzt zwei Methoden, um hochwertige Samples sicherzustellen. Für grundlegende Aufgaben verwenden wir prozedural synthetisierte und physikalisch simulierte Audiodaten. Für holistische Daten folgen wir einem vierstufigen Prozess, der menschliche Annotation und eine finale Auswahl basierend auf menschlicher Leistung beinhaltet. Im Gegensatz zu früheren Benchmarks, bei denen das Beantworten nur mit Beschreibungen die Genauigkeit leicht reduziert, führt STAR-Bench zu wesentlich größeren Einbrüchen (-31,5 % temporal, -35,2 % räumlich), was seinen Fokus auf sprachlich schwer beschreibbare Hinweise belegt. Die Auswertung von 19 Modellen zeigt erhebliche Lücken im Vergleich zum Menschen und eine Fähigkeitshierarchie: Closed-Source-Modelle werden durch feinkörnige Wahrnehmung limitiert, während Open-Source-Modelle in Wahrnehmung, Wissen und Reasoning zurückliegen. Unser STAR-Bench liefert entscheidende Erkenntnisse und einen klaren Weg für die Entwicklung zukünftiger Modelle mit einem robusteren Verständnis der physischen Welt.
Mixture-of-Experts (MoE) hat sich als leistungsstarkes Paradigma etabliert, um die Modellkapazität zu skalieren und gleichzeitig die Recheneffizienz zu erhalten. Trotz bemerkenswerter Erfolge bei großen Sprachmodellen (LLMs) haben bestehende Versuche, MoE auf Diffusion Transformer (DiTs) anzuwenden, nur begrenzte Gewinne erbracht. Wir führen diese Lücke auf grundlegende Unterschiede zwischen Sprach- und visuellen Tokens zurück. Sprach-Tokens sind semantisch dicht mit ausgeprägten Variationen zwischen den Tokens, während visuelle Tokens räumliche Redundanz und funktionale Heterogenität aufweisen, was die Expertenspezialisierung in visuellen MoE-Systemen behindert. Daher stellen wir ProMoE vor, ein MoE-Framework mit einem Zwei-Stufen-Router und expliziter Routing-Anleitung, die die Expertenspezialisierung fördert. Konkret ermutigt diese Anleitung den Router, Bild-Tokens gemäß ihrer funktionalen Rolle durch konditionelles Routing in konditionelle und unkonditionelle Sets aufzuteilen und die Zuordnungen der konditionellen Bild-Tokens durch prototypisches Routing mit lernbaren Prototypen auf Basis semantischen Inhalts zu verfeinern. Darüber hinaus bietet die durch prototypisches Routing ermöglichte ähnlichkeitsbasierte Expertenzuordnung im latenten Raum einen natürlichen Mechanismus zur Integration expliziter semantischer Guidance, und wir validieren, dass eine solche Guidance für visuelles MoE entscheidend ist. Aufbauend darauf schlagen wir einen Routing-Kontrastverlust vor, der den prototypischen Routing-Prozess explizit verbessert und Intra-Experten-Kohärenz sowie Inter-Experten-Diversität fördert. Umfangreiche Experimente auf dem ImageNet-Benchmark zeigen, dass ProMoE state-of-the-art Methoden unter sowohl Rectified Flow- als auch DDPM-Trainingszielen übertrifft. Code und Modelle werden öffentlich verfügbar gemacht.
Die Forschung zu Skalierungsgesetzen hat sich überwiegend auf Englisch konzentriert – doch die bedeutendsten KI-Modelle bedienen explizit Milliarden internationaler Nutzer. In dieser Arbeit führen wir die bislang umfangreichste Studie zu mehrsprachigen Skalierungsgesetzen durch, mit insgesamt 774 mehrsprachigen Trainingsexperimenten, die einen Parameterbereich von 10 Millionen bis 8 Milliarden Modellparametern, über 400 Trainingssprachen und 48 Evaluierungssprachen umfassen. Wir stellen das Adaptive Transfer Scaling Law (ATLAS) für sowohl einsprachiges als auch mehrsprachiges Vortraining vor, das die Generalisierungsfähigkeit außerhalb der Stichprobe bestehender Skalierungsgesetze oft um mehr als 0,3 R² übertrifft. Unsere Analysen der Experimente geben Aufschluss über mehrsprachige Lern dynamiken, Transfer eigenschaften zwischen Sprachen und den Fluch der Mehrsprachigkeit. Erstens leiten wir eine sprachübergreifende Transfermatrix ab, die empirisch die gegenseitigen Nutzenwerte zwischen 38 x 38 = 1444 Sprachpaaren misst. Zweitens entwickeln wir ein sprachunabhängiges Skalierungsgesetz, das aufzeigt, wie Modellgröße und Daten optimal skaliert werden können, wenn Sprachen hinzugefügt werden, ohne Leistungseinbußen in Kauf nehmen zu müssen. Drittens identifizieren wir die rechnerischen Wendepunkte, ab denen ein Vortraining von Grund auf gegenüber einer Feinjustierung aus mehrsprachigen Checkpoints vorteilhaft ist. Wir hoffen, dass diese Erkenntnisse die wissenschaftliche Grundlage für eine Demokratisierung von Skalierungsgesetzen über Sprachen hinweg bilden und es Praktikern ermöglichen, Modelle effizient zu skalieren – über eine englisch-zentrierte KI hinaus.
Bislang gibt es kaum kulturspezifische Evaluierungsbenchmarks für große Sprachmodelle (LLMs), die eine große Anzahl von Sprachen und Kulturen abdecken. In diesem Artikel stellen wir Global PIQA vor, einen partizipativen Benchmark für Common-Sense-Reasoning in über 100 Sprachen, der manuell von 335 Forschenden aus 65 Ländern weltweit erstellt wurde. Die 116 Sprachvarianten in Global PIQA umfassen fünf Kontinente, 14 Sprachfamilien und 23 Schriftsysteme. Im nicht-parallelen Teil von Global PIQA beziehen sich über 50% der Beispiele auf lokale Lebensmittel, Bräuche, Traditionen oder andere kulturspezifische Elemente. Wir stellen fest, dass state-of-the-art LLMs auf Global PIQA insgesamt gut abschneiden, jedoch in ressourcenärmeren Sprachen schwächere Leistungen zeigen (bis zu einer Genauigkeitslücke von 37%, obwohl der Zufallstreffer bei 50% liegt). Open-Modelle schneiden generell schlechter ab als proprietäre Modelle. Global PIQA verdeutlicht, dass in vielen Sprachen und Kulturen Alltagswissen ein Verbesserungsbereich bleibt, neben bekannteren Fähigkeiten wie komplexem Reasoning und Expertenwissen. Über seine Verwendung für die LLM-Evaluierung hinaus hoffen wir, dass Global PIQA einen Einblick in die große Vielfalt der Kulturen bietet, in die menschliche Sprache eingebettet ist.
Selbstverbessernde Systeme benötigen Umgebungsinteraktion für kontinuierliche Anpassung. Wir stellen SPICE (Self-Play In Corpus Environments) vor, ein Reinforcement-Learning-Framework, bei dem ein einzelnes Modell in zwei Rollen agiert: ein Herausforderer, der Dokumente aus einem großen Korpus extrahiert, um vielfältige Reasoning-Aufgaben zu generieren, und ein Reasoner, der diese löst. Durch adversariale Dynamiken erstellt der Herausforderer einen automatischen Lehrplan an der Grenze der Fähigkeiten des Reasoners, während die Korpusverankerung das reichhaltige, nahezu unerschöpfliche externe Signal für nachhaltige Verbesserungen bereitstellt. Im Gegensatz zu existierenden unverankerten Self-Play-Methoden mit begrenzterem Nutzen erzielt SPICE konsistente Gewinne über mathematische (+8,9 %) und allgemeine Reasoning-Benchmarks (+9,8 %) hinweg in mehreren Modellfamilien. Unsere Analyse zeigt, dass die Dokumentenverankerung in SPICE eine Schlüsselkomponente ist, um kontinuierlich eigene, zunehmend anspruchsvolle Ziele zu generieren und diese zu erreichen, was nachhaltige Selbstverbesserung ermöglicht.
Visualisierung, eine domänenspezifische aber weit verbreitete Form der Bilddarstellung, ist eine effektive Methode, um komplexe Datensätze in intuitive Erkenntnisse zu verwandeln. Ihr Wert hängt davon ab, ob Daten korrekt dargestellt, klar kommuniziert und ästhetisch gestaltet werden. Die Bewertung der Visualisierungsqualität ist jedoch herausfordernd: Im Gegensatz zu natürlichen Bildern erfordert sie gleichzeitige Beurteilungen hinsichtlich der Genauigkeit der Datenkodierung, der Informationsvermittlung und der visuellen Ästhetik. Obwohl multimodale große Sprachmodelle (MLLMs) vielversprechende Leistungen bei der ästhetischen Bewertung natürlicher Bilder gezeigt haben, existiert kein systematischer Benchmark zur Messung ihrer Fähigkeiten bei der Evaluierung von Visualisierungen. Um diese Lücke zu schließen, schlagen wir VisJudge-Bench vor, den ersten umfassenden Benchmark zur Bewertung der Leistung von MLLMs bei der Beurteilung von Visualisierungsästhetik und -qualität. Er enthält 3.090 von Experten annotierte Beispiele aus realen Szenarien, die Einzelvisualisierungen, multiple Visualisierungen und Dashboards über 32 Diagrammtypen abdecken. Systematische Tests mit diesem Benchmark zeigen, dass selbst die fortschrittlichsten MLLMs (wie GPT-5) im Vergleich zu menschlichen Experten bei der Beurteilung noch erhebliche Lücken aufweisen, mit einem mittleren absoluten Fehler (MAE) von 0,551 und einer Korrelation mit menschlichen Bewertungen von nur 0,429. Um dieses Problem zu adressieren, schlagen wir VisJudge vor, ein speziell für die Bewertung von Visualisierungsästhetik und -qualität entwickeltes Modell. Experimentelle Ergebnisse demonstrieren, dass VisJudge die Lücke zur menschlichen Beurteilung signifikant verringert, den MAE auf 0,442 reduziert (eine Verringerung um 19,8 %) und die Übereinstimmung mit menschlichen Experten auf 0,681 erhöht (eine Verbesserung um 58,7 %) im Vergleich zu GPT-5. Der Benchmark ist verfügbar unter https://github.com/HKUSTDial/VisJudgeBench.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat beeindruckende Fortschritte im mathematischen und multimodalen Reasoning erzielt und sich zu einem Standard-Post-Training-Paradigma für moderne Sprach- und Sprach-Vision-Modelle entwickelt. Allerdings birgt der RLVR-Ansatz ein erhebliches Risiko für Fähigkeitsregression, bei der Modelle grundlegende Fertigkeiten nach längerem Training ohne Regularisierungsstrategien verlernen. Wir bestätigen diese Sorge empirisch und beobachten, dass Open-Source-Reasoning-Modelle Leistungseinbußen bei Kernfähigkeiten wie Wahrnehmung und Zuverlässigkeit erleiden. Während Regularisierungsterme wie die KL-Divergenz Abweichungen vom Basismodell verhindern können, werden diese auf der aktuellen Aufgabe berechnet und garantieren somit kein breiteres Wissen. Gleichzeitig macht die häufig verwendete Experience Replay über heterogene Domänen hinweg es schwierig zu entscheiden, wie viel Trainingsfokus jedes Ziel erhalten sollte. Um dies zu adressieren, schlagen wir RECAP vor – eine Replay-Strategie mit dynamischer Neugewichtung der Ziele zur Erhaltung allgemeinen Wissens. Unser Neugewichtungsmechanismus passt sich online anhand von Kurzzeitsignalen für Konvergenz und Instabilität an und verlagert den Trainingsfokus von gesättigten Zielen auf unterperformende oder volatile Ziele. Unsere Methode ist end-to-end und problemlos auf bestehende RLVR-Pipelines anwendbar, ohne zusätzliche Modelle trainieren oder aufwändig anpassen zu müssen. Umfangreiche Experimente auf Benchmarks basierend auf Qwen2.5-VL-3B und Qwen2.5-VL-7B demonstrieren die Wirksamkeit unserer Methode, die nicht nur allgemeine Fähigkeiten erhält, sondern auch das Reasoning verbessert, indem sie flexiblere Kompromisse zwischen aufgabeninternen Belohnungen ermöglicht.
Die Erzeugung von Bildern aus Text (Text-to-Image, T2I) mit ultrahoher Auflösung (Ultra-high-resolution, UHR) hat bemerkenswerte Fortschritte erzielt. Es bleiben jedoch zwei zentrale Herausforderungen bestehen: 1) das Fehlen eines groß angelegten, hochwertigen UHR-T2I-Datensatzes und 2) die Vernachlässigung maßgeschneiderter Trainingsstrategien für die Synthese feinkörniger Details in UHR-Szenarien. Um die erste Herausforderung zu bewältigen, stellen wir UltraHR-100K vor, einen hochwertigen Datensatz mit 100.000 UHR-Bildern und umfangreichen Beschriftungen, der vielfältige Inhalte und eine hohe visuelle Treue bietet. Jedes Bild übersteigt eine Auflösung von 3K und wurde streng nach den Kriterien Detailreichtum, Inhaltskomplexität und ästhetischer Qualität kuratiert. Um die zweite Herausforderung zu adressieren, schlagen wir ein frequenzbasiertes Post-Training-Verfahren vor, das die Erzeugung feiner Details in T2I-Diffusionsmodellen verbessert. Konkret entwerfen wir (i) eine detailorientierte Zeitschritt-Abtastung (Detail-Oriented Timestep Sampling, DOTS), um das Lernen auf die für Details kritischen Entrauschungsschritte zu fokussieren, und (ii) eine frequenzbasierte Regularisierung mit weicher Gewichtung (Soft-Weighting Frequency Regularization, SWFR), die die Diskrete Fourier-Transformation (DFT) nutzt, um Frequenzkomponenten weich zu beschränken und so die Erhaltung hochfrequenter Details fördert. Umfangreiche Experimente auf unseren vorgeschlagenen UltraHR-eval4K-Benchmarks zeigen, dass unser Ansatz die Qualität der feinkörnigen Details und die Gesamttreue der UHR-Bilderzeugung signifikant verbessert. Der Code ist unter https://github.com/NJU-PCALab/UltraHR-100k verfügbar.
Chain-of-Thought (CoT)-Reasoning ist entscheidend, um die Interpretierbarkeit und Zuverlässigkeit großer visuell-sprachlicher Modelle (LVLMs) zu verbessern. Allerdings generalisieren bestehende Trainingsalgorithmen wie SFT, PPO und GRPO möglicherweise nicht gut auf ungesehene Reasoning-Aufgaben und sind stark von einem verzerrten Belohnungsmodell abhängig. Um diese Herausforderung zu bewältigen, formulieren wir Reasoning in LVLMs als posteriori-Inferenz neu und schlagen einen skalierbaren Trainingsalgorithmus auf Basis amortisierter variationaler Inferenz vor. Durch die Nutzung diversitätsorientierter Reinforcement-Learning-Algorithmen führen wir eine neuartige spärliche Belohnungsfunktion für Token-basierte Lernsignale ein, die vielfältige, wahrscheinliche latente CoT fördert. Dies überwindet die Grenzen deterministischen Samplings und vermeidet Reward Hacking. Zusätzlich implementieren wir eine Bayes'sche Inferenz-Skalierungsstrategie, die aufwändige Best-of-N- und Beam-Search-Verfahren durch eine marginale Likelihood ersetzt, um optimale Rationale und Antworten effizient zu bewerten. Empirisch zeigen wir, dass die vorgeschlagene Methode state-of-the-art LVLMs auf sieben Reasoning-Benchmarks hinsichtlich Effektivität, Generalisierungsfähigkeit und Interpretierbarkeit verbessert.
Da große visuell-sprachliche Modelle (LVLMs) zunehmend in Bereichen wie Einkaufen, Gesundheit und Nachrichten eingesetzt werden, sind sie allgegenwärtigen persuasiven Inhalten ausgesetzt. Eine entscheidende Frage ist, wie diese Modelle als Persuadierte funktionieren – wie und warum sie durch persuasive multimodale Eingaben beeinflusst werden können. Das Verständnis sowohl ihrer Anfälligkeit für Persuasion als auch der Wirksamkeit verschiedener persuasiver Strategien ist von entscheidender Bedeutung, da übermäßig beeinflussbare Modelle irreführende Überzeugungen annehmen, Nutzerpräferenzen ignorieren oder unethische bzw. unsichere Outputs generieren können, wenn sie manipulativen Botschaften ausgesetzt sind. Wir stellen MMPersuade vor, einen einheitlichen Rahmen zur systematischen Erforschung multimodaler Persuasion dynamiken in LVLMs. MMPersuade leistet folgende Beiträge: (i) einen umfassenden multimodalen Datensatz, der Bilder und Videos mit etablierten Persuasion sprinzipien in kommerziellen, subjektiv-behavioralen und adversativen Kontexten kombiniert, und (ii) ein Evaluierungs framework, das sowohl die Persuasion swirksamkeit als auch die Modellanfälligkeit über Drittparteien-Zustimmungswerte und selbstgeschätzte Token-Wahrscheinlichkeiten in Konversationsverläufen quantifiziert. Unsere Untersuchung von sechs führenden LVLMs als Persuadierte ergibt drei zentrale Erkenntnisse: (i) multimodale Eingaben steigern die Persuasion swirksamkeit – und Modellanfälligkeit – im Vergleich zu reinem Text erheblich, insbesondere in Desinformations szenarien; (ii) zuvor geäußerte Präferenzen verringern die Anfälligkeit, doch behalten multimodale Informationen ihren persuasiven Vorteil; und (iii) verschiedene Strategien variieren in ihrer Wirksamkeit je nach Kontext, wobei Reziprozität in kommerziellen und subjektiven Kontexten am wirksamsten ist und Glaubwürdigkeit sowie Logik in adversativen Kontexten dominieren. Durch die gemeinsame Analyse von Persuasion swirksamkeit und -anfälligkeit bietet MMPersuade eine prinzipienbasierte Grundlage für die Entwicklung robuster, präferenzkonformer und ethisch ausgerichteter Modelle im Umgang mit persuasiven multimodalen Inhalten.
Funktion Calling (FC) ermöglicht es großen Sprachmodellen (LLMs) und autonomen Agenten, mit externen Werkzeugen zu interagieren – eine entscheidende Fähigkeit zur Lösung komplexer, realer Probleme. Da diese Fähigkeit für fortschrittliche KI-Systeme zunehmend zentral wird, ist die Notwendigkeit hochwertiger, mehrstufiger Trainingsdaten zu ihrer Entwicklung und Verfeinerung nicht zu unterschätzen. Bestehende Methoden zur Datensynthese, wie zufällige Umgebungsstichproben oder Multi-Agenten-Rollenspiele, sind nicht leistungsfähig genug, um hochwertige Daten in realen Umgebungen zu erzeugen. Die praktischen Herausforderungen sind dreifach: gezieltes Modelltraining, Isolierung der Werkzeugarchitektur und mehrstufige logische Abhängigkeiten. Um diese strukturellen Mängel zu beheben, stellen wir FunReason-MT vor, ein neuartiges Framework zur Datensynthese für mehrstufigen Werkzeugeinsatz in der realen Welt. FunReason-MT überwindet die Komplexitätsbarriere bei mehrstufigen FC-Daten durch den Einsatz von 1) Umgebungs-API-Graph-Interaktionen zur Erfassung vielfältiger, hochwertiger Trajektorien, 2) Erweiterter Werkzeug-Abfrage-Synthese zur Vereinfachung der Erstellung anspruchsvoller Abfragen und 3) einer Geführten Iterativen Kette zur Generierung anspruchsvoller Denkketten (CoT). Evaluationen auf dem Berkeley Function-Calling Leaderboard (BFCLv3) belegen die Stärke unseres Frameworks: Ein auf mit FunReason-MT generierten Daten trainiertes 4B-Modell erzielt state-of-the-art Leistung unter Modellen vergleichbarer Größe und übertrifft die meisten Closed-Source-Modelle. Weitere Leistungssteigerungen auf BFCLv4 bestätigen, dass FunReason-MT eine zuverlässige und robuste Quelle für agentenbasiertes Lernen darstellt.
Generative Modelle haben bedeutende Fortschritte bei der Synthese von hochwertigen Audiodateien aus kurzen Textbeschreibungen erzielt. Die Bearbeitung bestehender Audiodateien mit natürlicher Sprache wurde jedoch bisher kaum erforscht. Bestehende Ansätze erfordern entweder eine vollständige Beschreibung der bearbeiteten Audiodatei oder sind auf vordefinierte Bearbeitungsanweisungen beschränkt, was ihre Flexibilität einschränkt. In dieser Arbeit stellen wir SAO-Instruct vor, ein auf Stable Audio Open basierendes Modell, das Audiodateien mithilfe beliebiger Freitext-Anweisungen bearbeiten kann. Um unser Modell zu trainieren, erstellen wir einen Datensatz von Audio-Bearbeitungs-Tripeln (Eingabeaudio, Bearbeitungsanweisung, Ausgabeaudio) unter Verwendung von Prompt-to-Prompt, DDPM-Inversion und einer manuellen Bearbeitungspipeline. Obwohl das Modell teilweise mit synthetischen Daten trainiert wurde, generalisiert es gut auf reale Audiodateien aus nicht kontrollierten Quellen und nicht vorgegebene Bearbeitungsanweisungen. Wir zeigen, dass SAO-Instruct eine wettbewerbsfähige Leistung bei objektiven Metriken erzielt und andere Audio-Bearbeitungsansätze in einer subjektiven Hörstudie übertrifft. Um zukünftige Forschung zu fördern, veröffentlichen wir unseren Code und unsere Modellgewichte.
Große Sprachmodelle (LLMs) haben gezeigt, dass groß angelegtes Pretraining Systeme befähigt, sich im Sprachbereich mit geringer Überwachung schnell an neue Probleme anzupassen. Dieser Erfolg hat sich jedoch nicht in gleichem Maße auf den visuellen Bereich übertragen, in dem Modelle, einschließlich LLMs, weiterhin mit kombinatorischem Verständnis, Stichprobeneffizienz und allgemeiner Problemlösungsfähigkeit kämpfen. Wir untersuchen Video-Diffusionsmodelle (VDMs) als vielversprechende Richtung, um diese Lücke zu schließen. Das Pretraining auf raumzeitlichen Daten verleiht diesen Modellen starke induktive Verzerrungen für Struktur und Dynamik, von denen wir annehmen, dass sie eine breite Aufgabenadaptionsfähigkeit unterstützen können. Um dies zu testen, entwerfen wir eine kontrollierte Evaluation, bei der sowohl ein vortrainiertes LLM als auch ein vortrainiertes VDM mit leichtgewichtigen Adaptern ausgestattet und mit Aufgaben in ihren natürlichen Modalitäten konfrontiert werden. Über Benchmarks hinweg, darunter ARC-AGI, ConceptARC, visuelle Spiele, Routenplanung und zelluläre Automaten, zeigen VDMs eine höhere Dateneffizienz als ihre sprachbasierten Gegenstücke. Zusammengenommen deuten unsere Ergebnisse darauf hin, dass Video-Pretraining induktive Verzerrungen bietet, die Fortschritte hin zu visuellen Basismodellen unterstützen.
KI-Agenten der Spitzenklasse zeigen zunehmend Potenzial als Forschungshilfen und könnten langfristig für umfassende, offene Forschungsabläufe nützlich sein. Um Agenten jedoch für neuartige Forschung einzusetzen, müssen wir zunächst die grundlegende Zuverlässigkeit und Korrektheit ihrer Arbeit bewerten. Zur Evaluierung von Agenten als Forschungshilfen stellen wir ReplicationBench vor – ein Evaluierungsrahmenwerk, das testet, ob Agenten gesamte Forschungsarbeiten aus der Astrophysik-Literatur replizieren können. Die Astrophysik, deren Forschung stark auf Archivdaten und computergestützte Studien angewiesen ist und kaum reale Experimente erfordert, stellt ein besonders geeignetes Testfeld für KI-Agenten in der wissenschaftlichen Forschung dar. Wir unterteilen jede Arbeit in Aufgaben, die von den Agenten verlangen, die zentralen Beiträge der Arbeit zu replizieren, einschließlich des experimentellen Aufbaus, Herleitungen, Datenanalysen und Codebasis. Jede Aufgabe wird gemeinsam mit den Originalautoren der Arbeit entwickelt und zielt auf ein zentrales wissenschaftliches Ergebnis ab, was eine objektive Bewertung sowohl der Zuverlässigkeit (Einhaltung der ursprünglichen Methoden) als auch der Korrektheit (fachliche Genauigkeit der Ergebnisse) ermöglicht. ReplicationBench stellt eine enorme Herausforderung für aktuelle Sprachmodelle der Spitzenklasse dar: selbst die leistungsstärksten Sprachmodelle erreichen Werte unter 20%. Durch die Analyse von ReplicationBench-Durchläufen in Zusammenarbeit mit Domain-Experten identifizieren wir eine Vielzahl unterschiedlicher Fehlermodi von Agenten in der wissenschaftlichen Forschung. ReplicationBench etabliert den ersten Benchmark für papierumspannende, expertenvalidierte astrophysikalische Forschungsaufgaben, liefert Erkenntnisse über die Leistungsfähigkeit von Agenten, die auf andere Bereiche datengetriebener Wissenschaft übertragbar sind, und bietet ein skalierbares Rahmenwerk zur Messung der Zuverlässigkeit von KI-Agenten in der wissenschaftlichen Forschung.
Das Verständnis von Objekten auf der Ebene ihrer Bestandteile ist grundlegend für Fortschritte in Computer Vision, Grafik und Robotik. Während Datensätze wie PartNet die Entwicklung im Bereich des 3D-Teileverständnisses vorangetrieben haben, begrenzen ihre Abhängigkeit von texturlosen Geometrien und expertenabhängigen Annotationen die Skalierbarkeit und Nutzbarkeit. Wir stellen PartNeXt vor, einen Datensatz der nächsten Generation, der diese Lücken mit über 23.000 hochwertigen, texturierten 3D-Modellen schließt, die mit feingranularen, hierarchischen Teilelabels über 50 Kategorien hinweg annotiert sind. Wir evaluieren PartNeXt an zwei Aufgaben: (1) klassenagnostische Teilesegmentierung, bei der State-of-the-Art-Methoden (z.B. PartField, SAMPart3D) mit feingranularen und Blattelementen kämpfen, und (2) 3D-teilezentriertes Frage-Antworten, ein neuer Benchmark für 3D-LLMs, der erhebliche Lücken in der open-vocabulary Teileverortung aufzeigt. Zudem erzielt das Training von Point-SAM auf PartNeXt deutliche Verbesserungen gegenüber PartNet, was die überlegene Qualität und Vielfalt des Datensatzes unterstreicht. Durch die Kombination von skalierbarer Annotation, texturbewussten Labels und Multi-Task-Evaluation eröffnet PartNeXt neue Wege für die Forschung im Bereich des strukturierten 3D-Verständnisses.
In der heutigen sich rasch ausweitenden Datenlandschaft ist die Wissensextraktion aus unstrukturierten Texten entscheidend für Echtzeitanalysen, temporale Inferenz und dynamische Gedächtnisframeworks. Traditionelle Methoden zur Erstellung statischer Wissensgraphen (KG) übersehen jedoch oft die dynamische und zeitkritische Natur realer Daten, was die Anpassungsfähigkeit an kontinuierliche Veränderungen einschränkt. Zudem leiden aktuelle Zero- oder Few-Shot-Ansätze, die auf domainspezifisches Fine-Tuning oder vordefinierte Ontologien verzichten, häufig unter Instabilität über mehrere Durchläufe hinweg sowie unvollständiger Abdeckung wichtiger Fakten. Um diese Herausforderungen zu bewältigen, stellen wir ATOM (AdapTive and OptiMized) vor, einen Few-Shot- und skalierbaren Ansatz, der temporale Wissensgraphen (TKG) aus unstrukturierten Texten aufbaut und kontinuierlich aktualisiert. ATOM unterteilt Eingabedokumente in minimale, in sich geschlossene "atomare" Fakten, was die Exhaustivität und Stabilität der Extraktion verbessert. Anschließend konstruiert es daraus atomare TKGs unter Verwendung einer dualen Zeitmodellierung, die zwischen dem Zeitpunkt der Beobachtung einer Information und dem Zeitpunkt ihrer Gültigkeit unterscheidet. Die resultierenden atomaren TKGs werden anschließend parallel zusammengeführt. Empirische Auswertungen zeigen, dass ATOM im Vergleich zu Baseline-Methoden eine ~18 % höhere Exhaustivität, eine ~17 % bessere Stabilität und eine über 90 % geringere Latenzzeit erreicht, was ein starkes Skalierungspotenzial für die dynamische TKG-Konstruktion demonstriert.
Große Sprachmodelle (LLMs) weisen eine beunruhigende Dualität auf: Sie sind sowohl zu bemerkenswerter Generalisierung als auch zu brüchiger, wortgetreuer Memorierung ihrer Trainingsdaten fähig. Diese Unvorhersehbarkeit untergräbt ihre Zuverlässigkeit in hochriskanten Anwendungen. In dieser Arbeit schlagen wir einen einheitlichen Rahmen vor, um diese unterschiedlichen Denkmodi zu verstehen, zu identifizieren und zu steuern. Zunächst führen wir ein theoretisches Modell auf Basis des Information-Bottleneck-Prinzips (IB) ein, das Generalisierung als das Erlernen einer komprimierten, aufgabenrelevanten Repräsentation formalisiert und Memorierung als ein Scheitern der Kompression beschreibt. Aufbauend auf dieser Theorie entwickeln wir Dynamic Mode Steering (DMS), einen neuartigen Algorithmus für die Inferenzzeit, der zwei Komponenten umfasst: (1) eine leichtgewichtige, kausal fundierte lineare Sonde, die die momentane Abhängigkeit des Modells von Memorierung identifiziert, und (2) einen Mechanismus zur dynamischen Steuerung von Aktivierungen, der die Berechnung des Modells in Richtung vorab identifizierter Generalisierungsschaltkreise lenkt. Wir fassen DMS als eine Form von adaptivem, selbstkontrastivem Decoding auf. Experimente zu Reasoning- und Wahrhaftigkeitsaufgaben zeigen, dass DMS die logische Konsistenz und faktische Genauigkeit signifikant verbessert und somit einen prinzipienbasierten Ansatz zur Erhöhung der LLM-Zuverlässigkeit bietet.
Die Ausrichtung von Vision-Sprache-Repräsentationen verleiht aktuellen Vision-Sprache-Modellen (VLMs) starke multimodale Reasoning-Fähigkeiten. Die Interpretierbarkeit der Ausrichtungskomponente bleibt jedoch unerforscht, da es schwierig ist, die Semantik multimodaler Repräsentationen auf einen einheitlichen Konzeptset abzubilden. Um dieses Problem zu lösen, schlagen wir VL-SAE vor, einen Sparse Autoencoder, der Vision-Sprache-Repräsentationen in seinen versteckten Aktivierungen kodiert. Jedes Neuron in seiner versteckten Schicht korreliert mit einem Konzept, das durch semantisch ähnliche Bilder und Texte repräsentiert wird, wodurch diese Repräsentationen mit einem einheitlichen Konzeptset interpretiert werden. Um die Neuron-Konzept-Korrelation herzustellen, fördern wir während des selbstüberwachten Trainings, dass semantisch ähnliche Repräsentationen konsistente Neuronaktivierungen aufweisen. Erstens führen wir die Ausrichtung multimodaler Repräsentationen in expliziter Form auf Basis der Kosinusähnlichkeit durch, um deren semantische Ähnlichkeit zu messen. Zweitens konstruieren wir VL-SAE mit einem distanzbasierten Encoder und zwei modalitätsspezifischen Decodern, um die Aktivierungskonsistenz semantisch ähnlicher Repräsentationen zu gewährleisten. Experimente mit verschiedenen VLMs (z.B. CLIP, LLaVA) demonstrieren die überlegene Fähigkeit von VL-SAE bei der Interpretation und Verbesserung der Vision-Sprache-Ausrichtung. Zur Interpretation kann die Ausrichtung zwischen visuellen und sprachlichen Repräsentationen durch den Vergleich ihrer Semantik mit Konzepten verstanden werden. Zur Verbesserung kann die Ausrichtung durch die Abstimmung von Vision-Sprache-Repräsentationen auf Konzeptebene gestärkt werden, was zu Leistungsverbesserungen in nachgelagerten Aufgaben beiträgt, einschließlich Zero-Shot-Bildklassifizierung und Halluzinationsbeseitigung. Codes sind verfügbar unter https://github.com/ssfgunner/VL-SAE.
Die topologische Optimierung (TO) ist zentral im Ingenieurdesign, bleibt jedoch aufgrund komplexer Physik und harter Randbedingungen rechenintensiv. Bestehende Deep-Learning-Methoden sind auf feste quadratische Gitter, einige hartkodierte Randbedingungen und nachgelagerte Optimierung beschränkt, was einen allgemeinen Einsatz verhindert. Wir stellen Optimize Any Topology (OAT) vor, ein Foundation-Model-Framework, das direkt nachgiebigkeitsminimale Layouts für beliebige Seitenverhältnisse, Auflösungen, Volumenanteile, Lasten und Auflager vorhersagt. OAT kombiniert einen auflösungs- und formagnostischen Autoencoder mit einem impliziten Neural-Field-Decoder und einem konditionellen Latent-Diffusion-Modell, das auf OpenTO trainiert wurde – einem neuen Korpus von 2,2 Millionen optimierten Strukturen, die 2 Millionen einzigartige Randbedingungskonfigurationen abdecken. In vier öffentlichen Benchmarks und zwei anspruchsvollen, ungesehenen Tests reduziert OAT die mittlere Nachgiebigkeit um bis zu 90 % im Vergleich zu den besten bisherigen Modellen und ermöglicht Inferenzzeiten von unter einer Sekunde auf einer einzelnen GPU über Auflösungen von 64 x 64 bis 256 x 256 und Seitenverhältnissen von bis zu 10:1. Diese Ergebnisse etablieren OAT als allgemeines, schnelles und auflösungsunabhängiges Framework für physikbewusste topologische Optimierung und bieten einen großen Datensatz, um weitere Forschung im generativen Modellieren für inverses Design anzuregen. Code & Daten sind unter https://github.com/ahnobari/OptimizeAnyTopology verfügbar.
Kürzlich hat GRPO-basierte Verstärkungslernung bemerkenswerte Fortschritte bei der Optimierung von Flow-Matching-Modellen erzielt und deren Ausrichtung auf aufgabenspezifische Belohnungen effektiv verbessert. In diesen Frameworks stützt sich die Policy-Aktualisierung auf Importance-Ratio-Clipping, um übermäßig positive und negative Gradienten einzuschränken. In der Praxis beobachten wir jedoch eine systematische Verschiebung der Importance-Ratio-Verteilung – ihr Mittelwert fällt unter 1 und ihre Varianz unterscheidet sich erheblich über Zeitschritte hinweg. Diese linksverschobene und inkonsistente Verteilung verhindert, dass Proben mit positivem Vorteil in den geclippten Bereich gelangen, was dazu führt, dass der Mechanismus bei der Begrenzung übermäßig positiver Updates versagt. Infolgedessen gerät das Policy-Modell unweigerlich in eine implizite Überoptimierungsphase – während die Proxy-Belohnung weiter ansteigt, verschlechtern sich essentielle Metriken wie Bildqualität und Text-Prompt-Ausrichtung stark, was die gelernte Policy letztlich unpraktikabel für reale Anwendungen macht. Um dieses Problem zu lösen, führen wir GRPO-Guard ein, eine einfache, aber effektive Verbesserung bestehender GRPO-Frameworks. Unsere Methode integriert eine Ratio-Normalisierung, die eine ausgewogene und schrittkonsistente Importance-Ratio wiederherstellt und sicherstellt, dass das PPO-Clipping schädliche Updates über Denoising-Zeitschritte hinweg ordnungsgemäß begrenzt. Zusätzlich gleicht eine Gradienten-Neugewichtungsstrategie die Policy-Gradienten über Rauschbedingungen hinweg aus und verhindert übermäßige Updates aus bestimmten Zeitschrittbereichen. Zusammen wirken diese Entwürfe als regulierter Clipping-Mechanismus, stabilisieren die Optimierung und mildern die implizite Überoptimierung erheblich, ohne auf aufwändige KL-Regularisierung angewiesen zu sein. Umfangreiche Experimente mit verschiedenen Diffusion-Backbones (z.B. SD3.5M, Flux.1-dev) und diversen Proxy-Aufgaben zeigen, dass GRPO-Guard die Überoptimierung signifikant reduziert und gleichzeitig die Generierungsqualität beibehält oder sogar verbessert.
Zuverlässiges Schließen in medizinischen Vision-Language-Modellen (VLMs) erfordert nicht nur präzise Vorhersagen, sondern auch eine transparente Übereinstimmung zwischen textuellen Begründungen und visuellen Beweisen. Während Chain-of-Thought (CoT)-Prompting bei medizinischen Visual Question Answering (VQA) vielversprechende Ergebnisse gezeigt hat, existierte bisher kein umfangreicher, auf Expertenniveau annotierter Datensatz, der schrittweises Schließen mit präziser visueller Verankerung erfasst. Wir stellen S-Chain vor, den ersten groß angelegten Datensatz mit 12.000 von Experten annotierten medizinischen Bildern, die Bounding-Boxen und strukturierte visuelle CoT (SV-CoT) enthalten und visuelle Regionen explizit mit Denkschritten verknüpfen. Der Datensatz unterstützt zudem 16 Sprachen mit insgesamt über 700.000 VQA-Paaren für eine breite mehrsprachige Anwendbarkeit. Unter Verwendung von S-Chain benchmarken wir modernste medizinische VLMs (ExGra-Med, LLaVA-Med) und allgemeine VLMs (Qwen2.5-VL, InternVL2.5) und zeigen, dass SV-CoT-Aufsicht die Interpretierbarkeit, Verankerungstreue und Robustheit signifikant verbessert. Über das Benchmarking hinaus untersuchen wir die Synergie mit retrieval-augmentierter Generierung und zeigen, wie Domänenwissen und visuelle Verankerung während des autoregressiven Schließens interagieren. Abschließend schlagen wir einen neuen Mechanismus vor, der die Ausrichtung zwischen visuellen Beweisen und Schlussfolgerungen stärkt und sowohl Zuverlässigkeit als auch Effizienz verbessert. S-Chain etabliert einen neuen Maßstab für verankertes medizinisches Schließen und ebnet den Weg zu vertrauenswürdigeren und erklärbaren medizinischen VLMs.
Wir präsentieren eine umfassende Evaluation der Fähigkeit großer Sprachmodelle (LLMs), kulturell verwurzelte Sprache zu verarbeiten, insbesondere um figurative Ausdrücke, die lokales Wissen und kulturelle Nuancen kodieren, zu verstehen und pragmatisch zu verwenden. Indem wir figurative Sprache als Stellvertreter für kulturelle Nuancen und lokales Wissen nutzen, entwerfen wir Evaluierungsaufgaben für kontextuelles Verständnis, pragmatische Verwendung und Konnotationsinterpretation im Arabischen und Englischen. Wir evaluieren 22 Open-Source- und Closed-Source-LLMs anhand ägyptisch-arabischer Redewendungen, mehrdialektaler arabischer Sprichwörter und englischer Sprichwörter. Unsere Ergebnisse zeigen eine konsistente Hierarchie: Die durchschnittliche Genauigkeit für arabische Sprichwörter liegt 4,29 % niedriger als für englische Sprichwörter, und die Leistung bei ägyptischen Redewendungen ist 10,28 % niedriger als bei arabischen Sprichwörtern. Bei der pragmatischen Anwendungsaufgabe sinkt die Genauigkeit um 14,07 % im Vergleich zum Verständnis, obwohl das Bereitstellen kontextueller idiomatischer Sätze die Genauigkeit um 10,66 % verbessert. Modelle haben auch Schwierigkeiten mit konnotativer Bedeutung und erreichen maximal 85,58 % Übereinstimmung mit menschlichen Annotatoren bei Redewendungen mit 100 % Inter-Annotator-Übereinstimmung. Diese Ergebnisse demonstrieren, dass figurative Sprache als effektive Diagnose für kulturelles Reasoning dient: Während LLMs oft figurative Bedeutung interpretieren können, stehen sie vor Herausforderungen bei deren angemessener Verwendung. Um zukünftige Forschung zu unterstützen, veröffentlichen wir Kinayat, den ersten Datensatz ägyptisch-arabischer Redewendungen, der sowohl für das Evaluieren des figurativen Verständnisses als auch der pragmatischen Anwendung konzipiert ist.
Patent-Text-Einbettungen ermöglichen die Suche nach dem Stand der Technik, die Technologielandschaftsanalyse und die Patentanalyse, doch bestehende Benchmarks erfassen die patentspezifischen Herausforderungen nur unzureichend. Wir stellen PatenTEB vor, einen umfassenden Benchmark, der 15 Aufgaben aus den Bereichen Retrieval, Klassifikation, Paraphrasierung und Clustering mit 2,06 Millionen Beispielen umfasst. PatenTEB verwendet domänen-stratifizierte Aufteilungen, domänenspezifisches Hard-Negative-Mining und eine systematische Abdeckung asymmetrischer Fragment-zu-Dokument-Matching-Szenarien, die in allgemeinen Einbettungs-Benchmarks fehlen. Wir entwickeln die patembed-Modellfamilie durch Multi-Task-Training, die von 67M bis 344M Parametern mit Kontextlängen von bis zu 4096 Tokens reicht. Externe Validierungen zeigen eine starke Generalisierungsfähigkeit: patembed-base erzielt State-of-the-Art auf MTEB BigPatentClustering.v2 (0,494 V-Maß vs. 0,445 bisheriger Bestwert), während patembed-large 0,377 NDCG@100 auf DAPFAM erreicht. Systematische Ablationen zeigen, dass Multi-Task-Training die externe Generalisierung trotz geringer Benchmark-Einbußen verbessert und dass domänen-vortrainierte Initialisierung konsistente Vorteile über Aufgabenfamilien hinweg bietet. Alle Ressourcen werden unter https://github.com/iliass-y/patenteb verfügbar gemacht. Schlüsselwörter: Patentrecherche, Satzeinbettungen, Multi-Task-Lernen, asymmetrisches Retrieval, Benchmark-Evaluierung, kontrastives Lernen.