papers.description
Die Bezeichnung "End-to-End" für LLMs ist irreführend. In der Praxis sind sie auf einen nicht-differenzierbaren Decodierungsprozess angewiesen, der eine mühsame manuelle Optimierung von Hyperparametern wie Temperatur und Top-p erfordert. Dieses Paper stellt AutoDeco vor, eine neuartige Architektur, die durch das Erlernen der Steuerung ihrer eigenen Decodierungsstrategie wirklich "End-to-End"-Generierung ermöglicht. Wir erweitern den Standard-Transformer um schlanke "Heads", die in jedem Schritt kontextspezifische Temperatur- und Top-p-Werte dynamisch neben den nächsten Token-Logits vorhersagen. Dieser Ansatz verwandelt die Decodierung in einen parametrischen, Token-basierten Prozess, der es dem Modell ermöglicht, seine Sampling-Strategie innerhalb eines einzigen Forward-Passes selbst zu regulieren. In umfangreichen Experimenten mit acht Benchmarks zeigen wir, dass AutoDeco nicht nur Standard-Decodierungsstrategien signifikant übertrifft, sondern auch eine Leistung erreicht, die mit einem Oracle-optimierten Baseline-System vergleichbar ist – einer praktischen Obergrenze für jede statische Methode, die durch "Test-Set-Hacking" abgeleitet wurde. Entscheidend ist, dass wir eine emergente Fähigkeit zur befehlsbasierten Decodierungssteuerung aufdecken: Das Modell lernt, natürlichsprachliche Anweisungen (z.B. "Generiere mit geringer Zufälligkeit") zu interpretieren und passt seine vorhergesagten Temperatur- und Top-p-Werte Token-für-Token an. Dies eröffnet ein neues Paradigma für steuerbare und interaktive LLM-Decodierung.
Wir stellen Kimi Linear vor, eine hybride Linear-Attention-Architektur, die erstmals unter fairen Vergleichen in verschiedenen Szenarien – einschließlich Kurzkontext-, Langkontext- und Reinforcement-Learning (RL)-Skalierungsregimen – die volle Attention übertrifft. Im Kern befindet sich Kimi Delta Attention (KDA), ein ausdrucksstarkes Linear-Attention-Modul, das Gated DeltaNet mit einem feiner granularen Gating-Mechanismus erweitert und so eine effektivere Nutzung des begrenzten RNN-Zustandsspeichers ermöglicht. Unser maßgeschneiderter Chunkwise-Algorithmus erreicht eine hohe Hardware-Effizienz durch eine spezialisierte Variante der Diagonal-Plus-Low-Rank (DPLR)-Übergangsmatrizen, die den Rechenaufwand im Vergleich zur allgemeinen DPLR-Formulierung erheblich reduziert, dabei aber konsistenter mit der klassischen Delta-Regel bleibt. Wir pretrainieren ein Kimi Linear-Modell mit 3B aktivierten Parametern und 48B Gesamtparametern, basierend auf einer schichtenweisen Hybridstruktur aus KDA und Multi-Head Latent Attention (MLA). Unsere Experimente zeigen, dass Kimi Linear bei identischem Training alle evaluierten Aufgaben mit deutlichem Vorsprung gegenüber vollständiger MLA löst, dabei den KV-Cache-Verbrauch um bis zu 75 % reduziert und einen bis zu 6-fachen Decoding-Durchsatz für einen 1M-Kontext erreicht. Diese Ergebnisse demonstrieren, dass Kimi Linear ein direkter Ersatz für volle Attention-Architekturen mit überlegener Leistung und Effizienz sein kann, auch für Aufgaben mit längeren Eingabe- und Ausgabelängen. Um die weitere Forschung zu unterstützen, stellen wir den KDA-Kernel und vLLM-Implementierungen als Open Source bereit und veröffentlichen die vortrainierten und instruction-getunten Modell-Checkpoints.
Wir stellen Emu3.5 vor, ein großskaliges multimodales Weltmodell, das von Grund auf den nächsten Zustand in den Bereichen Vision und Sprache vorhersagt. Emu3.5 wird end-to-end mit einem einheitlichen "Next-Token-Prediction"-Ziel auf einem Korpus aus verschachtelten Vision-Sprache-Daten vortrainiert, der über 10 Billionen Tokens umfasst und hauptsächlich aus sequentiellen Frames und Transkripten von Internetvideos stammt. Das Modell akzeptiert auf natürliche Weise verschachtelte Vision-Sprache-Eingaben und erzeugt verschachtelte Vision-Sprache-Ausgaben. Emu3.5 wird anschließend mit großskaligem Reinforcement Learning nachtrainiert, um das multimodale Schlussfolgern und die Generierung zu verbessern. Um die Inferenzeffizienz zu steigern, schlagen wir Discrete Diffusion Adaptation (DiDA) vor, das die Token-für-Token-Decodierung in eine bidirektionale parallele Vorhersage umwandelt und die Inferenz pro Bild um etwa das 20-fache beschleunigt, ohne Leistungseinbußen. Emu3.5 zeigt starke native multimodale Fähigkeiten, einschließlich langfristiger Vision-Sprache-Generierung, Any-to-Image (X2I)-Generierung und der Generierung komplexer textlastiger Bilder. Es zeigt auch generalisierbare Weltmodellierungsfähigkeiten, die eine räumlich-zeitlich konsistente Welterkundung und Open-World-Embodied-Manipulation über verschiedene Szenarien und Aufgaben hinweg ermöglichen. Im Vergleich erzielt Emu3.5 eine mit Gemini 2.5 Flash Image (Nano Banana) vergleichbare Leistung bei Bildgenerierungs- und Bearbeitungsaufgaben und demonstriert überlegene Ergebnisse bei einer Reihe von verschachtelten Generierungsaufgaben. Wir stellen Emu3.5 unter https://github.com/baaivision/Emu3.5 als Open Source zur Verfügung, um die Forschung in der Community zu unterstützen.
OpenAIs ChatGPT Atlas führt neue Fähigkeiten zur Webinteraktion ein, die es dem Modell ermöglichen, Webseiten zu analysieren, Nutzerabsichten zu verarbeiten und Maus- sowie Tastatureingaben direkt im Browser auszuführen. Während seine Fähigkeiten für Informationsbeschaffungsaufgaben bereits demonstriert wurden, ist seine Leistung in dynamischen, interaktiven Umgebungen weniger erforscht. In dieser Studie führen wir eine erste Evaluation der Webinteraktionsfähigkeiten von Atlas anhand von Browserspielen als Testszenarien durch, darunter Google's T-Rex Runner, Sudoku, Flappy Bird und Stein.world. Wir verwenden Spielleistungswerte als quantitative Metriken, um die Leistung über verschiedene Aufgabentypen hinweg zu bewerten. Unsere Ergebnisse zeigen, dass Atlas bei logischen Denkaufgaben wie Sudoku stark abschneidet und Rätsel deutlich schneller löst als menschliche Vergleichswerte, jedoch erhebliche Schwierigkeiten bei Echtzeitspielen mit präzisen Timing- und Motorikanforderungen hat, oft schon an ersten Hindernissen scheitert. Diese Ergebnisse deuten darauf hin, dass Atlas zwar leistungsfähige analytische Verarbeitung demonstriert, aber bemerkenswerte Einschränkungen in dynamischen Webumgebungen mit Echtzeitinteraktionen bestehen. Die Website unseres Projekts ist unter https://atlas-game-eval.github.io zu finden.
Große Sprachmodelle (LLMs) haben oft Schwierigkeiten mit Problemen, die mehrstufiges logisches Denken erfordern. Bei kleinen Open-Source-Modellen versagt Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), wenn korrekte Lösungen selbst nach vielen Versuchen nur selten generiert werden, während Supervised Fine-Tuning (SFT) dazu neigt, lange Lösungsdemonstrationen durch starre, tokenweise Nachahmung zu überanpassen. Um diese Lücke zu schließen, schlagen wir Supervised Reinforcement Learning (SRL) vor, ein Framework, das Problemlösung als Generieren einer Sequenz logischer "Aktionen" reformuliert. SRL trainiert das Modell, vor jeder Aktion einen internen Denkmonolog zu generieren. Es bietet glattere Belohnungen basierend auf der Ähnlichkeit zwischen den Aktionen des Modells und Expertenaktionen aus dem SFT-Datensatz in einem schrittweisen Verfahren. Diese Überwachung liefert reichhaltigere Lernsignale, selbst wenn alle Durchläufe fehlerhaft sind, und fördert gleichzeitig flexibles Denken, das von Experten-Demonstrationen geleitet wird. Dadurch ermöglicht SRL kleinen Modellen, anspruchsvolle Probleme zu erlernen, die zuvor mit SFT oder RLVR nicht lernbar waren. Darüber hinaus erzielt die Initialisierung des Trainings mit SRL vor einer Verfeinerung mit RLVR die insgesamt beste Leistung. Über Reasoning-Benchmarks hinaus generalisiert SRL effektiv auf agentenbasierte Softwareentwicklungsaufgaben und etabliert sich so als robustes und vielseitiges Trainingsframework für reasoning-orientierte LLMs.
Während vortrainierte visuelle Repräsentationen das Imitationslernen erheblich vorangebracht haben, sind sie oft aufgabenagnostisch, da sie während des Politik-Lernens eingefroren bleiben. In dieser Arbeit untersuchen wir die Nutzung vortrainierter Text-zu-Bild-Diffusionsmodelle, um aufgabenadaptive visuelle Repräsentationen für die Robotiksteuerung zu erhalten, ohne das Modell selbst feinabzustimmen. Wir stellen jedoch fest, dass die naive Anwendung textueller Bedingungen – eine erfolgreiche Strategie in anderen Vision-Bereichen – bei Steuerungsaufgaben nur minimale oder sogar negative Verbesserungen bringt. Wir führen dies auf die Domänenlücke zwischen den Trainingsdaten des Diffusionsmodells und Robotiksteuerungsumgebungen zurück, was uns zu der Forderung nach Bedingungen veranlasst, die die spezifischen, dynamischen visuellen Informationen berücksichtigen, die für die Steuerung erforderlich sind. Zu diesem Zweck schlagen wir ORCA vor, das lernbare Aufgaben-Prompts einführt, die sich an die Steuerungsumgebung anpassen, und visuelle Prompts, die feinkörnige, framespezifische Details erfassen. Durch die Ermöglichung aufgabenadaptiver Repräsentationen mit unseren neu entwickelten Bedingungen erzielt unser Ansatz state-of-the-art Leistung in verschiedenen Robotiksteuerungs-Benchmarks und übertrifft bisherige Methoden deutlich.
Die Entwicklung von Agenten, die sich generalisiert über Web-, Desktop- und Mobilumgebungen hinweg anwenden lassen, bleibt eine ungelöste Herausforderung, da bisherige Systeme auf umgebungsspezifischen Schnittstellen basieren, die plattformübergreifenden Einsatz einschränken. Wir stellen Surfer 2 vor, eine einheitliche Architektur, die ausschließlich auf visuellen Beobachtungen operiert und state-of-the-art Leistung in allen drei Umgebungen erzielt. Surfer 2 integriert hierarchisches Kontextmanagement, entkoppelte Planung und Ausführung sowie Selbstverifikation mit adaptiver Fehlerbehebung, was zuverlässigen Betrieb über lange Aufgabenhorizonte ermöglicht. Unser System erreicht eine Genauigkeit von 97,1 % auf WebVoyager, 69,6 % auf WebArena, 60,1 % auf OSWorld und 87,1 % auf AndroidWorld und übertrifft damit alle bisherigen Systeme ohne aufgabenspezifisches Fine-Tuning. Bei mehreren Versuchen übertrifft Surfer 2 die menschliche Leistung in allen Benchmarks. Diese Ergebnisse demonstrieren, dass systematische Orchestrierung die Fähigkeiten von Foundation Models verstärkt und allgemeine Computersteuerung allein durch visuelle Interaktion ermöglicht, während sie gleichzeitig die Notwendigkeit eines Vision-Language-Models der nächsten Generation für Pareto-optimale Kosteneffizienz aufzeigt.
Aktuelle Videogenerierungsmodelle können hochwertige, zeitlich kohärente Videos erzeugen, was darauf hindeutet, dass sie möglicherweise umfangreiches Weltwissen kodieren. Neben realistischer Synthese zeigen sie auch aufkeimende Verhaltensweisen, die auf visuelle Wahrnehmung, Modellierung und Manipulation hindeuten. Dennoch bleibt eine wichtige Frage bestehen: Sind Videomodelle bereit, als Zero-Shot-Reasoner in anspruchsvollen visuellen Reasoning-Szenarien zu dienen? In dieser Arbeit führen wir eine empirische Studie durch, um diese Frage umfassend zu untersuchen, mit Fokus auf das führende und populäre Veo-3. Wir bewerten sein Reasoning-Verhalten über 12 Dimensionen hinweg, darunter räumliche, geometrische, physikalische, zeitliche und verkörperte Logik, und charakterisieren systematisch sowohl seine Stärken als auch seine Fehlermodi. Um diese Studie zu standardisieren, haben wir die Evaluierungsdaten zu MME-CoF aufbereitet, einem kompakten Benchmark, das eine tiefgehende und gründliche Bewertung von Chain-of-Frame (CoF) Reasoning ermöglicht. Unsere Ergebnisse zeigen, dass aktuelle Videomodelle zwar vielversprechende Reasoning-Muster bei kurzzeitigem räumlichem Zusammenhalt, feinkörniger Verankerung und lokal konsistenter Dynamik aufweisen, sie jedoch in langzeitigem kausalen Reasoning, strengen geometrischen Zwängen und abstrakter Logik begrenzt bleiben. Insgesamt sind sie noch nicht zuverlässig als eigenständige Zero-Shot-Reasoner, zeigen aber ermutigende Anzeichen als komplementäre visuelle Engine neben spezialisierten Reasoning-Modellen. Projektseite: https://video-cof.github.io
Wir stellen AMO-Bench vor, einen Benchmark für fortgeschrittenes mathematisches Denken mit Olympiade-Niveau oder sogar höherem Schwierigkeitsgrad, der 50 von Menschen erstellte Probleme umfasst. Bestehende Benchmarks haben häufig Mathematikwettbewerbe auf Highschool-Niveau genutzt, um die mathematischen Denkfähigkeiten großer Sprachmodelle (LLMs) zu bewerten. Allerdings werden viele bestehende Mathematikwettbewerbe aufgrund von Leistungssättigung (z.B. AIME24/25) zunehmend weniger effektiv für die Bewertung von Spitzen-LLMs. Um dies zu adressieren, führt AMO-Bench anspruchsvollere Herausforderungen ein, indem sichergestellt wird, dass alle 50 Probleme (1) von Experten kreuzvalidiert wurden, um mindestens den Schwierigkeitsstandards der Internationalen Mathematik-Olympiade (IMO) zu entsprechen, und (2) vollständig originäre Probleme sind, um potenzielle Leistungsverzerrungen durch Datenspeicherung zu verhindern. Darüber hinaus erfordert jedes Problem in AMO-Bench lediglich eine finale Antwort anstelle eines Beweises, was eine automatische und robuste Bewertung zur Evaluation ermöglicht. Experimentelle Ergebnisse über 26 LLMs auf AMO-Bench zeigen, dass selbst das leistungsstärkste Modell nur eine Genauigkeit von 52,4 % auf AMO-Bench erreicht, wobei die meisten LLMs unter 40 % liegen. Über diese schlechten Leistungen hinaus zeigt unsere weitere Analyse einen vielversprechenden Skalierungstrend mit zunehmender Rechenleistung zur Testzeit auf AMO-Bench. Diese Ergebnisse unterstreichen das erhebliche Verbesserungspotenzial des mathematischen Denkens in aktuellen LLMs. Wir veröffentlichen AMO-Bench, um weitere Forschungen zur Weiterentwicklung der Denkfähigkeiten von Sprachmodellen zu erleichtern. https://amo-bench.github.io/
Wir stellen uns eine neue Ära der KI vor, die als agentische Organisation bezeichnet wird, in der Agenten komplexe Probleme durch kollaborative und parallele Zusammenarbeit lösen und damit Ergebnisse jenseits individueller Intelligenz ermöglichen. Um diese Vision zu verwirklichen, führen wir asynchrones Denken (AsyncThink) als neues Paradigma des Schlussfolgerns mit großen Sprachmodellen ein, das den internen Denkprozess in parallel ausführbare Strukturen organisiert. Konkret schlagen wir ein Denkprotokoll vor, bei dem ein Organisator dynamisch Teilfragen an Arbeiter verteilt, Zwischenwissen zusammenführt und kohärente Lösungen erzeugt. Noch wichtiger ist, dass die Denkstruktur in diesem Protokoll durch Reinforcement Learning weiter optimiert werden kann. Experimente zeigen, dass AsyncThink im Vergleich zu parallelem Denken eine um 28 % geringere Inferenzlatenz erreicht und gleichzeitig die Genauigkeit beim mathematischen Schlussfolgern verbessert. Darüber hinaus verallgemeinert AsyncThink seine erlernten asynchronen Denkfähigkeiten und bewältigt effektiv unbekannte Aufgaben ohne zusätzliches Training.
Trotz jüngster Fortschritte bei der 3D-Erzeugung menschlicher Bewegungen (MoGen) in Standardbenchmarks stoßen bestehende Modelle nach wie vor auf einen grundlegenden Flaschenhals in ihrer Generalisierungsfähigkeit. Im Gegensatz dazu haben benachbarte generative Bereiche, insbesondere die Videogenerierung (ViGen), eine bemerkenswerte Generalisierung bei der Modellierung menschlicher Verhaltensweisen gezeigt, was übertragbare Erkenntnisse hervorhebt, die MoGen nutzen kann. Motiviert durch diese Beobachtung stellen wir einen umfassenden Rahmen vor, der systematisch Wissen aus der ViGen in drei Schlüsselbereichen auf die MoGen überträgt: Daten, Modellierung und Evaluation. Erstens führen wir ViMoGen-228K ein, einen großen Datensatz mit 228.000 hochwertigen Bewegungsmustern, der hochauflösende optische MoCap-Daten mit semantisch annotierten Bewegungen aus Webvideos und synthetisierten Stichproben von modernsten ViGen-Modellen integriert. Der Datensatz umfasst sowohl Text-Bewegungs-Paare als auch Text-Video-Bewegungs-Tripel und erweitert die semantische Vielfalt erheblich. Zweitens schlagen wir ViMoGen vor, einen auf Flow Matching basierenden Diffusion-Transformer, der Priors aus MoCap-Daten und ViGen-Modellen durch gated multimodale Konditionierung vereinheitlicht. Um die Effizienz zu steigern, entwickeln wir weiterhin ViMoGen-light, eine destillierte Variante, die Abhängigkeiten von der Videogenerierung eliminiert, dabei aber eine starke Generalisierung beibehält. Schließlich präsentieren wir MBench, einen hierarchischen Benchmark, der für eine feingranulare Evaluation über Bewegungsqualität, Prompt-Treue und Generalisierungsfähigkeit konzipiert ist. Umfangreiche Experimente zeigen, dass unser Rahmenwerk bestehende Ansätze in sowohl automatischen als auch humanen Evaluationen signifikant übertrifft. Der Code, die Daten und der Benchmark werden öffentlich verfügbar gemacht.
Es gibt zwei gängige Methoden zur Konstruktion von 3D-Szenen: prozedurale Generierung und 2D-Lifting. Dabei hat sich das auf Panoramen basierende 2D-Lifting als vielversprechende Technik herausgestellt, die leistungsstarke generative 2D-Priors nutzt, um immersive, realistische und vielfältige 3D-Umgebungen zu erzeugen. In dieser Arbeit erweitern wir diese Technik, um grafikfähige 3D-Szenen zu generieren, die für physikalisch basiertes Rendering (PBR), Neubeleuchtung und Simulation geeignet sind. Unser zentraler Ansatz ist die Umwidmung generativer 2D-Modelle für die panoramische Erfassung von Geometrie, Texturen und PBR-Materialien. Im Gegensatz zu bestehenden 2D-Lifting-Ansätzen, die die Erzeugung von Erscheinungsbildern betonen und die Erfassung intrinsischer Eigenschaften vernachlässigen, stellen wir OmniX vor, ein vielseitiges und vereinheitlichtes Framework. Basierend auf einer leichtgewichtigen und effizienten Cross-Modal-Adapter-Struktur wiederverwendet OmniX generative 2D-Priors für eine breite Palette panoramischer Sehaufgaben, einschließlich panoramischer Wahrnehmung, Generierung und Vervollständigung. Darüber hinaus erstellen wir einen großen synthetischen Panorama-Datensatz, der hochwertige multimodale Panoramen aus verschiedenen Innen- und Außenbereichen enthält. Umfangreiche Experimente belegen die Wirksamkeit unseres Modells in der panoramischen visuellen Wahrnehmung und der Erzeugung grafikfähiger 3D-Szenen und eröffnen neue Möglichkeiten für die Generierung immersiver und physikalisch realistischer virtueller Welten.
Aktuelle text-zu-bild-generative Modelle werden auf großen, unkuratierten Datensätzen trainiert, um vielfältige Generierungsfähigkeiten zu ermöglichen. Dies entspricht jedoch nicht unbedingt den Benutzerpräferenzen. Kürzlich wurden speziell Belohnungsmodelle entwickelt, um nachträglich generierte Bilder auszuwählen und an eine Belohnung, typischerweise die Benutzerpräferenz, anzupassen. Diese Verwerfung informativer Daten zusammen mit der Optimierung für eine einzelne Belohnung schadet tendenziell der Vielfalt, der semantischen Treue und der Effizienz. Anstelle dieser Nachbearbeitung schlagen wir vor, das Modell während des Trainings an mehrere Belohnungsmodelle zu konditionieren, damit das Modell Benutzerpräferenzen direkt erlernt. Wir zeigen, dass dies nicht nur die visuelle Qualität der generierten Bilder dramatisch verbessert, sondern auch das Training erheblich beschleunigt. Unsere vorgeschlagene Methode, MIRO genannt, erzielt state-of-the-art Leistungen im GenEval Compositional Benchmark und bei Benutzerpräferenz-Scores (PickAScore, ImageReward, HPSv2).
Wearable-Geräte wie Smart Glasses verändern die Art und Weise, wie Menschen mit ihrer Umgebung interagieren, indem sie Nutzern ermöglichen, Informationen zu Objekten in ihrem Sichtfeld abzurufen. Multi-Modales Retrieval-Augmented Generation (MM-RAG) spielt eine Schlüsselrolle bei der Unterstützung solcher Anfragen, doch es existiert bisher kein umfassender Benchmark für diese Aufgabe, insbesondere für Wearable-Szenarien. Um diese Lücke zu schließen, stellen wir CRAG-MM vor – einen umfassenden RAG-Benchmark für multimodale, mehrfachwechselnde Konversationen. CRAG-MM enthält einen diversen Satz von 6.500 (Bild, Frage, Antwort)-Triplets und 2.000 visuell basierte Mehrfachdialoge über 13 Domänen hinweg, darunter 6.200 egocentrische Bilder, die Aufnahmen von Wearable-Geräten nachahmen. Wir haben die Fragen sorgfältig konstruiert, um realweltliche Szenarien und Herausforderungen abzubilden, einschließlich fünf Arten von Bildqualitätsproblemen, sechs Fragetypen, variierender Objektbekanntheit, unterschiedlicher Informationsdynamik und verschiedener Konversationsrunden. Wir entwerfen drei Aufgaben: Einzelquellen-Augmentierung, Multi-Quellen-Augmentierung und Mehrfachdialoge – jeweils versehen mit einem zugehörigen Retrieval-Korpus sowie APIs für Bild-Wissensgraph-Retrieval und Webseiten-Retrieval. Unsere Evaluation zeigt, dass einfache RAG-Ansätze auf CRAG-MM nur 32% bzw. 43% Wahrhaftigkeit bei Einzel- und Mehrfachfragen erreichen, während state-of-the-art Industrieprodukte ähnliche Qualität (32%/45%) aufweisen, was deutlichen Verbesserungsbedarf aufzeigt. Der Benchmark war Gastgeber des KDD Cup 2025, der etwa 1.000 Teilnehmer und 5.000 Einreichungen anzog, wobei die Gewinnerlösungen die Baseline-Leistung um 28% steigerten – ein Beleg für die frühe Wirkung des Benchmarks auf die Weiterentwicklung des Forschungsgebiets.
Elektronische Gesundheitsakten (EHRs) enthalten umfangreiche, aber komplexe Informationen, und ihre automatisierte Analyse ist entscheidend für klinische Entscheidungsfindungen. Trotz jüngster Fortschritte großer Sprachmodelle (LLMs) in klinischen Arbeitsabläufen bleibt ihre Fähigkeit, EHRs zu analysieren, aufgrund begrenzter Aufgabenabdeckung und fehlender EHR-orientierter Reasoning-Fähigkeiten eingeschränkt. Diese Arbeit zielt darauf ab, diese Lücke zu schließen. Konkret stellen wir EHR-Ins vor, einen umfangreichen, umfassenden EHR-Reasoning-Instruktionsdatensatz, der 300.000 hochwertige Reasoning-Fälle und 4 Millionen Nicht-Reasoning-Fälle über 42 verschiedene EHR-Aufgaben hinweg umfasst. Seine zentrale Innovation ist ein Thinking-Graph-gesteuertes Framework, das die Erzeugung hochwertiger Reasoning-Daten in großem Maßstab ermöglicht. Darauf aufbauend entwickeln wir EHR-R1, eine Reihe von Reasoning-verstärkten LLMs mit bis zu 72B Parametern, die speziell für die EHR-Analyse ausgelegt sind. Durch ein mehrstufiges Trainingsparadigma, einschließlich Domänenanpassung, Reasoning-Verbesserung und bestärkendem Lernen, eignet sich EHR-R1 systematisch Domänenwissen und vielfältige Reasoning-Fähigkeiten an, um eine genaue und robuste EHR-Analyse zu ermöglichen. Schließlich führen wir EHR-Bench ein, einen neuen, aus MIMIC-IV kuratierten Benchmark, der 42 Aufgaben umfasst, um Reasoning und Vorhersage über EHR-Szenarien hinweg umfassend zu bewerten. In Experimenten zeigen wir, dass das resultierende EHR-R1 durchgängig state-of-the-art kommerzielle und Open-Source-LLMs (einschließlich DeepSeek-V3 und GPT-4o) übertrifft, GPT-4o auf MIMIC-Bench um über 30 Punkte überragt und einen um 10 % höheren Zero-Shot-AUROC auf EHRSHOT erreicht. Zusammengenommen haben EHR-Ins, EHR-R1 und EHR-Bench die Entwicklung zuverlässigerer und klinisch relevanterer EHR-Analysen erheblich vorangetrieben.
Die Dokumenten-KI hat sich rasant weiterentwickelt und zieht zunehmend Aufmerksamkeit auf sich. Während sich die meisten Bemühungen jedoch auf die Dokumentenlayoutanalyse (DLA) konzentriert haben, bleibt ihr generatives Pendant, die Dokumentenlayoutgenerierung, weitgehend unerforscht. Ein Haupthindernis liegt in der Knappheit vielfältiger Layouts: Wissenschaftliche Arbeiten mit Manhattan-artigen Strukturen dominieren bestehende Studien, während offenere Genres wie Zeitungen und Zeitschriften stark unterrepräsentiert sind. Um diese Lücke zu schließen, haben wir OmniLayout-1M zusammengestellt, den ersten millionenschweren Datensatz vielfältiger Dokumentenlayouts, der sechs gängige Dokumenttypen abdeckt und zeitgenössische Layouts aus mehreren Quellen umfasst. Da bestehende Methoden in komplexen Domänen Schwierigkeiten haben und oft lange Sequenzen nicht kohärent anordnen können, führen wir zudem OmniLayout-LLM ein, ein 0,5B-Modell mit einem speziell entwickelten zweistufigen Coarse-to-Fine-Lernparadigma: 1) Erlernen universeller Layoutprinzipien aus OmniLayout-1M mit groben Kategoriedefinitionen und 2) Transfer des Wissens auf eine spezifische Domäne mit feinkörnigen Annotationen. Umfangreiche Experimente belegen, dass unser Ansatz in mehreren Domänen des M^{6}Doc-Datensatzes eine hohe Leistung erzielt und sowohl bestehende Layoutgenerierungsexperten als auch mehrere neuere allgemeine LLMs deutlich übertrifft. Unser Code, unsere Modelle und unser Datensatz werden öffentlich zugänglich gemacht.
Mit der Weiterentwicklung von LLM-Agenten vermitteln diese zunehmend wirtschaftliche Entscheidungen – von der Produktentdeckung bis zu Transaktionen – im Namen der Nutzer. Solche Anwendungen versprechen zwar Vorteile, werfen aber auch viele Fragen bezüglich der Rechenschaftspflicht der Agenten und ihres Nutzens für die Anwender auf. Um diese Fragen zu beantworten, ist es notwendig zu verstehen, wie sich Agenten unter realistischen Marktbedingungen verhalten. Bisherige Forschung hat Agenten jedoch überwiegend in eingeschränkten Szenarien evaluiert, wie etwa Einzelaufgaben-Märkten (z.B. Verhandlungen) oder strukturierten Zwei-Agenten-Interaktionen. Reale Märkte sind grundlegend anders: Sie erfordern, dass Agenten diverse wirtschaftliche Aktivitäten bewältigen und sich innerhalb großer, dynamischer Ökosysteme koordinieren, in denen mehrere Agenten mit undurchsichtigem Verhalten in ergebnisoffenen Dialogen interagieren können. Um diese Lücke zu schließen, untersuchen wir zweiseitige agentenbasierte Märkte, auf denen Assistant-Agenten Konsumenten und Service-Agenten konkurrierende Unternehmen repräsentieren. Um diese Interaktionen sicher zu studieren, entwickeln wir Magentic-Marketplace – eine simulierte Umgebung, in der Assistants und Services agieren können. Diese Umgebung ermöglicht es uns, zentrale Marktdynamiken zu untersuchen: den von Agenten erzielten Nutzen, Verhaltensverzerrungen, Anfälligkeit für Manipulation und wie Suchmechanismen Marktergebnisse beeinflussen. Unsere Experimente zeigen, dass Spitzenmodelle ein optimales Wohlfahrtsniveau erreichen können – aber nur unter idealen Suchbedingungen. Die Leistung verschlechtert sich mit zunehmender Skalierung drastisch, und alle Modelle zeigen eine starke First-Proposal-Bias, die Antwortgeschwindigkeit im Vergleich zur Qualität um das 10- bis 30-fache begünstigt. Diese Erkenntnisse zeigen, wie sich Verhaltensmuster unter verschiedenen Marktbedingungen herausbilden, und liefern wichtige Impulse für die Gestaltung fairer und effizienter agentenbasierter Märkte.
Die teilbasierte 3D-Generierung birgt großes Potenzial für verschiedene Anwendungen. Bisherige Teilgeneratoren, die Teile durch implizite Vektor-Set-Tokens repräsentieren, leiden häufig unter unzureichenden geometrischen Details. Ein anderer Forschungsansatz verwendet eine explizite Voxeldarstellung, teilt jedoch ein globales Voxelgitter für alle Teile; dies führt oft dazu, dass kleine Teile zu wenige Voxel belegen, was ihre Qualität verschlechtert. In dieser Arbeit stellen wir FullPart vor, ein neuartiges Framework, das sowohl implizite als auch explizite Paradigmen kombiniert. Es leitet zunächst das Bounding-Box-Layout durch einen impliziten Box-Vektor-Set-Diffusionsprozess ab – eine Aufgabe, die implizite Diffusion effektiv bewältigt, da Box-Tokens nur wenige geometrische Details enthalten. Anschließend generiert es detaillierte Teile, jeweils innerhalb eines eigenen festen Voxelgitters in voller Auflösung. Anstatt einen globalen Niedrigauflösungsraum zu teilen, wird bei unserer Methode jedes Teil – selbst kleine – in voller Auflösung generiert, was die Synthese komplexer Details ermöglicht. Wir führen zudem eine Zentrumspunkt-Codierungsstrategie ein, um das Fehlausrichtungsproblem beim Austausch von Informationen zwischen Teilen unterschiedlicher tatsächlicher Größe zu lösen und so die globale Kohärenz zu wahren. Darüber hinaus stellen wir zur Bewältigung der Knappheit an verlässlichen Teildaten PartVerse-XL vor, den größten menschlich annotierten 3D-Teil-Datensatz bisher mit 40.000 Objekten und 320.000 Teilen. Umfangreiche Experimente belegen, dass FullPart state-of-the-art Ergebnisse in der 3D-Teilegenerierung erzielt. Wir werden allen Code, alle Daten und Modelle veröffentlichen, um zukünftige Forschung in der 3D-Teilegenerierung zu unterstützen.
Große Multimodale Modelle (LMMs) werden zunehmend fähig, medizinische Fragen zu beantworten, die gemeinsames Schlussfolgern über Bilder und Text erfordern. Dennoch wird das Training allgemeiner medizinischer VQA-Systeme durch das Fehlen großer, offen nutzbarer, hochwertiger Korpora behindert. Wir stellen MedVLSynther vor, ein rubrikengesteuertes Generator-Verifizierer-Framework, das hochwertige Multiple-Choice-VQA-Items direkt aus offener biomedizinischer Literatur synthetisiert, indem es Abbildungen, Bildunterschriften und Textverweisen konditioniert. Der Generator erzeugt eigenständige Stammfragen und parallele, sich gegenseitig ausschließende Optionen gemäß einem maschinenprüfbaren JSON-Schema. Ein mehrstufiger Verifizierer erzwingt essentielle Kriterien (Eigenständigkeit, einzige korrekte Antwort, klinische Validität, Bild-Text-Konsistenz), vergibt feinkörnige Pluspunkte und bestraft häufige Fehlermodi vor der Annahme. Die Anwendung dieser Pipeline auf PubMed Central ergibt MedSynVQA: 13.087 geprüfte Fragen zu 14.803 Bildern, die 13 Bildgebungsmodalitäten und 28 anatomische Regionen abdecken. Das Training offen gewichteter LMMs mit bestärkendem Lernen unter Verwendung verifizierbarer Belohnungen verbessert die Genauigkeit über sechs medizinische VQA-Benchmarks hinweg und erreicht Durchschnittswerte von 55,85 (3B) und 58,15 (7B), mit bis zu 77,57 auf VQA-RAD und 67,76 auf PathVQA, wobei starke medizinische LMMs übertroffen werden. Ablationstests bestätigen, dass sowohl Generierung als auch Verifizierung notwendig sind und dass mehr verifizierte Daten konsistent hilft; eine gezielte Kontaminationsanalyse zeigt keine Leckage von Evaluierungssuiten. Da es vollständig auf offener Literatur und offen gewichteten Modellen operiert, bietet MedVLSynther einen überprüfbaren, reproduzierbaren und datenschutzbewahrenden Weg zu skalierbaren medizinischen VQA-Trainingsdaten.
Künstliche Intelligenzen haben rasche Fortschritte bei forschungsorientierten Benchmarks für Wissen und logisches Denken erzielt, doch es ist nach wie vor unklar, wie sich diese Gewinne in wirtschaftlichen Wert und Automatisierung übersetzen. Um dies zu messen, führen wir den Remote Labor Index (RLI) ein, einen breit angelegten, multisektoralen Benchmark, der realwirtschaftliche, wirtschaftlich wertvolle Projekte umfasst, um die End-to-End-Leistung von KI-Agenten in praktischen Anwendungsszenarien zu bewerten. KI-Agenten schneiden beim RLI nahe der Basisgrenze ab, wobei der leistungsstärkste Agent eine Automatisierungsrate von 2,5 % erreicht. Diese Ergebnisse helfen, Diskussionen über KI-Automatisierung auf empirische Evidenz zu gründen, schaffen eine gemeinsame Basis zur Verfolgung der KI-Auswirkungen und ermöglichen es Stakeholdern, die durch KI getriebene Arbeitsautomatisierung proaktiv zu gestalten.
Diese Arbeit untersucht, ob kleine Sprachmodelle von Instruction Tuning profitieren können. Wir vergleichen Konversations- und Frage-Antwort-Instruction-Tuning-Datensätze, die entweder in einem gemischten oder sequenziellen Curriculum angewendet werden, unter Verwendung von Decoder-only-Modellen mit 100 und 140 Millionen Parametern. Die Evaluation umfasst sowohl Fine-tuning- (SuperGLUE) als auch Zero-Shot-Szenarien (BLiMP, EWoK, WUGs, Entitätsverfolgung und psycholinguistische Korrelation). Die Ergebnisse zeigen, dass Instruction Tuning in Fine-tuning-Szenarien kleine, aber konsistente Verbesserungen erzielt, wobei sequenzielle Curricula die Leistung von gemischten Datensätzen übertreffen. Die Verbesserungen übertragen sich jedoch nicht konsistent auf Zero-Shot-Aufgaben, was auf einen Zielkonflikt zwischen interaktionsfokussierter Anpassung und breiter linguistischer Generalisierung hindeutet. Diese Ergebnisse verdeutlichen sowohl das Potenzial als auch die Grenzen der Übertragung menschlich inspirierter Lernstrategien auf ressourcenbeschränkte Sprachmodelle und weisen auf hybride, curriculumbasierte Ansätze zur Verbesserung der Generalisierung unter ökologischen Trainingsbeschränkungen hin.
Aktuelle werkzeugnutzende Large Language Models (LLMs) werden auf statischen Datensätzen trainiert, was es ihnen ermöglicht, mit externen Werkzeugen zu interagieren und mehrstufige, werkzeugintegrierte Schlussfolgerungen durchzuführen, wodurch Werkzeugaufruf-Trajektorien erzeugt werden. Diese Modelle imitieren jedoch, wie eine Abfrage in einer generischen Werkzeugaufruf-Routine gelöst wird, und scheitern dadurch daran, mögliche Lösungen zu erkunden, was zu einer begrenzten Leistung in einer sich entwickelnden, dynamischen Werkzeugaufruf-Umgebung führt. In dieser Arbeit schlagen wir PORTool vor, eine Reinforcement-Learning (RL)-Methode, die ein werkzeugnutzendes LLM dazu anregt, verschiedene Trajektorien zu erkunden, die zur richtigen Antwort führen. Konkret beginnt diese Methode mit der Generierung mehrerer Rollouts für eine gegebene Abfrage, wobei einige davon die ersten paar Werkzeugaufruf-Schritte teilen und so eine baumartige Struktur bilden. Anschließend weisen wir jedem Schritt eine Belohnung zu, basierend auf seiner Fähigkeit, eine korrekte Antwort zu produzieren und erfolgreiche Werkzeugaufrufe durchzuführen. Ein gemeinsamer Schritt über verschiedene Trajektorien hinweg erhält dieselbe Belohnung, während unterschiedliche Schritte unter derselben Verzweigung unterschiedliche Belohnungen erhalten. Schließlich werden diese schrittweisen Belohnungen verwendet, um verzweigungsrelative Vorteile zu berechnen, die mit trajektorienrelativen Vorteilen kombiniert werden, um das LLM für die Werkzeugnutzung zu trainieren. Die Experimente nutzen 17 Werkzeuge zur Beantwortung von Benutzeranfragen, die sowohl zeitkritische als auch zeitinvariante Themen abdecken. Wir führen Ablationsstudien durch, um die Notwendigkeit und die Designrobustheit der schrittweisen Belohnungen systematisch zu begründen. Darüber hinaus vergleichen wir das vorgeschlagene PORTool mit anderen Trainingsansätzen und zeigen signifikante Verbesserungen bei der Endgenauigkeit und der Anzahl der Werkzeugaufruf-Schritte.
Große Sprachmodelle (LLMs) erzielen Spitzenleistungen bei Aufgaben des natürlichen Sprachverständnisses und der Sprachgenerierung. Der Einsatz führender kommerzieller Modelle für spezialisierte Aufgaben, wie beispielsweise im E-Commerce, wird jedoch häufig durch hohe Rechenkosten, Latenzzeiten und Betriebsausgaben behindert. Diese Arbeit untersucht die Tragfähigkeit kleinerer Open-Weight-Modelle als ressourceneffiziente Alternative. Wir stellen eine Methodik zur Optimierung eines Llama-3.2-Modells mit einer Milliarde Parametern für die mehrsprachige Intent-Erkennung im E-Commerce vor. Das Modell wurde mittels Quantized Low-Rank Adaptation (QLoRA) auf einem synthetisch generierten Datensatz feinabgestimmt, der reale Nutzeranfragen nachahmt. Anschließend wandten wir Post-Training-Quantisierungstechniken an und erstellten GPU-optimierte (GPTQ) und CPU-optimierte (GGUF) Versionen. Unsere Ergebnisse zeigen, dass das spezialisierte 1B-Modell eine Genauigkeit von 99 % erreicht und damit die Leistung des deutlich größeren GPT-4.1-Modells erreicht. Eine detaillierte Leistungsanalyse offenbarte kritische, hardwareabhängige Kompromisse: Während die 4-Bit-GPTQ-Quantierung die VRAM-Nutzung um 41 % reduzierte, verlangsamte sie paradoxerweise die Inferenz auf einer älteren GPU-Architektur (NVIDIA T4) aufgrund von Dequantisierungs-Overhead um 82 %. Im Gegensatz dazu erzielten GGUF-Formate auf einer CPU einen bis zu 18-fachen Geschwindigkeitsvorteil im Inferenz-Durchsatz und eine Reduktion des RAM-Verbrauchs um über 90 % im Vergleich zur FP16-Basisversion. Wir kommen zu dem Schluss, dass kleine, richtig optimierte Open-Weight-Modelle nicht nur eine tragfähige, sondern eine geeignetere Alternative für domänenspezifische Anwendungen darstellen, da sie Spitzengenauigkeit bei einem Bruchteil der Rechenkosten bieten.
Selbstverbesserung hat sich als ein vorherrschendes Paradigma zur Steigerung der Reasoning-Fähigkeiten großer visuell-sprachlicher Modelle (LVLMs) etabliert, bei dem Modelle erfolgreiche Lösungspfade iterativ erkunden und von ihnen lernen. Wir identifizieren jedoch ein kritisches Problem in diesem Prozess: Das Modell erzeugt hochwertige Lösungspfade für einfache Anfragen (sog. Head-Daten) sehr gut, hat aber Schwierigkeiten mit komplexeren Anfragen (sog. Tail-Daten). Dies führt zu einer unausgewogenen Optimierung, die das Modell dazu veranlasst, einfache Reasoning-Fähigkeiten zu priorisieren, während seine Fähigkeit, komplexere Reasoning-Aufgaben zu bewältigen, beeinträchtigt wird. Über Iterationen hinweg verschärft sich dieses Ungleichgewicht zunehmend – eine Dynamik, die wir als "Matthäus-Effekt" bezeichnen – was letztendlich die weitere Modellverbesserung behindert und zu Leistungsengpässen führt. Um dieser Herausforderung zu begegnen, führen wir vier effiziente Strategien aus zwei Perspektiven ein: Verteilungsneugestaltung und Lösungspfad-Neubewertung, um während des erkundenden und lernenden Selbstverbesserungsprozesses eine Neuausrichtung zwischen Head- und Tail-Daten zu erreichen. Umfangreiche Experimente mit den Modellen Qwen2-VL-7B-Instruct und InternVL2.5-4B in visuellen Reasoning-Aufgaben zeigen, dass unsere Methoden die visuellen Reasoning-Fähigkeiten konsistent verbessern und die reine Selbstverbesserung im Durchschnitt um 3,86 Punkte übertreffen.
Große Sprachmodelle haben bemerkenswerte Fähigkeiten im logischen Denken bei verschiedenen natürlichen Sprachaufgaben demonstriert. Durchbrüche in vergleichbarem Maße bei wissenschaftlichen Entdeckungen sind jedoch begrenzter, da das Verständnis komplexer physikalischer Phänomene vielschichtige Repräsentationen erfordert, die weit über Sprache allein hinausgehen. Ein eindrückliches Beispiel ist das Design funktionaler Materialien wie MOFs (metal-organic frameworks), die entscheidend für eine Reihe von bedeutungsvollen Anwendungen wie CO₂-Abscheidung und Wasserstoffspeicherung sind. Die Navigation durch ihren riesigen und komplexen Designraum in sprachbasierten Repräsentationen, die von LLMs interpretierbar sind, ist aufgrund der zahlreichen möglichen dreidimensionalen Atomkonfigurationen und strengen retikulären Regeln der Koordinationsgeometrie und Topologie herausfordernd. Trotz vielversprechender früher Ergebnisse bei LLM-unterstützten Entdeckungen für einfachere Materialsysteme ist das MOF-Design nach wie vor stark auf implizites menschliches Fachwissen angewiesen, das selten allein in textuellen Informationen kodiert ist. Um diese Barriere zu überwinden, stellen wir L2M3OF vor, das erste multimodale LLM für MOFs. L2M3OF integriert Kristallrepräsentationslernen mit Sprachverständnis, um strukturelle, textuelle und Wissensmodalitäten gemeinsam zu verarbeiten. L2M3OF verwendet einen vortrainierten Kristall-Encoder mit einer leichten Projektionsschicht, um Strukturinformationen in einen Token-Raum zu komprimieren und so eine effiziente Ausrichtung auf Sprachinstruktionen zu ermöglichen. Um Training und Evaluation zu erleichtern, haben wir eine Struktur-Eigenschaft-Wissens-Datenbank kristalliner Materialien kuratiert und L2M3OF gegen state-of-the-art Closed-Source-LLMs wie GPT-5, Gemini-2.5-Pro und DeepSeek-R1 benchmarked. Experimente zeigen, dass L2M3OF führende textbasierte Closed-Source-LLMs bei Eigenschaftsvorhersage- und Wissensgenerierungsaufgaben übertrifft, obwohl es deutlich weniger Parameter verwendet. Diese Ergebnisse unterstreichen die Bedeutung multimodaler Ansätze für das Verständnis poröser Materialien und etablieren L2M3OF als Grundlage für KI-Systeme der nächsten Generation in der Materialentdeckung.
Das Design von Enzymrückgraten mit substratspezifischer Funktionalität stellt eine zentrale Herausforderung in der computergestützten Proteintechnik dar. Aktuelle generative Modelle sind im Proteindesign zwar leistungsstark, stoßen jedoch bei Bindungsdaten, substratspezifischer Steuerung und Flexibilität für die de novo-Generierung von Enzymrückgraten an Grenzen. Um dies zu adressieren, stellen wir EnzyBind vor, einen Datensatz mit 11.100 experimentell validierten Enzym-Substrat-Paaren, die speziell aus PDBbind kuratiert wurden. Darauf aufbauend präsentieren wir EnzyControl, eine Methode zur funktionalen und substratspezifischen Steuerung bei der Generierung von Enzymrückgraten. Unser Ansatz erzeugt Enzymrückgräte, die auf MSA-annotierte katalytische Stellen und deren entsprechende Substrate konditioniert sind, welche automatisch aus den kuratierten Enzym-Substrat-Daten extrahiert werden. Kernstück von EnzyControl ist der EnzyAdapter, eine leichtgewichtige, modulare Komponente, die in ein vortrainiertes Motif-Scaffolding-Modell integriert ist und es ermöglicht, substratsensitiv zu werden. Ein zweistufiges Trainingsparadigma verfeinert weiterhin die Fähigkeit des Modells, präzise und funktionale Enzymstrukturen zu generieren. Experimente zeigen, dass unser EnzyControl auf den EnzyBind- und EnzyBench-Benchmarks die beste Leistung über strukturelle und funktionale Metriken hinweg erzielt, mit besonders bemerkenswerten Verbesserungen von 13 % in der Designierbarkeit und 13 % in der katalytischen Effizienz im Vergleich zu den Baseline-Modellen. Der Code ist unter https://github.com/Vecteur-libre/EnzyControl verfügbar.
Jüngste Fortschritte in der Sprachsignalverarbeitung haben zu erheblichen Verbesserungen bei phonetischen Aufgaben wie automatischer Spracherkennung (ASR), Phonemererkennung (PR), Graphem-zu-Phonem-Umwandlung (G2P) und Phonem-zu-Graphem-Umwandlung (P2G) geführt. Trotz ihrer konzeptionellen Ähnlichkeit wurden diese Aufgaben weitgehend isoliert voneinander untersucht, wobei jede auf aufgabenspezifische Architekturen und Datensätze angewiesen war. In diesem Beitrag stellen wir POWSM (Phonetic Open Whisper-style Speech Model) vor, den ersten vereinheitlichten Rahmen, der in der Lage ist, mehrere phonetische Aufgaben gemeinsam durchzuführen. POWSM ermöglicht eine nahtlose Umwandlung zwischen Audio, Text (Graphemen) und Phonemen und eröffnet damit neue Möglichkeiten für universelle und ressourcenschonende Sprachverarbeitung. Unser Modell übertrifft oder erreicht spezialisierte PR-Modelle ähnlicher Größe (Wav2Vec2Phoneme und ZIPA), während es gleichzeitig G2P, P2G und ASR unterstützt. Unsere Trainingsdaten, Code und Modelle werden veröffentlicht, um Open Science zu fördern.
Die Nutzung öffentlich zugänglicher, groß angelegter Webdaten wie Street-View- und Satellitenbilder ist von entscheidender Bedeutung für die Erreichung globaler Nachhaltigkeitsziele im Bereich der städtischen sozioökonomischen Erfassung. Mit dem Aufkommen großer visuell-sprachlicher Modelle (LVLMs) ergeben sich neue Möglichkeiten, diese Aufgabe als multimodales Wahrnehmungs- und Verständnisproblem zu lösen. Jüngste Studien zeigen jedoch, dass LVLMs nach wie vor Schwierigkeiten haben, präzise und interpretierbare sozioökonomische Prognosen aus visuellen Daten abzuleiten. Um diese Einschränkungen zu überwinden und das Potenzial von LVLMs voll auszuschöpfen, stellen wir CityRiSE vor – einen neuartigen Framework zur Bestimmung des städtischen sozioökonomischen Status durch rein bestärkendes Lernen (RL) in LVLMs. Durch sorgfältig aufbereitete multimodale Daten und ein verifizierbares Belohnungsdesign lenkt unser Ansatz die Aufmerksamkeit des LVLM auf semantisch bedeutsame visuelle Hinweise und ermöglicht so strukturierte, zielorientierte Schlussfolgerungen für generalistische sozioökonomische Statusvorhersagen. Experimente belegen, dass CityRiSE mit seinem emergenten Reasoning-Prozess bestehende Baseline-Methoden signifikant übertrifft und sowohl die Vorhersagegenauigkeit als auch die Generalisierbarkeit über verschiedene urbane Kontexte hinweg verbessert, insbesondere bei Prognosen für unbekannte Städte und unbekannte Indikatoren. Diese Arbeit unterstreicht das Potenzial der Kombination von RL und LVLMs für interpretierbare und generalistische städtische sozioökonomische Erfassung.
Diagramme spielen eine wichtige Rolle bei der Visualisierung, dem Schlussfolgern, der Datenanalyse und dem Austausch von Ideen zwischen Menschen. Allerdings fehlt existierenden Vision-Language-Modellen (VLMs) nach wie vor eine präzise Wahrnehmung von Details, und sie haben Schwierigkeiten, feinkörnige Strukturen aus Diagrammen zu extrahieren. Diese Einschränkungen bei der Diagrammverankerung beeinträchtigen ebenfalls ihre Fähigkeit, mehrere Diagramme zu vergleichen und darüber zu schlussfolgern. In diesem Artikel stellen wir einen neuartigen "ChartAlign Benchmark (ChartAB)" vor, um eine umfassende Evaluation von VLMs in Diagrammverankerungsaufgaben zu ermöglichen, d.h. beim Extrahieren tabellarischer Daten, beim Lokalisieren von Visualisierungselementen und beim Erkennen verschiedener Attribute aus Diagrammen unterschiedlicher Typen und Komplexität. Wir entwerfen eine JSON-Vorlage, um die Berechnung von Evaluationsmetriken zu erleichtern, die speziell für jede Verankerungsaufgabe zugeschnitten sind. Durch die Integration eines neuartigen Zwei-Stufen-Inferenz-Workflows kann der Benchmark weiterhin die Fähigkeit von VLMs bewerten, Elemente/Attribute über zwei Diagramme hinweg abzugleichen und zu vergleichen. Unsere Analyse der Evaluationen mehrerer aktueller VLMs liefert neue Erkenntnisse über deren Wahrnehmungsverzerrungen, Schwächen, Robustheit und Halluzinationen im Diagrammverständnis. Diese Ergebnisse verdeutlichen die feinkörnigen Diskrepanzen zwischen VLMs bei Diagrammverständnisaufgaben und weisen auf spezifische Fähigkeiten hin, die in aktuellen Modellen gestärkt werden müssen.