Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Entwicklung von Vision-Language-Modellen (VLM) hat sich weitgehend auf die Skalierung der Modellgröße gestützt, was den Einsatz auf rechenbeschränkten mobilen und Edge-Geräten wie Smartphones und Robotern behindert. In dieser Arbeit untersuchen wir die Leistungsgrenzen kompakter (z.B. 2B und 8B) VLMs. Wir stellen die vorherrschende Praxis infrage, dass state-of-the-art VLMs auf Vision-Encodern aufbauen müssen, die durch massives kontrastives Vortraining (z.B. CLIP/SigLIP) initialisiert werden. Wir identifizieren eine Zielkonflikts: Kontrastives Lernen, das auf Diskriminierung optimiert ist, erzwingt grobe, kategoriebezogene Invarianzen, die feinkörnige visuelle Hinweise unterdrücken, die für Dense Captioning und komplexe VLM-Beweisführung benötigt werden. Um dieses Problem zu adressieren, stellen wir Penguin-VL vor, dessen Vision-Encoder aus einem textbasierten LLM initialisiert wird. Unsere Experimente zeigen, dass Penguin-Encoder eine überlegene Alternative zum traditionellen kontrastiven Vortraining darstellt und einen höheren Grad an visueller Treue und Dateneffizienz für multimodales Verständnis ermöglicht. In verschiedenen Bild- und Video-Benchmarks erreicht Penguin-VL eine mit führenden VLMs (z.B. Qwen3-VL) vergleichbare Leistung in mathematischer Beweisführung und übertrifft sie in Aufgaben wie Dokumentenverständnis, visuellem Wissen und multiperspektivischem Videoverständnis. Bemerkenswerterweise werden diese Gewinne mit einer leichtgewichtigen Architektur erzielt, was demonstriert, dass verbesserte visuelle Repräsentation und nicht Modellskalierung der primäre Leistungstreiber ist. Unsere Ablation Studies zeigen, dass Penguin-Encoder durch kontrastives Vortraining trainierte Encoder konsistent übertrifft und feinkörnige räumliche und zeitliche Hinweise bewahrt, die für dichte Wahrnehmung und komplexe Beweisführung kritisch sind. Dies macht ihn zu einer starken Drop-in-Alternative für recheneffiziente VLMs und ermöglicht hohe Leistung in ressourcenbeschränkten Umgebungen. Code: https://github.com/tencent-ailab/Penguin-VL
Proximale Beschränkungen sind grundlegend für die Stabilität des Reinforcement Learnings von Large Language Models. Während der kanonische Clipping-Mechanismus in PPO als effizientes Surrogat für Trust Regions dient, identifizieren wir einen kritischen Engpass: Feste Schranken beschränken strikt die Aufwärts-Update-Spanne von Aktionen mit geringer Wahrscheinlichkeit, unterdrücken unverhältnismäßig hochvorteilhafte Tail-Strategien und induzieren einen schnellen Entropiekollaps. Um dies zu adressieren, führen wir die Band-beschränkte Policy-Optimierung (BandPO) ein. BandPO ersetzt das kanonische Clipping durch Band, einen vereinheitlichten theoretischen Operator, der durch f-Divergenzen definierte Trust Regions in dynamische, wahrscheinlichkeits-sensitive Clipping-Intervalle projiziert. Eine theoretische Analyse bestätigt, dass Band diesen Explorationsengpass effektiv auflöst. Wir formulieren diese Abbildung als ein konvexes Optimierungsproblem, das eine global optimale numerische Lösung garantiert, während für spezifische Divergenzen geschlossene Lösungen abgeleitet werden. Umfangreiche Experimente mit verschiedenen Modellen und Datensätzen demonstrieren, dass BandPO konsistent das kanonische Clipping und Clip-Higher übertrifft und dabei den Entropiekollaps robust abmildert.
Weltmodelle bieten einen leistungsstarken Rahmen, um Umgebungsdynamiken in Abhängigkeit von Aktionen oder Anweisungen zu simulieren und ermöglichen nachgelagerte Aufgaben wie Aktionsplanung oder Policy-Lernen. Jüngste Ansätze nutzen Weltmodelle als gelernte Simulatoren, doch ihre Anwendung für Planung zur Entscheidungszeit bleibt für Echtzeitsteuerung rechenintensiv. Ein zentraler Engpass liegt in latenten Repräsentationen: Konventionelle Tokenizer kodieren jede Beobachtung in Hunderte von Tokens, was die Planung sowohl langsam als auch ressourcenintensiv macht. Um dies zu adressieren, schlagen wir CompACT vor, einen diskreten Tokenizer, der jede Beobachtung auf nur 8 Tokens komprimiert und so die Rechenkosten drastisch reduziert, während essentielle Informationen für die Planung erhalten bleiben. Ein aktionsbedingtes Weltmodell, das den CompACT-Tokenizer nutzt, erreicht eine wettbewerbsfähige Planungsleistung mit um Größenordnungen schnellerer Planung und bietet damit einen praktischen Schritt zur realen Einsatzfähigkeit von Weltmodellen.
Die produktionsreife Erzeugung menschlicher Videos erfordert digitale Darsteller, die eine streng konsistente Ganzkörperidentität über dynamische Einstellungen, Kameraperspektiven und Bewegungen hinweg beibehalten – eine Anforderung, die für bestehende Methoden nach wie vor eine Herausforderung darstellt. Bisherige Ansätze neigen oft zu einer gesichtszentrierten Darstellung, die die Konsistenz auf Körperebene vernachlässigt, oder erzeugen Copy-Paste-Artefakte, bei denen die Subjekte aufgrund von Posensperren starr wirken. Wir stellen Actor-18M vor, einen umfangreichen menschlichen Videodatensatz, der entwickelt wurde, um Identitätskonsistenz unter unkontrollierten Blickwinkeln und Umgebungen zu erfassen. Actor-18M umfasst 1,6 Millionen Videos mit 18 Millionen zugehörigen menschlichen Bildern und deckt sowohl beliebige Ansichten als auch kanonische Dreikanalbilder ab. Aufbauend auf Actor-18M schlagen wir WildActor vor, ein Framework für die erzeugung menschlicher Videos, die durch beliebige Blickwinkel konditioniert ist. Wir führen einen asymmetrischen, identitätserhaltenden Aufmerksamkeitsmechanismus ein, gekoppelt mit einer perspektivenadaptiven Monte-Carlo-Sampling-Strategie, die Referenzbedingungen iterativ anhand des Grenznutzens neu gewichtet, um eine ausgewogene Abdeckung der Mannigfaltigkeit zu erreichen. Auswertungen auf dem vorgeschlagenen Actor-Bench zeigen, dass WildActor die Körperidentität unter verschiedenen Einstellungsgrößen, großen Blickwinkelwechseln und erheblichen Bewegungen konsistent bewahrt und dabei bestehende Methoden in diesen anspruchsvollen Szenarien übertrifft.
Die Überwachung von Denkketten (Chain-of-Thought, CoT) ist ein vielversprechendes Instrument, um Fehlverhalten zu erkennen und die Motivationen moderner Reasoning-Modelle zu verstehen. Wenn Modelle jedoch kontrollieren können, was sie in ihrer CoT verbalisieren, könnte dies die Überwachbarkeit von CoT untergraben. Um diese unerwünschte Fähigkeit – die CoT-Kontrollierbarkeit – zu messen, führen wir den CoT-Control-Evaluationssatz ein. Dieser umfasst Aufgaben, die von Modellen verlangen, Probleme zu lösen und dabei CoT-Anweisungen zu befolgen, z.B. eine Genetikfrage zu beantworten, ohne das Wort "Chromosom" zu verwenden. Wir zeigen, dass Reasoning-Modelle eine signifikant geringere CoT-Kontrollierbarkeit aufweisen als Output-Kontrollierbarkeit; so kann Claude Sonnet 4.5 seine CoT nur in 2,7 % der Fälle kontrollieren, aber in 61,9 % der Fälle, wenn es um die Kontrolle der finalen Antwort geht. Wir stellen außerdem fest, dass die CoT-Kontrollierbarkeit bei größeren Modellen höher ist und mit mehr RL-Training, Test-Time-Compute und zunehmender Problemkomplexität abnimmt. Fehler in der CoT-Kontrollierbarkeit treten sogar in Situationen auf, in denen Modelle Anreize erhalten (anstatt direkter Aufforderungen), um CoT-Überwachungen zu umgehen, obwohl Modelle eine leicht erhöhte Kontrollierbarkeit zeigen, wenn ihnen mitgeteilt wird, dass sie überwacht werden. Ebenso steigert das adversarische Optimieren von Prompts zur Erzwingung von Kontrollierbarkeit diese nicht wesentlich. Unsere Ergebnisse stimmen uns vorsichtig optimistisch, dass CoT-Kontrollierbarkeit derzeit wahrscheinlich kein Versagensmodus der CoT-Überwachbarkeit ist. Der Mechanismus hinter der geringen Kontrollierbarkeit ist jedoch nicht gut verstanden. Angesichts ihrer Bedeutung für die Aufrechterhaltung der CoT-Überwachbarkeit empfehlen wir, dass Frontier Labs die CoT-Kontrollierbarkeit in zukünftigen Modellen verfolgen.
Transformer-Architekturen bilden das Rückgrat der meisten modernen Large Language Models, weshalb ihre Vor-Trainingsstabilität und Konvergenzgeschwindigkeit von zentraler Bedeutung sind. Motiviert durch die logische Abhängigkeit sequentiell gestapelter Schichten schlagen wir Progressive Residual Warmup (ProRes) für das Sprachmodell-Pretraining vor. ProRes implementiert eine Philosophie des „frühen Schichtenlernens zuerst“, indem der Residualwert jeder Schicht mit einem Skalar multipliziert wird, der schrittweise von 0 auf 1 ansteigt, wobei tiefere Schichten längere Aufwärmphasen durchlaufen. Auf diese Weise warten tiefere Schichten ab, bis frühere Schichten sich in einem stabileren Zustand befinden, bevor sie zum Lernprozess beitragen. Wir demonstrieren die Wirksamkeit von ProRes durch Pretraining-Experimente mit verschiedenen Modellgrößen sowie Normalisierungs- und Initialisierungsschemata. Eine umfassende Analyse zeigt, dass ProRes nicht nur das Pretraining stabilisiert, sondern auch eine einzigartige Optimierungstrajektorie einführt, die zu schnellerer Konvergenz, stärkerer Generalisierung und besserer Leistung in Downstream-Aufgaben führt. Unser Code ist verfügbar unter https://github.com/dandingsky/ProRes.
Gedächtnis ist entscheidend für langfristige und verlaufsabhängige robotische Manipulation. Solche Aufgaben beinhalten oft das Zählen wiederholter Aktionen oder das Manipulieren von Objekten, die zeitweise verdeckt werden. Aktuelle Vision-Language-Action (VLA)-Modelle beginnen, Gedächtnismechanismen zu integrieren; deren Evaluationen bleiben jedoch auf eng begrenzte, nicht standardisierte Settings beschränkt. Dies schränkt das systematische Verständnis, den Vergleich und die Fortschrittsmessung ein. Um diese Herausforderungen zu adressieren, stellen wir RoboMME vor: einen umfangreichen, standardisi Benchmark zur Bewertung und Weiterentwicklung von VLA-Modellen in langfristigen, verlaufsabhängigen Szenarien. Unser Benchmark umfasst 16 Manipulationsaufgaben, die auf Basis einer sorgfältig entworfenen Taxonomie entwickelt wurden, die temporales, räumliches, Objekt- und prozedurales Gedächtnis evaluiert. Darüber hinaus entwickeln wir eine Suite von 14 gedächtniserweiterten VLA-Varianten, die auf dem π0.5-Backbone aufbauen, um systematisch verschiedene Gedächtnisrepräsentationen über mehrere Integrationsstrategien hinweg zu untersuchen. Experimentelle Ergebnisse zeigen, dass die Wirksamkeit von Gedächtnisrepräsentationen stark aufgabenabhängig ist, wobei jedes Design spezifische Vor- und Nachteile bei verschiedenen Aufgaben bietet. Videos und Code sind auf unserer Website https://robomme.github.io zu finden.
Diffusion Transformers verarbeiten Bilder als festlange Sequenzen von Tokens, die durch eine statische Patch-Operation erzeugt werden. Diese effektive Methode wendet jedoch gleichmäßige Rechenleistung auf sowohl informationsarme als auch informationsreiche Regionen an und ignoriert dabei, dass Bilder Bereiche mit unterschiedlichem Detaillierungsgrad enthalten und dass der Denoising-Prozess von grober Struktur in frühen Zeitschritten zu feinen Details in späten Zeitschritten fortschreitet. Wir stellen den Dynamic Chunking Diffusion Transformer (DC-DiT) vor, der das DiT-Grundgerüst mit einem gelernten Encoder-Router-Decoder-Scaffold erweitert. Dieses komprimiert den 2D-Eingang adaptiv in eine kürzere Token-Sequenz, und zwar datenabhängig mittels eines Chunking-Mechanismus, der end-to-end mit dem Diffusionstraining erlernt wird. Der Mechanismus lernt, uniforme Hintergrundregionen in weniger Tokens und detailreiche Regionen in mehr Tokens zu komprimieren, wobei aussagekräftige visuelle Segmentierungen ohne explizite Supervision entstehen. Darüber hinaus lernt er, seine Komprimierung über die Diffusion-Zeitschritte hinweg anzupassen, indem er in verrauschten Phasen weniger Tokens und beim Auftauchen feiner Details mehr Tokens verwendet. Bei klassenkonditionierter ImageNet 256×256 verbessert DC-DiT konsistent FID und Inception Score gegenüber parameter- und FLOP-angepassten DiT-Baselines bei 4-facher und 16-facher Kompression, was zeigt, dass dies eine vielversprechende Technik mit potenziell weiteren Anwendungen in der Pixelraum-, Video- und 3D-Generierung ist. Über die Genauigkeit hinaus ist DC-DiT praktisch: Er kann aus vortrainierten DiT-Checkpoints mit minimalem Rechenaufwand nach dem Training (bis zu 8-mal weniger Trainingsschritte) weiterentwickelt werden und lässt sich mit anderen Methoden zur dynamischen Berechnung kombinieren, um die Generierungs-FLOPs weiter zu reduzieren.
Jüngste Fortschritte bei der diffusionsbasierten Videogenerierung haben eine bemerkenswerte visuelle Realitätstreue erreicht, haben jedoch nach wie vor Schwierigkeiten, grundlegende physikalische Gesetze wie Schwerkraft, Trägheit und Kollisionen einzuhalten. Generierte Objekte bewegen sich oft inkonsistent über Einzelbilder hinweg, weisen unplausible Dynamiken auf oder verletzen physikalische Randbedingungen, was den Realismus und die Zuverlässigkeit KI-generierter Videos einschränkt. Wir schließen diese Lücke durch die Einführung von "Physical Simulator In-the-loop Video Generation" (PSIVG), einem neuartigen Framework, das einen Physiksimulator in den Diffusionsprozess für Videos integriert. Ausgehend von einem durch ein vortrainiertes Diffusionsmodell generierten Template-Video rekonstruiert PSIVG die 4D-Szene und Vordergrundobjekt-Meshes, initialisiert diese in einem Physiksimulator und erzeugt physikalisch konsistente Trajektorien. Diese simulierten Trajektorien werden anschließend genutzt, um den Videogenerator in Richtung einer räumlich-zeitlich physikalisch kohärenten Bewegung zu steuern. Um zudem die Texturkonsistenz während der Objektbewegung zu verbessern, schlagen wir eine "Test-Time Texture Consistency Optimization" (TTCO) vor, eine Technik, die Text- und Feature-Embeddings auf Basis von Pixelkorrespondenzen aus dem Simulator anpasst. Umfassende Experimente belegen, dass PSIVG Videos erzeugt, die sich besser an die Physik der realen Welt halten und dabei die visuelle Qualität und Vielfalt bewahren. Projektseite: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben neue Wege für multimodales Reasoning eröffnet. Dennoch stützen sich die meisten bestehenden Methoden nach wie vor auf vortrainierte Vision-Language-Modelle (VLMs), um Bild-Text-Paare isoliert zu enkodieren, und ignorieren dabei die relationale Struktur, die multimodale Daten in der realen Welt natürlicherweise bilden. Dies motiviert das Reasoning auf multimodalen Graphen (MMGs), bei dem jeder Knoten über textuelle und visuelle Attribute verfügt und Kanten strukturelle Hinweise liefern. Die Ermöglichung von LLM-basiertem Reasoning für solche heterogenen multimodalen Signale bei gleichzeitiger Bewahrung der Graphentopologie wirft zwei zentrale Herausforderungen auf: die Auflösung schwacher cross-modaler Konsistenz und den Umgang mit heterogener Modalitätspräferenz. Um dies zu adressieren, schlagen wir Mario vor, einen einheitlichen Rahmen, der beide genannten Herausforderungen gleichzeitig löst und effektives LLM-basiertes Reasoning über MMGs ermöglicht. Mario besteht aus zwei innovativen Stufen. Erstens, einem graphenkonditionierten VLM-Design, das textuelle und visuelle Merkmale gemeinsam durch feinkörniges cross-modales kontrastives Lernen, geleitet von der Graphentopologie, verfeinert. Zweitens, einem modalitätsadaptiven Graph-Instruction-Tuning-Mechanismus, der ausgerichtete multimodale Merkmale in graphenbewusste Instruktionsansichten organisiert und einen lernbaren Router einsetzt, um für jeden Knoten und seine Nachbarschaft die informativste Modalitätskonfiguration für das LLM bereitzustellen. Umfangreiche Experimente über diverse MMG-Benchmarks zeigen, dass Mario durchgängig state-of-the-art Graph-Modelle in sowohl überwachten als auch Zero-Shot-Szenarien für Knotenklassifikation und Linkvorhersage übertrifft. Der Code wird unter https://github.com/sunyuanfu/Mario verfügbar gemacht.
Sequenzielle LLM-Agenten scheitern bei langfristiger Planung mit harten Einschränkungen wie Budgets und Diversitätsanforderungen. Mit fortschreitender Planung und wachsendem Kontext entfernen sich diese Agenten von globalen Zwängen. Wir schlagen HiMAP-Travel vor, ein hierarchisches Multi-Agenten-Framework, das die Planung in strategische Koordination und parallele tagesbezogene Ausführung aufteilt. Ein Koordinator weist Ressourcen tageweise zu, während Tages-Ausführungsagenten unabhängig und parallel planen. Drei Schlüsselmechanismen ermöglichen dies: ein transaktionaler Monitor, der Budget- und Eindeutigkeitsbedingungen über parallele Agenten hinweg durchsetzt, ein Aushandlungsprotokoll, das es Agenten ermöglicht, nicht umsetzbare Teilziele abzulehnen und Neuplanung auszulösen, sowie eine einzige, mit GRPO trainierte Policy, die alle Agenten durch Rollenkonditionierung antreibt. Auf TravelPlanner erreicht HiMAP-Travel mit Qwen3-8B eine Final Pass Rate (FPR) von 52,78 % (Validierung) und 52,65 % (Test). In einem kontrollierten Vergleich mit identischem Modell, Training und Werkzeugen übertrifft es den sequenziellen DeepTravel-Baseline um +8,67 Prozentpunkte. Es übertrifft ebenfalls ATLAS um +17,65 Prozentpunkte und MTP um +10,0 Prozentpunkte. In Multi-Turn-Szenarien von FlexTravelBench erreicht es eine FPR von 44,34 % (2-Turn) und 37,42 % (3-Turn) und reduziert die Latenz durch Parallelisierung um das 2,5-fache.
Visuelle Effekte (VFX) sind entscheidend, um die Ausdruckskraft und Kreativität von Videoinhalten zu steigern, doch die Produktion hochwertiger Effekte erfordert typischerweise Expertenwissen und kostspielige Produktionspipelines. Bestehende AIGC-Systeme stehen bei der VFX-Generierung vor erheblichen Herausforderungen aufgrund der Knappheit effektspezifischer Daten und der inhärenten Schwierigkeit, übernatürliche oder stilisierte Effekte zu modellieren. Darüber hinaus erfordern diese Ansätze oft ein Effekt-spezifisches Fine-Tuning, was ihre Skalierbarkeit und Generalisierbarkeit auf neue VFX stark einschränkt. In dieser Arbeit präsentieren wir EffectMaker, ein einheitliches Reasoning-Generierung-Framework, das referenzbasierte VFX-Anpassung ermöglicht. EffectMaker nutzt ein multimodales Großsprachenmodell, um hochlevelige Effektsemantik zu interpretieren und abzuleiten, wie diese an ein Zielsubjekt angepasst werden sollten, während ein Diffusion Transformer mittels In-Context-Learning feingranulare visuelle Hinweise aus Referenzvideos erfasst. Diese beiden Komponenten bilden einen semantisch-visuellen Zwei-Wege-Leitmechanismus, der eine präzise, steuerbare und effektkonsistente Synthese ohne Effekt-spezifisches Fine-Tuning ermöglicht. Zudem erstellen wir EffectData, den größten hochwertigen synthetischen Datensatz mit 130.000 Videos aus 3.000 VFX-Kategorien, um Generalisierung und Skalierbarkeit zu verbessern. Experimente zeigen, dass EffectMaker state-of-the-art Baseline-Methoden in visueller Qualität und Effektkonsistenz übertrifft und ein skalierbares, flexibles Paradigma für maßgeschneiderte VFX-Generierung bietet. Projektseite: https://effectmaker.github.io
Flow-basierte Vision-Language-Action (VLA)-Modelle übertreffen in der embodied Steuerung, leiden jedoch unter nicht handhabbaren Likelihoods während der Mehrschritt-Sampling, was Online-Verstärkungslernen behindert. Wir schlagen \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning) vor, ein kritisches- und likelihoodfreies Framework, das nur einen einzigen Vorwärtsdurchlauf pro Optimierungsschritt benötigt und Hilfs-Wertnetzwerke eliminiert. Wir identifizieren, dass breitere Explorationsräume feiner granulierte, schrittweise Führung für die Ausrichtung erfordern. Empirisch erschließt π-StepNFT latentes Potenzial auf LIBERO mit wettbewerbsfähiger Few-Shot-Robustheit. Darüber hinaus erreicht es überlegene Generalisierung auf ManiSkill, übertrifft wertbasierte Baseline-Modelle in OOD-Szenarien, indem es Overfitting an multimodale Merkmale verhindert. Diese Eigenschaft bietet eine skalierbare Lösung, die vielversprechend für komplexe reale Anwendungen ist.
Die Modellierung langer Kontexte ist eine entscheidende Fähigkeit für große Sprachmodelle, doch die quadratische Komplexität der Aufmerksamkeitsmechanismen bleibt ein kritischer Engpass, insbesondere während der rechenintensiven Prefilling-Phase. Während verschiedene spärliche Aufmerksamkeitsmechanismen erforscht wurden, leiden diese typischerweise entweder unter signifikanten Suchlatenzen oder unzureichender Sparsity. In dieser Arbeit stellen wir FlashPrefill vor, ein Framework, das ultraschnelles Prefilling durch sofortige Mustererkennung und Schwellwertbildung ermöglicht. FlashPrefill nutzt eine schnelle Block-Suchtechnik, um dynamische vertikale, diagonale und block-sparse Aufmerksamkeitsmuster gleichzeitig zu lokalisieren. Entscheidend ist die Einführung eines dynamischen Schwellwertmechanismus, der den prohibitiv hohen Overhead durch Sortieren oder Akkumulieren von Aufmerksamkeitswerten umgeht und gleichzeitig die Long-Tail-Verteilung effektiv eliminiert, um die Sparsity zu erhöhen. Umfangreiche Auswertungen zeigen, dass FlashPrefill einen erheblichen Effizienzsprung erreicht und eine beispiellose 27,78-fache Beschleunigung bei 256K-Sequenzen erzielt. Bemerkenswerterweise bleibt FlashPrefill – im Gegensatz zu bestehenden Methoden, die bei kürzeren Kontexten an Effizienz verlieren – selbst bei einer Kontextlänge von 4K mit einer 1,71-fachen Beschleunigung robust und demonstriert damit seine praktische Nützlichkeit über verschiedene Sequenzlängen hinweg.
Das rasante Wachstum großer Sprachmodelle (LLMs) mit unterschiedlichen Fähigkeiten, Kosten und Domänen hat einen kritischen Bedarf an intelligenter Modellauswahl zur Inferenzzeit geschaffen. Während kleinere Modelle für Routineanfragen ausreichen, erfordern komplexe Aufgaben leistungsfähigere Modelle. Statische Modellbereitstellungen berücksichtigen jedoch weder die Komplexität noch die Domäne eingehender Anfragen, was zu suboptimaler Leistung und höheren Kosten führt. Dynamische Routing-Systeme, die Modelle adaptiv basierend auf Anfragemerkmalen auswählen, haben sich als Lösung für diese Herausforderung etabliert. Wir bieten eine systematische Analyse modernster Multi-LLM-Routing- und Kaskadierungsansätze. Im Gegensatz zu Mixture-of-Experts-Architekturen, die innerhalb eines einzelnen Modells routen, untersuchen wir das Routing über mehrere unabhängig trainierte LLMs hinweg. Wir behandeln diverse Routing-Paradigmen, einschließlich Anfrageschwierigkeit, menschliche Präferenzen, Clustering, Unsicherheitsquantifizierung, bestärkendes Lernen, Multimodalität und Kaskadierung. Für jedes Paradigma analysieren wir repräsentative Methoden und untersuchen zentrale Zielkonflikte. Über die Taxonomie hinaus führen wir ein konzeptionelles Rahmenwerk ein, das Routing-Systeme entlang drei Dimensionen charakterisiert: wann Entscheidungen getroffen werden, welche Informationen genutzt werden und wie sie berechnet werden. Diese Perspektive verdeutlicht, dass praktische Systeme oft kompositionell sind und mehrere Paradigmen unter Betriebsbedingungen integrieren. Unsere Analyse zeigt, dass effektives Multi-LLM-Routing den Ausgleich konkurrierender Ziele erfordert. Die Wahl der optimalen Routing-Strategie hängt von Bereitstellungs- und Rechenbeschränkungen ab. Gut gestaltete Routing-Systeme können selbst die leistungsfähigsten Einzelmodelle übertreffen, indem sie spezialisierte Fähigkeiten über Modelle hinweg strategisch nutzen und Effizienzgewinne maximieren. Gleichzeitig bestehen weiterhin offene Herausforderungen bei der Entwicklung von Routing-Mechanismen, die über verschiedene Architekturen, Modalitäten und Anwendungen hinweg generalisieren.
Die Erstellung von Präsentationen erfordert tiefgehende Inhaltsrecherche, kohärentes visuelles Design und iterative Verbesserungen auf Grundlage von Beobachtungen. Bisherige Präsentationsagenten greifen jedoch oft auf vordefinierte Arbeitsabläufe und feste Vorlagen zurück. Um dieses Problem zu lösen, stellen wir DeepPresenter vor, ein agentenbasiertes Framework, das sich an verschiedene Nutzerabsichten anpasst, eine effektive feedbackgesteuerte Verfeinerung ermöglicht und über eine skriptbasierte Pipeline hinaus generalisiert. Konkret plant, rendert und überarbeitet DeepPresenter autonom Zwischenstände von Folien, um langfristige Verbesserungen mit Umgebungsbeobachtungen zu unterstützen. Darüber hinaus basiert unsere umgebungsgestützte Reflexion – statt auf Selbstreflexion interner Signale (z.B. Reasoning Traces) – auf dem Generierungsprozess von Wahrnehmungszuständen der Artefakte (z.B. gerenderte Folien), wodurch das System in der Lage ist, präsentationsspezifische Probleme während der Ausführung zu identifizieren und zu korrigieren. Ergebnisse auf dem Evaluationsdatensatz, der verschiedene Präsentationsszenarien abdeckt, zeigen, dass DeepPresenter state-of-the-art Leistung erzielt und das feinabgestimmte 9B-Modell bei deutlich geringeren Kosten äußerst wettbewerbsfähig bleibt. Unser Projekt ist verfügbar unter: https://github.com/icip-cas/PPTAgent
Diffusionsbasierte Weltmodelle haben ein großes Potenzial für die einheitliche Weltsimulation gezeigt, doch das iterative Entrauschen bleibt für interaktive Nutzung und langfristige Rollouts zu rechenintensiv. Obwohl Feature-Caching den Inferenzvorgang ohne Training beschleunigen kann, stellen wir fest, dass sich für unimodale Diffusion konzipierte Strategien aufgrund zweier modellspezifischer Hindernisse nur schlecht auf Weltmodelle übertragen lassen: Token-Heterogenität durch multimodale Kopplung und räumliche Variation sowie nicht-uniforme zeitliche Dynamiken, bei denen eine kleine Menge schwieriger Token das Fehlerwachstum vorantreibt, was gleichmäßiges Überspringen entweder instabil oder zu konservativ macht. Wir schlagen WorldCache vor, ein Caching-Framework, das speziell für Diffusions-Weltmodelle entwickelt wurde. Wir führen eine krümmungsgeführte, heterogene Token-Vorhersage ein, die einen physikalisch fundierten Krümmungswert nutzt, um die Vorhersagbarkeit von Token abzuschätzen, und für chaotische Token mit abrupten Richtungsänderungen einen Hermite-geführten, gedämpften Prädiktor anwendet. Zudem entwerfen wir ein chaotikuspriorisiertes, adaptives Überspringen, das ein krümmungsnormalisiertes, dimensionsloses Driftsignal akkumuliert und Neuberechnungen nur dann vornimmt, wenn Engpass-Token zu driften beginnen. Experimente mit Diffusions-Weltmodellen zeigen, dass WorldCache eine bis zu 3,7-fache Beschleunigung der End-to-End-Laufzeit bei gleichzeitiger Beibehaltung von 98 % der Rollout-Qualität erreicht, was die erheblichen Vorteile und die Praxistauglichkeit von WorldCache in ressourcenbeschränkten Szenarien demonstriert. Unser Code ist unter https://github.com/FofGofx/WorldCache veröffentlicht.
Computer-Aided Design (CAD) basiert auf strukturierten und editierbaren geometrischen Repräsentationen, doch bestehende generative Methoden sind durch kleine annotierte Datensätze mit expliziten Konstruktionshistoriendaten oder Boundary Representation (BRep)-Labels eingeschränkt. Gleichzeitig bleiben Millionen von nicht annotierten 3D-Meshes ungenutzt, was den Fortschritt bei der skalierbaren CAD-Generierung begrenzt. Um dieses Problem zu lösen, schlagen wir DreamCAD vor, einen multimodalen generativen Rahmen, der direkt editierbare BReps aus Point-Level-Supervision erzeugt – ohne CAD-spezifische Annotationen. DreamCAD repräsentiert jede BRep als eine Menge parametrischer Patches (z.B. Bézier-Flächen) und verwendet eine differenzierbare Tessellierungsmethode, um Meshes zu generieren. Dies ermöglicht ein Training in großem Maßstab auf 3D-Datensätzen, während gleichzeitig zusammenhängende und editierbare Oberflächen rekonstruiert werden. Darüber hinaus führen wir CADCap-1M ein, den bisher größten CAD-Beschriftungsdatensatz mit über 1 Million mittels GPT-5 generierten Beschreibungen, um die Forschung im Bereich Text-zu-CAD voranzutreiben. DreamCAD erzielt state-of-the-art Ergebnisse auf den ABC- und Objaverse-Benchmarks über Text-, Bild- und Punktmodalitäten hinweg, verbessert die geometrische Treue und übertrifft eine Nutzerpräferenz von 75 %. Code und Datensatz werden öffentlich verfügbar sein.
Konversationsagenten werden zunehmend in wissensintensiven Umgebungen eingesetzt, in denen korrektes Verhalten davon abhängt, domänenspezifisches Wissen aus großen, proprietären und unstrukturierten Korpora während laufender Interaktionen mit Nutzern abzurufen und anzuwenden. Dennoch bewerten die meisten bestehenden Benchmarks das Retrieval oder die Werkzeugnutzung weitgehend unabhängig voneinander, was eine Lücke in der realistischen, vollständig agentischen Evaluation über unstrukturierte Daten in langfristigen Interaktionen schafft. Wir stellen τ-Knowledge vor, eine Erweiterung von τ-Bench zur Bewertung von Agenten in Umgebungen, in denen der Erfolg von der Koordination externen, natürlichsprachlichen Wissens mit Werkzeugausgaben abhängt, um überprüfbare, richtlinienkonforme Zustandsänderungen zu erzeugen. Unsere neue Domäne, τ-Banking, modelliert realistische Fintech-Kundensupport-Workflows, in denen Agenten etwa 700 miteinander verbundene Wissensdokumente navigieren müssen, während sie werkzeugvermittelte Kontenupdates durchführen. Über einbettungsbasiertes Retrieval und terminalbasierte Suche hinweg erreichen selbst führende Modelle mit hohen Reasoning-Budgets nur sim25,5% Pass^1, wobei die Zuverlässigkeit über wiederholte Versuche stark abnimmt. Agenten haben Schwierigkeiten, die korrekten Dokumente aus dicht vernetzten Wissensbasen abzurufen und präzise über komplexe interne Richtlinien zu schlussfolgern. Insgesamt bietet τ-Knowledge eine realistische Testumgebung für die Entwicklung von Agenten, die unstrukturiertes Wissen in nutzerorientierten Einsätzen integrieren.
Das Training neuronaler PDE-Löser wird häufig durch teure Datengenerierung oder instabile physikinformierte neuronale Netze (PINNs) mit herausfordernden Optimierungslandschaften aufgrund von Ableitungen höherer Ordnung eingeschränkt. Um dieses Problem zu lösen, schlagen wir einen alternativen Ansatz vor, der Monte-Carlo-Methoden zur Schätzung der PDE-Lösung als stochastischen Prozess für schwache Supervision während des Trainings nutzt. Unter Verwendung der Walk-on-Spheres-Methode führen wir ein Lernverfahren namens Walk-on-Spheres Neural Operator (WoS-NO) ein, das schwache Supervision aus WoS nutzt, um einen beliebigen neuronalen Operator zu trainieren. Wir schlagen vor, die Kosten von Monte-Carlo-Pfaden über die Verteilung von PDE-Instanzen zu amortisieren, indem stochastische Darstellungen aus dem WoS-Algorithmus verwendet werden, um während des Trainings günstige, verrauschte Schätzungen der PDE-Lösung zu generieren. Dies wird in ein datenfreies physikinformiertes Ziel überführt, bei dem ein neuronaler Operator trainiert wird, um diese schwachen Supervisionen zu regredieren, wodurch der Operator eine generalisierte Lösungsabbildung für eine gesamte Familie von PDEs erlernt. Diese Strategie erfordert keine teuren vorberechneten Datensätze, vermeidet die Berechnung von Ableitungen höherer Ordnung für speicherintensive und instabile Verlustfunktionen und zeigt Zero-Shot-Generalisierung auf neue PDE-Parameter und Domänen. Experimente zeigen, dass unsere Methode bei gleicher Anzahl von Trainingsschritten eine bis zu 8,75-fache Verbesserung des L₂-Fehlers im Vergleich zu standardmäßigen physikinformierten Trainingsverfahren aufweist, eine bis zu 6,31-fache Steigerung der Trainingsgeschwindigkeit und eine Reduktion des GPU-Speicherverbrauchs um bis zu 2,97-fach. Den Code stellen wir unter https://github.com/neuraloperator/WoS-NO bereit.
Die Skalierung von Inferenz-Rechenleistung für große Sprachmodelle (LLMs) hat beispiellose Fähigkeiten im logischen Denken freigesetzt. Bisherige Methoden zur Skalierung zur Inferenzzeit stützen sich jedoch typischerweise auf ineffiziente und suboptimale diskrete Suchalgorithmen oder Trial-and-Error-Prompting, um die Online-Policy zu verbessern. In diesem Artikel stellen wir nabla-Reasoner vor, einen iterativen Generierungsrahmen, der differentierbare Optimierung über Token-Logits in den Dekodierungsprozess integriert, um die Policy dynamisch zu verfeinern. Unsere Kernkomponente, Differentiable Textual Optimization (DTO), nutzt Gradientensignale sowohl aus der Likelihood des LLM als auch aus einem Belohnungsmodell, um textuelle Repräsentationen zu optimieren. nabla-Reasoner integriert weiterhin Rejection Sampling und ein Beschleunigungsdesign, um die Dekodierung robuster und schneller zu machen. Theoretisch zeigen wir, dass die Durchführung von Gradientenabstieg zur Inferenzzeit im Probenraum zur Maximierung der Belohnung dual zur Ausrichtung einer LLM-Policy mittels KL-regularisierter Verstärkungslernens ist. Empirisch erzielt nabla-Reasoner eine Steigerung der Genauigkeit von über 20 % auf einem anspruchsvollen Benchmark für mathematisches Denken, während gleichzeitig die Anzahl der Modellaufrufe im Vergleich zu starken Baseline-Methoden um etwa 10–40 % reduziert wird. Insgesamt führt unsere Arbeit einen Paradigmenwechsel von Nullter-Ordnung-Suche zu Optimierung Erster Ordnung zur Testzeit ein und bietet einen kosteneffektiven Weg, um das logische Denken von LLMs zu verstärken.
Group Relative Policy Optimization (GRPO) ist äußerst effektiv für autoregressive (AR) Sprachmodelle nach dem Training, doch seine direkte Anwendung auf Diffusions-Großsprachmodelle (dLLMs) löst häufig einen Reward Collapse aus. Wir identifizieren zwei Ursachen für diese Inkompatibilität. Erstens basiert GRPO auf Importance Ratios, die durch Sequenzwahrscheinlichkeiten definiert sind. Diese sind in dLLMs nicht handhabbar und müssen geschätzt werden (z.B. über ELBO-basierte oder Mean-Field-Likelihood-Proxys), was inhärent verrauschte Ratios liefert. Zweitens ist die Formulierung des Standard-GRPO nicht für geschätzte Ratios ausgelegt: Ihr bedingtes Clipping kann durch modellagnostisches Schätzrauschen anomal umgangen werden, was Gradient Spikes erzeugt, während ihre Normalisierung mit fester Gruppengröße Schwankungen der Gradientenstärke unter hochvarianen Ratioschätzungen verstärkt. Wir zeigen, dass diese Effekte eine sich selbst verstärkende Instabilitätsschleife bilden, die Policy Drift antreibt und die Ratio-Varianz weiter erhöht. Um diese Schleife zu durchbrechen, schlagen wir StableDRL vor, eine Neuformulierung von GRPO für dLLMs, die (i) unbedingtes Clipping zur Unterdrückung von Ausreißer-induzierten Spikes und (ii) Selbstnormalisierung verwendet, um Updates innerhalb der konvexen Hülle der Gradienten pro Stichprobe zu beschränken. Wir erweitern StableDRL außerdem auf blockweise Diffusionsmodelle über einen Stufen-Attentionsmechanismus.
Große Sprachmodelle erzeugen manchmal falsche oder irreführende Antworten. Zwei Ansätze für dieses Problem sind die Förderung von Ehrlichkeit – durch Modifikation von Prompts oder Gewichten, damit das Modell wahrheitsgemäß antwortet – und Lügenerkennung – die Klassifizierung, ob eine gegebene Antwort falsch ist. Bisherige Arbeiten evaluieren solche Methoden an Modellen, die speziell darauf trainiert wurden, zu lügen oder Informationen zu verbergen, aber diese künstlichen Konstrukte ähneln möglicherweise nicht natürlich auftretender Unehrlichkeit. Wir untersuchen stattdessen Open-Weight-LLMs chinesischer Entwickler, die darauf trainiert sind, politisch sensible Themen zu zensieren: Qwen3-Modelle produzieren häufig Falschaussagen über Themen wie Falun Gong oder die Proteste auf dem Tiananmen, während sie gelegentlich korrekt antworten, was darauf hindeutet, dass sie über Wissen verfügen, das sie unterdrücken sollen. Wir nutzen dies als Testumgebung, um eine Reihe von Elicitation- und Lügenerkennungstechniken zu evaluieren. Für die Förderung von Ehrlichkeit erhöhen Stichprobenentnahme ohne Chat-Template, Few-Shot-Prompting und Fine-Tuning auf generischen Ehrlichkeitsdaten die wahrheitsgemäßen Antworten am zuverlässigsten. Für die Lügenerkennung schneidet das Prompten des zensierten Modells, um seine eigenen Antworten zu klassifizieren, nahe an einer Obergrenze eines unzensierten Modells ab, und auf fremden Daten trainierte lineare Sonden bieten eine kostengünstigere Alternative. Die stärksten Techniken zur Ehrlichkeitsförderung übertragen sich auch auf fortschrittliche Open-Weight-Modelle wie DeepSeek R1. Bemerkenswerterweise beseitigt keine Technik falsche Antworten vollständig. Wir veröffentlichen alle Prompts, Codes und Transkripte.
Wir stellen PixARMesh vor, eine Methode zur autoregressiven Rekonstruktion vollständiger 3D-Innenraumszenen-Meshes direkt aus einem einzelnen RGB-Bild. Im Gegensatz zu früheren Ansätzen, die auf impliziten Signed Distance Fields und nachgelagerter Layoutoptimierung basieren, sagt PixARMesh Objektlayout und -geometrie gemeinsam innerhalb eines einheitlichen Modells vorher und erzeugt kohärente, direkt verwendbare Meshes in einem einzigen Vorwärtsdurchlauf. Aufbauend auf aktuellen Fortschritten bei Mesh-Generierungsmodellen erweitern wir einen Punktwolken-Encoder mit pixelalignierten Bildmerkmalen und globalem Szenenkontext über Cross-Attention, was eine präzise räumliche Reasoning aus einem Einzelbild ermöglicht. Szenen werden autoregressiv aus einem einheitlichen Token-Stream erzeugt, der Kontext, Pose und Mesh enthält, und ergeben kompakte Meshes mit hochpräziser Geometrie. Experimente auf synthetischen und realen Datensätzen zeigen, dass PixARMesh state-of-the-art Rekonstruktionsqualität erreicht und dabei leichte, hochwertige Meshes liefert, die direkt für nachgelagerte Anwendungen einsetzbar sind.
Offline zielkonditioniertes bestärkendes Lernen (GCRL) erlernt zielkonditionierte Strategien aus statischen, vorab gesammelten Datensätzen. Allerdings bleibt eine genaue Werte-Schätzung aufgrund der begrenzten Abdeckung des Zustands-Aktions-Raums eine Herausforderung. Neuere physik-informierte Ansätze haben versucht, dies zu adressieren, indem sie physikalische und geometrische Zwangsbedingungen für die Wertfunktion durch Regularisierung definiert über partielle Differentialgleichungen (PDEs) erster Ordnung, wie beispielsweise die Eikonal-Gleichung, auferlegen. Diese Formulierungen können jedoch in komplexen, hochdimensionalen Umgebungen oft schlecht gestellt sein. In dieser Arbeit schlagen wir eine physik-informierte Regularisierung vor, die von der Viskositätslösung der Hamilton-Jacobi-Bellman (HJB)-Gleichung abgeleitet ist. Indem unser Ansatz eine physikalisch basierte induktive Verzerrung bereitstellt, verankert er den Lernprozess in der optimalen Steuerungstheorie und regularisiert sowie begrenzt Updates während der Wertiterationen explizit. Darüber hinaus nutzen wir das Feynman-Kac-Theorem, um die PDE-Lösung als einen Erwartungswert umzuformulieren, was eine handhabbare Monte-Carlo-Schätzung des Ziels ermöglicht, die numerische Instabilität in Gradienten höherer Ordnung vermeidet. Experimente zeigen, dass unsere Methode die geometrische Konsistenz verbessert und sie damit breit anwendbar für Navigations- sowie hochdimensionale, komplexe Manipulationsaufgaben macht. Der Open-Source-Code ist unter https://github.com/HrishikeshVish/phys-fk-value-GCRL verfügbar.
Die Bildrestauration unter verschiedenen Degradationsarten bleibt für vereinheitlichte All-in-One-Frameworks aufgrund von Feature-Interferenzen und unzureichender Expertenspezialisierung eine Herausforderung. Wir stellen SLER-IR vor, ein sphärisches, schichtenweises Expert-Routing-Framework, das spezialisierte Experten dynamisch über Netzwerkebenen hinweg aktiviert. Um zuverlässiges Routing zu gewährleisten, führen wir ein sphärisches einheitliches Degradations-Embedding mit kontrastivem Lernen ein, das Degradationsrepräsentationen auf einer Hypersphäre abbildet, um Geometriebias in linearen Einbettungsräumen zu eliminieren. Zusätzlich integriert ein Global-Local-Granularitäts-Fusionsmodul (GLGF) globale Semantik und lokale Degradationshinweise, um räumlich nicht-uniforme Degradationen und die Granularitätslücke zwischen Training und Test zu adressieren. Experimente auf Drei- und Fünf-Task-Benchmarks zeigen, dass SLER-IR durchgängige Verbesserungen gegenüber state-of-the-art Methoden sowohl in PSNR als auch SSIM erzielt. Code und Modelle werden öffentlich zugänglich gemacht.
Die Spezifikation des Aktionsraums spielt eine entscheidende Rolle beim imitationsbasierten Lernen von Robotermanipulationspolitiken, da sie die Optimierungslandschaft des Politik-Lernens grundlegend formt. Während sich jüngste Fortschritte stark auf die Skalierung von Trainingsdaten und Modellkapazität konzentriert haben, wird die Wahl des Aktionsraums weiterhin von Ad-hoc-Heuristiken oder etablierten Legacy-Designs geleitet, was zu einem unklaren Verständnis der zugrundeliegenden Designphilosophien für Roboterpolitiken führt. Um diese Unklarheit zu adressieren, führten wir eine umfangreiche und systematische empirische Studie durch, die bestätigt, dass der Aktionsraum tatsächlich signifikante und komplexe Auswirkungen auf das Lernen von Roboterpolitiken hat. Wir unterteilen den Aktionsdesign-Raum entlang zeitlicher und räumlicher Achsen, um eine strukturierte Analyse zu ermöglichen, wie diese Wahlentscheidungen sowohl die Erlernbarkeit der Politik als auch die Regelungsstabilität beeinflussen. Basierend auf über 13.000 Realwelt-Testläufen an einem bimanuellen Roboter und der Auswertung von über 500 trainierten Modellen in vier Szenarien untersuchen wir die Kompromisse zwischen absoluten und Delta-Repräsentationen sowie Gelenkraum- und Arbeitsraum-Parametrisierungen. Unsere umfangreichen Ergebnisse deuten darauf hin, dass ein geeignetes Design der Politik zur Vorhersage von Delta-Aktionen durchweg die Leistung verbessert, während Gelenkraum- und Arbeitsraum-Repräsentationen komplementäre Stärken bieten, die jeweils Regelungsstabilität bzw. Generalisierung begünstigen.
Die Befolgung von Anweisungen ist eine grundlegende Fähigkeit großer Sprachmodelle (LLMs), deren Verbesserung von skalierbarer und präziser Rückmeldung durch Bewertungsmodelle abhängt. Die Zuverlässigkeit aktueller Bewertungsmodelle für die Anweisungsbefolgung ist jedoch aufgrund mehrerer Mängel bestehender Meta-Evaluierungs-Benchmarks noch unzureichend erforscht, wie etwa ungenügende Datenabdeckung und zu stark vereinfachte paarweise Bewertungsparadigmen, die nicht mit Modelloptimierungsszenarien übereinstimmen. Daher schlagen wir IF-RewardBench vor, einen umfassenden Meta-Evaluierungs-Benchmark für die Anweisungsbefolgung, der verschiedene Anweisungs- und Einschränkungstypen abdeckt. Für jede Anweisung konstruieren wir einen Präferenzgraphen, der alle paarweisen Präferenzen zwischen mehreren Antworten basierend auf der Qualität der Anweisungsbefolgung enthält. Dieser Entwurf ermöglicht ein listenbasiertes Bewertungsparadigma, das die Fähigkeiten von Bewertungsmodellen zur Rangfolge mehrerer Antworten bewertet, was für die Ausrichtung der Modelloptimierung entscheidend ist. Umfangreiche Experimente mit IF-RewardBench zeigen erhebliche Defizite aktueller Bewertungsmodelle auf und demonstrieren, dass unser Benchmark im Vergleich zu bestehenden Benchmarks eine stärkere positive Korrelation mit der Leistung in nachgelagerten Aufgaben erreicht. Unsere Codes und Daten sind verfügbar unter https://github.com/thu-coai/IF-RewardBench.
Es ist bekannt, dass der Rekonstruktions-FID (rFID) eines VAE nur schwach mit dem Generierungs-FID (gFID) eines latenten Diffusionsmodells korreliert. Wir schlagen den interpolierten FID (iFID) vor, eine einfache Variante des rFID, die eine starke Korrelation mit dem gFID aufweist. Konkret ermitteln wir für jedes Element im Datensatz seinen nächsten Nachbarn (NN) im latenten Raum und interpolieren deren latente Repräsentationen. Anschließend dekodieren wir die interpolierten Latents und berechnen den FID zwischen den dekodierten Stichproben und dem ursprünglichen Datensatz. Zusätzlich präzisieren wir die Behauptung, dass rFID nur schwach mit gFID korreliert, indem wir zeigen, dass rFID mit der Stichprobenqualität in der Diffusionsverfeinerungsphase korreliert, während iFID mit der Stichprobenqualität in der Diffusionsnavigationsphase korreliert. Des Weiteren liefern wir eine Erklärung dafür, warum iFID gut mit gFID korreliert und warum Rekonstruktionsmetriken negativ mit gFID korrelieren, indem wir eine Verbindung zu Ergebnissen aus der Diffusionsverallgemeinerung und -halluzination herstellen. Empirisch ist iFID die erste Metrik, die eine starke Korrelation mit dem Diffusions-gFID demonstriert und dabei Pearson-Linear- und Spearman-Rangkorrelationen von etwa 0,85 erreicht. Der Quellcode ist unter https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID verfügbar.
Um das volle Potenzial von visuell anspruchsvollen Dokumenten auszuschöpfen, sind Retrieval-Systeme erforderlich, die nicht nur Text, sondern auch komplexe Layouts verstehen – eine zentrale Herausforderung im Bereich Visual Document Retrieval (VDR). Die vorherrschenden Multi-Vektor-Architekturen stoßen, obwohl leistungsstark, auf ein entscheidendes Speicher-Engpass, das bestehende Optimierungsstrategien wie das Zusammenführen von Embeddings, das Ausdünnen (Pruning) oder die Verwendung abstrakter Tokens nicht lösen können, ohne die Leistung zu beeinträchtigen oder wichtige Layout-Informationen zu ignorieren. Um dieses Problem zu adressieren, stellen wir ColParse vor, ein neuartiges Paradigma, das ein Dokumenten-Parsing-Modell nutzt, um eine kleine Anzahl von layout-informierten Teilbild-Embeddings zu erzeugen. Diese werden dann mit einem globalen Seitenvektor fusioniert, um eine kompakte und strukturbewusste Multi-Vektor-Repräsentation zu schaffen. Umfangreiche Experimente belegen, dass unsere Methode den Speicherbedarf um über 95 % reduziert und gleichzeitig signifikante Leistungssteigerungen über zahlreiche Benchmarks und Basis-Modelle hinweg erzielt. ColParse überbrückt somit die kritische Lücke zwischen der feinkörnigen Genauigkeit der Multi-Vektor-Rückgewinnung und den praktischen Anforderungen eines großflächigen Einsatzes und eröffnet einen neuen Weg hin zu effizienten und interpretierbaren multimodalen Informationssystemen.
Jüngste Studien haben beobachtet, dass Zwischenschichten von Foundation-Modellen oft diskriminativere Repräsentationen liefern als die letzte Schicht. Während dieses Phänomen ursprünglich autoregressivem Pre-Training zugeschrieben wurde, wurde es auch bei Modellen identifiziert, die mit überwachten und diskriminativen selbstüberwachten Zielen trainiert wurden. In dieser Arbeit führen wir eine umfassende Studie durch, um das Verhalten von Zwischenschichten in vortrainierten Vision-Transformern zu analysieren. Durch umfangreiche Linear-Probing-Experimente mit einer Vielzahl von Bildklassifizierungs-Benchmarks stellen wir fest, dass eine Verteilungsverschiebung zwischen den Pre-Training- und den Downstream-Daten die Hauptursache für den Leistungsabfall in tieferen Schichten ist. Darüber hinaus führen wir eine feinkörnige Analyse auf Modulebene durch. Unsere Ergebnisse zeigen, dass das Standard-Probing der Transformer-Block-Ausgaben suboptimal ist; stattdessen erzielt das Untersuchen der Aktivierung innerhalb des Feedforward-Netzwerks die beste Leistung bei signifikanter Verteilungsverschiebung, wohingegen die normalisierte Ausgabe des Multi-Head-Self-Attention-Moduls optimal ist, wenn die Verschiebung schwach ist.