papers.description
Mehrstufige Retrieval-Augmented Generation (RAG) hat sich zu einer weit verbreiteten Strategie entwickelt, um große Sprachmodelle (LLMs) bei Aufgaben zu verbessern, die ein globales Verständnis und intensives Schlussfolgern erfordern. Viele RAG-Systeme integrieren ein Arbeitsgedächtnismodul, um abgerufene Informationen zu konsolidieren. Bestehende Gedächtnisentwürfe fungieren jedoch hauptsächlich als passiver Speicher, der isolierte Fakten ansammelt, um lange Eingaben zu verdichten und neue Teilabfragen durch Deduktion zu generieren. Diese statische Natur übersieht die entscheidenden höhergradigen Korrelationen zwischen primitiven Fakten, deren Zusammensetzungen oft eine stärkere Leitlinie für nachfolgende Schritte bieten können. Daher sind ihre Repräsentationsstärke und ihr Einfluss auf mehrstufiges Reasoning und Wissensevolution begrenzt, was zu fragmentiertem Schlussfolgern und einer schwachen globalen Sinnstiftungskapazität in erweiterten Kontexten führt. Wir stellen HGMem vor, einen hypergraphbasierten Gedächtnismechanismus, der das Konzept des Gedächtnisses über einfache Speicherung hinaus zu einer dynamischen, ausdrucksstarken Struktur für komplexes Reasoning und globales Verständnis erweitert. In unserem Ansatz wird das Gedächtnis als Hypergraph repräsentiert, dessen Hyperkanten distincten Gedächtniseinheiten entsprechen und die progressive Bildung höherer Interaktionen innerhalb des Gedächtnisses ermöglichen. Dieser Mechanismus verbindet Fakten und Gedanken rund um das Kernproblem und entwickelt sich zu einer integrierten und situierten Wissensstruktur, die starke Propositionen für tiefergehendes Reasoning in nachfolgenden Schritten liefert. Wir evaluieren HGMem anhand mehrerer anspruchsvoller Datensätze, die für globale Sinnstiftung konzipiert wurden. Umfangreiche Experimente und detaillierte Analysen zeigen, dass unsere Methode mehrstufige RAG konsistent verbessert und starke Basissysteme über verschiedene Aufgaben hinweg deutlich übertrifft.
Große Sprachmodelle (LLMs) wenden gleichmäßige Berechnungen auf alle Tokens an, obwohl Sprache eine hochgradig ungleichmäßige Informationsdichte aufweist. Dieses Token-uniforme Regime verschwendet Kapazität für lokal vorhersehbare Abschnitte, während es Berechnungen für semantisch kritische Übergänge unteralloziert. Wir schlagen Dynamische Große Konzeptmodelle (DLCM) vor, einen hierarchischen Sprachmodellierungsrahmen, der semantische Grenzen aus latenten Repräsentationen lernt und Berechnungen von Tokens in einen komprimierten Konzeptraum verschiebt, in dem das Schließen effizienter ist. DLCM entdeckt variabel lange Konzepte end-to-end, ohne auf vordefinierte linguistische Einheiten angewiesen zu sein. Hierarchische Kompression verändert das Skalierungsverhalten grundlegend. Wir führen das erste kompressionsbewusste Skalierungsgesetz ein, das Token-Level-Kapazität, Konzept-Level-Schlussfolgerungskapazität und Kompressionsverhältnis entwirrt und eine prinzipiengeleitete Rechenzuweisung unter festen FLOPs ermöglicht. Um diese heterogene Architektur stabil zu trainieren, entwickeln wir weiterhin eine entkoppelte μP-Parametrisierung, die den Zero-Shot-Hyperparametertransfer über Breiten und Kompressionsregime hinweg unterstützt. In einer praktischen Einstellung (R=4, was einem Durchschnitt von vier Tokens pro Konzept entspricht) verteilt DLCM etwa ein Drittel der Inferenzrechenleistung auf ein Reasoning-Backbone mit höherer Kapazität um und erzielt unter angeglichenen Inferenz-FLOPs eine durchschnittliche Verbesserung von +2,69 % über 12 Zero-Shot-Benchmarks hinweg.
Während neuere Multimodale Large Language Models (MLLMs) bedeutende Fortschritte im multimodalen Denken erzielt haben, bleiben ihre Denkprozesse überwiegend textzentriert, was zu suboptimalen Leistungen bei komplexen, langfristigen und visuell zentrierten Aufgaben führt. In diesem Beitrag etablieren wir ein neuartiges Paradigma des Generativen Multimodalen Denkens und stellen DiffThinker vor, ein diffusionsbasiertes Denkframework. Konzeptionell formuliert DiffThinker multimodales Denken als native generative Bild-zu-Bild-Aufgabe um und erreicht dadurch überlegene logische Konsistenz und räumliche Präzision in visuell zentrierten Aufgaben. Wir führen einen systematischen Vergleich zwischen DiffThinker und MLLMs durch, bieten die erste eingehende Untersuchung der intrinsischen Eigenschaften dieses Paradigmas und decken vier Kerneigenschaften auf: Effizienz, Steuerbarkeit, native Parallelität und Kollaborationsfähigkeit. Umfangreiche Experimente in vier Domänen (sequentielle Planung, kombinatorische Optimierung, Constraint-Befriedigung und räumliche Konfiguration) zeigen, dass DiffThinker führende Closed-Source-Modelle, einschließlich GPT-5 (+314,2 %) und Gemini-3-Flash (+111,6 %), sowie die feinabgestimmte Qwen3-VL-32B-Baseline (+39,0 %) signifikant übertrifft. Dies unterstreicht das generative multimodale Denken als einen vielversprechenden Ansatz für visuell zentriertes Denken.
Diffusionsmodelle bieten attraktive Eigenschaften für die Sprachgenerierung, wie parallele Decodierung und iterative Verfeinerung. Die diskrete und hochstrukturierte Natur von Text stellt jedoch eine Herausforderung für die direkte Anwendung von Diffusionsprinzipien dar. In diesem Beitrag betrachten wir Diffusions-Sprachmodellierung neu aus der Perspektive des Diffusionsprozesses und der Sprachmodellierung und skizzieren fünf Eigenschaften, die die Diffusionsmechanik von sprachspezifischen Anforderungen trennen. Wir kategorisieren zunächst bestehende Ansätze in kontinuierliche Diffusion im Embedding-Raum und diskrete Diffusion über Tokens. Anschließend zeigen wir, dass jeder Ansatz nur einen Teil der fünf wesentlichen Eigenschaften erfüllt und somit einen strukturellen Kompromiss darstellt. Durch Analysen aktueller großer Diffusions-Sprachmodelle identifizieren wir zwei zentrale Probleme: (i) Gleichförmige Korrumpierung berücksichtigt nicht, wie Informationen über Positionen verteilt sind, und (ii) tokenweise marginales Training kann Abhängigkeiten zwischen mehreren Tokens während der parallelen Decodierung nicht erfassen. Diese Beobachtungen motivieren Diffusionsprozesse, die enger mit der Textstruktur übereinstimmen, und regen zukünftige Arbeiten zu kohärenteren Diffusions-Sprachmodellen an.
In dieser Arbeit zeigen wir, dass sich der Einfluss der Modellkapazität über die Zeitschritte hinweg unterscheidet: Er ist in den frühen und späten Phasen entscheidend, während er in der intermediären Phase weitgehend vernachlässigbar ist. Dementsprechend schlagen wir FlowBlending vor, eine phasenbewusste Multi-Model-Sampling-Strategie, die in kapazitätssensitiven Phasen ein großes Modell und in intermediären Phasen ein kleines Modell einsetzt. Wir führen zudem einfache Kriterien zur Wahl der Phasengrenzen ein und bieten eine Velocity-Divergence-Analyse als effektiven Proxy zur Identifikation kapazitätssensitiver Bereiche. In Tests mit LTX-Video (2B/13B) und WAN 2.1 (1.3B/14B) erreicht FlowBlending eine bis zu 1,65-fach schnellere Inferenz bei 57,35 % weniger FLOPs, während die visuelle Qualität, zeitliche Kohärenz und semantische Übereinstimmung der großen Modelle erhalten bleibt. FlowBlending ist zudem kompatibel mit bestehenden Sampling-Beschleunigungstechniken und ermöglicht eine zusätzliche Beschleunigung von bis zu 2x. Die Projektseite ist verfügbar unter: https://jibin86.github.io/flowblending_project_page.
Generative Videomodellierung hat sich als vielversprechendes Werkzeug erwiesen, um nullschrittig plausible physikalische Interaktionen für Open-World-Manipulationen zu erfassen. Es bleibt jedoch eine Herausforderung, solche menschengesteuerten Bewegungen in die niedrigstufigen Aktionen zu übersetzen, die von Robotersystemen benötigt werden. Wir beobachten, dass diese Modelle bei der Synthese sinnvoller Objektbewegungen exzellieren, wenn ein Ausgangsbild und eine Aufgabenbeschreibung gegeben sind. Daher stellen wir Dream2Flow vor, ein Framework, das Videogenerierung und Robotiksteuerung durch 3D-Objektfluss als Zwischenrepräsentation verbindet. Unsere Methode rekonstruiert 3D-Objektbewegungen aus generierten Videos und formuliert Manipulation als Objekttrajektorienverfolgung. Indem Zustandsänderungen von den Aktuatoren getrennt werden, die diese Veränderungen realisieren, überwindet Dream2Flow den Embodiment-Gap und ermöglicht nullschrittige Steuerung durch vortrainierte Videomodelle zur Manipulation von Objekten verschiedenster Kategorien – einschließlich starrer, artikulierter, deformierbarer und granularer Objekte. Durch Trajektorienoptimierung oder bestärkendes Lernen wandelt Dream2Flow rekonstruierte 3D-Objektflüsse in ausführbare Low-Level-Befehle um, ohne auf aufgabenspezifische Demonstrationen angewiesen zu sein. Simulations- und Realweltexperimente zeigen, dass 3D-Objektfluss eine allgemeine und skalierbare Schnittstelle darstellt, um Videogenerierungsmodelle für Open-World-Robotermanipulation zu adaptieren. Videos und Visualisierungen sind unter https://dream2flow.github.io/ verfügbar.
Simulationsoptimierung (SO) sieht sich häufig mit verrauschten Bewertungen, hohen Rechenkosten und komplexen, multimodalen Suchlandschaften konfrontiert. Dieses Papier stellt Tabu-Enhanced Simulation Optimization (TESO) vor, ein neuartiges metaheuristisches Framework, das adaptive Suche mit speicherbasierten Strategien kombiniert. TESO nutzt eine kurzfristige Tabu-Liste, um Zyklen zu vermeiden und Diversifizierung zu fördern, sowie ein langfristiges Elite-Memory, das durch Perturbation vielversprechender Lösungen eine Intensivierung steuert. Ein Aspirationskriterium ermöglicht es, Tabu-Beschränkungen für außergewöhnliche Kandidaten außer Kraft zu setzen. Diese Kombination ermöglicht ein dynamisches Gleichgewicht zwischen Exploration und Exploitation in stochastischen Umgebungen. Wir demonstrieren die Wirksamkeit und Zuverlässigkeit von TESO anhand eines Warteschlangenoptimierungsproblems, zeigen eine verbesserte Leistung im Vergleich zu Benchmark-Verfahren und validieren den Beitrag seiner Speicherkomponenten. Quellcode und Daten sind verfügbar unter: https://github.com/bulentsoykan/TESO.