papers.description
Retrieval-Augmented Generation (RAG) verbessert die Faktentreue von Large Language Models (LLMs) durch die Einbindung externen Wissens, scheitert jedoch bei Problemen, die mehrstufige Schlussfolgerungen erfordern; hingegen neigen rein auf Schlussfolgerungen ausgerichtete Ansätze oft dazu, Fakten zu halluzinieren oder falsch zu verankern. Diese Übersichtsarbeit vereint beide Stränge unter einer einheitlichen Perspektive des Schlussfolgerns und Retrievals. Zunächst zeigen wir auf, wie fortgeschrittenes Schlussfolgern jede Stufe von RAG optimiert (Reasoning-Enhanced RAG). Anschließend demonstrieren wir, wie abgerufenes Wissen unterschiedlicher Art fehlende Prämissen liefert und den Kontext für komplexe Schlussfolgerungen erweitert (RAG-Enhanced Reasoning). Schließlich beleuchten wir aufkommende Synergized RAG-Reasoning-Frameworks, in denen (agentische) LLMs iterativ Suche und Schlussfolgerung verknüpfen, um Spitzenleistungen in wissensintensiven Benchmarks zu erzielen. Wir kategorisieren Methoden, Datensätze und offene Herausforderungen und skizzieren Forschungsrichtungen hin zu tiefergehenden RAG-Reasoning-Systemen, die effektiver, multimodal adaptiv, vertrauenswürdig und menschenzentriert sind. Die Sammlung ist verfügbar unter https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
Die 3D-Modellierung bewegt sich vom Virtuellen ins Physische. Bisherige 3D-Generierungsansätze konzentrieren sich hauptsächlich auf Geometrien und Texturen, während die physikalisch fundierte Modellierung vernachlässigt wird. Folglich übersehen die synthetisierten 3D-Assets trotz der rasanten Entwicklung von 3D-Generierungsmodellen oft reichhaltige und wichtige physikalische Eigenschaften, was ihre Anwendung in realen physikalischen Domänen wie Simulationen und embodied AI behindert. Als ersten Ansatz zur Bewältigung dieser Herausforderung schlagen wir PhysX vor, ein end-to-end Paradigma für die physikalisch fundierte Generierung von 3D-Assets. 1) Um die kritische Lücke in physikalisch annotierten 3D-Datensätzen zu schließen, präsentieren wir PhysXNet – den ersten physikalisch fundierten 3D-Datensatz, der systematisch über fünf grundlegende Dimensionen annotiert ist: absolute Skalierung, Material, Affordanz, Kinematik und Funktionsbeschreibung. Insbesondere entwickeln wir eine skalierbare Human-in-the-Loop-Annotationspipeline basierend auf Vision-Language-Modellen, die die effiziente Erstellung von physikalisch priorisierten Assets aus rohen 3D-Assets ermöglicht. 2) Darüber hinaus schlagen wir PhysXGen vor, ein Feedforward-Framework für die physikalisch fundierte Bild-zu-3D-Asset-Generierung, das physikalisches Wissen in den vortrainierten 3D-Strukturraum injiziert. Konkret verwendet PhysXGen eine Dual-Branch-Architektur, um die latenten Korrelationen zwischen 3D-Strukturen und physikalischen Eigenschaften explizit zu modellieren, wodurch 3D-Assets mit plausiblen physikalischen Vorhersagen erzeugt werden, während die native Geometriequalität erhalten bleibt. Umfangreiche Experimente bestätigen die überlegene Leistung und vielversprechende Generalisierungsfähigkeit unseres Frameworks. Der gesamte Code, die Daten und Modelle werden veröffentlicht, um zukünftige Forschung in der generativen physikalischen KI zu fördern.
Die Optimierung der Codeleistung ist in der realen Softwareentwicklung von größter Bedeutung und entscheidend für Produktionssysteme. Während große Sprachmodelle (LLMs) beeindruckende Fähigkeiten in der Codegenerierung und Fehlerbehebung gezeigt haben, bleibt ihre Kompetenz bei der Verbesserung der Codeleistung auf Repository-Ebene weitgehend unerforscht. Um diese Lücke zu schließen, stellen wir SWE-Perf vor, den ersten Benchmark, der speziell entwickelt wurde, um LLMs systematisch auf Codeleistungsoptimierungsaufgaben in authentischen Repository-Kontexten zu evaluieren. SWE-Perf umfasst 140 sorgfältig ausgewählte Instanzen, die jeweils aus leistungssteigernden Pull-Requests beliebter GitHub-Repositories abgeleitet sind. Jede Benchmark-Instanz beinhaltet den relevanten Codebase, Zielfunktionen, leistungsbezogene Tests, von Experten erstellte Patches und ausführbare Umgebungen. Durch eine umfassende Bewertung repräsentativer Methoden, die datei- und repository-basierte Ansätze abdecken (z. B. Agentless und OpenHands), zeigen wir eine erhebliche Fähigkeitslücke zwischen bestehenden LLMs und der Optimierungsleistung auf Expertenniveau auf, was kritische Forschungsmöglichkeiten in diesem aufstrebenden Feld hervorhebt.
Menschen sind integrale Bestandteile des Verkehrsökosystems, und das Verständnis ihres Verhaltens ist entscheidend für die Entwicklung sicherer Fahrassistenzsysteme. Obwohl jüngste Fortschritte verschiedene Aspekte des menschlichen Verhaltens untersucht haben – wie Bewegung, Trajektorien und Intention – fehlt bisher ein umfassender Benchmark zur Bewertung des Verständnisses menschlichen Verhaltens im autonomen Fahren. In dieser Arbeit stellen wir MMHU vor, einen groß angelegten Benchmark zur Analyse menschlichen Verhaltens, der umfangreiche Annotationen wie menschliche Bewegungen und Trajektorien, Textbeschreibungen für menschliche Bewegungen, menschliche Intentionen und kritische Verhaltenslabels in Bezug auf die Fahrsicherheit bietet. Unser Datensatz umfasst 57.000 menschliche Bewegungsclips und 1,73 Millionen Frames, die aus verschiedenen Quellen stammen, darunter etablierte Fahrzeugdatensätze wie Waymo, in freier Wildbahn aufgenommene Videos von YouTube und selbst gesammelte Daten. Eine Human-in-the-Loop-Annotation-Pipeline wurde entwickelt, um umfangreiche Verhaltensbeschreibungen zu generieren. Wir bieten eine detaillierte Analyse des Datensatzes und benchmarken mehrere Aufgaben – von der Bewegungsvorhersage über die Bewegungsgenerierung bis hin zur Beantwortung von Fragen zum menschlichen Verhalten – und stellen somit ein breites Evaluationsspektrum bereit. Projektseite: https://MMHU-Benchmark.github.io.
Die Fähigkeit virtueller Menschen, dynamisch und realistisch auf verschiedene auditive Reize zu reagieren, bleibt eine zentrale Herausforderung in der Charakteranimation, die die Integration von Wahrnehmungsmodellierung und Bewegungssynthese erfordert. Trotz ihrer Bedeutung wurde diese Aufgabe bisher weitgehend unerforscht. Die meisten bisherigen Arbeiten konzentrierten sich hauptsächlich auf die Abbildung von Modalitäten wie Sprache, Audio und Musik zur Erzeugung menschlicher Bewegungen. Bisher übersehen diese Modelle typischerweise den Einfluss räumlicher Merkmale, die in räumlichen Audiosignalen kodiert sind, auf die menschliche Bewegung. Um diese Lücke zu schließen und eine hochwertige Modellierung menschlicher Bewegungen als Reaktion auf räumliches Audio zu ermöglichen, stellen wir den ersten umfassenden Spatial Audio-Driven Human Motion (SAM)-Datensatz vor, der vielfältige und hochwertige räumliche Audio- und Bewegungsdaten enthält. Für Benchmarking-Zwecke entwickeln wir ein einfaches, aber effektives diffusionsbasiertes generatives Framework für die Erzeugung menschlicher Bewegungen, das durch räumliches Audio angetrieben wird, genannt MOSPA, das die Beziehung zwischen Körperbewegung und räumlichem Audio durch einen effektiven Fusionsmechanismus treu erfasst. Einmal trainiert, kann MOSPA vielfältige, realistische menschliche Bewegungen basierend auf variierenden räumlichen Audioeingaben erzeugen. Wir führen eine gründliche Untersuchung des vorgeschlagenen Datensatzes durch und führen umfangreiche Experimente für Benchmarking durch, bei denen unsere Methode Spitzenleistungen in dieser Aufgabe erzielt. Unser Modell und der Datensatz werden nach der Annahme Open-Source zur Verfügung gestellt. Weitere Details finden Sie in unserem ergänzenden Video.
Große Sprachmodelle (LLM) haben großes Potenzial gezeigt, um reale Probleme zu lösen und versprechen, eine Lösung für die Automatisierung von Aufgaben in der Industrie zu sein. Es werden jedoch mehr Benchmarks benötigt, um Automatisierungsagenten systematisch aus einer industriellen Perspektive zu bewerten, beispielsweise im Bauingenieurwesen. Daher schlagen wir DrafterBench für die umfassende Bewertung von LLM-Agenten im Kontext der technischen Zeichnungsrevision vor, einer Darstellungsaufgabe im Bauingenieurwesen. DrafterBench enthält zwölf Arten von Aufgaben, die aus realen Zeichnungsdateien zusammengefasst wurden, mit 46 angepassten Funktionen/Werkzeugen und insgesamt 1920 Aufgaben. DrafterBench ist ein Open-Source-Benchmark, um die Fähigkeiten von KI-Agenten rigoros zu testen, komplexe und langfristige Anweisungen zu interpretieren, Vorwissen zu nutzen und sich an die dynamische Qualität von Anweisungen durch implizite Richtlinienbewusstheit anzupassen. Das Toolkit bewertet umfassend unterschiedliche Fähigkeiten im Verständnis strukturierter Daten, der Ausführung von Funktionen, der Befolgung von Anweisungen und des kritischen Denkens. DrafterBench bietet eine detaillierte Analyse der Aufgabenrichtigkeit und Fehlerstatistiken, mit dem Ziel, tiefere Einblicke in die Fähigkeiten von Agenten zu geben und Verbesserungsziele für die Integration von LLMs in ingenieurtechnische Anwendungen zu identifizieren. Unser Benchmark ist verfügbar unter https://github.com/Eason-Li-AIS/DrafterBench, wobei der Testdatensatz unter https://huggingface.co/datasets/Eason666/DrafterBench gehostet wird.
Die Community der großen Sprachmodelle (LLMs) konzentriert sich fast ausschließlich auf Decoder-only-Sprachmodelle, da diese einfacher für die Textgenerierung einzusetzen sind. Dennoch nutzt ein großer Teil der Community weiterhin Encoder-only-Modelle für Aufgaben wie Klassifikation oder Retrieval. Frühere Arbeiten haben versucht, diese Architekturen zu vergleichen, waren jedoch gezwungen, Modelle mit unterschiedlichen Parameternanzahlen, Trainingsmethoden und Datensätzen zu vergleichen. Wir stellen die SOTA Open-Data-Ettin-Modellsuite vor: gepaarte Encoder-only- und Decoder-only-Modelle mit einer Bandbreite von 17 Millionen bis 1 Milliarde Parametern, trainiert mit bis zu 2 Billionen Tokens. Die Verwendung desselben Rezepts für sowohl Encoder-only- als auch Decoder-only-Modelle führt zu SOTA-Rezepten in beiden Kategorien für ihre jeweiligen Größen, wobei ModernBERT als Encoder und Llama 3.2 sowie SmolLM2 als Decoder übertroffen werden. Wie in früheren Arbeiten festgestellt, zeigen wir, dass Encoder-only-Modelle bei Klassifikations- und Retrieval-Aufgaben hervorragend abschneiden, während Decoder bei generativen Aufgaben glänzen. Allerdings zeigen wir, dass die Anpassung eines Decoder-Modells an Encoder-Aufgaben (und umgekehrt) durch weiteres Training im Vergleich zur ausschließlichen Verwendung des umgekehrten Ziels (d.h. ein 400M-Encoder übertrifft einen 1B-Decoder bei MNLI und umgekehrt bei generativen Aufgaben) unterlegen ist. Wir veröffentlichen alle Artefakte dieser Studie, einschließlich der Trainingsdaten, der nach Checkpoints segmentierten Trainingsreihenfolge und über 200 Checkpoints, um zukünftigen Arbeiten die Möglichkeit zu geben, alle Aspekte des Trainings zu analysieren oder zu erweitern.
Wir stellen Lizard vor, ein Linearisierungsframework, das vortrainierte Transformer-basierte Large Language Models (LLMs) in flexible, subquadratische Architekturen für die Generierung von unendlich langen Kontexten transformiert. Transformer-basierte LLMs stoßen mit zunehmender Kontextlänge auf erhebliche Speicher- und Rechenengpässe, bedingt durch die quadratische Komplexität der Softmax-Attention und den wachsenden Key-Value (KV)-Cache. Lizard adressiert diese Einschränkungen durch die Einführung eines subquadratischen Attention-Mechanismus, der die Softmax-Attention eng approximiert und dabei die Ausgabequalität bewahrt. Im Gegensatz zu früheren Linearisierungsmethoden, die oft durch feste Modellstrukturen begrenzt sind und daher Gating-Mechanismen ausschließen, integriert Lizard ein Gating-Modul, das von aktuellen state-of-the-art linearen Modellen inspiriert ist. Dies ermöglicht eine adaptive Speichersteuerung, unterstützt Inferenz mit konstantem Speicherbedarf, bietet eine starke Längengeneralisierung und erlaubt ein flexibleres Modell-Design. Lizard kombiniert gated lineare Attention für die globale Kontextkompression mit Sliding-Window-Attention, die durch Meta-Speicher erweitert wird, und bildet so einen hybriden Mechanismus, der sowohl langreichweitige Abhängigkeiten als auch fein abgestimmte lokale Interaktionen erfasst. Darüber hinaus führen wir einen hardwarebewussten Algorithmus ein, der die Trainingsgeschwindigkeit unserer Modelle beschleunigt. Umfangreiche Experimente zeigen, dass Lizard eine nahezu verlustfreie Wiederherstellung der Leistung des Lehrermodells über Standard-Sprachmodellierungsaufgaben hinweg erreicht und dabei frühere Linearisierungsmethoden deutlich übertrifft. Auf dem 5-Shot-MMLU-Benchmark verbessert sich Lizard um 18 Punkte gegenüber früheren Modellen und zeigt signifikante Verbesserungen bei Aufgaben zum assoziativen Abruf.
Wir präsentieren SpatialTrackerV2, eine vorwärtsgerichtete Methode zur 3D-Punktverfolgung in monokularen Videos. Im Gegensatz zu modularen Pipelines, die auf Standardkomponenten für die 3D-Verfolgung basieren, vereint unser Ansatz die intrinsischen Verbindungen zwischen Punktverfolgung, monokularer Tiefenschätzung und Kameraposenschätzung in einem leistungsstarken und vorwärtsgerichteten 3D-Punktverfolger. Es zerlegt die 3D-Bewegung im Weltraum in Szenengeometrie, Kameraeigenbewegung und pixelweise Objektbewegung, mit einer vollständig differenzierbaren und end-to-end Architektur, die eine skalierbare Trainierung über eine breite Palette von Datensätzen ermöglicht, einschließlich synthetischer Sequenzen, geposeter RGB-D-Videos und ungelabelter Aufnahmen aus der freien Wildbahn. Durch das gemeinsame Lernen von Geometrie und Bewegung aus solchen heterogenen Daten übertrifft SpatialTrackerV2 bestehende 3D-Verfolgungsmethoden um 30 % und erreicht die Genauigkeit führender dynamischer 3D-Rekonstruktionsansätze bei einer 50-mal schnelleren Ausführungsgeschwindigkeit.
Jüngste Fortschritte in der Videogenerierung, insbesondere bei Diffusionsmodellen, haben bemerkenswerte Fortschritte in der Text-zu-Video (T2V) und Bild-zu-Video (I2V) Synthese vorangetrieben. Dennoch bestehen weiterhin Herausforderungen bei der effektiven Integration dynamischer Bewegungsinformationen und flexibler räumlicher Beschränkungen. Bestehende T2V-Methoden stützen sich typischerweise auf Textanweisungen, die von Natur aus keine präzise Kontrolle über das räumliche Layout des generierten Inhalts bieten. Im Gegensatz dazu sind I2V-Methoden durch ihre Abhängigkeit von realen Bildern eingeschränkt, was die Bearbeitbarkeit des synthetisierten Inhalts begrenzt. Obwohl einige Methoden ControlNet einbeziehen, um bildbasierte Konditionierung einzuführen, fehlt ihnen oft eine explizite Bewegungssteuerung, und sie erfordern rechenintensives Training. Um diese Einschränkungen zu überwinden, schlagen wir AnyI2V vor, ein trainingsfreies Framework, das beliebige konditionale Bilder mit benutzerdefinierten Bewegungspfaden animiert. AnyI2V unterstützt eine breitere Palette von Modalitäten als konditionale Bilder, einschließlich Datentypen wie Meshes und Punktwolken, die von ControlNet nicht unterstützt werden, und ermöglicht so eine flexiblere und vielseitigere Videogenerierung. Darüber hinaus unterstützt es gemischte konditionale Eingaben und ermöglicht Stiltransfer und Bearbeitung via LoRA und Textanweisungen. Umfangreiche Experimente zeigen, dass das vorgeschlagene AnyI2V eine überlegene Leistung erzielt und eine neue Perspektive in der räumlich und bewegungsgesteuerten Videogenerierung bietet. Der Code ist verfügbar unter https://henghuiding.com/AnyI2V/.
Jüngste Fortschritte haben ein neues Paradigma des maschinellen Lernens etabliert, das auf der Skalierung von Rechenleistung sowohl zur Inferenzzeit als auch zur Trainingszeit basiert. In dieser Forschungsrichtung wird eine Kombination aus Supervised Fine-Tuning (SFT) auf synthetischen Demonstrationen und Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verwendet, um große Sprachmodelle so zu trainieren, dass sie zusätzliche Rechenleistung während der Inferenz in Form von „Gedanken“, die in natürlicher Sprache ausgedrückt werden, aufwenden. In diesem Artikel schlagen wir vor, diese Tokens stattdessen als eine mehrstufige Interaktionsspur mit einem zustandsbehafteten Werkzeug zu formatieren. Bei jedem Schritt wird der neue Zustand des Werkzeugs an den Kontext des Modells angehängt, dessen Aufgabe es ist, die Tokens zu generieren, die notwendig sind, um das Werkzeug über eine benutzerdefinierte DSL zu steuern. Wir evaluieren diesen Ansatz anhand des Problems der Reparatur von fehlerhaftem Python-Code und zeigen, dass dieses eingeschränkte Setup eine schnellere Stichprobenentnahme von Erfahrungen und ein dichteres Belohnungssignal ermöglicht, wodurch sogar Modelle mit bis zu 3B Parametern lernen können, zusätzliche Rechenleistung für die Aufgabe effizient einzusetzen.
Reinforcement Learning (RL) für große Sprachmodelle ist ein energieintensives Unterfangen: Das Training kann instabil sein, und die Policy kann sich allmählich von ihren vortrainierten Gewichten entfernen. Wir stellen RLEP vor – Reinforcement Learning mit Experience Replay – ein zweiphasiges Framework, das zunächst verifizierte Trajektorien sammelt und diese dann im weiteren Training wiedergibt. Bei jedem Aktualisierungsschritt wird die Policy auf Mini-Batches optimiert, die neu generierte Rollouts mit diesen wiedergegebenen Erfolgen kombinieren. Durch das Wiedergeben hochwertiger Beispiele lenkt RLEP das Modell von erfolgloser Exploration ab, konzentriert das Lernen auf vielversprechende Lösungswege und erreicht sowohl eine schnellere Konvergenz als auch eine stärkere Endleistung. Beim Qwen2.5-Math-7B-Basismodell erreicht RLEP die Spitzengenauigkeit des Baselines mit deutlich weniger Aktualisierungen und übertrifft sie schließlich, indem die Genauigkeit auf AIME-2024 von 38,2 % auf 39,9 %, auf AIME-2025 von 19,8 % auf 22,3 % und auf AMC-2023 von 77,0 % auf 82,2 % verbessert wird. Unser Code, Datensätze und Checkpoints sind öffentlich unter https://github.com/Kwai-Klear/RLEP verfügbar, um Reproduzierbarkeit und weitere Forschung zu erleichtern.
Dieses Papier präsentiert die Teilnahme von AI Wizards am CLEF 2025 CheckThat! Lab Task 1: Subjektivitätserkennung in Nachrichtenartikeln, bei dem Sätze in monolingualen, multilingualen und Zero-Shot-Szenarien als subjektiv/objektiv klassifiziert wurden. Trainings- und Entwicklungsdatensätze wurden für Arabisch, Deutsch, Englisch, Italienisch und Bulgarisch bereitgestellt; die finale Evaluation umfasste zusätzlich unbekannte Sprachen (z. B. Griechisch, Rumänisch, Polnisch, Ukrainisch), um die Generalisierungsfähigkeit zu bewerten. Unsere primäre Strategie verbesserte transformer-basierte Klassifikatoren durch die Integration von Sentiment-Scores, die von einem Hilfsmodell abgeleitet wurden, mit Satzrepräsentationen, um die Standard-Fine-Tuning-Methode zu übertreffen. Wir untersuchten diese sentiment-erweiterte Architektur mit mDeBERTaV3-base, ModernBERT-base (Englisch) und Llama3.2-1B. Um das klassenübergreifende Ungleichgewicht, das in allen Sprachen vorherrschte, zu adressieren, setzten wir eine Entscheidungsschwellenkalibrierung ein, die auf dem Entwicklungsdatensatz optimiert wurde. Unsere Experimente zeigen, dass die Integration von Sentiment-Features die Leistung signifikant steigert, insbesondere den F1-Score für subjektive Sätze. Dieser Rahmen führte zu hohen Platzierungen, insbesondere zum 1. Platz für Griechisch (Makro-F1 = 0,51).
Die rasche Entwicklung von Softwarebibliotheken stellt eine erhebliche Herausforderung für die Codegenerierung dar, da eine kontinuierliche Anpassung an häufige Versionsaktualisierungen bei gleichzeitiger Wahrung der Abwärtskompatibilität erforderlich ist. Obwohl bestehende Benchmarks zur Codeevolution wertvolle Einblicke bieten, fehlt ihnen in der Regel eine ausführungsbasierte Bewertung für die Generierung von Code, der mit spezifischen Bibliotheksversionen kompatibel ist. Um dies zu adressieren, stellen wir GitChameleon vor, einen neuartigen, sorgfältig kuratierten Datensatz, der 328 Python-Code-Vervollständigungsprobleme umfasst, die jeweils auf bestimmte Bibliotheksversionen konditioniert sind und von ausführbaren Unit-Tests begleitet werden. GitChameleon bewertet rigoros die Fähigkeit zeitgenössischer großer Sprachmodelle (LLMs), LLM-basierter Agenten, Code-Assistenten und RAG-Systeme, versionskonditionierte Codegenerierung durchzuführen, die durch Ausführung funktionale Genauigkeit demonstriert. Unsere umfangreichen Auswertungen zeigen, dass state-of-the-art-Systeme erhebliche Schwierigkeiten mit dieser Aufgabe haben; Unternehmensmodelle erreichen Basis-Erfolgsquoten im Bereich von 48-51\%, was die Komplexität des Problems unterstreicht. Durch die Bereitstellung eines ausführungsbasierten Benchmarks, der die dynamische Natur von Codebibliotheken betont, ermöglicht GitChameleon ein klareres Verständnis dieser Herausforderung und hilft bei der Entwicklung anpassungsfähigerer und zuverlässigerer KI-Methoden zur Codegenerierung. Wir stellen den Datensatz und den Evaluationscode öffentlich unter https://github.com/mrcabbage972/GitChameleonBenchmark zur Verfügung.
Foundation-Multi-Modell-Modelle werden oft durch die Verknüpfung mehrerer bestehender vortrainierter uni-modaler Modelle entworfen: zum Beispiel ein Bildklassifikator mit einem Textmodell. Dieser Verknüpfungsprozess wird durch das Training eines Verbindungsmoduls durchgeführt, das darauf abzielt, die Repräsentationsräume dieser uni-modalen Modelle auf ein multi-modales Ziel auszurichten. Angesichts der Komplexität des Trainings solcher Verbindungsmodule auf groß angelegten, webbasierten Datensätzen sowie der ständig wachsenden Anzahl verfügbarer vortrainierter uni-modaler Modelle wird die Aufgabe der Auswahl uni-modaler Modelle und des anschließenden Trainings des Verbindungsmoduls rechenintensiv. Um dieses bisher wenig erforschte kritische Problem zu lösen, schlagen wir Hypernetwork Model Alignment (Hyma) vor, eine neuartige All-in-One-Lösung für die optimale Auswahl uni-modaler Modelle und das Training von Verbindungsmodulen durch die Nutzung von Hypernetzwerken. Konkret nutzt unser Framework die Parameter-Vorhersagefähigkeit eines Hypernetzwerks, um gemeinsam trainierte Verbindungsmodule für N mal M Kombinationen von uni-modalen Modellen zu erhalten. In unseren Experimenten reduziert Hyma die Kosten für die Suche nach dem bestperformenden uni-modalen Modellpaar um das Zehnfache, während es die Rangfolge und die Leistung der trainierten Verbindungsmodule, die durch eine Grid-Search über eine Reihe von diversen multi-modalen Benchmarks erzielt wurden, erreicht.
Wissensdistillation als effiziente Technik zur Wissensübertragung hat in unimodalen Szenarien bemerkenswerte Erfolge erzielt. In cross-modalen Settings stoßen konventionelle Distillationsmethoden jedoch aufgrund von Daten- und statistischen Heterogenitäten auf erhebliche Herausforderungen und scheitern daran, das komplementäre Vorwissen, das in cross-modalen Lehrermodellen eingebettet ist, zu nutzen. Dieses Papier zeigt empirisch zwei kritische Probleme in bestehenden Ansätzen auf: die Auswahl des Distillationspfads und die Wissensdrift. Um diese Einschränkungen zu überwinden, schlagen wir MST-Distill vor, ein neuartiges Framework für cross-modale Wissensdistillation, das eine Mischung spezialisierter Lehrer-Modelle beinhaltet. Unser Ansatz verwendet ein diverses Ensemble von Lehrermodellen in sowohl cross-modalen als auch multimodalen Konfigurationen, integriert mit einem instanzbasierten Routing-Netzwerk, das eine adaptive und dynamische Distillation ermöglicht. Diese Architektur überwindet effektiv die Beschränkungen traditioneller Methoden, die auf monotonen und statischen Lehrermodellen basieren. Zusätzlich führen wir ein Plug-in-Maskierungsmodul ein, das unabhängig trainiert wird, um modalitätsspezifische Diskrepanzen zu unterdrücken und Lehrer-Repräsentationen zu rekonstruieren, wodurch die Wissensdrift gemildert und die Transferwirksamkeit verbessert wird. Umfangreiche Experimente über fünf diverse multimodale Datensätze, die visuelle, auditive und textuelle Daten umfassen, zeigen, dass unsere Methode bestehende state-of-the-art Wissensdistillationsmethoden in cross-modalen Distillationsaufgaben deutlich übertrifft. Der Quellcode ist unter https://github.com/Gray-OREO/MST-Distill verfügbar.