papers.description
Wir stellen unser erstes reflektives generatives Modell MetaStone-S1 vor, das die Leistung von OpenAI o3 durch das selbstüberwachte Prozess-Belohnungsmodell (SPRM) erreicht. Durch die gemeinsame Nutzung des Backbone-Netzwerks und die Verwendung von aufgaben spezifischen Köpfen für die Vorhersage des nächsten Tokens und die Bewertung des Prozesses integriert SPRM erfolgreich das Policy-Modell und das Prozess-Belohnungsmodell (PRM) in eine einheitliche Schnittstelle, ohne zusätzliche Prozessannotationen zu benötigen, und reduziert dabei über 99 % der PRM-Parameter für effizientes Schließen. Ausgestattet mit SPRM eignet sich MetaStone-S1 natürlich für die Skalierung zur Testzeit (TTS), und wir bieten drei Anstrengungsmodi (niedrig, mittel und hoch) basierend auf der kontrollierbaren Denklänge an. Darüber hinaus etablieren wir empirisch ein Skalierungsgesetz, das die Beziehung zwischen der gesamten Denkberechnung und der TTS-Leistung aufzeigt. Experimente zeigen, dass unser MetaStone-S1 mit nur 32B Parametern eine vergleichbare Leistung wie die OpenAI-o3-mini-Serie erzielt. Um die Forschungsgemeinschaft zu unterstützen, haben wir MetaStone-S1 unter https://github.com/MetaStone-AI/MetaStone-S1 quelloffen veröffentlicht.
Die bemerkenswerte Fähigkeit zur logischen Argumentation von großen Sprachmodellen (LLMs) resultiert aus kognitiven Verhaltensweisen, die durch Verstärkung mit überprüfbaren Belohnungen entstehen. Diese Arbeit untersucht, wie dieses Prinzip auf multimodale LLMs (MLLMs) übertragen werden kann, um fortgeschrittene visuelle Argumentation zu ermöglichen. Wir stellen ein zweistufiges Paradigma vor, das auf Qwen2.5-VL-7B basiert: ein umfangreiches linguistisches Cold-Start-Finetuning, gefolgt von multimodalem Reinforcement Learning (RL) über fast 1.000 Schritte, das alle bisherigen Open-Source-Bemühungen in Bezug auf den Umfang übertrifft. Diese bahnbrechende Arbeit offenbart drei grundlegende Erkenntnisse: 1) Der Verhaltenstransfer tritt überraschend früh im Cold Start aufgrund linguistischer mentaler Bilder auf. 2) Der Cold Start speichert visuelle Verhaltensweisen weitgehend, während RL kritisch effektive Muster erkennt und hochskaliert. 3) Der Transfer begünstigt strategisch hochwertige Verhaltensweisen wie visuelle Reflexion. Unser resultierendes Modell, Open-Vision-Reasoner (OVR), erzielt Spitzenleistungen in einer Reihe von Argumentations-Benchmarks, darunter 95,3 % auf MATH500, 51,8 % auf MathVision und 54,6 % auf MathVerse. Wir veröffentlichen unser Modell, die Daten und die Trainingsdynamik, um die Entwicklung leistungsfähigerer, verhaltensangepasster multimodaler Argumentationssysteme zu fördern.
Wir stellen NeuralOS vor, ein neuronales Framework, das grafische Benutzeroberflächen (GUIs) von Betriebssystemen simuliert, indem es Bildschirmframes direkt als Reaktion auf Benutzereingaben wie Mausbewegungen, Klicks und Tastaturereignisse vorhersagt. NeuralOS kombiniert ein rekurrentes neuronales Netzwerk (RNN), das den Computerzustand verfolgt, mit einem diffusionsbasierten neuronalen Renderer, der Bildschirmbilder erzeugt. Das Modell wird auf einem umfangreichen Datensatz von Ubuntu XFCE-Aufnahmen trainiert, die sowohl zufällig generierte Interaktionen als auch realistische Interaktionen, die von KI-Agenten erzeugt wurden, enthalten. Experimente zeigen, dass NeuralOS erfolgreich realistische GUI-Sequenzen rendert, Mausinteraktionen präzise erfasst und Zustandsübergänge wie das Starten von Anwendungen zuverlässig vorhersagt. Obwohl die präzise Modellierung feingranularer Tastaturinteraktionen nach wie vor eine Herausforderung darstellt, bietet NeuralOS einen Schritt in Richtung der Schaffung vollständig adaptiver, generativer neuronaler Schnittstellen für zukünftige Mensch-Computer-Interaktionssysteme.
Indem wir die leistungsstarken Repräsentationen vortrainierter visueller Basismodelle nutzen – traditionell für das visuelle Verständnis eingesetzt – erkunden wir eine neuartige Richtung: den Aufbau eines Bild-Tokenizers direkt auf der Grundlage solcher Modelle, ein bisher weitgehend unerforschtes Gebiet. Konkret verwenden wir ein eingefrorenes visuelles Basismodell als Encoder unseres Tokenizers. Um dessen Effektivität zu steigern, führen wir zwei Schlüsselkomponenten ein: (1) ein regionsadaptives Quantisierungsframework, das Redundanzen in den vortrainierten Merkmalen auf regulären 2D-Gittern reduziert, und (2) ein semantisches Rekonstruktionsziel, das die Ausgaben des Tokenizers mit den Repräsentationen des Basismodells abstimmt, um die semantische Treue zu bewahren. Basierend auf diesen Konzepten erreicht unser vorgeschlagener Bild-Tokenizer, VFMTok, erhebliche Verbesserungen in der Bildrekonstruktion und Generierungsqualität, während gleichzeitig die Token-Effizienz gesteigert wird. Er verbessert zudem die autoregressive (AR) Generierung – mit einem gFID von 2,07 auf ImageNet-Benchmarks, beschleunigt die Modellkonvergenz um das Dreifache und ermöglicht eine hochpräzise klassenkonditionale Synthese ohne die Notwendigkeit einer klassifikatorfreien Führung (CFG). Der Code wird öffentlich freigegeben, um der Gemeinschaft zugutekommen.
Dieses Papier stellt einen neuronalen Rendering-Ansatz vor, der eine Szene als „komprimierte Lichtfeld-Tokens (CLiFTs)“ repräsentiert und dabei reichhaltige Erscheinungs- und geometrische Informationen der Szene beibehält. CLiFT ermöglicht recheneffizientes Rendering durch komprimierte Tokens, während es gleichzeitig in der Lage ist, die Anzahl der Tokens zur Darstellung einer Szene zu ändern oder eine neue Ansicht mit einem trainierten Netzwerk zu rendern. Konkret tokenisiert ein Multi-View-Encoder bei einer gegebenen Menge von Bildern die Bilder zusammen mit den Kameraposen. Latent-Space-K-means wählt eine reduzierte Menge von Strahlen als Clusterzentroide unter Verwendung der Tokens aus. Der Multi-View-„Kondensator“ komprimiert die Informationen aller Tokens in die Zentroid-Tokens, um CLiFTs zu konstruieren. Zum Testzeitpunkt sammelt das System bei einer gegebenen Zielansicht und einem Rechenbudget (d.h. der Anzahl der CLiFTs) die angegebene Anzahl benachbarter Tokens und synthetisiert eine neue Ansicht mit einem rechenadaptiven Renderer. Umfangreiche Experimente auf den Datensätzen RealEstate10K und DL3DV validieren unseren Ansatz quantitativ und qualitativ, erreichen eine signifikante Datenreduktion bei vergleichbarer Rendering-Qualität und der höchsten Gesamt-Rendering-Bewertung, während sie Kompromisse zwischen Datengröße, Rendering-Qualität und Rendering-Geschwindigkeit bieten.
In diesem Bericht stellen wir die Gemini 2.X-Modellfamilie vor: Gemini 2.5 Pro und Gemini 2.5 Flash sowie unsere früheren Modelle Gemini 2.0 Flash und Flash-Lite. Gemini 2.5 Pro ist unser leistungsfähigstes Modell bisher und erreicht Spitzenwerte (SoTA) in Benchmark-Tests für fortgeschrittene Codierung und logisches Denken. Neben seinen beeindruckenden Fähigkeiten in den Bereichen Codierung und logisches Denken ist Gemini 2.5 Pro ein Denkmodell, das sich durch multimodales Verständnis auszeichnet und nun in der Lage ist, bis zu 3 Stunden Videomaterial zu verarbeiten. Seine einzigartige Kombination aus langem Kontext, multimodalen Fähigkeiten und logischem Denken kann genutzt werden, um neue agentenbasierte Arbeitsabläufe zu ermöglichen. Gemini 2.5 Flash bietet hervorragende Fähigkeiten im logischen Denken bei deutlich geringeren Rechen- und Latenzanforderungen, während Gemini 2.0 Flash und Flash-Lite hohe Leistung bei niedriger Latenz und Kosten bieten. Zusammengenommen deckt die Gemini 2.X-Modellgeneration die gesamte Pareto-Front der Modellfähigkeit im Vergleich zu den Kosten ab und ermöglicht es Nutzern, die Grenzen des Möglichen bei der Lösung komplexer agentenbasierter Probleme zu erkunden.
Wir schlagen Cache-Steuerung vor, eine leichtgewichtige Methode zur impliziten Steuerung von Sprachmodellen durch eine einmalige Intervention, die direkt auf den Schlüssel-Wert-Cache angewendet wird. Um ihre Wirksamkeit zu validieren, wenden wir Cache-Steuerung an, um Kettenfolge-Denken in kleinen Sprachmodellen zu induzieren. Unser Ansatz nutzt von GPT-4o generierte Denkspuren, um Steuerungsvektoren zu konstruieren, die das Modellverhalten in Richtung expliziteren, mehrstufigen Denkens verschieben, ohne Feinabstimmung oder Änderungen an den Eingabeaufforderungen vorzunehmen. Experimentelle Auswertungen auf verschiedenen Denk-Benchmarks zeigen, dass Cache-Steuerung sowohl die qualitative Struktur des Modell-Denkens als auch die quantitative Aufgabenleistung verbessert. Im Vergleich zu früheren Aktivierungssteuerungstechniken, die kontinuierliche Interventionen erfordern, bietet unsere einmalige Cache-Steuerung erhebliche Vorteile in Bezug auf Hyperparameter-Stabilität, Inferenz-Effizienz und Integrationsfreundlichkeit, was sie zu einer robusteren und praktischeren Lösung für kontrollierte Generierung macht.
Autoregressive große Sprachmodelle (LLMs) haben eine Vielzahl von Sprachaufgaben vereinheitlicht und damit erste Bemühungen in der autoregressiven Videogenerierung inspiriert. Bestehende autoregressive Videogeneratoren weichen entweder von den Standard-LLM-Architekturen ab, sind auf umfangreiche externe Textkodierer angewiesen oder verursachen aufgrund der nächsten Token-Decodierung eine unzumutbare Latenz. In diesem Artikel stellen wir Lumos-1 vor, einen autoregressiven Videogenerator, der die LLM-Architektur mit minimalen architektonischen Anpassungen beibehält. Um räumlich-zeitliche Korrelationen in LLMs einzubringen, identifizieren wir die Wirksamkeit der Einbindung von 3D-RoPE und diagnostizieren dessen unausgewogene Frequenzspektrumbereiche. Daher schlagen wir MM-RoPE vor, ein RoPE-Schema, das das ursprüngliche textuelle RoPE bewahrt, während es umfassende Frequenzspektren und skalierte 3D-Positionen für die Modellierung multimodaler räumlich-zeitlicher Daten bereitstellt. Darüber hinaus greift Lumos-1 auf eine Token-Abhängigkeitsstrategie zurück, die die bidirektionale Intra-Frame- und die zeitliche Kausalität der Inter-Frame-Abhängigkeit befolgt. Basierend auf dieser Abhängigkeitsstrategie identifizieren wir das Problem des Frame-weisen Verlustungleichgewichts, das durch räumliche Informationsredundanz verursacht wird, und lösen es durch die Einführung von Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF führt während des Trainings eine zeitliche Röhrenmaskierung mit einer kompatiblen Inferenzzeit-Maskierungsrichtlinie ein, um eine Qualitätsverschlechterung zu vermeiden. Durch den Einsatz von speichereffizienten Trainingstechniken pre-trainieren wir Lumos-1 auf nur 48 GPUs und erreichen eine Leistung, die mit EMU3 auf GenEval, COSMOS-Video2World auf VBench-I2V und OpenSoraPlan auf VBench-T2V vergleichbar ist. Code und Modelle sind unter https://github.com/alibaba-damo-academy/Lumos verfügbar.
Generative Belohnungsmodelle (auch bekannt als LLMs-as-judges), die große Sprachmodelle (LLMs) zur Bewertung der Antwortqualität verwenden, werden zunehmend im Bereich des Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) eingesetzt. Sie werden oft starren regelbasierten Metriken vorgezogen, insbesondere bei komplexen Denkaufgaben, die freiformulierte Ausgaben beinhalten. In diesem Paradigma wird ein LLM typischerweise dazu aufgefordert, eine Kandidatenantwort mit einer Referenzlösung zu vergleichen und eine binäre Belohnung zuzuweisen, die die Korrektheit anzeigt. Trotz der scheinbaren Einfachheit dieser Vergleichsaufgabe stellen wir fest, dass generative Belohnungsmodelle überraschende Anfälligkeiten gegenüber oberflächlichen Manipulationen aufweisen: Nicht-Wort-Symbole (z. B. „:“ oder „.“) oder Denkanstöße wie „Denkprozess:“ und „Lassen Sie uns dieses Problem Schritt für Schritt lösen.“ können oft zu falsch positiven Belohnungen führen. Wir zeigen, dass diese Schwäche weit verbreitet ist und verschiedene LLMs, Datensätze und Prompt-Formate betrifft, was eine ernsthafte Bedrohung für zentrale algorithmische Paradigmen darstellt, die auf generativen Belohnungsmodellen basieren, wie z. B. Rejection Sampling, Präferenzoptimierung und RLVR. Um dieses Problem zu mildern, führen wir eine einfache, aber effektive Datenaugmentationsstrategie ein und trainieren ein neues generatives Belohnungsmodell mit deutlich verbesserter Robustheit. Unsere Ergebnisse unterstreichen die dringende Notwendigkeit für zuverlässigere LLM-basierte Evaluierungsmethoden. Wir veröffentlichen unser robustes, allgemein anwendbares Belohnungsmodell und dessen synthetische Trainingsdaten unter https://huggingface.co/sarosavo/Master-RM und https://huggingface.co/datasets/sarosavo/Master-RM.
Traditionelle Bildbearbeitung beruht typischerweise auf manuellen Eingaben, was sie arbeitsintensiv und für Personen mit eingeschränkter motorischer Kontrolle oder Sprachfähigkeiten unzugänglich macht. Unter Nutzung der jüngsten Fortschritte in der Gehirn-Computer-Schnittstellen-Technologie (BCIs) und generativen Modellen schlagen wir LoongX vor, einen berührungsfreien Ansatz zur Bildbearbeitung, der durch multimodale neurophysiologische Signale gesteuert wird. LoongX verwendet modernste Diffusionsmodelle, die auf einem umfassenden Datensatz von 23.928 Bildbearbeitungspaaren trainiert wurden, wobei jedes Paar mit synchronisierten Elektroenzephalographie- (EEG), funktioneller Nahinfrarotspektroskopie- (fNIRS), Photoplethysmographie- (PPG) und Kopfbewegungssignalen verknüpft ist, die die Benutzerabsicht erfassen. Um die Heterogenität dieser Signale effektiv zu bewältigen, integriert LoongX zwei Schlüsselmodule. Das Cross-Scale State Space (CS3)-Modul kodiert informative, modalitätsspezifische Merkmale. Das Dynamic Gated Fusion (DGF)-Modul aggregiert diese Merkmale weiter in einen einheitlichen latenten Raum, der dann durch Feinabstimmung auf einem Diffusions-Transformer (DiT) mit Bearbeitungssemantik abgeglichen wird. Zusätzlich trainieren wir die Encoder mittels kontrastiven Lernens vor, um kognitive Zustände mit semantischen Absichten aus eingebetteter natürlicher Sprache abzugleichen. Umfangreiche Experimente zeigen, dass LoongX eine Leistung erzielt, die mit textgesteuerten Methoden vergleichbar ist (CLIP-I: 0,6605 vs. 0,6558; DINO: 0,4812 vs. 0,4636) und diese übertrifft, wenn neuronale Signale mit Sprache kombiniert werden (CLIP-T: 0,2588 vs. 0,2549). Diese Ergebnisse unterstreichen das Potenzial neuronal gesteuerter generativer Modelle, zugängliche und intuitive Bildbearbeitung zu ermöglichen, und eröffnen neue Richtungen für kognitiv gesteuerte Kreativtechnologien. Datensätze und Code werden veröffentlicht, um zukünftige Arbeiten zu unterstützen und den Fortschritt in diesem aufstrebenden Bereich zu fördern.
Jüngste Fortschritte in der 3D-Generierung haben sich von Multi-View-2D-Rendering-Ansätzen zu 3D-nativen latenten Diffusionsframeworks entwickelt, die geometrische Prioritäten in Ground-Truth-Daten nutzen. Trotz dieser Fortschritte bestehen drei wesentliche Einschränkungen fort: (1) Einzelne latente Repräsentationen erfassen komplexe mehrteilige Geometrien nicht ausreichend, was zu Detailverlusten führt; (2) Holistische latente Kodierungen vernachlässigen die Teileunabhängigkeit und -beziehungen, die für das kompositionelle Design entscheidend sind; (3) Globale Konditionierungsmechanismen bieten keine feinkörnige Steuerbarkeit. Inspiriert von menschlichen 3D-Design-Workflows schlagen wir CoPart vor – ein teilbewusstes Diffusionsframework, das 3D-Objekte in kontextuelle Teil-Latents zerlegt, um eine kohärente Mehrteil-Generierung zu ermöglichen. Dieses Paradigma bietet drei Vorteile: i) Reduzierung der Kodierungskomplexität durch Teilzerlegung; ii) Explizite Modellierung von Teilbeziehungen; iii) Unterstützung von teilbezogener Konditionierung. Wir entwickeln weiterhin eine gegenseitige Leitstrategie, um vortrainierte Diffusionsmodelle für die gemeinsame Entrauschung von Teil-Latents zu verfeinern, wodurch sowohl geometrische Kohärenz als auch Prioritäten des Foundation-Modells sichergestellt werden. Um ein groß angelegtes Training zu ermöglichen, erstellen wir Partverse – einen neuartigen 3D-Teildatensatz, der aus Objaverse durch automatisierte Mesh-Segmentierung und menschlich verifizierte Annotationen abgeleitet wird. Umfangreiche Experimente demonstrieren die überlegenen Fähigkeiten von CoPart in der teilbezogenen Bearbeitung, der Generierung artikulierter Objekte und der Szenenkomposition mit bisher unerreichter Steuerbarkeit.
Um die rechenintensive Belastung großer Sprachmodelle (LLMs) zu verringern, haben Architekturen mit Aktivierungssparsität, repräsentiert durch Mixture-of-Experts (MoE), zunehmend Aufmerksamkeit erregt. Allerdings beeinträchtigt das nicht-differenzierbare und unflexible Routing von herkömmlichen MoE-Modellen die Modellleistung. Darüber hinaus aktivieren, obwohl jedes Token nur wenige Parameter aktiviert, diese spärlich aktivierten Architekturen eine geringe Chunk-Level-Sparsity, was darauf hinweist, dass die Vereinigung mehrerer aufeinanderfolgender Token einen großen Anteil der Parameter aktiviert. Ein solches Sparsity-Muster ist für die Beschleunigung unter ressourcenarmen Bedingungen (z. B. Endgeräte) ungeeignet und inkompatibel mit gängigen Beschleunigungstechniken (z. B. spekulatives Decodieren). Um diese Herausforderungen zu bewältigen, führen wir eine neuartige MoE-Architektur, BlockFFN, sowie effiziente Trainings- und Bereitstellungstechniken ein. Insbesondere verwenden wir einen Router, der ReLU-Aktivierung und RMSNorm integriert, um differenzierbares und flexibles Routing zu ermöglichen. Um sowohl Token-Level-Sparsity (TLS) als auch Chunk-Level-Sparsity (CLS) zu fördern, werden CLS-bewusste Trainingsziele entworfen, wodurch BlockFFN beschleunigungsfreundlicher wird. Schließlich implementieren wir effiziente Beschleunigungskerne, die erstmals Aktivierungssparsität und spekulatives Decodieren kombinieren. Die experimentellen Ergebnisse demonstrieren die überlegene Leistung von BlockFFN gegenüber anderen MoE-Baselines, mit über 80 % TLS und 70 % 8-Token-CLS. Unsere Kerne erreichen auf realen Endgeräten eine bis zu 3,67-fache Beschleunigung im Vergleich zu dichten Modellen. Alle Codes und Checkpoints sind öffentlich verfügbar (https://github.com/thunlp/BlockFFN).
Wir präsentieren Audio Flamingo 3 (AF3), ein vollständig offenes, state-of-the-art (SOTA) großes Audio-Sprach-Modell, das das Denken und Verständnis über Sprache, Klang und Musik hinweg vorantreibt. AF3 führt ein: (i) AF-Whisper, einen einheitlichen Audio-Encoder, der mit einer neuartigen Strategie für gemeinsames Repräsentationslernen über alle drei Modalitäten Sprache, Klang und Musik trainiert wurde; (ii) flexibles, bedarfsgesteuertes Denken, das es dem Modell ermöglicht, Ketten von Gedanken (Chain-of-Thought) zu bilden, bevor es antwortet; (iii) mehrschrittige, mehrfache Audio-Chats; (iv) Langzeit-Audio-Verständnis und -Denken (einschließlich Sprache) von bis zu 10 Minuten; und (v) Stimme-zu-Stimme-Interaktion. Um diese Fähigkeiten zu ermöglichen, schlagen wir mehrere groß angelegte Trainingsdatensätze vor, die mit neuartigen Strategien kuratiert wurden, darunter AudioSkills-XL, LongAudio-XL, AF-Think und AF-Chat, und trainieren AF3 mit einer neuartigen, fünfstufigen, lehrplanbasierten Trainingsstrategie. AF3, das ausschließlich auf Open-Source-Audio-Daten trainiert wurde, erzielt neue SOTA-Ergebnisse in über 20+ (langen) Audio-Verständnis- und Denk-Benchmarks und übertrifft sowohl Open-Weight- als auch Closed-Source-Modelle, die auf viel größeren Datensätzen trainiert wurden.
Foundation Models basieren auf der Idee, dass Sequenzvorhersagen ein tieferes Verständnis eines Domänenbereichs offenbaren können, ähnlich wie Keplers Vorhersagen der Planetenbewegungen später zur Entdeckung der Newtonschen Mechanik führten. Die Bewertung, ob diese Modelle tatsächlich eine tiefere Struktur erfassen, bleibt jedoch eine Herausforderung. Wir entwickeln eine Technik zur Bewertung von Foundation Models, die untersucht, wie sie sich an synthetische Datensätze anpassen, die aus einem postulierten Weltmodell generiert wurden. Unsere Technik misst, ob der induktive Bias des Foundation Models mit dem Weltmodell übereinstimmt, und bezeichnen sie daher als eine induktive Bias-Sonde. Über mehrere Domänen hinweg stellen wir fest, dass Foundation Models zwar in ihren Trainingsaufgaben exzellente Leistungen erbringen können, jedoch oft keine induktiven Biases gegenüber dem zugrunde liegenden Weltmodell entwickeln, wenn sie an neue Aufgaben angepasst werden. Insbesondere beobachten wir, dass Foundation Models, die auf Bahntrajektorien trainiert wurden, konsequent versagen, die Newtonsche Mechanik bei der Anpassung an neue physikalische Aufgaben anzuwenden. Eine weitergehende Analyse zeigt, dass sich diese Modelle so verhalten, als ob sie aufgabenspezifische Heuristiken entwickeln, die nicht verallgemeinerbar sind.
Trotz der beeindruckenden Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) in visuell-sprachlichen Aufgaben neigen sie in realen Szenarien zu Halluzinationen. Diese Arbeit untersucht das Phänomen der Halluzination in MLLMs aus der Perspektive des Modalitätenkonflikts. Im Gegensatz zu bestehenden Arbeiten, die sich auf die Konflikte zwischen Modellantworten und Eingaben konzentrieren, untersuchen wir die inhärenten Konflikte in Eingaben aus verschiedenen Modalitäten, die MLLMs in ein Dilemma versetzen und direkt zu Halluzinationen führen. Wir definieren den Modalitätenkonflikt formal und erstellen einen Datensatz namens Multimodal Modality Conflict (MMMC), um dieses Phänomen in visuell-sprachlichen Aufgaben zu simulieren. Drei Methoden basierend auf Prompt-Engineering, überwachtem Feinabgleich und bestärkendem Lernen werden vorgeschlagen, um die durch Modalitätenkonflikt verursachten Halluzinationen zu mildern. Umfangreiche Experimente werden auf dem MMMC-Datensatz durchgeführt, um die Vor- und Nachteile dieser Methoden zu analysieren. Unsere Ergebnisse zeigen, dass die Methode des bestärkenden Lernens die beste Leistung bei der Minderung von Halluzinationen unter Modalitätenkonflikt erzielt, während die Methode des überwachten Feinabgleichs vielversprechende und stabile Leistungen zeigt. Unsere Arbeit beleuchtet den unbeachteten Modalitätenkonflikt, der zu Halluzinationen führt, und liefert weitere Einblicke in die Robustheit von MLLMs.
Die Erkennung von Schlüsselpunkten, ein zentraler Bestandteil der modernen maschinellen Wahrnehmung, steht vor Herausforderungen im Bereich des Few-Shot-Lernens, insbesondere wenn Quelldaten aus derselben Verteilung wie die Abfrage nicht verfügbar sind. Diese Lücke wird durch die Nutzung von Skizzen, einer beliebten Form menschlichen Ausdrucks, als quellenfreie Alternative geschlossen. Allerdings ergeben sich Schwierigkeiten bei der Beherrschung von cross-modalen Einbettungen und der Handhabung benutzerspezifischer Skizzenstile. Unser vorgeschlagenes Framework überwindet diese Hürden durch eine prototypische Einrichtung, kombiniert mit einem rasterbasierten Lokalisator und prototypischer Domänenanpassung. Wir zeigen zudem durch umfangreiche Experimente Erfolge bei der Few-Shot-Konvergenz über neue Schlüsselpunkte und Klassen hinweg.
Modellkompression bietet einen vielversprechenden Ansatz, um die Kosten und die Unzugänglichkeit großer vortrainierter Modelle zu reduzieren, ohne deren beeindruckende Leistung signifikant zu beeinträchtigen. Große Transformer-Modelle, einschließlich großer Sprachmodelle (LLMs), enthalten oft rechnerische Redundanzen, die als Ziel für neue Modellkompressionsmethoden dienen können. In dieser Arbeit konzentrieren wir uns speziell auf Neuron-Redundanzen in Modellschichten, indem wir Gruppen ähnlicher Neuronen in weniger Neuronen zusammenfassen. Wir formulieren diese Breitenreduktion als ein Problem des Diskreten Optimalen Transports und schlagen DOTResize vor, eine neuartige Transformer-Kompressionsmethode, die die Theorie des Optimalen Transports nutzt, um Modellgewichte zu transformieren und zu komprimieren. Um die Anwendbarkeit innerhalb der Transformer-Architektur zu gewährleisten, integrieren wir entropische Regularisierung und Matrixfaktorisierung in die von unserer Methode erzeugten Transportabbildungen. Im Gegensatz zu beschneidungsbasierten Ansätzen, die Neuronen basierend auf Wichtigkeitsmaßen verwerfen, projiziert DOTResize die gesamte Neuronbreite neu, wodurch die Beibehaltung und Umverteilung nützlicher Signale über die reduzierte Schicht ermöglicht wird. Empirische Ergebnisse zeigen, dass DOTResize im Vergleich zu einfachen oder state-of-the-art Neuronbreiten-Beschneidungstechniken diese Methoden über mehrere LLM-Familien und -Größen hinweg übertreffen kann, während gleichzeitig messbare Reduktionen der realen Rechenkosten erreicht werden.