papers.description
Wir präsentieren Ovis2.5, den Nachfolger von Ovis2, der für native Auflösung in der visuellen Wahrnehmung und starke multimodale Argumentation entwickelt wurde. Ovis2.5 integriert einen Vision-Transformer mit nativer Auflösung, der Bilder in ihrer ursprünglichen, variablen Auflösung verarbeitet, wodurch die Qualitätsminderung durch feste Auflösungs-Kacheln vermieden wird und sowohl feine Details als auch das globale Layout erhalten bleiben – entscheidend für visuell dichte Inhalte wie komplexe Diagramme. Um die Argumentationsfähigkeit zu stärken, trainieren wir das Modell, über lineare Gedankenketten hinauszugehen und Reflexion durchzuführen – einschließlich Selbstüberprüfung und Revision. Diese erweiterte Fähigkeit wird als optionaler „Denkmodus“ zur Inferenzzeit freigegeben, sodass Benutzer Latenz gegen eine verbesserte Genauigkeit bei schwierigen Eingaben eintauschen können. Das Modell wird durch einen umfassenden fünfphasigen Lehrplan trainiert, der seine Fähigkeiten schrittweise aufbaut. Der Prozess beginnt mit grundlegender visueller und multimodaler Vorverarbeitung, schreitet durch groß angelegtes Instruktions-Fine-Tuning fort und gipfelt in der Ausrichtung und Argumentationsverbesserung mittels DPO und GRPO. Um diese Verbesserungen effizient zu skalieren, setzen wir multimodales Datenpacking und hybride Parallelität ein, was eine signifikante End-to-End-Beschleunigung bewirkt. Wir veröffentlichen zwei Open-Source-Modelle: Ovis2.5-9B und Ovis2.5-2B. Letzteres setzt die Philosophie „kleines Modell, große Leistung“ von Ovis2 fort und eignet sich ideal für ressourcenbeschränkte, geräteinterne Szenarien. Auf der OpenCompass-Multimodal-Rangliste erreicht Ovis2.5-9B durchschnittlich 78,3 Punkte, was eine deutliche Verbesserung gegenüber seinem Vorgänger Ovis2-8B darstellt und state-of-the-art Ergebnisse unter Open-Source-MLLMs im Bereich unter 40B Parametern erzielt; Ovis2.5-2B erzielt 73,9 Punkte und setzt damit den Maßstab für seine Größe. Neben den Gesamtbewertungen erzielt Ovis2.5 führende Ergebnisse in STEM-Benchmarks, zeigt starke Fähigkeiten bei Grounding- und Videoaufgaben und erreicht Open-Source-SOTA in seiner Größenordnung für die Analyse komplexer Diagramme.
Das Verständnis von langen Geschichten und Romanen stellt aufgrund ihrer komplexen Handlungsstränge und verflochtenen, oft sich entwickelnden Beziehungen zwischen Charakteren und Entitäten eine anspruchsvolle Domäne dar. Angesichts der eingeschränkten Fähigkeit von Large Language Models (LLMs), über längere Kontexte hinweg zu schlussfolgern, sowie der hohen Rechenkosten spielen retrieverbasierte Ansätze in der Praxis weiterhin eine zentrale Rolle. Traditionelle RAG-Methoden (Retrieval-Augmented Generation) können jedoch aufgrund ihres zustandslosen, einstufigen Retrieval-Prozesses, der oft die dynamische Natur der Erfassung vernetzter Beziehungen innerhalb langreichweitiger Kontexte übersieht, an ihre Grenzen stoßen. In dieser Arbeit schlagen wir ComoRAG vor, das auf dem Prinzip basiert, dass narratives Schließen kein einmaliger Prozess ist, sondern ein dynamisches, sich entwickelndes Zusammenspiel zwischen der Erfassung neuer Beweise und der Konsolidierung vergangenen Wissens, analog zur menschlichen Kognition beim Schließen mit gedächtnisbezogenen Signalen im Gehirn. Konkret durchläuft ComoRAG, wenn es auf ein Schließungsproblem stößt, iterative Schließungszyklen, während es mit einem dynamischen Gedächtnisarbeitsbereich interagiert. In jedem Zyklus generiert es Sondierungsanfragen, um neue Erkundungspfade zu entwickeln, und integriert dann die gefundenen Beweise neuer Aspekte in einen globalen Gedächtnispool, wodurch die Entstehung eines kohärenten Kontexts für die Anfrageauflösung unterstützt wird. Über vier anspruchsvolle Benchmarks für langreichweitige narrative Kontexte (200K+ Tokens) hinweg übertrifft ComoRAG starke RAG-Baselines mit konsistenten relativen Gewinnen von bis zu 11 % im Vergleich zur stärksten Baseline. Weitere Analysen zeigen, dass ComoRAG insbesondere bei komplexen Anfragen, die ein globales Verständnis erfordern, vorteilhaft ist und ein prinzipielles, kognitiv motiviertes Paradigma für retrieverbasiertes Langkontextverständnis hin zu zustandsbehaftetem Schließen bietet. Unser Code ist öffentlich unter https://github.com/EternityJune25/ComoRAG verfügbar.
Wir präsentieren 4DNeX, das erste Feedforward-Framework zur Erzeugung von 4D (d.h. dynamischen 3D) Szenendarstellungen aus einem einzelnen Bild. Im Gegensatz zu bestehenden Methoden, die auf rechenintensive Optimierung angewiesen sind oder Mehrfachbild-Videoeingaben erfordern, ermöglicht 4DNeX eine effiziente, end-to-end Bild-zu-4D-Generierung durch Feinabstimmung eines vortrainierten Video-Diffusionsmodells. Konkret: 1) Um die Knappheit von 4D-Daten zu beheben, erstellen wir 4DNeX-10M, einen groß angelegten Datensatz mit hochwertigen 4D-Annotationen, die mit fortschrittlichen Rekonstruktionsansätzen generiert wurden. 2) Wir führen eine einheitliche 6D-Videodarstellung ein, die RGB- und XYZ-Sequenzen gemeinsam modelliert und so das strukturierte Lernen von sowohl Erscheinungsbild als auch Geometrie erleichtert. 3) Wir schlagen eine Reihe einfacher, aber effektiver Anpassungsstrategien vor, um vortrainierte Video-Diffusionsmodelle für die 4D-Modellierung umzuwidmen. 4DNeX erzeugt hochwertige dynamische Punktwolken, die die Synthese von Videos aus neuen Blickwinkeln ermöglichen. Umfangreiche Experimente zeigen, dass 4DNeX bestehende 4D-Generierungsmethoden in Bezug auf Effizienz und Generalisierbarkeit übertrifft und eine skalierbare Lösung für die Bild-zu-4D-Modellierung bietet. Damit legt es den Grundstein für generative 4D-Weltmodelle, die die Entwicklung dynamischer Szenen simulieren.
Wir schlagen einen neuartigen Ansatz zur Bildgenerierung vor, bei dem ein Bild in eine strukturierte Sequenz zerlegt wird, wobei jedes Element in der Sequenz die gleiche räumliche Auflösung aufweist, sich jedoch in der Anzahl der verwendeten eindeutigen Token unterscheidet, um unterschiedliche Grade visueller Granularität zu erfassen. Die Bildgenerierung erfolgt durch unser neu eingeführtes Next Visual Granularity (NVG) Framework, das eine visuelle Granularitätssequenz ausgehend von einem leeren Bild erzeugt und diese schrittweise, vom globalen Layout bis hin zu feinen Details, in strukturierter Weise verfeinert. Dieser iterative Prozess kodiert eine hierarchische, geschichtete Darstellung, die eine fein abgestimmte Kontrolle über den Generierungsprozess über mehrere Granularitätsebenen hinweg ermöglicht. Wir trainieren eine Reihe von NVG-Modellen für die klassenbedingte Bildgenerierung auf dem ImageNet-Datensatz und beobachten ein klares Skalierungsverhalten. Im Vergleich zur VAR-Serie übertrifft NVG diese durchweg in Bezug auf die FID-Werte (3.30 -> 3.03, 2.57 -> 2.44, 2.09 -> 2.06). Wir führen außerdem umfangreiche Analysen durch, um die Fähigkeiten und das Potenzial des NVG-Frameworks zu demonstrieren. Unser Code und unsere Modelle werden veröffentlicht.
Große Sprachmodelle (LLMs) haben beeindruckende Ergebnisse in den Bereichen Sprachverständnis, -generierung und -logik erzielt und die Fähigkeitsgrenzen multimodaler Modelle erweitert. Transformer-Modelle, die die Grundlage moderner LLMs bilden, bieten eine solide Basis mit hervorragenden Skalierungseigenschaften. Allerdings erfordert die traditionelle Transformer-Architektur erhebliche Rechenressourcen und stellt erhebliche Hindernisse für das Training in großem Maßstab und die praktische Anwendung dar. In dieser Übersichtsarbeit bieten wir eine systematische Untersuchung innovativer LLM-Architekturen, die die inhärenten Einschränkungen von Transformern adressieren und die Effizienz steigern. Ausgehend vom Sprachmodellierungskontext deckt diese Arbeit den Hintergrund und die technischen Details linearer und spärlicher Sequenzmodellierungsmethoden, effizienter Varianten der vollständigen Aufmerksamkeit, spärlicher Mixture-of-Experts, hybrider Modellarchitekturen, die die oben genannten Techniken integrieren, sowie aufkommender diffusionsbasierter LLMs ab. Darüber hinaus diskutieren wir die Anwendungen dieser Techniken auf andere Modalitäten und betrachten ihre weiteren Implikationen für die Entwicklung skalierbarer, ressourcenbewusster Basismodelle. Indem wir aktuelle Studien in die oben genannten Kategorien einordnen, präsentiert diese Übersichtsarbeit einen Leitfaden für moderne effiziente LLM-Architekturen, und wir hoffen, dass dies zukünftige Forschungen hin zu effizienteren, vielseitigeren KI-Systemen motivieren kann.
Große Sprachmodelle (LLMs) sind äußerst empfindlich gegenüber subtilen, nicht-semantischen Variationen in der Formulierung und Formatierung von Prompts. In dieser Arbeit präsentieren wir die erste systematische Evaluierung von 5 Methoden zur Verbesserung der Prompt-Robustheit innerhalb eines einheitlichen experimentellen Rahmens. Wir benchmarken diese Techniken an 8 Modellen aus den Llama-, Qwen- und Gemma-Familien über 52 Aufgaben aus dem Natural Instructions-Datensatz. Unsere Evaluierung umfasst Robustheitsmethoden sowohl aus dem Bereich des Fine-Tunings als auch des In-Context-Lernens und testet deren Generalisierungsfähigkeit gegenüber verschiedenen Arten von Verteilungsverschiebungen. Schließlich erweitern wir unsere Analyse auf GPT-4.1 und DeepSeek V3, um die aktuelle Robustheit von Spitzenmodellen gegenüber Formatstörungen zu bewerten. Unsere Ergebnisse bieten praktische Einblicke in die relative Wirksamkeit dieser Robustheitsmethoden und ermöglichen es Anwendern, fundierte Entscheidungen zu treffen, wenn sie auf stabile und zuverlässige LLM-Leistungen in realen Anwendungen abzielen. Code: https://github.com/AIRI-Institute/when-punctuation-matters.
Classifier-free Guidance (CFG) ist eine weit verbreitete Technik in modernen Diffusionsmodellen, um die Qualität der generierten Proben und die Einhaltung von Eingabeaufforderungen zu verbessern. Durch eine empirische Analyse anhand von Gaußschen Mischungsmodellen mit einer geschlossenen Lösung beobachten wir jedoch eine Diskrepanz zwischen den suboptimalen Ergebnissen, die von CFG erzeugt werden, und der tatsächlichen Wahrheit. Die übermäßige Abhängigkeit des Modells von diesen suboptimalen Vorhersagen führt häufig zu semantischer Inkohärenz und qualitativ minderwertigen Ausgaben. Um dieses Problem zu lösen, zeigen wir zunächst empirisch, dass die suboptimalen Vorhersagen des Modells effektiv mithilfe von Teilnetzwerken des Modells selbst verfeinert werden können. Aufbauend auf dieser Erkenntnis schlagen wir S^2-Guidance vor, eine neuartige Methode, die stochastisches Block-Dropping während des Vorwärtsprozesses nutzt, um stochastische Teilnetzwerke zu konstruieren und das Modell effektiv von potenziell qualitativ schlechten Vorhersagen weg und hin zu hochwertigen Ausgaben zu lenken. Umfangreiche qualitative und quantitative Experimente in den Bereichen Text-zu-Bild- und Text-zu-Video-Generierung zeigen, dass S^2-Guidance eine überlegene Leistung erbringt und dabei konsequent CFG sowie andere fortschrittliche Leitstrategien übertrifft. Unser Code wird veröffentlicht.
Multimodale Modelle haben in den letzten Jahren bemerkenswerte Fortschritte erzielt. Dennoch weisen sie weiterhin erhebliche Einschränkungen im räumlichen Verständnis und in der räumlichen Argumentation auf, die grundlegende Fähigkeiten für die Erreichung einer künstlichen allgemeinen Intelligenz darstellen. Mit der kürzlichen Veröffentlichung von GPT-5, angeblich dem leistungsstärksten KI-Modell bis heute, ist es an der Zeit zu untersuchen, wo die führenden Modelle auf dem Weg zur räumlichen Intelligenz stehen. Zunächst schlagen wir eine umfassende Taxonomie räumlicher Aufgaben vor, die bestehende Benchmarks vereint, und diskutieren die Herausforderungen bei der Sicherstellung einer fairen Bewertung. Anschließend evaluieren wir state-of-the-art proprietäre und Open-Source-Modelle anhand von acht zentralen Benchmarks, wobei die Kosten eine Milliarde Token insgesamt übersteigen. Unsere empirische Studie zeigt, dass (1) GPT-5 eine beispiellose Stärke in der räumlichen Intelligenz demonstriert, jedoch (2) immer noch hinter der menschlichen Leistung über ein breites Spektrum von Aufgaben zurückbleibt. Darüber hinaus identifizieren wir (3) die anspruchsvolleren Probleme der räumlichen Intelligenz für multimodale Modelle, und (4) proprietäre Modelle zeigen keinen entscheidenden Vorteil bei der Bewältigung der schwierigsten Probleme. Zusätzlich führen wir eine qualitative Bewertung über eine Vielzahl von Szenarien durch, die für Menschen intuitiv sind, aber selbst die fortschrittlichsten multimodalen Modelle scheitern lassen.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten bei isolierten, schrittweisen Denkaufgaben wie Mathematik und Programmierung gezeigt, doch ihre Kompetenz in der langfristigen Planung, bei der Lösungen erweiterte, strukturierte Abfolgen voneinander abhängiger Aktionen erfordern, bleibt weitgehend unerforscht. Bestehende Benchmarks bewerten LLMs typischerweise durch abstrakte oder niedrigdimensionale algorithmische Aufgaben, wodurch die Komplexität realistischer Planungsumgebungen nicht erfasst wird. Wir stellen HeroBench vor, einen neuartigen Benchmark, der speziell entwickelt wurde, um langfristige Planung und strukturiertes Denken in komplexen, RPG-inspirierten virtuellen Welten zu bewerten. HeroBench bietet einen sorgfältig konstruierten Datensatz von Aufgaben, die eine breite Palette von Schwierigkeitsgraden abdecken, eine simulierte Umgebung zur Ausführung und Validierung von Agentenplänen sowie detaillierte Analysetools zur Bewertung der Modellleistung. Die Aufgaben fordern Modelle heraus, strategische Pläne zu formulieren, Ressourcen effizient zu sammeln, notwendige Fähigkeiten zu erlernen, Ausrüstung herzustellen und Gegner zu besiegen, wodurch die geschichteten Abhängigkeiten und Einschränkungen praktischer Szenarien widergespiegelt werden. Unsere umfangreiche Evaluierung von 25 state-of-the-art LLMs, darunter sowohl Open-Source- als auch proprietäre Modelle, einschließlich der GPT-5-Familie, zeigt erhebliche Leistungsunterschiede, die in konventionellen Denkbenchmarks selten beobachtet werden. Eine detaillierte Fehleranalyse deckt zudem spezifische Schwächen in der Fähigkeit aktueller Modelle auf, robuste hochrangige Pläne zu generieren und strukturierte Aktionen zuverlässig auszuführen. HeroBench schreitet somit nicht nur die Bewertung des Denkvermögens von LLMs erheblich voran, sondern bietet auch eine flexible, skalierbare Grundlage für zukünftige Forschungen zu fortgeschrittener, autonomer Planung in virtuellen Umgebungen.
Jüngste Fortschritte in der interaktiven Videogenerierung haben das Potenzial von Diffusionsmodellen als Weltmodelle aufgezeigt, indem sie komplexe physikalische Dynamiken und interaktive Verhaltensweisen erfassen. Allerdings basieren bestehende interaktive Weltmodelle auf bidirektionaler Aufmerksamkeit und langwierigen Inferenzschritten, was die Echtzeitleistung erheblich einschränkt. Folglich ist es schwierig, reale Dynamiken zu simulieren, bei denen Ergebnisse sofort basierend auf historischem Kontext und aktuellen Aktionen aktualisiert werden müssen. Um dies zu adressieren, präsentieren wir Matrix-Game 2.0, ein interaktives Weltmodell, das lange Videos in Echtzeit über wenige autoregressive Diffusionsschritte generiert. Unser Framework besteht aus drei Schlüsselkomponenten: (1) Eine skalierbare Datenproduktionspipeline für Unreal Engine und GTA5-Umgebungen, um effektiv große Mengen (etwa 1200 Stunden) an Videodaten mit diversen Interaktionsannotationen zu erzeugen; (2) Ein Aktionsinjektionsmodul, das Maus- und Tastatureingaben auf Frame-Ebene als interaktive Bedingungen ermöglicht; (3) Eine wenige Schritte umfassende Destillation basierend auf einer kausalen Architektur für die Echtzeit- und Streaming-Videogenerierung. Matrix-Game 2.0 kann qualitativ hochwertige Minuten-Videos in diversen Szenen mit einer ultraschnellen Geschwindigkeit von 25 FPS erzeugen. Wir stellen unsere Modellgewichte und Codebasis als Open Source zur Verfügung, um die Forschung im Bereich der interaktiven Weltmodellierung voranzutreiben.
Wir stellen AuriStream vor, ein biologisch inspiriertes Modell zur Kodierung von Sprache über einen zweistufigen Rahmen, der von der menschlichen auditiven Verarbeitungshierarchie inspiriert ist. Die erste Stufe transformiert das Rohaudio in eine Zeit-Frequenz-Darstellung, die auf der menschlichen Cochlea basiert, aus der wir diskrete Cochlea-Token extrahieren. Die zweite Stufe wendet ein autoregressives Sequenzmodell auf die Cochlea-Token an. AuriStream lernt aussagekräftige Phonem- und Wortrepräsentationen sowie state-of-the-art lexikalische Semantik. AuriStream zeigt wettbewerbsfähige Leistungen bei verschiedenen nachgelagerten SUPERB-Sprachaufgaben. Ergänzend zu den starken Repräsentationsfähigkeiten von AuriStream generiert es Fortsetzungen von Audio, die in einem Spektrogrammraum visualisiert und zurück in Audio dekodiert werden können, was Einblicke in die Vorhersagen des Modells bietet. Zusammenfassend präsentieren wir einen zweistufigen Rahmen für das Erlernen von Sprachrepräsentationen, um die Entwicklung menschenähnlicherer Modelle voranzutreiben, die eine Reihe sprachbasierter Aufgaben effizient bewältigen.
Video-Relighting ist eine anspruchsvolle, aber wertvolle Aufgabe, die darauf abzielt, den Hintergrund in Videos zu ersetzen und dabei die Beleuchtung im Vordergrund harmonisch anzupassen. Bei der Übersetzung ist es entscheidend, die ursprünglichen Eigenschaften des Vordergrunds, wie z. B. das Albedo, zu bewahren und eine konsistente Neubeleuchtung über die zeitlichen Frames hinweg zu gewährleisten. In diesem Artikel stellen wir Lumen vor, ein end-to-end Video-Relighting-Framework, das auf groß angelegten Video-Generierungsmodellen basiert und flexible textuelle Beschreibungen zur Steuerung von Beleuchtung und Hintergrund erhält. Angesichts der Knappheit an hochwertigen gepaarten Videos mit demselben Vordergrund unter verschiedenen Lichtbedingungen erstellen wir einen umfangreichen Datensatz, der eine Mischung aus realistischen und synthetischen Videos enthält. Für den synthetischen Bereich nutzen wir die Fülle an 3D-Assets in der Community und setzen eine fortschrittliche 3D-Rendering-Engine ein, um Video-Paare in verschiedenen Umgebungen zu kuratieren. Für den realistischen Bereich passen wir eine HDR-basierte Beleuchtungssimulation an, um den Mangel an gepaarten Videos in natürlichen Umgebungen zu ergänzen. Gestützt auf den genannten Datensatz entwerfen wir ein gemeinsames Trainingsprogramm, um die Stärken jedes Bereichs effektiv zu nutzen, d. h. die physikalische Konsistenz in synthetischen Videos und die generalisierte Domänenverteilung in realistischen Videos. Um dies zu erreichen, integrieren wir einen domänenbewussten Adapter in das Modell, um das Lernen der Neubeleuchtung und der Domänen-Erscheinungsverteilung zu entkoppeln. Wir erstellen einen umfassenden Benchmark, um Lumen zusammen mit bestehenden Methoden aus den Perspektiven der Vordergrundbewahrung und der Video-Konsistenzbewertung zu bewerten. Experimentelle Ergebnisse zeigen, dass Lumen die Eingabe effektiv in kinematisch neu beleuchtete Videos mit konsistenter Beleuchtung und strenger Vordergrundbewahrung bearbeitet. Unsere Projektseite: https://lumen-relight.github.io/
Wir stellen G-CUT3R vor, einen neuartigen Feed-Forward-Ansatz für die geführte 3D-Szenenrekonstruktion, der das CUT3R-Modell durch die Integration von Vorinformationen erweitert. Im Gegensatz zu bestehenden Feed-Forward-Methoden, die sich ausschließlich auf Eingabebilder verlassen, nutzt unser Ansatz zusätzliche Daten wie Tiefeninformationen, Kamerakalibrierungen oder Kamerapositionen, die in realen Szenarien häufig verfügbar sind. Wir schlagen eine leichtgewichtige Modifikation von CUT3R vor, bei der für jede Modalität ein dedizierter Encoder zur Merkmalsextraktion integriert wird. Diese Merkmale werden über Null-Faltung mit RGB-Bild-Tokens fusioniert. Dieses flexible Design ermöglicht die nahtlose Integration beliebiger Kombinationen von Vorinformationen während der Inferenz. In Evaluierungen über mehrere Benchmarks hinweg, einschließlich 3D-Rekonstruktion und anderen Multi-View-Aufgaben, zeigt unser Ansatz signifikante Leistungsverbesserungen und demonstriert seine Fähigkeit, verfügbare Prioritäten effektiv zu nutzen, während die Kompatibilität mit verschiedenen Eingabemodalitäten erhalten bleibt.
Wir präsentieren visuelle Aktionsprompts, eine einheitliche Aktionsrepräsentation für die Aktion-zu-Video-Generierung komplexer Interaktionen mit hohem Freiheitsgrad, während gleichzeitig übertragbare visuelle Dynamiken über Domänen hinweg erhalten bleiben. Die aktionsgesteuerte Videogenerierung steht vor einem Präzisions-Generalisierungs-Dilemma: bestehende Methoden, die Text, primitive Aktionen oder grobe Masken verwenden, bieten Generalisierbarkeit, aber mangelt es an Präzision, während agentenzentrierte Aktionssignale Präzision auf Kosten der domänenübergreifenden Übertragbarkeit bieten. Um Aktionspräzision und dynamische Übertragbarkeit auszugleichen, schlagen wir vor, Aktionen in präzise visuelle Prompts zu „rendern“ als domänenunabhängige Repräsentationen, die sowohl geometrische Präzision als auch domänenübergreifende Anpassungsfähigkeit für komplexe Aktionen bewahren; speziell wählen wir visuelle Skelette aufgrund ihrer Generalisierbarkeit und Zugänglichkeit. Wir schlagen robuste Pipelines vor, um Skelette aus zwei interaktionsreichen Datenquellen zu konstruieren – Mensch-Objekt-Interaktionen (HOI) und geschickte robotische Manipulation –, die ein domänenübergreifendes Training aktionsgesteuerter generativer Modelle ermöglichen. Durch die Integration visueller Skelette in vortrainierte Videogenerierungsmodelle via leichtgewichtiger Feinabstimmung ermöglichen wir präzise Aktionskontrolle komplexer Interaktionen, während das Lernen domänenübergreifender Dynamiken erhalten bleibt. Experimente auf EgoVid, RT-1 und DROID demonstrieren die Effektivität unseres vorgeschlagenen Ansatzes. Projektseite: https://zju3dv.github.io/VAP/.
Traditionelle multimodale Lernansätze erfordern eine kostspielige Alignment-Vortrainierung, um visuelle und sprachliche Modalitäten zu verbinden, wobei typischerweise visuelle Merkmale in diskrete Texttoken-Räume projiziert werden. Wir stellen beide grundlegenden Annahmen dieses Paradigmas in Frage, indem wir Inverse-LLaVA vorschlagen, einen neuartigen Ansatz, der die Alignment-Vortrainierung vollständig eliminiert und gleichzeitig die konventionelle Abbildungsrichtung umkehrt. Anstatt visuelle Merkmale in den Textraum zu projizieren, bildet unsere Methode Text-Embeddings in einen kontinuierlichen visuellen Repräsentationsraum ab und führt die Fusion innerhalb der Zwischenschichten von Transformern durch. Durch selektive additive Komponenten in den Aufmerksamkeitsmechanismen ermöglichen wir eine dynamische Integration von visuellen und textuellen Repräsentationen, ohne massive Bild-Text-Alignment-Datensätze zu benötigen. Umfassende Experimente über neun multimodale Benchmarks zeigen differenzierte Leistungskompromisse: Inverse-LLaVA erzielt bemerkenswerte Verbesserungen bei aufschlussreichen und kognitiven Aufgaben (MM-VET: +0,2 %, VizWiz: +1,8 %, ScienceQA: +0,2 %, kognitives Schlussfolgern: +27,2 %), während erwartete Rückgänge bei Wahrnehmungsaufgaben, die auswendig gelernte visuell-textuelle Assoziationen erfordern, zu verzeichnen sind (Prominentenerkennung: -49,5 %, OCR: -21,3 %). Diese Ergebnisse liefern den ersten empirischen Beweis, dass Alignment-Vortrainierung für effektives multimodales Lernen, insbesondere für komplexe Schlussfolgerungsaufgaben, nicht notwendig ist. Unsere Arbeit etabliert die Machbarkeit eines neuen Paradigmas, das den Rechenbedarf um 45 % reduziert, konventionelle Weisheiten über Modalitätsfusion herausfordert und neue Forschungsrichtungen für effiziente multimodale Architekturen eröffnet, die modalitätsspezifische Eigenschaften bewahren. Unsere Projektwebsite mit Code und zusätzlichen Ressourcen ist verfügbar unter https://inverse-llava.github.io.
Reinforcement Learning from Verifiable Rewards (RLVR) hat sich als ein leistungsstarkes Paradigma zur Verbesserung von Large Language Models (LLMs) etabliert, wie der Erfolg der o-Serie von OpenAI zeigt. Bei RLVR werden Belohnungen aus verifizierbaren Signalen abgeleitet – wie das Bestehen von Unit-Tests in der Code-Generierung oder das Übereinstimmen mit korrekten Antworten in mathematischen Schlussfolgerungen. Obwohl effektiv, beschränkt diese Anforderung RLVR weitgehend auf Domänen mit automatisch überprüfbaren Ergebnissen. Um dies zu überwinden, erweitern wir das RLVR-Paradigma auf offene Aufgaben, indem wir rubrikbasierte Belohnungen integrieren, bei denen sorgfältig gestaltete Rubriken als strukturierte, modellinterpretierbare Kriterien für die automatische Bewertung subjektiver Ausgaben dienen. Wir erstellen, soweit uns bekannt, das bisher größte Rubrik-Belohnungssystem mit über 10.000 Rubriken, die von Menschen, LLMs oder einer hybriden Mensch-LLM-Kollaboration stammen. Die Implementierung von rubrikbasiertem RL ist herausfordernd; wir gehen diese Probleme mit einem klaren Rahmenwerk an und präsentieren ein quelloffenes Qwen-30B-A3B-Modell mit bemerkenswerten Fortschritten: 1) Mit nur 5.000+ Proben verbessert sich unser System um +5,2 % bei offenen Benchmarks (insbesondere in den Geisteswissenschaften) und übertrifft ein 671B DeepSeek-V3-Modell um +2,4 %, während allgemeine und schlussfolgernde Fähigkeiten erhalten bleiben. 2) Unsere Methode bietet eine fein abgestimmte stilistische Kontrolle, indem Rubriken als Anker verwendet werden, um den „KI-artigen“ Ton zu mildern und menschlichere, ausdrucksstärkere Antworten zu erzeugen. Wir teilen wichtige Erkenntnisse in der Rubrikkonstruktion, Datenauswahl und Schulung und diskutieren Einschränkungen sowie zukünftige Veröffentlichungen.
Machine Unlearning (MU) zielt darauf ab, bestimmte Trainingsdaten aus einem trainierten Modell zu entfernen, sodass die entfernten Daten das Verhalten des Modells nicht mehr beeinflussen. Dies erfüllt die Anforderungen des „Rechts auf Vergessenwerden“ gemäß den Datenschutzgesetzen. Wir beobachten jedoch, dass Forscher in diesem schnell wachsenden Feld Schwierigkeiten haben, das Verhalten verschiedener MU-Methoden zu analysieren und zu verstehen, insbesondere im Hinblick auf drei grundlegende Prinzipien von MU: Genauigkeit, Effizienz und Privatsphäre. Infolgedessen verlassen sie sich oft auf aggregierte Metriken und Ad-hoc-Bewertungen, was es schwierig macht, die Kompromisse zwischen den Methoden genau zu bewerten. Um diese Lücke zu schließen, stellen wir ein Visual-Analytics-System vor, den Unlearning Comparator, der die systematische Bewertung von MU-Methoden erleichtern soll. Unser System unterstützt zwei wichtige Aufgaben im Bewertungsprozess: Modellvergleich und Angriffssimulation. Erstens ermöglicht es dem Benutzer, das Verhalten zweier Modelle, wie z. B. eines Modells, das mit einer bestimmten Methode erzeugt wurde, und eines neu trainierten Basismodells, auf Klassen-, Instanz- und Ebenenebene zu vergleichen, um die nach dem Unlearning vorgenommenen Änderungen besser zu verstehen. Zweitens simuliert unser System Membership Inference Attacks (MIAs), um die Privatsphäre einer Methode zu bewerten, bei denen ein Angreifer versucht festzustellen, ob bestimmte Datenproben Teil des ursprünglichen Trainingssets waren. Wir bewerten unser System durch eine Fallstudie, in der wir prominente MU-Methoden visuell analysieren, und zeigen, dass es dem Benutzer nicht nur hilft, das Modellverhalten zu verstehen, sondern auch Einblicke gewährt, die zur Verbesserung von MU-Methoden beitragen können.
Große Reasoning-Modelle (LRMs) haben bemerkenswerte Problemlösungsfähigkeiten in der Mathematik gezeigt, wie durch bestehende Benchmarks ausschließlich für wohl-definierte Probleme bewertet wurde. Eine solche Evaluierungsumgebung stellt jedoch eine kritische Lücke dar, da ein wirklich intelligenter Agent nicht nur Probleme lösen (wie ein Mathe-Quiz-Löser) sollte, sondern auch in der Lage sein muss, Informationen anzufordern, wenn die Probleme unzureichende Informationen enthalten, um Proaktivität bei der Beantwortung von Benutzeranfragen zu ermöglichen. Um diese Lücke zu schließen, schlagen wir einen neuen Datensatz vor, der aus zwei Arten von unvollständigen Problemen mit diversen Kontexten besteht. Basierend auf diesem Datensatz zeigt unsere systematische Evaluierung von LRMs deren Unfähigkeit, proaktiv nach Informationen zu fragen. Darüber hinaus decken wir Verhaltensweisen im Zusammenhang mit Überdenken und Halluzination von LRMs auf und heben das Potenzial und die Herausforderungen des überwachten Feinabstimmens beim Erlernen dieser Fähigkeit hervor. Wir hoffen, neue Einblicke in die Entwicklung von LRMs mit echter Intelligenz zu bieten, anstatt nur Probleme zu lösen.
Wir untersuchen, inwieweit Multimodale Große Sprachmodelle (MLLMs) die Ausrichtung von Eingabebildern, die um 0°, 90°, 180° und 270° gedreht sind, korrekt identifizieren können. Diese Aufgabe erfordert robuste visuelle Fähigkeiten, um Rotationshinweise zu erkennen und räumliche Beziehungen innerhalb der Bilder unabhängig von ihrer Ausrichtung zu kontextualisieren. Um MLLMs hinsichtlich dieser Fähigkeiten zu bewerten, führen wir RotBench ein – einen manuell gefilterten Benchmark mit 350 Bildern, bestehend aus Lifestyle-, Porträt- und Landschaftsaufnahmen. Trotz der relativ einfachen Natur dieser Aufgabe zeigen wir, dass mehrere state-of-the-art offene und proprietäre MLLMs, einschließlich GPT-5, o3 und Gemini-2.5-Pro, die Rotation in Eingabebildern nicht zuverlässig erkennen können. Die Bereitstellung von zusätzlichen Informationen – wie Bildbeschreibungen, Tiefenkarten und mehr – oder die Verwendung von Chain-of-Thought-Prompting führt nur zu geringen und inkonsistenten Verbesserungen. Unsere Ergebnisse zeigen, dass die meisten Modelle Bilder in der korrekten Ausrichtung (0°) zuverlässig identifizieren können, während bestimmte Modelle auch auf dem Kopf stehende Bilder (180°) erkennen können. Keines der Modelle kann jedoch zuverlässig zwischen 90° und 270° unterscheiden. Die gleichzeitige Darstellung des Bildes in verschiedenen Ausrichtungen führt zu moderaten Leistungssteigerungen bei Modellen mit Reasoning-Fähigkeiten, während ein modifiziertes Setup mit Abstimmung die Leistung schwächerer Modelle verbessert. Wir zeigen weiterhin, dass Fine-Tuning die Fähigkeit der Modelle, 90°- und 270°-Rotationen zu unterscheiden, nicht verbessert, obwohl die Identifikation von 180°-Bildern erheblich gesteigert wird. Zusammengenommen offenbaren diese Ergebnisse eine signifikante Lücke zwischen den räumlichen Reasoning-Fähigkeiten von MLLMs und der menschlichen Wahrnehmung bei der Erkennung von Rotationen.