papers.description
Während Large Multimodal Models (LMMs) bedeutende Fortschritte erzielt haben, bleiben sie weitgehend textzentriert und stützen sich auf Sprache als ihre zentrale Reasoning-Modalität. Infolgedessen sind ihre Fähigkeiten bei Reasoning-Aufgaben, die überwiegend visuell geprägt sind, eingeschränkt. Neuere Ansätze versuchen dies zu adressieren, indem sie Zwischenschritte im visuellen Bereich mit Hilfsbildern, Tiefenkarten oder Bildausschnitten überwachen. Diese Strategien setzen jedoch restriktive Annahmen darüber voraus, wie "nützliche" visuelle Abstraktionen auszusehen haben, verursachen hohe Annotationskosten und generalisieren nur schlecht über verschiedene Aufgaben hinweg. Um diese entscheidende Einschränkung zu überwinden, schlagen wir einen aufgabenagnostischen Mechanismus vor, der LMMs trainiert, visuelle Reasoning-Tokens ohne explizite Überwachung zu entdecken und zu nutzen. Diese Tokens agieren global und rekodieren das Bild auf eine aufgabenadaptive Weise, was dem Modell ermöglicht, relevante visuelle Informationen ohne manuell erstellte Supervision zu extrahieren. Unser Ansatz übertrifft direktes Fine-Tuning und erzielt state-of-the-art Ergebnisse bei einer Vielzahl visuell zentrierter Aufgaben – einschließlich solcher, bei denen Zwischenabstraktionen schwer zu spezifizieren sind – und generalisiert zugleich beim Multi-Task-Instruction-Tuning.
Große autoregressive Modelle, die auf Next-Token-Prediction vortrainiert und mit Reinforcement Learning (RL) feinabgestimmt wurden, haben in vielen Problemdomänen beispiellose Erfolge erzielt. Während des RL erkunden diese Modelle durch die Generierung neuer Ausgaben, jeweils ein Token auf einmal. Das schrittweise Sampling von Aktionen Token für Token kann jedoch zu sehr ineffizientem Lernen führen, insbesondere bei spärlichen Belohnungen. Hier zeigen wir, dass es möglich ist, dieses Problem zu überwinden, indem innerhalb der internen Repräsentationen eines autoregressiven Modells gehandelt und erkundet wird. Um zeitlich abstrakte Aktionen zu entdecken, führen wir speziell ein höhergradiges, nicht-kausales Sequenzmodell ein, dessen Ausgaben die Aktivierungen im Residual Stream eines Basis-autoregressiven Modells steuern. In Grid-World- und MuJoCo-basierten Aufgaben mit hierarchischer Struktur stellen wir fest, dass das höhergradige Modell lernt, lange Aktivierungssequenz-Abschnitte auf interne Controller abzubilden. Entscheidend ist, dass jeder Controller eine Sequenz von verhaltensmäßig bedeutsamen Aktionen ausführt, die sich über lange Zeitskalen erstrecken und von einer gelernten Beendigungsbedingung begleitet werden, sodass die Zusammensetzung mehrerer Controller über die Zeit zu effizienter Erkundung bei neuen Aufgaben führt. Wir zeigen, dass direkte interne Verstärkung der Controller – ein Prozess, den wir als "internes RL" bezeichnen – Lernen aus spärlichen Belohnungen in Fällen ermöglicht, in denen standardmäßiges RL-Finetuning versagt. Unsere Ergebnisse demonstrieren die Vorteile latenter Aktionsgenerierung und -verstärkung in autoregressiven Modellen und legen internes RL als einen vielversprechenden Ansatz nahe, um hierarchisches RL innerhalb von Foundation Models zu realisieren.
Bestehende Videogenerierungsmodelle haben Schwierigkeiten, langfristige räumliche und zeitliche Konsistenz aufgrund der dichten, hochdimensionalen Natur von Videosignalen aufrechtzuerhalten. Um diese Einschränkung zu überwinden, schlagen wir Spatia vor, ein räumlich speicherbasiertes Videogenerierungsframework, das explizit eine 3D-Szenenpunktwolke als persistenten räumlichen Speicher erhält. Spatia generiert iterativ Videoclips, die auf diesem räumlichen Speicher basieren, und aktualisiert diesen kontinuierlich durch visuelle SLAM. Dieses Design zur Trennung von Dynamischem und Statischem verbessert die räumliche Konsistenz während des gesamten Generierungsprozesses und bewahrt gleichzeitig die Fähigkeit des Modells, realistische dynamische Entitäten zu erzeugen. Darüber hinaus ermöglicht Spatia Anwendungen wie explizite Kamerasteuerung und 3D-bewusste interaktive Bearbeitung und bietet somit einen geometrisch fundierten Rahmen für skalierbare, speichergesteuerte Videogenerierung.
Große Sprachmodelle legen zunehmend Denkspuren offen, doch ihre zugrundeliegende kognitive Struktur und einzelne Schritte bleiben jenseits oberflächlicher Statistiken schwer zu identifizieren und zu analysieren. Wir adaptieren Schoenfelds Episodentheorie als induktive, mittlermaßstäbliche Betrachtungsebene und führen ThinkARM (Anatomy of Reasoning in Models) ein, einen skalierbaren Rahmen, der Denkspuren explizit in funktionale Denkschritte abstrahiert, wie Analyse, Exploration, Implementierung, Verifikation etc. Bei der Anwendung auf mathematische Problemlösungen verschiedener Modelle zeigt diese Abstraktion reproduzierbare Denkdynamiken und strukturelle Unterschiede zwischen Modellen mit und ohne Reasoning-Fähigkeiten, die auf Token-Ebene nicht ersichtlich sind. Wir präsentieren weiterhin zwei diagnostische Fallstudien, die zeigen, dass Exploration als kritischer Verzweigungsschritt fungiert, der mit Korrektheit assoziiert ist, und dass effizienzorientierte Methoden evaluative Feedback-Schritte selektiv unterdrücken anstatt Antworten gleichmäßig zu verkürzen. Zusammengenommen demonstrieren unsere Ergebnisse, dass Episoden-basierte Repräsentationen Denkschritte explizit machen und eine systematische Analyse ermöglichen, wie Reasoning in modernen Sprachmodellen strukturiert, stabilisiert und verändert wird.
Videos sind kontinuierliche 2D-Projektionen von 3D-Welten. Entsteht nach dem Training auf großen Videodaten automatisch ein globales 3D-Verständnis? Wir untersuchen dies, indem wir das 3D-Verständnis existierender Video-Foundation-Modelle (VidFMs) quantifizieren, die auf umfangreichen Videodaten vortrainiert wurden. Wir schlagen das erste modell-agnostische Framework vor, das das 3D-Bewusstsein verschiedener VidFMs misst, indem multiple 3D-Eigenschaften aus ihren Merkmalen mittels flacher Read-Outs geschätzt werden. Unsere Studie liefert aussagekräftige Erkenntnisse zum 3D-Bewusstsein von VidFMs auf mehreren Ebenen. Insbesondere zeigen wir, dass state-of-the-art Video-Generierungsmodelle ein starkes Verständnis für 3D-Objekte und -Szenen aufweisen, obwohl sie nicht auf 3D-Daten trainiert wurden. Dieses Verständnis kann sogar das großer Expertensysteme übertreffen, die speziell für 3D-Aufgaben trainiert wurden. Unsere Erkenntnisse zusammen mit dem 3D-Benchmarking wichtiger VidFMs liefern wertvolle Beobachtungen für den Aufbau skalierbarer 3D-Modelle.
Mehrstufiges Reinforcement Learning (RL) für multimodale Agenten, die auf Vision-Language-Modellen (VLMs) basieren, wird durch spärliche Belohnungen und langfristige Kredit-Zuweisung erschwert. Aktuelle Methoden verdichten die Belohnung, indem sie einen Lehrer abfragen, der schrittweise Rückmeldung gibt, z.B. Guided Thought Reinforcement (GTR) und On-Policy Distillation. Diese Methoden sind jedoch auf kostspielige, oft privilegierte Modelle als Lehrer angewiesen, was ihre Praxistauglichkeit und Reproduzierbarkeit einschränkt. Wir stellen GTR-Turbo vor, eine hocheffiziente Weiterentwicklung von GTR, die dieselbe Leistung erzielt, ohne ein teures Lehrer-Modell trainieren oder abfragen zu müssen. Konkret fusioniert GTR-Turbo die Gewichte von Checkpoints, die während des laufenden RL-Trainings erzeugt wurden, und verwendet dieses fusionierte Modell dann als "kostenlosen" Lehrer, um das nachfolgende RL durch überwachtes Fein-Tuning oder Soft-Logit-Distillation anzuleiten. Dieser Ansatz beseitigt die Abhängigkeit von privilegierten VLMs (z.B. GPT oder Gemini), mildert den in früheren Arbeiten beobachteten "Entropie-Kollaps" und gewährleistet stabiles Training. In verschiedenen visuellen agentenbasierten Aufgaben verbessert GTR-Turbo die Genauigkeit des Basis-Modells um 10-30 %, während die Echtzeit-Trainingsdauer um 50 % und die Rechenkosten im Vergleich zu GTR um 60 % reduziert werden.
Autoregressive (AR) visuelle Generierung nutzt Tokenizer, um Bilder auf diskrete Sequenzen abzubilden und umgekehrt. Tokenizer werden jedoch darauf trainiert, saubere Bilder aus Ground-Truth-Tokens zu rekonstruieren, während AR-Generatoren nur auf Token-Wahrscheinlichkeit optimiert werden. Diese Fehlanpassung führt dazu, dass generierte Token-Sequenzen in qualitativ minderwertige Bilder decodiert werden können, da keine direkte Überwachung aus dem Pixelraum erfolgt. Wir schlagen VA-π vor, ein leichtgewichtiges Post-Training-Framework, das AR-Modelle direkt mit einem fundierten Pixelraum-Ziel optimiert. VA-π formuliert die Generator-Tokenizer-Abgleichung als variationsbasiertes Optimierungsproblem und leitet eine Evidenzuntergrenze (ELBO) ab, die Pixelrekonstruktion und autoregressive Modellierung vereint. Um die Optimierung im diskreten Token-Raum zu ermöglichen, führt VA-π eine verstärkungsbasierte Abgleichsstrategie ein, die den AR-Generator als Policy behandelt und die Rekonstruktionsqualität im Pixelraum als intrinsische Belohnung nutzt. Die Belohnung wird daran gemessen, wie gut die vorhergesagten Token-Sequenzen das Originalbild unter Teacher Forcing rekonstruieren können, wodurch das Modell direkte Pixel-Level-Anleitung erhält, ohne aufwendiges Free-Running-Sampling. Der Regularisierungsterm der ELBO dient als natürlicher Regularisierer, der die Verteilungskonsistenz der Tokens aufrechterhält. VA-π ermöglicht die schnelle Anpassung bestehender AR-Generatoren, ohne dass Tokenizer neu trainiert oder externe Belohnungsmodelle benötigt werden. Mit nur 1 % der ImageNet-1K-Daten und 25 Minuten Feintuning reduziert es den FID von 14,36 auf 7,65 und verbessert den IS von 86,55 auf 116,70 bei LlamaGen-XXL, während es auch bei der Text-zu-Bild-Aufgabe auf GenEval sowohl für das visuelle Generierungsmodell (LlamaGen: von 0,306 auf 0,339) als auch für das vereinheitlichte multimodale Modell (Janus-Pro: von 0,725 auf 0,744) bemerkenswerte Steigerungen erzielt. Der Code ist verfügbar unter https://github.com/Lil-Shake/VA-Pi.