papers.description
Wir stellen ein Full-Stack-Framework vor, das das Reasoning in Vision-Language-Modellen (VLMs) auf lange Videos skaliert und dabei Reinforcement Learning nutzt. Wir adressieren die einzigartigen Herausforderungen des Reasonings bei langen Videos durch die Integration von drei kritischen Komponenten: (1) einen groß angelegten Datensatz, LongVideo-Reason, der 52K lange Video-QA-Paare mit hochwertigen Reasoning-Annotationen aus diversen Domänen wie Sport, Spielen und Vlogs umfasst; (2) eine zweistufige Trainingspipeline, die VLMs durch Chain-of-Thought-supervised Fine-Tuning (CoT-SFT) und Reinforcement Learning (RL) erweitert; und (3) eine Trainingsinfrastruktur für RL auf langen Videos, genannt Multi-modal Reinforcement Sequence Parallelism (MR-SP), die Sequence Parallelism und eine vLLM-basierte Engine speziell für lange Videos integriert und dabei zwischengespeicherte Video-Embeddings für effizientes Rollout und Prefilling nutzt. In Experimenten erzielt LongVILA-R1-7B starke Leistungen auf Benchmarks für lange Video-QAs wie VideoMME. Es übertrifft auch Video-R1-7B und erreicht sogar das Niveau von Gemini-1.5-Pro in den Bereichen temporales Reasoning, Ziel- und Zweck-Reasoning, räumliches Reasoning und Plot-Reasoning auf unserem LongVideo-Reason-eval-Benchmark. Bemerkenswerterweise erreicht unser MR-SP-System eine Beschleunigung von bis zu 2,1x beim RL-Training auf langen Videos. LongVILA-R1 zeigt konsistente Leistungssteigerungen, wenn die Anzahl der Eingabevideobilder skaliert wird. LongVILA-R1 markiert einen festen Schritt hin zum Reasoning auf langen Videos in VLMs. Zusätzlich veröffentlichen wir unser Trainingssystem für die Öffentlichkeit, das RL-Training auf verschiedenen Modalitäten (Video, Text und Audio), verschiedenen Modellen (VILA- und Qwen-Serien) und sogar Bild- und Videogenerierungsmodellen unterstützt. Auf einem einzelnen A100-Knoten (8 GPUs) unterstützt es RL-Training auf stundenlangen Videos (z.B. 3.600 Bilder / rund 256k Tokens).
Während das Feinabstimmen von Diffusionsmodellen einen leistungsstarken Ansatz bietet, um vortrainierte Modelle zur Generierung spezifischer Objekte anzupassen, leidet es häufig unter Überanpassung, wenn die Trainingsdaten begrenzt sind, was sowohl die Generalisierungsfähigkeit als auch die Ausgabevielfalt beeinträchtigt. Diese Arbeit widmet sich der herausfordernden, aber äußerst einflussreichen Aufgabe, ein Diffusionsmodell mit nur einem einzigen Konzeptbild anzupassen, da die Anpassung mit einem einzelnen Bild das größte praktische Potenzial birgt. Wir stellen T-LoRA vor, ein zeitstufenabhängiges Low-Rank-Adaptationsframework, das speziell für die Personalisierung von Diffusionsmodellen entwickelt wurde. In unserer Arbeit zeigen wir, dass höhere Diffusionszeitstufen anfälliger für Überanpassung sind als niedrigere, was eine zeitstufenempfindliche Feinabstimmungsstrategie erfordert. T-LoRA integriert zwei Schlüsselinnovationen: (1) eine dynamische Feinabstimmungsstrategie, die rangbeschränkte Aktualisierungen basierend auf den Diffusionszeitstufen anpasst, und (2) eine Gewichtsparametrisierungstechnik, die die Unabhängigkeit zwischen Adapterkomponenten durch orthogonale Initialisierung sicherstellt. Umfangreiche Experimente zeigen, dass T-LoRA und seine einzelnen Komponenten Standard-LoRA und andere Personalisierungstechniken für Diffusionsmodelle übertreffen. Sie erreichen ein überlegenes Gleichgewicht zwischen Konzepttreue und Textausrichtung und unterstreichen das Potenzial von T-LoRA in daten- und ressourcenbeschränkten Szenarien. Der Code ist verfügbar unter https://github.com/ControlGenAI/T-LoRA.
Modelle wie OpenAI-o3 bahnen den Weg für visuell fundiertes Denken, indem sie dynamisch auf visuelle Regionen verweisen, ähnlich wie der menschliche „Denkprozess mit Bildern“. Allerdings existiert kein Benchmark, um diese Fähigkeiten ganzheitlich zu bewerten. Um diese Lücke zu schließen, schlagen wir TreeBench (Traceable Evidence Evaluation Benchmark) vor, einen diagnostischen Benchmark, der auf drei Prinzipien basiert: (1) fokussierte visuelle Wahrnehmung subtiler Ziele in komplexen Szenen, (2) nachvollziehbare Beweise durch Bounding-Box-Evaluierung und (3) zweistufiges Denken, um Objektinteraktionen und räumliche Hierarchien über die einfache Objektlokalisierung hinaus zu testen. Mit einem Fokus auf Bildern mit dichten Objekten, haben wir zunächst 1.000 hochwertige Bilder aus SA-1B ausgewählt und acht LMM-Experten einbezogen, um Fragen, Kandidatenoptionen und Antworten für jedes Bild manuell zu annotieren. Nach drei Qualitätskontrollstufen besteht TreeBench aus 405 anspruchsvollen visuellen Frage-Antwort-Paaren, mit denen selbst die fortschrittlichsten Modelle zu kämpfen haben, da keines von ihnen eine Genauigkeit von 60 % erreicht, z.B. erzielt OpenAI-o3 nur 54,87. Darüber hinaus führen wir TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning) ein, ein Trainingsparadigma, das Lokalisierung und Denken gemeinsam mit Verstärkungslernen überwacht und präzise Lokalisierungen sowie nachvollziehbare Denkpfade ermöglicht. Ausgehend von Qwen2.5-VL-7B verbessert es V* Bench (+16,8), MME-RealWorld (+12,6) und TreeBench (+13,4), was beweist, dass Nachvollziehbarkeit der Schlüssel zur Weiterentwicklung des visuell fundierten Denkens ist. Der Code ist unter https://github.com/Haochen-Wang409/TreeVGR verfügbar.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben bemerkenswerte Fähigkeiten bei der Integration von Vision und Sprache für komplexes Denken gezeigt. Während die meisten bestehenden Benchmarks Modelle unter Offline-Bedingungen mit einem festen Satz vorgezeichneter Eingaben bewerten, stellen wir OST-Bench vor, einen Benchmark, der darauf abzielt, das Online-Spatio-Temporale Verständnis aus der Perspektive eines aktiv eine Szene erkundenden Agenten zu bewerten. Der Online-Aspekt betont die Notwendigkeit, schrittweise erworbene Beobachtungen zu verarbeiten und darüber zu schlussfolgern, während die Spatio-Temporale Komponente die Integration aktueller visueller Eingaben mit historischem Gedächtnis erfordert, um dynamisches räumliches Denken zu unterstützen. OST-Bench spiegelt die Herausforderungen der realen verkörperten Wahrnehmung besser wider. Auf einer effizienten Datenerfassungspipeline aufbauend, besteht OST-Bench aus 1.4k Szenen und 10k Frage-Antwort-Paaren, die aus ScanNet, Matterport3D und ARKitScenes gesammelt wurden. Wir bewerten mehrere führende MLLMs auf OST-Bench und stellen fest, dass sie bei Aufgaben, die komplexes spatio-temporales Denken erfordern, nicht mithalten können. Unter der Online-Einstellung nimmt ihre Genauigkeit ab, wenn der Erkundungshorizont sich ausdehnt und das Gedächtnis wächst. Durch weitere experimentelle Analysen identifizieren wir gemeinsame Fehlermuster über Modelle hinweg und stellen fest, dass sowohl komplexe, auf Hinweisen basierende räumliche Denkanforderungen als auch Anforderungen an das Langzeitgedächtnis die Modellleistung entlang zweier separater Achsen signifikant beeinträchtigen, was die Kernherausforderungen hervorhebt, die angegangen werden müssen, um das Online-verkörperte Denken zu verbessern. Um weitere Forschung und Entwicklung in diesem Bereich zu fördern, sind unsere Codes, Datensätze und Benchmarks verfügbar. Unsere Projektseite ist: https://rbler1234.github.io/OSTBench.github.io/
Video Large Language Models (LLMs) erreichen ein starkes Verständnis von Videos, indem sie eine große Anzahl von räumlich-zeitlichen Tokens nutzen, leiden jedoch unter einer quadratischen Skalierung des Rechenaufwands mit der Token-Anzahl. Um dies zu adressieren, schlagen wir eine trainingsfreie Methode zur räumlich-zeitlichen Token-Zusammenführung vor, genannt STTM. Unser zentraler Ansatz besteht darin, lokale räumliche und zeitliche Redundanz in Videodaten auszunutzen, die in früheren Arbeiten übersehen wurde. STTM transformiert zunächst jedes Frame in multi-granulare räumliche Tokens durch eine grob-zu-fein Suche über eine Quadtree-Struktur und führt dann eine gerichtete paarweise Zusammenführung über die zeitliche Dimension durch. Dieser dekomponierte Zusammenführungsansatz übertrifft bestehende Token-Reduktionsmethoden über sechs Video-QA-Benchmarks hinweg. Bemerkenswerterweise erreicht STTM eine 2-fache Beschleunigung bei nur einem Genauigkeitsverlust von 0,5 % unter einem 50 % Token-Budget und eine 3-fache Beschleunigung mit einem Verlust von nur 2 % unter einem 30 % Budget. Darüber hinaus ist STTM abfrage-agnostisch, was die Wiederverwendung des KV-Caches über verschiedene Fragen für dasselbe Video ermöglicht. Die Projektseite ist verfügbar unter https://www.jshyun.me/projects/sttm.
Videos stellen von Natur aus 2D-Projektionen einer dynamischen 3D-Welt dar. Unsere Analyse zeigt jedoch, dass Video-Diffusionsmodelle, die ausschließlich auf Rohvideodaten trainiert werden, oft keine sinnvolle geometrie-bewusste Struktur in ihren gelernten Repräsentationen erfassen. Um diese Lücke zwischen Video-Diffusionsmodellen und der zugrunde liegenden 3D-Natur der physischen Welt zu schließen, schlagen wir Geometry Forcing vor, eine einfache, aber effektive Methode, die Video-Diffusionsmodelle dazu anregt, latente 3D-Repräsentationen zu internalisieren. Unser zentraler Ansatz besteht darin, die Zwischenrepräsentationen des Modells in Richtung einer geometrie-bewussten Struktur zu lenken, indem sie mit Merkmalen eines vortrainierten geometrischen Grundlagenmodells abgeglichen werden. Zu diesem Zweck führen wir zwei komplementäre Abgleichsziele ein: Angular Alignment, das durch Kosinusähnlichkeit eine Richtungskonsistenz erzwingt, und Scale Alignment, das skalierungsbezogene Informationen bewahrt, indem unnormalisierte geometrische Merkmale aus normalisierten Diffusionsrepräsentationen regressiert werden. Wir evaluieren Geometry Forcing sowohl bei kamerablick-bedingten als auch bei aktionsbedingten Video-Generierungsaufgaben. Die experimentellen Ergebnisse zeigen, dass unsere Methode die visuelle Qualität und 3D-Konsistenz im Vergleich zu den Baseline-Methoden erheblich verbessert. Projektseite: https://GeometryForcing.github.io.
LLMs werden zunehmend als Agenten eingesetzt, also als Systeme, die in der Lage sind, zu planen, zu schlussfolgern und externe Werkzeuge dynamisch aufzurufen. Im Bereich des visuellen Denkens bleiben bisherige Ansätze jedoch weitgehend auf vordefinierte Workflows und statische Werkzeugsätze beschränkt. In diesem Bericht stellen wir PyVision vor, ein interaktives, mehrstufiges Framework, das MLLMs ermöglicht, autonom Python-basierte Werkzeuge zu generieren, auszuführen und zu verfeinern, die auf die jeweilige Aufgabe zugeschnitten sind, und so flexibles und interpretierbares Problemlösen ermöglicht. Wir entwickeln eine Taxonomie der von PyVision erstellten Werkzeuge und analysieren deren Verwendung über eine Vielzahl von Benchmarks hinweg. Quantitativ erzielt PyVision konsistente Leistungssteigerungen und verbessert GPT-4.1 um +7,8 % auf V* und Claude-4.0-Sonnet um +31,1 % auf VLMsAreBlind-mini. Diese Ergebnisse deuten auf einen umfassenderen Wandel hin: Dynamische Werkzeugentwicklung ermöglicht es Modellen nicht nur, Werkzeuge zu verwenden, sondern sie auch zu erfinden, was einen Fortschritt hin zu einem agentenhafteren visuellen Denken darstellt.
In diesem Artikel stellen wir LangSplatV2 vor, das hochdimensionale Feature-Splatting mit 476,2 FPS und 3D-Open-Vocabulary-Textabfragen mit 384,6 FPS für hochauflösende Bilder erreicht. Dies bietet eine 42-fache Beschleunigung und eine 47-fache Steigerung gegenüber LangSplat sowie eine verbesserte Abfragegenauigkeit. LangSplat nutzt Gaussian Splatting, um 2D-CLIP-Sprachfeatures in 3D einzubetten, wodurch die Geschwindigkeit deutlich erhöht und ein präzises 3D-Sprachfeld mit SAM-Semantik erlernt wird. Solche Fortschritte in 3D-Sprachfeldern sind entscheidend für Anwendungen, die Sprachinteraktion in komplexen Szenen erfordern. Allerdings erreicht LangSplat noch keine Echtzeit-Inferenzleistung (8,2 FPS), selbst mit fortschrittlichen A100-GPUs, was seine breitere Anwendung stark einschränkt. In diesem Artikel führen wir zunächst eine detaillierte Zeitanalyse von LangSplat durch und identifizieren den aufwendigen Decoder als den primären Geschwindigkeitsengpass. Unsere Lösung, LangSplatV2, geht davon aus, dass jede Gaußsche Funktion als spärlicher Code in einem globalen Wörterbuch fungiert, was zum Erlernen eines 3D-spärlichen Koeffizientenfelds führt, das den Bedarf an einem aufwendigen Decoder vollständig eliminiert. Durch die Nutzung dieser Sparsität schlagen wir weiterhin eine effiziente Methode zum Splatting spärlicher Koeffizienten mit CUDA-Optimierung vor, die hochdimensionale Feature-Maps in hoher Qualität rendert, während nur der Zeitaufwand für das Splatting eines ultra-niedrigdimensionalen Features anfällt. Unsere experimentellen Ergebnisse zeigen, dass LangSplatV2 nicht nur eine bessere oder wettbewerbsfähige Abfragegenauigkeit erreicht, sondern auch deutlich schneller ist. Codes und Demos sind auf unserer Projektseite verfügbar: https://langsplat-v2.github.io.
Trotz der bedeutenden Fortschritte, die bei Video-Generierungsmodellen erzielt wurden, können die derzeit besten Methoden nur Videos von 5 bis 16 Sekunden Länge erzeugen, die oft als „Langform-Videos“ bezeichnet werden. Darüber hinaus haben Videos, die 16 Sekunden überschreiten, Schwierigkeiten, konsistente Charakterdarstellungen und Szenenlayouts im gesamten narrativen Verlauf beizubehalten. Insbesondere bei mehrsubjektigen Langvideos gelingt es noch immer nicht, die Konsistenz der Charaktere und die Kohärenz der Bewegungen zu bewahren. Während einige Methoden Videos von bis zu 150 Sekunden Länge generieren können, leiden diese oft unter Rahmenredundanz und geringer zeitlicher Diversität. Jüngste Arbeiten haben versucht, Langform-Videos mit mehreren Charakteren, narrativer Kohärenz und hochauflösenden Details zu erzeugen. Wir haben 32 Arbeiten zur Videogenerierung umfassend untersucht, um Schlüsselkomponenten der Architektur und Trainingsstrategien zu identifizieren, die diese Qualitäten konsistent erzielen. Zudem erstellen wir eine umfassende, neuartige Taxonomie bestehender Methoden und präsentieren Vergleichstabellen, die die Arbeiten nach ihren architektonischen Designs und Leistungsmerkmalen kategorisieren.
Kann ein vortrainiertes neuronales Netzwerk seine Architektur an verschiedene Eingaben anpassen, ohne Feinabstimmung? Benötigen wir alle Schichten für einfache Aufgaben, und sind sie für anspruchsvolle Aufgaben ausreichend? Wir fanden heraus, dass die Schichten eines vortrainierten großen Sprachmodells (LLM) als separate Module manipuliert werden können, um ein besseres und sogar flacheres Modell zu erstellen, das für jede Testprobe maßgeschneidert ist. Insbesondere kann jede Schicht des vortrainierten Modells übersprungen/beschnitten oder mehrfach als rekurrentes neuronales Netzwerk (RNN) wiederholt und in beliebiger Reihenfolge mit anderen gestapelt werden, wodurch eine Kette von Schichten (CoLa) pro Probe entsteht. Dieser kompositionelle Raum erweitert den Umfang bestehender Arbeiten zu geloopten/rekurrenten vortrainierten Modulen, Schichtbeschnitt oder Early-Exit-Netzwerken erheblich. Wir entwickeln ein Monte-Carlo-Baumsuchverfahren (MCTS), um den optimalen CoLa für jede Probe aus mathematischen und Common-Sense-Reasoning-Benchmarks zu erkunden und zu identifizieren. Im Vergleich zu einem statischen Modell mit fester Tiefe ermöglicht CoLa Abkürzungspfade (schnelles Denken), Wiederholung derselben Schicht(en) (langsames Denken) und die Kombination beider, wodurch flexiblere, dynamischere Architekturen für verschiedene Eingaben angeboten werden. Wir führen eine umfangreiche Analyse des MCTS-optimierten CoLa durch, die zu zwei zentralen Erkenntnissen führt: (1) Für >75 % der Proben mit korrekten Vorhersagen durch das ursprüngliche LLM können wir kürzere CoLa finden, was auf einen großen Raum zur Verbesserung der Inferenzeffizienz hinweist; (2) Für >60 % der Proben mit ursprünglich falschen Vorhersagen können wir CoLa identifizieren, die korrekte Vorhersagen erzielen, was auf einen großen Raum zur Leistungssteigerung hindeutet. Unsere Ergebnisse verdeutlichen die Nachteile der Verwendung einer festen Architektur vortrainierter LLMs für die Inferenz bei verschiedenen Proben und ebnen den Weg, um das Generalisierungspotenzial der Tiefenanpassung zur Testzeit freizusetzen.
Die Ableitung kompakter und zeitlich bewusster visueller Repräsentationen aus dynamischen Szenen ist entscheidend für die erfolgreiche Ausführung sequenzieller Szenenverständnisaufgaben wie visuelles Tracking und robotische Manipulation. In diesem Artikel stellen wir Token Bottleneck (ToBo) vor, eine einfache, aber intuitive selbstüberwachte Lernpipeline, die eine Szene in einen Engpass-Token komprimiert und die nachfolgende Szene unter Verwendung minimaler Patches als Hinweise vorhersagt. Die ToBo-Pipeline erleichtert das Lernen sequenzieller Szenendarstellungen, indem sie die Referenzszene während des Kompressionsschritts konservativ in einen kompakten Engpass-Token kodiert. Im Expansionsschritt leiten wir das Modell an, zeitliche Dynamiken zu erfassen, indem es die Zielszene unter Verwendung des Engpass-Tokens zusammen mit wenigen Zielpatches als Hinweise vorhersagt. Dieses Design ermutigt das visuelle Backbone, zeitliche Abhängigkeiten einzubetten und dadurch das Verständnis dynamischer Übergänge zwischen Szenen zu ermöglichen. Umfangreiche Experimente in verschiedenen sequenziellen Aufgaben, einschließlich Video-Label-Propagation und robotischer Manipulation in simulierten Umgebungen, demonstrieren die Überlegenheit von ToBo gegenüber Baseline-Methoden. Darüber hinaus bestätigt der Einsatz unseres vortrainierten Modells auf physischen Robotern dessen Robustheit und Effektivität in realen Umgebungen. Wir validieren weiterhin die Skalierbarkeit von ToBo über verschiedene Modellgrößen hinweg.
Trotz der beeindruckenden Fortschritte bei Sprachmodellen (LMs) in den letzten Jahren, die weitgehend auf den Wechsel von spezialisierten Modellen für bestimmte Aufgaben zu allgemeinen Modellen basierend auf leistungsstarken Architekturen (z. B. dem Transformer) zurückzuführen sind, die alles aus Rohdaten lernen, bleiben Vorverarbeitungsschritte wie Tokenisierung eine Barriere für echte end-to-end Basismodelle. Wir stellen eine Sammlung neuer Techniken vor, die einen dynamischen Chunking-Mechanismus ermöglichen, der automatisch inhalts- und kontextabhängige Segmentierungsstrategien lernt, die gemeinsam mit dem Rest des Modells gelernt werden. Die Integration dieser Techniken in ein explizit hierarchisches Netzwerk (H-Net) ermöglicht es, die (implizit hierarchische) Tokenisierung-LM-Detokenisierung-Pipeline durch ein einzelnes Modell zu ersetzen, das vollständig end-to-end gelernt wird. Bei gleicher Rechen- und Datenmenge übertrifft ein H-Net mit einer Hierarchiestufe auf Byte-Ebene ein starkes Transformer-Sprachmodell, das über BPE-Tokens arbeitet. Die Iteration der Hierarchie auf mehrere Stufen steigert die Leistung weiter, indem mehrere Abstraktionsebenen modelliert werden, was eine deutlich bessere Skalierung mit Daten zeigt und einem tokenbasierten Transformer von doppelter Größe entspricht. H-Nets, die auf Englisch vortrainiert wurden, zeigen eine deutlich erhöhte Robustheit auf Zeichenebene und lernen qualitativ sinnvolle datenabhängige Chunking-Strategien ohne Heuristiken oder explizite Überwachung. Schließlich wird die Verbesserung des H-Nets gegenüber tokenisierten Pipelines in Sprachen und Modalitäten mit schwächeren Tokenisierungsheuristiken, wie Chinesisch und Code oder DNA-Sequenzen (fast 4-fache Verbesserung der Dateneffizienz gegenüber Baselines), weiter erhöht, was das Potenzial echter end-to-end Modelle zeigt, die besser aus unverarbeiteten Daten lernen und skalieren.
Bullshit, wie es der Philosoph Harry Frankfurt konzipiert hat, bezieht sich auf Aussagen, die ohne Rücksicht auf ihren Wahrheitsgehalt getätigt werden. Während frühere Arbeiten Halluzinationen und Unterwürfigkeit bei großen Sprachmodellen (LLMs) untersucht haben, schlagen wir maschinelles Bullshit als übergreifendes konzeptionelles Rahmenwerk vor, das Forschern ermöglicht, das breitere Phänomen des emergenten Wahrheitsverlusts in LLMs zu charakterisieren und dessen zugrunde liegende Mechanismen zu beleuchten. Wir führen den Bullshit-Index ein, eine neuartige Metrik, die die Gleichgültigkeit von LLMs gegenüber der Wahrheit quantifiziert, und schlagen eine komplementäre Taxonomie vor, die vier qualitative Formen von Bullshit analysiert: leere Rhetorik, Täuschung, Weasel Words und unbestätigte Behauptungen. Wir führen empirische Bewertungen auf dem Marketplace-Datensatz, dem Political Neutrality-Datensatz und unserem neuen BullshitEval-Benchmark (2.400 Szenarien, die 100 KI-Assistenten umfassen) durch, der explizit zur Bewertung von maschinellem Bullshit entwickelt wurde. Unsere Ergebnisse zeigen, dass das Feinabstimmen von Modellen mit Reinforcement Learning from Human Feedback (RLHF) Bullshit signifikant verschärft und Chain-of-Thought (CoT)-Prompting zur Inferenzzeit bestimmte Bullshit-Formen, insbesondere leere Rhetorik und Täuschung, deutlich verstärkt. Wir beobachten auch weit verbreitetes maschinelles Bullshit in politischen Kontexten, wobei Weasel Words die dominante Strategie sind. Unsere Erkenntnisse unterstreichen systematische Herausforderungen bei der KI-Alignment und bieten neue Einblicke in Richtung eines wahrheitsgetreueren Verhaltens von LLMs.
Die meisten modernsten Visual-Language-Modelle (VLMs) scheinen durch die lineare Separierbarkeit ihrer visuellen Einbettungen bei abstrakten Denkaufgaben begrenzt zu sein. Diese Arbeit untersucht diesen „linearen Denkengpass“ durch die Einführung der Linear Separability Ceiling (LSC), der Leistung eines einfachen linearen Klassifikators auf den visuellen Einbettungen eines VLM. Wir stellen fest, dass dieser Engpass weit verbreitet ist und nicht auf eine schlechte Wahrnehmung, sondern auf Fehler in den Denkpfaden des Sprachmodells zurückzuführen ist. Wir zeigen, dass es sich um ein lösbares Alignment-Problem handelt. Die erforderliche Intervention ist jedoch aufgabenabhängig: Für semantische Konzepte reicht es aus, bestehende Pfade zu aktivieren, während komplexes relationales Denken eine Anpassung der Kernmodellgewichte erfordert. Durch die Verwendung von Postfix-Tuning als methodische Kontrolle finden wir starke Hinweise auf leistungsstarke, aber inaktive Denkpfade innerhalb von VLMs. Bei komplexen relationalen Aufgaben, die eine tiefere Anpassung erfordern, führt eine explizite Verbesserung der Repräsentationsqualität jedoch dazu, dass das Modell bei neuen Prompt-Formaten versagt, obwohl seine Einbettungen weiterhin gut separiert bleiben. Letztlich bietet diese Arbeit eine neue Perspektive für die Analyse von VLMs und zeigt, dass robustes Denken eine Frage des gezielten Alignments ist und nicht einfach einer verbesserten Repräsentationslernens.
Die rasanten Fortschritte von KI-Agenten haben den lang gehegten Ehrgeiz entfacht, sie zur Beschleunigung wissenschaftlicher Entdeckungen einzusetzen. Die Verwirklichung dieses Ziels erfordert ein tiefes Verständnis der Grenzen des menschlichen Wissens. In diesem Zusammenhang bietet „Humanity's Last Exam“ (HLE) einen außergewöhnlich anspruchsvollen Prüfstein zur Bewertung wissenschaftlicher KI-Agenten. In dieser Arbeit zielen wir darauf ab, die grundlegende Architektur für universelle Agenten zu konstruieren und deren Fähigkeiten durch Spitzenleistungen bei HLE zu validieren. Um dies zu erreichen, stellen wir X-Master vor, einen werkzeuggestützten Reasoning-Agenten, der darauf ausgelegt ist, menschliche Forscher nachzuahmen, indem er während seines Denkprozesses flexibel mit externen Werkzeugen interagiert. Dieser Agent, geleitet durch die Konzeptualisierung von Code als Interaktionssprache, kann flexibel integrierte Python-Bibliotheken und unsere maßgeschneiderten Werkzeuge nutzen, um das Reasoning zu erweitern. Wir skalieren seine Fähigkeiten weiter durch X-Masters, einen gestreuten und gestapelten agentenbasierten Workflow, der systematisch die Breite und Tiefe des Reasonings verbessert. Unsere Open-Source-Lösung, X-Masters, setzt mit einer Punktzahl von 32,1 % einen neuen State-of-the-Art-Rekord bei HLE und übertrifft damit OpenAI's und Google's Deep Research (26,6 % und 26,9 %) und ist die erste Lösung, die die 30 %-Schwelle überschreitet. Diese Arbeit ermöglicht es uns, ein tieferes Verständnis für die Lösung komplexer Aufgaben zu gewinnen und wertvolle Erfahrungen zu sammeln, die zukünftige Fortschritte informieren und die nachfolgende Modellausbildung leiten können.
Neurale Audiocodecs und Autoencoder haben sich als vielseitige Modelle für Audiokompression, -übertragung, Merkmalsextraktion und Latentraumgenerierung etabliert. Ein zentraler Nachteil besteht jedoch darin, dass die meisten darauf trainiert sind, die Rekonstruktionsgenauigkeit zu maximieren, wobei oft die spezifische Latentraumstruktur vernachlässigt wird, die für eine optimale Leistung in verschiedenen nachgelagerten Anwendungen erforderlich ist. Wir schlagen ein einfaches, nachträgliches Framework vor, um dies zu beheben, indem wir den Engpass eines vortrainierten Autoencoders modifizieren. Unsere Methode führt einen "Re-Bottleneck" ein, einen inneren Engpass, der ausschließlich durch Latentraumverluste trainiert wird, um eine benutzerdefinierte Struktur zu verankern. Wir demonstrieren die Wirksamkeit des Frameworks in drei Experimenten. Zunächst erzwingen wir eine Ordnung der latenten Kanäle, ohne die Rekonstruktionsqualität zu beeinträchtigen. Zweitens richten wir latente Variablen an semantischen Einbettungen aus und analysieren die Auswirkungen auf die nachgelagerte Diffusionsmodellierung. Drittens führen wir Äquivarianz ein, um sicherzustellen, dass eine Filteroperation auf dem Eingangssignal direkt einer spezifischen Transformation im Latentraum entspricht. Letztendlich bietet unser Re-Bottleneck-Framework eine flexible und effiziente Möglichkeit, die Darstellungen neuronaler Audiomodelle anzupassen, sodass sie nahtlos den vielfältigen Anforderungen verschiedener Anwendungen mit minimalem zusätzlichem Training gerecht werden.
Das vorherrschende Paradigma für die Skalierung großer Sprachmodelle (LLMs) umfasst ein monolithisches, end-to-end-Training, ein ressourcenintensiver Prozess, der an Flexibilität mangelt. Dieses Papier untersucht einen alternativen, konstruktiven Ansatz zur Modellentwicklung, der auf der Grundlage nicht trainierbarer, deterministischer Eingabe-Embeddings basiert. In früheren Arbeiten [1] haben wir gezeigt, dass hochgradige semantische Schlussfolgerungen in Transformern entstehen können, wenn gefrorene Embeddings verwendet werden, die aus der visuellen Struktur von Unicode-Glyphen abgeleitet sind. Hier demonstrieren wir, dass dieses feste repräsentative Substrat als universeller „Docking-Port“ fungiert, der zwei leistungsstarke und effiziente Skalierungsparadigmen ermöglicht: nahtlose modulare Komposition und progressives schichtweises Wachstum. Zunächst zeigen wir, dass spezialisierte Modelle, die auf unterschiedlichen Datensätzen trainiert wurden (z. B. russischer und chinesischer Text), nach dem Training ohne architektonische Modifikation in ein einziges, leistungsfähigeres Mixture-of-Experts (MoE)-Modell zusammengeführt werden können. Dies wird durch einfaches Mitteln ihrer Ausgabe-Logits erreicht. Das resultierende MoE-Modell zeigt sofortige Leistungsverbesserungen bei Reasoning-Benchmarks wie MMLU und übertrifft seine konstituierenden Experten, ohne katastrophales Vergessen zu verursachen. Zweitens führen wir eine schichtweise konstruktive Trainingsmethodik ein, bei der ein tiefer Transformer durch progressives Stapeln und Trainieren einer Schicht nach der anderen „wachsen“ kann. Diese Methode zeigt eine stabile Konvergenz und eine klare Korrelation zwischen der Modelltiefe und der Entstehung komplexer Reasoning-Fähigkeiten, wie sie beispielsweise für SQuAD erforderlich sind. Unsere Ergebnisse deuten auf einen Paradigmenwechsel hin, weg von monolithischer Optimierung hin zu einem biologisch oder konstruktiv geprägten Modell der KI-Entwicklung, bei dem Komplexität schrittweise aufgebaut und Module frei zusammengesetzt werden können. Dies eröffnet neue Wege für ressourceneffiziente Skalierung, kontinuierliches Lernen und ein demokratisierteres Ökosystem für den Aufbau leistungsstarker KI-Systeme. Wir veröffentlichen den gesamten Code und die Modelle, um weitere Forschungen zu erleichtern.
Das Verständnis des Ortes der semantischen Repräsentation in großen Sprachmodellen (LLMs) ist entscheidend für Interpretierbarkeit und architektonische Innovation. Das vorherrschende Paradigma geht davon aus, dass trainierbare Eingabe-Embeddings als grundlegende „Bedeutungsvektoren“ dienen. Diese Arbeit stellt diese Ansicht in Frage. Wir konstruieren Transformer-Modelle, bei denen die Embedding-Schicht vollständig eingefroren ist, wobei die Vektoren nicht aus Daten, sondern aus der visuellen Struktur von Unicode-Glyphen abgeleitet werden. Diese nicht-semantischen, vorberechneten visuellen Embeddings bleiben während des gesamten Trainings fest. Unsere Methode ist mit jedem Tokenizer kompatibel, einschließlich eines neuartigen Unicode-zentrierten Tokenizers, den wir einführen, um eine universelle Textabdeckung zu gewährleisten. Trotz des Fehlens trainierbarer, semantisch initialisierter Embeddings konvergieren unsere Modelle, erzeugen kohärenten Text und übertreffen kritisch architektonisch identische Modelle mit trainierbaren Embeddings im MMLU-Reasoning-Benchmark. Wir führen dies auf „repräsentative Interferenz“ in konventionellen Modellen zurück, bei denen die Embedding-Schicht sowohl strukturelle als auch semantische Merkmale lernen muss. Unsere Ergebnisse deuten darauf hin, dass hochrangige Semantik nicht inhärent in Eingabe-Embeddings enthalten ist, sondern eine emergente Eigenschaft der kompositionellen Architektur des Transformers und der Datenmenge darstellt. Dies verändert die Rolle der Embeddings von Bedeutungsträgern zu strukturellen Primitiven. Wir veröffentlichen den gesamten Code und die Modelle, um weitere Forschungen zu fördern.