papers.description
In diesem Beitrag stellen wir NeoVerse vor, ein vielseitiges 4D-Weltmodell, das 4D-Rekonstruktion, die Erzeugung von Videos entlang neuartiger Trajektorien und umfangreiche Downstream-Anwendungen ermöglicht. Zunächst identifizieren wir eine gemeinsame Limitierung der Skalierbarkeit aktueller Methoden zur 4D-Weltmodellierung, die entweder auf teuren und spezialisierten Multi-View-4D-Daten oder auf aufwändigem Trainings-Preprocessing beruht. Im Gegensatz dazu basiert unser NeoVerse auf einer Kernphilosophie, die die gesamte Pipeline für diverse monokulare In-the-Wild-Videos skalierbar macht. Konkret zeichnet sich NeoVerse durch pose-freie, vortlaufende 4D-Rekonstruktion, online-Simulation monokularer Degradationsmuster und andere gut abgestimmte Techniken aus. Diese Designs verleihen NeoVerse Vielseitigkeit und Generalisierungsfähigkeit für verschiedene Domänen. Gleichzeitig erzielt NeoVerse state-of-the-art Leistung in standardisierten Rekonstruktions- und Generierungs-Benchmarks. Unsere Projektseite ist unter https://neoverse-4d.github.io verfügbar.
Bestehende Agenten-Frameworks für große Sprachmodelle (LLM) stehen vor zwei großen Herausforderungen: hohe Konfigurationskosten und statische Fähigkeiten. Die Entwicklung eines hochwertigen Agenten erfordert oft erheblichen manuellen Aufwand bei der Tool-Integration und Prompt-Engineering, während eingesetzte Agenten ohne kostenintive Feinjustierung Schwierigkeiten haben, sich an dynamische Umgebungen anzupassen. Um diese Probleme zu lösen, schlagen wir Youtu-Agent vor, ein modulares Framework für die automatische Generierung und kontinuierliche Evolution von LLM-Agenten. Youtu-Agent verfügt über ein strukturiertes Konfigurationssystem, das Ausführungsumgebungen, Toolkits und Kontextmanagement entkoppelt und damit flexible Wiederverwendung und automatische Synthese ermöglicht. Wir führen zwei Generierungsparadigmen ein: einen Workflow-Modus für Standardaufgaben und einen Meta-Agent-Modus für komplexe, nicht-standardisierte Anforderungen, der automatisch Tool-Code, Prompts und Konfigurationen generieren kann. Darüber hinaus etabliert Youtu-Agent ein hybrides Policy-Optimierungssystem: (1) ein Agent-Practice-Modul, das Agenten ermöglicht, durch In-Context-Optimierung ohne Parameteraktualisierungen Erfahrungen zu sammeln und die Leistung zu verbessern; und (2) ein Agent-RL-Modul, das sich mit verteilten Trainingsframeworks integrieren lässt, um skalierbares und stabiles Reinforcement Learning beliebiger Youtu-Agenten auf end-to-end Weise und in großem Maßstab zu ermöglichen. Experimente zeigen, dass Youtu-Agent mit Open-Weight-Modeln state-of-the-art Leistung auf WebWalkerQA (71,47 %) und GAIA (72,8 %) erzielt. Unsere automatische Generierungspipeline erreicht eine Tool-Synthese-Erfolgsquote von über 81 %, während das Practice-Modul die Leistung auf AIME 2024/2025 um +2,7 % bzw. +5,4 % steigert. Darüber hinaus erzielt unser Agent-RL-Training eine 40 %ige Beschleunigung bei stetiger Leistungsverbesserung auf 7B-LLMs und steigert die Code-/Reasoning- bzw. Suchfähigkeiten auf Mathematik- und allgemeinen/multi-hop-QA-Benchmarks um bis zu 35 % bzw. 21 %.
Die Erzeugung von Talking Heads erzeugt lebensechte Avatare aus statischen Porträts für virtuelle Kommunikation und Inhaltserstellung. Allerdings vermitteln aktuelle Modelle noch nicht das Gefühl wirklich interaktiver Kommunikation, da sie oft einseitige Reaktionen generieren, denen emotionale Beteiligung fehlt. Wir identifizieren zwei Hauptherausforderungen für wirklich interaktive Avatare: die Echtzeiterzeugung von Bewegungen unter Kausalitätsbedingungen und das Erlernen ausdrucksstarker, lebendiger Reaktionen ohne zusätzlich annotierte Daten. Um diese Herausforderungen zu bewältigen, schlagen wir Avatar Forcing vor, ein neues Framework für die interaktive Avatarerzeugung, das Echtzeit-Interaktionen zwischen Nutzer und Avatar durch Diffusion Forcing modelliert. Dieser Entwurf ermöglicht es dem Avatar, Echtzeit-Multimodaleingaben – including Nutzeraudio und -bewegungen – mit geringer Latenz zu verarbeiten, um sofort auf verbale und non-verbale Signale wie Sprache, Nicken und Lachen zu reagieren. Darüber hinaus führen wir eine Direct Preference Optimization-Methode ein, die synthetische Verlustbeispiele nutzt, die durch das Weglassen von Nutzerbedingungen erzeugt werden, und so annotierungsfreies Lernen ausdrucksstarker Interaktion ermöglicht. Experimentelle Ergebnisse zeigen, dass unser Framework Echtzeitinteraktion mit geringer Latenz (ca. 500 ms) ermöglicht, was einer 6,8-fachen Beschleunigung gegenüber dem Baseline-Modell entspricht, und reaktive, ausdrucksstarke Avatar-Bewegungen erzeugt, die in über 80 % der Fälle gegenüber der Baseline bevorzugt werden.
Während Vision-Language-Modelle (VLMs) komplexe Aufgaben durch agentenbasiertes Reasoning lösen können, bleiben ihre Fähigkeiten weitgehend auf textorientierte Gedankenketten oder isolierten Werkzeugaufruf beschränkt. Es gelingt ihnen nicht, eine menschenähnliche Gewandtheit zu zeigen, um dynamische Werkzeugmanipulation nahtlos mit kontinuierlichem Reasoning zu verflechten, insbesondere in wissensintensiven und visuell komplexen Szenarien, die koordinierte externe Werkzeuge wie Suche und Bildzuschnitt erfordern. In dieser Arbeit stellen wir SenseNova-MARS vor, ein neuartiges Multimodales Agentisches Reasoning- und Such-Framework, das VLMs durch Reinforcement Learning (RL) Fähigkeiten zur verflochtenen visuellen Schlussfolgerung und Werkzeugnutzung verleiht. Konkret integriert SenseNova-MARS dynamisch die Werkzeuge Bildsuche, Textsuche und Bildzuschnitt, um feinkörnige und wissensintensive Herausforderungen des visuellen Verstehens zu bewältigen. In der RL-Phase schlagen wir den Batch-Normalized Group Sequence Policy Optimization (BN-GSPO)-Algorithmus vor, um die Trainingsstabilität zu verbessern und die Fähigkeit des Modells zu fördern, Werkzeuge effektiv aufzurufen und Schlussfolgerungen zu ziehen. Um agentische VLMs umfassend bei komplexen visuellen Aufgaben zu evaluieren, führen wir den HR-MMSearch-Benchmark ein, den ersten suchorientierten Benchmark, der aus hochauflösenden Bildern mit wissensintensiven und suchbasierten Fragen besteht. Experimente zeigen, dass SenseNova-MARS state-of-the-art Leistung auf quelloffenen Such- und feinkörnigen Bildverständnis-Benchmarks erzielt. Insbesondere erzielt SenseNova-MARS-8B auf suchorientierten Benchmarks 67,84 Punkte bei MMSearch und 41,64 bei HR-MMSearch und übertrifft damit proprietäre Modelle wie Gemini-3-Flash und GPT-5. SenseNova-MARS stellt einen vielversprechenden Schritt in Richtung agentischer VLMs dar, indem es effektive und robuste Werkzeugnutzungsfähigkeiten bereitstellt. Um die weitere Forschung auf diesem Gebiet zu erleichtern, werden wir allen Code, Modelle und Datensätze veröffentlichen.
Multimodale Large Language Models (MLLMs) haben bemerkenswerte Fortschritte im Video-Verständnis erzielt. Allerdings weisen sie eine kritische Schwachstelle auf: eine zu starke Abhängigkeit von Sprach-Priors, die zu visuell unbegründeten Halluzinationen führen kann, insbesondere bei der Verarbeitung von kontrafaktischen Videos, die dem gesunden Menschenverstand widersprechen. Diese Einschränkung, die aus dem intrinsischen Datenungleichgewicht zwischen Text und Video resultiert, ist aufgrund der erheblichen Kosten für die Erfassung und Annotation kontrafaktischer Daten schwer zu beheben. Um dieses Problem anzugehen, stellen wir DualityForge vor, ein neuartiges Framework zur Synthese kontrafaktischer Daten, das kontrollierbare, diffusionsbasierte Videobearbeitung einsetzt, um reale Videos in kontrafaktische Szenarien zu transformieren. Durch die Einbettung strukturierter Kontextinformationen in den Videobearbeitungs- und QA-Generierungsprozess erzeugt das Framework automatisch hochwertige QA-Paare zusammen mit Original-Bearbeitet-Video-Paaren für kontrastives Training. Auf dieser Grundlage erstellen wir DualityVidQA, einen großen Video-Datensatz, der entwickelt wurde, um MLLM-Halluzinationen zu reduzieren. Zusätzlich schlagen wir, um den kontrastiven Charakter unserer gepaarten Daten voll auszuschöpfen, Duality-Normalized Advantage Training (DNA-Train) vor, ein zweistufiges SFT-RL-Trainingsregime, bei dem die RL-Phase eine paarweise ℓ₁-Vorteilsnormalisierung anwendet und so eine stabilere und effizientere Policy-Optimierung ermöglicht. Experimente auf DualityVidQA-Test zeigen, dass unsere Methode Modell-Halluzinationen bei kontrafaktischen Videos erheblich reduziert und eine relative Verbesserung von 24,0 % gegenüber der Qwen2.5-VL-7B-Baseline erzielt. Darüber hinaus erzielt unser Ansatz signifikante Gewinne sowohl in Halluzinations- als auch in allgemeinen Benchmarks, was auf eine starke Generalisierungsfähigkeit hindeutet. Wir werden unseren Datensatz und unseren Code open-source verfügbar machen.
Die Rekonstruktion dynamischer 3D-Szenen aus monokularen Videos erfordert die gleichzeitige Erfassung hochfrequenter Erscheinungsdetails und zeitlich kontinuierlicher Bewegung. Bestehende Methoden, die auf einzelnen Gauß-Primitiven basieren, sind durch ihren Tiefpassfilter-Charakter eingeschränkt, während Standard-Gabor-Funktionen Energieinstabilitäten verursachen. Zudem führt das Fehlen von zeitlichen Stetigkeitsbedingungen häufig zu Bewegungsartefakten bei der Interpolation. Wir stellen AdaGaR vor, einen einheitlichen Rahmen, der sowohl Frequenzadaptivität als auch zeitliche Stetigkeit bei der expliziten Modellierung dynamischer Szenen adressiert. Wir führen eine Adaptive Gabor-Repräsentation ein, die Gauß-Funktionen durch lernbare Frequenzgewichte und adaptive Energiekompensation erweitert, um die Detailerfassung und Stabilität auszugleichen. Für die zeitliche Stetigkeit verwenden wir Kubische Hermite-Splines mit Temporaler Krümmungsregularisierung, um eine glatte Bewegungsentwicklung zu gewährleisten. Ein Adaptiver Initialisierungsmechanismus, der Tiefenschätzung, Punktverfolgung und Vordergrundmasken kombiniert, etabliert stabile Punktwolkenverteilungen in der frühen Trainingsphase. Experimente auf Tap-Vid DAVIS demonstrieren state-of-the-art Leistung (PSNR 35,49, SSIM 0,9433, LPIPS 0,0723) und starke Generalisierbarkeit in den Bereichen Frame-Interpolation, Tiefenkonsistenz, Videobearbeitung und stereoskopischer Viewsynthese. Projektseite: https://jiewenchan.github.io/AdaGaR/
Trotz der jüngsten Fortschritte, insbesondere bei der Entwicklung von Sprachmodellen, bestehen grundlegende Herausforderungen und unbeantwortete Fragen darüber, wie solche Modelle kontinuierlich lernen/sich erinnern, sich selbst verbessern und effektive Lösungen finden können. In diesem Artikel stellen wir ein neues Lernparadigma vor, genannt Nested Learning (NL), das ein maschinelles Lernmodell kohärent als eine Menge von verschachtelten, mehrstufigen und/oder parallelen Optimierungsproblemen darstellt, von denen jedes seinen eigenen Kontextfluss besitzt. Durch die Brille von NL betrachtet, lernen bestehende Deep-Learning-Methoden aus Daten, indem sie ihren eigenen Kontextfluss komprimieren, und In-Context-Learning entsteht natürlich in großen Modellen. NL legt eine Philosophie nahe, um ausdrucksstärkere Lernalgorithmen mit mehr Ebenen zu entwerfen, was zu In-Context-Learning höherer Ordnung führt und potenziell effektive kontinuierliche Lernfähigkeiten freisetzt. Wir befürworten NL, indem wir drei Kernbeiträge vorstellen: (1) Ausdrucksstarke Optimierer: Wir zeigen, dass bekannte gradientenbasierte Optimierer, wie Adam, SGD mit Momentum etc., tatsächlich assoziative Speichermodule sind, die darauf abzielen, die Information der Gradienten (durch Gradientenabstieg) zu komprimieren. Aufbauend auf dieser Erkenntnis stellen wir andere, ausdrucksstärkere Optimierer mit tiefem Gedächtnis und/oder leistungsfähigeren Lernregeln vor; (2) Selbstmodifizierendes Lernmodul: Unter Ausnutzung der NL-Erkenntnisse über Lernalgorithmen stellen wir ein Sequenzmodell vor, das lernt, wie es sich selbst modifizieren kann, indem es seinen eigenen Aktualisierungsalgorithmus lernt; und (3) Kontinuum-Speichersystem: Wir stellen eine neue Formulierung für Speichersysteme vor, die die traditionelle Sichtweise von Langzeit-/Kurzzeitgedächtnis verallgemeinert. Indem wir unser selbstmodifizierendes Sequenzmodell mit dem Kontinuum-Speichersystem kombinieren, stellen wir ein kontinuierliches Lernmodul namens Hope vor, das vielversprechende Ergebnisse bei Sprachmodellierung, Wissenseinbindung, Few-Shot-Generalization, kontinuierlichem Lernen und Aufgaben mit langem Kontext zeigt.
Die Wirksamkeit von tiefen Residualnetzen basiert grundlegend auf der Identitäts-Kurzschlussverbindung. Während dieser Mechanismus das Problem des verschwindenden Gradienten wirksam abmildert, induziert er einen streng additiven Induktionsbias für Merkmalstransformationen, was die Fähigkeit des Netzes zur Modellierung komplexer Zustandsübergänge einschränkt. In dieser Arbeit stellen wir Deep Delta Learning (DDL) vor, eine neuartige Architektur, die die Standard-Residualverbindung verallgemeinert, indem sie den Identitäts-Pfad durch eine lernbare, datenabhängige geometrische Transformation moduliert. Diese Transformation, bezeichnet als Delta-Operator, stellt eine Rang-1-Störung der Einheitsmatrix dar, parametrisiert durch einen Reflexionsrichtungsvektor k(X) und einen skalaren Gating-Wert β(X). Wir liefern eine Spektralanalyse dieses Operators und zeigen, dass das Gating β(X) eine dynamische Interpolation zwischen Identitätsabbildung, orthogonaler Projektion und geometrischer Reflexion ermöglicht. Darüber hinaus strukturieren wir das Residual-Update als synchrone Rang-1-Injektion um, bei der das Gating als dynamische Schrittweite fungiert, die sowohl das Löschen alter Informationen als auch das Schreiben neuer Merkmale steuert. Diese Vereinheitlichung befähigt das Netzwerk, das Spektrum seines schichtenweisen Übergangsoperators explizit zu kontrollieren, wodurch die Modellierung komplexer, nicht-monotoner Dynamiken bei gleichzeitiger Beibehaltung der stabilen Trainingseigenschaften gegateter Residualarchitekturen ermöglicht wird.
Aktuelle State-of-the-Art-Pipelines für große Sprachmodelle (LLMs) basieren auf Bootstrapping-Verfahren für das Schlussfolgern: Es werden diverse Gedankenketten generiert und diejenigen mit der höchsten Bewertung verstärkt, wobei primär die Korrektheit optimiert wird. Wir analysieren, wie diese Designentscheidung anfällig für den Kollaps der Modellverteilung über Lösungswege ist, was die semantische Entropie stark reduziert und kreatives Problemlösen untergräbt. Um dieses Versagen zu untersuchen, führen wir Distributional Creative Reasoning (DCR) ein, ein vereinheitlichtes variationsbasiertes Ziel, das das Training als Gradientenfluss durch Wahrscheinlichkeitsmaße auf Lösungspfaden darstellt. Methoden wie STaR, GRPO und DPO sowie Entropie-Boni und andere Ansätze stellen allesamt Spezialfälle desselben Loss dar. Das Framework liefert drei zentrale Ergebnisse: (i) das Theorem zum Diversitätsverfall, das beschreibt, wie korrektheitsbasierte Ziele zu charakteristischen Modi des Diversitätsverfalls für STaR, GRPO und DPO führen; (ii) Designs, die die Konvergenz zu einer stabilen und diversen Policy sicherstellen und einen Kollaps wirksam verhindern; und (iii) einfache, unmittelbar umsetzbare Verfahren, um dies in der Praxis zu erreichen. DCR bietet somit die erste prinzipienbasierte Methode für LLMs, die sowohl korrekt als auch kreativ bleiben.
Jüngste Fortschritte haben gezeigt, dass Reinforcement Learning (RL) die reasoning-Fähigkeiten großer Sprachmodelle (LLMs) erheblich verbessern kann. Die Wirksamkeit eines solchen RL-Trainings hängt jedoch entscheidend vom Explorationsraum ab, der durch die Token-Ausgabeverteilung des vortrainierten Modells definiert wird. In diesem Papier betrachten wir den Standard-Cross-Entropy-Verlust neu und interpretieren ihn als eine spezifische Instanz der Policy-Gradient-Optimierung, die innerhalb einer Einzelschritt-Episode angewendet wird. Um systematisch zu untersuchen, wie die vortrainierte Verteilung das Explorationspotenzial für nachfolgendes RL prägt, schlagen wir ein generalisiertes Vortrainingsziel vor, das On-Policy-RL-Prinzipien auf das überwachte Lernen überträgt. Indem wir die Next-Token-Vorhersage als einen stochastischen Entscheidungsprozess rahmen, führen wir eine Reward-Shaping-Strategie ein, die Diversität und Präzision explizit austariert. Unsere Methode verwendet einen positiven Reward-Scaling-Faktor, um die Wahrscheinlichkeitskonzentration auf Ground-Truth-Tokens zu steuern, sowie einen rangbewussten Mechanismus, der hoch- und niedrigrangige negative Tokens asymmetrisch behandelt. Dies ermöglicht es uns, die vortrainierte Token-Ausgabeverteilung umzuformen und zu untersuchen, wie ein günstigerer Explorationsraum für RL bereitgestellt werden kann, was letztlich die End-to-End-Reasoning-Leistung steigert. Entgegen der Intuition, dass eine höhere Verteilungsentropie effektive Exploration begünstigt, stellen wir fest, dass die Auferlegung eines präzisionsorientierten Priors einen überlegenen Explorationsraum für RL liefert.
Sequenzmodellierungsschichten in modernen Sprachmodellen stehen typischerweise vor einem Zielkonflikt zwischen Speicherkapazität und Recheneffizienz. Während Softmax-Attention unbegrenzte Speicherkapazität bei prohibitiv quadratischen Kosten bietet, liefern lineare Varianten Effizienz, leiden aber unter begrenztem, festgrößigem Speicher. Wir schlagen Fast-weight Product Key Memory (FwPKM) vor, eine neuartige Architektur, die diesen Konflikt löst, indem sie den spärlichen Product Key Memory (PKM) von einem statischen Modul in einen dynamischen, "Fast-weight"-episodischen Speicher transformiert. Im Gegensatz zu PKM aktualisiert FwPKM seine Parameter dynamisch sowohl während des Trainings als auch während des Inferenzvorgangs durch lokalen Gradientenabstieg auf Chunk-Ebene, was dem Modell ermöglicht, schnell neue Schlüssel-Wert-Paare aus Eingabesequenzen zu memorieren und abzurufen. Experimente zeigen, dass FwPKM als effektiver episodischer Speicher fungiert, der das semantische Gedächtnis standardmäßiger Module ergänzt und zu signifikanten Perplexitätsreduktionen auf Langkontext-Datensätzen führt. Bemerkenswerterweise generalisiert FwPKM in "Needle in a Haystack"-Evaluierungen auf Kontexte mit 128K Tokens, obwohl es nur auf 4K-Token-Sequenzen trainiert wurde.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte im Bereich des logischen Schließens und der Code-Generierung gezeigt. Die effiziente Erstellung neuer Benchmarks zur Bewertung dieser Fähigkeiten bleibt jedoch eine Herausforderung. Herkömmliche Benchmark-Erstellung stützt sich auf manuelle menschliche Arbeit, ein Prozess, der sowohl kostspielig als auch zeitaufwändig ist. Darüber hinaus kontaminieren bestehende Benchmarks oft die Trainingsdaten von LLMs, was neue und vielfältige Benchmarks erfordert, um ihre tatsächlichen Fähigkeiten genau zu beurteilen. Diese Arbeit stellt InfoSynth vor, einen neuartigen Rahmen zur automatischen Generierung und Bewertung von Reasoning-Benchmarks, der von informationstheoretischen Prinzipien geleitet wird. Wir schlagen Metriken auf Basis der KL-Divergenz und Entropie vor, um die Neuheit und Vielfalt von Benchmarks zu quantifizieren, ohne auf kostspielige Modellbewertungen angewiesen zu sein. Aufbauend auf diesem Rahmen entwickeln wir eine End-to-End-Pipeline, die mit genetischen Algorithmen und iterativem Code-Feedback robuste Python-Programmieraufgaben aus Ausgangsdatensätzen synthetisiert. Unsere Methode generiert in 97 % der Fälle genaue Testfälle und Lösungen für neue Probleme, und die synthetisierten Benchmarks weisen durchweg eine höhere Neuheit und Vielfalt im Vergleich zu ihren Ausgangsdatensätzen auf. Darüber hinaus bietet unser Algorithmus eine Methode zur Steuerung der Neuheit/Vielfalt und des Schwierigkeitsgrades der generierten Probleme. InfoSynth bietet eine skalierbare, selbstverifizierende Pipeline zur Erstellung hochwertiger, neuartiger und vielfältiger Benchmarks für LLMs. Projektseite: https://ishirgarg.github.io/infosynth_web/
3D-Morphing bleibt aufgrund der Schwierigkeit, semantisch konsistente und zeitlich flüssige Verformungen zu erzeugen, eine Herausforderung, insbesondere über Kategorien hinweg. Wir stellen MorphAny3D vor, ein trainierungsfreies Framework, das Structured Latent (SLAT)-Repräsentationen für hochwertiges 3D-Morphing nutzt. Unser zentraler Ansatz ist, dass ein intelligentes Mischen von Quell- und Ziel-SLAT-Features innerhalb der Attention-Mechanismen von 3D-Generatoren auf natürliche Weise plausible Morphing-Sequenzen erzeugt. Zu diesem Zweck führen wir Morphing Cross-Attention (MCA) ein, die Quell- und Zielinformationen für strukturelle Kohärenz fusioniert, sowie Temporal-Fused Self-Attention (TFSA), die die zeitliche Konsistenz durch die Einbeziehung von Features vorheriger Frames verbessert. Eine Orientierungskorrektur-Strategie mildert zudem die Posierungsmehrdeutigkeit innerhalb der Morphing-Schritte weiter ab. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art Morphing-Sequenzen erzeugt, selbst für anspruchsvolle Kategorie-übergreifende Fälle. MorphAny3D unterstützt weiterführende Anwendungen wie entkoppeltes Morphing und 3D-Styletransfer und kann auf andere SLAT-basierte Generative Modelle verallgemeinert werden. Projektseite: https://xiaokunsun.github.io/MorphAny3D.github.io/.