Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) vor, ein neues Lernparadigma, das die Ineffizienzen isolierter On-Policy-Optimierung adressiert. HACRL ermöglicht kollaborative Optimierung mit unabhängiger Ausführung: Heterogene Agenten teilen verifizierte Rollouts während des Trainings, um sich gegenseitig zu verbessern, während sie zur Inferenzzeit unabhängig agieren. Im Gegensatz zu LLM-basiertem Multi-Agent Reinforcement Learning (MARL) erfordert HACRL keine koordinierte Bereitstellung, und anders als bei On-/Off-Policy-Distillation ermöglicht es bidirektionales gegenseitiges Lernen zwischen heterogenen Agenten anstatt einseitiger Lehrer-Schüler-Übertragung. Aufbauend auf diesem Paradigma schlagen wir HACPO vor, einen kollaborativen RL-Algorithmus, der prinzipielles Rollout-Sharing zur Maximierung der Probenausnutzung und des agentenübergreifenden Wissenstransfers ermöglicht. Um Fähigkeitsdiskrepanzen und Policy-Verteilungsverschiebungen abzumildern, führt HACPO vier maßgeschneiderte Mechanismen mit theoretischen Garantien für unverzerrte Advantage-Schätzung und Optimierungskorrektheit ein. Umfangreiche Experimente mit verschiedenen heterogenen Modellkombinationen und Reasoning-Benchmarks zeigen, dass HACPO durchgängig alle teilnehmenden Agenten verbessert und GSPO im Durchschnitt um 3,3 % übertrifft, während nur die Hälfte der Rollout-Kosten anfallen.
Wir stellen Helios vor, das erste 14B-Videogenerierungsmodell, das mit 19,5 FPS auf einer einzelnen NVIDIA H100 GPU läuft, minutelange Generierung unterstützt und dabei die Qualität einer starken Baseline erreicht. Wir erzielen Durchbrüche in drei Schlüsseldimensionen: (1) Robustheit gegenüber Driften in langen Videos ohne häufig verwendete Heuristiken zur Driftvermeidung wie Self-Forcing, Error-Banks oder Keyframe-Sampling; (2) Echtzeitgenerierung ohne Standardbeschleunigungstechniken wie KV-Caching, sparse/lineare Attention oder Quantisierung; und (3) Training ohne Parallelitäts- oder Sharding-Frameworks, was Batch-Größen auf Bild-Diffusions-Maßstab ermöglicht und bis zu vier 14B-Modelle innerhalb von 80 GB GPU-Speicher unterbringt. Konkret ist Helios ein 14B autoregressives Diffusionsmodell mit einer einheitlichen Eingabedarstellung, das nativ T2V-, I2V- und V2V-Aufgaben unterstützt. Um Driften bei der Langzeit-Videogenerierung zu mildern, charakterisieren wir typische Fehlermodi und schlagen einfache, aber effektive Trainingsstrategien vor, die Driften explizit während des Trainings simulieren, während repetitive Bewegung an ihrer Quelle eliminiert wird. Für Effizienz komprimieren wir den historischen und verrauschten Kontext stark und reduzieren die Anzahl der Sampling-Schritte, was zu rechenkosten führt, die vergleichbar mit – oder niedriger als – denen von 1,3B-Videogenerierungsmodellen sind. Darüber hinaus führen wir Infrastrukturoptimierungen ein, die sowohl Inferenz als auch Training beschleunigen und den Speicherverbrauch reduzieren. Umfangreiche Experimente zeigen, dass Helios frühere Methoden sowohl bei der Kurz- als auch bei der Langzeit-Videogenerierung konsequent übertrifft. Wir planen, den Code, das Basismodell und das destillierte Modell zu veröffentlichen, um die weitere Entwicklung durch die Community zu unterstützen.
Überlegen Sie, wie Menschen komplexe Leseaufgaben bewältigen: Sie markieren Schlüsselstellen, leiten deren Beziehungen ab und strukturieren Informationen, um das Verständnis und die Antwortfindung zu steuern. Kann ein großes Sprachmodell in ähnlicher Weise von der Textstruktur profitieren, um seine Textverarbeitungsleistung zu verbessern? Um dies zu untersuchen, führen wir in dieser Arbeit zunächst die "Structure of Thought" (SoT) ein, eine Prompting-Technik, die Modelle explizit dazu anleitet, Zwischentextstrukturen zu konstruieren und so durchgängig die Leistung in acht Aufgaben und drei Modellfamilien steigert. Aufbauend auf dieser Erkenntnis präsentieren wir T2S-Bench, den ersten Benchmark, der entwickelt wurde, um die Text-zu-Struktur-Fähigkeiten von Modellen zu bewerten und zu verbessern. T2S-Bench umfasst 1.800 Beispiele aus sechs wissenschaftlichen Domänen und 32 Strukturtypen, die rigoros konstruiert wurden, um Genauigkeit, Fairness und Qualität zu gewährleisten. Die Evaluation von 45 Mainstream-Modellen zeigt ein erhebliches Verbesserungspotenzial auf: Die durchschnittliche Genauigkeit bei der Multi-Hop Reasoning-Aufgabe beträgt nur 52,1 %, und selbst das fortschrittlichste Modell erreicht eine Knotengenauigkeit von 58,1 % bei der Ende-zu-Ende-Extraktion. Darüber hinaus führt SoT allein bei Qwen2.5-7B-Instruct zu einer durchschnittlichen Verbesserung von +5,7 % über acht verschiedene Textverarbeitungsaufgaben hinweg, und ein Fine-Tuning auf T2S-Bench steigert diesen Gewinn weiter auf +8,6 %. Diese Ergebnisse unterstreichen den Wert expliziter Textstrukturierung sowie die komplementären Beiträge von SoT und T2S-Bench. Der Datensatz und der Evaluationscode sind unter https://t2s-bench.github.io/T2S-Bench-Page/ veröffentlicht.
Proaktive und echtzeitfähige interaktive Erfahrungen sind entscheidend für menschenähnliche KI-Begleiter, stehen jedoch vor drei zentralen Herausforderungen: (1) die Erzielung von Inferenz mit geringer Latenz bei kontinuierlichen Streaming-Eingaben, (2) die autonome Entscheidung, wann geantwortet werden soll, und (3) die Kontrolle sowohl der Qualität als auch der Menge der generierten Inhalte, um Echtzeitanforderungen zu erfüllen. In dieser Arbeit instanziieren wir KI-Begleiter anhand zweier Spielszenarien, Kommentator und Begleiter, die aufgrund ihrer Eignung für die automatische Evaluation ausgewählt wurden. Wir stellen den Live Gaming Benchmark vor, einen umfangreichen Datensatz mit drei repräsentativen Szenarien: Solo-Kommentar, Co-Kommentar und Benutzerführung, und präsentieren Proact-VL, ein allgemeines Framework, das multimodale Sprachmodelle zu proaktiven, echtzeitfähigen interaktiven Agenten formt, die in der Lage sind, menschenähnliche Umgebungswahrnehmung und Interaktion durchzuführen. Umfangreiche Experimente zeigen, dass Proact-VL eine überlegene Antwortlatenz und -qualität bei gleichzeitig starken Videoanalysefähigkeiten erreicht, was seine Praxistauglichkeit für echtzeitfähige interaktive Anwendungen demonstriert.
Da Large Language Models (LLMs) zunehmend für Langzeitaufgaben eingesetzt werden, ist die Aufrechterhaltung eines effektiven Langzeitgedächtnisses zu einer kritischen Herausforderung geworden. Bestehende Methoden stehen oft vor einem Zielkonflikt zwischen Kosten und Genauigkeit. Einfache Speichermethoden scheitern häufig an der Wiederauffindung relevanter Informationen, während komplexe Indizierungsmethoden (wie Gedächtnisgraphen) rechenintensiv sind und zu Informationsverlust führen können. Darüber hinaus ist die Abhängigkeit vom arbeitsfähigen LLM zur Verarbeitung aller Erinnerungen rechenaufwendig und langsam. Um diese Einschränkungen zu überwinden, schlagen wir MemSifter vor, ein neuartiges Framework, das den Gedächtnisabrufprozess auf ein Proxy-Modell kleineren Maßstabs auslagert. Anstatt die Belastung des primären Arbeits-LLMs zu erhöhen, nutzt MemSifter ein kleineres Modell, um die Aufgabe vor dem Abruf der notwendigen Informationen zu analysieren. Dieser Ansatz erfordert keine rechenintensive Indizierungsphase und verursacht während des Inferenzvorgangs nur minimalen Overhead. Zur Optimierung des Proxy-Modells führen wir ein spezielles Reinforcement Learning (RL)-Trainingsparadigma für Gedächtnisaufgaben ein. Wir entwerfen eine aufgabenorientierte Belohnungsfunktion basierend auf der tatsächlichen Leistung des Arbeits-LLMs bei der Aufgabenerfüllung. Die Belohnung misst den tatsächlichen Beitrag abgerufener Erinnerungen durch multiple Interaktionen mit dem Arbeits-LLM und unterscheidet Abrufrankings durch stufenweise abnehmende Beiträge. Zusätzlich setzen wir Trainingstechniken wie Curriculum Learning und Model Merging zur Leistungssteigerung ein. Wir evaluierten MemSifter auf acht LLM-Gedächtnis-Benchmarks, einschließlich Deep-Research-Aufgaben. Die Ergebnisse zeigen, dass unsere Methode die Leistung bestehender State-of-the-Art-Ansätze sowohl in der Abrufgenauigkeit als auch bei der endgültigen Aufgabenerfüllung erreicht oder übertrifft. MemSifter bietet eine effiziente und skalierbare Lösung für das Langzeitgedächtnis von LLMs. Wir haben die Modellgewichte, den Code und die Trainingsdaten open-source bereitgestellt, um weitere Forschung zu unterstützen.
Die Synthese physikalisch plausibler artikulierter Mensch-Objekt-Interaktionen (HOI) ohne 3D/4D-Aufsicht bleibt eine grundlegende Herausforderung. Während neuere Zero-Shot-Ansätze Video-Diffusionsmodelle nutzen, um Mensch-Objekt-Interaktionen zu synthetisieren, sind diese weitgehend auf die Manipulation starrer Objekte beschränkt und es fehlt ihnen an expliziter 4D-geometrischer Reasoning. Um diese Lücke zu schließen, formulieren wir artikulierte HOI-Synthese als ein 4D-Rekonstruktionsproblem aus monokularen Video-Priors: Ausgehend nur von einem durch ein Diffusionsmodell generierten Video rekonstruieren wir eine vollständige 4D-artikulierte Szene ohne jegliche 3D-Aufsicht. Dieser rekonstruktionsbasierte Ansatz behandelt das generierte 2D-Video als Aufsicht für ein inverses Rendering-Problem und stellt geometrisch konsistente und physikalisch plausible 4D-Szenen wieder her, die Kontakt, Artikulation und zeitliche Kohärenz natürlicherweise einhalten. Wir stellen ArtHOI vor, den ersten Zero-Shot-Rahmen für artikulierte Mensch-Objekt-Interaktionssynthese via 4D-Rekonstruktion aus Video-Priors. Unsere Schlüsselentwürfe sind: 1) Flussbasierte Teilesegmentierung: Nutzung des optischen Flusses als geometrisches Hilfsmittel, um dynamische von statischen Regionen in monokularen Videos zu trennen; 2) Entkoppelter Rekonstruktionspipeline: Die gemeinsame Optimierung von menschlicher Bewegung und Objektartikulation ist unter monokularer Ambiguität instabil, daher rekonstruieren wir zunächst die Objektartikulation und synthetisieren dann die menschliche Bewegung, bedingt auf die rekonstruierten Objektzustände. ArtHOI überbrückt videobasierte Generierung und geometriebewusste Rekonstruktion und erzeugt Interaktionen, die sowohl semantisch ausgerichtet als auch physikalisch fundiert sind. In verschiedenen artikulierten Szenen (z.B. Öffnen von Kühlschränken, Schränken, Mikrowellen) übertrifft ArtHOI frühere Methoden signifikant in Kontaktgenauigkeit, Reduzierung von Penetrationen und Artikulationstreue und erweitert die Zero-Shot-Interaktionssynthese über starre Manipulation hinaus durch rekonstruktionsinformierte Synthese.
Wir stellen Phi-4-reasoning-vision-15B vor, ein kompaktes Open-Weight-Multimodal-Modell für schlussfolgerndes Denken, und teilen die Motivationen, Designentscheidungen, Experimente und Erkenntnisse, die seine Entwicklung geprägt haben. Unser Ziel ist es, der Forschungsgemeinschaft praktische Einblicke in die Entwicklung kleinerer, effizienter Multimodal-Modelle für schlussfolgerndes Denken zu bieten und das Ergebnis dieser Erkenntnisse als Open-Weight-Modell zu teilen, das sich bei allgemeinen Aufgaben zu Bild und Sprache gut eignet und bei wissenschaftlichem und mathematischem Denken sowie dem Verständnis von Benutzeroberflächen hervorsticht. Unsere Beiträge umfassen den Nachweis, dass sorgfältige Architekturentscheidungen und rigorose Datenkuratierung es kleineren Open-Weight-Multimodal-Modellen ermöglichen, eine wettbewerbsfähige Leistung mit deutlich weniger Rechenaufwand und Token während Training und Inferenz zu erzielen. Die bedeutendsten Verbesserungen ergeben sich aus systematischer Filterung, Fehlerkorrektur und synthetischer Augmentierung – was bekräftigt, dass die Datenqualität der primäre Hebel für die Modellleistung bleibt. Systematische Ablationen zeigen, dass Encoder mit hoher Auflösung und dynamischer Auflösung konsistente Verbesserungen bewirken, da eine genaue Wahrnehmung eine Voraussetzung für hochwertiges schlussfolgerndes Denken ist. Schließlich ermöglicht eine hybride Mischung aus Daten mit und ohne schlussfolgerndem Denken in Kombination mit expliziten Modus-Tokens, dass ein einzelnes Modell für einfachere Aufgaben schnelle direkte Antworten und für komplexe Probleme Denken in Gedankenketten (Chain-of-Thought) liefern kann.
Test-Time-Scaling für komplexe Denkaufgaben zeigt, dass die Nutzung von Rechenleistung zur Inferenzzeit – beispielsweise durch unabhängiges Sammeln und Aggregieren mehrerer Lösungen – zu deutlich besseren Aufgabenresultaten führt. Ein kritischer Engpass ist jedoch die Verifikation: Das Sammeln von Lösungen ist nur dann effektiv, wenn korrekte Lösungen zuverlässig unter den Kandidaten identifiziert werden können. Während bestehende Ansätze Kandidaten typischerweise unabhängig mittels skalarem Scoring bewerten, zeigen wir, dass Modelle bei der paarweisen Selbstverifikation wesentlich leistungsfähiger sind. Gestützt auf diese Erkenntnis führen wir V_1 ein, ein Framework, das Generierung und Verifikation durch effizientes paarweises Ranking vereint. V_1 besteht aus zwei Komponenten: V_1-Infer, einem ungefährungsgesteuerten Algorithmus, der ein turnierbasiertes Ranking nutzt und Rechenressourcen für die Selbstverifikation dynamisch denjenigen Kandidatenpaaren zuweist, deren relative Korrektheit am unsichersten ist; und V_1-PairRL, einem RL-Framework, das ein einzelnes Modell gemeinsam als Generator und paarweisen Selbstverifizierer trainiert und so sicherstellt, dass sich der Verifizierer an die sich entwickelnde Verteilung des Generators anpasst. Bei Code-Generierung (LiveCodeBench, CodeContests, SWE-Bench) und mathematischen Denkaufgaben (AIME, HMMT) verbessert V_1-Infer Pass@1 um bis zu 10 % gegenüber punktweiser Verifikation und übertrifft aktuelle Test-Time-Scaling-Methoden bei deutlich höherer Effizienz. Darüber hinaus erzielt V_1-PairRL Test-Time-Scaling-Gewinne von 7–9 % gegenüber Standard-RL und gemeinsamem punktweisem Training und verbessert das Basis-Pass@1 in einer Code-Generierungsumgebung um bis zu 8,7 % gegenüber Standard-RL.
Die Erzeugung hochwertiger 360°-Panoramavideos aus perspektivischen Eingabedaten ist eine der entscheidenden Anwendungen für Virtual Reality (VR), wobei hochauflösende Videos besonders wichtig für ein immersives Erlebnis sind. Bestehende Methoden sind durch die Rechenbeschränkungen herkömmlicher Diffusionsmodelle eingeschränkt und unterstützen nativ nur Auflösungen von ≤1K, wobei sie auf suboptimale Nachverarbeitung durch Super-Resolution zur Erhöhung der Auflösung angewiesen sind. Wir stellen CubeComposer vor, ein neuartiges räumlich-zeitliches autoregressives Diffusionsmodell, das nativ 4K-auflösende 360°-Videos erzeugt. Durch die Zerlegung von Videos in Würfelprojektionen mit sechs Seiten synthetisiert CubeComposer Inhalte autoregressiv in einer wohlgeplanten räumlich-zeitlichen Reihenfolge, was den Speicherbedarf reduziert und gleichzeitig hochauflösende Ausgaben ermöglicht. Um die Herausforderungen der mehrdimensionalen Autoregression zu bewältigen, schlagen wir insbesondere vor: (1) eine räumlich-zeitliche autoregressive Strategie, die die 360°-Videogenerierung über Würfelseiten und Zeitfenster hinweg für eine kohärente Synthese orchestriert; (2) einen Würfelseiten-Kontextverwaltungsmechanismus, der mit einem sparsamen Kontext-Attentionsdesign für verbesserte Effizienz ausgestattet ist; und (3) kontinuitätsbewusste Techniken, einschließlich würfelbewusster Positionskodierung, Auffüllung und Überblendung, um Grenznahtstellen zu beseitigen. Umfangreiche Experimente mit Benchmark-Datensätzen zeigen, dass CubeComposer state-of-the-art-Methoden in nativer Auflösung und visueller Qualität übertrifft und praktische VR-Anwendungsszenarien unterstützt. Projektseite: https://lg-li.github.io/project/cubecomposer
Große Sprachmodell-Agenten (LLM-Agenten) werden bei langfristigen Aufgaben grundsätzlich durch begrenzte Kontextfenster eingeschränkt. Mit zunehmenden Trajektorien wird es schnell unmöglich, Werkzeugausgaben und Zwischenüberlegungen im Kontext zu behalten: Der Arbeitskontext wird unverhältnismäßig lang, überschreitet schließlich das Kontextbudget und erschwert die Nutzung entfernter Evidenz, selbst wenn diese noch vorhanden ist. Bestehende Lösungen verkürzen den Kontext typischerweise durch Kürzung oder laufende Zusammenfassungen, doch diese Methoden sind grundsätzlich verlustbehaftet, da sie vergangene Evidenz selbst komprimieren oder verwerfen. Wir stellen Memex vor, einen Mechanismus für indizierte Erfahrungsspeicherung, der den Kontext komprimiert, ohne Evidenz zu verwerfen. Memex verwaltet einen kompakten Arbeitskontext, der aus prägnanten strukturierten Zusammenfassungen und stabilen Indizes besteht, während vollständige zugrundeliegende Interaktionen unter diesen Indizes in einer externen Erfahrungsdatenbank gespeichert werden. Der Agent kann dann entscheiden, wann er einen Index dereferenzieren und die exakte vergangene Evidenz abrufen muss, die für das aktuelle Teilziel benötigt wird. Wir optimieren sowohl Schreib- als auch Lesevorgänge mit unserem Reinforcement-Learning-Framework MemexRL, das durch Belohnungsgestaltung speziell für die Nutzung indizierter Speicher unter einem Kontextbudget den Agenten lernt, was zusammenzufassen, was zu archivieren, wie es zu indizieren und wann es abzurufen ist. Dies führt zu einer wesentlich weniger verlustbehafteten Form von Langzeitgedächtnis als rein zusammenfassungsbasierte Ansätze. Wir liefern weiterhin eine theoretische Analyse, die das Potenzial der Memex-Schleife aufzeigt, die Entscheidungsqualität bei begrenzter Dereferenzierung zu erhalten und gleichzeitig die effektive Kontextberechnung zu begrenzen, während der Verlauf wächst. Empirisch zeigt sich, dass der mit MemexRL trainierte Memex-Agent bei anspruchsvollen langfristigen Aufgaben die Aufgabenbewältigung verbessert und dabei einen signifikant kleineren Arbeitskontext verwendet.
Die Klassifizierung fein granulärer visueller Konzepte unter Open-World-Bedingungen, d.h. ohne vordefinierten Labelsatz, erfordert Modelle, die sowohl präzise als auch spezifisch sind. Aktuelle Reasoning Large Multimodal Models (LMMs) zeigen zwar starke Fähigkeiten im visuellen Verständnis, neigen jedoch bei der fein granulären Bildklassifizierung zu übermäßig generischen Vorhersagen. Unsere vorläufige Analyse zeigt, dass die Modelle durchaus über intrinsisches fein granuliertes Domänenwissen verfügen. Die Förderung spezifischerer Vorhersagen (Spezifität) ohne Beeinträchtigung korrekter Vorhersagen (Korrektheit) bleibt jedoch eine nicht-triviale und wenig untersuchte Herausforderung. In dieser Arbeit untersuchen wir, wie Reasoning-LMMs zu Vorhersagen gesteuert werden können, die sowohl korrekt als auch spezifisch sind. Wir schlagen einen neuartigen spezifitätsbewussten Reinforcement-Learning-Rahmen, SpeciaRL, vor, um Reasoning-LMMs für fein granuläre Bildklassifizierung unter Open-World-Bedingungen zu feinabstimmen. SpeciaRL führt ein dynamisches, verifikatorbasiertes Belohnungssignal ein, das an die besten Vorhersagen innerhalb von Online-Rollouts geknüpft ist, um Spezifität zu fördern und gleichzeitig die Fähigkeiten des Modells zu respektieren, um falsche Vorhersagen zu verhindern. Unsere Out-of-Domain-Experimente zeigen, dass SpeciaRL den besten Kompromiss zwischen Korrektheit und Spezifität über umfangreiche fein granuläre Benchmarks hinweg erreicht und damit bestehende Methoden übertrifft sowie die Open-World fein granuläre Bildklassifizierung voranbringt. Code und Modell sind öffentlich verfügbar unter https://github.com/s-angheben/SpeciaRL.
Große Vision-Sprach-Modelle (LVLMs) haben Strategien zur Reduzierung visueller Tokens übernommen, um den erheblichen Rechenaufwand durch umfangreiche visuelle Token-Sequenzen zu mildern. Während sich frühere Arbeiten hauptsächlich auf aufmerksamkeitsbasierte oder diversitätsbasierte Reduktionsmethoden konzentrierten, bleibt eine eingehende Analyse der Eigenschaften und Grenzen dieser Ansätze weitgehend unerforscht. In dieser Arbeit führen wir eine umfassende empirische Analyse durch, bei der wir den effektiven Rang (erank) als Maß für die Merkmalsvielfalt und die Entropie der Aufmerksamkeitswerte verwenden, um die Verarbeitungsmechanismen visueller Tokens zu untersuchen und die Stärken und Schwächen jedes Ansatzes zu analysieren. Unsere Analyse liefert zwei Erkenntnisse: (1) Unsere auf erank basierende quantitative Analyse zeigt, dass viele diversitätsorientierte Reduktionsmethoden erheblich weniger Merkmalsvielfalt bewahren als beabsichtigt; darüber hinaus zeigt eine Analyse mit dem CHAIR-Datensatz, dass die von ihnen erhaltene Diversität eng mit einer erhöhten Halluzinationshäufigkeit im Vergleich zu aufmerksamkeitsbasierter Reduktion verbunden ist. (2) Wir beobachten weiterhin, dass aufmerksamkeitsbasierte Ansätze bei einfachen Bildern, bei denen visuelle Evidenz konzentriert ist, effektiver sind, während diversitätsbasierte Methoden komplexe Bilder mit verteilten Merkmalen besser handhaben. Aufbauend auf diesen empirischen Erkenntnissen zeigen wir, dass die Einbeziehung bildabhängiger Anpassungen in bestehende hybride Reduktionsstrategien deren Leistung konsistent verbessert. Wir liefern auch eine minimale Instanziierung unserer empirischen Ergebnisse durch einen einfachen adaptiven Reduktionsmechanismus, der eine starke und zuverlässige Leistung sowohl in Standard-Benchmarks als auch in halluzinationsspezifischen Auswertungen erzielt. Unsere Projektseite ist verfügbar unter https://cvsp-lab.github.io/AgilePruner.
Die Erzeugung langformatiger Erzählvideos mit konsistenten visuellen Handlungssträngen bleibt eine große Herausforderung in der Videosynthese. Wir stellen ein neuartiges Framework, einen Datensatz und ein Modell vor, die drei kritische Einschränkungen adressieren: Hintergrundkonsistenz über verschiedene Einstellungen hinweg, nahtlose Mehrfachsubjekt-Übergänge zwischen Einstellungen und Skalierbarkeit auf stundenlange Erzählungen. Unser Ansatz führt eine hintergrundkonsistente Erzeugungspipeline ein, die die visuelle Kohärenz über Szenen hinweg bewahrt und gleichzeitig die Charakteridentität und räumlichen Beziehungen beibehält. Weiterhin schlagen wir ein übergangsbewusstes Videosynthesemodul vor, das flüssige Szenenübergänge für komplexe Szenarien erzeugt, in denen mehrere Subjekte den Bildrahmen betreten oder verlassen – und geht damit über die Einzelsubjekt-Beschränkungen früherer Arbeiten hinaus. Zur Unterstützung tragen wir einen synthetischen Datensatz von 10.000 Mehrfachsubjekt-Übergangssequenzen bei, der unterrepräsentierte dynamische Szenenkompositionen abdeckt. In VBench erzielt InfinityStory die höchste Hintergrundkonsistenz (88,94), die höchste Subjektkonsistenz (82,11) und den besten durchschnittlichen Gesamtrang (2,80), was verbesserte Stabilität, flüssigere Übergänge und bessere zeitliche Kohärenz zeigt.
Die rasante Entwicklung multimodaler großer Sprachmodelle hat beeindruckende Fähigkeiten demonstriert, doch arbeiten nahezu alle in einem Offline-Paradigma, was Echtzeitinteraktivität behindert. Um diese Lücke zu schließen, stellen wir den Real-tIme Video intERaction Bench (RIVER Bench) vor, der zur Bewertung des Online-Videoverständnisses konzipiert ist. RIVER Bench führt einen neuartigen Rahmen ein, der Aufgaben zum retrospektiven Gedächtnis, zur Live-Wahrnehmung und zur proaktiven Antizipation umfasst und damit interaktive Dialoge enger nachahmt, anstatt auf gesamte Videos auf einmal zu reagieren. Wir führten detaillierte Annotationen mit Videos aus verschiedenen Quellen und unterschiedlicher Länge durch und definierten präzise das Echtzeit-Interaktionsformat. Evaluationen über verschiedene Modellkategorien hinweg zeigen, dass Offline-Modelle zwar bei einzelnen Frage-Antwort-Aufgaben gut abschneiden, jedoch mit der Echtzeitverarbeitung kämpfen. Um die Grenzen bestehender Modelle bei der Online-Videointeraktion, insbesondere ihre Defizite im Langzeitgedächtnis und der Zukunfts-wahrnehmung, anzugehen, schlugen wir eine allgemeine Verbesserungsmethode vor, die es Modellen ermöglicht, flexibler in Echtzeit mit Nutzern zu interagieren. Wir sind überzeugt, dass diese Arbeit die Entwicklung von Echtzeit-Videoverständnismodellen erheblich voranbringen und zukünftige Forschung in diesem aufstrebenden Feld inspirieren wird. Datensätze und Code sind öffentlich verfügbar unter https://github.com/OpenGVLab/RIVER.
Von großen Sprachmodellen (LLM) gesteuerte Agenten haben starke Fähigkeiten bei der Automatisierung von Softwareentwicklungsaufgaben wie der statischen Fehlerbehebung demonstriert, wie Benchmarks wie SWE-bench belegen. In der realen Welt basiert die Entwicklung ausgereifter Software jedoch typischerweise auf komplexen Anforderungsänderungen und langfristigen Feature-Iterationen – einen Prozess, den statische Einmal-Reparatur-Paradigmen nicht abbilden können. Um diese Lücke zu schließen, schlagen wir SWE-CI vor, den ersten Repository-basierten Benchmark, der auf dem Continuous-Integration-Zyklus aufbaut. Ziel ist es, das Bewertungsparadigma für Codegenerierung von statischer, kurzfristiger funktionaler Korrektheit hin zu dynamischer, langfristiger Wartbarkeit zu verschieben. Der Benchmark umfasst 100 Aufgaben, wobei jede durchschnittlich einer Entwicklungsgeschichte von 233 Tagen und 71 aufeinanderfolgenden Commits in einem realen Code-Repository entspricht. SWE-CI erfordert, dass Agenten diese Aufgaben systematisch durch Dutzende von Analyse- und Codierungsiterationen lösen. SWE-CI liefert wertvolle Einblicke darin, wie gut Agenten die Codequalität während der gesamten langfristigen Evolution aufrechterhalten können.
Embodied Conversational Agents (ECAs) zielen darauf ab, menschliche Face-to-Face-Interaktion durch Sprache, Gesten und Gesichtsausdrücke nachzubilden. Aktuelle, auf großen Sprachmodellen (LLMs) basierende Konversationsagenten verfügen jedoch nicht über eine Verkörperung und die für natürliche Interaktion wesentlichen ausdrucksstarken Gesten. Bestehende Lösungen für ECAs erzeugen oft steife Bewegungen mit geringer Diversität, die für eine menschenähnliche Interaktion ungeeignet sind. Alternativ erzeugen generative Methoden zur sprachbegleitenden Gestensynthese zwar natürliche Körpergesten, sind jedoch von zukünftigem Sprachkontext abhängig und benötigen lange Laufzeiten. Um diese Lücke zu schließen, stellen wir MIBURI vor, das erste online-fähige, kausale Framework zur Erzeugung ausdrucksstarker Ganzkörpergesten und Gesichtsausdrücke, die mit gesprochenen Dialogen in Echtzeit synchronisiert sind. Wir setzen körperteil-sensitive Gesten-Codecs ein, die hierarchische Bewegungsdetails in mehrstufige diskrete Tokens kodieren. Diese Tokens werden dann autoregressiv von einem zweidimensionalen kausalen Framework generiert, das auf textbasierten Embeddings eines LLM konditioniert ist und sowohl zeitliche Dynamiken als auch die Bewegungshierarchie auf Teilkörper-Ebene in Echtzeit modelliert. Darüber hinaus führen wir Hilfsziele ein, um ausdrucksstarke und vielfältige Gesten zu fördern und gleichzeitig eine Konvergenz zu statischen Posen zu verhindern. Vergleichende Evaluationen zeigen, dass unser kausaler und echtzeitfähiger Ansatz im Vergleich zu aktuellen Baseline-Methoden natürliche und kontextuell passende Gesten erzeugt. Wir laden den Leser ein, die Demo-Videos auf https://vcai.mpi-inf.mpg.de/projects/MIBURI/ zu erkunden.
Die Sicherheitsbewertung und das Red-Teaming von großen Sprachmodellen bleiben überwiegend textzentriert, und bestehende Frameworks verfügen nicht über die Infrastruktur, um systematisch zu testen, ob die Alignment-Eigenschaften auf Audio-, Bild- und Videoeingaben verallgemeinern. Wir stellen MUSE (Multimodal Unified Safety Evaluation) vor, eine quelloffene, run-zentrierte Plattform, die automatische cross-modale Payload-Generierung, drei Multi-Turn-Angriffsalgorithmen (Crescendo, PAIR, Violent Durian), anbieteragnostisches Model-Routing und einen LLM-Judge mit einer fünfstufigen Sicherheitstaxonomie in einem einzigen browserbasierten System integriert. Ein Dual-Metric-Framework unterscheidet zwischen harter Attack Success Rate (nur Compliance) und weicher ASR (einschließlich Teilweiser Compliance), um partielle Informationslecks zu erfassen, die binäre Metriken übersehen. Um zu untersuchen, ob Alignment über Modalitätsgrenzen hinweg verallgemeinert, führen wir Inter-Turn Modality Switching (ITMS) ein, das Multi-Turn-Angriffe durch eine Modalitätsrotation pro Turn erweitert. Experimente mit sechs multimodalen LLMs von vier Anbietern zeigen, dass Multi-Turn-Strategien eine ASR von bis zu 90–100 % gegen Modelle mit nahezu perfekter Single-Turn-Verweigerung erreichen können. ITMS erhöht die finale ASR bei bereits gesättigten Baselines nicht einheitlich, beschleunigt jedoch die Konvergenz durch Destabilisierung der Abwehrmechanismen in frühen Turns. Ablationsstudien zeigen, dass die Richtung der Modalitätseffekte modellfamilienspezifisch und nicht universell ist, was die Notwendigkeit anbieterbewusster cross-modaler Sicherheitstests unterstreicht.
Das unmittelbare Verständnis einer 3D-Szene während ihrer Erkundung ist entscheidend für verkörperte Aufgaben, bei denen ein Agent die 3D-Szene online und nahezu in Echtzeit konstruieren und verstehen muss. In dieser Studie stellen wir EmbodiedSplat vor, ein online-feedforward 3DGS-System für open-vocabulary-Szenenverständnis, das gleichzeitige Online-3D-Rekonstruktion und semantisches 3D-Verständnis aus Streaming-Bildern ermöglicht. Im Gegensatz zu bestehenden open-vocabulary-3DGS-Methoden, die typischerweise auf Offline- oder pro-Szene-Optimierung beschränkt sind, verfolgen wir zwei Ziele: 1) Online-Rekonstruktion des semantisch eingebetteten 3DGS der gesamten Szene aus über 300 Streaming-Bildern. 2) Hohe Generalisierbarkeit auf neue Szenen durch Feedforward-Design und Unterstützung nahezu Echtzeit-fähiger 3D-Semantikrekonstruktion in Kombination mit Echtzeit-2D-Modellen. Um diese Ziele zu erreichen, schlagen wir ein Online Sparse Coefficients Field mit einem CLIP Global Codebook vor, das die 2D-CLIP-Einbettungen an jedes 3D-Gaussian bindet, dabei den Speicherverbrauch minimiert und die volle semantische Generalisierbarkeit von CLIP bewahrt. Darüber hinaus generieren wir 3D-geometrieaware CLIP-Features durch Aggregation der Punktwolkenanteile des 3DGS mittels 3D-U-Net, um den 2D-orientierten Spracheinbettungen eine 3D-geometrische Priorität zu verleihen. Umfangreiche Experimente auf diversen Indoor-Datensätzen, einschließlich ScanNet, ScanNet++ und Replica, demonstrieren sowohl die Effektivität als auch die Effizienz unserer Methode. Weitere Informationen finden Sie auf unserer Projektseite: https://0nandon.github.io/EmbodiedSplat/.
Kann Verstärkungslernen mit harten, verifizierbaren Belohnungen einem kompakten Sprachmodell beibringen, physikalisch zu schlussfolgern, oder lernt es primär, Muster zu erkennen, die zu korrekten Antworten führen? Wir untersuchen diese Frage, indem wir ein Reasoning-Modell mit 1,5 Milliarden Parametern auf Balkenstatik, ein klassisches Ingenieurproblem, trainieren. Dabei verwenden wir parameter-effizientes RLVR mit binären Korrektheitsbelohnungen von symbolischen Solvern, ohne von Lehrkräften generierte Reasoning-Traces. Der beste BeamPERL-Checkpoint erreicht eine Verbesserung von 66,7 % in Pass@1 gegenüber dem Basismodell. Die erlernte Kompetenz ist jedoch anisotrop: Das Modell verallgemeinert kompositionell (mehr Lasten), scheitert aber bei topologischen Verschiebungen (verschobene Auflager), die dieselben Gleichgewichtsgleichungen erfordern. Intermediate Checkpoints erzielen das stärkste Reasoning, während fortgesetzte Optimierung die Robustheit verschlechtert, obwohl die Belohnung hoch bleibt. Diese Ergebnisse offenbaren eine zentrale Grenze der Ausrichtung auf Ergebnisebene: Verstärkungslernen mit exakten physikalischen Belohnungen induziert prozedurale Lösungstemplates statt einer Verinnerlichung der zugrundeliegenden Gleichungen. Die Präzision des Belohnungssignals – selbst wenn sie analytisch exakt ist – gewährleistet nicht automatisch übertragbares physikalisches Reasoning. Unsere Resultate legen nahe, dass verifizierbare Belohnungen möglicherweise mit strukturierten Reasoning-Hilfsgerüsten kombiniert werden müssen, um über reine Template-Erkennung hinaus zu robustem wissenschaftlichem Schließen zu gelangen.
Der Detection Transformer (DETR) und seine Varianten zeigen eine hohe Leistungsfähigkeit bei der Objekterkennung, einer Schlüsselaufgabe für autonome Systeme. Eine kritische Einschränkung dieser Modelle ist jedoch, dass ihre Konfidenzscores nur die semantische Unsicherheit widerspiegeln und die ebenso wichtige räumliche Unsicherheit nicht erfassen. Dies führt zu einer unvollständigen Bewertung der Erkennungszuverlässigkeit. Deep Ensembles können dieses Problem hingegen lösen, indem sie hochwertige Schätzungen der räumlichen Unsicherheit liefern. Deren immenser Speicherverbrauch macht sie jedoch für praktische Anwendungen unbrauchbar. Eine kostengünstigere Alternative, Monte Carlo (MC) Dropout, leidet unter hoher Latenz, da während des Inferenzvorgangs mehrere Vorwärtsdurchläufe zur Unsicherheitsschätzung erforderlich sind. Um diese Einschränkungen zu adressieren, stellen wir GroupEnsemble vor, eine effiziente und effektive Methode zur Unsicherheitsschätzung für DETR-ähnliche Modelle. GroupEnsemble sagt gleichzeitig mehrere individuelle Erkennungssätze vorher, indem während der Inferenz zusätzliche, diverse Gruppen von Objektabfragen an den Transformer-Decoder übergeben werden. Jede Abfragegruppe wird isoliert durch den gemeinsamen Decoder transformiert und sagt einen vollständigen Erkennungssatz für dieselbe Eingabe vorher. Eine Attention-Maske wird auf den Decoder angewandt, um Interaktionen zwischen Abfragen verschiedener Gruppen zu verhindern. Dies stellt sicher, dass jede Gruppe unabhängig erkennt, um eine zuverlässige, ensemble-basierte Unsicherheitsschätzung zu erreichen. Durch die Nutzung der inhärenten Parallelität des Decoders schätzt GroupEnsemble die Unsicherheit effizient in einem einzigen Vorwärtsdurchlauf ohne sequentielle Wiederholung. Wir validierten unsere Methode in Szenen des autonomen Fahrens und alltäglichen Szenen unter Verwendung der Cityscapes- bzw. COCO-Datensätze. Die Ergebnisse zeigen, dass ein hybrider Ansatz, der MC-Dropout und GroupEnsemble kombiniert, Deep Ensembles bei mehreren Metriken übertrifft – und das zu einem Bruchteil der Kosten. Der Code ist verfügbar unter https://github.com/yutongy98/GroupEnsemble.
Trotz des wachsenden Interesses an Open-Vocabulary Object Detection in den letzten Jahren sind die meisten bestehenden Methoden stark auf manuell kuratierte, feingranulare Trainingsdatensätze sowie ressourcenintensive, schichtweise Kreuzmodal-Feature-Extraktion angewiesen. In diesem Artikel schlagen wir HDINO vor, einen prägnanten und dennoch effizienten Open-Vocabulary Object Detector, der die Abhängigkeit von diesen Komponenten beseitigt. Konkret schlagen wir eine zweistufige Trainingsstrategie vor, die auf dem transformerbasierten DINO-Modell aufbaut. In der ersten Stufe werden verrauschte Stichproben als zusätzliche positive Objektinstanten behandelt, um einen One-to-Many Semantic Alignment Mechanism (O2M) zwischen den visuellen und textuellen Modalitäten zu konstruieren und dadurch die semantische Ausrichtung zu erleichtern. Ein Difficulty Weighted Classification Loss (DWCL) wird ebenfalls auf Basis der anfänglichen Erkennungsschwierigkeit entworfen, um Hard Examples zu identifizieren und die Modellleistung weiter zu verbessern. In der zweiten Stufe wird ein leichtgewichtiges Feature-Fusion-Modul auf die ausgerichteten Repräsentationen angewendet, um die Sensitivität für linguistische Semantik zu erhöhen. Unter der Swin-Transformer-T-Konfiguration erreicht HDINO-T 49,2 mAP auf COCO unter Verwendung von 2,2 Mio. Trainingsbildern aus zwei öffentlich verfügbaren Detektionsdatensätzen – ohne jegliche manuelle Datenkuratierung und ohne die Verwendung von Grounding-Daten – und übertrifft damit Grounding DINO-T und T-Rex2 um 0,8 mAP bzw. 2,8 mAP, welche auf 5,4 Mio. bzw. 6,5 Mio. Bildern trainiert wurden. Nach Feinabstimmung auf COCO erreichen HDINO-T und HDINO-L weiterhin 56,4 mAP bzw. 59,2 mAP, was die Wirksamkeit und Skalierbarkeit unseres Ansatzes unterstreicht. Code und Modelle sind verfügbar unter https://github.com/HaoZ416/HDINO.