Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die räumlich-zeitliche Konsistenz ist ein zentrales Forschungsthema in der Videogenerierung. Ein qualitativ hochwertiges generiertes Videosegment muss sowohl die Plausibilität und Kohärenz der Handlung gewährleisten als auch die visuelle Konsistenz von Objekten und Szenen über verschiedene Blickwinkel hinweg bewahren. Bisherige Forschung, insbesondere in Open-Source-Projekten, konzentriert sich hauptsächlich entweder auf zeitliche oder räumliche Konsistenz oder deren grundlegende Kombination, wie beispielsweise das Anhängen einer Beschreibung einer Kamerabewegung nach einem Prompt, ohne die Ergebnisse dieser Bewegung einzuschränken. Allerdings kann eine Kamerabewegung neue Objekte in die Szene einführen oder bestehende entfernen, wodurch die vorherige Handlung überlagert und beeinflusst wird. Besonders in Videos mit zahlreichen Kamerabewegungen wird das Zusammenspiel zwischen mehreren Handlungssträngen zunehmend komplex. Dieses Papier führt und untersucht die integrale räumlich-zeitliche Konsistenz, wobei die Synergie zwischen Handlungsfortschritt und Kameratechniken sowie die langfristigen Auswirkungen vorheriger Inhalte auf die nachfolgende Generierung berücksichtigt werden. Unsere Forschung umfasst die Konstruktion eines Datensatzes bis hin zur Entwicklung des Modells. Zunächst haben wir den DropletVideo-10M-Datensatz erstellt, der 10 Millionen Videos mit dynamischen Kamerabewegungen und Objektaktionen enthält. Jedes Video ist mit einer durchschnittlichen Beschreibung von 206 Wörtern annotiert, die verschiedene Kamerabewegungen und Handlungsentwicklungen detailliert. Anschließend haben wir das DropletVideo-Modell entwickelt und trainiert, das sich durch die Bewahrung räumlich-zeitlicher Kohärenz während der Videogenerierung auszeichnet. Der DropletVideo-Datensatz und das Modell sind unter https://dropletx.github.io zugänglich.
Die Entwicklung autonomer Roboteragenten, die in der Lage sind, menschliche Leistungsfähigkeit in realen verkörperten Aufgaben zu erreichen, ist ein ultimatives Ziel in der Forschung zu humanoiden Robotern. Jüngste Fortschritte haben bedeutende Verbesserungen in der hochgradigen Kognition mit Foundation Models (FMs) und in der Entwicklung von grundlegenden Fähigkeiten für humanoide Roboter erzielt. Die direkte Kombination dieser Komponenten führt jedoch oft zu mangelnder Robustheit und Effizienz, was auf die Kumulation von Fehlern in langfristigen Aufgaben und die unterschiedliche Latenz verschiedener Module zurückzuführen ist. Wir stellen Being-0 vor, ein hierarchisches Agenten-Framework, das ein FM mit einer modularen Fähigkeitsbibliothek integriert. Das FM übernimmt hochgradige kognitive Aufgaben wie das Verstehen von Anweisungen, die Aufgabenplanung und das logische Denken, während die Fähigkeitsbibliothek stabile Fortbewegung und geschickte Manipulation für die grundlegende Steuerung bereitstellt. Um die Lücke zwischen diesen Ebenen zu schließen, schlagen wir ein neuartiges Connector-Modul vor, das von einem leichten Vision-Language-Modell (VLM) angetrieben wird. Der Connector verbessert die verkörperten Fähigkeiten des FMs, indem er sprachbasierte Pläne in ausführbare Fähigkeitsbefehle übersetzt und die Fortbewegung und Manipulation dynamisch koordiniert, um den Aufgaben-Erfolg zu steigern. Da alle Komponenten, außer dem FM, auf kostengünstigen Onboard-Rechengeräten einsetzbar sind, erreicht Being-0 eine effiziente, Echtzeit-Leistung auf einem vollständig ausgestatteten humanoiden Roboter mit geschickten Händen und aktiver Sehfähigkeit. Umfangreiche Experimente in großen Innenräumen demonstrieren die Effektivität von Being-0 bei der Lösung komplexer, langfristiger Aufgaben, die anspruchsvolle Navigations- und Manipulationsunteraufgaben erfordern. Weitere Details und Videos finden Sie unter https://beingbeyond.github.io/being-0.
Bildgestützte Generierungsmethoden, wie tiefen- und canny-basierte Ansätze, haben bemerkenswerte Fähigkeiten für die präzise Bildsynthese gezeigt. Allerdings haben bestehende Modelle immer noch Schwierigkeiten, den Inhalt mehrerer Instanzen (oder Regionen) genau zu steuern. Selbst state-of-the-art Modelle wie FLUX und 3DIS stehen vor Herausforderungen, wie z.B. Attributlecks zwischen Instanzen, was die Benutzerkontrolle einschränkt. Um diese Probleme zu lösen, stellen wir DreamRenderer vor, einen trainingsfreien Ansatz, der auf dem FLUX-Modell basiert. DreamRenderer ermöglicht es Benutzern, den Inhalt jeder Instanz über Begrenzungsrahmen oder Masken zu steuern, während gleichzeitig die visuelle Harmonie des Gesamtbildes gewährleistet wird. Wir schlagen zwei Schlüsselinnovationen vor: 1) Bridge Image Tokens for Hard Text Attribute Binding, die replizierte Bild-Tokens als Brücken-Tokens verwenden, um sicherzustellen, dass T5-Text-Einbettungen, die ausschließlich auf Textdaten vortrainiert sind, die richtigen visuellen Attribute für jede Instanz während des Joint Attention binden; 2) Hard Image Attribute Binding, das nur auf entscheidende Schichten angewendet wird. Durch unsere Analyse von FLUX identifizieren wir die kritischen Schichten, die für die Attributdarstellung der Instanzen verantwortlich sind, und wenden Hard Image Attribute Binding nur in diesen Schichten an, während wir in den anderen Schichten eine weiche Bindung verwenden. Dieser Ansatz gewährleistet eine präzise Kontrolle bei gleichzeitiger Wahrung der Bildqualität. Bewertungen auf den COCO-POS- und COCO-MIG-Benchmarks zeigen, dass DreamRenderer die Image Success Ratio im Vergleich zu FLUX um 17,7 % verbessert und die Leistung von Layout-zu-Bild-Modellen wie GLIGEN und 3DIS um bis zu 26,8 % steigert. Projektseite: https://limuloo.github.io/DreamRenderer/.
Die personalisierte Bildgenerierung zielt darauf ab, Bilder von benutzerdefinierten Konzepten zu erzeugen und gleichzeitig flexible Bearbeitung zu ermöglichen. Aktuelle trainingsfreie Ansätze, die zwar eine höhere Recheneffizienz als trainingsbasierte Methoden aufweisen, kämpfen mit der Identitätserhaltung, Anwendbarkeit und Kompatibilität mit Diffusionstransformern (DiTs). In diesem Artikel erschließen wir das ungenutzte Potenzial von DiT, bei dem der einfache Austausch von Denoising-Tokens durch die eines Referenzsubjekts eine Zero-Shot-Subjektrekonstruktion ermöglicht. Diese einfache, aber effektive Feature-Injection-Technik erschließt vielfältige Szenarien, von der Personalisierung bis zur Bildbearbeitung. Aufbauend auf dieser Beobachtung schlagen wir „Personalize Anything“ vor, ein trainingsfreies Framework, das personalisierte Bildgenerierung in DiT durch folgende Maßnahmen erreicht: 1) zeitstufenadaptive Token-Ersetzung, die Subjektkonsistenz durch frühe Injektion sicherstellt und Flexibilität durch späte Regularisierung erhöht, sowie 2) Patch-Perturbationsstrategien zur Steigerung der strukturellen Vielfalt. Unsere Methode unterstützt nahtlos layoutgesteuerte Generierung, Multi-Subjekt-Personalisierung und maskengesteuerte Bearbeitung. Evaluierungen zeigen state-of-the-art Leistung in der Identitätserhaltung und Vielseitigkeit. Unsere Arbeit liefert neue Einblicke in DiTs und bietet gleichzeitig ein praktisches Paradigma für effiziente Personalisierung.
Schlussfolgerndes und strategisches Verhalten in sozialen Interaktionen ist ein Kennzeichen von Intelligenz. Diese Form des Denkens ist deutlich anspruchsvoller als isolierte Planungs- oder Denkaufgaben in statischen Umgebungen (z. B. das Lösen von Mathematikproblemen). In diesem Artikel stellen wir Strategic Planning, Interaction, and Negotiation (SPIN-Bench) vor, eine neue multidomänenbasierte Evaluierung, die entwickelt wurde, um die Intelligenz von strategischer Planung und sozialem Denken zu messen. Während sich viele bestehende Benchmarks auf eng gefasste Planungs- oder Einzelagenten-Denkaufgaben konzentrieren, kombiniert SPIN-Bench klassische PDDL-Aufgaben, wettbewerbsorientierte Brettspiele, kooperative Kartenspiele und Multi-Agenten-Verhandlungsszenarien in einem einheitlichen Rahmen. Das Framework umfasst sowohl einen Benchmark als auch eine Arena, um die Vielfalt sozialer Settings zu simulieren und zu bewerten, in denen das Denk- und strategische Verhalten von KI-Agenten getestet wird. Wir formulieren den Benchmark SPIN-Bench, indem wir systematisch Aktionsräume, Zustandskomplexität und die Anzahl der interagierenden Agenten variieren, um eine Vielzahl sozialer Szenarien zu simulieren, in denen der Erfolg nicht nur von methodischem und schrittweisem Entscheiden, sondern auch von der konzeptionellen Schlussfolgerung anderer (gegnerischer oder kooperativer) Teilnehmer abhängt. Unsere Experimente zeigen, dass zeitgenössische LLMs grundlegende Faktenabfrage und kurzfristige Planung zwar recht gut bewältigen, jedoch erhebliche Leistungsengpässe bei Aufgaben aufweisen, die tiefgreifendes Multi-Hop-Denken über große Zustandsräume und sozial geschickte Koordination unter Unsicherheit erfordern. Wir sehen SPIN-Bench als Katalysator für zukünftige Forschung zu robuster Multi-Agenten-Planung, sozialem Denken und Mensch-KI-Teamarbeit.
Durch die Erweiterung des Vorteils der Chain-of-Thought (CoT)-Argumentation in menschenähnlichen schrittweisen Prozessen auf multimodale Kontexte hat die multimodale CoT (MCoT)-Argumentation in letzter Zeit erhebliche Forschungsaufmerksamkeit erregt, insbesondere in der Integration mit multimodalen großen Sprachmodellen (MLLMs). Bestehende MCoT-Studien entwickeln verschiedene Methodologien und innovative Argumentationsparadigmen, um die einzigartigen Herausforderungen von Bildern, Videos, Sprache, Audio, 3D und strukturierten Daten über verschiedene Modalitäten hinweg zu bewältigen, und erzielen dabei umfangreiche Erfolge in Anwendungen wie Robotik, Gesundheitswesen, autonomes Fahren und multimodale Generierung. Dennoch birgt MCoT weiterhin spezifische Herausforderungen und Chancen, die weitere Aufmerksamkeit erfordern, um ein kontinuierliches Gedeihen in diesem Bereich zu gewährleisten, wobei leider eine aktuelle Übersicht über dieses Gebiet fehlt. Um diese Lücke zu schließen, präsentieren wir die erste systematische Übersicht über MCoT-Argumentation, die die relevanten Grundkonzepte und Definitionen erläutert. Wir bieten eine umfassende Taxonomie und eine detaillierte Analyse aktueller Methodologien aus verschiedenen Perspektiven über verschiedene Anwendungsszenarien hinweg. Darüber hinaus geben wir Einblicke in bestehende Herausforderungen und zukünftige Forschungsrichtungen, mit dem Ziel, Innovationen in Richtung multimodaler AGI zu fördern.
Wir stellen eine neue Methode vor, Edit Transfer, bei der ein Modell eine Transformation anhand eines einzigen Quell-Ziel-Beispiels lernt und diese auf ein neues Abfragebild anwendet. Während textbasierte Methoden bei semantischen Manipulationen durch textuelle Eingabeaufforderungen hervorragend abschneiden, haben sie oft Schwierigkeiten mit präzisen geometrischen Details (z. B. Posen und Blickwinkeländerungen). Referenzbasierte Bearbeitung hingegen konzentriert sich typischerweise auf Stil oder Erscheinungsbild und scheitert bei nicht-starren Transformationen. Durch das explizite Lernen der Bearbeitungstransformation aus einem Quell-Ziel-Paar überwindet Edit Transfer die Einschränkungen sowohl textbasierter als auch erscheinungszentrierter Referenzen. Inspiriert vom In-Context-Lernen in großen Sprachmodellen, schlagen wir ein visuelles In-Context-Lernparadigma vor, das auf einem DiT-basierten Text-zu-Bild-Modell aufbaut. Wir ordnen das bearbeitete Beispiel und das Abfragebild in ein einheitliches vierteiliges Komposit an und wenden dann eine leichtgewichtige LoRA-Feinabstimmung an, um komplexe räumliche Transformationen aus minimalen Beispielen zu erfassen. Trotz der Verwendung von nur 42 Trainingsdaten übertrifft Edit Transfer die modernsten TIE- und RIE-Methoden in verschiedenen nicht-starren Szenarien deutlich und demonstriert die Effektivität des Few-Shot-Lernens visueller Beziehungen.
Aktuelle Studien verbessern die Fähigkeiten von MLLMs (Multimodale Large Language Models) im Allgemeinen durch überwachtes Feinabstimmen auf hochwertige Chain-of-Thought-Daten, was oft dazu führt, dass Modelle lediglich erfolgreiche Argumentationspfade nachahmen, ohne zu verstehen, was die falschen Argumentationspfade sind. In dieser Arbeit zielen wir darauf ab, die Argumentationsfähigkeit von MLLMs über das passive Nachahmen positiver Argumentationspfade hinaus zu verbessern. Zu diesem Zweck entwickeln wir Step-wise Group Relative Policy Optimization (StepGRPO), ein neues Online-Reinforcement-Learning-Framework, das es MLLMs ermöglicht, ihre Argumentationsfähigkeit durch einfache, effektive und dichte schrittweise Belohnungen selbst zu verbessern. Konkret führt StepGRPO zwei neuartige regelbasierte Argumentationsbelohnungen ein: Step-wise Reasoning Accuracy Reward (StepRAR) und Step-wise Reasoning Validity Reward (StepRVR). StepRAR belohnt Argumentationspfade, die notwendige Zwischenschritte enthalten, durch eine Soft-Key-Step-Matching-Technik, während StepRVR Argumentationspfade belohnt, die einem gut strukturierten und logisch konsistenten Argumentationsprozess folgen, durch eine Strategie zur Bewertung der Argumentationsvollständigkeit und Logik. Mit dem vorgeschlagenen StepGRPO stellen wir R1-VL vor, eine Reihe von MLLMs mit herausragenden Fähigkeiten in der schrittweisen Argumentation. Umfangreiche Experimente über 8 Benchmarks demonstrieren die Überlegenheit unserer Methoden.
Die visuelle Manipulation auf Elementebene ist entscheidend für die digitale Inhaltserstellung, doch aktuellen diffusionsbasierten Methoden fehlt die Präzision und Flexibilität traditioneller Werkzeuge. In dieser Arbeit stellen wir BlobCtrl vor, ein Framework, das die Erzeugung und Bearbeitung auf Elementebene durch eine probabilistische, blob-basierte Repräsentation vereinheitlicht. Durch die Verwendung von Blobs als visuelle Grundelemente entkoppelt und repräsentiert unser Ansatz effektiv räumliche Position, semantischen Inhalt und Identitätsinformationen, was eine präzise Manipulation auf Elementebene ermöglicht. Unsere wesentlichen Beiträge umfassen: 1) eine Dual-Branch-Diffusionsarchitektur mit hierarchischer Merkmalsfusion für nahtlose Integration von Vordergrund und Hintergrund; 2) ein selbstüberwachtes Trainingsparadigma mit maßgeschneiderter Datenaugmentierung und Bewertungsfunktionen; und 3) kontrollierbare Dropout-Strategien zur Balance zwischen Detailtreue und Vielfalt. Um die weitere Forschung zu unterstützen, führen wir BlobData für groß angelegtes Training und BlobBench für systematische Evaluation ein. Experimente zeigen, dass BlobCtrl in verschiedenen Aufgaben der Elementmanipulation hervorragende Ergebnisse erzielt und dabei Recheneffizienz bewahrt, was eine praktische Lösung für präzise und flexible visuelle Inhaltserstellung bietet. Projektseite: https://liyaowei-stu.github.io/project/BlobCtrl/
Wissenschaftliche Forschung erfordert anspruchsvolles Denken über multimodale Daten, eine Herausforderung, die insbesondere in der Biologie weit verbreitet ist. Trotz jüngster Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) für die KI-gestützte Forschung zielen bestehende Benchmarks für multimodales Denken nur auf Schwierigkeitsgrade bis zum College-Niveau ab, während Benchmarks auf Forschungsebene eher auf niedrigere Wahrnehmungsebenen fokussieren und somit das komplexe multimodale Denken, das für wissenschaftliche Entdeckungen erforderlich ist, nicht abdecken. Um diese Lücke zu schließen, stellen wir MicroVQA vor, einen Benchmark für visuelles Frage-Antworten (VQA), der drei für Forschungsabläufe entscheidende Denkfähigkeiten bewertet: Expertenverständnis von Bildern, Hypothesengenerierung und Experimentvorschläge. MicroVQA besteht aus 1.042 Multiple-Choice-Fragen (MCQs), die von Biologieexperten über verschiedene Mikroskopie-Modalitäten hinweg kuratiert wurden, um sicherzustellen, dass die VQA-Proben die reale wissenschaftliche Praxis widerspiegeln. Bei der Erstellung des Benchmarks stellten wir fest, dass Standardmethoden zur MCQ-Generierung sprachliche Abkürzungen induzieren, was die Entwicklung einer neuen zweistufigen Pipeline motivierte: Ein optimierter LLM-Prompt strukturiert Frage-Antwort-Paare in MCQs; anschließend aktualisiert ein agentenbasiertes `RefineBot' diese, um Abkürzungen zu entfernen. Benchmarks mit state-of-the-art MLLMs zeigen eine Spitzenleistung von 53 %; Modelle mit kleineren LLMs schneiden nur geringfügig schlechter ab als die besten Modelle, was darauf hindeutet, dass sprachbasiertes Denken weniger herausfordernd ist als multimodales Denken; und das Fine-Tuning mit wissenschaftlichen Artikeln verbessert die Leistung. Expertenanalysen von Chain-of-Thought-Antworten zeigen, dass Wahrnehmungsfehler am häufigsten auftreten, gefolgt von Wissensfehlern und dann von Überverallgemeinerungsfehlern. Diese Erkenntnisse unterstreichen die Herausforderungen beim multimodalen wissenschaftlichen Denken und zeigen, dass MicroVQA eine wertvolle Ressource für die Weiterentwicklung der KI-gestützten biomedizinischen Forschung ist. MicroVQA ist verfügbar unter https://huggingface.co/datasets/jmhb/microvqa und die Projektseite unter https://jmhb0.github.io/microvqa.
Mit der rasanten Entwicklung der 3D-Rekonstruktionstechnologie schreitet auch die Forschung im Bereich der 4D-Rekonstruktion voran. Bestehende 4D-Rekonstruktionsmethoden können hochwertige 4D-Szenen erzeugen. Aufgrund der Herausforderungen bei der Erfassung von Multi-View-Videodaten beschränken sich die aktuellen 4D-Rekonstruktions-Benchmarks jedoch hauptsächlich auf Aktionen, die an Ort und Stelle ausgeführt werden, wie beispielsweise Tanzen, innerhalb begrenzter Szenarien. In praktischen Anwendungen umfassen viele Szenen jedoch weiträumige räumliche Bewegungen, was die Grenzen der bestehenden 4D-Rekonstruktionsdatensätze deutlich macht. Darüber hinaus stützen sich bestehende 4D-Rekonstruktionsmethoden auf Deformationsfelder, um die Dynamik von 3D-Objekten zu schätzen. Deformationsfelder haben jedoch Schwierigkeiten mit weiträumigen räumlichen Bewegungen, was die Fähigkeit zur Erzeugung hochwertiger 4D-Szenenrekonstruktionen mit solchen Bewegungen einschränkt. In diesem Artikel konzentrieren wir uns auf die 4D-Szenenrekonstruktion mit signifikanten räumlichen Objektbewegungen und schlagen einen neuen 4D-Rekonstruktions-Benchmark vor, WideRange4D. Dieser Benchmark umfasst umfangreiche 4D-Szenendaten mit großen räumlichen Variationen, was eine umfassendere Bewertung der Generierungsfähigkeiten von 4D-Generierungsmethoden ermöglicht. Darüber hinaus stellen wir eine neue 4D-Rekonstruktionsmethode vor, Progress4D, die stabile und hochwertige 4D-Ergebnisse bei verschiedenen komplexen 4D-Szenenrekonstruktionsaufgaben erzeugt. Wir führen sowohl quantitative als auch qualitative Vergleichsexperimente auf WideRange4D durch, die zeigen, dass unser Progress4D die bestehenden state-of-the-art 4D-Rekonstruktionsmethoden übertrifft. Projekt: https://github.com/Gen-Verse/WideRange4D
Videos, mit ihrer einzigartigen zeitlichen Dimension, erfordern ein präzises, fundiertes Verständnis, bei dem Antworten direkt mit visuellen, interpretierbaren Beweisen verknüpft sind. Trotz bedeutender Durchbrüche in den Denkfähigkeiten von Large Language Models bleibt multimodales Denken – insbesondere für Videos – weitgehend unerforscht. In dieser Arbeit stellen wir VideoMind vor, einen neuartigen Video-Sprache-Agenten, der für zeitlich fundiertes Video-Verständnis entwickelt wurde. VideoMind integriert zwei Schlüsselinnovationen: (i) Wir identifizieren wesentliche Fähigkeiten für zeitliches Video-Denken und entwickeln einen rollenbasierten agentenbasierten Workflow, der einen Planer zur Koordination verschiedener Rollen, einen Grounder zur zeitlichen Lokalisierung, einen Verifizierer zur Bewertung der Genauigkeit von Zeitintervallen und einen Antwortgeber für Frage-Antwort-Aufgaben umfasst. (ii) Um diese verschiedenen Rollen effizient zu integrieren, schlagen wir eine neuartige Chain-of-LoRA-Strategie vor, die nahtloses Rollenwechseln durch leichtgewichtige LoRA-Adapter ermöglicht, während der Overhead mehrerer Modelle vermieden wird, wodurch Effizienz und Flexibilität in Balance gehalten werden. Umfangreiche Experimente auf 14 öffentlichen Benchmarks zeigen, dass unser Agent state-of-the-art Leistung in verschiedenen Video-Verständnisaufgaben erreicht, darunter 3 in fundiertem Video-Frage-Antworten, 6 in zeitlicher Video-Lokalisierung und 5 in allgemeinem Video-Frage-Antworten, was seine Wirksamkeit bei der Weiterentwicklung von Video-Agenten und langfristigem zeitlichen Denken unterstreicht.
Belohnungsmodelle sind zu einem festen Bestandteil der modernen NLP geworden und dienen nicht nur als skalierbarer Textevaluator, sondern auch als unverzichtbare Komponente in vielen Alignment-Rezepten und Inferenzzeit-Algorithmen. Allerdings könnte die gesteigerte Leistung aktueller Belohnungsmodelle auf Standard-Benchmarks teilweise auf Überanpassungseffekte zurückzuführen sein, was das Verständnis ihrer tatsächlichen Fähigkeiten verfälschen würde. In dieser Arbeit untersuchen wir die Robustheit von Belohnungsmodellen und das Ausmaß solcher Überanpassung. Wir entwickeln **reWordBench**, das die Eingaben von Belohnungsmodellen systematisch auf bedeutungs- oder rangbewahrende Weise transformiert. Wir zeigen, dass state-of-the-art Belohnungsmodelle selbst bei geringfügigen Eingabetransformationen erhebliche Leistungseinbußen erleiden, manchmal sogar auf deutlich unterzufällige Genauigkeit abfallen, was auf eine gewisse Sprödigkeit hindeutet. Um die Robustheit von Belohnungsmodellen zu verbessern, schlagen wir vor, sie explizit darauf zu trainieren, ähnliche Bewertungen für Paraphrasen zu vergeben, und stellen fest, dass dieser Ansatz auch die Robustheit gegenüber anderen Arten von Transformationen verbessert. Zum Beispiel reduziert unser robustes Belohnungsmodell solche Leistungseinbußen für die Chat-Hard-Teilmenge in RewardBench um etwa die Hälfte. Darüber hinaus zeigen unsere robusten Belohnungsmodelle, wenn sie im Alignment eingesetzt werden, eine bessere Nutzbarkeit und führen zu qualitativ hochwertigeren Ausgaben, wobei sie in bis zu 59 % der Fälle gegen ein standardmäßig trainiertes Belohnungsmodell gewinnen.
Menschen verarbeiten Videoanalysen in einer sequenziellen räumlich-zeitlichen Logik. Zuerst identifizieren wir die relevanten Frames („wann“), analysieren dann die räumlichen Beziehungen („wo“) zwischen Schlüsselobjekten und nutzen schließlich diese Beziehungen, um Schlussfolgerungen zu ziehen („was“). Doch können Video Large Language Models (Video-LLMs) ebenfalls „durch eine sequenzielle räumlich-zeitliche Logik“ in Videos schlussfolgern? Bestehende Video-LLM-Benchmarks konzentrieren sich hauptsächlich auf die Bewertung der Objektpräsenz und vernachlässigen die relationale Schlussfolgerung. Folglich ist es schwierig zu messen, ob ein Modell die Interaktionen von Objekten (Handlungen/Ereignisse) in Videos tatsächlich versteht oder sich lediglich auf vorgefertigte „Erinnerungen“ von Kookkurrenzen als Verzerrungen bei der Generierung von Antworten verlässt. In dieser Arbeit führen wir einen Video Spatio-Temporal Reasoning (V-STaR) Benchmark ein, um diese Mängel zu beheben. Die zentrale Idee besteht darin, das Videoverständnis in eine Reverse Spatio-Temporal Reasoning (RSTR)-Aufgabe zu zerlegen, die gleichzeitig bewertet, welche Objekte vorhanden sind, wann Ereignisse stattfinden und wo sie lokalisiert sind, während die zugrunde liegende Chain-of-Thought (CoT)-Logik erfasst wird. Um diese Bewertung zu unterstützen, erstellen wir einen Datensatz, der den räumlich-zeitlichen Schlussfolgerungsprozess von Video-LLMs hervorruft. Er enthält grob- bis feingranulare CoT-Fragen, die durch eine halbautomatisierte, GPT-4-gestützte Pipeline generiert wurden und explizite Schlussfolgerungsketten einbetten, um die menschliche Kognition nachzuahmen. Experimente mit 14 Video-LLMs auf unserem V-STaR zeigen erhebliche Lücken zwischen den aktuellen Video-LLMs und den Anforderungen an robuste und konsistente räumlich-zeitliche Schlussfolgerungen auf.
Das Ausführen von Roboter-Greifvorgängen aus einem ungeordneten Behälter basierend auf menschlichen Anweisungen ist eine anspruchsvolle Aufgabe, da sie sowohl das Verständnis der Nuancen freier Sprache als auch der räumlichen Beziehungen zwischen Objekten erfordert. Vision-Language-Modelle (VLMs), die auf Web-Scale-Daten trainiert wurden, wie GPT-4o, haben bemerkenswerte Fähigkeiten in der Verarbeitung von Text und Bildern gezeigt. Aber können sie tatsächlich für diese Aufgabe in einem Zero-Shot-Setting verwendet werden? Und was sind ihre Grenzen? In diesem Papier untersuchen wir diese Forschungsfragen anhand der Aufgabe des freien sprachbasierten Roboter-Greifens und schlagen eine neue Methode, FreeGrasp, vor, die das Weltwissen der vortrainierten VLMs nutzt, um menschliche Anweisungen und räumliche Anordnungen von Objekten zu interpretieren. Unsere Methode erkennt alle Objekte als Keypoints und verwendet diese Keypoints, um Markierungen auf Bildern zu annotieren, um die Zero-Shot-räumliche Argumentation von GPT-4o zu erleichtern. Dies ermöglicht es unserer Methode, zu bestimmen, ob ein angefragtes Objekt direkt greifbar ist oder ob andere Objekte zuerst gegriffen und entfernt werden müssen. Da kein bestehender Datensatz speziell für diese Aufgabe entwickelt wurde, führen wir einen synthetischen Datensatz, FreeGraspData, ein, indem wir den MetaGraspNetV2-Datensatz mit menschlich annotierten Anweisungen und Ground-Truth-Greifsequenzen erweitern. Wir führen umfangreiche Analysen mit FreeGraspData durch und validieren die Methode in der realen Welt mit einem Roboterarm, der mit einem Greifer ausgestattet ist, und zeigen dabei state-of-the-art Leistungen in der Greifargumentation und -ausführung. Projektwebsite: https://tev-fbk.github.io/FreeGrasp/.
Die Ausrichtung generierter Bilder an komplexe Textprompts und menschliche Präferenzen stellt eine zentrale Herausforderung im Bereich der Künstlichen Intelligenz-generierten Inhalte (AIGC) dar. Mit der aufkommenden Belohnungs-verstärkten Diffusionsdestillation als vielversprechendem Ansatz, der die Steuerbarkeit und Treue von Text-zu-Bild-Modellen verbessert, identifizieren wir einen grundlegenden Paradigmenwechsel: Wenn die Bedingungen spezifischer und die Belohnungssignale stärker werden, übernehmen die Belohnungen selbst die dominierende Rolle bei der Generierung. Im Gegensatz dazu dienen die Diffusionsverluste als eine übermäßig teure Form der Regularisierung. Um unsere Hypothese umfassend zu validieren, führen wir R0 ein, einen neuartigen Ansatz zur bedingten Generierung durch regularisierte Belohnungsmaximierung. Anstatt sich auf knifflige Diffusionsdestillationsverluste zu verlassen, schlägt R0 eine neue Perspektive vor, die die Bildgenerierung als ein Optimierungsproblem im Datenraum behandelt, das darauf abzielt, gültige Bilder mit hohen kompositionellen Belohnungen zu finden. Durch innovative Designs der Generatorparametrisierung und geeignete Regularisierungstechniken trainieren wir state-of-the-art Text-zu-Bild-Generationsmodelle mit wenigen Schritten in großem Maßstab mit R0. Unsere Ergebnisse stellen die konventionelle Weisheit der Diffusionsnachschulung und der bedingten Generierung in Frage, indem sie zeigen, dass Belohnungen in Szenarien mit komplexen Bedingungen eine dominante Rolle spielen. Wir hoffen, dass unsere Erkenntnisse zu weiteren Forschungen in humanzentrierten und belohnungszentrierten Generationsparadigmen im breiteren Feld der AIGC beitragen können. Der Code ist verfügbar unter https://github.com/Luo-Yihong/R0.
Video-Inpainting beinhaltet die Modifikation lokaler Bereiche innerhalb eines Videos unter Wahrung der räumlichen und zeitlichen Konsistenz. Die meisten bestehenden Methoden konzentrieren sich hauptsächlich auf die Szenenvervollständigung (d.h. das Füllen fehlender Bereiche) und verfügen nicht über die Fähigkeit, neue Objekte auf kontrollierte Weise in eine Szene einzufügen. Glücklicherweise ebnen jüngste Fortschritte in Text-zu-Video (T2V) Diffusionsmodellen den Weg für textgesteuertes Video-Inpainting. Die direkte Anpassung von T2V-Modellen für Inpainting bleibt jedoch in der Vereinheitlichung von Vervollständigungs- und Einfügungsaufgaben begrenzt, bietet keine ausreichende Eingabesteuerung und hat Schwierigkeiten mit langen Videos, wodurch ihre Anwendbarkeit und Flexibilität eingeschränkt werden. Um diese Herausforderungen zu bewältigen, schlagen wir MTV-Inpaint vor, ein einheitliches Multi-Task-Video-Inpainting-Framework, das sowohl traditionelle Szenenvervollständigung als auch neuartige Objekteinfügungsaufgaben bewältigen kann. Um diese unterschiedlichen Aufgaben zu vereinheitlichen, entwerfen wir einen dualen Zweig-Spatial-Attention-Mechanismus im T2V-Diffusions-U-Net, der die nahtlose Integration von Szenenvervollständigung und Objekteinfügung innerhalb eines einzigen Frameworks ermöglicht. Neben der textuellen Steuerung unterstützt MTV-Inpaint die multimodale Kontrolle durch die Integration verschiedener Bild-Inpainting-Modelle über unseren vorgeschlagenen Bild-zu-Video (I2V) Inpainting-Modus. Zusätzlich schlagen wir eine zweistufige Pipeline vor, die Keyframe-Inpainting mit der Zwischenframe-Propagation kombiniert, wodurch MTV-Inpaint effektiv lange Videos mit Hunderten von Frames verarbeiten kann. Umfangreiche Experimente zeigen, dass MTV-Inpaint in beiden Aufgaben, der Szenenvervollständigung und der Objekteinfügung, state-of-the-art Leistungen erzielt. Darüber hinaus zeigt es Vielseitigkeit in abgeleiteten Anwendungen wie multimodales Inpainting, Objektbearbeitung, -entfernung, Bildobjektpinsel und der Fähigkeit, lange Videos zu verarbeiten. Projektseite: https://mtv-inpaint.github.io/.
Die Video-zu-Audio-Synthese, die synchronisierte Audiodaten für visuelle Inhalte erzeugt, verbessert entscheidend die Immersion der Zuschauer und die narrative Kohärenz in Film und interaktiven Medien. Dennoch bleibt die Video-zu-Audio-Synchronisation für langformatige Inhalte eine ungelöste Herausforderung aufgrund dynamischer semantischer Verschiebungen, zeitlicher Fehlausrichtung und des Mangels an speziellen Datensätzen. Während bestehende Methoden bei kurzen Videos hervorragende Ergebnisse liefern, scheitern sie in langen Szenarien (z.B. Filmen) aufgrund fragmentierter Synthese und unzureichender konsistenter Übergänge zwischen Szenen. Wir stellen LVAS-Agent vor, ein neuartiges Multi-Agenten-Framework, das professionelle Synchronisationsabläufe durch kollaborative Rollenspezialisierung nachahmt. Unser Ansatz zerlegt die Langvideo-Synthese in vier Schritte: Szenensegmentierung, Skripterstellung, Sounddesign und Audio-Synthese. Zentrale Innovationen umfassen einen Diskussions-Korrektur-Mechanismus zur Verfeinerung von Szenen/Skripten und eine Generierungs-Retrieval-Schleife für zeitlich-semantische Ausrichtung. Um eine systematische Bewertung zu ermöglichen, führen wir LVAS-Bench ein, den ersten Benchmark mit 207 professionell kuratierten Langvideos, die verschiedene Szenarien abdecken. Experimente zeigen eine überlegene audiovisuelle Ausrichtung im Vergleich zu Baseline-Methoden. Projektseite: https://lvas-agent.github.io
Oft unterscheiden sich die Bedürfnisse und visuellen Fähigkeiten zwischen der Annotatorengruppe und der Endnutzergruppe. Die Erstellung detaillierter Diagrammbeschreibungen für blinde und sehbehinderte (BLV) Nutzer stellt eine solche herausfordernde Domäne dar. Sehende Annotatoren könnten visuelle Inhalte mühelos beschreiben, doch bestehende Studien haben gezeigt, dass direkte Erstellungen durch sie kostspielig, anfällig für Verzerrungen und nach BLV-Maßstäben etwas unzureichend sind. In dieser Studie bitten wir sehende Personen, Diagrammbeschreibungen zu bewerten – anstatt sie zu erstellen –, die von Vision-Language-Modellen (VLM) generiert wurden, die durch latente Überwachung mittels eines Mehrfach-Inferenzprozesses geleitet wurden. Die Bewertungen durch Sehende erweisen sich als effektiv und nützlich für professionelle Pädagogen, die selbst BLV sind und sehbehinderte Lernende unterrichten. Wir veröffentlichen Sightation, eine Sammlung von Diagrammbeschreibungsdatensätzen, die 5.000 Diagramme und 137.000 Beispiele für Vervollständigung, Präferenz, Retrieval, Fragebeantwortung und Denktraining umfassen, und demonstrieren deren Feinabstimmungspotenzial in verschiedenen nachgelagerten Aufgaben.
Video Foundation Models (VFMs) wurden kürzlich eingesetzt, um die reale Welt zu simulieren, um physikalische KI-Systeme zu trainieren und kreative visuelle Erfahrungen zu entwickeln. Es gibt jedoch erhebliche Herausforderungen bei der Ausbildung groß angelegter, hochwertiger VFMs, die qualitativ hochwertige Videos generieren können. Wir präsentieren eine skalierbare, Open-Source-VFM-Trainingspipeline mit NVIDIA NeMo, die eine beschleunigte Kuratierung von Videodatensätzen, multimodales Datenladen sowie parallelisiertes Training und Inferenz von Video-Diffusionsmodellen ermöglicht. Zudem bieten wir eine umfassende Leistungsanalyse, die Best Practices für effizientes VFM-Training und -Inferenz hervorhebt.
Eine Vielzahl von autoregressiven Video-Diffusionsmodellen (ARVDM) hat bemerkenswerte Erfolge bei der Erzeugung realistischer Langformvideos erzielt. Theoretische Analysen dieser Modelle sind jedoch nach wie vor rar. In dieser Arbeit entwickeln wir theoretische Grundlagen für diese Modelle und nutzen unsere Erkenntnisse, um die Leistung bestehender Modelle zu verbessern. Zunächst entwickeln wir Meta-ARVDM, ein einheitliches Framework für ARVDMs, das die meisten bestehenden Methoden umfasst. Mit Meta-ARVDM analysieren wir die KL-Divergenz zwischen den von Meta-ARVDM erzeugten Videos und den tatsächlichen Videos. Unsere Analyse deckt zwei wichtige Phänomene auf, die ARVDM inhärent sind – Fehlerakkumulation und Speicher-Engpass. Durch die Ableitung eines informationstheoretischen Unmöglichkeitsergebnisses zeigen wir, dass das Phänomen des Speicher-Engpasses nicht vermieden werden kann. Um den Speicher-Engpass zu mildern, entwerfen wir verschiedene Netzwerkstrukturen, um explizit mehr vergangene Frames zu nutzen. Wir erreichen auch eine deutlich verbesserte Balance zwischen der Milderung des Speicher-Engpasses und der Inferenzeffizienz durch die Komprimierung der Frames. Experimentelle Ergebnisse auf DMLab und Minecraft bestätigen die Wirksamkeit unserer Methoden. Unsere Experimente zeigen auch eine Pareto-Front zwischen der Fehlerakkumulation und dem Speicher-Engpass bei verschiedenen Methoden.
Stereo-Bilder sind grundlegend für zahlreiche Anwendungen, einschließlich Extended-Reality (XR)-Geräten, autonomen Fahren und Robotik. Leider bleibt die Erfassung hochwertiger Stereo-Bilder aufgrund der präzisen Kalibrierungsanforderungen von Dual-Kamera-Setups und der Komplexität der Erstellung genauer, dichter Disparitätskarten eine Herausforderung. Bisherige Methoden zur Stereo-Bildgenerierung konzentrieren sich typischerweise entweder auf die visuelle Qualität für die Betrachtung oder die geometrische Genauigkeit für die Zuordnung, jedoch nicht auf beides. Wir stellen GenStereo vor, einen diffusionsbasierten Ansatz, der diese Lücke schließt. Die Methode umfasst zwei wesentliche Innovationen: (1) die Konditionierung des Diffusionsprozesses auf eine disparitätsbewusste Koordinaten-Einbettung und ein verzerrtes Eingabebild, wodurch eine präzisere Stereo-Ausrichtung als bei bisherigen Methoden ermöglicht wird, und (2) einen adaptiven Fusionsmechanismus, der das diffusionsgenerierte Bild intelligent mit einem verzerrten Bild kombiniert, wodurch sowohl der Realismus als auch die Disparitätskonsistenz verbessert werden. Durch umfangreiches Training auf 11 verschiedenen Stereo-Datensätzen zeigt GenStereo eine starke Generalisierungsfähigkeit. GenStereo erreicht Spitzenleistungen sowohl in der Stereo-Bildgenerierung als auch in unüberwachten Stereo-Zuordnungsaufgaben. Unser Framework eliminiert die Notwendigkeit komplexer Hardware-Setups und ermöglicht gleichzeitig die Generierung hochwertiger Stereo-Bilder, was es sowohl für reale Anwendungen als auch für unüberwachte Lernszenarien wertvoll macht. Die Projektseite ist unter https://qjizhi.github.io/genstereo verfügbar.
Aktuelle Arbeiten haben versucht, die Unsicherheit großer Sprachmodelle zu quantifizieren, um die Modellsteuerung zu erleichtern und das Vertrauen der Nutzer zu modulieren. Bisherige Arbeiten konzentrieren sich auf Unsicherheitsmaße, die theoretisch fundiert sind oder das durchschnittliche offene Verhalten des Modells widerspiegeln. In dieser Arbeit untersuchen wir eine Vielzahl von Unsicherheitsmaßen, um solche zu identifizieren, die mit der Unsicherheit auf Gruppenebene beim Menschen korrelieren. Wir stellen fest, dass bayessche Maße und eine Variante von Entropiemaßen, die Top-k-Entropie, tendenziell mit dem menschlichen Verhalten als Funktion der Modellgröße übereinstimmen. Wir beobachten, dass einige starke Maße mit zunehmender Modellgröße in ihrer Ähnlichkeit zum Menschen abnehmen. Durch multiple lineare Regression zeigen wir jedoch, dass die Kombination mehrerer Unsicherheitsmaße eine vergleichbare Ausrichtung am menschlichen Verhalten mit reduzierter Größenabhängigkeit ermöglicht.
Traditionelle White-Box-Methoden zur Erzeugung von adversariellen Störungen gegen LLMs stützen sich typischerweise nur auf die Gradientenberechnung des Zielmodells und ignorieren dabei die internen Mechanismen, die für den Erfolg oder Misserfolg eines Angriffs verantwortlich sind. Im Gegensatz dazu fehlen Interpretierbarkeitsstudien, die diese internen Mechanismen analysieren, praktische Anwendungen über Laufzeitinterventionen hinaus. Wir schließen diese Lücke, indem wir einen neuartigen White-Box-Ansatz einführen, der mechanistische Interpretierbarkeitstechniken nutzt, um praktische adversarielle Eingaben zu erstellen. Konkret identifizieren wir zunächst Akzeptanzunterräume – Mengen von Feature-Vektoren, die die Ablehnungsmechanismen des Modells nicht auslösen – und verwenden dann gradientenbasierte Optimierung, um Embeddings von Ablehnungsunterräumen in Akzeptanzunterräume umzuleiten, wodurch effektiv Jailbreaks erreicht werden. Dieser gezielte Ansatz reduziert die Rechenkosten erheblich und erreicht Angriffserfolgsraten von 80-95\% bei state-of-the-art Modellen wie Gemma2, Llama3.2 und Qwen2.5 innerhalb von Minuten oder sogar Sekunden, im Vergleich zu bestehenden Techniken, die oft scheitern oder Stunden an Rechenzeit erfordern. Wir glauben, dass dieser Ansatz eine neue Richtung für sowohl Angriffsforschung als auch Verteidigungsentwicklung eröffnet. Darüber hinaus zeigt er eine praktische Anwendung der mechanistischen Interpretierbarkeit, bei der andere Methoden weniger effizient sind, was ihren Nutzen unterstreicht. Der Code und die generierten Datensätze sind unter https://github.com/Sckathach/subspace-rerouting verfügbar.
Die Psychologie hat seit langem eine grundlegende Ebene der Kategorisierung anerkannt, die Menschen bei der Benennung visueller Reize verwenden, ein Begriff, der 1976 von Rosch geprägt wurde. Es wurde festgestellt, dass diese Kategorisierungsebene am häufigsten verwendet wird, eine höhere Informationsdichte aufweist und bei visuellen Sprachaufgaben mit Priming bei Menschen hilfreich ist. Hier untersuchen wir die grundlegende Kategorisierungsebene in zwei kürzlich veröffentlichten, quelloffenen Vision-Language-Modellen (VLMs). Diese Arbeit zeigt, dass sowohl Llama 3.2 Vision Instruct (11B) als auch Molmo 7B-D eine grundlegende Kategorisierungsebene bevorzugen, die mit dem menschlichen Verhalten übereinstimmt. Darüber hinaus stimmen die Präferenzen der Modelle mit subtilen menschlichen Verhaltensweisen überein, wie den biologischen versus nicht-biologischen grundlegenden Effekten und der gut etablierten Expertenverschiebung auf der grundlegenden Ebene, was weiter darauf hindeutet, dass VLMs kognitive Kategorisierungsverhalten aus den menschlichen Daten erwerben, auf denen sie trainiert wurden.
Die jüngsten rasanten Fortschritte in der Text-zu-Video-Generierung (T2V), wie SoRA und Kling, haben großes Potenzial für die Entwicklung von Weltsimulatoren gezeigt. Allerdings haben aktuelle T2V-Modelle Schwierigkeiten, abstrakte physikalische Prinzipien zu erfassen und Videos zu erzeugen, die den physikalischen Gesetzen entsprechen. Diese Herausforderung ergibt sich hauptsächlich aus einem Mangel an klarer Anleitung zu physikalischen Informationen, bedingt durch eine erhebliche Lücke zwischen abstrakten physikalischen Prinzipien und Generierungsmodellen. Um dies zu adressieren, stellen wir den World Simulator Assistant (WISA) vor, ein effektives Framework zur Zerlegung und Integration physikalischer Prinzipien in T2V-Modelle. Konkret zerlegt WISA physikalische Prinzipien in textuelle physikalische Beschreibungen, qualitative physikalische Kategorien und quantitative physikalische Eigenschaften. Um diese physikalischen Attribute effektiv in den Generierungsprozess einzubetten, integriert WISA mehrere Schlüsseldesigns, darunter Mixture-of-Physical-Experts Attention (MoPA) und einen Physical Classifier, die das physikalische Bewusstsein des Modells verbessern. Darüber hinaus weisen die meisten bestehenden Datensätze Videos auf, in denen physikalische Phänomene entweder schwach repräsentiert sind oder mit mehreren gleichzeitig auftretenden Prozessen verflochten sind, was ihre Eignung als dedizierte Ressourcen für das Erlernen expliziter physikalischer Prinzipien einschränkt. Wir schlagen einen neuartigen Videodatensatz vor, WISA-32K, der auf qualitativen physikalischen Kategorien basiert. Er besteht aus 32.000 Videos, die 17 physikalische Gesetze in drei Bereichen der Physik repräsentieren: Dynamik, Thermodynamik und Optik. Experimentelle Ergebnisse zeigen, dass WISA die Kompatibilität von T2V-Modellen mit den physikalischen Gesetzen der realen Welt effektiv verbessern kann und eine beträchtliche Steigerung auf dem VideoPhy-Benchmark erreicht. Die visuellen Darstellungen von WISA und WISA-32K sind unter https://360cvgroup.github.io/WISA/ verfügbar.