Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Inspiriert vom Erfolg von DeepSeek-R1 bei der Förderung von Fähigkeiten zur logischen Schlussfolgerung durch regelbasiertes Reinforcement Learning (RL), stellen wir Video-R1 als ersten systematischen Versuch vor, das R1-Paradigma zur Förderung von Video-Schlussfolgerungen in multimodalen großen Sprachmodellen (MLLMs) zu erforschen. Die direkte Anwendung von RL-Training mit dem GRPO-Algorithmus auf Video-Schlussfolgerungen stellt jedoch zwei Hauptherausforderungen dar: (i) das Fehlen einer zeitlichen Modellierung für Video-Schlussfolgerungen und (ii) die Knappheit an hochwertigen Daten für Video-Schlussfolgerungen. Um diese Probleme zu lösen, schlagen wir zunächst den T-GRPO-Algorithmus vor, der Modelle dazu anregt, zeitliche Informationen in Videos für Schlussfolgerungen zu nutzen. Zusätzlich integrieren wir, anstatt uns ausschließlich auf Videodaten zu verlassen, hochwertige Bild-Schlussfolgerungsdaten in den Trainingsprozess. Wir haben zwei Datensätze erstellt: Video-R1-COT-165k für den SFT-Kaltstart und Video-R1-260k für das RL-Training, die beide Bild- und Videodaten umfassen. Experimentelle Ergebnisse zeigen, dass Video-R1 signifikante Verbesserungen bei Video-Schlussfolgerungs-Benchmarks wie VideoMMMU und VSI-Bench sowie bei allgemeinen Video-Benchmarks wie MVBench und TempCompass erzielt. Bemerkenswert ist, dass Video-R1-7B eine Genauigkeit von 35,8 % beim Video-Raum-Schlussfolgerungs-Benchmark VSI-bench erreicht und damit das kommerzielle proprietäre Modell GPT-4o übertrifft. Alle Codes, Modelle und Daten werden veröffentlicht.
Die Ära der intelligenten Agenten ist angebrochen, angetrieben durch revolutionäre Fortschritte bei großen Sprachmodellen. Large Language Model (LLM)-Agenten mit zielgerichteten Verhaltensweisen und dynamischen Anpassungsfähigkeiten könnten einen entscheidenden Weg zur künstlichen allgemeinen Intelligenz darstellen. Diese Übersichtsarbeit dekonstruiert systematisch LLM-Agentensysteme anhand einer methodenzentrierten Taxonomie, die architektonische Grundlagen, Kollaborationsmechanismen und evolutionäre Pfade miteinander verbindet. Wir vereinen fragmentierte Forschungsstränge, indem wir grundlegende Zusammenhänge zwischen Agenten-Designprinzipien und ihren emergenten Verhaltensweisen in komplexen Umgebungen aufdecken. Unsere Arbeit bietet eine einheitliche architektonische Perspektive, die untersucht, wie Agenten konstruiert werden, wie sie zusammenarbeiten und wie sie sich im Laufe der Zeit entwickeln, wobei auch Evaluierungsmethoden, Werkzeugeinsätze, praktische Herausforderungen und diverse Anwendungsbereiche behandelt werden. Durch die Untersuchung der neuesten Entwicklungen in diesem sich schnell wandelnden Feld bieten wir Forschern eine strukturierte Taxonomie zum Verständnis von LLM-Agenten und identifizieren vielversprechende Richtungen für zukünftige Forschung. Die Sammlung ist verfügbar unter https://github.com/luo-junyu/Awesome-Agent-Papers.
Der kürzlich vorgestellte DeepSeek-R1 hat das Entstehen von Fähigkeiten zur logischen Schlussfolgerung in großen Sprachmodellen (LLMs) durch Reinforcement Learning (RL) mit regelbasierten Belohnungen demonstriert. Aufbauend auf dieser Idee sind wir die Ersten, die untersuchen, wie regelbasiertes RL die Fähigkeiten zur logischen Schlussfolgerung von multimodalen großen Sprachmodellen (MLLMs) für Aufgaben zur Vorhersage von Aktionen in grafischen Benutzeroberflächen (GUIs) verbessern kann. Zu diesem Zweck haben wir einen kleinen, aber hochwertigen Datensatz mit 136 anspruchsvollen Aufgaben erstellt, die fünf gängige Aktionstypen auf Mobilgeräten umfassen. Wir führen auch eine einheitliche regelbasierte Aktionsbelohnung ein, die eine Modelloptimierung über policy-basierte Algorithmen wie Group Relative Policy Optimization (GRPO) ermöglicht. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes dateneffizientes Modell, UI-R1-3B, erhebliche Verbesserungen bei sowohl domäneninternen (ID) als auch domänenexternen (OOD) Aufgaben erzielt. Insbesondere verbessert sich auf dem ID-Benchmark AndroidControl die Genauigkeit der Aktionstypen um 15 %, während die Genauigkeit der Verankerung um 10,3 % im Vergleich zum Basismodell (d.h. Qwen2.5-VL-3B) steigt. Auf dem OOD-GUI-Verankerungsbenchmark ScreenSpot-Pro übertrifft unser Modell das Basismodell um 6,0 % und erreicht eine wettbewerbsfähige Leistung mit größeren Modellen (z.B. OS-Atlas-7B), die durch überwachte Feinabstimmung (SFT) auf 76K Daten trainiert wurden. Diese Ergebnisse unterstreichen das Potenzial von regelbasiertem Reinforcement Learning, das Verständnis und die Steuerung von GUIs voranzutreiben, und ebnen den Weg für zukünftige Forschung in diesem Bereich.
In den letzten Jahren hat die rasante Entwicklung großer Reasoning-Modelle zur Sättigung bestehender Benchmarks für die Bewertung mathematischen Denkens geführt, was den dringenden Bedarf an anspruchsvolleren und rigoroseren Evaluierungsrahmen verdeutlicht. Um diese Lücke zu schließen, stellen wir OlymMATH vor, einen neuartigen Benchmark auf Olympiaden-Niveau, der darauf abzielt, die komplexen Reasoning-Fähigkeiten von LLMs (Large Language Models) rigoros zu testen. OlymMATH umfasst 200 sorgfältig kuratierte Aufgaben, die manuell überprüft und in parallelen englischen und chinesischen Versionen verfügbar sind. Die Aufgaben sind systematisch in zwei unterschiedliche Schwierigkeitsstufen unterteilt: (1) AIME-Level-Aufgaben (einfach), die eine Baseline für die Bewertung mathematischen Denkens schaffen, und (2) deutlich anspruchsvollere Aufgaben (schwierig), die die Grenzen der aktuellen State-of-the-Art-Modelle ausloten sollen. In unserem Benchmark decken diese Aufgaben vier zentrale mathematische Bereiche ab, wobei jede Aufgabe eine überprüfbare numerische Lösung enthält, um eine objektive, regelbasierte Bewertung zu ermöglichen. Empirische Ergebnisse unterstreichen die erhebliche Herausforderung, die OlymMATH darstellt, wobei State-of-the-Art-Modelle wie DeepSeek-R1 und OpenAI's o3-mini auf den schwierigen Aufgaben nur begrenzte Genauigkeit zeigen. Darüber hinaus ermöglicht der Benchmark eine umfassende bilinguale Bewertung mathematischer Denkfähigkeiten – ein kritischer Aspekt, der in gängigen Benchmarks für mathematisches Denken weitgehend unberücksichtigt bleibt. Wir veröffentlichen den OlymMATH-Benchmark im Rahmen des STILL-Projekts: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
Die Videogenerierung hat sich erheblich weiterentwickelt und ist von der Erzeugung unrealistischer Ergebnisse zur Generierung visuell überzeugender und zeitlich kohärenter Videos fortgeschritten. Um diese videogenerativen Modelle zu bewerten, wurden Benchmarks wie VBench entwickelt, die deren Treue messen, indem Faktoren wie die Ästhetik pro Frame, zeitliche Konsistenz und grundlegende Prompt-Einhaltung bewertet werden. Diese Aspekte repräsentieren jedoch hauptsächlich oberflächliche Treue, die sich darauf konzentrieren, ob das Video visuell überzeugend erscheint, anstatt ob es den Prinzipien der realen Welt entspricht. Während aktuelle Modelle bei diesen Metriken zunehmend gut abschneiden, haben sie immer noch Schwierigkeiten, Videos zu generieren, die nicht nur visuell plausibel, sondern grundlegend realistisch sind. Um echte „Weltmodelle“ durch Videogenerierung zu erreichen, liegt die nächste Herausforderung in der intrinsischen Treue, um sicherzustellen, dass generierte Videos physikalischen Gesetzen, gesundem Menschenverstand, anatomischer Korrektheit und kompositorischer Integrität entsprechen. Die Erreichung dieses Realismusgrades ist entscheidend für Anwendungen wie KI-gestütztes Filmemachen und simulierte Weltmodellierung. Um diese Lücke zu schließen, stellen wir VBench-2.0 vor, einen Benchmark der nächsten Generation, der entwickelt wurde, um videogenerative Modelle automatisch auf ihre intrinsische Treue hin zu bewerten. VBench-2.0 bewertet fünf Schlüsseldimensionen: Menschliche Treue, Steuerbarkeit, Kreativität, Physik und gesunder Menschenverstand, die jeweils in fein abgestufte Fähigkeiten unterteilt sind. Unser Bewertungsrahmen, der auf individuelle Dimensionen zugeschnitten ist, integriert Generalisten wie state-of-the-art VLMs und LLMs sowie Spezialisten, einschließlich Anomalieerkennungsmethoden, die für die Videogenerierung vorgeschlagen wurden. Wir führen umfangreiche Annotationen durch, um die Übereinstimmung mit menschlichen Urteilen sicherzustellen. Indem VBench-2.0 über oberflächliche Treue hinaus zur intrinsischen Treue vorstößt, zielt es darauf ab, einen neuen Standard für die nächste Generation videogenerativer Modelle im Streben nach intrinsischer Treue zu setzen.
Große Reasoning-Modelle (LRMs) zeigen bemerkenswerte Fähigkeiten im logischen Schließen, stützen sich jedoch hauptsächlich auf parametrisches Wissen, was die faktische Genauigkeit einschränkt. Obwohl neuere Arbeiten LRMs, die auf Reinforcement Learning (RL) basieren, mit Retrieval-Fähigkeiten ausstatten, leiden diese unter Überdenken und mangelnder Robustheit im logischen Schließen, was ihre Effektivität bei Frage-Antwort-Aufgaben (QA) verringert. Um dies zu adressieren, schlagen wir ReaRAG vor, ein faktualitätsgestärktes Reasoning-Modell, das verschiedene Abfragen ohne übermäßige Iterationen untersucht. Unsere Lösung umfasst ein neuartiges Datenkonstruktionsframework mit einer Obergrenze für die Länge der Reasoning-Kette. Konkret nutzen wir zunächst ein LRM, um gezieltes Denken zu generieren, und wählen dann eine Aktion aus einem vordefinierten Aktionsraum (Suchen und Beenden). Bei der Suchaktion wird eine Abfrage gegen die RAG-Engine ausgeführt, wobei das Ergebnis als Beobachtung zurückgegeben wird, um spätere Reasoning-Schritte zu leiten. Dieser Prozess wiederholt sich, bis eine Beenden-Aktion gewählt wird. Dank der starken Reasoning-Fähigkeiten von ReaRAG übertrifft unser Ansatz bestehende Baselines bei mehrstufigen QA-Aufgaben. Eine weitere Analyse hebt seine starke reflexive Fähigkeit hervor, Fehler zu erkennen und seine Reasoning-Trajektorie zu verfeinern. Unsere Studie verbessert die Faktualität von LRMs und integriert gleichzeitig robustes Reasoning effektiv für Retrieval-Augmented Generation (RAG).
Wir stellen LeX-Art vor, eine umfassende Suite für hochwertige Text-Bild-Synthese, die systematisch die Lücke zwischen Prompt-Ausdruckskraft und Textwiedergabetreue schließt. Unser Ansatz folgt einem datenzentrierten Paradigma und konstruiert eine hochwertige Daten-Synthese-Pipeline basierend auf Deepseek-R1, um LeX-10K zu kuratieren, einen Datensatz mit 10.000 hochauflösenden, ästhetisch verfeinerten 1024x1024 Bildern. Über die Datensatzerstellung hinaus entwickeln wir LeX-Enhancer, ein robustes Prompt-Anreicherungsmodell, und trainieren zwei Text-zu-Bild-Modelle, LeX-FLUX und LeX-Lumina, die state-of-the-art Leistung in der Textwiedergabe erreichen. Um die visuelle Textgenerierung systematisch zu bewerten, führen wir LeX-Bench ein, einen Benchmark, der Treue, Ästhetik und Ausrichtung bewertet, ergänzt durch Pairwise Normalized Edit Distance (PNED), eine neuartige Metrik zur robusten Bewertung der Textgenauigkeit. Experimente zeigen signifikante Verbesserungen, wobei LeX-Lumina eine PNED-Steigerung von 79,81 % auf CreateBench erreicht und LeX-FLUX die Baselines in Farbgenauigkeit (+3,18 %), Positionsgenauigkeit (+4,45 %) und Schriftgenauigkeit (+3,81 %) übertrifft. Unsere Codes, Modelle, Datensätze und Demo sind öffentlich verfügbar.
Echtzeit-interaktive Video-Chat-Porträts werden zunehmend als zukünftiger Trend anerkannt, insbesondere aufgrund der bemerkenswerten Fortschritte in der Text- und Sprach-Chat-Technologie. Bisherige Methoden konzentrieren sich jedoch hauptsächlich auf die Echtzeiterzeugung von Kopfbewegungen, haben aber Schwierigkeiten, synchronisierte Körperbewegungen zu erzeugen, die zu diesen Kopfbewegungen passen. Darüber hinaus bleibt die fein abgestimmte Steuerung des Sprechstils und der Nuancen der Gesichtsausdrücke eine Herausforderung. Um diese Einschränkungen zu überwinden, stellen wir ein neuartiges Framework für die stilvolle Echtzeiterzeugung von Porträtvideos vor, das ausdrucksstarke und flexible Video-Chats ermöglicht, die von sprechenden Köpfen bis hin zur Interaktion des Oberkörpers reichen. Unser Ansatz besteht aus den folgenden zwei Stufen. Die erste Stufe umfasst effiziente hierarchische Bewegungsdiffusionsmodelle, die sowohl explizite als auch implizite Bewegungsrepräsentationen auf Basis von Audioeingaben berücksichtigen. Diese können eine Vielzahl von Gesichtsausdrücken mit stilistischer Kontrolle und Synchronisation zwischen Kopf- und Körperbewegungen erzeugen. Die zweite Stufe zielt darauf ab, Porträtvideos mit Oberkörperbewegungen, einschließlich Handgesten, zu generieren. Wir fügen explizite Handsteuerungssignale in den Generator ein, um detailliertere Handbewegungen zu erzeugen, und führen zusätzlich eine Gesichtsverfeinerung durch, um den Gesamtrealismus und die Ausdruckskraft des Porträtvideos zu verbessern. Darüber hinaus unterstützt unser Ansatz die effiziente und kontinuierliche Erzeugung von Oberkörper-Porträtvideos in einer maximalen Auflösung von 512 * 768 bei bis zu 30 Bildern pro Sekunde auf einer 4090 GPU, was Echtzeit-Interaktionen im Video-Chat ermöglicht. Experimentelle Ergebnisse demonstrieren die Fähigkeit unseres Ansatzes, Porträtvideos mit reichhaltiger Ausdruckskraft und natürlichen Oberkörperbewegungen zu erzeugen.
Wir stellen Lumina-Image 2.0 vor, ein fortschrittliches Text-zu-Bild-Generierungsframework, das im Vergleich zum Vorgänger Lumina-Next bedeutende Fortschritte erzielt. Lumina-Image 2.0 basiert auf zwei zentralen Prinzipien: (1) Vereinheitlichung – es verwendet eine einheitliche Architektur (Unified Next-DiT), die Text- und Bild-Token als eine gemeinsame Sequenz behandelt, wodurch natürliche cross-modale Interaktionen ermöglicht und eine nahtlose Aufgabenausweitung erleichtert wird. Darüber hinaus führen wir, da hochwertige Bildbeschreibungsmodelle semantisch gut abgestimmte Text-Bild-Trainingspaare liefern können, ein einheitliches Beschreibungssystem, Unified Captioner (UniCap), speziell für Text-zu-Bild-Generierungsaufgaben ein. UniCap zeichnet sich durch die Erstellung umfassender und präziser Beschreibungen aus, was die Konvergenz beschleunigt und die Prompt-Treue verbessert. (2) Effizienz – um die Effizienz unseres vorgeschlagenen Modells zu steigern, entwickeln wir mehrstufige progressive Trainingsstrategien und führen Inferenzbeschleunigungstechniken ein, ohne die Bildqualität zu beeinträchtigen. Umfangreiche Evaluierungen auf akademischen Benchmarks und öffentlichen Text-zu-Bild-Plattformen zeigen, dass Lumina-Image 2.0 selbst mit nur 2,6 Milliarden Parametern starke Leistungen erbringt, was seine Skalierbarkeit und Designeffizienz unterstreicht. Wir haben unsere Trainingsdetails, den Code und die Modelle unter https://github.com/Alpha-VLLM/Lumina-Image-2.0 veröffentlicht.
Jüngste Fortschritte in Deep-Thinking-Modellen haben bemerkenswerte Fähigkeiten bei mathematischen und Programmieraufgaben demonstriert. Ihre Wirksamkeit in verkörperten Domänen, die kontinuierliche Interaktion mit Umgebungen durch bildgestützte Handlungssequenzen erfordern, bleibt jedoch weitgehend unerforscht. Wir präsentieren Embodied Reasoner, ein Modell, das den o1-Stil des Schlussfolgerns auf interaktive verkörperte Suchaufgaben erweitert. Im Gegensatz zum mathematischen Denken, das sich hauptsächlich auf logische Deduktion stützt, erfordern verkörperte Szenarien räumliches Verständnis, zeitliches Denken und kontinuierliche Selbstreflexion basierend auf der Interaktionshistorie. Um diese Herausforderungen zu bewältigen, synthetisieren wir 9.3k kohärente Beobachtungs-Denk-Handlungs-Sequenzen, die 64k interaktive Bilder und 90k vielfältige Denkprozesse (Analyse, räumliches Schlussfolgern, Reflexion, Planung und Überprüfung) enthalten. Wir entwickeln eine dreistufige Trainingspipeline, die die Fähigkeiten des Modells schrittweise durch Imitationslernen, Selbstexploration mittels Ablehnungsstichproben und Selbstkorrektur durch Reflexionsoptimierung verbessert. Die Auswertung zeigt, dass unser Modell fortgeschrittene visuelle Denkmodelle deutlich übertrifft, z. B. OpenAI o1, o3-mini und Claude-3.7 um +9\%, 24\% bzw. +13\% übertrifft. Analysen zeigen, dass unser Modell weniger wiederholte Suchen und logische Inkonsistenzen aufweist, mit besonderen Vorteilen bei komplexen langfristigen Aufgaben. Auch in realen Umgebungen zeigt sich unsere Überlegenheit, während weniger wiederholte Suchen und Fälle logischer Inkonsistenz auftreten.
Große Sprachmodelle (LLMs) haben Potenzial gezeigt, die wissenschaftliche Forschung zu unterstützen, doch ihre Fähigkeit, hochwertige Forschungshypothesen zu entdecken, bleibt aufgrund des Mangels an einem speziellen Benchmark unerforscht. Um diese Lücke zu schließen, führen wir den ersten groß angelegten Benchmark ein, der LLMs mit einem nahezu ausreichenden Satz von Teilaufgaben der wissenschaftlichen Entdeckung evaluiert: Inspirationsabruf, Hypothesenformulierung und Hypothesenbewertung. Wir entwickeln ein automatisiertes Framework, das kritische Komponenten – Forschungsfragen, Hintergrundrecherchen, Inspirationen und Hypothesen – aus wissenschaftlichen Arbeiten über 12 Disziplinen hinweg extrahiert, wobei die Genauigkeit durch Expertenvalidierung bestätigt wird. Um Datenkontamination zu vermeiden, konzentrieren wir uns ausschließlich auf Arbeiten, die im Jahr 2024 veröffentlicht wurden, und stellen so sicher, dass die Überschneidung mit den Vortrainingsdaten der LLMs minimal ist. Unsere Auswertung zeigt, dass LLMs beim Abrufen von Inspirationen, einer Out-of-Distribution-Aufgabe, gut abschneiden, was auf ihre Fähigkeit hinweist, neuartige Wissenszusammenhänge aufzudecken. Dies positioniert LLMs als „Forschungshypothesen-Minen“, die in der Lage sind, die automatisierte wissenschaftliche Entdeckung zu erleichtern, indem sie innovative Hypothesen in großem Umfang mit minimalem menschlichen Eingriff generieren.
Audio Large Language Models (AudioLLMs) haben große Aufmerksamkeit erhalten und die Leistung bei Audioaufgaben wie Konversation, Audioverständnis und automatischer Spracherkennung (ASR) erheblich verbessert. Trotz dieser Fortschritte fehlt ein Benchmark zur Bewertung von AudioLLMs in finanziellen Szenarien, in denen Audiodaten wie Ergebnispräsentationen und CEO-Reden entscheidende Ressourcen für Finanzanalysen und Investitionsentscheidungen sind. In diesem Artikel stellen wir FinAudio vor, den ersten Benchmark, der entwickelt wurde, um die Fähigkeiten von AudioLLMs im Finanzbereich zu bewerten. Wir definieren zunächst drei Aufgaben basierend auf den besonderen Merkmalen des Finanzbereichs: 1) ASR für kurze finanzbezogene Audiodaten, 2) ASR für lange finanzbezogene Audiodaten und 3) Zusammenfassung langer finanzbezogener Audiodaten. Anschließend stellen wir jeweils zwei kurze und zwei lange Audio-Datensätze zusammen und entwickeln einen neuen Datensatz für die Zusammenfassung finanzbezogener Audiodaten, der den FinAudio-Benchmark bildet. Danach bewerten wir sieben verbreitete AudioLLMs anhand von FinAudio. Unsere Bewertung zeigt die Grenzen bestehender AudioLLMs im Finanzbereich auf und bietet Einblicke zur Verbesserung von AudioLLMs. Alle Datensätze und Codes werden veröffentlicht.
Wir untersuchen, wie die physikalische Genauigkeit von Videogenerierungsmodellen verbessert werden kann, indem synthetische Videos aus Computergrafik-Pipelines genutzt werden. Diese gerenderten Videos berücksichtigen die Physik der realen Welt, wie die Wahrung der 3D-Konsistenz, und stellen eine wertvolle Ressource dar, die das Potenzial hat, Videogenerierungsmodelle zu verbessern. Um dieses Potenzial zu nutzen, schlagen wir eine Lösung vor, die synthetische Daten kuratiert und integriert, während eine Methode eingeführt wird, um deren physikalische Realität auf das Modell zu übertragen, wodurch unerwünschte Artefakte deutlich reduziert werden. Durch Experimente zu drei repräsentativen Aufgaben, die physikalische Konsistenz betonen, demonstrieren wir die Wirksamkeit dieses Ansatzes bei der Steigerung der physikalischen Genauigkeit. Obwohl unser Modell noch kein tiefes Verständnis der Physik besitzt, bietet unsere Arbeit einen der ersten empirischen Nachweise, dass synthetische Videos die physikalische Genauigkeit in der Videosynthese verbessern. Website: https://kevinz8866.github.io/simulation/
Diffusionsmodelle erreichen eine bemerkenswerte Generierungsqualität, leiden jedoch unter rechenintensivem Sampling aufgrund suboptimaler Schrittdiskretisierung. Während bestehende Arbeiten sich auf die Optimierung von Entrauschungsrichtungen konzentrieren, adressieren wir das prinzipielle Design von Schrittweitenplänen. Dieses Papier schlägt Optimal Stepsize Distillation vor, ein dynamisches Programmierungsframework, das theoretisch optimale Pläne durch die Destillation von Wissen aus Referenztrajektorien extrahiert. Durch die Neuformulierung der Schrittweitenoptimierung als rekursive Fehlerminimierung garantiert unsere Methode globale Diskretisierungsgrenzen durch die Ausnutzung optimaler Substrukturen. Entscheidend ist, dass die destillierten Pläne eine starke Robustheit über Architekturen, ODE-Solver und Rauschpläne hinweg demonstrieren. Experimente zeigen eine 10-fach beschleunigte Text-zu-Bild-Generierung bei gleichzeitiger Beibehaltung von 99,4 % der Leistung auf GenEval. Unser Code ist verfügbar unter https://github.com/bebebe666/OptimalSteps.
Jüngste Fortschritte in der Videogenerierung haben bedeutende Fortschritte erzielt, insbesondere durch die rasche Entwicklung von Diffusionsmodellen. Dennoch haben ihre Defizite in der physikalischen Kognition zunehmend Aufmerksamkeit erregt – generierte Inhalte verstoßen oft gegen grundlegende physikalische Gesetze und geraten in das Dilemma von „visueller Realismus, aber physikalischer Absurdität“. Forscher begannen, die Bedeutung physikalischer Treue in der Videogenerierung zunehmend zu erkennen und versuchten, heuristische physikalische Kognition wie Bewegungsrepräsentationen und physikalisches Wissen in generative Systeme zu integrieren, um reale dynamische Szenarien zu simulieren. Angesichts des Mangels an einer systematischen Übersicht in diesem Bereich zielt dieser Überblick darauf ab, eine umfassende Zusammenfassung von Architekturdesigns und ihren Anwendungen zu bieten, um diese Lücke zu schließen. Konkret diskutieren und organisieren wir den Entwicklungsprozess der physikalischen Kognition in der Videogenerierung aus einer kognitionswissenschaftlichen Perspektive und schlagen dabei eine dreistufige Taxonomie vor: 1) grundlegende Schema-Wahrnehmung für die Generierung, 2) passive Kognition physikalischen Wissens für die Generierung und 3) aktive Kognition für die Weltsimulation, die state-of-the-art Methoden, klassische Paradigmen und Benchmarks umfasst. Anschließend betonen wir die inhärenten Schlüsselherausforderungen in diesem Bereich und skizzieren potenzielle Wege für zukünftige Forschung, um die Diskussionsgrenzen in Wissenschaft und Industrie voranzutreiben. Durch strukturierte Überprüfung und interdisziplinäre Analyse zielt dieser Überblick darauf ab, Richtungsweisungen für die Entwicklung interpretierbarer, kontrollierbarer und physikalisch konsistenter Videogenerierungs-Paradigmen zu bieten und damit generative Modelle von der Phase der „visuellen Nachahmung“ in eine neue Phase des „menschlichen physikalischen Verständnisses“ zu führen.
Open-vocabulary semantische Segmentierungsmodelle verbinden visuelle und textuelle Informationen, um Pixel aus einem undefinierten Satz von Klassen mithilfe von textuellen Abfragen zu beschriften, was vielseitige Leistung auf neuen Datensätzen ermöglicht. Große Unterschiede zwischen Trainings- und Testdomänen verschlechtern jedoch ihre Leistung, was eine Feinabstimmung für effektive Anwendungen in der realen Welt erfordert. Wir stellen Semantic Library Adaptation (SemLA) vor, ein neuartiges Framework für trainingsfreie, testzeitliche Domänenanpassung. SemLA nutzt eine Bibliothek von LoRA-basierten Adaptern, die mit CLIP-Embeddings indiziert sind, und führt dynamisch die relevantesten Adapter basierend auf der Nähe zur Zieldomäne im Embedding-Raum zusammen. Dieser Ansatz konstruiert ein ad-hoc-Modell, das speziell auf jede Eingabe zugeschnitten ist, ohne zusätzliches Training. Unsere Methode skaliert effizient, verbessert die Erklärbarkeit durch die Nachverfolgung von Adapterbeiträgen und schützt die Datenprivatheit inhärent, was sie ideal für sensible Anwendungen macht. Umfassende Experimente auf einem 20-Domänen-Benchmark, der über 10 Standarddatensätze aufgebaut ist, demonstrieren die überlegene Anpassungsfähigkeit und Leistung von SemLA in verschiedenen Umgebungen und setzen einen neuen Standard in der Domänenanpassung für die Open-vocabulary semantische Segmentierung.
Multimodale generative Modelle, die mehrere Modalitäten verstehen und generieren können, werden derzeit von autoregressiven (AR) Ansätzen dominiert, die Token sequenziell von links nach rechts oder von oben nach unten verarbeiten. Diese Modelle verarbeiten gemeinsam Bilder, Text, Video und Audio für verschiedene Aufgaben wie Bildbeschriftung, Fragebeantwortung und Bildgenerierung. In dieser Arbeit untersuchen wir diskrete Diffusionsmodelle als einheitliche generative Formulierung im kombinierten Text- und Bildbereich, basierend auf ihren jüngsten Erfolgen in der Textgenerierung. Diskrete Diffusionsmodelle bieten mehrere Vorteile gegenüber AR-Modellen, darunter eine verbesserte Kontrolle über die Qualität versus die Vielfalt der generierten Samples, die Fähigkeit zur gemeinsamen multimodalen Inpainting (sowohl im Text- als auch im Bildbereich) und eine größere Steuerbarkeit bei der Generierung durch Guidance. Unter Nutzung dieser Vorteile präsentieren wir das erste Unified Multimodal Discrete Diffusion (UniDisc) Modell, das in der Lage ist, Text und Bilder gemeinsam zu verstehen und für eine Vielzahl von Downstream-Aufgaben zu generieren. Wir vergleichen UniDisc mit multimodalen AR-Modellen, führen eine Skalierungsanalyse durch und zeigen, dass UniDisc diese in Bezug auf Leistung, Inferenzzeit, verbesserte Steuerbarkeit, Bearbeitbarkeit, Inpainting und flexible Abwägung zwischen Inferenzzeit und Generierungsqualität übertrifft. Code und zusätzliche Visualisierungen sind unter https://unidisc.github.io verfügbar.
Dieses Papier präsentiert den Beitrag des ZJUKLAB-Teams für SemEval-2025 Task 4: Das Verlernen sensibler Inhalte aus großen Sprachmodellen. Diese Aufgabe zielt darauf ab, sensibles Wissen selektiv aus großen Sprachmodellen zu entfernen, wobei sowohl Über- als auch Unter-Verlernen vermieden werden sollen. Wir schlagen ein Verlernsystem vor, das Model Merging (insbesondere TIES-Merging) nutzt, um zwei spezialisierte Modelle zu einem ausgewogeneren verlernten Modell zu kombinieren. Unser System erzielt wettbewerbsfähige Ergebnisse und belegt den zweiten Platz unter 26 Teams, mit einer Online-Punktzahl von 0,944 für den Task Aggregate und 0,487 für den Gesamt-Aggregate. In diesem Papier führen wir auch lokale Experimente durch und analysieren den Verlernprozess umfassend, indem wir Leistungsverläufe, Verlustdynamiken und Gewichtsperspektiven untersuchen, sowie mehrere ergänzende Experimente durchführen, um die Effektivität unserer Methode zu verstehen. Darüber hinaus analysieren wir die Schwächen unserer Methode und der Bewertungsmetriken und betonen, dass MIA-Werte und ROUGE-basierte Metriken allein nicht ausreichen, um erfolgreiches Verlernen vollständig zu bewerten. Schließlich unterstreichen wir die Notwendigkeit umfassenderer Bewertungsmethoden und einer Neubewertung der Verlernziele in zukünftigen Forschungen. Der Code ist verfügbar unter https://github.com/zjunlp/unlearn/tree/main/semeval25.
Jüngste Fortschritte bei 2D- und multimodalen Modellen haben bemerkenswerte Erfolge erzielt, indem sie groß angelegtes Training auf umfangreichen Datensätzen nutzten. Die Übertragung dieser Erfolge zur Ermöglichung freier Interaktionen und hochwertiger semantischer Operationen mit komplexen 3D/4D-Szenen bleibt jedoch eine Herausforderung. Diese Schwierigkeit ergibt sich aus der begrenzten Verfügbarkeit groß angelegter, annotierter 3D/4D- oder Multi-View-Datensätze, die für generalisierbare Vision- und Sprachaufgaben wie Open-Vocabulary- und Prompt-basierte Segmentierung, sprachgesteuerte Bearbeitung und visuelle Fragebeantwortung (VQA) entscheidend sind. In diesem Artikel stellen wir Feature4X vor, ein universelles Framework, das entwickelt wurde, um jede Funktionalität von 2D-Vision-Foundation-Modellen in den 4D-Bereich zu erweitern, wobei nur monokulare Videoeingaben verwendet werden, die weit verbreitet aus nutzergenerierten Inhalten verfügbar sind. Das „X“ in Feature4X repräsentiert seine Vielseitigkeit, die jede Aufgabe durch anpassbare, modellkonditionierte 4D-Feature-Field-Destillation ermöglicht. Im Kern unseres Frameworks liegt eine dynamische Optimierungsstrategie, die mehrere Modellfähigkeiten in einer einzigen Repräsentation vereint. Darüber hinaus ist Feature4X, soweit uns bekannt ist, die erste Methode, die die Features von Video-Foundation-Modellen (z. B. SAM2, InternVideo2) in ein explizites 4D-Feature-Field mittels Gaussian Splatting destilliert und hebt. Unsere Experimente zeigen neuartige Ansätze zur Segmentierung aus beliebigen Blickwinkeln, geometrische und optische Szenenbearbeitung sowie freie VQA über alle Zeitschritte hinweg, unterstützt durch LLMs in Feedback-Schleifen. Diese Fortschritte erweitern den Anwendungsbereich agentenbasierter KI, indem sie eine Grundlage für skalierbare, kontextuell und raumzeitlich bewusste Systeme schaffen, die in der Lage sind, immersive dynamische 4D-Szeneninteraktionen zu ermöglichen.
Fehlerauslösende Eingaben spielen eine entscheidende Rolle bei der Diagnose und Analyse von Softwarefehlern. Fehlerberichte enthalten typischerweise diese Eingaben, die Entwickler extrahieren, um das Debugging zu erleichtern. Da Fehlerberichte in natürlicher Sprache verfasst sind, haben frühere Forschungen verschiedene Techniken der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) für die automatisierte Extraktion von Eingaben genutzt. Mit dem Aufkommen von großen Sprachmodellen (Large Language Models, LLMs) stellt sich eine wichtige Forschungsfrage: Wie effektiv können generative LLMs fehlerauslösende Eingaben aus Fehlerberichten extrahieren? In diesem Artikel stellen wir LLPut vor, eine Technik zur empirischen Bewertung der Leistung von drei Open-Source-generativen LLMs – LLaMA, Qwen und Qwen-Coder – bei der Extraktion relevanter Eingaben aus Fehlerberichten. Wir führen eine experimentelle Auswertung auf einem Datensatz von 206 Fehlerberichten durch, um die Genauigkeit und Effektivität dieser Modelle zu bewerten. Unsere Ergebnisse geben Einblicke in die Fähigkeiten und Grenzen generativer LLMs bei der automatisierten Fehlerdiagnose.
Temporale Konsistenz ist entscheidend für die Videovorhersage, um sicherzustellen, dass die Ausgaben kohärent und frei von Artefakten sind. Traditionelle Methoden wie temporale Aufmerksamkeit und 3D-Faltung können bei signifikanten Objektbewegungen Schwierigkeiten haben und langfristige temporale Abhängigkeiten in dynamischen Szenen möglicherweise nicht erfassen. Um diese Lücke zu schließen, schlagen wir die Tracktention-Schicht vor, eine neuartige architektonische Komponente, die Bewegungsinformationen explizit durch Punktspuren, d.h. Sequenzen von entsprechenden Punkten über mehrere Frames hinweg, integriert. Durch die Einbeziehung dieser Bewegungsinformationen verbessert die Tracktention-Schicht die temporale Ausrichtung und bewältigt komplexe Objektbewegungen effektiv, wodurch konsistente Merkmalsrepräsentationen über die Zeit hinweg erhalten bleiben. Unser Ansatz ist recheneffizient und kann nahtlos in bestehende Modelle, wie Vision Transformers, mit minimalen Anpassungen integriert werden. Er kann verwendet werden, um bildbasierte Modelle auf den neuesten Stand der Videomodelle zu bringen, wobei er manchmal Modelle, die speziell für die Videovorhersage entwickelt wurden, übertrifft. Wir demonstrieren dies anhand der Videotiefenvorhersage und der Videokolorierung, bei denen Modelle, die mit der Tracktention-Schicht erweitert wurden, eine deutlich verbesserte temporale Konsistenz im Vergleich zu den Baselines aufweisen.
Textgesteuerte Bildbearbeitung zielt darauf ab, spezifische Bereiche eines Bildes gemäß natürlicher Sprachanweisungen zu modifizieren, während die allgemeine Struktur und die Hintergrundtreue erhalten bleiben. Bestehende Methoden verwenden Masken, die aus Kreuz-Attentionskarten abgeleitet werden, die von Diffusionsmodellen generiert werden, um die Zielbereiche für die Modifikation zu identifizieren. Da sich Kreuz-Attentionsmechanismen jedoch auf semantische Relevanz konzentrieren, haben sie Schwierigkeiten, die Bildintegrität aufrechtzuerhalten. Infolgedessen fehlt diesen Methoden oft die räumliche Konsistenz, was zu Bearbeitungsartefakten und Verzerrungen führt. In dieser Arbeit adressieren wir diese Einschränkungen und stellen LOCATEdit vor, das Kreuz-Attentionskarten durch einen graphenbasierten Ansatz verbessert, der selbst-attentionsbasierte Patch-Beziehungen nutzt, um eine glatte, kohärente Aufmerksamkeit über Bildbereiche hinweg zu erhalten. Dadurch wird sichergestellt, dass Änderungen auf die vorgesehenen Objekte beschränkt bleiben, während die umgebende Struktur erhalten bleibt. \method übertrifft bestehende Baselines auf PIE-Bench durchweg und deutlich und demonstriert damit seine state-of-the-art Leistung und Effektivität bei verschiedenen Bearbeitungsaufgaben. Der Code ist auf https://github.com/LOCATEdit/LOCATEdit/ verfügbar.