Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Erweiterung bestehender Modelle mit neuem Wissen ist ein entscheidender Aspekt der KI-Entwicklung. In diesem Artikel stellen wir eine neuartige Methode zur Integration einer neuen Sprache in ein großes Sprachmodell (LLM) vor. Unser Ansatz integriert erfolgreich eine bisher unbekannte Zielsprache in ein bestehendes LLM, ohne dessen bisheriges Wissen zu beeinträchtigen. Wir haben ein kleines Modell mit 1,5 Milliarden Parametern namens Kuwain trainiert, indem wir die arabische Sprache in ein kleines Open-Source-Modell eingefügt haben, das hauptsächlich auf Englisch trainiert wurde. Unsere Methode zeigt signifikante Verbesserungen in der Leistung der arabischen Sprache, mit einer durchschnittlichen Steigerung von 8 % über verschiedene Benchmarks hinweg, während das bestehende Wissen des Modells mit einem minimalen Anteil der ursprünglichen Modell-Daten erhalten bleibt. Dies bietet eine kosteneffiziente Alternative zum Training eines umfassenden Modells in Englisch und Arabisch. Die Ergebnisse unterstreichen das Potenzial für eine effiziente, gezielte Erweiterung von Sprachmodellen ohne umfangreiche Neuausbildung oder ressourcenintensive Prozesse.
Diese Arbeit untersucht Reinforcement Learning (RL) auf Daten ohne explizite Labels für Reasoning-Aufgaben in Large Language Models (LLMs). Die zentrale Herausforderung des Problems besteht in der Schätzung der Belohnung während der Inferenz, ohne Zugriff auf Ground-Truth-Informationen zu haben. Obwohl diese Konstellation zunächst schwer fassbar erscheint, stellen wir fest, dass gängige Praktiken im Test-Time Scaling (TTS), wie z.B. Mehrheitsabstimmung, überraschend effektive Belohnungen liefern, die sich für das RL-Training eignen. In dieser Arbeit führen wir Test-Time Reinforcement Learning (TTRL) ein, eine neuartige Methode zum Training von LLMs mittels RL auf ungelabelten Daten. TTRL ermöglicht die Selbstentwicklung von LLMs durch die Nutzung der Prioritäten in den vortrainierten Modellen. Unsere Experimente zeigen, dass TTRL die Leistung über eine Vielzahl von Aufgaben und Modellen hinweg kontinuierlich verbessert. Besonders hervorzuheben ist, dass TTRL die pass@1-Leistung von Qwen-2.5-Math-7B auf dem AIME 2024 um etwa 159% steigert, wobei nur ungelabelte Testdaten verwendet werden. Darüber hinaus hat TTRL, obwohl es nur durch das Maj@N-Metrik überwacht wird, gezeigt, dass es die Leistung kontinuierlich über die Obergrenze des Ausgangsmodells hinaus steigern und sich der Leistung von Modellen annähern kann, die direkt auf Testdaten mit Ground-Truth-Labels trainiert wurden. Unsere experimentellen Ergebnisse bestätigen die allgemeine Wirksamkeit von TTRL über verschiedene Aufgaben hinweg und unterstreichen das Potenzial von TTRL für breitere Aufgaben und Domänen. GitHub: https://github.com/PRIME-RL/TTRL
Da große Sprachmodelle (LLMs) ihre linguistischen Fähigkeiten weiter ausbauen, ist eine robuste mehrsprachige Evaluation unerlässlich, um einen gerechten technologischen Fortschritt zu fördern. Dieses Positionspapier untersucht über 2.000 mehrsprachige (nicht-englische) Benchmarks aus 148 Ländern, die zwischen 2021 und 2024 veröffentlicht wurden, um vergangene, gegenwärtige und zukünftige Praktiken in der mehrsprachigen Benchmarking zu bewerten. Unsere Ergebnisse zeigen, dass Englisch trotz erheblicher Investitionen in Höhe von mehreren zehn Millionen Dollar in diesen Benchmarks deutlich überrepräsentiert bleibt. Zudem basieren die meisten Benchmarks auf Originalinhalten in der jeweiligen Sprache anstatt auf Übersetzungen, wobei die Mehrheit aus ressourcenstarken Ländern wie China, Indien, Deutschland, dem Vereinigten Königreich und den USA stammt. Darüber hinaus zeigt ein Vergleich der Benchmark-Leistungen mit menschlichen Bewertungen bemerkenswerte Diskrepanzen. STEM-bezogene Aufgaben weisen starke Korrelationen mit menschlichen Bewertungen auf (0,70 bis 0,85), während traditionelle NLP-Aufgaben wie Frage-Antwort-Systeme (z. B. XQuAD) deutlich schwächere Korrelationen zeigen (0,11 bis 0,30). Außerdem erweist sich die Übersetzung englischer Benchmarks in andere Sprachen als unzureichend, da lokal angepasste Benchmarks eine signifikant höhere Übereinstimmung mit lokalen menschlichen Bewertungen aufweisen (0,68) als ihre übersetzten Gegenstücke (0,47). Dies unterstreicht die Bedeutung der Erstellung kulturell und sprachlich angepasster Benchmarks anstatt sich ausschließlich auf Übersetzungen zu verlassen. Durch diese umfassende Analyse heben wir sechs wesentliche Einschränkungen der aktuellen mehrsprachigen Evaluationspraktiken hervor, schlagen entsprechende Leitprinzipien für effektives mehrsprachiges Benchmarking vor und skizzieren fünf kritische Forschungsrichtungen, um Fortschritte in diesem Bereich voranzutreiben. Abschließend fordern wir eine globale Zusammenarbeit, um menschlich ausgerichtete Benchmarks zu entwickeln, die reale Anwendungen priorisieren.
Das Erzeugen detaillierter und präziser Beschreibungen für spezifische Regionen in Bildern und Videos bleibt eine grundlegende Herausforderung für Vision-Sprach-Modelle. Wir stellen das Describe Anything Model (DAM) vor, ein Modell, das für detaillierte lokalisierte Bildbeschreibung (Detailed Localized Captioning, DLC) entwickelt wurde. DAM bewahrt sowohl lokale Details als auch den globalen Kontext durch zwei zentrale Innovationen: einen fokalen Prompt, der eine hochauflösende Kodierung der Zielregionen sicherstellt, und ein lokalisiertes Vision-Backbone, das präzise Lokalisierung mit ihrem breiteren Kontext integriert. Um den Mangel an hochwertigen DLC-Daten zu bewältigen, schlagen wir eine halbüberwachte Lernmethode (Semi-supervised Learning, SSL) basierte Datenpipeline (DLC-SDP) vor. DLC-SDP beginnt mit bestehenden Segmentierungsdatensätzen und erweitert diese auf unmarkierte Web-Bilder mithilfe von SSL. Wir führen DLC-Bench ein, einen Benchmark, der entwickelt wurde, um DLC ohne Bezugnahme auf Referenzbeschreibungen zu bewerten. DAM setzt neue Maßstäbe auf 7 Benchmarks, die sich über Schlüsselwort-, Phrasen- und detaillierte mehrsätzige lokalisierte Bild- und Videobeschreibungen erstrecken.
Die Skalierung der Inferenzzeitberechnung hat die Fähigkeiten von Sprachmodellen zur logischen Schlussfolgerung erheblich verbessert. Bestehende Methoden weisen jedoch erhebliche Einschränkungen auf: Serialisierte Chain-of-Thought-Ansätze erzeugen übermäßig lange Ausgaben, was zu erhöhter Latenz und erschöpften Kontextfenstern führt, während parallele Methoden wie Self-Consistency unter unzureichender Koordination leiden, was redundante Berechnungen und begrenzte Leistungssteigerungen zur Folge hat. Um diese Mängel zu beheben, schlagen wir Adaptive Parallel Reasoning (APR) vor, ein neuartiges Rahmenwerk für logische Schlussfolgerungen, das Sprachmodelle in die Lage versetzt, sowohl serialisierte als auch parallele Berechnungen end-to-end zu orchestrieren. APR verallgemeinert bestehende Methoden zur logischen Schlussfolgerung, indem es adaptive Multithread-Inferenz durch die Verwendung von spawn()- und join()-Operationen ermöglicht. Eine zentrale Innovation ist unsere end-to-end Reinforcement-Learning-Strategie, die sowohl übergeordnete als auch untergeordnete Inferenz-Threads optimiert, um die Erfolgsrate bei Aufgaben zu steigern, ohne vordefinierte Strukturen für die logische Schlussfolgerung zu benötigen. Experimente zur Countdown-Aufgabe zur logischen Schlussfolgerung demonstrieren die signifikanten Vorteile von APR: (1) höhere Leistung innerhalb desselben Kontextfensters (83,4 % vs. 60,0 % bei 4k Kontext); (2) überlegene Skalierbarkeit bei erhöhter Berechnung (80,1 % vs. 66,6 % bei 20k Gesamt-Tokens); (3) verbesserte Genauigkeit bei äquivalenter Latenz (75,2 % vs. 57,3 % bei ca. 5.000 ms). APR stellt einen Schritt dar, um Sprachmodelle in die Lage zu versetzen, ihre logischen Schlussfolgerungsprozesse durch adaptive Zuweisung von Berechnungen autonom zu optimieren.
Aktuelle Video-Großsprachmodelle (Video LLMs) sind oft auf kostspielige menschliche Annotationen oder proprietäre Modell-APIs (z. B. GPT-4o) angewiesen, um Trainingsdaten zu generieren, was ihr Training in großem Maßstab einschränkt. In diesem Artikel untersuchen wir das groß angelegte Training von Video LLMs mit kostengünstigen automatischen Spracherkennungs-Transkripten (ASR). Konkret schlagen wir einen neuartigen Streaming-Trainingsansatz vor, der die ASR-Wörter und Videobilder entsprechend ihrer Zeitstempel dicht miteinander verwebt. Im Vergleich zu früheren Studien zur visuell-sprachlichen Repräsentation mit ASR passt sich unsere Methode natürlich den Streaming-Eigenschaften von ASR an und ermöglicht es dem Modell, zeitlich abgestimmte, feingranulare visuell-sprachliche Modellierung zu erlernen. Um den Trainingsalgorithmus zu unterstützen, führen wir eine Datenproduktionspipeline ein, die YouTube-Videos und deren Untertitel (CC, identisch mit ASR) verarbeitet, wodurch der Live-CC-5M-Datensatz für das Pre-Training und der Live-WhisperX-526K-Datensatz für hochwertiges überwachtes Fein-Tuning (SFT) entstehen. Bemerkenswerterweise zeigt das nur mit ASR vortrainierte LiveCC-7B-Base-Modell, selbst ohne SFT, eine wettbewerbsfähige allgemeine Video-QA-Leistung und demonstriert eine neue Fähigkeit in der Echtzeit-Videokommentierung. Um dies zu bewerten, entwerfen wir sorgfältig einen neuen LiveSports-3K-Benchmark, der LLM-as-a-Judge verwendet, um die freie Kommentierung zu messen. Experimente zeigen, dass unser finales LiveCC-7B-Instruct-Modell fortschrittliche 72B-Modelle (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in der Kommentierungsqualität übertreffen kann, selbst wenn es in einem Echtzeitmodus arbeitet. Gleichzeitig erzielt es auf der 7B/8B-Skala state-of-the-art Ergebnisse auf beliebten Video-QA-Benchmarks wie VideoMME und OVOBench, was die breite Generalisierbarkeit unseres Ansatzes unterstreicht. Alle Ressourcen dieser Arbeit wurden unter https://showlab.github.io/livecc veröffentlicht.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die soziale Simulation durch Multi-Agenten-Systeme ermöglicht. Bisherige Bemühungen konzentrieren sich auf Agentengesellschaften, die von Grund auf neu geschaffen werden, wobei den Agenten neu definierte Persönlichkeiten zugewiesen werden. Die Simulation etablierter fiktiver Welten und Charaktere bleibt jedoch weitgehend unerforscht, obwohl sie einen erheblichen praktischen Wert hat. In diesem Artikel stellen wir BookWorld vor, ein umfassendes System zur Konstruktion und Simulation von buchbasierten Multi-Agenten-Gesellschaften. Das Design von BookWorld deckt umfassende reale Komplexitäten ab, darunter vielfältige und dynamische Charaktere, fiktive Weltanschauungen, geografische Einschränkungen und Veränderungen usw. BookWorld ermöglicht diverse Anwendungen, einschließlich Geschichtengenerierung, interaktiver Spiele und sozialer Simulation, und bietet neue Möglichkeiten, beliebte fiktionale Werke zu erweitern und zu erkunden. Durch umfangreiche Experimente zeigen wir, dass BookWorld kreative, hochwertige Geschichten generiert, während es die Treue zu den Quellbüchern bewahrt, und bisherige Methoden mit einer Erfolgsquote von 75,36% übertrifft. Der Code dieses Artikels ist auf der Projektseite zu finden: https://bookworld2025.github.io/.
Bestehende Evaluierungsrahmen für Multimodale Große Sprachmodelle (MLLMs) konzentrieren sich hauptsächlich auf Bildverständnis oder allgemeine Videoanalyseaufgaben und übersehen dabei weitgehend die bedeutende Rolle des Bildkontexts für das Videoverständnis. Um diese Lücke zu schließen, schlagen wir IV-Bench vor, den ersten umfassenden Benchmark zur Bewertung von bildgestützter Video-Wahrnehmung und -Argumentation. IV-Bench besteht aus 967 Videos, die mit 2.585 sorgfältig annotierten Bild-Text-Abfragen über 13 Aufgaben (7 Wahrnehmungs- und 6 Argumentationsaufgaben) und 5 repräsentative Kategorien verknüpft sind. Umfangreiche Bewertungen von state-of-the-art Open-Source- (z.B. InternVL2.5, Qwen2.5-VL) und Closed-Source-Modellen (z.B. GPT-4o, Gemini2-Flash und Gemini2-Pro) zeigen, dass aktuelle Modelle bei der bildgestützten Video-Wahrnehmung und -Argumentation erheblich unterperformen und lediglich eine Genauigkeit von höchstens 28,9 % erreichen. Weitere Analysen offenbaren Schlüsselfaktoren, die die Modellleistung auf IV-Bench beeinflussen, darunter Inferenzmuster, Bildanzahl und Auflösung. Darüber hinaus demonstrieren wir durch einen einfachen Ansatz zur Datensynthese, dass die Herausforderungen von IV-Bench über die bloße Anpassung des Datenformats im Trainingsprozess hinausgehen. Diese Erkenntnisse bieten insgesamt wertvolle Einblicke für zukünftige Forschungen. Unsere Codes und Daten sind unter https://github.com/multimodal-art-projection/IV-Bench veröffentlicht.
Der Erfolg von Large Language Models (LLMs) hat das Interesse an verschiedenen agentenbasierten Anwendungen geweckt. Eine zentrale Hypothese ist, dass LLMs, die gesunden Menschenverstand und Chain-of-Thought (CoT)-Argumentation nutzen, komplexe Domänen effektiv erkunden und effizient lösen können. Es wurde jedoch festgestellt, dass LLM-Agenten unter suboptimaler Exploration und der sogenannten Knowing-Doing-Gap leiden, also der Unfähigkeit, effektiv auf das im Modell vorhandene Wissen zu reagieren. In dieser Arbeit untersuchen wir systematisch, warum LLMs in Entscheidungsszenarien suboptimal abschneiden. Insbesondere betrachten wir drei häufige Fehlermodi: Gier, Häufigkeitsbias und die Knowing-Doing-Gap. Wir schlagen vor, diese Schwächen durch Feinabstimmung mittels Reinforcement Learning (RL) auf selbstgenerierten CoT-Begründungen zu mildern. Unsere Experimente mit Multi-Armed Bandits, kontextuellen Bandits und Tic-Tac-Toe zeigen, dass RL-Feinabstimmung die Entscheidungsfähigkeiten von LLMs verbessert, indem sie die Exploration erhöht und die Knowing-Doing-Gap verringert. Schließlich untersuchen wir sowohl klassische Explorationsmechanismen wie Epsilon-Greedy als auch LLM-spezifische Ansätze wie Selbstkorrektur und Selbstkonsistenz, um eine effektivere Feinabstimmung von LLMs für Entscheidungsfindung zu ermöglichen.
Jüngste Fortschritte bei großen Sprachmodellen haben die Wirksamkeit der Längenskalierung während des Post-Trainings aufgezeigt, doch ihr Potenzial im Pre-Training bleibt weitgehend unerforscht. Wir stellen den Parallel Hidden Decoding Transformer (PHD-Transformer) vor, ein neuartiges Framework, das eine effiziente Längenskalierung während des Pre-Trainings ermöglicht, während die Inferenzeffizienz erhalten bleibt. Der PHD-Transformer erreicht dies durch eine innovative KV-Cache-Management-Strategie, die zwischen ursprünglichen Tokens und verborgenen Decoding-Tokens unterscheidet. Indem nur der KV-Cache der ursprünglichen Tokens für langreichweitige Abhängigkeiten beibehalten wird, während verborgene Decoding-Tokens nach der Verwendung sofort verworfen werden, behält unser Ansatz die gleiche KV-Cache-Größe wie der herkömmliche Transformer bei und ermöglicht gleichzeitig eine effektive Längenskalierung. Um die Leistung weiter zu steigern, führen wir zwei optimierte Varianten ein: PHD-SWA verwendet Sliding-Window-Attention, um lokale Abhängigkeiten zu bewahren, während PHD-CSWA eine chunkweise Sliding-Window-Attention implementiert, um das lineare Wachstum der Vorbereitungszeit zu eliminieren. Umfangreiche Experimente zeigen konsistente Verbesserungen über mehrere Benchmarks hinweg.
Können wir präzise Weltmodelle aus großen Sprachmodellen (LLMs) erstellen? Wie können Weltmodelle LLM-Agenten zugutekommen? Die Diskrepanz zwischen dem Vorwissen von LLMs und der Dynamik einer spezifizierten Umgebung begrenzt üblicherweise die Leistung von LLMs als Weltmodelle. Um diese Lücke zu schließen, schlagen wir ein trainingsfreies „Welt-Alignment“ vor, das symbolisches Wissen über die Umgebung erlernt, das die LLMs ergänzt. Das symbolische Wissen umfasst Aktionsregeln, Wissensgraphen und Szenengraphen, die von den LLMs aus Erkundungstrajektorien extrahiert und in ausführbaren Code kodiert werden, um die Strategien der LLM-Agenten zu regulieren. Weiterhin schlagen wir einen RL-freien, modellbasierten Agenten „WALL-E 2.0“ vor, der auf dem Modellprädiktiven Regelungs (MPC)-Framework basiert. Im Gegensatz zum klassischen MPC, das eine kostspielige Optimierung in Echtzeit erfordert, verwenden wir einen LLM-Agenten als effizienten Vorausschau-Optimierer für zukünftige Aktionen, indem er mit dem neurosymbolischen Weltmodell interagiert. Während die starken Heuristiken des LLM-Agenten ihn zu einem effizienten Planer im MPC machen, wird die Qualität seiner geplanten Aktionen auch durch die präzisen Vorhersagen des alignierten Weltmodells gesichert. Zusammen verbessern sie die Lerneffizienz in einer neuen Umgebung erheblich. Bei Open-World-Herausforderungen in Mars (ähnlich wie Minecraft) und ALFWorld (verkörperte Indoor-Umgebungen) übertrifft WALL-E 2.0 bestehende Methoden deutlich, z.B. übertrifft es die Baselines in Mars um 16,1%-51,6% bei der Erfolgsrate und um mindestens 61,7% beim Score. In ALFWorld erreicht es einen neuen Rekord von 98% Erfolgsrate nach nur 4 Iterationen.
Die personalisierte Bildsynthese hat sich als eine zentrale Anwendung in der Text-zu-Bild-Generierung etabliert, die die Erstellung von Bildern mit spezifischen Motiven in verschiedenen Kontexten ermöglicht. Während Diffusionsmodelle diesen Bereich dominieren, bleiben autoregressive Modelle mit ihrer einheitlichen Architektur für die Modellierung von Text und Bildern für die personalisierte Bildgenerierung weitgehend unerforscht. Diese Arbeit untersucht das Potenzial der Optimierung autoregressiver Modelle für die personalisierte Bildsynthese, indem ihre inhärenten multimodalen Fähigkeiten genutzt werden, um diese Aufgabe zu bewältigen. Wir schlagen eine zweistufige Trainingsstrategie vor, die die Optimierung von Text-Einbettungen und das Feinabstimmen von Transformer-Schichten kombiniert. Unsere Experimente mit dem autoregressiven Modell zeigen, dass diese Methode eine vergleichbare Motivtreue und Prompt-Befolgung wie die führenden diffusionsbasierten Personalisierungsmethoden erreicht. Die Ergebnisse unterstreichen die Effektivität autoregressiver Modelle in der personalisierten Bildgenerierung und bieten eine neue Richtung für zukünftige Forschungen in diesem Bereich.
Menschen können interne Weltmodelle entwickeln, die Alltagswissen kodieren und ihnen vermitteln, wie die Welt funktioniert, sowie die Konsequenzen ihrer Handlungen vorhersagen. Dieses Konzept hat sich in jüngsten Vorarbeiten als vielversprechende Richtung für die Entwicklung allgemeiner maschineller Lernmodelle erwiesen, beispielsweise für das Lernen visueller Repräsentationen. In diesem Artikel präsentieren wir CheXWorld, den ersten Ansatz für ein selbstüberwachtes Weltmodell für radiografische Bilder. Konkret entwickelt unsere Arbeit ein einheitliches Framework, das gleichzeitig drei Aspekte medizinischen Wissens modelliert, die für qualifizierte Radiologen essenziell sind: 1) lokale anatomische Strukturen, die die feingranularen Merkmale lokaler Gewebe beschreiben (z. B. Architekturen, Formen und Texturen); 2) globale anatomische Anordnungen, die die globale Organisation des menschlichen Körpers beschreiben (z. B. Anordnungen von Organen und Skelett); und 3) Domänenvariationen, die CheXWorld dazu anregen, die Übergänge zwischen verschiedenen Erscheinungsdomänen von Röntgenbildern zu modellieren (z. B. unterschiedliche Schärfe, Kontrast und Belichtung, die durch die Erfassung von Röntgenbildern in verschiedenen Krankenhäusern, mit verschiedenen Geräten oder von verschiedenen Patienten verursacht werden). Empirisch entwerfen wir maßgeschneiderte qualitative und quantitative Analysen, die zeigen, dass CheXWorld diese drei Dimensionen medizinischen Wissens erfolgreich erfasst. Darüber hinaus demonstrieren Transferlern-Experimente über acht Benchmarks für die Klassifikation und Segmentierung medizinischer Bilder, dass CheXWorld bestehende SSL-Methoden und großskalige medizinische Basismodelle deutlich übertrifft. Code und vortrainierte Modelle sind unter https://github.com/LeapLabTHU/CheXWorld verfügbar.
Aktuelle Text-zu-Bild-Diffusionsmodelle erreichen beeindruckende visuelle Qualität durch umfangreiche Skalierung von Trainingsdaten und Modellparametern, haben jedoch oft Schwierigkeiten mit komplexen Szenen und fein abgestuften Details. Inspiriert von den Selbstreflexionsfähigkeiten, die in großen Sprachmodellen entstehen, schlagen wir ReflectionFlow vor, ein Inferenzzeit-Framework, das Diffusionsmodellen ermöglicht, ihre Ausgaben iterativ zu reflektieren und zu verfeinern. ReflectionFlow führt drei komplementäre Skalierungsachsen zur Inferenzzeit ein: (1) Rauschpegelskala zur Optimierung der latenten Initialisierung; (2) Prompt-Ebenen-Skalierung für präzise semantische Führung; und vor allem (3) Reflexionsebenen-Skalierung, die explizit umsetzbare Reflexionen bereitstellt, um frühere Generationen iterativ zu bewerten und zu korrigieren. Um die Reflexionsebenen-Skalierung zu ermöglichen, erstellen wir GenRef, einen umfangreichen Datensatz, der 1 Million Tripel enthält, von denen jedes eine Reflexion, ein fehlerhaftes Bild und ein verbessertes Bild umfasst. Mithilfe dieses Datensatzes führen wir effizient Reflexionsabstimmung auf dem state-of-the-art Diffusions-Transformer FLUX.1-dev durch, indem wir multimodale Eingaben innerhalb eines einheitlichen Frameworks gemeinsam modellieren. Experimentelle Ergebnisse zeigen, dass ReflectionFlow naive Rauschpegelskala-Methoden deutlich übertrifft und eine skalierbare und recheneffiziente Lösung für eine höhere Qualität der Bildsynthese bei anspruchsvollen Aufgaben bietet.
Menschen teilen natürlicherweise Informationen mit denen, mit denen sie verbunden sind, und Video ist zu einem der dominierenden Medien für Kommunikation und Ausdruck im Internet geworden. Um die Erstellung von hochwertigen, groß angelegten Videoinhalten zu unterstützen, erfordert eine moderne Pipeline ein umfassendes Verständnis sowohl der Rohmaterialien (z. B. das unbearbeitete Filmmaterial, das von Kameras aufgenommen wird) als auch der Bearbeitungskomponenten (z. B. visuelle Effekte). In Videoschnittszenarien müssen Modelle mehrere Modalitäten (z. B. Bild, Audio, Text) mit fundiertem Hintergrundwissen verarbeiten und flexible Eingabelängen (z. B. stundenlange Rohvideos) bewältigen, was erhebliche Herausforderungen für traditionelle Modelle darstellt. In diesem Bericht stellen wir Vidi vor, eine Familie von Large Multimodal Models (LMMs) für eine Vielzahl von Video-Verständnis- und Bearbeitungsszenarien. Die erste Version konzentriert sich auf die temporale Retrieval, d. h. die Identifizierung der Zeitbereiche innerhalb der Eingabevideos, die einer gegebenen Textabfrage entsprechen, was eine entscheidende Rolle beim intelligenten Schnitt spielt. Das Modell ist in der Lage, stundenlange Videos mit starker temporaler Verständnisfähigkeit zu verarbeiten, z. B. Zeitbereiche für bestimmte Abfragen zu ermitteln. Um eine umfassende Bewertung in realen Szenarien zu unterstützen, präsentieren wir auch den VUE-TR-Benchmark, der fünf wesentliche Fortschritte einführt. 1) Videodauer: deutlich länger als bestehende temporale Retrieval-Datensätze, 2) Audio-Unterstützung: beinhaltet audio-basierte Abfragen, 3) Abfrageformat: diverse Abfragelängen/-formate, 4) Annotationsqualität: die Ground-Truth-Zeitbereiche sind manuell annotiert. 5) Bewertungsmetrik: eine verfeinerte IoU-Metrik zur Unterstützung der Bewertung über mehrere Zeitbereiche. Bemerkenswerterweise übertrifft Vidi führende proprietäre Modelle, z. B. GPT-4o und Gemini, bei der temporalen Retrieval-Aufgabe deutlich, was seine Überlegenheit in Videoschnittszenarien unterstreicht.
Die kontrollierbare Charakteranimation bleibt eine herausfordernde Aufgabe, insbesondere bei der Handhabung seltener Posen, stilisierten Charakteren, Charakter-Objekt-Interaktionen, komplexer Beleuchtung und dynamischen Szenen. Um diese Probleme zu bewältigen, haben sich frühere Arbeiten weitgehend darauf konzentriert, Pose- und Erscheinungsführung durch aufwendige Bypass-Netzwerke einzubinden, scheitern jedoch oft daran, auf offene Weltszenarien zu verallgemeinern. In diesem Artikel schlagen wir eine neue Perspektive vor, wonach, solange das Basismodell leistungsstark genug ist, einfache Modifikationen des Modells mit flexiblen Feinabstimmungsstrategien die oben genannten Herausforderungen weitgehend bewältigen können, was einen Schritt in Richtung kontrollierbarer Charakteranimation in der freien Wildbahn darstellt. Konkret stellen wir RealisDance-DiT vor, das auf dem Wan-2.1-Video-Basismodell aufbaut. Unsere umfassende Analyse zeigt, dass das weit verbreitete Reference-Net-Design für großskalige DiT-Modelle suboptimal ist. Stattdessen demonstrieren wir, dass minimale Modifikationen an der Architektur des Basismodells eine überraschend starke Basislinie ergeben. Wir schlagen weiterhin die Low-Noise-Warmup-Strategie und die Strategie „große Batches und kleine Iterationen“ vor, um die Modellkonvergenz während der Feinabstimmung zu beschleunigen und gleichzeitig die Prioritäten des Basismodells maximal zu bewahren. Zusätzlich führen wir einen neuen Testdatensatz ein, der diverse reale Herausforderungen erfasst und bestehende Benchmarks wie den TikTok-Datensatz und den UBC-Fashion-Video-Datensatz ergänzt, um die vorgeschlagene Methode umfassend zu evaluieren. Umfangreiche Experimente zeigen, dass RealisDance-DiT bestehende Methoden deutlich übertrifft.
LLM-Agenten sind eine aufstrebende Form von KI-Systemen, bei denen große Sprachmodelle (LLMs) als zentrale Komponente fungieren und eine Vielzahl von Werkzeugen nutzen, um vom Benutzer zugewiesene Aufgaben zu erledigen. Trotz ihres großen Potenzials bergen LLM-Agenten erhebliche Sicherheitsrisiken. Bei der Interaktion mit der externen Welt können sie auf bösartige Befehle von Angreifern stoßen, was zur Ausführung gefährlicher Aktionen führen kann. Ein vielversprechender Ansatz, dies zu adressieren, ist die Durchsetzung des Prinzips der geringsten Rechte: Es werden nur die wesentlichen Aktionen zur Aufgabenbewältigung erlaubt, während unnötige blockiert werden. Dies zu erreichen ist jedoch herausfordernd, da es die Abdeckung verschiedener Agentenszenarien erfordert, während sowohl Sicherheit als auch Nutzen erhalten bleiben. Wir stellen Progent vor, den ersten Rechtekontrollmechanismus für LLM-Agenten. Im Kern steht eine domänenspezifische Sprache, die es ermöglicht, flexibel Rechtekontrollrichtlinien auszudrücken, die während der Agentenausführung angewendet werden. Diese Richtlinien bieten fein abgestimmte Einschränkungen für Werkzeugaufrufe, entscheiden, wann Werkzeugaufrufe zulässig sind, und legen Fallbacks fest, falls sie es nicht sind. Dies ermöglicht es Agentenentwicklern und -nutzern, geeignete Richtlinien für ihre spezifischen Anwendungsfälle zu erstellen und sie deterministisch durchzusetzen, um Sicherheit zu gewährleisten. Dank seines modularen Designs verändert die Integration von Progent nicht die internen Strukturen des Agenten und erfordert nur minimale Änderungen an der Agentenimplementierung, was seine Praktikabilität und das Potenzial für eine breite Akzeptanz erhöht. Um das Schreiben von Richtlinien zu automatisieren, nutzen wir LLMs, um Richtlinien basierend auf Benutzeranfragen zu generieren, die dann dynamisch aktualisiert werden, um Sicherheit und Nutzen zu verbessern. Unsere umfangreiche Auswertung zeigt, dass es starke Sicherheit ermöglicht, während ein hoher Nutzen über drei verschiedene Szenarien oder Benchmarks hinweg erhalten bleibt: AgentDojo, ASB und AgentPoison. Darüber hinaus führen wir eine detaillierte Analyse durch, die die Wirksamkeit seiner Kernkomponenten und die Widerstandsfähigkeit seiner automatisierten Richtliniengenerierung gegen adaptive Angriffe demonstriert.
Wir stellen MR. Video vor, ein agentenbasiertes Framework zum Verständnis langer Videos, das das einfache, aber effektive MapReduce-Prinzip für die Verarbeitung langer Videos demonstriert: (1) Map: unabhängige und dichte Wahrnehmung kurzer Videoclips und (2) Reduce: gemeinsame Aggregation von Informationen aus allen Clips. Im Vergleich zu sequenziellen Vision-Sprache-Modellen (VLMs) ermöglicht MR. Video eine detaillierte Wahrnehmung kurzer Videos, ohne durch die Kontextlänge eingeschränkt zu sein. Im Vergleich zu bestehenden Video-Agenten, die typischerweise auf der sequenziellen Auswahl von Schlüsselsegmenten basieren, ermöglicht die Map-Operation eine einfachere und skalierbarere parallele Wahrnehmung kurzer Videosegmente. Der Reduce-Schritt ermöglicht eine umfassendere Kontextaggregation und -argumentation, die die explizite Schlüsselsegment-Retrieval übertrifft. Dieses MapReduce-Prinzip ist sowohl auf VLMs als auch auf Video-Agenten anwendbar, und wir verwenden LLM-Agenten, um seine Wirksamkeit zu validieren. In der Praxis setzt MR. Video zwei MapReduce-Stufen ein: (A) Beschriftung: Generierung von Beschreibungen für kurze Videoclips (Map), gefolgt von der Standardisierung wiederholter Charaktere und Objekte in gemeinsame Namen (Reduce); (B) Analyse: für jede Benutzerfrage, Analyse relevanter Informationen aus einzelnen kurzen Videos (Map) und deren Integration in eine endgültige Antwort (Reduce). MR. Video erzielt eine Verbesserung der Genauigkeit von über 10 % auf dem anspruchsvollen LVBench im Vergleich zu state-of-the-art VLMs und Video-Agenten. Der Code ist verfügbar unter: https://github.com/ziqipang/MR-Video
Das Erkennen und Schlussfolgern über verdeckte (teilweise oder vollständig versteckte) Objekte ist entscheidend für das Verständnis visueller Szenen, da Verdeckungen in realen Umgebungen häufig auftreten und als Hindernisse für das räumliche Verständnis wirken. Um die Fähigkeit von Modellen zu testen, über mehrere verdeckte Objekte zu schlussfolgern, führen wir eine neuartige Aufgabe ein: Counting Amodally for Patterns Through Unseen REgions (CAPTURe). Diese Aufgabe erfordert, dass ein Model Objekte, die in einem Muster angeordnet sind, zählt, indem es ableitet, wie sich das Muster hinter einem Verdeckungsobjekt (einem Objekt, das Teile der Szene blockiert) fortsetzt. CAPTURe erfordert sowohl das Erkennen visueller Muster als auch logisches Schlussfolgern, was es zu einem nützlichen Testfeld macht, um Vision-Language-Modelle (VLMs) darauf zu evaluieren, ob sie verdeckte Muster verstehen und räumliche Verständnisfähigkeiten besitzen. Indem CAPTURe Modelle dazu auffordert, über verdeckte Objekte zu schlussfolgern, testet es auch die Fähigkeit von VLMs, Weltmodelle zu bilden, die es ihnen ermöglichen, fehlende Informationen zu ergänzen. CAPTURe besteht aus zwei Teilen: (1) CAPTURe-real, mit manuell gefilterten Bildern realer Objekte in Mustern, und (2) CAPTURe-synthetic, einer kontrollierten Diagnose mit generierten Mustern. Wir evaluieren vier leistungsstarke VLMs (GPT-4o, Intern-VL2, Molmo und Qwen2-VL) auf CAPTURe und stellen fest, dass die Modelle sowohl bei verdeckten als auch bei unverdeckten Mustern Schwierigkeiten beim Zählen haben. Entscheidend ist, dass wir feststellen, dass die Modelle bei Verdeckungen schlechter abschneiden, was darauf hindeutet, dass VLMs auch beim Ableiten unsichtbarer räumlicher Beziehungen Defizite aufweisen: Selbst die stärksten VLMs wie GPT-4o scheitern beim Zählen mit Verdeckungen. Im Gegensatz dazu stellen wir fest, dass Menschen bei CAPTURe sehr geringe Fehlerraten erzielen. Wir finden auch, dass die Bereitstellung zusätzlicher Informationen über die Positionen verdeckter Objekte die Leistung verbessert, was unterstreicht, dass die Modellfehler sowohl auf die Unfähigkeit, mit Verdeckungen umzugehen, als auch auf Schwierigkeiten beim Zählen in Bildern zurückzuführen sind.
Geistiges Eigentum (Intellectual Property, IP) ist ein einzigartiges Fachgebiet, das technisches und rechtliches Wissen integriert und dadurch inhärent komplex und wissensintensiv ist. Mit der fortschreitenden Entwicklung großer Sprachmodelle (Large Language Models, LLMs) zeigen diese ein großes Potenzial bei der Bearbeitung von IP-Aufgaben, wodurch eine effizientere Analyse, das Verständnis und die Generierung von IP-bezogenen Inhalten ermöglicht werden. Allerdings konzentrieren sich bestehende Datensätze und Benchmarks entweder eng auf Patente oder decken nur begrenzte Aspekte des IP-Bereichs ab, wobei sie oft nicht mit realen Szenarien übereinstimmen. Um diese Lücke zu schließen, führen wir die erste umfassende Taxonomie für IP-Aufgaben sowie einen großen, vielfältigen zweisprachigen Benchmark, IPBench, ein, der 8 IP-Mechanismen und 20 Aufgaben abdeckt. Dieser Benchmark wurde entwickelt, um LLMs in realen Anwendungen des geistigen Eigentums zu bewerten, wobei sowohl das Verständnis als auch die Generierung berücksichtigt werden. Wir testen 16 LLMs, die von allgemeinen bis zu domänenspezifischen Modellen reichen, und stellen fest, dass selbst das leistungsstärkste Modell nur eine Genauigkeit von 75,8 % erreicht, was erheblichen Verbesserungsbedarf offenbart. Bemerkenswerterweise liegen Open-Source-Modelle mit IP- und rechtswissenschaftlichem Fokus hinter geschlossenen, allgemeinen Modellen zurück. Wir veröffentlichen alle Daten und den Code von IPBench und werden den Benchmark kontinuierlich mit weiteren IP-bezogenen Aufgaben aktualisieren, um die realen Herausforderungen im Bereich des geistigen Eigentums besser abzubilden.
Diese Studie stellt ein neuartiges und interpretierbares Modell, DiffVox, zur Anpassung von Stimm-Effekten in der Musikproduktion vor. DiffVox, kurz für „Differentiable Vocal Fx“, integriert parametrische Equalisation, Dynamikbereichssteuerung, Delay und Hall mit effizienten differenzierbaren Implementierungen, um eine gradientenbasierte Optimierung zur Parameterschätzung zu ermöglichen. Stimm-Presets werden aus zwei Datensätzen abgerufen, die 70 Tracks aus MedleyDB und 365 Tracks aus einer privaten Sammlung umfassen. Die Analyse von Parameterkorrelationen zeigt starke Zusammenhänge zwischen Effekten und Parametern auf, wie beispielsweise Hochpass- und Tiefregalfilter, die oft gemeinsam agieren, um den Bassbereich zu formen, und die Verzögerungszeit, die mit der Intensität der verzögerten Signale korreliert. Die Hauptkomponentenanalyse offenbart Verbindungen zu McAdams' Klangfarbendimensionen, wobei die wichtigste Komponente die wahrgenommene Räumlichkeit moduliert, während die sekundären Komponenten die spektrale Helligkeit beeinflussen. Statistische Tests bestätigen die nicht-Gaußsche Natur der Parameterverteilung und unterstreichen die Komplexität des Stimm-Effekte-Raums. Diese ersten Erkenntnisse über die Parameterverteilungen legen die Grundlage für zukünftige Forschungen in der Modellierung von Stimm-Effekten und dem automatischen Mischen. Unser Quellcode und die Datensätze sind unter https://github.com/SonyResearch/diffvox zugänglich.