papers.description
Große Sprachmodelle (LLMs) sind zunehmend entscheidend für die Bewältigung komplexer Aufgaben in interaktiven Umgebungen. Die bisherige Forschung konzentriert sich hauptsächlich darauf, die Leistung durch Verhaltensklonung von stärkeren Experten zu verbessern, doch solche Ansätze scheitern oft in realen Anwendungen, hauptsächlich aufgrund der Unfähigkeit, sich von Fehlern zu erholen. Die Erfassung von Schrittkritikdaten ist jedoch schwierig und teuer. Die Automatisierung und dynamische Erstellung von Selbstkritik-Datensätzen ist daher entscheidend, um Modelle mit intelligenten Agentenfähigkeiten auszustatten. In dieser Arbeit schlagen wir ein iteratives Selbstlern-Framework, Agent-R, vor, das es dem Sprachagenten ermöglicht, sich während des Fluges zu reflektieren. Im Gegensatz zu traditionellen Methoden, die Aktionen basierend auf Korrektheit belohnen oder bestrafen, nutzt Agent-R MCTS, um Trainingsdaten zu konstruieren, die korrekte Trajektorien aus fehlerhaften wiederherstellen. Eine zentrale Herausforderung der Agentenreflexion besteht in der Notwendigkeit einer zeitnahen Überarbeitung anstelle des Wartens bis zum Ende eines Rollouts. Um dies zu bewältigen, führen wir einen modellgeführten Kritik-Konstruktionsmechanismus ein: Das Aktorenmodell identifiziert den ersten Fehlerschritt (innerhalb seiner aktuellen Fähigkeit) in einer fehlgeschlagenen Trajektorie. Ausgehend davon wird er mit dem benachbarten korrekten Pfad verbunden, der denselben Elternknoten im Baum teilt. Diese Strategie ermöglicht es dem Modell, Reflexion basierend auf seiner aktuellen Richtlinie zu erlernen und somit eine bessere Lerneffizienz zu erzielen. Um die Skalierbarkeit dieses Selbstverbesserungsparadigmas weiter zu erforschen, untersuchen wir die iterative Verfeinerung sowohl der Fehlerkorrekturfähigkeiten als auch der Datensatzkonstruktion. Unsere Ergebnisse zeigen, dass Agent-R kontinuierlich die Fähigkeit des Modells verbessert, sich von Fehlern zu erholen, und eine zeitnahe Fehlerkorrektur ermöglicht. Experimente in drei interaktiven Umgebungen zeigen, dass Agent-R Agenten effektiv dazu befähigt, fehlerhafte Aktionen zu korrigieren, während Schleifen vermieden werden und eine überlegene Leistung im Vergleich zu Basismethoden erzielt wird (+5,59%).
Wir stellen MMVU vor, einen umfassenden Benchmark auf Expertenebene, der zur Evaluierung von Grundlagenmodellen in der Videoverarbeitung dient. MMVU umfasst 3.000 von Experten annotierte Fragen, die sich über 27 Themenbereiche in vier Kernbereichen erstrecken: Naturwissenschaften, Gesundheitswesen, Geistes- & Sozialwissenschaften sowie Ingenieurwesen. Im Vergleich zu früheren Benchmarks weist MMVU drei wesentliche Fortschritte auf. Erstens fordert es Modelle heraus, domänenspezifisches Wissen anzuwenden und Expertenlogik anzuwenden, um spezialisierte Videos zu analysieren, wodurch über die grundlegende visuelle Wahrnehmung hinausgegangen wird, die typischerweise in aktuellen Video-Benchmarks bewertet wird. Zweitens wird jedes Beispiel von menschlichen Experten von Grund auf neu annotiert. Wir implementieren strenge Qualitätskontrollen der Daten, um die hohe Qualität des Datensatzes sicherzustellen. Schließlich wird jedes Beispiel mit Experten-annotierten Begründungsrationalen und relevantem Fachwissen angereichert, was eine eingehende Analyse ermöglicht. Wir führen eine umfassende Evaluation von 32 führenden multimodalen Grundlagenmodellen auf MMVU durch. Die neuesten System-2-fähigen Modelle, o1 und Gemini 2.0 Flash Thinking, erzielen die höchste Leistung unter den getesteten Modellen. Dennoch erreichen sie immer noch nicht das Niveau menschlicher Expertise. Durch eingehende Fehleranalysen und Fallstudien bieten wir handlungsorientierte Erkenntnisse für zukünftige Fortschritte in der Experten-Level, wissensintensiven Videoverarbeitung für spezialisierte Bereiche.
Dieses Papier überprüft die Implementierung des Load-Balancing Loss (LBL) beim Training von Mixture-of-Experts (MoEs)-Modellen. Spezifisch wird LBL für MoEs definiert als N_E sum_{i=1}^{N_E} f_i p_i, wobei N_E die Gesamtanzahl der Experten ist, f_i die Häufigkeit repräsentiert, mit der Experte i ausgewählt wird, und p_i den durchschnittlichen Gate-Score des Experten i bezeichnet. Bestehende MoE-Trainings-Frameworks verwenden in der Regel die parallele Trainingsstrategie, so dass f_i und das LBL innerhalb eines Mikro-Batches berechnet und dann über parallele Gruppen gemittelt werden. Im Wesentlichen enthält ein Mikro-Batch für das Training von LLMs im Milliarden-Maßstab normalerweise sehr wenige Sequenzen. Daher ist das Mikro-Batch-LBL fast auf Sequenzebene, und der Router wird dazu gebracht, das Token gleichmäßig innerhalb jeder Sequenz zu verteilen. Unter dieser strengen Einschränkung werden sogar Tokens aus einer domänenspezifischen Sequenz (z. B. Code) gleichmäßig an alle Experten geroutet, was die Expertenspezialisierung hemmt. In dieser Arbeit schlagen wir vor, das LBL unter Verwendung eines Global-Batches zu berechnen, um diese Einschränkung zu lockern. Da ein Global-Batch viel vielfältigere Sequenzen als ein Mikro-Batch enthält, wird dies die Lastenverteilung auf Korpus-Ebene fördern. Spezifisch führen wir einen zusätzlichen Kommunikationsschritt ein, um f_i über Mikro-Batches zu synchronisieren und verwenden es dann, um das LBL zu berechnen. Durch Experimente zum Training von MoEs-basierten LLMs (bis zu 42,8B Gesamtparameter und 400B Tokens) stellen wir überraschenderweise fest, dass die Strategie des Global-Batch-LBL hervorragende Leistungssteigerungen sowohl bei der Vor-Training-Perplexität als auch bei nachgelagerten Aufgaben bringt. Unsere Analyse zeigt, dass das Global-Batch-LBL auch die Domänenspezialisierung der MoE-Experten erheblich verbessert.
Dieses Papier stellt UI-TARS vor, ein natives GUI-Agentenmodell, das ausschließlich Screenshots als Eingabe wahrnimmt und menschenähnliche Interaktionen (z. B. Tastatur- und Mausoperationen) ausführt. Im Gegensatz zu vorherrschenden Agenten-Frameworks, die stark auf umhüllte kommerzielle Modelle (z. B. GPT-4o) mit expertengefertigten Eingabeaufforderungen und Workflows angewiesen sind, ist UI-TARS ein End-to-End-Modell, das diese ausgeklügelten Frameworks übertrifft. Experimente zeigen seine überlegene Leistung: UI-TARS erzielt die SOTA-Leistung in über 10 GUI-Agenten-Benchmarks, die Wahrnehmung, Verankerung und die Ausführung von GUI-Aufgaben bewerten. Insbesondere erreicht UI-TARS im OSWorld-Benchmark Punktzahlen von 24,6 mit 50 Schritten und 22,7 mit 15 Schritten und übertrifft damit Claude (22,0 bzw. 14,9). Im AndroidWorld erreicht UI-TARS 46,6 und übertrifft GPT-4o (34,5). UI-TARS integriert mehrere Schlüsselinnovationen: (1) Verbesserte Wahrnehmung: Nutzung eines groß angelegten Datensatzes von GUI-Screenshots für ein kontextbewusstes Verständnis von UI-Elementen und präzise Beschriftung; (2) Vereinheitlichte Aktionsmodellierung, die Aktionen in einen vereinheitlichten Raum über Plattformen hinweg standardisiert und durch groß angelegte Aktionsverläufe präzise Verankerung und Interaktion erreicht; (3) System-2-Argumentation, die bewusste Argumentation in mehrschrittige Entscheidungsfindung integriert, unter Einbeziehung mehrerer Argumentationsmuster wie Aufgabenzerlegung, Reflexionsdenken, Meilensteinerkennung usw.; (4) Iteratives Training mit reflektierenden Online-Verläufen, das den Datenengpass durch automatische Sammlung, Filterung und reflektierende Verfeinerung neuer Interaktionsverläufe auf Hunderten von virtuellen Maschinen angeht. Durch iteratives Training und reflektierende Feinabstimmung lernt UI-TARS kontinuierlich aus seinen Fehlern und passt sich mit minimalem menschlichem Eingreifen an unvorhergesehene Situationen an. Wir analysieren auch den Entwicklungspfad von GUI-Agenten, um die weitere Entwicklung dieses Bereichs zu lenken.
Wir präsentieren TokenVerse - eine Methode zur Multi-Konzept-Personalisierung, die ein vortrainiertes Text-zu-Bild-Diffusionsmodell nutzt. Unser Rahmen kann komplexe visuelle Elemente und Attribute bereits aus einem einzigen Bild herauslösen und ermöglicht gleichzeitig die nahtlose Plug-and-Play-Generierung von Kombinationen von Konzepten, die aus mehreren Bildern extrahiert wurden. Im Gegensatz zu bestehenden Arbeiten kann TokenVerse mehrere Bilder mit jeweils mehreren Konzepten verarbeiten und unterstützt eine Vielzahl von Konzepten, einschließlich Objekten, Accessoires, Materialien, Pose und Beleuchtung. Unsere Arbeit nutzt ein auf DiT basierendes Text-zu-Bild-Modell, bei dem der Eingabetext die Generierung sowohl durch Aufmerksamkeit als auch durch Modulation (Verschiebung und Skalierung) beeinflusst. Wir beobachten, dass der Modulationsraum semantisch ist und eine lokalisierte Steuerung über komplexe Konzepte ermöglicht. Basierend auf dieser Erkenntnis entwickeln wir einen optimierungsbasierten Rahmen, der ein Bild und eine Textbeschreibung als Eingabe erhält und für jedes Wort eine unterschiedliche Richtung im Modulationsraum findet. Diese Richtungen können dann verwendet werden, um neue Bilder zu generieren, die die gelernten Konzepte in einer gewünschten Konfiguration kombinieren. Wir zeigen die Wirksamkeit von TokenVerse in anspruchsvollen Personalisierungseinstellungen und präsentieren seine Vorteile gegenüber bestehenden Methoden. Projekthomepage unter https://token-verse.github.io/
Wir präsentieren Hunyuan3D 2.0, ein fortschrittliches groß angelegtes 3D-Synthesesystem zur Erzeugung hochauflösender texturierter 3D-Objekte. Dieses System umfasst zwei grundlegende Komponenten: ein groß angelegtes Formgenerierungsmodell - Hunyuan3D-DiT, und ein groß angelegtes Textursynthesemodell - Hunyuan3D-Paint. Das Formgenerierungsmodell, aufgebaut auf einem skalierbaren flussbasierten Diffusionstransformator, zielt darauf ab, Geometrie zu erstellen, die sich ordnungsgemäß mit einem gegebenen Bedingungsbild ausrichtet und somit eine solide Grundlage für nachgelagerte Anwendungen schafft. Das Textursynthesemodell, das von starken geometrischen und diffusiven Prioritäten profitiert, erstellt hochauflösende und lebendige Texturkarten für entweder generierte oder handgefertigte Gitter. Darüber hinaus haben wir Hunyuan3D-Studio entwickelt - eine vielseitige, benutzerfreundliche Produktionsplattform, die den Prozess der Neuerstellung von 3D-Objekten vereinfacht. Sie ermöglicht sowohl professionellen als auch Amateur-Benutzern, ihre Gitter effizient zu manipulieren oder sogar zu animieren. Wir evaluieren unsere Modelle systematisch und zeigen, dass Hunyuan3D 2.0 bisherige Spitzenmodelle übertrifft, einschließlich der Open-Source-Modelle und Closed-Source-Modelle in Bezug auf Geometriedetails, Bedingungsausrichtung, Texturqualität usw. Hunyuan3D 2.0 wird öffentlich freigegeben, um die Lücken in der Open-Source-3D-Community für groß angelegte generative Grundlagenmodelle zu schließen. Der Code und die vortrainierten Gewichte unserer Modelle sind verfügbar unter: https://github.com/Tencent/Hunyuan3D-2
Trotz der vielversprechenden Leistung von Large Vision Language Models (LVLMs) bei der visuellen Verarbeitung erzeugen sie gelegentlich inkorrekte Ausgaben. Während Belohnungsmodelle (RMs) mit Verstärkungslernen oder Skalierung zur Testzeit das Potenzial zur Verbesserung der Generierungsqualität bieten, besteht eine entscheidende Lücke: öffentlich verfügbare multimodale RMs für LVLMs sind selten, und die Implementierungsdetails proprietärer Modelle sind oft unklar. Wir schließen diese Lücke mit InternLM-XComposer2.5-Reward (IXC-2.5-Reward), einem einfachen, aber effektiven multimodalen Belohnungsmodell, das LVLMs mit menschlichen Präferenzen in Einklang bringt. Um die Robustheit und Vielseitigkeit von IXC-2.5-Reward sicherzustellen, haben wir einen hochwertigen multimodalen Präferenzkorpus eingerichtet, der Text-, Bild- und Videoeingaben in verschiedenen Bereichen abdeckt, wie z. B. Anweisungsverfolgung, allgemeines Verständnis, textreiche Dokumente, mathematisches Denken und Videoverständnis. IXC-2.5-Reward erzielt ausgezeichnete Ergebnisse im neuesten Benchmark für multimodale Belohnungsmodelle und zeigt eine wettbewerbsfähige Leistung in Benchmarks für ausschließlich textbasierte Belohnungsmodelle. Wir zeigen außerdem drei Schlüsselanwendungen von IXC-2.5-Reward: (1) Bereitstellung eines Aufsichtssignals für das RL-Training. Wir integrieren IXC-2.5-Reward mit Proximal Policy Optimization (PPO) und erhalten IXC-2.5-Chat, der konsistente Verbesserungen bei der Anweisungsverfolgung und im multimodalen offenen Dialog zeigt; (2) Auswahl der besten Antwort aus Kandidatenantworten für die Skalierung zur Testzeit; und (3) Filterung von Ausreißern oder störenden Proben aus vorhandenen Bilddaten und Videodaten für das Anpassungstraining. Um die Reproduzierbarkeit sicherzustellen und weitere Forschung zu erleichtern, haben wir alle Modellgewichte und Trainingsrezepte unter https://github.com/InternLM/InternLM-XComposer Open Source gestellt.
Sprachliche Schlussfolgerungsmodelle (RLMs), auch bekannt als Große Schlussfolgerungsmodelle (LRMs) wie OpenAI's o1 und o3, DeepSeek-V3 und Alibabas QwQ, haben die Problemlösungsfähigkeiten der KI neu definiert, indem sie große Sprachmodelle (LLMs) um fortgeschrittene Schlussfolgerungsmechanismen erweitern. Dennoch stellen ihre hohen Kosten, proprietäre Natur und komplexe Architekturen - die auf einzigartige Weise Verstärkendes Lernen (RL), Suchheuristiken und LLMs kombinieren - Zugänglichkeits- und Skalierbarkeitsherausforderungen dar. Um diesen zu begegnen, schlagen wir einen umfassenden Plan vor, der die RLM-Komponenten in ein modulares Framework organisiert, basierend auf einer Umfrage und Analyse aller RLM-Arbeiten. Dieser Plan integriert verschiedene Schlussfolgerungsstrukturen (Ketten, Bäume, Graphen und verschachtelte Formen), Schlussfolgerungsstrategien (z. B. Monte-Carlo-Baumsuche, Beam-Suche), RL-Konzepte (Richtlinien, Wertmodelle und andere) und Überwachungsschemata (ausgabebasierte und prozessbasierte Überwachung). Wir bieten auch detaillierte mathematische Formulierungen und algorithmische Spezifikationen an, um die Implementierung von RLM zu vereinfachen. Indem wir zeigen, wie Schemata wie LLaMA-Berry, QwQ, Journey Learning und Graph of Thoughts als Spezialfälle passen, demonstrieren wir die Vielseitigkeit und vereinheitlichende Potenz des Plans. Um seine Nützlichkeit zu veranschaulichen, stellen wir x1 vor, eine modulare Implementierung für schnelles Prototyping und Experimentieren mit RLM. Unter Verwendung von x1 und einer Literaturübersicht bieten wir wichtige Erkenntnisse, wie z. B. mehrphasiges Training für Richtlinien- und Wertmodelle und die Bedeutung von vertrauten Trainingsverteilungen. Schließlich skizzieren wir, wie RLMs in ein breiteres LLM-Ökosystem integriert werden können, einschließlich Tools und Datenbanken. Unsere Arbeit entschlüsselt den Aufbau von RLM, demokratisiert fortgeschrittene Schlussfolgerungsfähigkeiten und fördert Innovationen, mit dem Ziel, die Kluft zwischen "reichhaltiger KI" und "ärmerer KI" zu verringern, indem die Barrieren für die Entwicklung und Experimentation von RLM gesenkt werden.
Smartphones sind im modernen Leben unverzichtbar geworden, aber die Navigation durch komplexe Aufgaben auf mobilen Geräten bleibt oft frustrierend. Die jüngsten Fortschritte in auf großen multimodalen Modellen (LMM) basierenden mobilen Agenten haben gezeigt, dass sie die Fähigkeit besitzen, in mobilen Umgebungen wahrzunehmen und zu handeln. Allerdings stoßen aktuelle Ansätze auf erhebliche Einschränkungen: Sie sind nicht in der Lage, die Bedürfnisse realer Menschen zu erfüllen, haben Schwierigkeiten bei rechenintensiven und langfristigen Aufgaben und es fehlen Mechanismen, um aus früheren Erfahrungen zu lernen und sich zu verbessern. Um diese Herausforderungen zu überwinden, stellen wir Mobile-Agent-E vor, ein hierarchisches Multi-Agenten-Framework, das in der Lage ist, sich durch vergangene Erfahrungen selbst weiterzuentwickeln. Mit hierarchisch meinen wir eine explizite Trennung von hochrangiger Planung und niedergradiger Aktionsausführung. Das Framework besteht aus einem Manager, der für die Entwicklung von Gesamtplänen verantwortlich ist, indem komplexe Aufgaben in Teilaufgaben aufgeschlüsselt werden, sowie vier untergeordneten Agenten - Perceptor, Operator, Action Reflector und Notetaker -, die feinkörnige visuelle Wahrnehmung, unmittelbare Aktionsausführung, Fehlerüberprüfung und Informationsaggregation handhaben. Mobile-Agent-E verfügt auch über ein neuartiges Selbstentwicklungsmodul, das ein persistentes Langzeitgedächtnis umfasst, bestehend aus Tipps und Abkürzungen. Tipps sind allgemeine Anleitungen und aus früheren Aufgaben gelernte Lektionen darüber, wie man effektiv mit der Umgebung interagiert. Abkürzungen sind wiederverwendbare, ausführbare Sequenzen von atomaren Operationen, die für spezifische Routinen maßgeschneidert sind. Die Einbeziehung von Tipps und Abkürzungen erleichtert eine kontinuierliche Verbesserung von Leistung und Effizienz. Neben diesem Framework stellen wir Mobile-Eval-E vor, einen neuen Benchmark, der komplexe mobile Aufgaben mit langfristigen, multi-app Interaktionen erfordert. Empirische Ergebnisse zeigen, dass Mobile-Agent-E eine absolute Verbesserung von 22% gegenüber früheren State-of-the-Art-Ansätzen über drei grundlegende Modellrückgrate erzielt. Projektseite: https://x-plug.github.io/MobileAgent.
Autonome Agenten, die von großen Sprachmodellen (LLMs) betrieben werden, haben das Potenzial, menschliche Fähigkeiten zu verbessern, indem sie bei digitalen Aufgaben wie dem Versenden von E-Mails oder der Durchführung von Datenanalysen unterstützen. Die Fähigkeiten bestehender LLMs bei solchen Aufgaben werden oft durch den Mangel an hochwertigen Agentendaten aus den entsprechenden Umgebungen, mit denen sie interagieren, behindert. Wir schlagen Learn-by-interact vor, ein datenzentriertes Framework, um LLM-Agenten an beliebige Umgebungen anzupassen, ohne menschliche Annotationen. Learn-by-interact synthetisiert Trajektorien von Agent-Umgebungsinteraktionen auf der Grundlage von Dokumentationen und erstellt Anweisungen, indem die Interaktionsgeschichten zusammengefasst oder abstrahiert werden, ein Prozess, der als rückwärtige Konstruktion bezeichnet wird. Wir bewerten die Qualität unserer synthetischen Daten, indem wir sie sowohl in trainingsbasierten Szenarien als auch im training-freien In-Context Learning (ICL) verwenden, bei dem wir innovative Abrufansätze für Agenten entwickeln. Umfangreiche Experimente auf SWE-bench, WebArena, OSWorld und Spider2-V, die realistische Codierungs-, Web- und Desktop-Umgebungen abdecken, zeigen die Wirksamkeit von Learn-by-interact bei verschiedenen nachgelagerten agentischen Aufgaben - Baseline-Ergebnisse werden um bis zu 12,2\% für ICL mit Claude-3.5 und 19,5\% für das Training mit Codestral-22B verbessert. Wir zeigen weiterhin die entscheidende Rolle der rückwärtigen Konstruktion auf, die eine Verbesserung von bis zu 14,0\% für das Training ermöglicht. Unsere Ablationsstudien zeigen die Effizienz unserer synthetisierten Daten im ICL und die Überlegenheit unserer Abrufpipeline gegenüber alternativen Ansätzen wie der konventionellen abrufgestützten Generierung (RAG). Wir erwarten, dass Learn-by-interact als Grundlage für die Synthese von Agentendaten dienen wird, da LLMs zunehmend in realen Umgebungen eingesetzt werden.
Depth Anything hat bemerkenswerten Erfolg bei der monokularen Tiefenschätzung mit starker Verallgemeinerungsfähigkeit erzielt. Es leidet jedoch unter zeitlicher Inkonsistenz in Videos, was seine praktische Anwendbarkeit beeinträchtigt. Es wurden verschiedene Methoden vorgeschlagen, um dieses Problem zu mildern, indem Video-generierende Modelle genutzt oder Priors aus optischem Fluss und Kamerapositionen eingeführt werden. Dennoch sind diese Methoden nur auf kurze Videos (< 10 Sekunden) anwendbar und erfordern einen Kompromiss zwischen Qualität und Recheneffizienz. Wir schlagen Video Depth Anything für hochwertige, konsistente Tiefenschätzung in sehr langen Videos (über mehrere Minuten) vor, ohne die Effizienz zu beeinträchtigen. Wir basieren unser Modell auf Depth Anything V2 und ersetzen seinen Kopf durch einen effizienten räumlich-zeitlichen Kopf. Wir entwerfen einen einfachen, aber effektiven Verlust für zeitliche Konsistenz, indem wir den zeitlichen Tiefenverlauf einschränken und somit auf zusätzliche geometrische Priors verzichten. Das Modell wird auf einem gemeinsamen Datensatz von Video-Tiefen und unbeschrifteten Bildern trainiert, ähnlich wie bei Depth Anything V2. Darüber hinaus wird eine neuartige Schlüsselbild-basierte Strategie für die Inferenz in langen Videos entwickelt. Experimente zeigen, dass unser Modell auf beliebig langen Videos angewendet werden kann, ohne Qualität, Konsistenz oder Verallgemeinerungsfähigkeit zu beeinträchtigen. Umfassende Bewertungen auf mehreren Video-Benchmarks zeigen, dass unser Ansatz einen neuen Stand der Technik in der Null-Aufnahmen-Video-Tiefenschätzung setzt. Wir bieten Modelle unterschiedlicher Größenordnungen zur Unterstützung einer Vielzahl von Szenarien an, wobei unser kleinstes Modell Echtzeit-Performance mit 30 FPS ermöglicht.
Die generative Modellierung zielt darauf ab, zufälliges Rauschen in strukturierte Ausgaben zu transformieren. In dieser Arbeit verbessern wir Video-Diffusionsmodelle, indem wir die Bewegungssteuerung über strukturierte latente Rauschproben ermöglichen. Dies wird durch eine einfache Änderung der Daten erreicht: Wir bearbeiten die Trainingsvideos vor, um strukturiertes Rauschen zu erzeugen. Folglich ist unsere Methode unabhängig vom Design des Diffusionsmodells und erfordert keine Änderungen an Modellarchitekturen oder Trainingspipelines. Speziell schlagen wir einen neuartigen Rauschverzerrungsalgorithmus vor, der schnell genug ist, um in Echtzeit ausgeführt zu werden. Dieser ersetzt zufällige zeitliche Gaußsche Verteilung durch korreliert verzerrtes Rauschen, das aus optischen Flussfeldern abgeleitet ist, während die räumliche Gaußsche Verteilung erhalten bleibt. Die Effizienz unseres Algorithmus ermöglicht es uns, moderne Video-Diffusions-Basismodelle mit verzerrtem Rauschen feinzutunen, mit minimalem Overhead, und eine umfassende Lösung für eine Vielzahl von benutzerfreundlichen Bewegungssteuerungen bereitzustellen: Steuerung lokaler Objektbewegungen, Steuerung globaler Kamerabewegungen und Bewegungsübertragung. Die Harmonisierung zwischen zeitlicher Kohärenz und räumlicher Gaußscher Verteilung in unserem verzerrten Rauschen führt zu effektiver Bewegungssteuerung, während die Pixelqualität pro Frame erhalten bleibt. Umfangreiche Experimente und Benutzerstudien zeigen die Vorteile unserer Methode auf, die sie zu einem robusten und skalierbaren Ansatz zur Steuerung von Bewegungen in Video-Diffusionsmodellen machen. Videoergebnisse sind auf unserer Webseite verfügbar: https://vgenai-netflix-eyeline-research.github.io/Go-with-the-Flow. Der Quellcode und die Modell-Checkpoints sind auf GitHub verfügbar: https://github.com/VGenAI-Netflix-Eyeline-Research/Go-with-the-Flow.
Wir zeigen, dass die GPS-Tags in den Metadaten von Fotos ein nützliches Kontrollsignal für die Bildgenerierung darstellen. Wir trainieren GPS-zu-Bild-Modelle und verwenden sie für Aufgaben, die ein fein abgestimmtes Verständnis dafür erfordern, wie Bilder innerhalb einer Stadt variieren. Insbesondere trainieren wir ein Diffusionsmodell, um Bilder zu generieren, die sowohl von GPS als auch von Text abhängig sind. Das gelernte Modell generiert Bilder, die das charakteristische Erscheinungsbild verschiedener Stadtviertel, Parks und Sehenswürdigkeiten einfangen. Wir extrahieren auch 3D-Modelle aus 2D-GPS-zu-Bild-Modellen durch Score-Distillationssampling, wobei die GPS-Konditionierung das Erscheinungsbild der Rekonstruktion aus jedem Blickwinkel einschränkt. Unsere Bewertungen legen nahe, dass unsere GPS-konditionierten Modelle erfolgreich lernen, Bilder zu generieren, die je nach Standort variieren, und dass die GPS-Konditionierung die geschätzte 3D-Struktur verbessert.
Die Qualität der überwachten Feinabstimmungsdaten (SFT) spielt eine entscheidende Rolle bei der Verbesserung der Konversationsfähigkeiten großer Sprachmodelle (LLMs). Mit zunehmender Entwicklung der LLMs ist die Verfügbarkeit hochwertiger, menschenannotierter SFT-Daten zu einem signifikanten Engpass geworden, der eine verstärkte Nutzung synthetischer Trainingsdaten erforderlich macht. In dieser Arbeit stellen wir Condor vor, ein neuartiges zweistufiges Framework zur Generierung synthetischer Daten, das den World Knowledge Tree und die Self-Reflection Refinement integriert, um hochwertige SFT-Daten im großen Maßstab zu erzeugen. Unsere experimentellen Ergebnisse zeigen, dass ein Basismodell, das nur auf 20K von Condor generierten Proben feinabgestimmt ist, eine überlegene Leistung im Vergleich zu Konkurrenten erzielt. Die zusätzliche Verfeinerungsstufe in Condor ermöglicht zudem eine iterative Selbstverbesserung für LLMs in verschiedenen Maßstäben (bis zu 72B), was die Wirksamkeit unseres Ansatzes bestätigt. Darüber hinaus zeigt unsere Untersuchung zur Skalierung synthetischer Daten in der Post-Training-Phase ein erhebliches, noch unerforschtes Potenzial für Leistungsverbesserungen auf und eröffnet vielversprechende Wege für zukünftige Forschung.
In diesem Paper schlagen wir eine neuartige Methode für einen audio-gesteuerten Sprecher vor, die gleichzeitig hoch expressive Gesichtsausdrücke und Handgesten generieren kann. Im Gegensatz zu bestehenden Methoden, die sich auf die Generierung von Ganzkörper- oder Halbkörper-Posen konzentrieren, untersuchen wir die Herausforderungen der Gestenerzeugung während der Sprache und identifizieren die schwache Korrespondenz zwischen Audio-Merkmalen und Ganzkörpergesten als eine Schlüsselbeschränkung. Um dies zu bewältigen, definieren wir die Aufgabe als zweistufigen Prozess neu. In der ersten Stufe generieren wir Handposen direkt aus dem Audio-Eingang, wobei wir die starke Korrelation zwischen Audio-Signalen und Handbewegungen nutzen. In der zweiten Stufe verwenden wir ein Diffusionsmodell zur Synthese von Videoframes, wobei die in der ersten Stufe generierten Handposen einbezogen werden, um realistische Gesichtsausdrücke und Körperbewegungen zu erzeugen. Unsere experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode im Hinblick auf visuelle Qualität und Synchronisationsgenauigkeit State-of-the-Art-Ansätze wie CyberHost und Vlogger übertrifft. Diese Arbeit bietet eine neue Perspektive auf die audio-gesteuerte Gestenerzeugung und ein robustes Framework zur Erstellung expressiver und natürlicher Sprecheranimationen.
Wir stellen MAGI vor, ein hybrides Video-Generierungs-Framework, das maskiertes Modellieren für die Intra-Frame-Generierung mit kausalem Modellieren für die Generierung des nächsten Frames kombiniert. Unsere Schlüsselinnovation, das "Complete Teacher Forcing" (CTF), bedingt maskierte Frames anhand vollständiger Beobachtungsframes anstelle von maskierten (genauer gesagt Masked Teacher Forcing, MTF), was einen reibungslosen Übergang von der Token-Ebene (Patch-Ebene) zur Frame-Ebene bei der autoregressiven Generierung ermöglicht. CTF übertrifft MTF signifikant und erzielt eine Verbesserung der FVD-Werte um +23% bei der Vorhersage von Videos, die vom ersten Frame abhängig sind. Um Probleme wie Belichtungsvoreingenommenheit anzugehen, verwenden wir gezielte Trainingsstrategien und setzen damit einen neuen Maßstab bei der autoregressiven Video-Generierung. Experimente zeigen, dass MAGI lange, kohärente Videosequenzen von über 100 Frames generieren kann, selbst wenn es nur auf 16 Frames trainiert wird, was sein Potenzial für eine skalierbare, hochwertige Video-Generierung unterstreicht.
Vision-Sprach-Modelle (VSM), die Bild- und Texteingaben verarbeiten, werden zunehmend in Chat-Assistenten und anderen KI-Anwendungen für Verbraucher integriert. Ohne angemessene Sicherheitsvorkehrungen könnten VSM jedoch schädliche Ratschläge (z. B. zur Selbstverletzung) geben oder unsicheres Verhalten fördern (z. B. den Konsum von Drogen). Trotz dieser offensichtlichen Gefahren wurde die Sicherheit von VSM bisher kaum untersucht, ebenso wenig wie die neuartigen Risiken, die durch multimodale Eingaben entstehen. Um diese Lücke zu schließen, stellen wir MSTS vor, eine Multimodale Sicherheits-Test-Suite für VSM. MSTS umfasst 400 Testanfragen in 40 fein abgestuften Gefahrenkategorien. Jede Testanfrage besteht aus einem Text und einem Bild, die nur in Kombination ihre volle unsichere Bedeutung offenbaren. Mit MSTS entdecken wir klare Sicherheitsprobleme in mehreren offenen VSM. Wir stellen auch fest, dass einige VSM aus Zufall sicher sind, was bedeutet, dass sie sicher sind, weil sie selbst einfache Testanfragen nicht verstehen. Wir übersetzen MSTS in zehn Sprachen, zeigen nicht-englische Anfragen, um die Rate unsicherer Modellantworten zu erhöhen. Wir zeigen auch, dass Modelle sicherer sind, wenn sie nur mit Text und nicht mit multimodalen Anfragen getestet werden. Schließlich untersuchen wir die Automatisierung von Sicherheitsbewertungen für VSM und stellen fest, dass selbst die besten Sicherheitsklassifizierer unzureichend sind.
Wir untersuchen die Beziehung zwischen der Geometrie von Token-Einbettungen und ihrer Rolle bei der Vorhersage des nächsten Tokens innerhalb von Transformer-Modellen. Ein wichtiger Aspekt dieser Verbindung nutzt den Begriff des empirischen Maßes, das die Verteilung von Token-Punktwolken über Transformer-Schichten codiert und die Entwicklung von Token-Repräsentationen im mittelfeldinteragierenden Bild antreibt. Wir verwenden Metriken wie intrinsische Dimension, Nachbarschaftsüberlappung und Kosinusähnlichkeit, um diese empirischen Maße über Schichten hinweg beobachtend zu untersuchen. Um unseren Ansatz zu validieren, vergleichen wir diese Metriken mit einem Datensatz, in dem die Tokens verschoben sind, was die syntaktische und semantische Struktur stört. Unsere Ergebnisse zeigen eine Korrelation zwischen den geometrischen Eigenschaften von Token-Einbettungen und dem Kreuzentropieverlust von Vorhersagen des nächsten Tokens, was darauf hindeutet, dass Anfragen mit höheren Verlustwerten Tokens repräsentieren, die in höherdimensionalen Räumen liegen.
Die personalisierte Generierung von Nachrichtenüberschriften zielt darauf ab, den Nutzern auf ihre Vorlieben zugeschnittene, aufmerksamkeitsstarke Überschriften bereitzustellen. Gängige Methoden konzentrieren sich auf nutzerorientierte Inhaltspräferenzen, vernachlässigen jedoch oft, dass vielfältige stilistische Präferenzen integraler Bestandteil der panoramischen Interessen der Nutzer sind, was zu suboptimaler Personalisierung führt. Vor diesem Hintergrund schlagen wir ein neuartiges Rahmenwerk für die personalisierte Generierung von Überschriften vor, das stilistische und inhaltliche Präferenzen berücksichtigt, das sogenannte Stylistic-Content Aware Personalized Headline Generation (SCAPE). SCAPE extrahiert sowohl inhaltliche als auch stilistische Merkmale aus Überschriften mithilfe einer Zusammenarbeit mit einem großen Sprachmodell (LLM). Darüber hinaus integriert es adaptiv die lang- und kurzfristigen Interessen der Nutzer durch ein kontrastives Lernen-basiertes hierarchisches Fusionsnetzwerk. Durch die Einbeziehung panoramischer Interessen in den Überschriften-Generator spiegelt SCAPE die stilistisch-inhaltlichen Präferenzen der Nutzer während des Generierungsprozesses wider. Umfangreiche Experimente mit dem realen Datensatz PENS zeigen die Überlegenheit von SCAPE gegenüber Basislinien.
Große Vision-Sprach-Modelle (LVLMs) haben bemerkenswerte Fähigkeiten bei der Erfassung und Beschreibung visueller Inhalte gezeigt und erzielen Spitzenleistungen bei verschiedenen Vision-Sprach-Aufgaben. Allerdings zeigen diese Modelle häufig Halluzinationsverhalten, bei dem sie Beschreibungen generieren, die Objekte oder Details enthalten, die im Eingabebild fehlen. Unsere Arbeit untersucht dieses Phänomen, indem wir Aufmerksamkeitsmuster über Transformer-Schichten und -Köpfe analysieren und aufdecken, dass Halluzinationen oft aus einem fortschreitenden Abbau der visuellen Verankerung in tieferen Schichten resultieren. Wir schlagen einen neuartigen Ansatz zur Aufmerksamkeitsmodifikation vor, der selektive Token-Betonung und kopfspezifische Modulation kombiniert, um die visuelle Verankerung während des Generierungsprozesses aufrechtzuerhalten. Unsere Methode führt zwei Schlüsselkomponenten ein: (1) einen Dual-Stream-Token-Auswahlmechanismus, der sowohl lokal informative als auch räumlich bedeutsame visuelle Tokens identifiziert und priorisiert, und (2) eine Aufmerksamkeitskopf-spezifische Modulationsstrategie, die die Verarbeitung visueller Informationen differentiell verstärkt, basierend auf der gemessenen visuellen Empfindlichkeit einzelner Aufmerksamkeitsköpfe. Durch umfangreiche Experimente auf dem MSCOCO-Datensatz zeigen wir, dass unser Ansatz die Halluzinationsraten um bis zu 62,3\% im Vergleich zu Basislinienmodellen reduziert, während die vergleichbare Leistung bei den Aufgaben beibehalten wird. Unsere Analyse zeigt, dass die selektive Modulation von Tokens über Aufmerksamkeitsköpfe mit unterschiedlichen Ebenen visueller Empfindlichkeit die visuelle Verankerung signifikant verbessern kann, ohne dass eine Neuschulung des Modells erforderlich ist.