Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Im Vergleich zu Bilddaten-Text-Paar-Daten ermöglichen durchmischte Korpora Vision-Language-Modelle (VLMs), die Welt natürlicher wie Menschen zu verstehen. Allerdings werden solche existierenden Datensätze von Webseiten gecrawlt und stehen vor Herausforderungen wie geringer Wissensdichte, lockeren Beziehungen zwischen Bildern und Texten sowie schlechter logischer Kohärenz zwischen Bildern. Andererseits beherbergt das Internet umfangreiche Lehrvideos (z. B. Online-Geometriekurse), die von Menschen weit verbreitet genutzt werden, um grundlegende Themen zu lernen. Dennoch bleiben diese wertvollen Ressourcen im VLM-Training untererforscht. In diesem Paper stellen wir einen hochwertigen multimodalen Lehrbuchkorpus mit reichhaltigerer Grundlagenkenntnis für VLM-Vorabtraining vor. Er sammelt über 2,5 Jahre hinweg Lehrvideos mit insgesamt 22.000 Unterrichtsstunden. Zunächst verwenden wir eine von LLM vorgeschlagene Taxonomie, um systematisch Lehrvideos zu sammeln. Dann extrahieren und verfeinern wir schrittweise visuelles (Keyframes), audio (ASR) und textuelles Wissen (OCR) aus den Videos und organisieren es als durchmischten Bild-Text-Korpus basierend auf zeitlicher Reihenfolge. Im Vergleich zu seinen Gegenstücken bietet unser videozentriertes Lehrbuch einen kohärenteren Kontext, reichhaltigeres Wissen und eine bessere Bild-Text-Ausrichtung. Experimente zeigen seine hervorragende Vorabtrainingsleistung, insbesondere bei wissens- und logikintensiven Aufgaben wie ScienceQA und MathVista. Darüber hinaus zeigen VLMs, die auf unserem Lehrbuch vorab trainiert wurden, eine herausragende Bewusstheit für durchmischten Kontext, indem sie visuelle und textuelle Hinweise in ihrem Few-Shot-Kontext zur Aufgabenlösung nutzen. Unser Code ist verfügbar unter \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.
Trotz signifikanter Fortschritte bei der Videogenerierung bleibt das Einfügen eines bestimmten Objekts in Videos eine herausfordernde Aufgabe. Die Schwierigkeit liegt darin, die Erscheinungsdetails des Referenzobjekts zu bewahren und gleichzeitig kohärente Bewegungen präzise zu modellieren. In diesem Paper schlagen wir VideoAnydoor vor, ein Zero-Shot-Video-Objekteinfügungs-Framework mit hoher Detailtreue und präziser Bewegungssteuerung. Ausgehend von einem Text-zu-Video-Modell verwenden wir einen ID-Extraktor, um die globale Identität einzufügen und eine Boxsequenz zur Steuerung der Gesamtbewegung zu nutzen. Um das detaillierte Erscheinungsbild zu bewahren und gleichzeitig feinkörnige Bewegungssteuerung zu unterstützen, entwerfen wir einen Pixel-Warper. Dieser nimmt das Referenzbild mit beliebigen Schlüsselpunkten und die entsprechenden Schlüsselpunkt-Trajektorien als Eingabe. Er verformt die Pixel-Details gemäß den Trajektorien und verschmilzt die verformten Merkmale mit dem Diffusion U-Net, um so die Detailtreue zu verbessern und Benutzern bei der Manipulation der Bewegungstrajektorien zu unterstützen. Darüber hinaus schlagen wir eine Trainingsstrategie vor, die sowohl Videos als auch statische Bilder mit einem umgewichteten Rekonstruktionsverlust umfasst, um die Einfügequalität zu verbessern. VideoAnydoor zeigt signifikante Überlegenheit gegenüber bestehenden Methoden und unterstützt natürlicherweise verschiedene nachgelagerte Anwendungen (z. B. Generierung von sprechenden Köpfen, virtuelles Anprobieren von Kleidung in Videos, Bearbeitung von mehreren Regionen) ohne aufgabenspezifisches Feintuning.
Mit den zunehmenden Code-Reasoning-Fähigkeiten bestehender großer Sprachmodelle (LLMs) und Durchbrüchen bei Reasoning-Modellen wie OpenAI o1 und o3 besteht ein wachsender Bedarf, anspruchsvollere und umfassendere Benchmarks zu entwickeln, die ihre ausgefeilten Wettbewerbsfähigkeiten im Codieren effektiv testen. Bestehende Benchmarks wie LiveCodeBench und USACO sind aufgrund der Nichtverfügbarkeit von privaten Testfällen, des Mangels an Unterstützung für spezielle Richter und nicht übereinstimmender Ausführungsumgebungen unzureichend. Um diese Lücke zu schließen, führen wir CodeElo ein, einen standardisierten Benchmark für die Codegenerierung auf Wettbewerbsniveau, der erstmals all diese Herausforderungen effektiv angeht. Der CodeElo-Benchmark basiert hauptsächlich auf der offiziellen CodeForces-Plattform und versucht, sich so weit wie möglich an die Plattform anzupassen. Wir kompilieren die Probleme der letzten sechs Monate an Wettbewerben auf CodeForces mit detaillierten Informationen wie Wettbewerbsdivisionen, Schwierigkeitsbewertungen der Probleme und Algorithmus-Tags der Probleme. Wir führen eine einzigartige Bewertungsmethode ein, bei der Probleme direkt an die Plattform übermittelt werden, und entwickeln ein zuverlässiges Elo-Bewertungssystem, das sich an die Plattform anpasst und mit menschlichen Teilnehmern vergleichbar ist, aber eine geringere Varianz aufweist. Durch Tests auf unserem CodeElo liefern wir erstmals die Elo-Bewertungen von 30 bestehenden beliebten Open-Source- und 3 proprietären LLMs. Die Ergebnisse zeigen, dass o1-mini und QwQ-32B-Preview signifikant herausragen und Elo-Bewertungen von 1578 bzw. 1261 erzielen, während andere Modelle selbst mit den einfachsten Problemen kämpfen und sich unter den untersten 20 Prozent aller menschlichen Teilnehmer platzieren. Detaillierte Analyseexperimente werden ebenfalls durchgeführt, um Einblicke in die Leistung über Algorithmen hinweg und Vergleiche zwischen der Verwendung von C++ und Python zu bieten, was Richtungen für zukünftige Studien vorschlagen kann.
Video Large Language Models (Video LLMs) haben kürzlich bemerkenswerte Fähigkeiten im Bereich des allgemeinen Videoverständnisses gezeigt. Allerdings konzentrieren sie sich hauptsächlich auf ganzheitliches Verständnis und haben Schwierigkeiten, feingliedrige räumliche und zeitliche Details zu erfassen. Darüber hinaus behindert der Mangel an hochwertigen Videoanweisungsdaten auf Objektebene und einem umfassenden Benchmark ihre Fortschritte. Um diese Herausforderungen anzugehen, führen wir die VideoRefer Suite ein, um Video LLM für ein feineres räumlich-zeitliches Videoverständnis zu stärken, d.h. die Wahrnehmung und das Schlussfolgern über beliebige Objekte im gesamten Video zu ermöglichen. Insbesondere entwickeln wir die VideoRefer Suite gründlich in drei wesentlichen Aspekten: Datensatz, Modell und Benchmark. Zunächst führen wir eine Multi-Agenten-Datenengine ein, um einen groß angelegten, hochwertigen Videoanweisungsdatensatz auf Objektebene sorgfältig zu kuratieren, genannt VideoRefer-700K. Als nächstes präsentieren wir das VideoRefer-Modell, das einen vielseitigen räumlich-zeitlichen Objektencoder ausstattet, um präzise regionale und sequenzielle Repräsentationen zu erfassen. Schließlich erstellen wir sorgfältig eine VideoRefer-Bench, um die räumlich-zeitliche Verständnisfähigkeit eines Video LLM umfassend zu bewerten, indem wir es in verschiedenen Aspekten evaluieren. Umfangreiche Experimente und Analysen zeigen, dass unser VideoRefer-Modell nicht nur vielversprechende Leistungen bei Video-Verweis-Benchmarks erzielt, sondern auch die allgemeinen Videoverständnisfähigkeiten erleichtert.
Wir stellen LTX-Video vor, ein auf Transformer basierendes latentes Diffusionsmodell, das einen ganzheitlichen Ansatz zur Videogenerierung verfolgt, indem es die Aufgaben des Video-VAE und des Rauschunterdrückungstransformators nahtlos integriert. Im Gegensatz zu bestehenden Methoden, die diese Komponenten als unabhängig behandeln, zielt LTX-Video darauf ab, ihre Interaktion zur Verbesserung von Effizienz und Qualität zu optimieren. Im Kern steht ein sorgfältig entworfenes Video-VAE, das ein hohes Kompressionsverhältnis von 1:192 erreicht, mit räumlich-zeitlicher Skalierung von 32 x 32 x 8 Pixel pro Token, ermöglicht durch die Verlagerung des Patchifizierungsvorgangs vom Eingang des Transformers zum Eingang des VAE. Die Arbeit in diesem stark komprimierten latenten Raum ermöglicht es dem Transformer, effizient eine vollständige räumlich-zeitliche Selbst-Aufmerksamkeit durchzuführen, was für die Generierung von hochauflösenden Videos mit zeitlicher Konsistenz unerlässlich ist. Die hohe Kompression begrenzt jedoch inhärent die Darstellung feiner Details. Um dies zu lösen, ist unser VAE-Decoder sowohl mit der latenz-zu-Pixel-Konvertierung als auch mit dem abschließenden Rauschunterdrückungsschritt betraut, wodurch das saubere Ergebnis direkt im Pixelraum erzeugt wird. Dieser Ansatz bewahrt die Fähigkeit, feine Details zu generieren, ohne die Laufzeitkosten eines separaten Upsampling-Moduls zu verursachen. Unser Modell unterstützt vielfältige Anwendungsfälle, einschließlich Text-zu-Video und Bild-zu-Video-Generierung, wobei beide Fähigkeiten gleichzeitig trainiert werden. Es erreicht eine Generierung schneller als in Echtzeit, indem es in nur 2 Sekunden auf einer Nvidia H100 GPU 5 Sekunden Video mit 24 fps und einer Auflösung von 768x512 erzeugt, und übertrifft damit alle bestehenden Modelle ähnlicher Größe. Der Quellcode und die vorab trainierten Modelle sind öffentlich verfügbar und setzen einen neuen Maßstab für zugängliche und skalierbare Videogenerierung.
Latente Diffusionsmodelle mit Transformer-Architekturen zeichnen sich durch die Fähigkeit aus, hochwertige Bilder zu generieren. Allerdings zeigen aktuelle Studien ein Optimierungsproblem in diesem zweistufigen Design: Eine Erhöhung der Merkmalsdimension pro Token in visuellen Tokenizern verbessert die Rekonstruktionsqualität, erfordert jedoch wesentlich größere Diffusionsmodelle und mehr Trainingsiterationen, um vergleichbare Generierungsleistungen zu erreichen. Folglich akzeptieren bestehende Systeme oft suboptimale Lösungen, entweder indem sie visuelle Artefakte aufgrund von Informationsverlust innerhalb der Tokenizer erzeugen oder nicht vollständig konvergieren aufgrund hoher Rechenkosten. Wir argumentieren, dass dieses Dilemma aus der inhärenten Schwierigkeit resultiert, unbeschränkte hochdimensionale latente Räume zu erlernen. Um dies anzugehen, schlagen wir vor, den latenten Raum mit vorab trainierten Vision-Grundlagenmodellen auszurichten, während die visuellen Tokenizer trainiert werden. Unser vorgeschlagenes VA-VAE (Vision-Grundlagenmodell-ausgerichteter Variationaler Autoencoder) erweitert signifikant die Rekonstruktions-Generierungs-Grenze von latenten Diffusionsmodellen und ermöglicht eine schnellere Konvergenz von Diffusions-Transformern (DiT) in hochdimensionalen latenten Räumen. Um das volle Potenzial von VA-VAE auszuschöpfen, bauen wir eine verbesserte DiT-Basislinie mit optimierten Trainingsstrategien und Architekturentwürfen auf, genannt LightningDiT. Das integrierte System erreicht eine State-of-the-Art (SOTA) Leistung bei der Generierung von ImageNet 256x256 mit einem FID-Score von 1,35 und zeigt eine bemerkenswerte Trainingseffizienz, indem es bereits nach 64 Epochen einen FID-Score von 2,11 erreicht - was eine über 21-fache Beschleunigung der Konvergenz im Vergleich zum ursprünglichen DiT darstellt. Modelle und Codes sind verfügbar unter: https://github.com/hustvl/LightningDiT.
Die Sicherheit von Bildinhalten ist mit dem Aufkommen visueller Medien auf Online-Plattformen zu einer bedeutenden Herausforderung geworden. In der Ära der KI-generierten Inhalte (AIGC) sind viele Bildgenerierungsmodelle in der Lage, schädliche Inhalte zu produzieren, wie z. B. Bilder mit sexuellem oder gewalttätigem Material. Daher ist es entscheidend, solche unsicheren Bilder anhand etablierter Sicherheitsregeln zu identifizieren. Vorab trainierte Multimodale Große Sprachmodelle (MLLMs) bieten in dieser Hinsicht Potenzial, aufgrund ihrer starken Mustererkennungsfähigkeiten. Gängige Ansätze beinhalten typischerweise das Feintuning von MLLMs mit menschlich gelabelten Datensätzen, was jedoch eine Reihe von Nachteilen mit sich bringt. Erstens ist es teuer und arbeitsintensiv, sich auf menschliche Annotatoren zu verlassen, um Daten gemäß komplexen und detaillierten Richtlinien zu labeln. Darüber hinaus müssen Benutzer von Sicherheitsbewertungssystemen Sicherheitsregeln möglicherweise häufig aktualisieren, was das Feintuning anhand menschlicher Annotationen erschwert. Dies wirft die Forschungsfrage auf: Können wir unsichere Bilder durch Abfragen von MLLMs in einem Zero-Shot-Setting anhand einer vordefinierten Sicherheitsverfassung (einem Satz von Sicherheitsregeln) erkennen? Unsere Forschung zeigte, dass alleiniges Abfragen vorab trainierter MLLMs keine zufriedenstellenden Ergebnisse liefert. Diese mangelnde Effektivität resultiert aus Faktoren wie der Subjektivität von Sicherheitsregeln, der Komplexität langer Verfassungen und den inhärenten Voreingenommenheiten der Modelle. Um diesen Herausforderungen zu begegnen, schlagen wir eine auf MLLM basierende Methode vor, die die Objektivierung von Sicherheitsregeln umfasst, die Relevanz zwischen Regeln und Bildern bewertet, schnelle Urteile auf der Grundlage von entbiasierten Token-Wahrscheinlichkeiten mit logisch vollständigen, aber vereinfachten Vorbedingungsketten für Sicherheitsregeln trifft und bei Bedarf eine eingehendere Argumentation mit kaskadierten Gedankengängen durchführt. Experimentelle Ergebnisse zeigen, dass unsere Methode für Zero-Shot-Bildsicherheitsbewertungsaufgaben äußerst effektiv ist.
Die Selbstkorrektur zielt darauf ab, großen Sprachmodellen (LLMs) zu ermöglichen, ihre anfänglichen Antworten selbst zu überprüfen und zu verfeinern, ohne externes Feedback. Allerdings scheitern LLMs oft daran, sich effektiv selbst zu überprüfen und korrektes Feedback zu generieren, was zu irreführender Verfeinerung und letztendlich zum Scheitern der Selbstkorrektur führt, insbesondere bei komplexen Denkaufgaben. In diesem Paper schlagen wir das Programmgesteuerte Selbstkorrektur (ProgCo) vor. Zunächst erreicht die programmgesteuerte Überprüfung (ProgVe) komplexe Überprüfungslogik und umfangreiche Validierung durch selbstgenerierte, selbstausführende Überprüfungspseudoprogramme. Anschließend erhält die programmgesteuerte Verfeinerung (ProgRe) Feedback von ProgVe, führt eine doppelte Reflexion und Verfeinerung sowohl der Antworten als auch der Überprüfungsprogramme durch, um die irreführende Wirkung falscher Rückmeldungen bei komplexen Denkaufgaben zu mildern. Experimente an drei Anweisungsfolge- und mathematischen Benchmarks zeigen, dass ProgCo eine effektive Selbstkorrektur erreicht und die Leistung weiter verbessert werden kann, wenn es mit echten Programmwerkzeugen kombiniert wird.
KI-Agenten sind in den letzten Jahren zunehmend verbreitet, angetrieben durch bedeutende Fortschritte im Bereich großer Sprachmodelle (LLMs). Mobile GUI-Agenten, eine Unterkategorie von KI-Agenten, sind darauf ausgelegt, Aufgaben autonom auf mobilen Geräten auszuführen. Während zahlreiche Studien Agenten, Datensätze und Benchmarks eingeführt haben, um die Forschung zu mobilen GUI-Agenten voranzutreiben, konzentrieren sich viele bestehende Datensätze auf statische Frame-Bewertungen und bieten keine umfassende Plattform zur Bewertung der Leistung bei realen, in freier Wildbahn durchgeführten Aufgaben. Um diese Lücke zu schließen, präsentieren wir Android Agent Arena (A3), eine neuartige Evaluationsplattform. Im Gegensatz zu bestehenden Systemen in freier Wildbahn bietet A3: (1) sinnvolle und praktische Aufgaben wie Echtzeit-Online-Informationsabruf und operative Anweisungen; (2) einen größeren, flexibleren Aktionsraum, der die Kompatibilität mit Agenten ermöglicht, die auf jedem Datensatz trainiert wurden; und (3) einen automatisierten geschäftsorientierten LLM-basierten Evaluierungsprozess. A3 umfasst 21 weit verbreitete allgemeine Drittanbieter-Apps und 201 Aufgaben, die gängige Benutzerszenarien repräsentieren, und bietet eine robuste Grundlage zur Bewertung von mobilen GUI-Agenten in realen Situationen sowie einen neuen autonomen Evaluierungsprozess für weniger menschliche Arbeitskraft und Codierungsexpertise. Das Projekt ist unter https://yuxiangchai.github.io/Android-Agent-Arena/ verfügbar.
In jüngster Zeit haben Fortschritte bei Grundlagenmodellen die Fähigkeiten von KI-Systemen in der autonomen Werkzeugnutzung und im logischen Denken verbessert. Die Fähigkeit dieser Systeme in der orts- oder kartenbasierten Argumentation, die das tägliche Leben durch Optimierung der Navigation, Erleichterung der Ressourcensuche und Vereinfachung der Logistik verbessert, wurde jedoch noch nicht systematisch untersucht. Um diese Lücke zu schließen, stellen wir MapEval vor, einen Benchmark, der entwickelt wurde, um vielfältige und komplexe ortsbezogene Benutzeranfragen mit geografischem Denken zu bewerten. MapEval umfasst drei Aufgabentypen (textbasiert, API-basiert und visuell), die das Sammeln von Weltinformationen über Kartenwerkzeuge, die Verarbeitung heterogener geografischer Kontexte (z. B. benannte Entitäten, Reisedistanzen, Benutzerbewertungen oder -bewertungen, Bilder) und zusammengesetztes Denken erfordern, was alle modernen Grundlagenmodelle als herausfordernd empfinden. Bestehend aus 700 einzigartigen Multiple-Choice-Fragen zu Standorten in 180 Städten und 54 Ländern bewertet MapEval die Fähigkeit von Grundlagenmodellen, räumliche Beziehungen, Karteninfografiken, Reiseplanung und Navigationsherausforderungen zu bewältigen. Unter Verwendung von MapEval führten wir eine umfassende Bewertung von 28 prominenten Grundlagenmodellen durch. Obwohl kein einzelnes Modell in allen Aufgaben herausragte, erzielten Claude-3.5-Sonnet, GPT-4o und Gemini-1.5-Pro insgesamt eine wettbewerbsfähige Leistung. Es traten jedoch erhebliche Leistungsunterschiede auf, insbesondere bei MapEval, wo Agenten mit Claude-3.5-Sonnet GPT-4o und Gemini-1.5-Pro um 16% bzw. 21% übertrafen, und die Unterschiede wurden noch verstärkt, wenn sie mit Open-Source-LLMs verglichen wurden. Unsere detaillierten Analysen geben Einblicke in die Stärken und Schwächen der aktuellen Modelle, obwohl alle Modelle im Durchschnitt immer noch um mehr als 20% hinter der menschlichen Leistung zurückbleiben und mit komplexen Kartenbildern und strengem geografischem Denken zu kämpfen haben. Diese Kluft unterstreicht die wichtige Rolle von MapEval bei der Weiterentwicklung von allgemeinen Grundlagenmodellen mit einer stärkeren geografischen Verständnisgrundlage.
Das jüngste Aufkommen von Large Language Models (LLMs) hat anspruchsvolle Argumentationsfähigkeiten in den Bereich von Videos durch Video Large Language Models (VideoLLMs) eingeführt. Allerdings stützen sich VideoLLMs derzeit auf einen einzigen Vision-Encoder für ihre gesamte visuelle Verarbeitung, was die Menge und Art der visuellen Informationen begrenzt, die dem LLM vermittelt werden können. Unsere Methode, MERV, Multi-Encoder Representation of Videos, nutzt stattdessen mehrere eingefrorene visuelle Encoder, um eine vereinheitlichte Darstellung eines Videos zu erstellen und dem VideoLLM einen umfassenden Satz spezialisierter visueller Kenntnisse zur Verfügung zu stellen. Durch die räumlich-zeitliche Ausrichtung der Merkmale aus jedem Encoder können wir eine breitere Palette offener und Multiple-Choice-Verständnisfragen zu Videos angehen und frühere State-of-the-Art-Arbeiten übertreffen. MERV ist bis zu 3,7% genauer als Video-LLaVA bei den Standard-Suite-Videoverständnis-Benchmarks und weist auch einen besseren Video-ChatGPT-Score auf. Wir verbessern auch SeViLA, den bisher besten Null-Schuss-Perception-Test-Genauigkeitswert, um 2,2%. MERV führt minimale zusätzliche Parameter ein, trainiert schneller als äquivalente Single-Encoder-Methoden und parallelisiert die visuelle Verarbeitung. Schließlich liefern wir qualitative Beweise dafür, dass MERV erfolgreich Domänenwissen von jedem seiner Encoder erfasst. Unsere Ergebnisse bieten vielversprechende Ansätze zur Nutzung mehrerer Vision-Encoder für ein umfassendes Verständnis von Videos.
Aktuelle große Sprachmodelle (LLMs) haben oft Schwierigkeiten, bei komplexen Aufgaben des logischen Denkens wie der Codegenerierung beim ersten Versuch genaue Antworten zu liefern. Frühere Forschung hat sich mit dieser Herausforderung befasst, indem sie mehrere Lösungsvorschläge generiert und sie mit von LLMs generierten Modultests validiert hat. Die Ausführungsergebnisse der Modultests dienen als Belohnungssignale zur Identifizierung korrekter Lösungen. Da LLMs immer selbstbewusst Fehler machen, sind diese Modultests nicht zuverlässig, was die Qualität der Belohnungssignale mindert. Angeregt durch die Beobachtung, dass die Skalierung der Anzahl der Lösungsvorschläge die Leistung von LLMs verbessert, untersuchen wir die Auswirkungen der Skalierung von Modultests zur Verbesserung der Qualität der Belohnungssignale. Unser wegweisendes Experiment zeigt eine positive Korrelation zwischen der Anzahl der Modultests und der Qualität der Belohnungssignale, wobei größere Vorteile bei anspruchsvolleren Problemen beobachtet werden. Basierend auf diesen Erkenntnissen schlagen wir CodeRM-8B vor, einen leichtgewichtigen, aber effektiven Modultestgenerator, der eine effiziente und hochwertige Skalierung von Modultests ermöglicht. Darüber hinaus implementieren wir einen dynamischen Skalierungsmechanismus, der die Anzahl der Modultests je nach Schwierigkeitsgrad des Problems anpasst und so die Effizienz weiter verbessert. Experimentelle Ergebnisse zeigen, dass unser Ansatz die Leistung bei verschiedenen Modellen auf drei Benchmarks signifikant verbessert (z. B. mit Gewinnen von 18,43 % für Llama3-8B und 3,42 % für GPT-4o-mini bei HumanEval Plus).
Die Personalisierung von Text-zu-Bild-Modellen zur Generierung von Bildern spezifischer Motive in verschiedenen Szenen und Stilen ist ein sich schnell entwickelndes Feld. Aktuelle Ansätze stehen oft vor Herausforderungen, um ein Gleichgewicht zwischen Identitätserhaltung und Ausrichtung auf den Eingabetext zu wahren. Einige Methoden verwenden ein einzelnes textuelles Token zur Darstellung eines Motivs, was die Ausdruckskraft einschränkt, während andere reichhaltigere Darstellungen nutzen, jedoch die Ausrichtung auf den Eingabetext beeinträchtigen. In dieser Arbeit stellen wir Nested Attention vor, einen neuartigen Mechanismus, der eine reichhaltige und ausdrucksstarke Bildrepräsentation in die bestehenden Kreuz-Aufmerksamkeitsschichten des Modells einfügt. Unsere Schlüsselidee besteht darin, abfrageabhängige Motivwerte zu generieren, die aus verschachtelten Aufmerksamkeitsschichten abgeleitet sind und lernen, relevante Motivmerkmale für jede Region im generierten Bild auszuwählen. Wir integrieren diese verschachtelten Schichten in eine personalisierte Methode auf Basis eines Encoders und zeigen, dass sie eine hohe Identitätserhaltung ermöglichen, während sie sich an die Eingabetexte halten. Unser Ansatz ist allgemein und kann in verschiedenen Bereichen trainiert werden. Darüber hinaus ermöglicht uns ihr vorheriger Erhalt, mehrere personalisierte Motive aus verschiedenen Bereichen in einem einzigen Bild zu kombinieren.
Die Wiederherstellung von Videos stellt nicht-triviale Herausforderungen dar, um die Treue zu wahren und gleichzeitig zeitlich konsistente Details aus unbekannten Verschlechterungen in der Wildnis wiederherzustellen. Trotz der jüngsten Fortschritte bei der diffusionsbasierten Restaurierung stoßen diese Methoden häufig an Grenzen bei der Generierungsfähigkeit und der Abtasteffizienz. In dieser Arbeit präsentieren wir SeedVR, einen Diffusions-Transformer, der für die Bewältigung der Video-Restaurierung in der realen Welt mit beliebiger Länge und Auflösung entwickelt wurde. Das Kernkonzept von SeedVR liegt in der verschobenen Fensteraufmerksamkeit, die eine effektive Restaurierung von langen Videosequenzen ermöglicht. SeedVR unterstützt außerdem variabel große Fenster in der Nähe der Grenze sowohl der räumlichen als auch der zeitlichen Dimensionen und überwindet damit die Auflösungsbeschränkungen herkömmlicher Fensteraufmerksamkeit. Ausgestattet mit zeitgemäßen Praktiken, darunter kausaler Videoautoencoder, gemischtem Bild- und Videotraining sowie progressivem Training, erzielt SeedVR eine hochkompetitive Leistung sowohl bei synthetischen als auch bei realen Benchmarks sowie bei KI-generierten Videos. Umfangreiche Experimente belegen die Überlegenheit von SeedVR gegenüber bestehenden Methoden für die generische Video-Restaurierung.
Mapping- und Navigationsdienste wie Google Maps, Apple Maps und OpenStreetMaps sind entscheidend für den Zugriff auf verschiedene standortbasierte Daten, haben jedoch oft Schwierigkeiten bei der Verarbeitung von geospatialen Anfragen in natürlicher Sprache. Neueste Fortschritte in Large Language Models (LLMs) zeigen vielversprechende Ergebnisse bei der Fragebeantwortung (QA), aber die Erstellung zuverlässiger geospatialer QA-Datensätze aus Kartendiensten bleibt herausfordernd. Wir stellen MapQaTor vor, eine Webanwendung, die die Erstellung reproduzierbarer, nachvollziehbarer kartenbasierter QA-Datensätze vereinfacht. Mit seiner Plug-and-Play-Architektur ermöglicht MapQaTor eine nahtlose Integration mit jeder Karten-API und ermöglicht es den Benutzern, Daten aus verschiedenen Quellen mit minimalem Setup zu sammeln und zu visualisieren. Durch das Zwischenspeichern von API-Antworten gewährleistet die Plattform eine konsistente Ground Truth und verbessert so die Zuverlässigkeit der Daten, auch wenn sich Echtzeitinformationen ändern. MapQaTor zentralisiert die Datenerfassung, Annotation und Visualisierung innerhalb einer einzigen Plattform und bietet eine einzigartige Gelegenheit, den aktuellen Stand der LLM-basierten geospatialen Schlussfolgerung zu bewerten und ihre Fähigkeiten zur Verbesserung des geospatialen Verständnisses voranzutreiben. Evaluationsmetriken zeigen, dass MapQaTor den Annotierungsprozess im Vergleich zu manuellen Methoden um mindestens das 30-fache beschleunigt und damit sein Potenzial für die Entwicklung geospatialer Ressourcen, wie komplexe Karten-Schlussfolgerungsdatensätze, unterstreicht. Die Website ist unter folgendem Link live verfügbar: https://mapqator.github.io/ und ein Demo-Video ist hier verfügbar: https://youtu.be/7_aV9Wmhs6Q.
Strukturierte Zustandsraummodelle (SSMs) haben sich als Alternativen zu Transformatoren etabliert. Während SSMs oft als effektiv bei der Erfassung von Abhängigkeiten über lange Sequenzen angesehen werden, zeigen wir nachdrücklich, dass sie grundsätzlich durch eine starke Rezentheitsverzerrung begrenzt sind. Unsere empirischen Studien zeigen auch, dass diese Verzerrung die Fähigkeit der Modelle zur Erinnerung an entfernte Informationen beeinträchtigt und Robustheitsprobleme einführt. Unsere Skalierungsexperimente haben dann entdeckt, dass tiefere Strukturen in SSMs das Erlernen langer Kontexte erleichtern können. Allerdings zeigt die nachfolgende theoretische Analyse, dass mit zunehmender Tiefe der SSMs eine weitere unvermeidliche Tendenz zur Überglättung besteht, z. B. werden Token-Repräsentationen zunehmend ununterscheidbar. Dieses grundlegende Dilemma zwischen Rezentheit und Überglättung behindert die Skalierbarkeit bestehender SSMs. Inspiriert von unseren theoretischen Erkenntnissen schlagen wir vor, die beiden Kanäle der Zustandsübergangsmatrizen in SSMs zu polarisieren, indem wir sie gleichzeitig auf Null und Eins setzen, um sowohl die Rezentheitsverzerrung als auch die Überglättung anzugehen. Experimente zeigen, dass unsere Polarisierungstechnik die assoziative Abrufgenauigkeit von Tokens über lange Distanzen konsistent verbessert und SSMs ermöglicht, weiterhin von tieferen Architekturen zu profitieren. Alle Quellcodes sind unter https://github.com/VITA-Group/SSM-Bottleneck verfügbar.
Diffusionsmodelle haben eine vielversprechende Fähigkeit gezeigt, hochwertige Zeitreihendaten zu generieren. Trotz des anfänglichen Erfolgs konzentrieren sich bestehende Arbeiten hauptsächlich auf die Authentizität von Daten auf individueller Ebene, aber weniger auf die Erhaltung der populationsbezogenen Eigenschaften des gesamten Datensatzes. Zu diesen populationsbezogenen Eigenschaften gehören Werteverteilungen für jede Dimension und Verteilungen bestimmter funktionaler Abhängigkeiten (z. B. Kreuzkorrelation, KK) zwischen verschiedenen Dimensionen. Beispielsweise sollten bei der Generierung von Zeitreihendaten zum Energieverbrauch im Haus die Werteverteilungen der Außentemperatur und der Küchentemperatur sowie die Verteilung der KK zwischen ihnen erhalten bleiben. Die Erhaltung solcher populationsbezogenen Eigenschaften von Zeitreihen ist entscheidend, um die statistischen Erkenntnisse der Datensätze zu bewahren, Modellverzerrungen zu mildern und nachgelagerte Aufgaben wie die Zeitreihenvorhersage zu verbessern. Dennoch wird dies oft von bestehenden Modellen übersehen. Daher weisen von bestehenden Modellen generierte Daten häufig Verteilungsverschiebungen gegenüber den Originaldaten auf. Wir schlagen Population-aware Diffusion for Time Series (PaD-TS) vor, ein neues Modell zur Generierung von Zeitreihen, das die populationsbezogenen Eigenschaften besser erhält. Die Hauptneuheiten von PaD-TS umfassen 1) eine neue Schulungsmethode, die explizit die Erhaltung der populationsbezogenen Eigenschaften von Zeitreihen berücksichtigt, und 2) eine neue Architektur des Dual-Channel-Encodermodells, die die Struktur der Zeitreihendaten besser erfasst. Empirische Ergebnisse in wichtigen Benchmark-Datensätzen zeigen, dass PaD-TS den durchschnittlichen KK-Verteilungsverschiebungswert zwischen realen und synthetischen Daten um das 5,9-fache verbessern kann, während eine Leistung vergleichbar mit State-of-the-Art-Modellen auf individueller Authentizität beibehalten wird.
Transformer verlassen sich auf sowohl inhaltsbasierte als auch positionsbasierte Adressierungsmechanismen, um Vorhersagen zu treffen, aber bestehende Positionscodierungstechniken mindern oft die Effektivität der positionsbasierten Adressierung. Viele aktuelle Methoden erzwingen starre Muster in Aufmerksamkeitskarten, was die Fähigkeit zur Modellierung von weitreichenden Abhängigkeiten und zur Anpassung an vielfältige Aufgaben einschränkt. Zusätzlich werden die meisten Positionscodierungen als allgemeine Verzerrungen erlernt, die die Spezialisierung für verschiedene Instanzen innerhalb eines Datensatzes vermissen lassen. Um dem entgegenzuwirken, schlagen wir die Verwendung von kontextualisierten äquivarianten Positions-Embeddings (TAPE) vor, ein neuartiges Framework, das positionale Embeddings durch die Einbeziehung von Sequenzinhalten über Schichten hinweg verbessert. TAPE führt dynamische, kontextbewusste Positionscodierungen ein, die die Einschränkungen traditioneller fester Muster überwinden. Durch die Durchsetzung von Permutations- und orthogonalen Äquivarianzen gewährleistet TAPE die Stabilität der Positionscodierungen während der Aktualisierungen, was die Robustheit und Anpassungsfähigkeit verbessert. Unsere Methode kann einfach in vorab trainierte Transformer integriert werden und bietet eine parameter-effiziente Feinabstimmung mit minimalem Overhead. Umfangreiche Experimente zeigen, dass TAPE eine überlegene Leistung bei der Sprachmodellierung, arithmetischen Schlussfolgerungen und Langkontext-Abrufaufgaben im Vergleich zu bestehenden Positionscodierungstechniken erzielt.
Das Verständnis menschlicher Handlungen ist entscheidend für die Weiterentwicklung von multimodalen Systemen. Während aktuelle Entwicklungen, angetrieben von leistungsstarken großen Sprachmodellen (LLMs), darauf abzielen, allgemein genug zu sein, um eine breite Palette von Kategorien abzudecken, übersehen sie oft die Notwendigkeit für spezifischere Fähigkeiten. In dieser Arbeit behandeln wir die anspruchsvollere Aufgabe der Feinkörnigen Aktionserkennung (FAR), die sich auf detaillierte semantische Bezeichnungen innerhalb kürzerer zeitlicher Dauer konzentriert (z. B. "Salto rückwärts eingeknickt mit einer Drehung"). Angesichts der hohen Kosten für die Annotation feinkörniger Bezeichnungen und der erheblichen Datenmenge, die für das Feintuning von LLMs erforderlich ist, schlagen wir vor, das semi-überwachte Lernen (SSL) zu übernehmen. Unser Rahmenwerk, SeFAR, integriert mehrere innovative Konzepte, um diese Herausforderungen anzugehen. Insbesondere konstruieren wir zur Erfassung ausreichender visueller Details duale zeitliche Elemente als effektivere Repräsentationen, auf deren Basis wir eine neue starke Augmentierungsstrategie für das Lehrer-Schüler-Lernparadigma entwerfen, indem wir moderate zeitliche Störungen einbeziehen. Darüber hinaus schlagen wir zur Bewältigung der hohen Unsicherheit bei den Vorhersagen des Lehrermodells für FAR die Adaptive Regulation vor, um den Lernprozess zu stabilisieren. Experimente zeigen, dass SeFAR eine Spitzenleistung auf zwei FAR-Datensätzen, FineGym und FineDiving, über verschiedene Datenumfänge erzielt. Es übertrifft auch andere semi-überwachte Methoden auf zwei klassischen grobkörnigen Datensätzen, UCF101 und HMDB51. Weitere Analysen und Ablationsstudien bestätigen die Wirksamkeit unserer Konzepte. Darüber hinaus zeigen wir, dass die von unserem SeFAR extrahierten Merkmale die Fähigkeit von multimodalen Grundlagenmodellen, feinkörnige und domänenspezifische Semantik zu verstehen, erheblich fördern können.