Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Sprachagenten haben beeindruckende Problemlösungsfähigkeiten in definierten Umgebungen und kurzen Zeiträumen gezeigt. Angesichts der ständig wachsenden Komplexität von Open-World-Simulationen besteht jedoch ein dringender Bedarf an Agenten, die sich flexibel an komplexe Umgebungen anpassen und ein langfristiges Gedächtnis aufrechterhalten können, um kohärente Handlungen zu gewährleisten. Um die Lücke zwischen Sprachagenten und Open-World-Spielen zu schließen, stellen wir den Language Agent for Role-Playing (LARP) vor, der eine kognitive Architektur umfasst, die Gedächtnisverarbeitung und einen Entscheidungsassistenten beinhaltet, ein Umgebungsinteraktionsmodul mit einem feedbackgesteuerten lernbaren Aktionsraum sowie eine Nachbearbeitungsmethode, die die Abstimmung verschiedener Persönlichkeiten fördert. Das LARP-Framework verfeinert die Interaktionen zwischen Benutzern und Agenten, die mit einzigartigen Hintergründen und Persönlichkeiten vordefiniert sind, und verbessert letztendlich das Spielerlebnis in Open-World-Kontexten. Darüber hinaus hebt es die vielfältigen Anwendungsmöglichkeiten von Sprachmodellen in Bereichen wie Unterhaltung, Bildung und verschiedenen Simulationsszenarien hervor. Die Projektseite ist unter https://miao-ai-lab.github.io/LARP/ veröffentlicht.
Diffusion-Modelle haben die Bild-zu-Bild (I2I)-Synthese revolutioniert und dringen nun in den Bereich der Videos vor. Allerdings wurde der Fortschritt in der Video-zu-Video (V2V)-Synthese durch die Herausforderung, die zeitliche Konsistenz über die Videobilder hinweg aufrechtzuerhalten, behindert. Dieses Papier schlägt ein konsistentes V2V-Synthese-Framework vor, das räumliche Bedingungen und zeitliche optische Flussinformationen innerhalb des Quellvideos gemeinsam nutzt. Im Gegensatz zu früheren Methoden, die strikt dem optischen Fluss folgen, nutzt unser Ansatz dessen Vorteile, während er gleichzeitig die Unvollkommenheiten in der Flussabschätzung handhabt. Wir kodieren den optischen Fluss durch Warping vom ersten Bild und verwenden ihn als zusätzliche Referenz im Diffusionsmodell. Dies ermöglicht es unserem Modell, Videos zu synthetisieren, indem das erste Bild mit beliebigen gängigen I2I-Modellen bearbeitet und die Änderungen dann auf nachfolgende Bilder übertragen werden. Unser V2V-Modell, FlowVid, zeigt bemerkenswerte Eigenschaften: (1) Flexibilität: FlowVid arbeitet nahtlos mit bestehenden I2I-Modellen zusammen und erleichtert verschiedene Modifikationen, einschließlich Stilisierung, Objektaustausch und lokaler Bearbeitungen. (2) Effizienz: Die Erzeugung eines 4-Sekunden-Videos mit 30 FPS und einer Auflösung von 512x512 dauert nur 1,5 Minuten, was 3,1x, 7,2x und 10,5x schneller ist als CoDeF, Rerender und TokenFlow. (3) Hohe Qualität: In Benutzerstudien wird unser FlowVid in 45,7 % der Fälle bevorzugt und übertrifft damit CoDeF (3,5 %), Rerender (10,2 %) und TokenFlow (40,4 %).
Wir stellen SynCLR vor, einen neuartigen Ansatz zum Lernen visueller Repräsentationen ausschließlich aus synthetischen Bildern und synthetischen Beschreibungen, ohne jegliche reale Daten. Wir generieren einen großen Datensatz von Bildbeschreibungen mithilfe von LLMs (Large Language Models) und verwenden dann ein Standard-Text-zu-Bild-Modell, um mehrere Bilder zu erzeugen, die jeweils einer synthetischen Beschreibung entsprechen. Wir führen das Lernen visueller Repräsentationen auf diesen synthetischen Bildern mittels kontrastiven Lernens durch, wobei Bilder, die dieselbe Beschreibung teilen, als positive Paare behandelt werden. Die resultierenden Repräsentationen übertragen sich gut auf viele nachgelagerte Aufgaben und konkurrieren vorteilhaft mit anderen allgemeinen visuellen Repräsentationslernern wie CLIP und DINO v2 in Bildklassifizierungsaufgaben. Darüber hinaus übertrifft SynCLR in dichten Vorhersageaufgaben wie semantischer Segmentierung bisherige selbstüberwachte Methoden deutlich, z. B. durch eine Verbesserung von 6,2 und 4,3 mIoU gegenüber MAE und iBOT auf ADE20k für ViT-B/16.
Der aktuelle Trend bei großen Sprachmodellen (LLMs) besteht darin, die Skalierung sowohl der Modellgröße (d.h. der Anzahl der Parameter) als auch des Datensatzes zu erhöhen, um eine bessere generative Fähigkeit zu erreichen, was durch zahlreiche Arbeiten wie die bekannten GPT- und Llama-Modelle eindeutig belegt wird. Große Modelle sind jedoch oft mit erheblichen Rechenkosten verbunden, und praktische Anwendungen können sich derart hohe Kosten nicht leisten. Dennoch wird die Methode zur Konstruktion einer leistungsstarken Modellarchitektur für LLMs selten diskutiert. Wir analysieren zunächst die modernsten Sprachmodellarchitekturen und beobachten das Problem des Feature-Kollapses. Basierend auf der theoretischen Analyse schlagen wir vor, dass die Nichtlinearität auch für Sprachmodelle sehr wichtig ist, was üblicherweise in Faltungsneuronalen Netzen für Bildverarbeitungsaufgaben untersucht wird. Die sogenannte „series informed activation function“ wird dann mit minimalen, vernachlässigbaren Berechnungen eingeführt, und ein erweiterter Shortcut wird weiterhin verwendet, um die Modellnichtlinearität zu verstärken. Wir zeigen dann durch sorgfältig gestaltete Ablationsexperimente, dass der vorgeschlagene Ansatz signifikant effektiv zur Verbesserung der Modellnichtlinearität ist; somit präsentieren wir eine neue effiziente Modellarchitektur für moderne Anwendungen, nämlich PanGu-pi. Experimente werden dann mit demselben Datensatz und derselben Trainingsstrategie durchgeführt, um PanGu-pi mit den modernsten LLMs zu vergleichen. Die Ergebnisse zeigen, dass PanGu-pi-7B eine vergleichbare Leistung zu Benchmark-Modellen bei etwa 10 % schnellerer Inferenzgeschwindigkeit erreichen kann, und PanGu-pi-1B kann in Bezug auf Genauigkeit und Effizienz Spitzenleistungen erzielen. Darüber hinaus haben wir PanGu-pi-7B in den hochwertigen Domänen Finanzen und Recht eingesetzt und ein LLM namens YunShan für die praktische Anwendung entwickelt. Die Ergebnisse zeigen, dass YunShan andere Modelle ähnlicher Größe auf Benchmarks übertreffen kann.
Das wachsende Interesse an Multimodalen Großen Sprachmodellen (MLLMs), wie beispielsweise OpenAI's GPT-4V(ision), hat sowohl akademische als auch industrielle Bereiche erheblich beeinflusst. Diese Modelle erweitern Große Sprachmodelle (LLMs) um fortgeschrittene Fähigkeiten zur visuellen Verständnisbildung und erleichtern deren Anwendung in einer Vielzahl multimodaler Aufgaben. Kürzlich hat Google Gemini vorgestellt, ein modernstes MLLM, das speziell für die multimodale Integration entwickelt wurde. Trotz seiner Fortschritte zeigen vorläufige Benchmarks, dass Gemini bei Aufgaben des gesunden Menschenverstands hinter GPT-Modellen zurückbleibt. Diese Bewertung, die auf einem begrenzten Datensatz (d.h. HellaSWAG) basiert, erfasst jedoch nicht vollständig das authentische Potenzial von Gemini im Bereich des gesunden Menschenverstands. Um diese Lücke zu schließen, unternimmt unsere Studie eine umfassende Bewertung der Leistung von Gemini bei komplexen Denkaufgaben, die die Integration von gesundem Menschenverstand über verschiedene Modalitäten hinweg erfordern. Wir führen eine detaillierte Analyse von 12 Datensätzen zum gesunden Menschenverstand durch, die von allgemeinen bis zu domänenspezifischen Aufgaben reichen. Dies umfasst 11 Datensätze, die sich ausschließlich auf Sprache konzentrieren, sowie einen, der multimodale Elemente einbezieht. Unsere Experimente mit vier LLMs und zwei MLLMs demonstrieren die wettbewerbsfähigen Fähigkeiten von Gemini im Bereich des gesunden Menschenverstands. Zusätzlich identifizieren wir gemeinsame Herausforderungen, denen aktuelle LLMs und MLLMs bei der Bewältigung von Problemen des gesunden Menschenverstands gegenüberstehen, und betonen die Notwendigkeit weiterer Fortschritte bei der Verbesserung der Fähigkeiten dieser Modelle im Bereich des gesunden Menschenverstands.