Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen das EXAONE 3.0 anweisungsoptimierte Sprachmodell vor, das erste offene Modell in der Familie der Large Language Models (LLMs), entwickelt von LG AI Research. Unter verschiedenen Modellgrößen veröffentlichen wir öffentlich das 7,8 Milliarden anweisungsoptimierte Modell, um offene Forschung und Innovationen zu fördern. Durch umfangreiche Evaluationen über eine breite Palette von öffentlichen und firmeninternen Benchmarks zeigt EXAONE 3.0 eine hochkompetitive Leistung in der realen Welt mit Anweisungsfolgefähigkeit im Vergleich zu anderen führenden offenen Modellen ähnlicher Größe. Unsere vergleichende Analyse zeigt, dass EXAONE 3.0 insbesondere in Koreanisch herausragt, während es überzeugende Leistungen bei allgemeinen Aufgaben und komplexem Denken erzielt. Mit seiner starken realen Wirksamkeit und zweisprachigen Kompetenz hoffen wir, dass EXAONE weiterhin zu Fortschritten in der Experten-KI beiträgt. Unser EXAONE 3.0 anweisungsoptimiertes Modell ist verfügbar unter https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
Das Entwickeln eines allgemeinen Agenten ist eine langjährige Vision im Bereich der künstlichen Intelligenz. Bestehende Agenten haben in vielen Bereichen bemerkenswerte Fortschritte erzielt, kämpfen jedoch immer noch damit, langfristige Aufgaben in einer offenen Welt zu bewältigen. Wir führen dies auf den Mangel an notwendigem Weltwissen und multimodaler Erfahrung zurück, die Agenten durch eine Vielzahl von langfristigen Aufgaben führen können. In diesem Artikel schlagen wir ein Hybrid Multimodal Memory-Modul vor, um die oben genannten Herausforderungen anzugehen. Es 1) wandelt Wissen in einen Hierarchischen Gerichteten Wissensgraphen um, der es Agenten ermöglicht, Weltwissen explizit darzustellen und zu erlernen, und 2) fasst historische Informationen in einen Abstrahierten Multimodalen Erfahrungspool zusammen, der Agenten reichhaltige Referenzen für kontextbezogenes Lernen bietet. Auf Basis des Hybrid Multimodal Memory-Moduls wird ein multimodaler Agent, Optimus-1, mit einem dedizierten Wissensgesteuerten Planer und einem Erfahrungsgetriebenen Reflektor konstruiert, was zu einer besseren Planung und Reflexion bei langfristigen Aufgaben in Minecraft führt. Umfangreiche experimentelle Ergebnisse zeigen, dass Optimus-1 auf anspruchsvollen langfristigen Aufgaben-Benchmarks signifikant besser abschneidet als alle bestehenden Agenten und bei vielen Aufgaben eine Leistung auf nahezu menschlichem Niveau zeigt. Darüber hinaus führen wir verschiedene Multimodale Große Sprachmodelle (MLLMs) als Rückgrat von Optimus-1 ein. Experimentelle Ergebnisse zeigen, dass Optimus-1 dank des Hybrid Multimodal Memory-Moduls eine starke Verallgemeinerung aufweist und auf vielen Aufgaben die GPT-4V-Basislinie übertrifft.
Das Erreichen von Geschwindigkeit und Leistung auf menschlichem Niveau bei realen Aufgaben ist ein Leitstern für die Robotik-Forschungsgemeinschaft. Diese Arbeit geht einen Schritt in Richtung dieses Ziels und präsentiert den ersten erlernten Roboter-Agenten, der eine Amateurleistung auf menschlichem Niveau im wettbewerbsfähigen Tischtennis erreicht. Tischtennis ist ein körperlich anspruchsvoller Sport, der von menschlichen Spielern jahrelanges Training erfordert, um ein fortgeschrittenes Maß an Können zu erreichen. In diesem Papier tragen wir (1) eine hierarchische und modulare Richtlinienarchitektur bei, bestehend aus (i) Niedrigniveau-Controllern mit ihren detaillierten Fähigkeitsbeschreibungen, die die Fähigkeiten des Agenten modellieren und helfen, die Sim-zu-Real-Lücke zu überbrücken, und (ii) einem Hochlevel-Controller, der die Niedrigniveau-Fähigkeiten auswählt, (2) Techniken zur Ermöglichung von Null-Schuss-Sim-zu-Real, einschließlich eines iterativen Ansatzes zur Definition der Aufgabenverteilung, der auf der realen Welt basiert und einen automatischen Lehrplan definiert, und (3) Echtzeit-Anpassung an unbekannte Gegner. Die Leistung der Richtlinie wurde durch 29 Roboter gegen menschliche Spiele bewertet, von denen der Roboter 45% (13/29) gewann. Alle Menschen waren unbekannte Spieler, und ihr Können variierte von Anfänger- bis Turnierniveau. Während der Roboter alle Spiele gegen die fortgeschrittensten Spieler verlor, gewann er 100% der Spiele gegen Anfänger und 55% der Spiele gegen mittelstufe Spieler, was eine solide Amateurleistung auf menschlichem Niveau zeigt. Videos der Spiele können unter https://sites.google.com/view/competitive-robot-table-tennis angesehen werden.
Große Sprachmodelle (LLMs) zeichnen sich bei eigenständigen Code-Aufgaben wie HumanEval und MBPP aus, haben jedoch Schwierigkeiten beim Umgang mit gesamten Code-Repositories. Diese Herausforderung hat die Forschung zur Verbesserung der Interaktion von LLMs mit Code-Basen im Repository-Maßstab angeregt. Aktuelle Lösungen setzen auf ähnlichkeitsbasierte Abfrage oder manuelle Tools und APIs, von denen jede bemerkenswerte Nachteile aufweist. Ähnlichkeitsbasierte Abfrage weist oft eine geringe Rückrufquote bei komplexen Aufgaben auf, während manuelle Tools und APIs in der Regel auf bestimmte Aufgaben spezialisiert sind und Expertenwissen erfordern, was ihre Verallgemeinerbarkeit über verschiedene Code-Aufgaben und reale Anwendungen hinweg einschränkt. Um diese Einschränkungen zu mildern, stellen wir \framework vor, ein System, das LLM-Agenten mit Graphdatenbank-Schnittstellen integriert, die aus Code-Repositories extrahiert wurden. Durch die Nutzung der strukturellen Eigenschaften von Graphdatenbanken und der Flexibilität der Graphabfragesprache ermöglicht \framework dem LLM-Agenten, Abfragen zu erstellen und auszuführen, was präzise, code-struktur-bewusste Kontextabfrage und Code-Navigation ermöglicht. Wir bewerten \framework anhand von drei Benchmarks: CrossCodeEval, SWE-bench und EvoCodeBench. Darüber hinaus entwickeln wir fünf Coding-Anwendungen für den realen Einsatz. Mit einem einheitlichen Graphdatenbankschema zeigt \framework eine wettbewerbsfähige Leistung und Potenzial sowohl in akademischen als auch in realen Umgebungen und zeigt damit seine Vielseitigkeit und Wirksamkeit in der Softwareentwicklung. Unsere Anwendungs-Demo: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval ist ein umfassendes KI-Sicherheitsprüfungs-Toolkit, das entwickelt wurde, um große Sprachmodelle (LLMs) zu bewerten. Es unterstützt eine vielfältige Palette von Modellen, einschließlich offengewichtiger und API-basierter Modelle, und umfasst über 35 Sicherheitsbewertungskriterien, die Bereiche wie mehrsprachige Sicherheit, übertriebene Sicherheit und Prompt-Injektionen abdecken. Das Framework unterstützt sowohl die Bewertung von LLMs als auch von Richtlinien und integriert benutzerdefinierte Mutatoren, um die Sicherheit gegen verschiedene Textstilmutationen wie Zukunftsform und Paraphrasierung zu testen. Darüber hinaus stellt WalledEval WalledGuard vor, ein neues, kleines und leistungsstarkes Inhaltsmoderationstool, sowie SGXSTest, einen Bewertungsmaßstab zur Beurteilung übertriebener Sicherheit in kulturellen Kontexten. Wir stellen WalledEval öffentlich unter https://github.com/walledai/walledevalA zur Verfügung.
Die 3D-Gaußsplatting (3DGS) hat sich kürzlich als alternative Darstellungsmethode etabliert, die eine auf Gaußschen 3D-Modellen basierende Darstellung nutzt und eine approximierte volumetrische Darstellung einführt, um eine sehr schnelle Rendering-Geschwindigkeit und vielversprechende Bildqualität zu erreichen. Darüber hinaus haben nachfolgende Studien 3DGS erfolgreich auf dynamische 3D-Szenen erweitert und damit ihr breites Anwendungsspektrum demonstriert. Allerdings ergibt sich ein signifikanter Nachteil, da 3DGS und seine darauf folgenden Methoden eine große Anzahl von Gaußschen benötigen, um die hohe Genauigkeit der gerenderten Bilder zu gewährleisten, was einen großen Speicherbedarf erfordert. Um dieses kritische Problem anzugehen, legen wir besonderen Wert auf zwei Hauptziele: die Reduzierung der Anzahl von Gaußschen Punkten, ohne die Leistung zu beeinträchtigen, und die Komprimierung der Gaußschen Attribute, wie beispielsweise farb- und kovarianzabhängige Eigenschaften. Zu diesem Zweck schlagen wir eine erlernbare Maskenstrategie vor, die die Anzahl der Gaußschen signifikant reduziert, während die Leistungsfähigkeit erhalten bleibt. Darüber hinaus schlagen wir eine kompakte, aber effektive Darstellung der farbabhängigen Eigenschaften vor, indem wir ein rasterbasiertes neuronales Feld verwenden, anstatt auf sphärische Harmonien zu setzen. Schließlich erlernen wir Codebücher, um die geometrischen und zeitlichen Attribute durch residualen Vektorquantisierung kompakt darzustellen. Mit Modellkompressionstechniken wie Quantisierung und Entropiecodierung zeigen wir konsistent über 25-fach reduzierten Speicherbedarf und verbesserte Rendering-Geschwindigkeit im Vergleich zu 3DGS für statische Szenen, während die Qualität der Szenendarstellung erhalten bleibt. Für dynamische Szenen erreicht unser Ansatz eine über 12-fache Speichereffizienz und behält im Vergleich zu den bestehenden State-of-the-Art-Methoden eine hochwertige Rekonstruktion bei. Unsere Arbeit bietet einen umfassenden Rahmen für die 3D-Szenendarstellung, der hohe Leistung, schnelles Training, Kompaktheit und echtzeitfähiges Rendering erreicht. Unsere Projektseite ist unter https://maincold2.github.io/c3dgs/ verfügbar.
Aktuelle Bildgenerierungsmodelle zeichnen sich durch die Fähigkeit aus, hochwertige Bilder aus kurzen Bildunterschriften zu erstellen. Allerdings scheitern sie daran, die Konsistenz mehrerer Instanzen über Bilder hinweg aufrechtzuerhalten, wenn sie auf umfangreiche Kontexte treffen. Diese Inkonsistenz ist größtenteils auf das Fehlen einer granularen Instanzmerkmalbeschriftung in vorhandenen Trainingsdatensätzen zurückzuführen. Um diese Probleme anzugehen, führen wir Openstory++ ein, einen groß angelegten Datensatz, der zusätzliche instanzbezogene Annotationen mit Bildern und Text kombiniert. Darüber hinaus entwickeln wir eine Schulungsmethodik, die die entitätszentrierte Bild-Text-Generierung betont und sicherstellt, dass die Modelle lernen, visuelle und textuelle Informationen effektiv zu verweben. Speziell optimiert Openstory++ den Prozess der Schlüsselbildextraktion aus Open-Domain-Videos, indem es Vision-Sprach-Modelle einsetzt, um Bildunterschriften zu generieren, die dann von einem großen Sprachmodell für narrative Kontinuität verfeinert werden. Es übertrifft bisherige Datensätze, indem es eine umfassendere Open-Domain-Ressource bietet, die automatisierte Bildunterschriften, hochauflösende Bilder, die auf die Instanzanzahl zugeschnitten sind, und umfangreiche Rahmenfolgen für zeitliche Konsistenz integriert. Darüber hinaus präsentieren wir Cohere-Bench, einen wegweisenden Benchmark-Rahmen zur Bewertung der Bildgenerierungsaufgaben, wenn ein langer multimodaler Kontext bereitgestellt wird, einschließlich der Fähigkeit, den Hintergrund, den Stil und die Instanzen im gegebenen Kontext kohärent zu halten. Im Vergleich zu bestehenden Benchmarks schließt unsere Arbeit kritische Lücken in der multimodalen Generierung und treibt die Entwicklung von Modellen voran, die komplexe Erzählungen in Open-Domain-Umgebungen geschickt generieren und interpretieren können. Experimente innerhalb von Cohere-Bench bestätigen die Überlegenheit von Openstory++ bei der Förderung hochwertiger visueller Erzählmodelle und verbessern deren Fähigkeit, Open-Domain-Generierungsaufgaben anzugehen. Weitere Details finden Sie unter https://openstorypp.github.io/
Wir präsentieren Speech-MASSIVE, ein mehrsprachiges Datenset für das Verstehen gesprochener Sprache (SLU), das den Sprachanteil eines Teils des MASSIVE-Textkorpus umfasst. Speech-MASSIVE umfasst 12 Sprachen aus verschiedenen Sprachfamilien und übernimmt von MASSIVE die Annotationen für die Absichtsvorhersage und das Slot-Filling. Unsere Erweiterung erfolgt aufgrund des Mangels an umfassend mehrsprachigen SLU-Datensets und des wachsenden Bedarfs an vielseitigen Sprachdatensets zur Bewertung von Grundlagenmodellen (LLMs, Sprachencoder) über Sprachen und Aufgaben hinweg. Wir stellen ein multimodales, multitaskingfähiges, mehrsprachiges Datenset bereit und berichten über SLU-Baselines unter Verwendung sowohl von kaskadierten als auch von end-to-end Architekturen in verschiedenen Trainingsszenarien (Zero-Shot, Few-Shot und vollständiges Fine-Tuning). Darüber hinaus zeigen wir die Eignung von Speech-MASSIVE für das Benchmarking anderer Aufgaben wie Sprachtranskription, Sprachidentifikation und Sprachübersetzung auf. Das Datenset, die Modelle und der Code sind öffentlich verfügbar unter: https://github.com/hlt-mt/Speech-MASSIVE
Differenzierbare volumetrische Rendering-basierte Methoden haben signifikante Fortschritte bei der neuartigen Ansichtssynthese erzielt. Einerseits haben innovative Methoden das Neural Radiance Fields (NeRF)-Netzwerk durch lokal parametrisierte Strukturen ersetzt, was hochwertige Renderings in angemessener Zeit ermöglicht. Andererseits haben Ansätze differentiable Splatting anstelle von NeRFs Strahlenverfolgung verwendet, um Radiance Fields schnell mithilfe von Gauß'schen Kernen zu optimieren, was eine feine Anpassung an die Szene ermöglicht. Allerdings wurde die differentiable Strahlenverfolgung von unregelmäßig verteilten Kernen kaum erforscht, während Splatting trotz schneller Renderzeiten anfällig für deutlich sichtbare Artefakte ist. Unsere Arbeit schließt diese Lücke, indem wir eine physikalisch konsistente Formulierung der emittierten Strahlung c und Dichte σ bereitstellen, die mit Gauß-Funktionen, die mit Sphärischen Gaußschen/Harmonischen für eine farbmetrische Darstellung aller Frequenzen assoziiert sind, zerlegt wird. Wir stellen auch eine Methode vor, die differentiable Strahlenverfolgung von unregelmäßig verteilten Gaußschen mithilfe eines Algorithmus ermöglicht, der Radiance Fields Schicht für Schicht integriert und eine BVH-Struktur nutzt. Dies ermöglicht es unserem Ansatz, sich fein an die Szene anzupassen, während Splatting-Artefakte vermieden werden. Als Ergebnis erzielen wir eine überlegene Rendering-Qualität im Vergleich zum Stand der Technik, wobei angemessene Trainingszeiten eingehalten werden und Inferenzgeschwindigkeiten von 25 FPS auf dem Blender-Datensatz erreicht werden. Projektseite mit Videos und Code: https://raygauss.github.io/
Dieses Paper stellt einen Ansatz zur Zerlegung von animierten Grafiken in Sprites vor, eine Reihe von grundlegenden Elementen oder Ebenen. Unser Ansatz baut auf der Optimierung von Sprite-Parametern auf, um zum Raster-Video zu passen. Zur Effizienz nehmen wir an, dass Sprites statische Texturen haben, um den Suchraum zu reduzieren und Artefakte mithilfe eines Textur-Prior-Modells zu verhindern. Um die Optimierung weiter zu beschleunigen, führen wir die Initialisierung der Sprite-Parameter ein, indem wir ein vorab trainiertes Video-Objektsegmentierungsmodell und Benutzereingaben von Einzelbildannotationen nutzen. Für unsere Studie erstellen wir den Crello Animation Datensatz aus einem Online-Designservice und definieren quantitative Metriken zur Messung der Qualität der extrahierten Sprites. Experimente zeigen, dass unsere Methode im Hinblick auf das Verhältnis von Qualität zu Effizienz signifikant besser abschneidet als Baselines für ähnliche Zerlegungsaufgaben.
Die kinematische Audioquellentrennung (CASS) ist eine recht neue Teilaufgabe der Audioquellentrennung. Ein typischer Aufbau von CASS ist ein Drei-Quellen-Problem, mit dem Ziel, das Gemisch in den Dialogstamm (DX), Musikstamm (MX) und Effektstamm (FX) zu trennen. In der Praxis gibt es jedoch mehrere Grenzfälle, da einige Schallquellen nicht sauber in einen dieser drei Stämme passen, was den Einsatz zusätzlicher Hilfsstämme in der Produktion erforderlich macht. Ein sehr häufiger Grenzfall ist die Singstimme in Filmton, die je nach kinematischem Kontext entweder zum DX oder MX gehören kann. In dieser Arbeit zeigen wir eine sehr unkomplizierte Erweiterung der dedizierten Decoder-Modelle Bandit und des abfragebasierten Einzeldecoder-Modells Banquet zu einem Vier-Quellen-Problem, wobei nicht-musikalischer Dialog, instrumentale Musik, Singstimme und Effekte als separate Stämme behandelt werden. Interessanterweise schnitt das abfragebasierte Banquet-Modell besser ab als das dedizierte Decoder-Modell Bandit. Wir vermuten, dass dies auf eine bessere Merkmalsausrichtung am Engpass zurückzuführen ist, wie sie durch die bandagnostische FiLM-Schicht erzwungen wird. Der Datensatz und die Modellimplementierung werden unter https://github.com/kwatcharasupat/source-separation-landing verfügbar gemacht.