Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Animation von Charakterbildern, die hochwertige Videos aus einem Referenzbild und einer Zielposenfolge generiert, hat in den letzten Jahren erhebliche Fortschritte gemacht. Die meisten bestehenden Methoden gelten jedoch nur für menschliche Figuren, die in der Regel nicht gut auf anthropomorphe Charaktere übertragbar sind, die häufig in Branchen wie Gaming und Unterhaltung verwendet werden. Unsere eingehende Analyse legt nahe, dass diese Einschränkung auf ihre unzureichende Modellierung von Bewegung zurückzuführen ist, die das Bewegungsmuster des Ausgangsvideos nicht erfassen kann und daher eine Posenfolge starr auf den Zielfiguren anwendet. Zu diesem Zweck schlägt dieser Artikel Animate-X vor, ein universelles Animationsframework basierend auf LDM für verschiedene Charaktertypen (kollektiv als X bezeichnet), einschließlich anthropomorpher Charaktere. Zur Verbesserung der Bewegungsrepräsentation führen wir den Pose Indicator ein, der das umfassende Bewegungsmuster aus dem Ausgangsvideo auf implizite und explizite Weise erfasst. Ersteres nutzt CLIP-Visuelleigenschaften eines Ausgangsvideos, um dessen Wesen der Bewegung zu extrahieren, wie das allgemeine Bewegungsmuster und die zeitlichen Beziehungen zwischen Bewegungen, während letzteres die Verallgemeinerung von LDM durch die Simulation möglicher Eingaben im Voraus stärkt, die während der Inferenz auftreten können. Darüber hinaus führen wir ein neues animiertes anthropomorphes Benchmark (A^2Bench) ein, um die Leistung von Animate-X bei universellen und weit verbreiteten Animationsbildern zu bewerten. Umfangreiche Experimente zeigen die Überlegenheit und Wirksamkeit von Animate-X im Vergleich zu State-of-the-Art-Methoden.
Mit der raschen Entwicklung von KI-generierten Inhalten könnte das zukünftige Internet von synthetischen Daten überschwemmt werden, was die Unterscheidung von authentischen und glaubwürdigen multimodalen Daten zunehmend herausfordernd macht. Die Erkennung synthetischer Daten hat daher weitreichende Aufmerksamkeit erregt, und die Leistung großer multimodaler Modelle (LMMs) bei dieser Aufgabe hat beträchtliches Interesse geweckt. LMMs können natürlichsprachliche Erklärungen für ihre Authentizitätsbewertungen liefern, was die Erklärbarkeit der Erkennung synthetischer Inhalte verbessert. Gleichzeitig testet die Aufgabe, zwischen realen und synthetischen Daten zu unterscheiden, effektiv die Wahrnehmungs-, Wissens- und Argumentationsfähigkeiten von LMMs. Als Antwort darauf stellen wir LOKI vor, einen neuartigen Benchmark, der entwickelt wurde, um die Fähigkeit von LMMs zur Erkennung synthetischer Daten über mehrere Modalitäten hinweg zu bewerten. LOKI umfasst Video-, Bild-, 3D-, Text- und Audio-Modalitäten und besteht aus 18.000 sorgfältig ausgewählten Fragen in 26 Unterkategorien mit klaren Schwierigkeitsgraden. Der Benchmark beinhaltet grobgranulare Bewertungs- und Multiple-Choice-Fragen sowie feinkörnige Anomalieauswahl- und Erklärungsaufgaben, die eine umfassende Analyse von LMMs ermöglichen. Wir haben 22 Open-Source-LMMs und 6 geschlossene Modelle auf LOKI evaluiert, wobei ihre Potenziale als Erkenner synthetischer Daten hervorgehoben und gleichzeitig einige Einschränkungen bei der Entwicklung von LMM-Fähigkeiten aufgezeigt wurden. Weitere Informationen zu LOKI finden Sie unter https://opendatalab.github.io/LOKI/
Die interlektuelle multimodale Wahrnehmung und Generierung, die es Modellen ermöglicht, sowohl Bilder als auch Texte in beliebiger Reihenfolge zu erzeugen und zu interpretieren, sind zu einem entscheidenden Bereich im multimodalen Lernen geworden. Trotz bedeutender Fortschritte bleibt die Bewertung dieser Fähigkeit unzureichend. Bestehende Benchmarks leiden unter Einschränkungen hinsichtlich Datenumfang, -umfang und Bewertungstiefe, während aktuelle Bewertungsmetriken oft kostspielig oder voreingenommen sind und für praktische Anwendungen an Zuverlässigkeit mangeln. Um diesen Herausforderungen zu begegnen, stellen wir MMIE vor, einen umfangreichen wissensintensiven Benchmark zur Bewertung der interlektuellen multimodalen Wahrnehmung und Generierung in Large Vision-Language Models (LVLMs). MMIE umfasst 20.000 sorgfältig kuratierte multimodale Abfragen, die 3 Kategorien, 12 Felder und 102 Unterfelder abdecken, darunter Mathematik, Codierung, Physik, Literatur, Gesundheit und Kunst. Es unterstützt sowohl interlektuelle Eingaben als auch Ausgaben und bietet eine Mischung aus Multiple-Choice- und offenen Frageformaten zur Bewertung verschiedener Kompetenzen. Darüber hinaus schlagen wir eine zuverlässige automatisierte Bewertungsmetrik vor, die ein Bewertungsmodell nutzt, das mit menschlich annotierten Daten feinabgestimmt ist und systematische Bewertungskriterien verwendet, um Voreingenommenheit zu reduzieren und die Bewertungsgenauigkeit zu verbessern. Umfangreiche Experimente zeigen die Wirksamkeit unseres Benchmarks und unserer Metriken bei der Bereitstellung einer umfassenden Bewertung von interlektuellen LVLMs. Speziell bewerten wir acht LVLMs und zeigen auf, dass selbst die besten Modelle erhebliches Verbesserungspotenzial aufweisen, wobei die meisten nur moderate Ergebnisse erzielen. Wir sind der Überzeugung, dass MMIE weitere Fortschritte in der Entwicklung von interlektuellen LVLMs vorantreiben wird. Wir veröffentlichen unseren Benchmark und den Code öffentlich unter https://mmie-bench.github.io/.
Das präzise Befolgen von Anweisungen ist entscheidend für die effektive Anwendung von Retrieval-Augmented Generation (RAG)-Systemen. Trotz jüngster Fortschritte bei Large Language Models (LLMs) ist die Forschung zur Bewertung und Verbesserung der Anweisungsbeachtung (IF) innerhalb des RAG-Bereichs begrenzt. Um dieses Problem anzugehen, schlagen wir VIF-RAG vor, die erste automatisierte, skalierbare und überprüfbare synthetische Pipeline zur Ausrichtung der Anweisungsbeachtung in RAG-Systemen. Wir beginnen damit, ein minimales Set von atomaren Anweisungen (<100) manuell zu erstellen und Kombinationsregeln zu entwickeln, um komplexe Anweisungen für ein Ausgangsset zu synthetisieren und zu überprüfen. Anschließend verwenden wir überwachte Modelle zur Anweisungsumformulierung und generieren gleichzeitig Code, um die Qualität der Anweisungen mithilfe eines Python-Executors automatisch zu überprüfen. Schließlich integrieren wir diese Anweisungen mit umfangreichen RAG- und allgemeinen Datensätzen und skalieren auf einen hochwertigen VIF-RAG-QA-Datensatz (>100k) durch automatisierte Prozesse. Um die Lücke in der automatischen Bewertung der Anweisungsbeachtung für RAG-Systeme weiter zu schließen, führen wir das FollowRAG Benchmark ein, das etwa 3K Testproben umfasst und 22 Kategorien allgemeiner Anweisungsbeschränkungen sowie vier wissensintensive QA-Datensätze abdeckt. Aufgrund seines robusten Pipeline-Designs kann FollowRAG nahtlos mit verschiedenen RAG-Benchmarks integriert werden. Unter Verwendung von FollowRAG und acht weit verbreiteten IF- und grundlegenden Fähigkeiten-Benchmarks für LLMs zeigen wir, dass VIF-RAG die Leistung von LLMs über eine breite Palette allgemeiner Anweisungsbeschränkungen deutlich verbessert und dabei effektiv seine Fähigkeiten in RAG-Szenarien nutzt. Eine weitere Analyse bietet praktische Einblicke, um die Anweisungsbeachtung in RAG-Systemen zu erreichen. Unser Code und unsere Datensätze sind unter https://FollowRAG.github.io verfügbar.
Wir präsentieren MEGA-Bench, eine Evaluierungssuite, die die multimodale Evaluierung auf über 500 realen Aufgaben skaliert, um den hochgradig heterogenen täglichen Anwendungsfällen von Endbenutzern gerecht zu werden. Unser Ziel ist es, eine Reihe hochwertiger Datensamples zu optimieren, die eine äußerst vielfältige und umfangreiche Reihe von multimodalen Aufgaben abdecken, während wir kosteneffiziente und präzise Modellbewertungen ermöglichen. Insbesondere haben wir 505 realistische Aufgaben gesammelt, die über 8.000 Samples von 16 Expertenannotatoren umfassen, um den multimodalen Aufgabenraum umfassend abzudecken. Anstatt diese Probleme in standardisierte Multiple-Choice-Fragen zu vereinheitlichen (wie MMMU, MMBench und MMT-Bench), umarmen wir eine Vielzahl von Ausgabeformaten wie Zahlen, Phrasen, Code, \LaTeX, Koordinaten, JSON, Freitext usw. Um diese Formate zu berücksichtigen, haben wir über 40 Metriken entwickelt, um diese Aufgaben zu bewerten. Im Gegensatz zu bestehenden Benchmarks bietet MEGA-Bench einen detaillierten Leistungsbericht über mehrere Dimensionen (z. B. Anwendung, Eingabetyp, Ausgabeformat, Fähigkeit), der es Benutzern ermöglicht, mit den Modellfähigkeiten in der Tiefe zu interagieren und sie zu visualisieren. Wir evaluieren eine Vielzahl von modernen Bild-Sprach-Modelle auf MEGA-Bench, um ihre Fähigkeiten über diese Dimensionen hinweg zu verstehen.
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben zu bedeutenden Durchbrüchen in den mathematischen Denkfähigkeiten geführt. Allerdings werden bestehende Benchmarks wie GSM8K oder MATH nun mit hoher Genauigkeit gelöst (z. B. erreicht OpenAI o1 94,8% auf dem MATH-Datensatz), was auf ihre Unzulänglichkeit hinweist, diese Modelle tatsächlich herauszufordern. Um diese Kluft zu überbrücken, schlagen wir einen umfassenden und anspruchsvollen Benchmark vor, der speziell zur Bewertung der mathematischen Denkfähigkeiten von LLMs auf Olympiade-Niveau entwickelt wurde. Im Gegensatz zu bestehenden Olympiade-bezogenen Benchmarks konzentriert sich unser Datensatz ausschließlich auf Mathematik und umfasst eine umfangreiche Sammlung von 4428 Wettbewerbsproblemen mit rigoroser menschlicher Annotation. Diese Probleme sind sorgfältig in über 33 Unterdomänen kategorisiert und erstrecken sich über mehr als 10 verschiedene Schwierigkeitsstufen, was eine ganzheitliche Bewertung der Modellleistung im Bereich der Olympiade-mathematischen Denkfähigkeit ermöglicht. Darüber hinaus haben wir eine eingehende Analyse basierend auf diesem Benchmark durchgeführt. Unsere experimentellen Ergebnisse zeigen, dass selbst die fortschrittlichsten Modelle, OpenAI o1-mini und OpenAI o1-preview, mit hoch anspruchsvollen Olympiade-Problemen zu kämpfen haben, mit Genauigkeiten von 60,54% bzw. 52,55%, was bedeutende Herausforderungen im Bereich der Olympiade-mathematischen Denkfähigkeit aufzeigt.
Generative Modelle transformieren zufälliges Rauschen in Bilder; ihre Umkehrung zielt darauf ab, Bilder zurück in strukturiertes Rauschen zur Wiederherstellung und Bearbeitung zu transformieren. Dieser Artikel behandelt zwei Schlüsselaufgaben: (i) Umkehrung und (ii) Bearbeitung eines realen Bildes unter Verwendung stochastischer Äquivalente von rektifizierten Flussmodellen (wie Flux). Obwohl Diffusionsmodelle (DMs) in letzter Zeit das Feld der generativen Modellierung für Bilder dominiert haben, stellt ihre Umkehrung aufgrund von Nichtlinearitäten in Drift und Diffusion Herausforderungen in Bezug auf Treue und Bearbeitbarkeit dar. Bestehende state-of-the-art DM-Umkehrungsansätze beruhen auf dem Training zusätzlicher Parameter oder der Optimierung latenter Variablen zur Testzeit; beides ist in der Praxis teuer. Rektifizierte Flüsse (RFs) bieten eine vielversprechende Alternative zu Diffusionsmodellen, jedoch wurde ihre Umkehrung bisher wenig erforscht. Wir schlagen vor, die Umkehrung von RFs unter Verwendung einer dynamischen optimalen Steuerung vorzunehmen, die über einen linearen quadratischen Regler abgeleitet wird. Wir zeigen, dass das resultierende Vektorfeld äquivalent zu einer rektifizierten stochastischen Differentialgleichung ist. Darüber hinaus erweitern wir unser Framework, um einen stochastischen Sampler für Flux zu entwerfen. Unsere Umkehrungsmethode ermöglicht eine state-of-the-art Leistung bei der Null-Schuss-Umkehrung und Bearbeitung und übertrifft frühere Arbeiten in der Synthese von Strich-zu-Bild und der semantischen Bildbearbeitung, wobei umfangreiche menschliche Bewertungen die Benutzerpräferenz bestätigen.
Das groß angelegte Training von multimodalen Modellen auf aus dem Web gescrapten Daten hat sich als äußerst nützlich erwiesen, um diesen Modellen das erforderliche Weltwissen zu vermitteln, um effektiv bei verschiedenen nachgelagerten Aufgaben zu agieren. Ein Nachteil beim Scrapen von Webdaten kann jedoch der potenzielle Verzicht auf die Benchmarks sein, anhand derer die Fähigkeiten dieser Modelle häufig bewertet werden. Um einer Kontamination der Testdaten entgegenzuwirken und die Fähigkeiten dieser Grundlagenmodelle wirklich zu testen, schlagen wir LiveXiv vor: Ein skalierbarer, sich entwickelnder Live-Benchmark basierend auf wissenschaftlichen ArXiv-Papieren. LiveXiv greift zu einem beliebigen Zeitpunkt auf domänenspezifische Manuskripte zu und schlägt vor, visuelle Frage-Antwort-Paare (VQA) automatisch zu generieren. Dies erfolgt ohne menschliches Eingreifen und unter Verwendung des multimodalen Inhalts in den Manuskripten, wie Grafiken, Diagramme und Tabellen. Darüber hinaus stellen wir einen effizienten Bewertungsansatz vor, der die Leistung aller Modelle auf dem sich entwickelnden Benchmark schätzt, indem nur eine Teilmenge der Modelle bewertet wird. Dies reduziert die Gesamtbewertungskosten erheblich. Wir bewerten mehrere offene und proprietäre Large Multi-modal Models (LMMs) anhand der ersten Version unseres Benchmarks, um seine anspruchsvolle Natur zu zeigen und die wahren Fähigkeiten der Modelle aufzudecken, um Kontamination zu vermeiden. Schließlich haben wir uns der hohen Qualität verpflichtet und eine manuell überprüfte Teilmenge gesammelt und bewertet. Durch den Vergleich der Gesamtergebnisse mit unseren automatischen Annotationen haben wir festgestellt, dass die Leistungsvarianz tatsächlich minimal ist (<2,5%). Unser Datensatz ist online auf HuggingFace verfügbar, und unser Code wird hier verfügbar sein.
Die Retrieval-augmented Generation (RAG) ist eine effektive Technik, die es großen Sprachmodellen (LLMs) ermöglicht, externe Wissensquellen für die Generierung zu nutzen. Aktuelle RAG-Systeme basieren jedoch ausschließlich auf Text, was es unmöglich macht, visuelle Informationen wie Layout und Bilder zu nutzen, die in realen multimedialen Dokumenten eine entscheidende Rolle spielen. In diesem Paper stellen wir VisRAG vor, das dieses Problem durch die Einführung eines Vision-Sprachmodell (VLM)-basierten RAG-Pipelines löst. In dieser Pipeline wird das Dokument nicht zuerst geparst, um Text zu erhalten, sondern direkt mithilfe eines VLM als Bild eingebettet und dann zur Verbesserung der Generierung eines VLM abgerufen. Im Vergleich zu traditionellen textbasierten RAG maximiert VisRAG die Beibehaltung und Nutzung der Dateninformationen in den Originaldokumenten und beseitigt den Informationsverlust, der während des Parsings eingeführt wird. Wir sammeln sowohl Open-Source- als auch synthetische Daten, um den Retriever in VisRAG zu trainieren und verschiedene Generierungsmethoden zu erkunden. Experimente zeigen, dass VisRAG sowohl in den Abruf- als auch Generierungsphasen traditionelle RAG übertrifft und einen Leistungsgewinn von 25-39 % im End-to-End-Vergleich zur traditionellen textbasierten RAG-Pipeline erzielt. Weitere Analysen zeigen, dass VisRAG effektiv ist bei der Nutzung von Trainingsdaten und eine starke Verallgemeinerungsfähigkeit aufweist, was es zu einer vielversprechenden Lösung für RAG bei multimedialen Dokumenten macht. Unser Code und unsere Daten sind verfügbar unter https://github.com/openbmb/visrag.
In den letzten Jahren gab es bemerkenswerte Durchbrüche bei der Generierung von Bild-zu-Video. Allerdings sind die 3D-Konsistenz und die Kamerasteuerbarkeit der generierten Frames ungelöst geblieben. In jüngsten Studien wurde versucht, die Kamerasteuerung in den Generierungsprozess zu integrieren, aber die Ergebnisse sind oft auf einfache Trajektorien beschränkt oder es fehlt die Fähigkeit, konsistente Videos aus mehreren verschiedenen Kamerapfaden für dieselbe Szene zu generieren. Um diese Einschränkungen zu adressieren, stellen wir Cavia vor, ein neuartiges Framework für kamerasteuerbare, Multi-View-Video-Generierung, das in der Lage ist, ein Eingabebild in mehrere räumlich-zeitlich konsistente Videos umzuwandeln. Unser Framework erweitert die räumlichen und zeitlichen Aufmerksamkeitsmodule zu view-integrierten Aufmerksamkeitsmodulen, die sowohl die Blickwinkel- als auch die zeitliche Konsistenz verbessern. Dieses flexible Design ermöglicht ein gemeinsames Training mit vielfältigen kuratierten Datenquellen, einschließlich statischer Videos auf Szenenebene, synthetischer dynamischer Multi-View-Videos auf Objektebene und monokularer dynamischer Videos aus der realen Welt. Unseres Wissens nach ist Cavia die erste ihrer Art, die es dem Benutzer ermöglicht, die Kamerabewegung präzise zu spezifizieren und gleichzeitig die Objektbewegung zu erhalten. Umfangreiche Experimente zeigen, dass Cavia in Bezug auf geometrische Konsistenz und perzeptuelle Qualität die Methoden auf dem neuesten Stand der Technik übertrifft. Projektseite: https://ir1d.github.io/Cavia/
LLMs werden in der Regel darauf trainiert, Benutzerfragen zu beantworten oder Anweisungen ähnlich zu befolgen, wie menschliche Experten reagieren. Im Standard-Alignmentsrahmen fehlt ihnen jedoch die grundlegende Fähigkeit des expliziten Denkens vor dem Antworten. Das Denken ist wichtig für komplexe Fragen, die Schlussfolgerungen und Planung erfordern – kann aber auf jede Aufgabe angewendet werden. Wir schlagen eine Schulungsmethode vor, um bestehende LLMs mit solchen Denkfähigkeiten für allgemeines Anweisungsverhalten auszustatten, ohne zusätzliche menschliche Daten zu verwenden. Dies erreichen wir durch ein iteratives Such- und Optimierungsverfahren, das den Raum möglicher Gedankengenerationen erkundet und dem Modell ermöglicht, zu lernen, wie man ohne direkte Aufsicht denkt. Für jede Anweisung werden die Gedankenkandidaten nur anhand ihrer Antworten mit einem Richtermodell bewertet und dann über Präferenzoptimierung optimiert. Wir zeigen, dass dieses Verfahren zu einer überlegenen Leistung bei AlpacaEval und Arena-Hard führt und Vorteile des Denkens in nicht-schlussfolgernden Kategorien wie Marketing, Gesundheit und Allgemeinwissen sowie bei traditionelleren Schlussfolgerungs- und Problemlösungsaufgaben aufzeigt.
Das Verständnis feingranularer zeitlicher Dynamiken ist entscheidend für die multimodale Videoverarbeitung und -erzeugung. Aufgrund des Mangels an feingranularen zeitlichen Annotationen ähneln bestehende Videobenchmarks größtenteils statischen Bildbenchmarks und sind ungeeignet zur Bewertung von Modellen für zeitliches Verständnis. In diesem Artikel stellen wir TemporalBench vor, einen neuen Benchmark, der sich der Bewertung des feingranularen zeitlichen Verständnisses in Videos widmet. TemporalBench besteht aus ca. 10.000 Video-Frage-Antwort-Paaren, abgeleitet von ca. 2.000 hochwertigen menschlichen Annotationen, die die zeitliche Dynamik in Videoclips detailliert beschreiben. Als Ergebnis bietet unser Benchmark ein einzigartiges Testumfeld zur Bewertung verschiedener zeitlicher Verständnis- und Denkfähigkeiten wie Aktionsfrequenz, Bewegungsmagnitude, Ereignisreihenfolge usw. Darüber hinaus ermöglicht es Bewertungen in verschiedenen Aufgaben wie Video-Frage-Antwort und -Beschriftung, Verständnis kurzer und langer Videos sowie verschiedener Modelle wie multimodale Videoeinbettungsmodelle und Textgenerierungsmodelle. Die Ergebnisse zeigen, dass modernste Modelle wie GPT-4o nur eine Frage-Antwort-Genauigkeit von 38,5% auf TemporalBench erreichen, was eine signifikante Lücke (~30%) zwischen Menschen und KI im zeitlichen Verständnis aufzeigt. Darüber hinaus stellen wir ein kritisches Problem bei Mehrfachauswahl-F&A fest, bei dem LLMs die subtilen Änderungen in negativen Beschriftungen erkennen und eine zentrale Beschreibung als Hinweis für ihre Vorhersage finden können, wobei wir Multiple Binary Accuracy (MBA) vorschlagen, um solche Verzerrungen zu korrigieren. Wir hoffen, dass TemporalBench die Forschung zur Verbesserung der zeitlichen Denkfähigkeiten von Modellen fördern kann. Sowohl Datensatz als auch Bewertungscode werden verfügbar gemacht.
Die überwachte Feinabstimmung (SFT) ist entscheidend, um große Sprachmodelle (LLMs) mit menschlichen Anweisungen in Einklang zu bringen. Das Hauptziel während der SFT besteht darin, eine kleine, aber repräsentative Teilmenge von Trainingsdaten aus dem größeren Pool auszuwählen, sodass die Feinabstimmung mit dieser Teilmenge Ergebnisse erzielt, die mit denen vergleichbar sind oder sogar diejenigen übertreffen, die unter Verwendung des gesamten Datensatzes erzielt wurden. Die meisten bestehenden Techniken zur Datenauswahl sind jedoch für Datensätze kleineren Maßstabs konzipiert, was den Anforderungen von SFT-Szenarien in der realen Welt nicht gerecht wird. In dieser Arbeit haben wir mehrere Selbstbewertungsmethoden, die nicht auf externe Modellhilfe angewiesen sind, auf Datensätze von zwei Millionen Skalen repliziert und festgestellt, dass nahezu alle Methoden Schwierigkeiten hatten, signifikant bessere Ergebnisse als zufällige Auswahl zu erzielen, wenn es um die Bewältigung solcher Datensätze in großem Maßstab ging. Darüber hinaus legen unsere Vergleiche nahe, dass während der SFT die Vielfalt bei der Datenauswahl wichtiger ist als sich einfach nur auf hochwertige Daten zu konzentrieren. Wir haben auch die Grenzen mehrerer aktueller Ansätze analysiert, erläutert, warum sie auf Datensätzen in großem Maßstab schlecht abschneiden und warum sie für solche Kontexte ungeeignet sind. Schließlich stellten wir fest, dass die Filterung von Daten nach Token-Länge eine stabile und effiziente Methode zur Verbesserung der Ergebnisse bietet. Dieser Ansatz, insbesondere beim Training mit langen Textdaten, erweist sich als äußerst vorteilhaft für relativ schwächere Basismodelle, wie z.B. Llama3.
Jüngste Chat-Assistenzsysteme, die von großen Sprachmodellen (LLM) angetrieben werden, haben Gedächtniskomponenten integriert, um Benutzer-Assistenten-Chatverläufe zu verfolgen, was genauere und personalisierte Antworten ermöglicht. Die langfristigen Gedächtnisfähigkeiten in anhaltenden Interaktionen bleiben jedoch noch unerforscht. Dieses Papier stellt LongMemEval vor, einen umfassenden Benchmark, der entwickelt wurde, um fünf Kernlangzeitgedächtnisfähigkeiten von Chat-Assistenten zu bewerten: Informationsextraktion, Mehrsitzungs-Argumentation, zeitliche Argumentation, Wissensaktualisierungen und Enthaltung. Mit 500 sorgfältig ausgewählten Fragen, die in frei skalierbare Benutzer-Assistenten-Chatverläufe eingebettet sind, stellt LongMemEval eine bedeutende Herausforderung für bestehende Langzeitgedächtnissysteme dar, wobei kommerzielle Chat-Assistenten und LLMs mit langem Kontext eine 30%ige Genauigkeitsabnahme beim Memorieren von Informationen über anhaltende Interaktionen zeigen. Anschließend präsentieren wir ein einheitliches Framework, das das Langzeitgedächtnisdesign in vier Designentscheidungen über die Indizierung, Abruf- und Lesestufen aufteilt. Basierend auf wichtigen experimentellen Erkenntnissen schlagen wir verschiedene Gedächtnisdesigns vor, darunter Sitzungszerlegung zur Optimierung der Wertgranularität, faktaugmentierte Schlüsselerweiterung zur Verbesserung der Indexstruktur und zeitbewusste Abfrageerweiterung zur Verfeinerung des Suchbereichs. Die Experimentresultate zeigen, dass diese Optimierungen sowohl die Gedächtnisabruf als auch die nachgelagerte Fragebeantwortung bei LongMemEval erheblich verbessern. Insgesamt bietet unsere Studie wertvolle Ressourcen und Anleitungen zur Weiterentwicklung der Langzeitgedächtnisfähigkeiten von LLM-basierten Chat-Assistenten und ebnet den Weg für eine personalisiertere und zuverlässigere Konversations-KI.
Der Aufstieg großer Vision-Language-Modelle (VLMs) hat die multimodale Verarbeitung wesentlich vorangetrieben, was eine anspruchsvollere und präzisere Integration visueller und textueller Informationen über verschiedene Aufgaben hinweg ermöglicht, darunter Bild- und Videobeschreibungen, visuelle Fragestellungen und Cross-Modal Retrieval. Trotz der überlegenen Fähigkeiten von VLMs fehlt es Forschern an einem umfassenden Verständnis ihrer Kompositionsstruktur - der Fähigkeit, neuartige Kombinationen bekannter visueller und textueller Komponenten zu verstehen und zu erzeugen. Frühere Leistungsbewertungen bieten lediglich eine relativ grobe Bewertung der Kompositionsstruktur aus Sicht von Objekten, Relationen und Attributen, wobei tiefgreifendere Überlegungen zu Objektinteraktionen, Zählungen und komplexen Strukturen vernachlässigt werden. Dennoch ist Kompositionalität eine entscheidende Fähigkeit, die kohärentes Denken und Verstehen über Modalitäten hinweg für VLMs erleichtert. Um diese Einschränkung anzugehen, schlagen wir MMCOMPOSITION vor, einen neuartigen, menschlich annotierten Bewertungsmaßstab zur umfassenden und präzisen Evaluierung der Kompositionsstruktur von VLMs. Unser vorgeschlagener Bewertungsmaßstab dient als Ergänzung zu diesen früheren Arbeiten. Mit MMCOMPOSITION können wir die Kompositionalität der gängigen VLMs quantifizieren und erforschen. Überraschenderweise stellen wir fest, dass die Kompositionalität von GPT-4o der besten Open-Source-Modelle unterlegen ist, und wir analysieren die zugrunde liegenden Gründe. Unsere experimentelle Analyse zeigt die Grenzen von VLMs in der feinkörnigen kompositorischen Wahrnehmung und Argumentation auf und weist auf Bereiche hin, in denen das Design und Training von VLMs verbessert werden können. Ressourcen verfügbar unter: https://hanghuacs.github.io/MMComposition/
Große Sprachmodelle (LLMs) haben durch kontextbezogenes Lernen bemerkenswerte Leistungen über mehrere Aufgaben hinweg gezeigt. Für komplexe Denkaufgaben, die schrittweises Denken erfordern, haben Chain-of-Thought (CoT) Anregungen beeindruckende Ergebnisse geliefert, insbesondere in Kombination mit Selbstkonsistenz. Dennoch bleiben einige Aufgaben besonders schwierig für LLMs zu lösen. Tree of Thoughts (ToT) und Graph of Thoughts (GoT) haben sich als Alternativen herausgebildet, die das komplexe Problem in Pfade von Teilaufgaben unterteilen. In diesem Papier schlagen wir Tree of Problems (ToP) vor, eine einfachere Version von ToT, von der wir vermuten, dass sie für komplexe Aufgaben, die in identische Teilaufgaben unterteilt werden können, besser funktionieren kann. Unsere empirischen Ergebnisse zeigen, dass unser Ansatz ToT und GoT übertrifft und zusätzlich bei komplexen Denkaufgaben besser abschneidet als CoT. Der gesamte Code für dieses Papier ist öffentlich verfügbar unter: https://github.com/ArmelRandy/tree-of-problems.
Die Bereitstellung von langen Kontexten großer Sprachmodelle (LLMs) ist unerlässlich, birgt jedoch erhebliche Rechen- und Speicherherausforderungen. Das Zwischenspeichern aller Schlüssel- und Wertezustände (KV) über alle Aufmerksamkeitsköpfe hinweg verbraucht erheblichen Speicherplatz. Bestehende KV-Zwischenspeicherverfahren beschädigen entweder die Fähigkeiten der LLMs im langen Kontext oder bieten nur begrenzte Effizienzverbesserungen. In diesem Papier identifizieren wir, dass nur ein Bruchteil der Aufmerksamkeitsköpfe, auch als Abrufköpfe bezeichnet, für die Verarbeitung langer Kontexte entscheidend ist und eine vollständige Aufmerksamkeit über alle Token hinweg erfordert. Im Gegensatz dazu benötigen alle anderen Köpfe, die sich hauptsächlich auf aktuelle Token und Aufmerksamkeitssenken konzentrieren - als Streaming-Köpfe bezeichnet - keine vollständige Aufmerksamkeit. Basierend auf dieser Erkenntnis stellen wir DuoAttention vor, ein Framework, das nur einen vollständigen KV-Zwischenspeicher für Abrufköpfe verwendet, während für Streaming-Köpfe ein leichtgewichtiger, konstanter KV-Zwischenspeicher verwendet wird. Dies reduziert sowohl den Dekodier- als auch den Vorabfüllspeicher und die Latenz der LLMs, ohne die Fähigkeit im langen Kontext zu beeinträchtigen. DuoAttention verwendet einen leichten, optimierungsbasierten Algorithmus mit synthetischen Daten, um Abrufköpfe genau zu identifizieren. Unsere Methode reduziert den Speicherbedarf für Inferenzen im langen Kontext um bis zu 2,55-fach für MHA- und 1,67-fach für GQA-Modelle, beschleunigt das Dekodieren um bis zu 2,18-fach und 1,50-fach und beschleunigt das Vorabfüllen um bis zu 1,73-fach und 1,63-fach für MHA- und GQA-Modelle, jeweils mit minimalen Genauigkeitsverlusten im Vergleich zur vollständigen Aufmerksamkeit. Besonders in Kombination mit Quantisierung ermöglicht DuoAttention das Dekodieren von Llama-3-8B mit einer Kontextlänge von 3,3 Millionen auf einer einzelnen A100-GPU. Der Code ist verfügbar unter https://github.com/mit-han-lab/duo-attention.
Humanoide Roboter, die autonom in verschiedenen Umgebungen agieren können, waren schon lange ein Ziel für Robotiker. Die autonome Manipulation durch humanoide Roboter war jedoch größtenteils auf eine spezifische Szene beschränkt, hauptsächlich aufgrund der Schwierigkeit, generalisierbare Fähigkeiten zu erlangen. Neueste Fortschritte in 3D-Visuomotor-Policies, wie der 3D Diffusion Policy (DP3), haben das Potenzial gezeigt, diese Fähigkeiten auf wildere Umgebungen auszudehnen. Allerdings stützen sich 3D-Visuomotor-Policies oft auf Kamerakalibrierung und Punktewolken-Segmentierung, was Herausforderungen für den Einsatz auf mobilen Robotern wie Humanoiden darstellt. In dieser Arbeit stellen wir die Verbesserte 3D Diffusion Policy (iDP3) vor, eine neuartige 3D-Visuomotor-Policy, die diese Einschränkungen durch die Nutzung egozentrischer 3D-Visuelle Darstellungen beseitigt. Wir zeigen, dass iDP3 einem lebensgroßen humanoiden Roboter ermöglicht, autonom Fähigkeiten in verschiedenen realen Szenarien auszuführen, unter Verwendung nur im Labor gesammelter Daten. Videos sind verfügbar unter: https://humanoid-manipulation.github.io
Große Sprachmodelle haben beeindruckende Leistungen gezeigt, wenn sie mit Bildmodellen integriert werden, was sogar das Verstehen von Videos ermöglicht. Die Evaluierung dieser Videomodelle stellt jedoch eigene einzigartige Herausforderungen dar, für die mehrere Benchmarks vorgeschlagen wurden. In diesem Paper zeigen wir, dass die derzeit am häufigsten verwendeten Video-Sprach-Benchmarks gelöst werden können, ohne dass viel zeitliches Denken erforderlich ist. Wir haben drei Hauptprobleme in bestehenden Datensätzen identifiziert: (i) Statische Informationen aus einzelnen Frames sind oft ausreichend, um die Aufgaben zu lösen. (ii) Der Text der Fragen und der vorgeschlagenen Antworten ist übermäßig informativ, was es den Modellen ermöglicht, korrekt zu antworten, ohne auf visuelle Eingaben angewiesen zu sein. (iii) Alleiniges Weltwissen kann viele der Fragen beantworten, was die Benchmarks zu einem Test der Wissensreplikation anstelle des visuellen Denkens macht. Darüber hinaus stellten wir fest, dass offene Frage-Antwort-Benchmarks für das Verstehen von Videos ähnliche Probleme aufweisen, während der automatische Evaluierungsprozess mit großen Sprachmodellen unzuverlässig ist und daher keine geeignete Alternative darstellt. Als Lösung schlagen wir TVBench vor, einen neuartigen Open-Source-Video-Multiple-Choice-Frage-Antwort-Benchmark, und zeigen durch umfangreiche Evaluationen, dass er ein hohes Maß an zeitlichem Verständnis erfordert. Überraschenderweise stellen wir fest, dass die meisten aktuellen State-of-the-Art Video-Sprach-Modelle auf TVBench ähnlich wie zufällige Leistungen abschneiden, wobei nur Gemini-Pro und Tarsier dieses Basisniveau deutlich übertreffen.
Wir verwenden neue Werkzeuge aus dem Bereich der mechanistischen Interpretierbarkeit, um zu untersuchen, ob die interne Struktur großer Sprachmodelle (LLMs) mit den sprachlichen Strukturen übereinstimmt, die den Sprachen zugrunde liegen, auf denen sie trainiert sind. Insbesondere fragen wir (1) ob LLMs bei der Verwendung derselben morphosyntaktischen Prozesse in zwei Sprachen diese mit gemeinsamen internen Schaltkreisen verarbeiten und (2) ob LLMs bei der Verwendung unterschiedlicher morphosyntaktischer Prozesse in zwei Sprachen diese mit unterschiedlichen internen Schaltkreisen verarbeiten. Unter Verwendung von englischen und chinesischen mehrsprachigen und einsprachigen Modellen analysieren wir die internen Schaltkreise, die an zwei Aufgaben beteiligt sind. Wir finden Hinweise darauf, dass Modelle unabhängig von der Sprache, in der sie auftreten, denselben Schaltkreis verwenden, um denselben syntaktischen Prozess zu verarbeiten, und dass dies auch für einsprachige Modelle gilt, die vollständig unabhängig trainiert wurden. Darüber hinaus zeigen wir, dass mehrsprachige Modelle sprachspezifische Komponenten (Aufmerksamkeitsköpfe und Feedforward-Netzwerke) verwenden, wenn sie benötigt werden, um sprachliche Prozesse (z. B. morphologische Markierung) zu verarbeiten, die nur in einigen Sprachen existieren. Zusammen liefern unsere Ergebnisse neue Erkenntnisse darüber, wie LLMs zwischen der Nutzung gemeinsamer Strukturen und der Bewahrung sprachlicher Unterschiede abwägen, wenn sie mit der Modellierung mehrerer Sprachen gleichzeitig beauftragt sind.
LayerNorm ist eine entscheidende Komponente in modernen großen Sprachmodellen (LLMs) zur Stabilisierung des Trainings und zur Gewährleistung einer reibungslosen Optimierung. Es bringt jedoch signifikante Herausforderungen in Bezug auf mechanistische Interpretierbarkeit, Unterdrückung von Ausreißermerkmalen, treue Signalübertragung sowie Rechen- und Kommunikationskomplexität der privaten Inferenz mit sich. Diese Arbeit untersucht wünschenswerte Aktivierungsfunktionen in Normalisierungsfreien Dekodierer-Only LLMs. Im Gegensatz zur konventionellen Vorliebe für die GELU in transformerbasierten Modellen zeigen unsere empirischen Ergebnisse einen entgegengesetzten Trend - ReLU übertrifft die GELU signifikant in LayerNorm-freien Modellen und führt zu einer 8,2%igen Verbesserung der Perplexität. Wir entdecken ein Schlüsselproblem mit GELU, bei dem frühe Schichten eine entropische Überlastung erfahren, was zu einer Unterbeanspruchung der Repräsentationskapazität der Aufmerksamkeitsköpfe führt. Dies verdeutlicht, dass glattere Aktivierungen wie GELU für LayerNorm-freie Architekturen ungeeignet sind, während die geometrischen Eigenschaften von ReLU - Spezialisierung im Eingaberaum und intra-klassen Selektivität - zu verbesserten Lernprozessen und einer besseren Informationsretention in Abwesenheit von LayerNorm führen. Diese Studie bietet wichtige Erkenntnisse zur Optimierung von Transformer-Architekturen, bei denen LayerNorm signifikante Herausforderungen mit sich bringt.
Wir stellen Latent Action Pretraining für allgemeine Aktionsmodelle (LAPA) vor, eine unüberwachte Methode zum Pretraining von Vision-Language-Action (VLA)-Modellen ohne echte Roboteraktionslabels. Existierende Vision-Language-Action-Modelle erfordern Aktionslabels, die typischerweise von menschlichen Teleoperatoren während des Pretrainings gesammelt werden, was die möglichen Datenquellen und den Umfang erheblich einschränkt. In dieser Arbeit schlagen wir eine Methode vor, um aus internetbasierten Videos zu lernen, die keine Roboteraktionslabels haben. Zunächst trainieren wir ein Aktionsquantisierungsmodell, das auf dem VQ-VAE-basierten Ziel beruht, um diskrete latente Aktionen zwischen Bildrahmen zu erlernen. Anschließend pretrainen wir ein latentes VLA-Modell, um diese latenten Aktionen aus Beobachtungen und Aufgabenbeschreibungen vorherzusagen, und feintunen schließlich das VLA anhand von robotergesteuerten Manipulationsdaten im kleinen Maßstab, um von latenten zu Roboteraktionen zu mappen. Experimentelle Ergebnisse zeigen, dass unsere Methode signifikant besser abschneidet als existierende Techniken, die Roboter-Manipulationsrichtlinien aus großangelegten Videos trainieren. Darüber hinaus übertrifft sie das VLA-Modell auf dem neuesten Stand der Technik, das mit Roboteraktionslabels auf realen Manipulationsaufgaben trainiert wurde, die eine sprachliche Konditionierung, die Verallgemeinerung auf unbekannte Objekte und die semantische Verallgemeinerung auf unbekannte Anweisungen erfordern. Das Training ausschließlich anhand von Videos menschlicher Manipulation zeigt ebenfalls positive Übertragungseffekte und eröffnet das Potenzial, webbasierte Daten für Grundlagenmodelle in der Robotik zu nutzen.