Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die visuelle mathematische Argumentation, als grundlegende visuelle Argumentationsfähigkeit, hat in der Gemeinschaft der Großen Multimodalen Modelle (LMMs) weitreichende Aufmerksamkeit erhalten. Bestehende Benchmarks wie MathVista und MathVerse konzentrieren sich mehr auf die ergebnisorientierte Leistung, vernachlässigen jedoch die zugrunde liegenden Prinzipien beim Wissenserwerb und der Verallgemeinerung. Inspiriert von menschenähnlicher mathematischer Argumentation führen wir WE-MATH ein, den ersten Benchmark, der speziell entwickelt wurde, um die Problemlösungsprinzipien jenseits der End-to-End-Leistung zu erforschen. Wir sammeln und kategorisieren sorgfältig 6,5K visuelle Mathematikprobleme, die 67 hierarchische Wissenskonzepte und fünf Ebenen der Wissensgranularität umfassen. Wir zerlegen zusammengesetzte Probleme in Teilprobleme entsprechend der erforderlichen Wissenskonzepte und führen eine neuartige vierdimensionale Metrik ein, nämlich Unzureichendes Wissen (IK), Unzureichende Verallgemeinerung (IG), Vollständige Beherrschung (CM) und Rote Memorierung (RM), um hierarchisch die inhärenten Probleme im Argumentationsprozess von LMMs zu bewerten. Mit WE-MATH führen wir eine gründliche Bewertung bestehender LMMs in der visuellen mathematischen Argumentation durch und zeigen eine negative Korrelation zwischen Lösungsschritten und problembezogener Leistung auf. Wir bestätigen, dass das IK-Problem von LMMs durch Wissensvergrößerungsstrategien effektiv verbessert werden kann. Besonders bemerkenswert ist, dass die Hauptherausforderung von GPT-4o signifikant von IK auf IG übergegangen ist, was es zum ersten LMM macht, das sich dem Wissensverallgemeinerungsstadium nähert. Im Gegensatz dazu zeigen andere LMMs eine deutliche Neigung zur Roten Memorierung - sie lösen korrekt zusammengesetzte Probleme, die mehrere Wissenskonzepte umfassen, können jedoch keine Teilprobleme beantworten. Wir erwarten, dass WE-MATH neue Wege für Fortschritte in der visuellen mathematischen Argumentation für LMMs eröffnen wird. Die WE-MATH-Daten und Bewertungscode sind unter https://github.com/We-Math/We-Math verfügbar.
Wir präsentieren ein Framework für die intuitive Programmierung von Robotern durch Nicht-Experten, das natürlichsprachliche Anweisungen und Kontextinformationen aus dem Robot Operating System (ROS) nutzt. Unser System integriert große Sprachmodelle (LLMs), die es Nicht-Experten ermöglichen, Aufgabenanforderungen über eine Chat-Schnittstelle an das System zu formulieren. Zu den wichtigsten Merkmalen des Frameworks gehören: die Integration von ROS mit einem KI-Agenten, der mit einer Vielzahl von Open-Source- und kommerziellen LLMs verbunden ist, die automatische Extraktion eines Verhaltens aus der Ausgabe des LLM und die Ausführung von ROS-Aktionen/Diensten, Unterstützung für drei Verhaltensmodi (Sequenz, Verhaltensbaum, Zustandsmaschine), Imitationslernen zur Hinzufügung neuer Roboteraktionen zur Bibliothek möglicher Aktionen, sowie die Reflexion des LLM durch menschliches und Umgebungsfeedback. Um das Framework zu validieren, wurden umfangreiche Experimente durchgeführt, die Robustheit, Skalierbarkeit und Vielseitigkeit in verschiedenen Szenarien wie langfristige Aufgaben, Tischumstellungen und Fernüberwachung demonstrieren. Um die Übernahme unseres Frameworks zu erleichtern und die Reproduktion unserer Ergebnisse zu unterstützen, haben wir unseren Code als Open-Source veröffentlicht. Sie können darauf zugreifen unter: https://github.com/huawei-noah/HEBO/tree/master/ROSLLM.
Dokumente sind visuell reiche Strukturen, die Informationen durch Text, sowie Tabellen, Abbildungen, Seitenlayouts oder Schriftarten vermitteln. Während moderne Dokumentenabrufsysteme eine starke Leistung bei der Abfrage-zu-Text-Übereinstimmung zeigen, haben sie Schwierigkeiten, visuelle Hinweise effizient zu nutzen, was ihre Leistung bei praktischen Dokumentenabrufanwendungen wie der Retrieval Augmented Generation beeinträchtigt. Um aktuelle Systeme im Bereich des visuell reichen Dokumentenabrufs zu bewerten, führen wir das Visual Document Retrieval Benchmark ViDoRe ein, das aus verschiedenen auf Seitenebene durchgeführten Abrufaufgaben besteht, die mehrere Domänen, Sprachen und Einstellungen umfassen. Die inhärenten Mängel moderner Systeme motivieren die Einführung eines neuen Abrufmodell-Architektur, ColPali, die die Dokumentenverständnisfähigkeiten aktueller Vision Language Models nutzt, um hochwertige kontextualisierte Einbettungen ausschließlich aus Bildern von Dokumentenseiten zu erzeugen. In Kombination mit einem Matching-Mechanismus für späte Interaktion übertrifft ColPali weitgehend moderne Dokumentenabruf-Pipelines, während es drastisch schneller und end-to-end trainierbar ist.
Neueste Forschungen legen nahe, dass Baum-Suchalgorithmen (z. B. Monte Carlo Tree Search) die Leistung von LLM bei komplexen mathematischen Denkaufgaben dramatisch steigern können. Sie erfordern jedoch oft mehr als zehnmal so viele Rechenressourcen wie gierige Dekodierung aufgrund verschwenderischer Suchstrategien, was ihre Anwendung in der Praxis erschwert. Diese Studie stellt einen neuartigen geleiteten Baum-Suchalgorithmus mit dynamischer Knotenauswahl und Berechnung des Erkundungsbudgets auf Knotenebene (maximale Anzahl von Kindern) vor, um dieses Problem anzugehen. Indem unser Algorithmus den Suchfortschritt in Richtung der endgültigen Antwort (Vergangenheit) und die Anleitung durch ein Wertnetzwerk (Zukunft) berücksichtigt, das ohne schrittweise Annotationen trainiert wurde, wählt er iterativ den vielversprechendsten Baumknoten aus, bevor er ihn innerhalb der Grenzen des zugewiesenen Rechenbudgets erweitert. Experimente, die auf den Datensätzen GSM8K und TabMWP durchgeführt wurden, zeigen, dass unser Ansatz nicht nur eine wettbewerbsfähige Leistung bietet, sondern auch deutlich niedrigere Rechenkosten im Vergleich zu Basismethoden aufweist.
Die Datenmischung für das Vortrainieren großer Sprachmodelle beeinflusst die Leistung erheblich, aber wie man eine effektive Mischung bestimmt, bleibt unklar. Wir schlagen RegMix vor, um automatisch eine leistungsstarke Datenmischung zu identifizieren, indem wir sie als Regressionsaufgabe formulieren. RegMix beinhaltet das Training einer Reihe von kleinen Modellen mit unterschiedlichen Datenmischungen und das Anpassen eines Regressionsmodells, um ihre Leistung basierend auf ihren jeweiligen Mischungen vorherzusagen. Mit dem angepassten Regressionsmodell simulieren wir die am besten bewertete Mischung und verwenden sie, um ein groß angelegtes Modell mit Größenordnungen mehr Rechenleistung zu trainieren. Um RegMix empirisch zu validieren, trainieren wir 512 Modelle mit 1M Parametern für 1B Tokens unterschiedlicher Mischungen, um das Regressionsmodell anzupassen und die optimale Mischung zu finden. Unter Verwendung dieser Mischung trainieren wir ein 1B Parameter-Modell für 25B Tokens (d.h. 1000-mal größer und 25-mal länger), das sich als das beste unter 64 Kandidatenmodellen mit 1B Parametern und anderen Mischungen erweist. Darüber hinaus zeigt unsere Methode eine überlegene Leistung im Vergleich zur menschlichen Auswahl und erzielt Ergebnisse, die mit oder über DoReMi übereinstimmen, während nur 10% des Rechenbudgets genutzt werden. Unsere Experimente zeigen auch, dass (1) Datenmischungen die Leistung signifikant beeinflussen mit Leistungsunterschieden von bis zu 14,6 %; (2) Webkorpora anstelle von als hochwertig wahrgenommenen Daten wie Wikipedia die stärkste positive Korrelation mit der nachgelagerten Leistung aufweisen; (3) Domänen auf komplexe Weise interagieren und oft dem gesunden Menschenverstand widersprechen, weshalb automatische Ansätze wie RegMix erforderlich sind; (4) Die Effekte der Datenmischung überschreiten Skalierungsgesetze, und unser Ansatz erfasst die Komplexität, indem er alle Domänen zusammen betrachtet. Unser Code ist unter https://github.com/sail-sg/regmix verfügbar.
Große multimodale Modelle (LMMs) zeigen beeindruckende fachübergreifende Verständnis- und Schlussfolgerungsfähigkeiten, die oft durch Multiple-Choice-Fragen (MCQs) bewertet werden, die ein Bild, eine Frage und mehrere Optionen enthalten. Viele Benchmarks, die für solche Bewertungen verwendet werden, leiden jedoch unter systematischen Verzerrungen. Bemerkenswerterweise erzielen große Sprachmodelle (LLMs) ohne visuelle Wahrnehmungsfähigkeiten eine nicht unerhebliche Leistung, was die Glaubwürdigkeit dieser Bewertungen untergräbt. Um dieses Problem anzugehen und gleichzeitig die Effizienz von MCQ-Bewertungen zu erhalten, schlagen wir MMEvalPro vor, einen Benchmark, der durch einen dreigliedrigen Bewertungspfad und strengere Metriken Typ-I-Fehler vermeiden soll. Für jede originale Frage aus bestehenden Benchmarks erweitern menschliche Annotatoren sie durch die Erstellung einer Wahrnehmungsfrage und einer Wissensankerfrage im Rahmen eines sorgfältigen Annotationsprozesses. MMEvalPro umfasst 2.138 Frage-Triplets mit insgesamt 6.414 verschiedenen Fragen. Zwei Drittel dieser Fragen werden manuell von Experten gekennzeichnet, während der Rest aus bestehenden Benchmarks stammt (MMMU, ScienceQA und MathVista). Im Vergleich zu den bestehenden Benchmarks zeigen unsere Experimente mit den neuesten LLMs und LMMs, dass MMEvalPro anspruchsvoller ist (das beste LMM liegt 31,73% hinter der menschlichen Leistung zurück, verglichen mit einem durchschnittlichen Unterschied von 8,03% in früheren Benchmarks) und vertrauenswürdiger ist (das beste LLM liegt 23,09% hinter dem besten LMM zurück, während der Unterschied bei früheren Benchmarks nur 14,64% beträgt). Unsere eingehende Analyse erklärt den Grund für den großen Leistungsunterschied und rechtfertigt die Vertrauenswürdigkeit der Bewertung, was ihr erhebliches Potenzial zur Förderung zukünftiger Forschung unterstreicht.
In diesem Paper verfolgen wir einen neuen Ansatz zur autoregressiven Bildgenerierung, der auf zwei Hauptkomponenten basiert. Die erste Komponente ist die Wavelet-Bildcodierung, die es ermöglicht, die visuellen Details eines Bildes von groben zu feinen Details zu tokenisieren, indem die Informationen beginnend mit den signifikantesten Bits der signifikantesten Wavelet-Koeffizienten angeordnet werden. Die zweite Komponente ist eine Variante eines Sprachtransformators, dessen Architektur für Tokenfolgen in dieser 'Wavelet-Sprache' neu gestaltet und optimiert ist. Der Transformator lernt die signifikanten statistischen Korrelationen innerhalb einer Tokenfolge, die Manifestationen der bekannten Korrelationen zwischen den Wavelet-Subbändern bei verschiedenen Auflösungen sind. Wir zeigen experimentelle Ergebnisse unter Konditionierung des Generierungsprozesses.
Die Direkte Präferenzoptimierung (DPO) hat sich als wirksam erwiesen, um die Leistung großer Sprachmodelle (LLMs) bei nachgelagerten Aufgaben wie Schlussfolgerungen und Ausrichtung zu verbessern. In dieser Arbeit schlagen wir Schrittgesteuerte DPO (SCDPO) vor, eine Methode zur automatischen Bereitstellung schrittweiser Fehlerüberwachung durch die Erstellung negativer Proben mathematischer Schlussfolgerungsbegründungen, die ab einem bestimmten Schritt Fehler machen. Durch die Anwendung dieser Proben im DPO-Training kann SCDPO das Modell besser auf die Erfassung von Schlussfehler ausrichten und genaue Schlussschritte ausgeben. Wir wenden SCDPO sowohl auf codeintegrierte als auch auf gedankliche Lösungen an und zeigen empirisch, dass es die Leistung im Vergleich zu naivem DPO bei drei verschiedenen SFT-Modellen, einschließlich eines vorhandenen SFT-Modells und zweier von uns feinabgestimmter Modelle, konsistent verbessert. Eine qualitative Analyse der Leistungszuweisung von SCDPO und DPO zeigt die Wirksamkeit von SCDPO bei der Identifizierung von Fehlern in mathematischen Lösungen. Anschließend wenden wir SCDPO auf ein InternLM2-20B-Modell an, was zu einem 20B-Modell führt, das hohe Punktzahlen von 88,5% bei GSM8K und 58,1% bei MATH erreicht und damit allen anderen Open-Source-LLMs Konkurrenz macht und das große Potenzial unserer Methode zeigt.
Dieses Papier stellt eine Methode zur Null-Shot-Video-Restaurierung unter Verwendung von vortrainierten Bild-Restaurierungs-Diffusionsmodellen vor. Traditionelle Video-Restaurierungsmethoden erfordern oft ein erneutes Training für verschiedene Einstellungen und haben Schwierigkeiten mit der begrenzten Verallgemeinerung über verschiedene Degradierungstypen und Datensätze hinweg. Unser Ansatz verwendet eine hierarchische Token-Verschmelzungsstrategie für Schlüsselbilder und lokale Bilder, kombiniert mit einem hybriden Korrespondenzmechanismus, der optischen Fluss und Feature-basiertes nächstgelegenes Nachbarn-Matching (latente Verschmelzung) verbindet. Wir zeigen, dass unsere Methode nicht nur Spitzenleistungen bei der Null-Shot-Video-Restaurierung erzielt, sondern auch trainierte Modelle signifikant in der Verallgemeinerung über verschiedene Datensätze und extreme Degradierungen (8-fache Superauflösung und Videobildrauschen mit hoher Standardabweichung) übertrifft. Wir präsentieren Belege durch quantitative Metriken und visuelle Vergleiche auf verschiedenen anspruchsvollen Datensätzen. Darüber hinaus funktioniert unsere Technik mit jedem 2D-Restaurierungs-Diffusionsmodell und bietet ein vielseitiges und leistungsstarkes Werkzeug für Video-Verbesserungsaufgaben ohne umfangreiches erneutes Training. Diese Forschung führt zu effizienteren und weit verbreiteten Video-Restaurierungstechnologien, die Fortschritte in Bereichen unterstützen, die eine qualitativ hochwertige Videoausgabe erfordern. Besuchen Sie unsere Projektseite für Videoergebnisse unter https://jimmycv07.github.io/DiffIR2VR_web/.
Stiltransfer ist ein innovativer Prozess, der darauf abzielt, ein Bild zu erstellen, das die Essenz des Originals bewahrt und gleichzeitig den visuellen Stil eines anderen übernimmt. Obwohl Diffusionsmodelle beeindruckende generative Fähigkeiten in personalisierten, subjektgesteuerten oder stilgesteuerten Anwendungen gezeigt haben, stoßen bestehende State-of-the-Art-Methoden immer noch auf Schwierigkeiten, eine nahtlose Balance zwischen der Erhaltung des Inhalts und der Verbesserung des Stils zu erreichen. Beispielsweise kann die Verstärkung des Stileinflusses oft die strukturelle Integrität des Inhalts untergraben. Um diesen Herausforderungen zu begegnen, zerlegen wir die Aufgabe des Stiltransfers in drei Kernkomponenten: 1) Stil, der sich auf die ästhetischen Eigenschaften des Bildes konzentriert; 2) Räumliche Struktur, die die geometrische Anordnung und Komposition der visuellen Elemente betrifft; und 3) Semantischer Inhalt, der die konzeptuelle Bedeutung des Bildes erfasst. Basierend auf diesen Prinzipien stellen wir InstantStyle-Plus vor, einen Ansatz, der die Integrität des Originalinhalts priorisiert, während er den Zielstil nahtlos integriert. Speziell erreicht unsere Methode die Stileinspritzung durch einen effizienten, leichtgewichtigen Prozess, unter Verwendung des modernen InstantStyle-Frameworks. Um die Inhaltsbewahrung zu verstärken, starten wir den Prozess mit einem invertierten latenten Rauschen des Inhalts und einem vielseitigen Plug-and-Play-Kachel-ControlNet zur Bewahrung des ursprünglichen Layouts des Bildes. Wir integrieren auch einen globalen semantischen Adapter, um die Treue des semantischen Inhalts zu verbessern. Um einer Verdünnung der Stilinformation entgegenzuwirken, wird ein Stil-Extraktor als Diskriminator eingesetzt, um zusätzliche stilistische Anleitung zu bieten. Der Code wird verfügbar sein unter https://github.com/instantX-research/InstantStyle-Plus.
Verbesserungen in den Fähigkeiten von Sprachmodellen haben ihre Anwendungen in Richtung längerer Kontexte vorangetrieben, wodurch die Evaluierung und Entwicklung von Langkontexten zu einem aktiven Forschungsbereich geworden sind. Viele verschiedene Anwendungsfälle werden jedoch unter dem Überbegriff "Langkontext" zusammengefasst, der einfach durch die Gesamtlänge des Eingabemodells definiert ist, einschließlich beispielsweise Nadel-im-Heuhaufen-Aufgaben, Buchzusammenfassungen und Informationsaggregation. Angesichts ihrer unterschiedlichen Schwierigkeiten argumentieren wir in diesem Positionspapier, dass es unproduktiv ist, verschiedene Aufgaben nach ihrer Kontextlänge zu vermischen. Als Gemeinschaft benötigen wir ein präziseres Vokabular, um zu verstehen, was Langkontextaufgaben ähnlich oder unterschiedlich macht. Wir schlagen vor, die Taxonomie von Langkontexten auf der Grundlage der Eigenschaften zu entfalten, die sie mit längeren Kontexten schwieriger machen. Wir schlagen zwei orthogonale Schwierigkeitsachsen vor: (I) Diffusion: Wie schwer ist es, die notwendigen Informationen im Kontext zu finden? (II) Umfang: Wie viele notwendige Informationen gibt es zu finden? Wir untersuchen die Literatur zu Langkontexten, liefern eine Begründung für diese Taxonomie als informativen Deskriptor und positionieren die Literatur in Bezug darauf. Wir kommen zu dem Schluss, dass die schwierigsten und interessantesten Einstellungen, bei denen die notwendigen Informationen sehr lang sind und stark im Eingang verteilt sind, stark untererforscht sind. Durch die Verwendung eines deskriptiven Vokabulars und die Diskussion relevanter Schwierigkeitseigenschaften bei Langkontexten können wir in diesem Bereich informiertere Forschung betreiben. Wir plädieren für eine sorgfältige Gestaltung von Aufgaben und Benchmarks mit deutlich langem Kontext, unter Berücksichtigung der Eigenschaften, die ihn qualitativ von kürzerem Kontext unterscheiden.
Dieses Paper stellt Embarrassingly Easy Text-to-Speech (E2 TTS) vor, ein vollständig nicht-autoregressives Zero-Shot Text-to-Speech-System, das menschenähnliche Natürlichkeit sowie modernste Sprecherähnlichkeit und Verständlichkeit bietet. Im E2 TTS-Framework wird die Texteingabe in eine Zeichenfolge mit Füllertokens umgewandelt. Der auf Flussanpassung basierende Mel-Spektrum-Generator wird dann anhand der Audio-Auffüllungsaufgabe trainiert. Im Gegensatz zu vielen früheren Arbeiten erfordert es keine zusätzlichen Komponenten (z. B. Dauermodell, Graphem-Phonem) oder komplexe Techniken (z. B. monotonische Ausrichtungssuche). Trotz seiner Einfachheit erreicht E2 TTS modernste Zero-Shot TTS-Fähigkeiten, die mit früheren Arbeiten wie Voicebox und NaturalSpeech 3 vergleichbar oder sogar übertroffen sind. Die Einfachheit von E2 TTS ermöglicht auch Flexibilität bei der Eingaberepräsentation. Wir schlagen mehrere Varianten von E2 TTS vor, um die Benutzerfreundlichkeit während der Inferenz zu verbessern. Siehe https://aka.ms/e2tts/ für Demo-Beispiele.
Die personenunabhängige audiogetriebene Gesichtsgenerierung ist eine anspruchsvolle Aufgabe in der Computer Vision. Frühere Methoden haben bemerkenswerte Fortschritte in der Audio-Visuellen Synchronisation erzielt, aber es besteht immer noch eine signifikante Kluft zwischen den aktuellen Ergebnissen und praktischen Anwendungen. Die Herausforderungen sind zweifach: 1) Die Bewahrung einzigartiger individueller Merkmale zur Erzielung einer hochpräzisen Lippen-Synchronisation. 2) Die Generierung hochwertiger Gesichtsdarstellungen in Echtzeit. In diesem Paper schlagen wir ein neuartiges generalisiertes audiogetriebenes Framework namens RealTalk vor, das aus einem Audio-zu-Expressions-Transformer und einem hochwertigen Expressions-zu-Gesichts-Renderer besteht. Im ersten Bestandteil berücksichtigen wir sowohl Identitäts- als auch intra-personale variationsbezogene Merkmale in Bezug auf sprechende Lippenbewegungen. Durch die Integration einer Cross-Modalen Aufmerksamkeit auf die angereicherten Gesichtsprioritäten können wir die Lippenbewegungen effektiv mit dem Audio ausrichten und somit eine höhere Präzision bei der Expressionsvorhersage erreichen. Im zweiten Bestandteil entwerfen wir ein leichtgewichtiges Gesichtsidentitätsausrichtungsmodul (FIA), das eine Lippenformsteuerungsstruktur und eine Gesichtstexturreferenzstruktur umfasst. Dieses neuartige Design ermöglicht es uns, Feinheiten in Echtzeit zu generieren, ohne auf anspruchsvolle und ineffiziente Merkmalsausrichtungsmodule angewiesen zu sein. Unsere experimentellen Ergebnisse, sowohl quantitativ als auch qualitativ, auf öffentlichen Datensätzen zeigen die klaren Vorteile unserer Methode hinsichtlich Lippen-Sprach-Synchronisation und Generierungsqualität. Darüber hinaus ist unsere Methode effizient und erfordert weniger Rechenressourcen, was sie gut geeignet macht, um den Anforderungen praktischer Anwendungen gerecht zu werden.
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben LLM-Agenten befähigt, eigenständig weltweite Informationen zu sammeln, über die sie Schlussfolgerungen ziehen können, um komplexe Probleme zu lösen. Angesichts dieser Fähigkeit wächst das Interesse an der Verwendung von LLM-Agenten zur Vorhersage internationaler Ereignisse, die Entscheidungsfindung beeinflussen und die Entwicklung von Richtlinien auf internationaler Ebene formen können. Trotz dieses wachsenden Interesses fehlt es an einem strengen Maßstab für die Vorhersagefähigkeit und Zuverlässigkeit von LLM-Agenten. Um diese Lücke zu schließen, stellen wir MIRAI vor, einen neuartigen Maßstab, der entwickelt wurde, um LLM-Agenten systematisch als zeitliche Prognostiker im Kontext internationaler Ereignisse zu bewerten. Unser Maßstab umfasst eine agentische Umgebung mit Werkzeugen zum Zugriff auf eine umfangreiche Datenbank historischer, strukturierter Ereignisse und textbasierter Nachrichtenartikel. Wir verfeinern die GDELT-Ereignisdatenbank durch sorgfältige Bereinigung und Analyse, um eine Reihe von relationalen Vorhersageaufgaben mit unterschiedlichen Vorhersagehorizonten zu kuratieren, die die Fähigkeiten von LLM-Agenten von kurz- bis langfristiger Prognose bewerten. Darüber hinaus implementieren wir APIs, um LLM-Agenten die Nutzung verschiedener Werkzeuge über eine codebasierte Schnittstelle zu ermöglichen. Zusammenfassend bewertet MIRAI umfassend die Fähigkeiten der Agenten in drei Dimensionen: 1) eigenständige Beschaffung und Integration kritischer Informationen aus großen globalen Datenbanken; 2) Verfassen von Codes unter Verwendung von domänenspezifischen APIs und Bibliotheken für den Werkzeuggebrauch; und 3) gemeinsames Schlussfolgern über historisches Wissen aus verschiedenen Formaten und Zeiten, um zukünftige Ereignisse genau vorherzusagen. Durch umfassendes Benchmarking zielen wir darauf ab, einen zuverlässigen Rahmen für die Bewertung der Fähigkeiten von LLM-Agenten bei der Vorhersage internationaler Ereignisse zu schaffen und so zur Entwicklung genauerer und vertrauenswürdigerer Modelle für die Analyse internationaler Beziehungen beizutragen.
Diffusionsbasierte Modelle haben großes Potenzial gezeigt, hochwertige Bilder mit verschiedenen Layouts zu generieren, was sich positiv auf nachgelagerte Wahrnehmungsaufgaben auswirken kann. Allerdings wurde die vollautomatische Layoutgenerierung, die ausschließlich von Sprache gesteuert wird, und ein geeignetes Maß für die Messung mehrerer generierter Instanzen noch nicht ausreichend erforscht. In dieser Arbeit präsentieren wir Auto Cherry-Picker (ACP), ein neuartiges Framework, das hochwertige multimodale Trainingsbeispiele generiert, um die Wahrnehmung und das multimodale Training zu erweitern. Ausgehend von einer einfachen Liste natürlicher Sprachkonzepte fordern wir große Sprachmodelle (LLMs) auf, eine detaillierte Beschreibung zu generieren und vernünftige Layouts zu entwerfen. Anschließend verwenden wir ein textbasiertes Bildgenerierungsmodell, um mehrere Bilder zu erzeugen. Die generierten Daten werden dann mithilfe eines umfassend gestalteten Maßes verfeinert, um die Qualität sicherzustellen. Insbesondere präsentieren wir ein neues Maß, den Composite Layout and Image Score (CLIS), um die generierten Bilder fair zu bewerten. Unsere synthetischen hochwertigen Beispiele verbessern die Leistung in verschiedenen Szenarien, indem wir die anfängliche Konzeptliste anpassen, insbesondere um Herausforderungen im Zusammenhang mit langschwänzigen Verteilungen und unausgewogenen Datensätzen zu bewältigen. Experimentelle Ergebnisse zu nachgelagerten Aufgaben zeigen, dass Auto Cherry-Picker die Leistung bestehender Modelle signifikant verbessern kann. Darüber hinaus haben wir gründlich die Korrelation zwischen CLIS und Leistungssteigerungen bei nachgelagerten Aufgaben untersucht und festgestellt, dass ein besserer CLIS-Wert zu einer besseren Leistung führt. Diese Erkenntnis zeigt das Potenzial von Bewertungskriterien als Rolle für verschiedene visuelle Wahrnehmungs- und MLLM-Aufgaben. Der Code wird verfügbar sein.
Wir präsentieren OmniJARVIS, ein neuartiges Vision-Sprache-Aktion (VLA) Modell für Agenten, die Anweisungen in der offenen Welt von Minecraft befolgen. Im Vergleich zu früheren Arbeiten, die entweder textuelle Ziele an separate Controller senden oder die Steuerbefehle direkt erzeugen, verfolgt OmniJARVIS einen anderen Ansatz, um sowohl starke Argumentations- als auch effiziente Entscheidungsfähigkeiten durch die vereinheitlichte Tokenisierung von multimodalen Interaktionsdaten zu gewährleisten. Zunächst führen wir einen selbstüberwachten Ansatz ein, um einen Verhaltensencoder zu erlernen, der diskretisierte Tokens für Verhaltensverläufe tau = {o_0, a_0, ...} und einen Imitationslern (IL) Richtliniendekoder, der auf diesen Tokens basiert, erzeugt. Diese zusätzlichen Verhaltens-Tokens werden dem Vokabular vortrainierter multimodaler Sprachmodelle (MLMs) hinzugefügt. Mit diesem Encoder packen wir dann langfristige multimodale Interaktionen, die Aufgabenanweisungen, Erinnerungen, Gedanken, Beobachtungen, textuelle Antworten, Verhaltensverläufe usw. umfassen, in vereinheitlichte Tokenfolgen und modellieren sie mit autoregressiven Transformern. Dank der semantisch bedeutsamen Verhaltens-Tokens kann das resultierende VLA-Modell, OmniJARVIS, argumentieren (indem es Gedankenketten produziert), planen, Fragen beantworten und handeln (indem es Verhaltens-Tokens für den IL-Richtliniendekoder erzeugt). OmniJARVIS zeigt herausragende Leistungen bei einer umfassenden Sammlung von atomaren, programmatischen und offenen Aufgaben in der offenen Welt von Minecraft. Unsere Analyse enthüllt weitere wichtige Designprinzipien bei der Bildung von Interaktionsdaten, der vereinheitlichten Tokenisierung und deren Skalierungspotenzialen.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt, die zunehmend komplexe Schlussfolgerungen erfordern. Das Wissensschlussfolgern, eine primäre Art des Schlussfolgerns, zielt darauf ab, neues Wissen aus vorhandenem abzuleiten. Während es im Zusammenhang mit Wissensgraphen (KGs) weitreichend untersucht wurde, ist das Wissensschlussfolgern in LLMs noch wenig erforscht. In diesem Artikel stellen wir Chain-of-Knowledge vor, ein umfassendes Rahmenwerk für das Wissensschlussfolgern, einschließlich Methoden sowohl für die Datensatzkonstruktion als auch für das Modelllernen. Für die Datensatzkonstruktion erstellen wir KnowReason durch Regelabbau auf KGs. Beim Modelllernen beobachten wir eine Regelüberanpassung, die durch naives Training verursacht wird. Daher verbessern wir CoK mit einem Trial-and-Error-Mechanismus, der den menschlichen Prozess der internen Wissenserforschung simuliert. Wir führen umfangreiche Experimente mit KnowReason durch. Unsere Ergebnisse zeigen die Wirksamkeit von CoK bei der Verfeinerung von LLMs nicht nur im Wissensschlussfolgern, sondern auch in allgemeinen Schlussfolgerungsbewertungen.
Die Bereitstellung von Large Language Models (LLMs) auf Edge-Geräten wird zunehmend wichtig, um die On-Device-Intelligenz zu verbessern. Die Gewichtsquantisierung ist entscheidend, um den Speicherbedarf von LLMs auf Geräten zu reduzieren. Niedrigbitige LLMs erfordern jedoch gemischte Präzisionsmatrixmultiplikation (mpGEMM) von Gewichten mit geringer Präzision und Aktivierungen mit hoher Präzision während der Inferenz. Bestehende Systeme, die keine native Unterstützung für mpGEMM bieten, greifen auf die Dekvantisierung von Gewichten für hochpräzise Berechnungen zurück. Ein solcher indirekter Weg kann zu erheblichen Inferenzüberlastungen führen. In diesem Papier stellen wir T-MAC vor, eine innovative Lookup-Table(LUT)-basierte Methode, die für eine effiziente Inferenz von Low-Bit LLMs (d. h. gewichtsquantisierte LLMs) auf CPUs entwickelt wurde. T-MAC unterstützt mpGEMM direkt ohne Dekvantisierung und gleichzeitig werden Multiplikationen beseitigt und erforderliche Additionen reduziert. Speziell transformiert T-MAC die traditionelle datentypzentrierte Multiplikation in eine bitweise Tabellensuche und ermöglicht eine einheitliche und skalierbare mpGEMM-Lösung. Unsere LUT-basierten Kerne skalieren linear mit der Gewichts-Bit-Breite. Bei der Evaluation an Low-Bit Llama- und BitNet-Modellen zeigt T-MAC eine bis zu 4-fache Steigerung der Durchsatzleistung und eine 70%ige Reduzierung des Energieverbrauchs im Vergleich zu llama.cpp. Für BitNet-b1.58-3B erreicht T-MAC eine Token-Generierungsdurchsatz von 30 Token/s mit einem Kern und 71 Token/s mit acht Kernen auf M2-Ultra, sowie 11 Token/s auf Low-End-Geräten wie dem Raspberry Pi 5, was die durchschnittliche Lesegeschwindigkeit von Erwachsenen deutlich übertrifft. T-MAC mit LUT-basierter Rechenparadigma ebnet den Weg für die praktische Bereitstellung von Low-Bit LLMs auf ressourcenbeschränkten Edge-Geräten, ohne die Recheneffizienz zu beeinträchtigen. Das System ist unter https://github.com/microsoft/T-MAC als Open-Source verfügbar.
Die selbstüberwachte Lernmethode (Self-supervised learning, SSL) hat dazu beigetragen, Sprachtechnologien auf mehr Sprachen auszudehnen, indem sie den Bedarf an gekennzeichneten Daten reduziert. Allerdings sind die Modelle noch weit davon entfernt, die über 7000 Sprachen der Welt zu unterstützen. Wir schlagen XEUS vor, einen Cross-lingual Encoder für universelle Sprache, der auf über 1 Million Stunden Daten in 4057 Sprachen trainiert wurde und die Sprachabdeckung von SSL-Modellen um das 4-fache erweitert. Wir kombinieren 1 Million Stunden Sprache aus bestehenden öffentlich zugänglichen Korpora mit einem neu erstellten Korpus von über 7400 Stunden aus 4057 Sprachen, der öffentlich freigegeben wird. Um die vielfältigen Bedingungen multilingualer Sprachdaten zu bewältigen, erweitern wir den typischen SSL-Maskenprädiktionsansatz um ein neuartiges Dereverberation-Ziel, um die Robustheit zu erhöhen. Wir evaluieren XEUS anhand mehrerer Benchmarks und zeigen, dass es konsistent bessere Ergebnisse erzielt oder vergleichbare Ergebnisse wie modernste SSL-Modelle bei einer Vielzahl von Aufgaben erreicht. XEUS setzt einen neuen Stand der Technik (SOTA) im ML-SUPERB-Benchmark: Es übertrifft MMS 1B und w2v-BERT 2.0 v2 jeweils um 0,8% bzw. 4,4%, obwohl es weniger Parameter oder Vortrainingsdaten hat. Checkpoints, Code und Daten sind unter https://www.wavlab.org/activities/2024/xeus/ verfügbar.
Video-generierende Modelle haben große Fähigkeiten bei der Erzeugung beeindruckender monokularer Videos gezeigt, jedoch bleibt die Generierung von 3D-stereoskopischen Videos weitgehend unerforscht. Wir schlagen einen posefreien und trainingsfreien Ansatz zur Erzeugung von 3D-stereoskopischen Videos unter Verwendung eines handelsüblichen monokularen Video-generierenden Modells vor. Unsere Methode verformt ein erzeugtes monokulares Video in Kameraperspektiven auf stereoskopischer Basis unter Verwendung der geschätzten Videotiefe und verwendet ein neuartiges Rahmenmatrix-Video-Inpainting-Framework. Das Framework nutzt das Video-generierende Modell, um Frames zu ergänzen, die aus verschiedenen Zeitstempeln und Ansichten beobachtet werden. Dieser effektive Ansatz erzeugt konsistente und semantisch kohärente stereoskopische Videos ohne Szenenoptimierung oder Modellanpassung. Darüber hinaus entwickeln wir ein Disokklusionsgrenzen-Reinjektionsschema, das die Qualität der Video-Inpainting durch Linderung der negativen Effekte, die sich aus disokkludierten Bereichen im latenten Raum ergeben, weiter verbessert. Wir validieren die Wirksamkeit unseres vorgeschlagenen Verfahrens durch Experimente mit Videos aus verschiedenen generativen Modellen, einschließlich Sora [4], Lumiere [2], WALT [8] und Zeroscope [42]. Die Experimente zeigen, dass unser Verfahren eine signifikante Verbesserung gegenüber früheren Methoden aufweist. Der Code wird unter https://daipengwa.github.io/SVG_ProjectPage veröffentlicht.
In letzter Zeit sind mehrere spezialisierte anweisungsgesteuerte Large Language Models (LLMs) für Named Entity Recognition (NER) aufgetaucht. Im Vergleich zu traditionellen NER-Ansätzen verfügen diese Modelle über starke Verallgemeinerungsfähigkeiten. Bestehende LLMs konzentrieren sich hauptsächlich auf Zero-Shot NER in Out-of-Domain-Verteilungen, die durch Feinabstimmung auf eine umfangreiche Anzahl von Entitätsklassen erfolgt, die oft stark oder vollständig mit Testsets überlappen. In dieser Arbeit schlagen wir stattdessen SLIMER vor, einen Ansatz, der darauf abzielt, noch nie zuvor gesehene benannte Entitätstags zu bewältigen, indem das Modell anhand weniger Beispiele instruiert wird und einen mit Definitionen und Richtlinien angereicherten Prompt nutzt. Experimente zeigen, dass Definitionen und Richtlinien eine bessere Leistung, schnelleres und robusteres Lernen liefern, insbesondere beim Markieren von unbekannten Named Entities. Darüber hinaus erzielt SLIMER vergleichbare Leistungen wie State-of-the-Art-Ansätze im Out-of-Domain Zero-Shot NER, während es auf einem reduzierten Tag-Set trainiert wird.
Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) ist eine beliebte Strategie zur Ausrichtung großer Sprachmodelle (LLMs) auf gewünschte Verhaltensweisen. Die Reward-Modellierung ist ein entscheidender Schritt bei RLHF. Das Sammeln von paarweisen Präferenzdaten zur Schulung von Reward-Modellen ist jedoch oft kostspielig und zeitaufwändig, insbesondere bei domänenspezifischen Präferenzen, die eine Expertenannotation erfordern. Um diese Herausforderung anzugehen, schlagen wir das Domainwissen fusionierte Reward-Modell (DogeRM) vor, ein neuartiges Framework, das domänenspezifisches Wissen in ein allgemeines Reward-Modell durch Modellfusion integriert. Die Experimente zeigen, dass DogeRM die Leistung über verschiedene Benchmarks hinweg verbessert und eine detaillierte Analyse der Auswirkungen der Modellfusion liefert, was das große Potenzial zur Erleichterung der Modellausrichtung aufzeigt.
LLMs verarbeiten Text als Sequenzen von Tokens, die grob den Wörtern entsprechen, wobei weniger gebräuchliche Wörter durch mehrere Tokens dargestellt werden. Allerdings sind individuelle Tokens oft semantisch nicht mit den Bedeutungen der Wörter/Konzepte verbunden, die sie umfassen. Zum Beispiel zerlegt der Tokenizer von Llama-2-7b das Wort "northeastern" in die Tokens ['_n', 'ort', 'he', 'astern'], von denen keines semantisch bedeutende Einheiten wie "north" oder "east" entspricht. Ebenso können die Gesamtbedeutungen von Eigennamen wie "Neil Young" und mehrwortigen Ausdrücken wie "break a leg" nicht direkt aus ihren Bestandteilen abgeleitet werden. Mechanistisch gesehen, wie wandeln LLMs solche willkürlichen Tokengruppen in nützliche höhere Repräsentationen um? In dieser Arbeit stellen wir fest, dass die Repräsentationen des letzten Tokens von Eigennamen und mehrwortigen Wörtern einen ausgeprägten "Lösch"-Effekt aufweisen, bei dem Informationen über vorherige und aktuelle Tokens in den unteren Schichten schnell vergessen werden. Basierend auf dieser Beobachtung schlagen wir eine Methode vor, um das implizite Vokabular eines autoregressiven LLM zu "auszulesen", indem wir Unterschiede in den Token-Repräsentationen über Schichten hinweg untersuchen, und präsentieren Ergebnisse dieser Methode für Llama-2-7b und Llama-3-8B. Unseres Wissens nach handelt es sich hierbei um den ersten Versuch, das implizite Vokabular eines LLM zu untersuchen.
Wir beschreiben die präzise Vorhersage von Ligand-Protein-Interaktionsaffinitäten, auch bekannt als Wirkstoff-Ziel-Interaktionen, unter Verwendung von feinabgestimmten vorab trainierten generativen kleinen Sprachmodellen (SLMs). Wir erzielten präzise Vorhersagen für eine Reihe von Affinitätswerten, die mit Ligand-Protein-Interaktionen in Out-of-Sample-Daten in einem Zero-Shot-Setting verbunden sind. Nur der SMILES-String des Liganden und die Aminosäuresequenz des Proteins wurden als Modellinputs verwendet. Unsere Ergebnisse zeigen eine klare Verbesserung gegenüber maschinellem Lernen (ML) und Methoden auf Basis von freier Energieperturbation (FEP+), um eine Reihe von Ligand-Protein-Interaktionsaffinitäten präzise vorherzusagen, was genutzt werden kann, um die Wirkstoffentdeckungskampagnen gegen anspruchsvolle therapeutische Ziele weiter zu beschleunigen.
Die genaue Entlernung wurde erstmals als Datenschutzmechanismus eingeführt, der es einem Benutzer ermöglichte, seine Daten auf Anfrage aus maschinellen Lernmodellen zurückzuziehen. Kurz darauf wurden ungenaue Schemata vorgeschlagen, um die unpraktischen Kosten, die mit der genauen Entlernung verbunden sind, zu mildern. In jüngerer Zeit wird Entlernen oft als Ansatz zur Entfernung unzulässigen Wissens diskutiert, d.h. Wissen, das das Modell nicht besitzen sollte, wie unlizenzierte urheberrechtlich geschützte, ungenaue oder bösartige Informationen. Das Versprechen besteht darin, dass, wenn das Modell nicht über eine bestimmte bösartige Fähigkeit verfügt, es nicht für den damit verbundenen bösartigen Zweck verwendet werden kann. In diesem Papier überdenken wir das Paradigma, in dem Entlernen für große Sprachmodelle (LLMs) verwendet wird, und heben eine zugrunde liegende Inkonsistenz hervor, die aus dem kontextbezogenen Lernen resultiert. Entlernen kann ein wirksamer Kontrollmechanismus für die Trainingsphase sein, verhindert jedoch nicht, dass das Modell während der Inferenz eine unzulässige Handlung ausführt. Wir führen ein Konzept des "Unentlernens" ein, bei dem entlerntes Wissen kontextbezogen wieder eingeführt wird und das Modell effektiv befähigt, sich so zu verhalten, als ob es das vergessene Wissen kennt. Folglich argumentieren wir, dass eine Inhaltsfilterung für unzulässiges Wissen erforderlich sein wird und selbst genaue Entlernungsschemata nicht ausreichen für eine effektive Inhaltsregulierung. Wir diskutieren die Machbarkeit des "Unentlernens" für moderne LLMs und untersuchen breitere Auswirkungen.
Frontier KI-Systeme, einschließlich großer Sprachmodelle (LLMs), gewinnen zunehmend Einfluss auf die Erkenntnistheorie menschlicher Benutzer. Ein solcher Einfluss kann bestehende gesellschaftliche Werte verstärken und somit zur Verfestigung fehlgeleiteter moralischer Überzeugungen und infolgedessen zur Aufrechterhaltung problematischer moralischer Praktiken im großen Maßstab beitragen. Wir stellen Fortschrittsausrichtung als technische Lösung vor, um dieses unmittelbare Risiko zu mindern. Fortschrittsausrichtungsalgorithmen lernen, die Mechanismen des menschlichen moralischen Fortschritts nachzuahmen, um damit die Anfälligkeit bestehender Ausrichtungsmethoden für zeitgenössische moralische Blindstellen anzugehen. Um die Forschung in Fortschrittsausrichtung zu unterstützen, führen wir ProgressGym ein, ein experimentelles Framework, das das Lernen moralischer Fortschrittsmechanismen aus der Geschichte ermöglicht, um zukünftige Fortschritte bei moralischen Entscheidungen in der realen Welt zu erleichtern. Durch die Nutzung von 9 Jahrhunderten historischer Texte und 18 historischer LLMs ermöglicht ProgressGym die Kodifizierung von Herausforderungen der Fortschrittsausrichtung in konkrete Benchmarks. Konkret führen wir drei Kernherausforderungen ein: die Verfolgung sich entwickelnder Werte (PG-Follow), das vorausschauende Antizipieren moralischen Fortschritts (PG-Predict) und die Regulierung der Rückkopplungsschleife zwischen menschlichen und KI-Wertverschiebungen (PG-Coevolve). Ausrichtungsmethoden ohne zeitliche Dimension sind für diese Aufgaben unanwendbar. Als Reaktion präsentieren wir lebenslange und extrapolative Algorithmen als Basisverfahren der Fortschrittsausrichtung und erstellen ein offenes Leaderboard, das neue Algorithmen und Herausforderungen aufruft. Das Framework und das Leaderboard sind unter folgenden Links verfügbar: https://github.com/PKU-Alignment/ProgressGym und https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard.
Das Befolgen mehrerer Anweisungen ist eine entscheidende Fähigkeit für große Sprachmodelle (LLMs). Die Bewertung dieser Fähigkeit birgt erhebliche Herausforderungen: (i) begrenzte Kohärenz zwischen mehreren Anweisungen, (ii) Positionsbias, bei dem die Reihenfolge der Anweisungen die Modellleistung beeinflusst, und (iii) ein Mangel an objektiv überprüfbaren Aufgaben. Um diese Probleme anzugehen, führen wir einen Benchmark ein, der entwickelt wurde, um die Fähigkeiten von Modellen zu bewerten, mehreren Anweisungen durch sequenzielle Anweisungsbefolgungsaufgaben zu folgen. Bei SIFo kann der erfolgreiche Abschluss mehrerer Anweisungen durch die Prüfung nur der letzten Anweisung überprüft werden. Unser Benchmark bewertet die Anweisungsbefolgung anhand von vier Aufgaben (Textänderung, Fragebeantwortung, Mathematik und Sicherheitsregelbefolgung), die jeweils verschiedene Aspekte der sequenziellen Anweisungsbefolgung bewerten. Unsere Bewertung beliebter LLMs, sowohl geschlossener als auch offener Quellen, zeigt, dass neuere und größere Modelle auf den SIFo-Aufgaben signifikant besser abschneiden als ihre älteren und kleineren Gegenstücke, was die Wirksamkeit des Benchmarks bestätigt. Alle Modelle haben Schwierigkeiten, Sequenzen von Anweisungen zu befolgen, was auf einen wichtigen Mangel an Robustheit der heutigen Sprachmodelle hinweist.