Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Leistung eines großen Sprachmodells (LLM) hängt stark von der Qualität und Größe seines Vortrainingsdatensatzes ab. Allerdings sind die Vortrainingsdatensätze für modernste offene LLMs wie Llama 3 und Mixtral nicht öffentlich verfügbar, und es ist sehr wenig darüber bekannt, wie sie erstellt wurden. In dieser Arbeit stellen wir FineWeb vor, einen 15-Billionen-Token-Datensatz, der aus 96 Common Crawl-Snapshots abgeleitet wurde und bessere Leistungen erzielt als andere offene Vortrainingsdatensätze. Um das Verständnis dafür zu fördern, wie hochwertige Vortrainingsdatensätze am besten kuratiert werden können, dokumentieren wir sorgfältig alle Designentscheidungen, die bei FineWeb getroffen wurden, einschließlich eingehender Untersuchungen von Deduplizierungs- und Filterstrategien. Darüber hinaus stellen wir FineWeb-Edu vor, eine 1,3-Billionen-Token-Sammlung von Bildungstexten, die aus FineWeb gefiltert wurden. LLMs, die auf FineWeb-Edu vortrainiert wurden, zeigen dramatisch bessere Leistungen bei wissens- und logikintensiven Benchmarks wie MMLU und ARC. Zusammen mit unseren Datensätzen veröffentlichen wir öffentlich unseren Datenaufbereitungs-Code und alle während unserer Ablationsexperimente trainierten Modelle.
Die 3D-Generierung, geleitet durch Text-zu-Bild-Diffusionsmodelle, ermöglicht die Erstellung visuell ansprechender Assets. Bisherige Methoden erforschen jedoch die Generierung basierend auf Bild oder Text. Die Grenzen der Kreativität sind begrenzt durch das, was durch Worte ausgedrückt werden kann oder die Bilder, die beschafft werden können. Wir präsentieren YouDream, eine Methode zur Generierung hochwertiger anatomisch steuerbarer Tiere. YouDream wird geleitet durch ein Text-zu-Bild-Diffusionsmodell, gesteuert durch 2D-Ansichten einer 3D-Posenvorlage. Unsere Methode generiert 3D-Tiere, die mithilfe früherer Text-zu-3D-generativer Methoden nicht möglich waren. Darüber hinaus ist unsere Methode in der Lage, die anatomische Konsistenz in den generierten Tieren zu bewahren, ein Bereich, in dem frühere Text-zu-3D-Ansätze oft Schwierigkeiten haben. Zudem entwerfen wir eine vollautomatisierte Pipeline zur Generierung häufig vorkommender Tiere. Um die Notwendigkeit menschlichen Eingreifens zur Erstellung einer 3D-Posenvorlage zu umgehen, schlagen wir einen Multi-Agenten-Langzeitgedächtnis vor, der Posen aus einer begrenzten Bibliothek von Tier-3D-Posen anpasst, um das gewünschte Tier darzustellen. Eine Benutzerstudie zu den Ergebnissen von YouDream zeigt die Präferenz der von unserer Methode generierten Tiermodelle gegenüber anderen. Die Ergebnisse und der Code sind unter https://youdream3d.github.io/ veröffentlicht.
Sprachmodelle (LMs) zeigen beeindruckende Leistungen und Verallgemeinerungsfähigkeiten. Allerdings haben LMs Schwierigkeiten mit der anhaltenden Herausforderung des katastrophalen Vergessens, was ihre langfristige Nachhaltigkeit im kontinuierlichen Lernen (CL) untergräbt. Bestehende Ansätze behandeln das Problem in der Regel, indem sie alte Aufgabendaten oder aufgabenweise induktive Verzerrungen in LMs integrieren. Allerdings sind alte Daten und genaue Aufgabeninformationen oft nicht verfügbar oder teuer zu sammeln, was die Verfügbarkeit aktueller CL-Ansätze für LMs behindert. Um diese Einschränkung zu überwinden, stellen wir MIGU (MagnItude-basiertes Gradienten-Update für kontinuierliches Lernen) vor, eine Methode ohne Wiederholung und ohne Aufgabenbeschriftung, die nur die Modellparameter mit großen Magnituden der Ausgabe in den linearen Schichten von LMs aktualisiert. MIGU basiert auf unserer Beobachtung, dass die L1-normalisierte Magnitudenverteilung der Ausgabe in den linearen Schichten von LMs unterschiedlich ist, wenn die LM-Modelle mit verschiedenen Aufgabendaten umgehen. Durch die Anwendung dieser einfachen Einschränkung auf den Gradientenaktualisierungsprozess können wir das inhärente Verhalten von LMs nutzen und somit ihre angeborenen CL-Fähigkeiten freisetzen. Unsere Experimente zeigen, dass MIGU universell auf alle drei LM-Architekturen (T5, RoBERTa und Llama2) anwendbar ist und bei kontinuierlicher Feinabstimmung und kontinuierlichem Vortraining auf vier CL-Benchmarks Spitzenleistungen oder vergleichbare Leistungen erbringt. Beispielsweise erzielt MIGU eine durchschnittliche Genauigkeitsverbesserung von 15,2% gegenüber herkömmlichen parameter-effizienten Feinabstimmungs-Baselines in einem 15-Aufgaben-CL-Benchmark. MIGU kann auch nahtlos mit allen drei bestehenden CL-Typen integriert werden, um die Leistung weiter zu verbessern. Der Code ist verfügbar unter https://github.com/wenyudu/MIGU.
Neueste Fortschritte in der Optimierung menschlicher Präferenzen, die ursprünglich für Sprachmodelle (LMs) entwickelt wurden, haben vielversprechende Ergebnisse für Text-zu-Bild-Diffusionsmodelle gezeigt, die die Ausrichtung der Eingabeaufforderung, die visuelle Attraktivität und die Benutzerpräferenz verbessern. Im Gegensatz zu LMs optimieren Diffusionsmodelle in der Regel im Pixel- oder VAE-Raum, was nicht gut mit der menschlichen Wahrnehmung übereinstimmt und zu langsamerem und weniger effizientem Training während der Präferenzausrichtungsphase führt. Wir schlagen vor, ein perzeptuelles Ziel im U-Net-Einbettungsraum des Diffusionsmodells zu verwenden, um diese Probleme anzugehen. Unser Ansatz beinhaltet das Feinabstimmen von Stable Diffusion 1.5 und XL unter Verwendung von Direkter Präferenzoptimierung (DPO), Kontrastiver Präferenzoptimierung (CPO) und überwachtem Feinabgleich (SFT) innerhalb dieses Einbettungsraums. Diese Methode übertrifft signifikant herkömmliche Implementierungen im latenten Raum in verschiedenen Metriken, einschließlich Qualität und Rechenkosten. Für SDXL bietet unser Ansatz 60,8\% allgemeine Präferenz, 62,2\% visuelle Attraktivität und 52,1\% Eingabeaufforderungsverfolgung gegenüber dem ursprünglichen quelloffenen SDXL-DPO auf dem PartiPrompts-Datensatz und reduziert dabei signifikant die Rechenleistung. Unser Ansatz verbessert nicht nur die Effizienz und Qualität der menschlichen Präferenzausrichtung für Diffusionsmodelle, sondern ist auch leicht mit anderen Optimierungstechniken integrierbar. Der Trainingscode und die LoRA-Gewichte werden hier verfügbar sein: https://huggingface.co/alexgambashidze/SDXL_NCP-DPO_v0.1
Die Weiterentwicklung von Agentenmodellen für die Funktionsaufruf erfordert vielfältige, zuverlässige und hochwertige Datensätze. Dieses Papier stellt APIGen vor, eine automatisierte Datengenerierungspipeline, die darauf abzielt, überprüfbare hochwertige Datensätze für Funktionsaufrufanwendungen zu synthetisieren. Wir nutzen APIGen und sammeln 3.673 ausführbare APIs in 21 verschiedenen Kategorien, um vielfältige Funktionsaufrufdatensätze auf skalierbare und strukturierte Weise zu generieren. Jeder Datensatz in unserem Datensatz wird durch drei hierarchische Stufen überprüft: Formatüberprüfung, tatsächliche Funktionsausführungen und semantische Verifizierung, um dessen Zuverlässigkeit und Korrektheit sicherzustellen. Wir zeigen, dass Modelle, die mit unseren kuratierten Datensätzen trainiert wurden, selbst mit nur 7 Milliarden Parametern, Spitzenleistungen im Berkeley Function-Calling Benchmark erzielen können und mehrere GPT-4-Modelle übertreffen. Darüber hinaus erreicht unser 1-Milliarden-Modell eine außergewöhnliche Leistung und übertrifft GPT-3.5-Turbo und Claude-3 Haiku. Wir veröffentlichen einen Datensatz mit 60.000 hochwertigen Einträgen, um das Gebiet der Funktionsaufruf-Agentendomänen voranzubringen. Der Datensatz ist auf Huggingface verfügbar: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k und der Projekt-Homepage: https://apigen-pipeline.github.io/
Wir stellen ein allgemeines Rahmenwerk zur Lösung von partiellen Differentialgleichungen (PDEs) unter Verwendung generativer Diffusionsmodelle vor. Insbesondere konzentrieren wir uns auf Szenarien, in denen wir nicht über das vollständige Wissen über die Szene verfügen, das für die Anwendung klassischer Lösungsverfahren erforderlich ist. Die meisten bestehenden Vorwärts- oder inversen PDE-Ansätze erzielen schlechte Leistungen, wenn die Beobachtungen der Daten oder der zugrunde liegenden Koeffizienten unvollständig sind, was eine häufige Annahme für Messungen in der realen Welt ist. In dieser Arbeit schlagen wir DiffusionPDE vor, das gleichzeitig fehlende Informationen ergänzen und eine PDE lösen kann, indem die gemeinsame Verteilung der Lösungs- und Koeffizientenräume modelliert wird. Wir zeigen, dass die erlernten generativen Prioritäten zu einem vielseitigen Rahmenwerk führen, um eine breite Palette von PDEs unter partieller Beobachtung genau zu lösen und dabei die Methoden des aktuellen Standes der Technik sowohl für Vorwärts- als auch für inverse Richtungen deutlich zu übertreffen.
Die Fähigkeiten von großen Sprachmodellen (LLMs) im Langzeitkontext sind in den letzten Jahren ein viel diskutiertes Thema gewesen. Zur Bewertung der Leistung von LLMs in verschiedenen Szenarien sind verschiedene Bewertungsmaßstäbe entstanden. Allerdings konzentrieren sich die meisten dieser Maßstäbe darauf, Schlüsselinformationen zur Beantwortung von Fragen zu identifizieren, was hauptsächlich die Abruffähigkeit von LLMs erfordert. Diese Maßstäbe können die Schlussfolgerungsleistung von LLMs aus großen Informationsmengen nur teilweise darstellen. Gleichzeitig offenbaren diese Maßstäbe nicht die tatsächlich unterstützte Länge dieser LLMs, obwohl LLMs oft behaupten, Kontextfenster von 32k, 128k, 200k oder sogar länger zu haben. Um diese Probleme anzugehen, schlagen wir den LongIns-Benchmark-Datensatz vor, einen anspruchsvollen langen Kontext-Instruktions-basierten Test für LLMs, der auf den vorhandenen Instruktionsdatensätzen aufbaut. Speziell führen wir in unserem LongIns drei Bewertungseinstellungen ein: Globale Anweisung & Einzelaufgabe (GIST), Lokale Anweisung & Einzelaufgabe (LIST) und Lokale Anweisung & Mehrere Aufgaben (LIMT). Basierend auf LongIns führen wir umfassende Bewertungen an bestehenden LLMs durch und haben folgende wichtige Erkenntnisse: (1). Das leistungsstärkste GPT-4 mit einer Kontextlänge von 128k schneidet in unserem LongIns bei einem Bewertungskontextfenster von 16k schlecht ab. (2). Für die Multi-Hop-Schlussfolgerungsfähigkeit vieler bestehender LLMs sind unter kurzen Kontextfenstern (weniger als 4k) noch erhebliche Anstrengungen erforderlich.
Multi-modale große Sprachmodelle (MLLMs) haben bedeutende Fortschritte in verschiedenen visuellen Verständnisaufgaben gemacht. Allerdings sind die meisten dieser Modelle darauf beschränkt, Bilder mit geringer Auflösung zu verarbeiten, was ihre Effektivität bei Wahrnehmungsaufgaben einschränkt, die detaillierte visuelle Informationen erfordern. In unserer Studie präsentieren wir MG-LLaVA, ein innovatives MLLM, das die visuelle Verarbeitungsfähigkeiten des Modells verbessert, indem es einen Multi-Granularitäts-Vision-Flow integriert, der Merkmale mit geringer Auflösung, hoher Auflösung und objektorientierte Merkmale umfasst. Wir schlagen die Integration eines zusätzlichen Hochauflösungs-Visuellenkoders vor, um feingranulare Details zu erfassen, die dann mit Basis-Visuellenmerkmalen durch ein Conv-Gate-Fusionsnetzwerk verschmolzen werden. Um die Objekterkennungsfähigkeiten des Modells weiter zu verfeinern, integrieren wir objektbezogene Merkmale, die aus von Offline-Detektoren identifizierten Bounding-Boxen abgeleitet sind. MG-LLaVA, das ausschließlich an öffentlich verfügbaren multimodalen Daten durch Instruktionstuning trainiert wird, zeigt außergewöhnliche Wahrnehmungsfähigkeiten. Wir instanziieren MG-LLaVA mit einer Vielzahl von Sprachkodierern, die von 3,8B bis 34B reichen, um die Leistung des Modells umfassend zu bewerten. Umfangreiche Bewertungen über mehrere Benchmarks hinweg zeigen, dass MG-LLaVA bestehende MLLMs vergleichbarer Parametergrößen übertrifft und seine bemerkenswerte Wirksamkeit zeigt. Der Code wird unter https://github.com/PhoenixZ810/MG-LLaVA verfügbar sein.
In dieser Arbeit präsentieren wir MotionBooth, ein innovatives Framework, das für die Animation individueller Objekte mit präziser Kontrolle über sowohl Objekt- als auch Kamerabewegungen entwickelt wurde. Durch die Nutzung weniger Bilder eines bestimmten Objekts feinabstimmen wir effizient ein Text-zu-Video-Modell, um die Form und Merkmale des Objekts präzise zu erfassen. Unser Ansatz beinhaltet Verlustfunktionen für den Objektbereich und die Videoerhaltung, um die Lernleistung des Objekts zu verbessern, sowie eine Verlustfunktion für die Kreuz-Aufmerksamkeit des Objekt-Tokens, um das individuelle Objekt mit Bewegungssteuersignalen zu integrieren. Darüber hinaus schlagen wir trainingsfreie Techniken zur Verwaltung von Objekt- und Kamerabewegungen während der Inferenz vor. Insbesondere nutzen wir die Manipulation von Kreuz-Aufmerksamkeitskarten zur Steuerung der Objektbewegung und führen ein neuartiges latentes Verschiebungsmodul für die Steuerung der Kamerabewegung ein. MotionBooth zeichnet sich durch die Erhaltung des Erscheinungsbilds der Objekte aus, während gleichzeitig die Bewegungen in den generierten Videos gesteuert werden. Umfangreiche quantitative und qualitative Bewertungen belegen die Überlegenheit und Wirksamkeit unserer Methode. Unsere Projektseite befindet sich unter https://jianzongwu.github.io/projects/motionbooth
Die Fähigkeiten zur Modellierung von langem Kontext haben weitreichende Aufmerksamkeit erregt, was zur Entstehung von Großen Sprachmodellen (LLMs) mit ultralangen Kontextfenstern geführt hat. Inzwischen holen Benchmarks zur Bewertung von LLMs mit langem Kontext allmählich auf. Allerdings verwenden bestehende Benchmarks irrelevante Störtexte, um künstlich die Länge der Testfälle zu verlängern, was sich von den realen Szenarien von Anwendungen mit langem Kontext unterscheidet. Um diese Kluft zu überbrücken, schlagen wir einen neuartigen Benchmark für langen Kontext, Loong, vor, der sich durch erweiterte Multi-Dokumenten-Fragenbeantwortung (QA) an realistische Szenarien anpasst. Im Gegensatz zur typischen Dokumenten-QA sind in den Testfällen von Loong alle Dokumente relevant für die endgültige Antwort, das Ignorieren eines Dokuments führt zum Scheitern der Antwort. Darüber hinaus führt Loong vier Arten von Aufgaben mit verschiedenen Kontextlängen ein: Spotlight-Lokalisierung, Vergleich, Clustering und Kettenargumentation, um eine realistischere und umfassendere Bewertung des Verständnisses von langem Kontext zu erleichtern. Umfangreiche Experimente zeigen, dass bestehende Sprachmodelle mit langem Kontext nach wie vor beträchtliches Verbesserungspotenzial aufweisen. Die Generierung mit Rückgewinnung (RAG) erzielt eine schlechte Leistung, was zeigt, dass Loong die Fähigkeiten des Modells zur Modellierung von langem Kontext zuverlässig bewerten kann.
Das Segmentieren von Text in Sätze spielt eine frühe und entscheidende Rolle in vielen NLP-Systemen. Dies wird in der Regel durch den Einsatz regelbasierter oder statistischer Methoden erreicht, die auf lexikalischen Merkmalen wie Satzzeichen beruhen. Obwohl einige neuere Arbeiten nicht mehr ausschließlich auf Satzzeichen angewiesen sind, stellen wir fest, dass keine vorherige Methode alle drei Anforderungen erfüllt: (i) Robustheit gegenüber fehlenden Satzzeichen, (ii) effektive Anpassungsfähigkeit an neue Domänen und (iii) hohe Effizienz. Wir stellen ein neues Modell - Segment any Text (SaT) - vor, um dieses Problem zu lösen. Zur Verbesserung der Robustheit schlagen wir ein neues Pretraining-Schema vor, das eine geringere Abhängigkeit von Satzzeichen gewährleistet. Um die Anpassungsfähigkeit zu adressieren, führen wir eine zusätzliche Phase des parameter-effizienten Feintunings ein, die eine Spitzenleistung in verschiedenen Domänen wie Versen aus Liedtexten und Rechtsdokumenten etabliert. Auf dem Weg führen wir architektonische Modifikationen ein, die zu einer dreifachen Geschwindigkeitssteigerung im Vergleich zum bisherigen Stand der Technik führen und eine irrtümliche Abhängigkeit von weit entferntem Kontext lösen. Schließlich stellen wir eine Variante unseres Modells mit Feintuning auf einer vielfältigen, mehrsprachigen Mischung von satzsegmentierten Daten vor, die als Plug-and-Play-Ersatz und Verbesserung für bestehende Segmentierungstools fungiert. Insgesamt bieten unsere Beiträge einen universellen Ansatz zum Segmentieren beliebigen Textes. Unsere Methode übertrifft alle Baselines - einschließlich starker LLMs - über 8 Korpora, die verschiedene Domänen und Sprachen umfassen, insbesondere in praktisch relevanten Situationen, in denen der Text schlecht formatiert ist. Unsere Modelle und der Code, einschließlich Dokumentation, sind unter der MIT-Lizenz unter https://huggingface.co/segment-any-text verfügbar.
Trotz der allgemeinen Fähigkeiten vortrainierter großer Sprachmodelle (Large Language Models, LLMs) bedarf es weiterer Anpassungen, um praktische Anwendungen besser zu unterstützen. In diesem Paper zeigen wir die Austauschbarkeit von drei beliebten und unterschiedlichen Anpassungswerkzeugen: Parameteraktualisierung, Belohnungsmodellierung und in-kontextuelles Anstoßen. Diese Austauschbarkeit etabliert ein dreieckiges Rahmenwerk mit sechs Transformationsrichtungen, die jeweils eine Vielzahl von Anwendungen erleichtern. Unsere Arbeit bietet eine ganzheitliche Sicht, die zahlreiche bestehende Studien vereint und potenzielle Forschungsrichtungen vorschlägt. Wir sehen unsere Arbeit als eine nützliche Roadmap für zukünftige Forschung zu LLMs.
Das Diffusionsmodell hat eine bemerkenswerte Fähigkeit in der Videogenerierung gezeigt, was weiteres Interesse an der Einführung von Trajektoriensteuerung in den Generierungsprozess weckt. Während bestehende Arbeiten hauptsächlich auf trainingsbasierten Methoden (z. B. bedingter Adapter) beruhen, argumentieren wir, dass das Diffusionsmodell selbst eine anständige Kontrolle über den generierten Inhalt ermöglicht, ohne dass ein Training erforderlich ist. In dieser Studie stellen wir ein abstimmbares Rahmenwerk vor, um eine trajektoriensteuerbare Videogenerierung zu erreichen, indem wir sowohl auf die Rauscherzeugung als auch auf die Aufmerksamkeitsberechnung Einfluss nehmen. Speziell zeigen wir zunächst mehrere instruktive Phänomene und analysieren, wie anfängliche Geräusche die Bewegungsbahn des generierten Inhalts beeinflussen. Anschließend schlagen wir FreeTraj vor, einen abstimmbaren Ansatz, der die Trajektoriensteuerung durch Modifikation der Rauschenerzeugung und Aufmerksamkeitsmechanismen ermöglicht. Darüber hinaus erweitern wir FreeTraj, um eine längere und größere Videogenerierung mit steuerbaren Trajektorien zu erleichtern. Mit diesen Entwürfen haben Benutzer die Flexibilität, Trajektorien manuell bereitzustellen oder sich für automatisch generierte Trajektorien des LLM-Trajektplans zu entscheiden. Umfangreiche Experimente bestätigen die Wirksamkeit unseres Ansatzes bei der Verbesserung der Trajektoriensteuerbarkeit von Videodiffusionsmodellen.
In jüngster Zeit haben Fortschritte bei Großen Sprachmodellen (LLMs) die Fähigkeiten von Konversationsagenten erheblich verbessert und sie in verschiedenen Bereichen (z. B. Bildung) einsetzbar gemacht. Trotz ihres Fortschritts vernachlässigt die Bewertung der Agenten oft die Komplexitäten von Gesprächen in der realen Welt, wie Echtzeitinteraktionen, Mehrparteiengespräche und erweiterte Kontextabhängigkeiten. Um diese Kluft zu überbrücken, stellen wir DialSim vor, einen Echtzeit-Dialogsimulator. In diesem Simulator wird einem Agenten die Rolle einer Figur aus beliebten Fernsehsendungen zugewiesen, was ihn dazu verpflichtet, auf spontane Fragen unter Verwendung von Informationen aus vergangenen Dialogen zu antworten und zwischen bekannten und unbekannten Informationen zu unterscheiden. Zu den wichtigsten Funktionen von DialSim gehören die Bewertung der Fähigkeit des Agenten, innerhalb einer angemessenen Zeitgrenze zu antworten, die Bewältigung langfristiger Mehrparteiengespräche und die Verwaltung von adversen Situationen (z. B. Vertauschen von Charakternamen), um die Abhängigkeit des Agenten von vorab trainiertem Wissen herauszufordern. Wir haben diesen Simulator genutzt, um die neuesten Konversationsagenten zu bewerten und ihre Einschränkungen zu analysieren. Unsere Experimente heben sowohl die Stärken als auch die Schwächen dieser Agenten hervor und liefern wertvolle Erkenntnisse für zukünftige Verbesserungen im Bereich der Konversations-KI. DialSim ist verfügbar unter https://github.com/jiho283/Simulator.
Die Filmproduktion und Animationsproduktion erfordern oft ausgefeilte Techniken zur Koordination von Kamerawechseln und Objektbewegungen, die in der Regel eine arbeitsintensive Erfassung der realen Welt umfassen. Trotz Fortschritten in der generativen KI für die Videoproduktion bleibt es eine Herausforderung, eine präzise Steuerung der Bewegung für die Erzeugung interaktiver Videoinhalte zu erreichen. Zu diesem Zweck schlagen wir Image Conductor vor, eine Methode zur präzisen Steuerung von Kamerawechseln und Objektbewegungen zur Generierung von Videoinhalten aus einem einzigen Bild. Es wird eine gut durchdachte Schulungsstrategie vorgeschlagen, um unterschiedliche Kamera- und Objektbewegungen durch Kamera-LoRA-Gewichte und Objekt-LoRA-Gewichte zu trennen. Um zudem kinematografische Variationen von schlecht gestellten Trajektorien anzugehen, führen wir eine kamerafreie Anleitungstechnik während der Inferenz ein, die die Objektbewegungen verbessert und Kamerawechsel eliminiert. Darüber hinaus entwickeln wir eine auf Trajektorien ausgerichtete Videobewegungsdaten-Kuratierungspipeline für das Training. Quantitative und qualitative Experimente zeigen die Präzision und fein abgestimmte Steuerung unserer Methode bei der Erzeugung von bewegungskontrollierbaren Videos aus Bildern und fördern die praktische Anwendung der interaktiven Videosynthese. Projektwebseite verfügbar unter https://liyaowei-stu.github.io/project/ImageConductor/
Das Training und Feintuning großer Sprachmodelle (Large Language Models, LLM) werden oft durch begrenzten GPU-Speicher ausgebremst. Während bestehende auf Projektion basierende Optimierungsmethoden dieses Problem lösen, indem sie Gradienten in einen niedrigdimensionalen Unterraum projizieren, um den Speicherbedarf des Optimierers zu reduzieren, verlassen sie sich in der Regel auf dichte Projektionsmatrizen, die jedoch zusätzlichen Rechenaufwand und Speicherbedarf verursachen können. In dieser Arbeit schlagen wir Grass (GRAdient Strukturierte Sparsifikation) vor, einen neuartigen Ansatz, der auf dünnen Projektionen basiert, um Gradienten in strukturierte, spärliche Aktualisierungen umzuwandeln. Dieses Design reduziert nicht nur signifikant den Speicherverbrauch für Optimiererzustände, sondern minimiert auch den Speicherbedarf für Gradienten, Rechen- und Kommunikationskosten, was zu erheblichen Durchsatzverbesserungen führt. Umfangreiche Experimente zu Vorab- und Feintuning-Aufgaben zeigen, dass Grass eine wettbewerbsfähige Leistung im Vergleich zum Training mit voller Rangordnung und bestehenden auf Projektion basierenden Methoden erzielt. Insbesondere ermöglicht Grass das Vorabtraining eines 13B-Parameter-LLaMA-Modells in Halbpräzision auf einer einzelnen 40GB A100-GPU - eine Leistung, die für frühere Methoden undenkbar war - und führt zu einer bis zu 2-fachen Durchsatzverbesserung auf einem 8-GPU-System. Der Code ist unter https://github.com/aashiqmuhamed/GRASS verfügbar.
Aktivierungslenkungsmethoden haben sich als wirksam erwiesen, um die Generierung von Sprachmodellen durch additive Eingriffe in die Zwischenrepräsentationen der Modelle zu konditionieren. Bisher war die Bewertung dieser Techniken jedoch auf einzelne Konditionierungseigenschaften und synthetische Einstellungen beschränkt. In dieser Arbeit führen wir eine umfassende Bewertung verschiedener Aktivierungslenkungsstrategien durch, wobei die eigenschaftsabhängige Natur optimaler Parameter hervorgehoben wird, um einen robusten Effekt während der Generierung sicherzustellen. Um dieses Problem anzugehen, schlagen wir die Dynamische Aktivierungszusammensetzung vor, einen informationstheoretischen Ansatz zur Modulation der Lenkungsintensität einer oder mehrerer Eigenschaften während der Generierung. Unsere Experimente zur Mehrfacheigenschaftslenkung zeigen, dass unsere Methode erfolgreich eine hohe Konditionierung aufrechterhält, während sie den Einfluss der Konditionierung auf die Generierungsflüssigkeit minimiert.
Damit KI-Systeme effektiv mit Menschen kommunizieren können, müssen sie verstehen, wie wir Entscheidungen treffen. Allerdings sind menschliche Entscheidungen nicht immer rational, daher müssen die impliziten internen Modelle menschlicher Entscheidungsfindung in Large Language Models (LLMs) dies berücksichtigen. Frühere empirische Beweise scheinen darauf hinzudeuten, dass diese impliziten Modelle genau sind - LLMs bieten glaubhafte Stellvertreter menschlichen Verhaltens, indem sie sich so verhalten, wie wir es von Menschen in alltäglichen Interaktionen erwarten würden. Jedoch zeigt sich durch den Vergleich des Verhaltens und der Vorhersagen von LLMs mit einem großen Datensatz menschlicher Entscheidungen, dass dies tatsächlich nicht der Fall ist: Beim Simulieren und Vorhersagen von Entscheidungen von Menschen nehmen eine Reihe modernster LLMs (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) an, dass Menschen rationaler handeln, als sie es tatsächlich tun. Speziell weichen diese Modelle vom menschlichen Verhalten ab und stimmen eher mit einem klassischen Modell rationaler Entscheidungen - der erwarteten Wertetheorie - überein. Interessanterweise neigen auch Menschen dazu anzunehmen, dass andere Menschen rational handeln, wenn sie deren Verhalten interpretieren. Folglich finden wir bei einem Vergleich der Schlussfolgerungen, die LLMs und Menschen aus den Entscheidungen anderer ziehen, anhand eines weiteren psychologischen Datensatzes, eine hohe Korrelation. Somit scheinen die impliziten Entscheidungsmodelle von LLMs mit der menschlichen Erwartung übereinzustimmen, dass andere Menschen rational handeln werden, anstatt mit dem tatsächlichen menschlichen Verhalten.
Mit der zunehmenden Integration der Künstlichen Allgemeinen Intelligenz (AGI) in verschiedene Bereiche des menschlichen Lebens ist es von größter Bedeutung, die Sicherheit und ethische Ausrichtung solcher Systeme zu gewährleisten. Frühere Studien konzentrieren sich hauptsächlich auf Bedrohungen durch Einzelmodalitäten, was angesichts der integrierten und komplexen Natur von Cross-Modalitäts-Interaktionen möglicherweise nicht ausreicht. Wir stellen eine neuartige Sicherheitsausrichtungsherausforderung namens "Sichere Eingaben, aber unsichere Ausgabe" (SIUO) vor, um die Sicherheitsausrichtung von Cross-Modalitäten zu bewerten. Insbesondere werden Fälle betrachtet, in denen Einzelmodalitäten unabhängig sicher sind, aber potenziell zu unsicheren oder unethischen Ausgaben führen könnten, wenn sie kombiniert werden. Um dieses Problem empirisch zu untersuchen, haben wir das SIUO entwickelt, einen Cross-Modalitäts-Benchmark, der 9 kritische Sicherheitsbereiche umfasst, wie Selbstschädigung, illegale Aktivitäten und Verletzungen der Privatsphäre. Unsere Ergebnisse zeigen erhebliche Sicherheitslücken sowohl in geschlossenen als auch in Open-Source LVLMs wie GPT-4V und LLaVA auf und unterstreichen die Unzulänglichkeit der aktuellen Modelle, um komplexe, realitätsnahe Szenarien zuverlässig zu interpretieren und darauf zu reagieren.