Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Mit der Einführung von diffusionsbasierten Videogenerierungstechniken hat die audio-konditionierte menschliche Videogenerierung kürzlich bedeutende Durchbrüche sowohl in der Natürlichkeit der Bewegung als auch in der Synthese von Porträt-Details erzielt. Aufgrund der begrenzten Steuerung von Audio-Signalen bei der Steuerung menschlicher Bewegungen fügen bestehende Methoden oft zusätzliche räumliche Signale hinzu, um Bewegungen zu stabilisieren, was die Natürlichkeit und Freiheit der Bewegung beeinträchtigen kann. In diesem Paper schlagen wir ein End-to-End-Audio-Only-konditioniertes Videodiffusionsmodell namens Loopy vor. Speziell haben wir ein inter- und intra-Clip-Zeitmodul und ein Audio-zu-Latenzmodul entworfen, die es dem Modell ermöglichen, langfristige Bewegungsinformationen aus den Daten zu nutzen, um natürliche Bewegungsmuster zu erlernen und die Korrelation zwischen Audio-Porträt-Bewegung zu verbessern. Diese Methode beseitigt die Notwendigkeit für manuell spezifizierte räumliche Bewegungsvorlagen, die in bestehenden Methoden verwendet werden, um Bewegungen während der Inferenz zu beschränken. Umfangreiche Experimente zeigen, dass Loopy aktuelle audiogetriebene Porträt-Diffusionsmodelle übertrifft und in verschiedenen Szenarien realistischere und qualitativ hochwertigere Ergebnisse liefert.
Die Erweiterung der Fähigkeiten von Multi-modalen Large Language Models (MLLMs) im Bereich des Langzeitkontexts ist entscheidend für das Verständnis von Videos, hochauflösenden Bildern und Multi-Modalen Agenten. Dies erfordert eine Reihe systematischer Optimierungen, einschließlich der Modellarchitektur, der Datenerstellung und Trainingsstrategie, insbesondere zur Bewältigung von Herausforderungen wie der verschlechterten Leistung mit mehr Bildern und hohen Rechenkosten. In diesem Paper passen wir die Modellarchitektur an eine Hybrid aus Mamba- und Transformer-Blöcken an, gehen bei der Datenerstellung auf sowohl zeitliche als auch räumliche Abhängigkeiten zwischen mehreren Bildern ein und verwenden eine progressive Trainingsstrategie. Das veröffentlichte Modell LongLLaVA (Long-Context Large Language and Vision Assistant) ist das erste Hybrid MLLM, das ein besseres Gleichgewicht zwischen Effizienz und Effektivität erreicht hat. LongLLaVA erzielt nicht nur wettbewerbsfähige Ergebnisse in verschiedenen Benchmarks, sondern behält auch eine hohe Durchsatzrate und einen geringen Speicherverbrauch bei. Insbesondere kann es fast tausend Bilder auf einer einzelnen A100 80GB GPU verarbeiten und zeigt vielversprechende Anwendungsaussichten für eine Vielzahl von Aufgaben.
Obwohl aktuelle großkontextige Sprachmodelle (LLMs) beeindruckende Fähigkeiten bei der Beantwortung von Benutzerfragen auf der Grundlage umfangreicher Texte gezeigt haben, macht das Fehlen von Zitaten in ihren Antworten die Benutzerüberprüfung schwierig, was zu Bedenken hinsichtlich ihrer Vertrauenswürdigkeit aufgrund potenzieller Halluzinationen führt. In dieser Arbeit zielen wir darauf ab, großkontextigen LLMs zu ermöglichen, Antworten mit feingliedrigen Zitaten auf Satzebene zu generieren, um ihre Treue und Überprüfbarkeit zu verbessern. Zunächst stellen wir LongBench-Cite vor, einen automatisierten Benchmark zur Bewertung der Leistung aktueller LLMs im Langkontext-Fragenbeantworten mit Zitaten (LQAC), der erhebliches Verbesserungspotenzial aufzeigt. Zu diesem Zweck schlagen wir CoF (Coarse to Fine) vor, eine neuartige Pipeline, die handelsübliche LLMs nutzt, um automatisch Langkontext-Frage-Antwort-Instanzen mit präzisen Zitaten auf Satzebene zu generieren, und nutzen diese Pipeline, um LongCite-45k, einen umfangreichen SFT-Datensatz für LQAC, zu erstellen. Schließlich trainieren wir LongCite-8B und LongCite-9B mit dem LongCite-45k-Datensatz, was es ihnen erfolgreich ermöglicht, genaue Antworten und feingliedrige Zitate auf Satzebene in einer einzigen Ausgabe zu generieren. Die Evaluierungsergebnisse auf LongBench-Cite zeigen, dass unsere trainierten Modelle eine Spitzenqualität bei den Zitaten erreichen und fortschrittliche proprietäre Modelle wie GPT-4o übertreffen.
Dieses Papier stellt MMMU-Pro vor, eine robuste Version des Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) Benchmarks. MMMU-Pro bewertet die wahre Verständnis- und Schlussfolgerungsfähigkeit multimodaler Modelle eingehend durch einen dreistufigen Prozess, der auf MMMU basiert: (1) Filtern von Fragen, die nur von Textmodellen beantwortet werden können, (2) Erweitern der Kandidatenoptionen und (3) Einführung eines Einstellungsmodus nur für Vision-Eingaben, bei dem Fragen in Bilder eingebettet sind. Diese Einstellung fordert KI heraus, wirklich gleichzeitig "sehen" und "lesen" zu können, und testet eine grundlegende menschliche kognitive Fähigkeit, visuelle und textuelle Informationen nahtlos zu integrieren. Die Ergebnisse zeigen, dass die Leistung der Modelle bei MMMU-Pro im Vergleich zu MMMU deutlich niedriger ist, mit Unterschieden von 16,8% bis 26,9% zwischen den Modellen. Wir untersuchen den Einfluss von OCR-Prompts und Chain of Thought (CoT) Schlussfolgerungen und stellen fest, dass OCR-Prompts nur minimale Auswirkungen haben, während CoT die Leistung im Allgemeinen verbessert. MMMU-Pro bietet ein strengeres Bewertungsinstrument, das reale Szenarien eng nachahmt und wertvolle Richtungen für zukünftige Forschung im Bereich multimodaler KI aufzeigt.
Aktuelle Studien zeigen zunehmend, dass hochwertige Daten für eine effektive Vorabtrainierung von Sprachmodellen entscheidend sind. Die genaue Definition von "hochwertig" bleibt jedoch weitgehend unerforscht. Im Fokus des Code-Bereichs stellen wir Arctic-SnowCoder-1.3B vor, ein dateneffizientes Basismodell, das auf 555B Tokens vorabtrainiert wurde, durch drei Phasen von progressiv verfeinerten Daten: (1) allgemeine Vorabtrainierung mit 500B Standardqualitäts-Code-Tokens, vorverarbeitet durch grundlegende Filterung, Deduplizierung und Entkontamination, (2) fortgesetzte Vorabtrainierung mit 50B hochwertigen Tokens, aus Phase eins ausgewählt durch einen BERT-ähnlichen Qualitätsannotator, der darauf trainiert ist, guten Code von zufälligen Daten zu unterscheiden, unter Verwendung von positiven Beispielen aus hochwertigen Code-Dateien sowie Anweisungsdaten von Magicoder und StarCoder2-Instruct, und (3) verbesserte Vorabtrainierung mit 5B synthetischen Daten, erstellt von Llama-3.1-70B unter Verwendung von Phase zwei Daten als Ausgangspunkt, wobei der Magicoder-Ansatz für die Vorabtrainierung adaptiert wird. Trotz des Trainings auf einem begrenzten Datensatz erzielt Arctic-SnowCoder Spitzenleistungen auf BigCodeBench, einem Codier-Benchmark, der sich auf praktische und anspruchsvolle Programmieraufgaben konzentriert, im Vergleich zu ähnlich großen Modellen, die auf nicht mehr als 1T Tokens trainiert wurden, und übertrifft Phi-1.5-1.3B um 36%. Über alle evaluierten Benchmarks hinweg schlägt Arctic-SnowCoder-1.3B StarCoderBase-3B, der auf 1T Tokens vorabtrainiert wurde. Darüber hinaus erreicht es die Leistung führender kleiner Basismodelle für Code, die auf Billionen von Tokens trainiert wurden. Zum Beispiel übertrifft Arctic-SnowCoder-1.3B StarCoder2-3B, der auf über 3,3T Tokens vorabtrainiert wurde, auf HumanEval+, einem Benchmark, der die Generierung von Code auf Funktionsebene bewertet, und bleibt auf BigCodeBench wettbewerbsfähig. Unsere Evaluation präsentiert eine umfassende Analyse, die verschiedene Designentscheidungen für Arctic-SnowCoder rechtfertigt. Am wichtigsten ist, dass wir feststellen, dass der Schlüssel zu hochwertigen Daten in ihrer Ausrichtung auf die Verteilung von Anwendungen nachgelagerter Prozesse liegt.
Wir präsentieren ein Framework für die assistierte Roboter-Manipulation, das sich auf zwei grundlegende Herausforderungen konzentriert: Erstens die effiziente Anpassung von groß angelegten Modellen an nachgelagerte Szenen-Affordanzaufgaben, insbesondere in Alltagsszenarien, in denen die Erfassung von Multi-Task-Daten mit Menschen einen erheblichen Aufwand erfordert; und zweitens das effektive Erlernen von Roboter-Trajektorien durch Verankerung des visuellen Affordanzmodells. Die erste Herausforderung wird durch die Verwendung einer parameter-effizienten Prompt-Anpassungsmethode angegangen, die erlernbare Text-Prompts dem eingefrorenen Vision-Modell voranstellt, um Manipulations-Affordanzen in Multi-Task-Szenarien vorherzusagen. Anschließend schlagen wir vor, Roboter-Trajektorien zu erlernen, die durch Affordanzen in einer überwachten Flussabgleich-Methode geleitet werden. Flussabgleich stellt eine Roboter-Visuomotor-Politik als einen bedingten Prozess dar, bei dem zufällige Wegpunkte zu gewünschten Roboter-Trajektorien fließen. Schließlich führen wir einen realen Datensatz mit 10 Aufgaben aus den Aktivitäten des täglichen Lebens ein, um unser Framework zu testen. Unsere umfangreiche Evaluation zeigt, dass die vorgeschlagene Prompt-Anpassungsmethode zur Erlernung von Manipulations-Affordanzen mit Sprachprompter eine wettbewerbsfähige Leistung erbringt und sogar andere Feinabstimmungsprotokolle über verschiedene Datenskalen hinweg übertrifft, während die Parameter-Effizienz gewährleistet ist. Das Erlernen von Multi-Task-Roboter-Trajektorien mit einer einzigen Flussabgleich-Politik führt auch zu durchweg besseren Leistungen als alternative Verhaltensklonmethoden, insbesondere bei multimodalen Roboteraktionsverteilungen. Unser Framework vereint nahtlos das Lernen des Affordanzmodells und die Trajektorienerzeugung mit Flussabgleich für die Roboter-Manipulation.
Sozialwissenschaftler haben schnell große Sprachmodelle übernommen, aufgrund ihrer Fähigkeit, Dokumente ohne überwachtes Training zu annotieren, eine Fähigkeit, die als Zero-Shot-Lernen bekannt ist. Aufgrund ihrer Rechenanforderungen, Kosten und oft proprietären Natur stehen diese Modelle jedoch oft im Widerspruch zu Replikations- und Open-Science-Standards. Dieser Artikel stellt die Political DEBATE (DeBERTa-Algorithmus für Textual Entailment) Sprachmodelle für Zero-Shot- und Few-Shot-Klassifizierung politischer Dokumente vor. Diese Modelle sind nicht nur genauso gut oder besser als modernste große Sprachmodelle bei der Zero- und Few-Shot-Klassifizierung, sondern sind auch um Größenordnungen effizienter und vollständig Open Source. Durch das Training der Modelle an einer einfachen Zufallsstichprobe von 10-25 Dokumenten können sie überwachte Klassifikatoren übertreffen, die auf Hunderten oder Tausenden von Dokumenten trainiert wurden, sowie modernste generative Modelle mit komplexen, konstruierten Vorgaben. Darüber hinaus veröffentlichen wir den PolNLI-Datensatz, der zur Schulung dieser Modelle verwendet wurde - ein Korpus von über 200.000 politischen Dokumenten mit hochgenauen Labels für über 800 Klassifizierungsaufgaben.
Diffusionsbasierte Sprachkonvertierungstechniken wie VoiceGrad haben aufgrund ihrer hohen Leistung bei der Sprachqualität und der Sprecherähnlichkeit großes Interesse geweckt. Eine bemerkenswerte Einschränkung ist jedoch die langsame Inferenz aufgrund der mehrstufigen Umkehrdiffusion. Daher schlagen wir FastVoiceGrad vor, eine neuartige diffusionsbasierte Sprachkonvertierung in einem Schritt, die die Anzahl der Iterationen von Dutzenden auf eine reduziert, während sie die hohe Leistung der mehrstufigen diffusionsbasierten Sprachkonvertierung erbt. Wir erhalten das Modell unter Verwendung von adversarischer bedingter Diffusionsdestillation (ACDD), wobei die Fähigkeit von generativen adversarischen Netzwerken und Diffusionsmodellen genutzt wird und die Anfangszustände beim Sampling neu überdacht werden. Evaluationen der Ein-Schuss-alle-zu-alle Sprachkonvertierung zeigen, dass FastVoiceGrad eine überlegene oder vergleichbare Leistung im Vergleich zur vorherigen mehrstufigen diffusionsbasierten Sprachkonvertierung erzielt und gleichzeitig die Inferenzgeschwindigkeit verbessert. Audio-Beispiele sind verfügbar unter https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.