Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren MM1.5, eine neue Familie von multimodalen großen Sprachmodellen (MLLMs), die entwickelt wurden, um die Fähigkeiten in der textreichen Bildverarbeitung, visuellen Verweisung und Verankerung sowie der Multi-Bild-Argumentation zu verbessern. Aufbauend auf der MM1-Architektur verfolgt MM1.5 einen datenzentrierten Ansatz für das Modelltraining, der systematisch die Auswirkungen verschiedener Datengemische über den gesamten Lebenszyklus des Modelltrainings erforscht. Dies umfasst hochwertige OCR-Daten und synthetische Bildunterschriften für kontinuierliches Vortraining sowie ein optimiertes visuelles Anleitungstiming-Datengemisch für überwachtes Feintuning. Unsere Modelle reichen von 1B bis 30B Parametern, umfassen sowohl dichte als auch Mischung-von-Experten (MoE)-Varianten und zeigen, dass sorgfältige Datenaufbereitung und Trainingsstrategien auch bei kleinen Maßstäben (1B und 3B) zu einer starken Leistung führen können. Darüber hinaus führen wir zwei spezialisierte Varianten ein: MM1.5-Video, konzipiert für das Verständnis von Videos, und MM1.5-UI, maßgeschneidert für das Verständnis von mobilen Benutzeroberflächen. Durch umfangreiche empirische Studien und Ablationen bieten wir detaillierte Einblicke in die Trainingsprozesse und Entscheidungen, die unsere endgültigen Entwürfe beeinflussen, und geben wertvolle Anleitungen für zukünftige Forschung in der Entwicklung von MLLMs.
Die Fähigkeit großer Sprachmodelle, Anweisungen zu befolgen, ermöglicht es Menschen, auf natürliche Weise mit KI-Agenten zu interagieren. Wenn jedoch große Sprachmodelle aufgefordert werden, Antworten einer spezifischen Länge zu generieren, haben sie oft Schwierigkeiten, den Bedürfnissen der Benutzer gerecht zu werden, aufgrund ihrer inhärenten Schwierigkeit, numerische Beschränkungen genau wahrzunehmen. Um die Fähigkeit großer Sprachmodelle zur Kontrolle der Länge generierter Antworten zu erforschen, schlagen wir die Aufgabe der Ziel-Längen-Generierung (TLG) vor und entwerfen zwei Metriken, Präzise Übereinstimmung (PM) und Flexible Übereinstimmung (FM), um die Leistung des Modells bei der Einhaltung spezifischer Antwortlängen zu bewerten. Darüber hinaus stellen wir einen neuartigen, modellagnostischen Ansatz namens Ruler vor, der Meta-Längen-Token (MLTs) verwendet, um die Fähigkeit großer Sprachmodelle zur Befolgung von Anweisungen unter längenbeschränkten Bedingungen zu verbessern. Speziell stattet Ruler LLMs mit der Fähigkeit aus, Antworten einer spezifizierten Länge basierend auf Längenbeschränkungen innerhalb der Anweisungen zu generieren. Darüber hinaus kann Ruler automatisch geeignete MLT generieren, wenn Längenbeschränkungen nicht explizit angegeben sind, was eine ausgezeichnete Vielseitigkeit und Verallgemeinerungsfähigkeit zeigt. Umfassende Experimente zeigen die Wirksamkeit von Ruler bei verschiedenen LLMs in der Aufgabe der Ziel-Längen-Generierung, z. B. bei einem durchschnittlichen Gewinn von 27,97 auf PM und 29,57 auf FM auf allen Ebenen. Darüber hinaus führen wir umfangreiche Ablationsversuche durch, um die Wirksamkeit und Verallgemeinerungsfähigkeit von Ruler weiter zu untermauern. Unser Code und unsere Daten sind verfügbar unter https://github.com/Geaming2002/Ruler.
Wir präsentieren Hyper-Verbindungen, eine einfache, aber effektive Methode, die als Alternative zu Restverbindungen dienen kann. Dieser Ansatz behebt speziell häufig beobachtete Nachteile bei Varianten von Restverbindungen, wie den Wechselwirkungen zwischen dem Verschwinden des Gradienten und dem Zusammenbruch der Repräsentation. Theoretisch ermöglichen Hyper-Verbindungen dem Netzwerk, die Stärke der Verbindungen zwischen Merkmalen in verschiedenen Tiefen anzupassen und Schichten dynamisch neu anzuordnen. Wir führen Experimente zur Vorabtrainierung großer Sprachmodelle durch, einschließlich dichter und spärlicher Modelle, bei denen Hyper-Verbindungen signifikante Leistungsverbesserungen im Vergleich zu Restverbindungen zeigen. Zusätzliche Experimente, die an Aufgaben im Bereich der Bildverarbeitung durchgeführt wurden, zeigen ähnliche Verbesserungen. Wir erwarten, dass diese Methode breit anwendbar und vorteilhaft für eine Vielzahl von KI-Problemen sein wird.
Die Knappheit von domänenspezifischen Dialogdatensätzen in verschiedenen Bereichen, von akademischen Themen bis hin zu alltäglichen Gesprächen, begrenzt die Entwicklung von Dialogsystemen für verschiedene Anwendungen. Die bestehende Forschung wird häufig entweder durch zu allgemeine Dialogdatensätze oder durch spezialisierte Domänen-Dialogdatensätze eingeschränkt, deren Umfang nicht dem erforderlichen Umfang für das Training von Dialogsystemen entspricht. Um diese Lücke zu schließen, stellen wir DiaSynth vor - ein synthetisches Dialoggenerierungsframework, das in der Lage ist, hochwertige, kontextuell reiche Dialoge über eine Vielzahl von Domänen zu erzeugen. Unser Ansatz unterscheidet sich von bestehenden Frameworks durch die dynamische Generierung von Dialogen, die simulierte Persönlichkeiten, Unterkategorien und vielfältige Gesprächsmerkmale integrieren, unter Verwendung eines Large Language Model (LLM) mit Chain of Thought (CoT)-Argumentation, um kontextuell reiche, domänenspezifische Dialoge zu erstellen, die natürliche menschliche Interaktionen nachahmen. DiaSynth produziert maßgeschneiderte Dialoge, die realistische Gespräche nachahmen. Wir führen unsere Experimente durch, indem wir synthetische Daten unter Verwendung verschiedener LLMs und Few-Shot-Beispiele aus DialogSum und SAMSum generieren. Die auf den synthetischen Daten feinabgestimmten Sprachmodelle übertreffen die Basismodelle um 16,47%, während der Vergleich zwischen Modellen, die auf In-Domänen-Daten und synthetischen Daten feinabgestimmt sind, zeigt, dass die synthetischen Daten 90,48% der Verteilung der In-Domänen-Daten erfassen können. Die Qualität der generierten Daten skaliert auch mit der Größe der LLMs. Diese Ergebnisse bestätigen das Potenzial von DiaSynth als robuste Alternative zu traditionellen Datensammlungsmethoden.
Aufmerksamkeitsmechanismen, insbesondere Softmax-Aufmerksamkeit, haben maßgeblich zum Erfolg von Transformer-basierten Modellen wie GPT beigetragen. Die quadratische Speicherkomplexität der Softmax-Aufmerksamkeit in Bezug auf die Sequenzlänge stellt jedoch erhebliche Herausforderungen für die Verarbeitung längerer Sequenzen dar. Wir stellen Cottention vor, einen neuartigen Aufmerksamkeitsmechanismus, der die Softmax-Operation durch die Kosinus-Ähnlichkeit ersetzt. Durch Nutzung der Eigenschaften der Kosinus-Ähnlichkeit und Umstrukturierung der Aufmerksamkeitsgleichung erreicht Cottention eine native lineare Speicherkomplexität in Bezug auf die Sequenzlänge, was es im Vergleich zur Softmax-Aufmerksamkeit inhärent speichereffizienter macht. Wir zeigen, dass Cottention als rekurrentes neuronales Netzwerk (RNN) mit einem endlichen Hidden State umformuliert werden kann, was einen konstanten Speicherverbrauch während der Inferenz ermöglicht. Wir evaluieren Cottention sowohl bei den bidirektionalen BERT- als auch bei den kausalen GPT-Aufgaben und zeigen eine vergleichbare Leistung zur Softmax-Aufmerksamkeit bei gleichzeitiger signifikanter Reduzierung des Speicherbedarfs. Zur Gewährleistung effizienter Berechnungen entwickeln wir einen benutzerdefinierten CUDA-Kern für Cottention. Unsere Ergebnisse zeigen, dass Cottention eine vielversprechende Alternative zur Softmax-Aufmerksamkeit darstellt, die die Verarbeitung längerer Sequenzen ohne Leistungseinbußen ermöglicht, aufgrund seiner nativen linearen Speicherkomplexität und der Fähigkeit, während der Inferenz eine konstante Speicherbelegung aufrechtzuerhalten.
Frühere Studien zur robotergestützten Manipulation basieren auf einem begrenzten Verständnis der zugrunde liegenden 3D-Bewegungsbeschränkungen und Möglichkeiten. Um diesen Herausforderungen zu begegnen, schlagen wir ein umfassendes Paradigma namens UniAff vor, das die 3D-objektorientierte Manipulation und die Aufgabenverständnis in einer vereinheitlichten Formulierung integriert. Konkret haben wir einen Datensatz erstellt, der mit manipulationsspezifischen Schlüsselattributen versehen ist und 900 gegliederte Objekte aus 19 Kategorien und 600 Werkzeuge aus 12 Kategorien umfasst. Darüber hinaus nutzen wir MLLMs, um objektorientierte Repräsentationen für Manipulationsaufgaben zu inferieren, einschließlich der Erkennung von Möglichkeiten und der Überlegung zu 3D-Bewegungsbeschränkungen. Umfassende Experimente sowohl in Simulationen als auch in realen Umgebungen zeigen, dass UniAff die Verallgemeinerung der robotergestützten Manipulation für Werkzeuge und gegliederte Objekte signifikant verbessert. Wir hoffen, dass UniAff in Zukunft als allgemeine Referenz für vereinheitlichte robotergestützte Manipulationsaufgaben dienen wird. Bilder, Videos, Datensatz und Code sind auf der Projektwebsite unter folgendem Link veröffentlicht: https://sites.google.com/view/uni-aff/home
Einer der Hindernisse für das Training von generalistischen Robotikmodellen heute ist die Heterogenität. Frühere Methoden des Roboterlernens sammeln oft Daten, um mit einer spezifischen Verkörperung für eine Aufgabe zu trainieren, was teuer ist und zu Überanpassung neigt. Diese Arbeit untersucht das Problem des Lernens von Richtliniendarstellungen durch heterogenes Vor-Training an Roboterdaten über verschiedene Verkörperungen und Aufgaben im großen Maßstab. Wir schlagen Heterogene Vor-trainierte Transformer (HPT) vor, die einen großen, gemeinsam nutzbaren Rumpf eines Richtlinien-Neuronalen Netzwerks vor-trainieren, um eine aufgaben- und verkörperungsunabhängige gemeinsame Darstellung zu erlernen. Diese allgemeine Architektur gleicht die spezifischen Eigenwahrnehmungs- und Seheingaben aus verschiedenen Verkörperungen einem kurzen Token-Folgen zu und verarbeitet dann solche Tokens, um Roboter für verschiedene Aufgaben zu steuern. Unter Nutzung der aktuellen groß angelegten multi-verkörperungsbezogenen realen Roboterdatensätze sowie Simulationen, eingesetzten Robotern und menschlichen Videodatensätzen untersuchen wir das Vor-Training von Richtlinien über Heterogenität. Wir führen Experimente durch, um das Skalierungsverhalten von Trainingszielen bis zu 52 Datensätzen zu untersuchen. HPTs übertreffen mehrere Baselines und verbessern die Leistung der feinabgestimmten Richtlinie um über 20 % bei unbekannten Aufgaben in mehreren Simulator-Benchmarks und realen Umgebungen. Besuchen Sie die Projektwebsite (https://liruiw.github.io/hpt/) für Code und Videos.
Bilder, die von Diffusionsmodellen erzeugt werden, erfreuen sich zunehmender Beliebtheit in der digitalen Kunst und im visuellen Marketing. Allerdings könnten solche generierten Bilder Inhalte aus bereits bestehenden replizieren und die Herausforderung der Inhaltsoriginalität darstellen. Bestehende Modelle zur Bildkopieerkennung (Image Copy Detection, ICD) sind zwar genau bei der Erkennung von handgefertigten Kopien, vernachlässigen jedoch die Herausforderung durch Diffusionsmodelle. Dies motiviert uns, ICDiff vorzustellen, die erste auf Diffusionsmodelle spezialisierte ICD. Zu diesem Zweck erstellen wir einen Diffusions-Replikations (D-Rep) Datensatz und schlagen entsprechend eine neuartige Deep-Learning-Einbettungsmethode vor. D-Rep verwendet ein hochmodernes Diffusionsmodell (Stable Diffusion V1.5), um 40.000 Bild-Replikat-Paare zu generieren, die manuell in 6 Replikationsstufen von 0 (keine Replikation) bis 5 (vollständige Replikation) annotiert werden. Unsere Methode, PDF-Einbettung, wandelt die Replikationsstufe jedes Bild-Replikat-Paares in eine Wahrscheinlichkeitsdichtefunktion (PDF) als Überwachungssignal um. Die Intuition besteht darin, dass die Wahrscheinlichkeit benachbarter Replikationsstufen kontinuierlich und glatt sein sollte. Experimentelle Ergebnisse zeigen, dass PDF-Einbettung protokollgesteuerte Methoden und nicht-PDF-Optionen auf dem D-Rep-Testdatensatz übertrifft. Darüber hinaus zeigen wir durch die Verwendung von PDF-Einbettung, dass die Replikationsraten bekannter Diffusionsmodelle gegenüber einer Open-Source-Galerie im Bereich von 10% bis 20% liegen.
Dieses Paper präsentiert Coffee-Gym, eine umfassende RL-Umgebung zur Schulung von Modellen, die Feedback zur Code-Bearbeitung geben. Coffee-Gym umfasst zwei Hauptkomponenten: (1) Coffee, ein Datensatz, der die Code-Bearbeitungsspuren von Menschen für Codierungsfragen und maschinengeschriebenes Feedback für die Bearbeitung fehlerhaften Codes enthält; (2) CoffeeEval, eine Belohnungsfunktion, die die Hilfreichkeit des Feedbacks getreu widerspiegelt, indem sie die Leistung des überarbeiteten Codes in Unittests bewertet. Mit diesen Komponenten begegnet Coffee-Gym der Nichtverfügbarkeit hochwertiger Datensätze zur Schulung von Feedback-Modellen mit RL und bietet genauere Belohnungen als das derzeit führende Belohnungsmodell (d. h. GPT-4). Durch die Anwendung von Coffee-Gym erzielen wir Feedback-Modelle, die Baselines bei der Verbesserung der Code-Bearbeitung von Open-Source-Code-LLMs übertreffen und sie mit Closed-Source-LLMs vergleichbar machen. Wir stellen den Datensatz und den Modell-Checkpoint öffentlich zur Verfügung.
Mit der zunehmenden Entwicklung großer Sprachmodell (LLMs) hat ihre Fähigkeit zur Darstellung kompositorischer Generalisierung - die Fähigkeit, erlernte Fähigkeiten auf neuartige Weise zu kombinieren, die während des Trainings nicht aufgetreten sind - erhebliche Aufmerksamkeit erregt. Diese Art der Generalisierung, insbesondere in Szenarien jenseits der Trainingsdaten, ist auch von großem Interesse für die Untersuchung der KI-Sicherheit und -Ausrichtung. Eine kürzlich durchgeführte Studie führte die SKILL-MIX-Bewertung ein, bei der Modelle beauftragt werden, einen kurzen Absatz zu verfassen, der die Verwendung eines bestimmten k-Tupels von Sprachfähigkeiten demonstriert. Während kleine Modelle Schwierigkeiten hatten, selbst bei k=3 zu komponieren, schnitten größere Modelle wie GPT-4 mit k=5 und 6 recht gut ab. In diesem Papier verwenden wir einen Aufbau ähnlich wie SKILL-MIX, um die Fähigkeit kleinerer Modelle zu bewerten, die kompositorische Generalisierung anhand von Beispielen zu erlernen. Unter Verwendung einer vielfältigen Reihe von Sprachfähigkeiten - einschließlich rhetorischer, literarischer, argumentativer, Theorie des Geistes und gesundem Menschenverstand - wurde GPT-4 verwendet, um Textbeispiele zu generieren, die zufällige Teilmengen von k Fähigkeiten aufweisen. Das nachfolgende Feintuning der 7B- und 13B-Parametermodelle auf diesen kombinierten Fähigkeitstexten für steigende Werte von k ergab folgende Erkenntnisse: (1) Das Training auf Kombinationen von k=2 und 3 Fähigkeiten führt zu spürbaren Verbesserungen in der Fähigkeit, Texte mit k=4 und 5 Fähigkeiten zu verfassen, obwohl die Modelle während des Trainings niemals solche Beispiele gesehen haben. (2) Wenn Fähigkeitskategorien in Trainings- und zurückgehaltene Gruppen aufgeteilt werden, verbessern sich die Modelle signifikant beim Verfassen von Texten mit zurückgehaltenen Fähigkeiten während des Tests, obwohl sie während des Feintunings nur Trainingsfähigkeiten gesehen haben, was die Wirksamkeit des Trainingsansatzes auch bei zuvor ungesehenen Fähigkeiten illustriert. Diese Studie legt auch nahe, dass die Einbeziehung fähigkeitsreicher (potenziell synthetischer) Texte in das Training die kompositorischen Fähigkeiten der Modelle erheblich verbessern kann.
Die Fragezerlegung hat sich als eine effektive Strategie zur Aufforderung von Large Language Models (LLMs) herausgestellt, um komplexe Fragen zu beantworten. Allerdings konzentrieren sich bestehende Methoden hauptsächlich auf unimodale Sprachmodelle, während die Fragezerlegungsfähigkeit von Multimodal Large Language Models (MLLMs) noch nicht erforscht wurde. Zu diesem Zweck untersucht diese Arbeit die visuelle Fragezerlegung bei MLLMs. Konkret stellen wir einen systematischen Bewertungsrahmen vor, der ein Datenset und mehrere Bewertungskriterien umfasst, um die Qualität der zerlegten Teilfragen zu bewerten. Dabei wird deutlich, dass bestehende MLLMs Schwierigkeiten haben, hochwertige Teilfragen zu erzeugen. Um diese Einschränkung zu beheben, schlagen wir ein spezifisches Feinabstimmungsdatenset, DecoVQA+, zur Verbesserung der Fragezerlegungsfähigkeit des Modells vor. Mit dem Ziel, Modelle zur Durchführung einer angemessenen selektiven Zerlegung zu befähigen, schlagen wir eine effiziente Feinabstimmungspipeline vor. Die Feinabstimmungspipeline besteht aus unserem vorgeschlagenen Datenset und einem Trainingsziel für selektive Zerlegung. Feinabgestimmte MLLMs zeigen signifikante Verbesserungen in der Qualität der Teilfragen und der Strategie der selektiven Fragezerlegung. Darüber hinaus erzielen die Modelle auch eine höhere Genauigkeit bei selektiver Zerlegung auf VQA-Benchmark-Datensets.
Die Audio-Watermarking-Technik bettet Nachrichten in Audio ein und extrahiert Nachrichten präzise aus dem Wasserzeichen-Audio. Traditionelle Methoden entwickeln Algorithmen basierend auf Expertenwissen, um Wasserzeichen in den Zeitbereich oder Transformationsbereich von Signalen einzubetten. Mit der Entwicklung von tiefen neuronalen Netzwerken ist das auf Deep Learning basierende neuronale Audio-Watermarking entstanden. Im Vergleich zu traditionellen Algorithmen erzielt das neuronale Audio-Watermarking eine bessere Robustheit, indem es verschiedene Angriffe während des Trainings berücksichtigt. Allerdings leiden aktuelle neuronale Watermarking-Methoden unter geringer Kapazität und unbefriedigender Unwahrnehmbarkeit. Darüber hinaus wurde das Problem der Wasserzeichenlokalisierung, das beim neuronalen Audio-Watermarking besonders wichtig ist und noch ausgeprägter ist, nicht ausreichend untersucht. In diesem Artikel entwerfen wir ein Dual-Einbettungs-Watermarking-Modell für effiziente Lokalisierung. Wir berücksichtigen auch die Auswirkung der Angriffsschicht auf das invertierbare neuronale Netzwerk im Robustheitstraining, um das Modell zu verbessern und sowohl seine Angemessenheit als auch Stabilität zu erhöhen. Experimente zeigen, dass das vorgeschlagene Modell, IDEAW, im Vergleich zu bestehenden Methoden verschiedenen Angriffen standhalten kann und eine höhere Kapazität sowie eine effizientere Lokalisierungsfähigkeit aufweist.