Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Aktuelle Sprachmodelle mit langem Kontext (LLMs) können Eingaben von bis zu 100.000 Token verarbeiten, haben jedoch Schwierigkeiten, Ausgaben zu erzeugen, die auch nur eine bescheidene Länge von 2.000 Wörtern überschreiten. Durch kontrollierte Experimente stellen wir fest, dass die effektive Generierungslänge des Modells inhärent durch das Muster begrenzt ist, das es während des überwachten Feinabstimmens (SFT) gesehen hat. Mit anderen Worten, ihre Ausgabebegrenzung ist auf die Knappheit von langen Ausgabebeispielen in vorhandenen SFT-Datensätzen zurückzuführen. Um dies zu lösen, führen wir AgentWrite ein, eine agentenbasierte Pipeline, die ultralange Generierungsaufgaben in Teilaufgaben aufteilt und es Standard-LLMs ermöglicht, kohärente Ausgaben von mehr als 20.000 Wörtern zu erzeugen. Unter Verwendung von AgentWrite erstellen wir LongWriter-6k, einen Datensatz mit 6.000 SFT-Daten und Ausgabelängen von 2k bis 32k Wörtern. Durch die Einbeziehung dieses Datensatzes in das Modelltraining erhöhen wir erfolgreich die Ausgabelänge bestehender Modelle auf über 10.000 Wörter, während wir die Ausgabequalität beibehalten. Wir entwickeln auch LongBench-Write, einen umfassenden Benchmark zur Bewertung der Fähigkeiten zur Generierung von ultralangen Texten. Unser 9B-Parameter-Modell, das durch DPO weiter verbessert wurde, erzielt Spitzenleistungen in diesem Benchmark und übertrifft sogar wesentlich größere proprietäre Modelle. Im Allgemeinen zeigt unsere Arbeit, dass vorhandene Sprachmodelle mit langem Kontext bereits das Potenzial für ein größeres Ausgabefenster besitzen - alles, was Sie benötigen, sind Daten mit erweiterten Ausgaben während der Modellausrichtung, um diese Fähigkeit freizuschalten. Unser Code und unsere Modelle finden Sie unter: https://github.com/THUDM/LongWriter.
Wir stellen Imagen 3 vor, ein latentes Diffusionsmodell, das hochwertige Bilder aus Texteingaben generiert. Wir beschreiben unsere Qualitäts- und Verantwortungsbewertungen. Imagen 3 wird zum Zeitpunkt der Bewertung anderen State-of-the-Art-Modellen vorgezogen. Darüber hinaus diskutieren wir Sicherheits- und Repräsentationsprobleme sowie die Methoden, die wir verwendet haben, um potenzielle Schäden unserer Modelle zu minimieren.
Große Sprachmodell (LLM) Agenten haben ein großes Potenzial gezeigt, um reale Softwaretechnik (SWE) Probleme zu lösen. Der fortschrittlichste Open-Source SWE Agent kann über 27% der realen GitHub Probleme in SWE-Bench Lite lösen. Allerdings zeigen diese ausgeklügelten Agenten-Frameworks unterschiedliche Stärken, indem sie in bestimmten Aufgaben herausragend sind, während sie in anderen unterdurchschnittlich abschneiden. Um die Vielfalt dieser Agenten voll auszuschöpfen, schlagen wir DEI (Diversity Empowered Intelligence) vor, ein Framework, das ihre einzigartige Expertise nutzt. DEI fungiert als Meta-Modul über bestehenden SWE Agenten-Frameworks, um Agentenkollektive für eine verbesserte Problemlösung zu verwalten. Experimentelle Ergebnisse zeigen, dass ein von DEI geleitetes Gremium von Agenten die Leistung des besten einzelnen Agenten deutlich übertreffen kann. Beispielsweise kann eine Gruppe von Open-Source SWE Agenten, die eine maximale individuelle Lösungsrate von 27,3% in SWE-Bench Lite aufweisen, mit DEI eine Lösungsrate von 34,3% erreichen, was eine Verbesserung von 25% darstellt und die meisten Closed-Source Lösungen übertrifft. Unsere bestleistende Gruppe zeichnet sich durch eine Lösungsrate von 55% aus und sichert sich den höchsten Rang in SWE-Bench Lite. Unsere Ergebnisse tragen zum wachsenden Forschungskorpus über kollaborative KI-Systeme und deren Potenzial zur Lösung komplexer Softwaretechnik-Herausforderungen bei.
Das rasante Wachstum der wissenschaftlichen Literatur stellt Forscher vor erhebliche Herausforderungen, um sich über die neuesten Fortschritte in ihren Fachgebieten auf dem Laufenden zu halten und in neue Bereiche vorzudringen. Wir stellen OpenResearcher vor, eine innovative Plattform, die Techniken der Künstlichen Intelligenz (KI) nutzt, um den Forschungsprozess zu beschleunigen, indem sie vielfältige Fragen von Forschern beantwortet. OpenResearcher basiert auf dem Retrieval-Augmented Generation (RAG), um große Sprachmodelle (LLMs) mit aktuellem, domänenspezifischem Wissen zu integrieren. Darüber hinaus entwickeln wir verschiedene Tools für OpenResearcher, um Forscheranfragen zu verstehen, in der wissenschaftlichen Literatur zu suchen, abgerufene Informationen zu filtern, genaue und umfassende Antworten bereitzustellen und diese Antworten selbst zu verfeinern. OpenResearcher kann diese Tools flexibel einsetzen, um Effizienz und Effektivität auszubalancieren. Als Ergebnis ermöglicht OpenResearcher Forschern, Zeit zu sparen und ihr Potenzial zur Entdeckung neuer Erkenntnisse und zur Förderung wissenschaftlicher Durchbrüche zu steigern. Eine Demo, ein Video und der Code sind verfügbar unter: https://github.com/GAIR-NLP/OpenResearcher.
Die Skalierung großer Sprachmodelle (LLMs) hat ihre Fähigkeiten in verschiedenen Aufgaben revolutioniert, doch dieses Wachstum muss mit effizienten Rechenstrategien einhergehen. Die Mixture-of-Experts (MoE) Architektur zeichnet sich durch ihre Fähigkeit aus, die Modellgröße zu skalieren, ohne die Trainingskosten signifikant zu erhöhen. Trotz ihrer Vorteile zeigen aktuelle MoE-Modelle oft eine Parameterineffizienz. Beispielsweise könnte ein vorab trainiertes MoE-basiertes LLM mit 52 Milliarden Parametern vergleichbare Leistungen erbringen wie ein Standardmodell mit 6,7 Milliarden Parametern. Als entscheidender Bestandteil von MoE weisen aktuelle Router in verschiedenen Schichten eigenständig Tokens zu, ohne historische Routing-Informationen zu nutzen, was potenziell zu suboptimalen Token-Expert-Kombinationen und dem Parameterineffizienzproblem führt. Um dieses Problem zu mildern, führen wir den Schichtweisen Rekurrenten Router für Mixture-of-Experts (RMoE) ein. RMoE nutzt eine Gated Rekurrente Einheit (GRU), um Abhängigkeiten zwischen Routing-Entscheidungen über aufeinanderfolgende Schichten herzustellen. Eine solche schichtweise Rekurrenz kann effizient parallel für Eingabetokens berechnet werden und führt zu verhandelbaren Kosten. Unsere umfangreichen empirischen Bewertungen zeigen, dass auf RMoE basierende Sprachmodelle konsistent eine Vielzahl von Basislinienmodellen übertreffen. Darüber hinaus integriert RMoE eine neue Rechenstufe, die orthogonal zu bestehenden Methoden ist und eine nahtlose Kompatibilität mit anderen MoE-Architekturen ermöglicht. Unsere Analysen führen die Gewinne von RMoE auf den effektiven Informationsaustausch zwischen Schichten zurück, der auch die Expertenauswahl und -vielfalt verbessert. Unser Code ist unter https://github.com/qiuzh20/RMoE verfügbar.
Die Entwicklung großer Sprachmodelle führt zur Bildung eines Vor-Trainiere-dann-Abgleichen-Paradigmas, bei dem das Modell in der Regel auf einem großen Textkorpus vorab trainiert wird und eine Abstimmungsphase durchläuft, um das Modell mit menschlichen Präferenzen oder nachgelagerten Aufgaben in Einklang zu bringen. In dieser Arbeit untersuchen wir die Beziehung zwischen Vor-Training und Feinabstimmung, indem wir mehrere Zwischenmodelle vorab trainieren und feinabstimmen. Unsere Ergebnisse zu 18 Datensätzen legen nahe, dass i) kontinuierliches Vor-Training das Modell latente verbessert, was sich nach der Feinabstimmung zeigt; ii) mit zusätzlicher Feinabstimmung profitieren die Datensätze, bei denen das Modell während des Vor-Trainings nicht gut abschneidet, viel mehr als diejenigen, bei denen das Modell bereits gut abschneidet; iii) obwohl das Modell durch überwachte Feinabstimmung erheblich profitiert, kann es zuvor bekanntes Domänenwissen und Aufgaben vergessen, die während der Feinabstimmung nicht gesehen werden; iv) das Modell zeigt nach überwachter Feinabstimmung eine hohe Empfindlichkeit gegenüber Bewertungsanfragen, aber diese Empfindlichkeit kann durch mehr Vor-Training gemildert werden.
Die Fähigkeit, objektorientierte Abstraktionen aus komplexen visuellen Szenen zu extrahieren, bildet die Grundlage für Generalisierung auf menschlicher Ebene. Trotz des signifikanten Fortschritts bei objektorientierten Lernmethoden bleibt das Lernen von objektorientierten Repräsentationen in der 3D-physikalischen Welt eine entscheidende Herausforderung. In dieser Arbeit schlagen wir SlotLifter vor, ein neuartiges Strahlungsmodell mit objektorientiertem Ansatz, das die Szenenrekonstruktion und -zerlegung gemeinsam durch slotgeführtes Merkmalheben angeht. Ein solches Design vereint objektorientierte Lernrepräsentationen und bildbasierte Rendering-Methoden, die eine erstklassige Leistung bei der Szenenzerlegung und der Synthese von neuen Ansichten auf vier anspruchsvollen synthetischen und vier komplexen realen Datensätzen bieten und bestehende 3D-objektorientierte Lernmethoden bei weitem übertreffen. Durch umfangreiche ablative Studien zeigen wir die Wirksamkeit der Designs in SlotLifter auf und offenbaren wichtige Erkenntnisse für potenzielle zukünftige Richtungen.
Angeregt durch Geoffrey Hintons Betonung der generativen Modellierung, „Um Formen zu erkennen, lerne zuerst, sie zu generieren“, erforschen wir den Einsatz von 3D-Diffusionsmodellen für die Objektklassifizierung. Durch die Nutzung der Dichteschätzungen aus diesen Modellen ermöglicht unser Ansatz, der Diffusionsklassifizierer für 3D-Objekte (DC3DO), die Klassifizierung von 3D-Formen ohne zusätzliches Training. Im Durchschnitt erzielt unsere Methode eine Verbesserung von 12,5 Prozent im Vergleich zu ihren Multiansichtsgegenstücken und zeigt damit eine überlegene multimodale Schlussfolgerung gegenüber diskriminativen Ansätzen. DC3DO verwendet ein klassenbedingtes Diffusionsmodell, das auf ShapeNet trainiert ist, und wir führen Inferenzen an Punktwolken von Stühlen und Autos durch. Diese Arbeit verdeutlicht das Potenzial generativer Modelle in der 3D-Objektklassifizierung.
UniT ist ein neuartiger Ansatz zum Erlernen taktiler Repräsentationen, der VQVAE verwendet, um einen kompakten latenten Raum zu erlernen und als taktile Repräsentation zu dienen. Es nutzt taktile Bilder, die von einem einzigen einfachen Objekt erhalten wurden, um die Repräsentation mit Übertragbarkeit und Verallgemeinerbarkeit zu trainieren. Diese taktile Repräsentation kann ohne vorheriges Training auf verschiedene nachgelagerte Aufgaben übertragen werden, einschließlich Wahrnehmungsaufgaben und Politiklernen für Manipulationen. Unsere Bewertung in einer Aufgabe zur 3D-Positionsschätzung in der Hand zeigt, dass UniT bestehende Methoden des visuellen und taktilen Repräsentationslernens übertrifft. Darüber hinaus wird die Wirksamkeit von UniT im Politiklernen anhand von drei realen Aufgaben mit verschiedenen manipulierten Objekten und komplexen Interaktionen zwischen Roboter, Objekt und Umgebung demonstriert. Durch umfangreiche Experimente wird gezeigt, dass UniT eine einfach zu trainierende, Plug-and-Play, aber weitreichend effektive Methode für das taktile Repräsentationslernen ist. Für weitere Details verweisen wir auf unser Open-Source-Repository unter https://github.com/ZhengtongXu/UniT und die Projektwebsite unter https://zhengtongxu.github.io/unifiedtactile.github.io/.
Große Sprachmodelle (LLMs) haben ihre Fähigkeiten in einer Vielzahl von Aufgaben unter Beweis gestellt. Allerdings zeigen viele LLMs signifikante Leistungsunterschiede zwischen hoch- und gering ressourcenreichen Sprachen. Um diese Herausforderung zu mildern, präsentieren wir FuxiTranyu, ein Open-Source mehrsprachiges LLM, das darauf ausgelegt ist, den Bedarf der Forschungsgemeinschaft an ausgewogenen und leistungsstarken mehrsprachigen Fähigkeiten zu erfüllen. FuxiTranyu-8B, das Basismodell mit 8 Milliarden Parametern, wird von Grund auf auf einem sorgfältig ausbalancierten mehrsprachigen Datensatz trainiert, der 600 Milliarden Tokens aus 43 natürlichen Sprachen und 16 Programmiersprachen umfasst. Neben dem Basismodell entwickeln wir auch zwei anweisungsgesteuerte Modelle: FuxiTranyu-8B-SFT, das auf einem vielfältigen mehrsprachigen Anweisungsdatensatz feinabgestimmt ist, und FuxiTranyu-8B-DPO, das mit DPO auf einem Präferenzdatensatz weiter verfeinert wird, um die Ausrichtungsfähigkeit zu verbessern. Umfangreiche Experimente an einer Vielzahl von mehrsprachigen Benchmarks zeigen die Wettbewerbsfähigkeit von FuxiTranyu gegenüber bestehenden mehrsprachigen LLMs wie z.B. BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B und Mistral-7B-Instruct. Interpretationsanalysen auf Neuronen- und Repräsentationsebene legen nahe, dass FuxiTranyu in der Lage ist, konsistente mehrsprachige Repräsentationen über verschiedene Sprachen hinweg zu erlernen. Um weitere Forschung zu mehrsprachigen LLMs und deren Funktionsmechanismen zu fördern, veröffentlichen wir sowohl die Basismodelle als auch die anweisungsgesteuerten FuxiTranyu-Modelle zusammen mit 58 Vortrainings-Checkpoints bei HuggingFace und Github.
Die Zusammenfassung von Film-Drehbüchern ist eine Herausforderung, da sie ein Verständnis für lange Eingabekontexte und verschiedene Elemente erfordert, die für Filme einzigartig sind. Große Sprachmodelle haben signifikante Fortschritte bei der Dokumentenzusammenfassung gezeigt, haben jedoch oft Schwierigkeiten bei der Verarbeitung langer Eingabekontexte. Darüber hinaus, während Fernsehtranskripte in jüngsten Studien Aufmerksamkeit erhalten haben, bleibt die Zusammenfassung von Film-Drehbüchern untererforscht. Um die Forschung in diesem Bereich zu stimulieren, präsentieren wir ein neues Datenset, MovieSum, für die abstrakte Zusammenfassung von Film-Drehbüchern. Dieses Datenset umfasst 2200 Film-Drehbücher zusammen mit ihren Wikipedia-Handlungsübersichten. Wir haben die Film-Drehbücher manuell formatiert, um ihre strukturellen Elemente darzustellen. Im Vergleich zu bestehenden Datensets weist MovieSum mehrere einzigartige Merkmale auf: (1) Es enthält Film-Drehbücher, die länger sind als Skripte von TV-Episoden. (2) Es ist doppelt so groß wie vorherige Datensets von Film-Drehbüchern. (3) Es bietet Metadaten mit IMDb-IDs, um den Zugriff auf zusätzliches externes Wissen zu erleichtern. Wir zeigen auch die Ergebnisse von kürzlich veröffentlichten großen Sprachmodellen, die auf unserer Datensammlung zur Zusammenfassung angewendet wurden, um eine detaillierte Basislinie bereitzustellen.
Vorab trainierte LLMs haben erhebliche Fähigkeiten in einer Vielzahl von konventionellen natürlichsprachlichen Verarbeitungsaufgaben (NLP) gezeigt, wie Zusammenfassung und Entitätenerkennung. In diesem Paper untersuchen wir die Anwendung von LLMs bei der Generierung hochwertiger Proteinsequenzen. Speziell verwenden wir eine Reihe von vorab trainierten LLMs, darunter Mistral-7B1, Llama-2-7B2, Llama-3-8B3 und Gemma-7B4, um gültige Proteinsequenzen zu erzeugen. Alle diese Modelle sind öffentlich verfügbar. Im Gegensatz zu früheren Arbeiten in diesem Bereich nutzt unser Ansatz einen relativ kleinen Datensatz, der 42.000 verschiedene menschliche Proteinsequenzen umfasst. Wir trainieren diese Modelle neu, um proteinbezogene Daten zu verarbeiten und so die Generierung biologisch machbarer Proteinstrukturen sicherzustellen. Unsere Ergebnisse zeigen, dass selbst mit begrenzten Daten die angepassten Modelle eine Effizienz aufweisen, die mit etablierten proteinfokussierten Modellen wie den ProGen-Varianten, ProtGPT2 und ProLLaMA vergleichbar ist, die auf Millionen von Proteinsequenzen trainiert wurden. Zur Validierung und Quantifizierung der Leistung unserer Modelle führen wir vergleichende Analysen durch, bei denen Standardmetriken wie pLDDT, RMSD, TM-Score und REU verwendet werden. Darüber hinaus verpflichten wir uns, die trainierten Versionen aller vier Modelle öffentlich zugänglich zu machen, um eine größere Transparenz und Zusammenarbeit im Bereich der computergestützten Biologie zu fördern.
Sowohl für Menschen als auch für Roboter ist der Tastsinn, bekannt als taktiles Sensorik, entscheidend für die Durchführung von berührungsreichen Manipulationstätigkeiten. Drei Schlüsselherausforderungen bei der robotischen taktilen Sensorik sind 1) die Interpretation von Sensorsignalen, 2) die Erzeugung von Sensorsignalen in neuen Szenarien und 3) das Erlernen von sensorbasierten Richtlinien. Bei visuotaktilen Sensoren wurde die Interpretation durch ihre enge Beziehung zu Visionssensoren (z. B. RGB-Kameras) erleichtert. Die Erzeugung ist jedoch immer noch schwierig, da visuotaktile Sensoren in der Regel Kontakt, Verformung, Beleuchtung und Bildgebung beinhalten, die alle teuer zu simulieren sind; wiederum war das Erlernen von Richtlinien herausfordernd, da die Simulation nicht für die Datensammlung im großen Maßstab genutzt werden konnte. Wir stellen TacSL (Taxel) vor, eine Bibliothek für die GPU-basierte Simulation und das Lernen von visuotaktilen Sensoren. TacSL kann verwendet werden, um visuotaktile Bilder zu simulieren und Kontakt-Kraftverteilungen über 200-mal schneller als der bisherige Stand der Technik zu extrahieren, und das alles innerhalb des weit verbreiteten Isaac Gym Simulators. Darüber hinaus bietet TacSL ein Lernwerkzeug, das mehrere Sensormodelle, kontaktintensive Trainingsumgebungen und Online-/Offline-Algorithmen enthält, die das Erlernen von Richtlinien für Sim-zu-Real-Anwendungen erleichtern können. Auf algorithmischer Seite stellen wir einen neuartigen Online-Verstärkungslernalgorithmus namens Asymmetrische Aktor-Kritiker-Destillation (SysName) vor, der darauf ausgelegt ist, taktikbasierte Richtlinien in der Simulation effektiv und effizient zu erlernen, die auf die reale Welt übertragen werden können. Schließlich demonstrieren wir den Nutzen unserer Bibliothek und Algorithmen, indem wir die Vorteile der Destillation und multimodalen Sensorik für berührungsreiche Manipulationstätigkeiten bewerten und am wichtigsten die Sim-zu-Real-Übertragung durchführen. Zusätzliche Videos und Ergebnisse finden Sie unter https://iakinola23.github.io/tacsl/.
Diffusionsbasierte Text-zu-Bild-Generierungsmodelle haben das Feld der Kunstinhaltssynthese erheblich vorangetrieben. Allerdings erfordern aktuelle Porträt-Stilisierungsmethoden in der Regel entweder eine Feinabstimmung des Modells anhand von Beispielen oder die Anwendung der DDIM-Inversion, um Bilder in den Rauschraum zurückzuführen, was den Bildgenerierungsprozess erheblich verlangsamt. Um diese Einschränkungen zu überwinden, präsentiert diese Arbeit ein Inversionsfreies Porträt-Stilisierungsrahmenwerk auf Basis von Diffusionsmodellen, das die Fusion von Inhalt und Stilmerkmalen in lediglich vier Abtastschritten erreicht. Wir haben festgestellt, dass Latente Konsistenzmodelle, die Konsistenzdestillation einsetzen, effektiv repräsentative Konsistenzmerkmale aus rauschigen Bildern extrahieren können. Um die aus Inhalt und Stilbildern extrahierten Konsistenzmerkmale zu verschmelzen, führen wir eine Technik zur Stilverbesserungs-Aufmerksamkeitskontrolle ein, die Inhalt und Stilmerkmale sorgfältig im Aufmerksamkeitsraum des Zielbildes fusioniert. Darüber hinaus schlagen wir eine Merkmalsverschmelzungsstrategie vor, um redundante Merkmale in den Konsistenzmerkmalen zu amalgamieren und damit die Rechenlast der Aufmerksamkeitskontrolle zu reduzieren. Umfangreiche Experimente haben die Wirksamkeit unseres vorgeschlagenen Rahmens bei der Verbesserung der Stilisierungseffizienz und -treue bestätigt. Der Code ist verfügbar unter https://github.com/liujin112/ZePo.
Ein allgemeines Entflechtungs-basiertes System zur Sprecheranonymisierung trennt typischerweise Sprache in Inhalts-, Sprecher- und Prosodie-Merkmale mithilfe einzelner Encoder. Diese Arbeit untersucht, wie man ein solches System anpasst, wenn ein neues Sprachmerkmal, zum Beispiel Emotion, in größerem Maße bewahrt werden muss. Während bestehende Systeme gut darin sind, Sprecher-Einbettungen zu anonymisieren, sind sie nicht darauf ausgelegt, Emotionen zu bewahren. Zwei Strategien hierfür werden untersucht. Zunächst zeigen wir, dass die Integration von Emotions-Einbettungen aus einem vorab trainierten Emotions-Encoder dazu beitragen kann, emotionale Hinweise zu bewahren, obwohl dieser Ansatz die Datenschutzmaßnahmen leicht beeinträchtigt. Alternativ schlagen wir eine Emotionsausgleichsstrategie als Nachbearbeitungsschritt für anonymisierte Sprecher-Einbettungen vor. Diese verbirgt die Identität des ursprünglichen Sprechers und führt die während der Anonymisierung der Sprecher-Einbettung verlorenen emotionalen Merkmale wieder ein. Speziell modellieren wir das Emotionsmerkmal mithilfe von Support Vector Machines, um separate Grenzen für jede Emotion zu erlernen. Während der Inferenz wird die ursprüngliche Sprecher-Einbettung auf zwei Arten verarbeitet: erstens durch einen Emotionsindikator zur Vorhersage der Emotion und Auswahl der passenden SVM für die Emotion; und zweitens durch einen Sprecher-Anonymisierer zur Verdeckung der Sprechereigenschaften. Die anonymisierte Sprecher-Einbettung wird dann entlang der entsprechenden SVM-Grenze in Richtung einer verbesserten emotionalen Ausrichtung modifiziert, um die emotionalen Hinweise zu bewahren. Es wird erwartet, dass die vorgeschlagenen Strategien auch nützlich sind, um ein allgemeines Entflechtungs-basiertes System zur Sprecheranonymisierung an andere Ziel-Paralinguistikmerkmale anzupassen, mit Potenzial für eine Vielzahl von nachgelagerten Aufgaben.