Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen die Yi-Modellfamilie vor, eine Reihe von Sprach- und multimodalen Modellen, die starke multidimensionale Fähigkeiten aufweisen. Die Yi-Modellfamilie basiert auf den vortrainierten Sprachmodellen mit 6B und 34B, die wir dann zu Chatmodellen, Modellen mit 200K langem Kontext, tiefenskalierten Modellen und Sprach-Vision-Modellen erweitern. Unsere Basismodelle erzielen starke Leistungen in einer Vielzahl von Benchmarks wie MMLU, und unsere feinabgestimmten Chatmodelle erzielen eine hohe menschliche Präferenzrate auf wichtigen Evaluationsplattformen wie AlpacaEval und Chatbot Arena. Basierend auf unserer skalierbaren Supercomputing-Infrastruktur und der klassischen Transformer-Architektur führen wir die Leistung der Yi-Modelle hauptsächlich auf deren Datenqualität zurück, die aus unseren Bemühungen im Bereich der Datenverarbeitung resultiert. Für das Vortraining erstellen wir 3,1 Billionen Tokens von englischen und chinesischen Korpora unter Verwendung einer kaskadierten Daten-Deduplizierung und Qualitätsfilterungspipeline. Für die Feinabstimmung verfeinern wir einen kleinen Datensatz (weniger als 10K) von Anweisungen über mehrere Iterationen, sodass jede einzelne Instanz direkt von unseren Maschinenlerningenieuren überprüft wurde. Für Sprache-Vision kombinieren wir das Chat-Sprachmodell mit einem Vision-Transformer-Encoder und trainieren das Modell, um visuelle Darstellungen mit dem semantischen Raum des Sprachmodells abzustimmen. Wir erweitern die Kontextlänge auf 200K durch leichtgewichtiges kontinuierliches Vortraining und zeigen eine starke Nadel-im-Heuhaufen-Auffindungsleistung. Wir zeigen, dass die Erweiterung der Tiefe des vortrainierten Checkpoints durch kontinuierliches Vortraining die Leistung weiter verbessert. Wir sind der Meinung, dass bei unseren aktuellen Ergebnissen die Skalierung der Modellparameter unter Verwendung sorgfältig optimierter Daten zu noch stärkeren Spitzenmodellen führen wird.
Das Lernen durch Verstärkung aus menschlichem Feedback (RLHF) hat sich als dominanter Ansatz zur Ausrichtung von LLM-Ausgaben an menschlichen Präferenzen herausgebildet. Inspiriert vom Erfolg von RLHF untersuchen wir die Leistung mehrerer Algorithmen, die aus Rückmeldungen lernen (Expert Iteration, Proximal Policy Optimization (PPO), Return-Conditioned RL), um die Argumentationsfähigkeiten von LLM zu verbessern. Wir untersuchen sowohl spärliche als auch dichte Belohnungen, die dem LLM heuristisch und über ein erlerntes Belohnungsmodell bereitgestellt werden. Darüber hinaus starten wir mit mehreren Modellgrößen und Initialisierungen sowohl mit als auch ohne überwachtes Feintuning (SFT)-Daten. Insgesamt stellen wir fest, dass alle Algorithmen vergleichbar abschneiden, wobei Expert Iteration in den meisten Fällen am besten abschneidet. Überraschenderweise ist die Stichprobenkomplexität von Expert Iteration ähnlich der von PPO, wobei höchstens etwa 10^6 Stichproben benötigt werden, um von einem vorab trainierten Ausgangspunkt aus zu konvergieren. Wir untersuchen, warum dies der Fall ist, und kommen zu dem Schluss, dass während des RL-Trainings die Modelle versagen, signifikant über die Lösungen hinaus zu erkunden, die bereits von SFT-Modellen produziert wurden. Darüber hinaus diskutieren wir einen Kompromiss zwischen der Leistung der maj@1- und pass@96-Metriken während des SFT-Trainings und wie umgekehrt das RL-Training beide gleichzeitig verbessert. Abschließend diskutieren wir die Auswirkungen unserer Ergebnisse auf RLHF und die zukünftige Rolle von RL beim Feintuning von LLM.
Große Sprachmodelle (LLMs) haben neue Fähigkeiten und Anwendungen erschlossen; dennoch bleiben die Bewertung der Übereinstimmung mit menschlichen Präferenzen weiterhin eine Herausforderung. Um dieses Problem anzugehen, stellen wir Chatbot Arena vor, eine offene Plattform zur Bewertung von LLMs basierend auf menschlichen Präferenzen. Unsere Methodik verwendet einen paarweisen Vergleichsansatz und nutzt Eingaben einer vielfältigen Benutzerbasis durch Crowdsourcing. Die Plattform ist seit mehreren Monaten in Betrieb und hat über 240.000 Stimmen gesammelt. Dieser Artikel beschreibt die Plattform, analysiert die bisher gesammelten Daten und erläutert die bewährten statistischen Methoden, die wir für eine effiziente und genaue Bewertung und Rangfolge der Modelle verwenden. Wir bestätigen, dass die durch Crowdsourcing generierten Fragen ausreichend vielfältig und unterscheidend sind und dass die durch Crowdsourcing generierten menschlichen Stimmen gut mit denen von Experten übereinstimmen. Diese Analysen bilden gemeinsam eine solide Grundlage für die Glaubwürdigkeit von Chatbot Arena. Aufgrund seines einzigartigen Werts und seiner Offenheit hat sich Chatbot Arena als eine der meistzitierten LLM-Bestenlisten etabliert, die von führenden LLM-Entwicklern und Unternehmen weit verbreitet zitiert wird. Unsere Demo ist öffentlich unter https://chat.lmsys.org verfügbar.
Die punktbasierte Bildbearbeitung hat seit dem Aufkommen von DragGAN bemerkenswerte Aufmerksamkeit erregt. Kürzlich hat DragDiffusion die generative Qualität weiter vorangetrieben, indem diese Ziehtechnik auf Diffusionsmodelle angepasst wurde. Trotz dieser großen Erfolge weist dieses Ziehschema zwei wesentliche Nachteile auf, nämlich ungenaue Punktverfolgung und unvollständige Bewegungsüberwachung, die zu unbefriedigenden Ziehergebnissen führen können. Um diese Probleme anzugehen, haben wir ein stabiles und präzises Ziehbearbeitungsframework namens StableDrag entwickelt, indem wir eine diskriminative Punktverfolgungsmethode und eine vertrauensbasierte latente Verbesserungsstrategie für die Bewegungsüberwachung entwerfen. Ersteres ermöglicht es uns, die aktualisierten Griffpunkte präzise zu lokalisieren, wodurch die Stabilität der Manipulation über große Entfernungen erhöht wird, während Letzteres dafür verantwortlich ist, die optimierte Latente über alle Manipulationsschritte hinweg so hochwertig wie möglich zu gewährleisten. Dank dieser einzigartigen Designs instanziieren wir zwei Arten von Bildbearbeitungsmodellen, darunter StableDrag-GAN und StableDrag-Diff, die durch umfangreiche qualitative Experimente und quantitative Bewertungen auf DragBench eine stabilere Ziehleistung erreichen.
Werkzeuge sind für große Sprachmodelle (LLMs) unerlässlich, um aktuelle Informationen zu erlangen und konsequente Handlungen in externen Umgebungen durchzuführen. Die bestehenden Arbeiten zu werkzeugunterstützten LLMs konzentrieren sich hauptsächlich auf die umfassende Abdeckung von Werkzeugen und die Flexibilität, neue Werkzeuge hinzuzufügen. Ein kritischer Aspekt, der überraschenderweise wenig erforscht wurde, ist jedoch einfach die Genauigkeit, mit der ein LLM Werkzeuge einsetzt, für die es trainiert wurde. Wir stellen fest, dass bestehende LLMs, einschließlich GPT-4 und Open-Source LLMs, die speziell für den Werkzeugeinsatz feinabgestimmt wurden, nur eine Korrektheitsrate im Bereich von 30% bis 60% erreichen, weit entfernt von einer zuverlässigen Anwendung in der Praxis. Wir schlagen eine biologisch inspirierte Methode für werkzeugunterstützte LLMs vor, das simulierte Trial-and-Error (STE), das drei Schlüsselmechanismen für erfolgreiche Werkzeugnutzungsverhalten im biologischen System orchestriert: Versuch und Irrtum, Vorstellungskraft und Gedächtnis. Konkret nutzt STE die "Vorstellungskraft" eines LLMs, um plausible Szenarien für die Verwendung eines Werkzeugs zu simulieren, woraufhin das LLM mit dem Werkzeug interagiert, um aus dem Ausführungsfeedback zu lernen. Sowohl das Kurzzeit- als auch das Langzeitgedächtnis werden eingesetzt, um die Tiefe und Breite der Exploration entsprechend zu verbessern. Umfassende Experimente auf ToolBench zeigen, dass STE das Werkzeuglernen für LLMs unter sowohl kontextbezogenem Lernen als auch Feinabstimmungseinstellungen erheblich verbessert, was eine Steigerung von 46,7% für Mistral-Instruct-7B mit sich bringt und es ermöglicht, GPT-4 zu übertreffen. Wir zeigen auch ein effektives kontinuierliches Lernen von Werkzeugen mittels einer einfachen Erfahrungswiederholungsstrategie.
Vision-Sprachmodelle (VLMs) wie GPT-4V haben kürzlich beeindruckende Fortschritte bei verschiedenen Vision-Sprach-Aufgaben gezeigt. Wir untersuchen die visionäre deduktive Schlussfolgerung, ein anspruchsvolleres, aber weniger erforschtes Gebiet, und finden zuvor unentdeckte blinde Flecken in den aktuellen SOTA VLMs. Insbesondere nutzen wir Raven's Progressive Matrices (RPMs), um die Fähigkeiten von VLMs zu bewerten, die ausschließlich auf visuelle Hinweise angewiesen sind, um mehrstufige relationale und deduktive Schlussfolgerungen durchzuführen. Wir führen umfassende Bewertungen mehrerer beliebter VLMs durch, die Standardstrategien wie kontextbezogenes Lernen, Selbstkonsistenz und Chain-of-Thoughts (CoT) auf drei verschiedenen Datensätzen, einschließlich des Mensa-IQ-Tests, des Intelligenztests und RAVEN, anwenden. Die Ergebnisse zeigen, dass trotz der beeindruckenden Fähigkeiten von LLMs im textbasierten Denken, wir noch weit davon entfernt sind, eine vergleichbare Kompetenz im visuellen deduktiven Denken zu erreichen. Wir haben festgestellt, dass bestimmte Standardstrategien, die bei LLMs wirksam sind, nicht nahtlos auf die Herausforderungen übertragen werden können, die durch visuelle Denkaufgaben dargestellt werden. Darüber hinaus zeigt eine detaillierte Analyse, dass VLMs Schwierigkeiten haben, diese Aufgaben zu lösen, hauptsächlich weil sie nicht in der Lage sind, mehrere verwirrende abstrakte Muster in RPM-Beispielen wahrzunehmen und zu verstehen.
Mathematische Fähigkeiten wurden bisher angenommen, nur in gängigen Sprachmodellen in sehr großem Maßstab zu entstehen oder umfangreiches mathematikbezogenes Vor-Training zu erfordern. Diese Arbeit zeigt, dass das LLaMA-2 7B-Modell mit gängigem Vor-Training bereits starke mathematische Fähigkeiten aufweist, wie durch seine beeindruckende Genauigkeit von 97,7% und 72,0% bei den GSM8K- und MATH-Benchmarks belegt wird, wenn die beste Antwort aus 256 zufälligen Generationen ausgewählt wird. Das Hauptproblem des aktuellen Basismodells besteht darin, dass es schwierig ist, seine inhärenten mathematischen Fähigkeiten konsistent hervorzurufen. Bemerkenswert ist, dass die Genauigkeit für die erste Antwort auf 49,5% bzw. 7,9% bei den GSM8K- und MATH-Benchmarks sinkt. Wir stellen fest, dass allein durch Skalierung der SFT-Daten die Zuverlässigkeit bei der Generierung korrekter Antworten signifikant verbessert werden kann. Allerdings wird das Potenzial für umfangreiche Skalierung durch die Knappheit öffentlich verfügbarer mathematischer Fragen eingeschränkt. Um diese Einschränkung zu überwinden, verwenden wir synthetische Daten, die sich als nahezu so effektiv wie reale Daten erweisen und keine klare Sättigung aufweisen, wenn sie auf etwa eine Million Proben hochskaliert werden. Dieser einfache Ansatz erzielt eine Genauigkeit von 82,6% bei GSM8K und 40,6% bei MATH unter Verwendung von LLaMA-2 7B-Modellen und übertrifft frühere Modelle um 14,2% bzw. 20,8%. Wir geben auch Einblicke in Skalierungsverhalten bei unterschiedlichen Denkkomplexitäten und Fehlertypen.
Wir präsentieren Pix2Gif, ein bewegungsgesteuertes Diffusionsmodell für die Generierung von Bildern zu GIFs (Videos). Wir gehen dieses Problem anders an, indem wir die Aufgabe als ein Bildübersetzungsproblem formulieren, das durch Text- und Bewegungsgrößenanweisungen gesteuert wird, wie in der Vorschauabbildung gezeigt. Um sicherzustellen, dass das Modell der Bewegungssteuerung folgt, schlagen wir ein neues bewegungsgesteuertes Verzerrungsmodul vor, um die Merkmale des Quellbildes räumlich zu transformieren, abhängig von den beiden Arten von Anweisungen. Darüber hinaus führen wir einen perzeptuellen Verlust ein, um sicherzustellen, dass die transformierte Merkmalskarte im selben Raum wie das Zielbild bleibt, was die inhaltliche Konsistenz und Kohärenz gewährleistet. Zur Vorbereitung des Modelltrainings haben wir Daten sorgfältig kuratiert, indem wir kohärente Bildsequenzen aus dem TGIF Video-Caption-Datensatz extrahierten, der reichhaltige Informationen über die zeitlichen Veränderungen der Motive liefert. Nach dem Pre-Training wenden wir unser Modell in einer Zero-Shot-Weise auf eine Reihe von Videodatensätzen an. Umfangreiche qualitative und quantitative Experimente zeigen die Wirksamkeit unseres Modells - es erfasst nicht nur die semantische Anweisung aus dem Text, sondern auch die räumlichen aus der Bewegungssteuerung. Wir trainieren alle unsere Modelle unter Verwendung eines einzelnen Knotens mit 16xV100 GPUs. Der Code, der Datensatz und die Modelle sind öffentlich zugänglich unter: https://hiteshk03.github.io/Pix2Gif/.
Röntgenstrahlen werden aufgrund ihrer stärkeren Durchdringung als natürliches Licht weit verbreitet für die Transmissionsbildgebung eingesetzt. Bei der Darstellung von neuartigen Ansichten von Röntgenprojektionen basieren bestehende Methoden hauptsächlich auf NeRF und leiden unter langen Trainingszeiten und langsamer Inferenzgeschwindigkeit. In diesem Artikel schlagen wir ein auf 3D-Gaußscher Splatting basierendes Framework namens X-Gaussian für die Synthese neuer Ansichten von Röntgenstrahlen vor. Zunächst gestalten wir ein strahlendes Gaußsches Punktwolkenmodell um, inspiriert von der isotropen Natur der Röntgenbildgebung. Unser Modell schließt den Einfluss der Blickrichtung aus, wenn es lernt, die Strahlungsintensität von 3D-Punkten vorherzusagen. Basierend auf diesem Modell entwickeln wir eine differentiell strahlende Rasterisierung (DRR) mit CUDA-Implementierung. Zweitens passen wir eine Winkel-Pose-Würfel-Gleichmäßigkeitsinitialisierungsstrategie an, die direkt die Parameter des Röntgenscanners verwendet, um die Kamerainformationen zu berechnen und dann Punktpositionen gleichmäßig innerhalb eines Würfels abzutasten, der das gescannte Objekt umschließt. Experimente zeigen, dass unser X-Gaussian die Methoden der Spitzenklasse um 6,5 dB übertrifft und dabei weniger als 15 % Trainingszeit und über 73-fache Inferenzgeschwindigkeit bietet. Die Anwendung auf die Rekonstruktion von CT-Aufnahmen mit dünn besetzten Ansichten zeigt auch den praktischen Wert unserer Methode. Der Code und die Modelle werden öffentlich verfügbar sein unter https://github.com/caiyuanhao1998/X-Gaussian. Ein Video-Demo der Visualisierung des Schulungsprozesses ist unter https://www.youtube.com/watch?v=gDVf_Ngeghg verfügbar.