Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Eine der großen Herausforderungen der künstlichen allgemeinen Intelligenz besteht darin, Agenten zu entwickeln, die in der Lage sind, wissenschaftliche Forschung zu betreiben und neues Wissen zu entdecken. Während Spitzenmodelle bereits als Hilfsmittel für menschliche Wissenschaftler verwendet wurden, z.B. um Ideen zu brainstormen, Code zu schreiben oder Vorhersageaufgaben zu lösen, führen sie immer noch nur einen kleinen Teil des wissenschaftlichen Prozesses durch. Dieser Artikel präsentiert den ersten umfassenden Rahmen für vollautomatische wissenschaftliche Entdeckungen, der es Spitzenmodellen großer Sprachen ermöglicht, eigenständig Forschung zu betreiben und ihre Ergebnisse zu kommunizieren. Wir stellen den KI-Wissenschaftler vor, der neuartige Forschungsideen generiert, Code schreibt, Experimente durchführt, Ergebnisse visualisiert, seine Erkenntnisse in Form eines vollständigen wissenschaftlichen Artikels beschreibt und dann einen simulierten Überprüfungsprozess zur Bewertung durchläuft. Grundsätzlich kann dieser Prozess iterativ wiederholt werden, um Ideen in einem offenen Stil zu entwickeln und dabei wie die menschliche wissenschaftliche Gemeinschaft zu agieren. Wir zeigen seine Vielseitigkeit, indem wir ihn auf drei verschiedene Teilgebiete des maschinellen Lernens anwenden: Diffusionsmodellierung, auf Transformer basierende Sprachmodellierung und Lerndynamik. Jede Idee wird implementiert und zu einem vollständigen Artikel entwickelt, und das zu Kosten von weniger als 15 US-Dollar pro Artikel. Zur Bewertung der generierten Artikel entwerfen und validieren wir einen automatisierten Gutachter, der eine nahezu menschenähnliche Leistung bei der Bewertung von Artikelpunkten zeigt. Der KI-Wissenschaftler kann Artikel produzieren, die die Akzeptanzschwelle auf einer führenden Konferenz zum maschinellen Lernen überschreiten, wie von unserem automatisierten Gutachter beurteilt. Dieser Ansatz markiert den Beginn einer neuen Ära der wissenschaftlichen Entdeckung im maschinellen Lernen: Er bringt die transformatorischen Vorteile von KI-Agenten in den gesamten Forschungsprozess des KI selbst und bringt uns näher an eine Welt, in der endlose, erschwingliche Kreativität und Innovation auf die herausforderndsten Probleme der Welt entfesselt werden können. Unser Code ist unter https://github.com/SakanaAI/AI-Scientist als Open Source verfügbar.
Dieses Papier stellt rStar vor, einen selbstspielenden gegenseitigen Schlussfolgerungsansatz, der die Schlussfolgerungsfähigkeiten kleiner Sprachmodelle (SLMs) signifikant verbessert, ohne Feinabstimmung oder überlegene Modelle. rStar entkoppelt die Schlussfolgerung in einen selbstspielenden gegenseitigen Generierungs-Diskriminierungsprozess. Zunächst erweitert ein Ziel-SLM die Monte-Carlo-Baumsuche (MCTS) um eine umfangreiche Reihe von menschenähnlichen Schlussfolgerungsaktionen, um qualitativ hochwertigere Schlussfolgerungspfade zu konstruieren. Anschließend fungiert ein weiteres SLM mit ähnlichen Fähigkeiten wie das Ziel-SLM als Diskriminator, um jeden vom Ziel-SLM generierten Pfad zu überprüfen. Die gegenseitig vereinbarten Schlussfolgerungspfade gelten als gegenseitig konsistent und sind somit wahrscheinlicher korrekt zu sein. Umfangreiche Experimente über fünf SLMs zeigen, dass rStar effektiv verschiedene Schlussfolgerungsprobleme lösen kann, einschließlich GSM8K, GSM-Hard, MATH, SVAMP und StrategyQA. Bemerkenswert steigert rStar die Genauigkeit von GSM8K von 12,51% auf 63,91% für LLaMA2-7B, von 36,46% auf 81,88% für Mistral-7B und von 74,53% auf 91,13% für LLaMA3-8B-Instruct. Der Code ist verfügbar unter https://github.com/zhentingqi/rStar.
Diffusionsmodelle haben bemerkenswerte und robuste Fähigkeiten sowohl in der Bild- als auch in der Videogenerierung gezeigt. Um eine größere Kontrolle über die generierten Ergebnisse zu erlangen, führen Forscher zusätzliche Architekturen wie ControlNet, Adapter und ReferenceNet ein, um Konditionierungssteuerungen zu integrieren. Allerdings erfordern aktuelle steuerbare Generierungsmethoden oft erhebliche zusätzliche Rechenressourcen, insbesondere für die Videogenerierung, und stehen vor Herausforderungen im Training oder weisen eine schwache Steuerung auf. In diesem Paper schlagen wir ControlNeXt vor: eine leistungsstarke und effiziente Methode für die steuerbare Bild- und Videogenerierung. Zunächst entwerfen wir eine einfachere und effizientere Architektur, die schwere zusätzliche Zweige durch minimale zusätzliche Kosten im Vergleich zum Basismodell ersetzt. Eine solche prägnante Struktur ermöglicht es unserer Methode auch, nahtlos mit anderen LoRA-Gewichten zu integrieren, was eine Stiländerung ohne zusätzliches Training ermöglicht. In Bezug auf das Training reduzieren wir bis zu 90% der lernbaren Parameter im Vergleich zu den Alternativen. Darüber hinaus schlagen wir eine weitere Methode namens Cross-Normalisierung (CN) als Ersatz für Zero-Convolution vor, um eine schnelle und stabile Trainingskonvergenz zu erreichen. Wir haben verschiedene Experimente mit verschiedenen Basismodellen für Bilder und Videos durchgeführt, die die Robustheit unserer Methode zeigen.
Med42-v2 stellt eine Reihe klinischer großer Sprachmodelle (LLMs) vor, die entwickelt wurden, um die Einschränkungen generischer Modelle in Gesundheitseinrichtungen zu bewältigen. Diese Modelle basieren auf der Llama3-Architektur und wurden unter Verwendung spezialisierter klinischer Daten feinabgestimmt. Sie durchliefen eine mehrstufige Präferenzabstimmung, um effektiv auf natürliche Anfragen zu reagieren. Während generische Modelle häufig präferenzabgestimmt sind, um klinische Anfragen vorsichtshalber zu vermeiden, wurde Med42-v2 speziell darauf trainiert, diese Einschränkung zu überwinden und somit den Einsatz in klinischen Umgebungen zu ermöglichen. Die Med42-v2-Modelle zeigen eine überlegene Leistung im Vergleich zu den ursprünglichen Llama3-Modellen in den Konfigurationen mit 8B und 70B Parametern sowie GPT-4 bei verschiedenen medizinischen Benchmarks. Diese LLMs wurden entwickelt, um klinische Anfragen zu verstehen, Schlussfolgerungsaufgaben durchzuführen und wertvolle Unterstützung in klinischen Umgebungen zu bieten. Die Modelle sind nun öffentlich verfügbar unter https://huggingface.co/m42-health.
Wir stellen CogVideoX vor, ein groß angelegtes Diffusions-Transformator-Modell, das für die Erzeugung von Videos basierend auf Texteingaben entwickelt wurde. Um Videodaten effizient zu modellieren, schlagen wir vor, einen 3D Variationalen Autoencoder (VAE) einzusetzen, um Videos entlang sowohl räumlicher als auch zeitlicher Dimensionen zu komprimieren. Zur Verbesserung der Text-Video-Abstimmung schlagen wir einen Experten-Transformator mit dem Experten-adaptiven LayerNorm vor, um die tiefe Fusion zwischen den beiden Modalitäten zu erleichtern. Durch den Einsatz einer progressiven Trainingstechnik ist CogVideoX in der Lage, kohärente, langanhaltende Videos zu erzeugen, die durch bedeutende Bewegungen gekennzeichnet sind. Darüber hinaus entwickeln wir eine effektive Text-Video-Datenverarbeitungspipeline, die verschiedene Datenverarbeitungsstrategien und eine Videobeschreibungsmethode umfasst. Dies trägt signifikant zur Verbesserung der Leistung von CogVideoX bei, wodurch sowohl die Generierungsqualität als auch die semantische Abstimmung verbessert werden. Die Ergebnisse zeigen, dass CogVideoX eine Spitzenleistung sowohl bei mehreren maschinellen Metriken als auch bei menschlichen Bewertungen aufweist. Die Modellgewichte sowohl des 3D Causal VAE als auch von CogVideoX sind öffentlich unter https://github.com/THUDM/CogVideo verfügbar.
Wir stellen FruitNeRF vor, ein vereinheitlichtes neuartiges Fruchtzählungs-Framework, das modernste Ansichten-Synthese-Methoden nutzt, um direkt in 3D jede Art von Früchten zu zählen. Unser Framework nimmt eine ungeordnete Menge von aufgenommenen Bildern auf, die von einer monokularen Kamera erfasst wurden, und segmentiert Früchte in jedem Bild. Um unser System unabhängig von der Fruchtart zu machen, verwenden wir ein Grundlagenmodell, das binäre Segmentierungsmasken für jede Frucht generiert. Unter Verwendung beider Modalitäten, RGB und semantisch, trainieren wir ein semantisches neuronales Strahlungsfeld. Durch gleichmäßige Volumenabtastung des impliziten Fruchtfelds erhalten wir nur Fruchtpunktwolken. Durch Anwendung einer kaskadierten Clusterung auf die extrahierte Punktwolke erreicht unser Ansatz präzise Fruchtzählung. Die Verwendung von neuronalen Strahlungsfeldern bietet signifikante Vorteile gegenüber herkömmlichen Methoden wie Objektverfolgung oder optischem Fluss, da die Zählung selbst in den 3D-Raum übertragen wird. Unsere Methode verhindert das doppelte Zählen von Früchten und vermeidet das Zählen von irrelevanten Früchten. Wir evaluieren unsere Methodik anhand von sowohl realen als auch synthetischen Datensätzen. Der reale Datensatz besteht aus drei Apfelbäumen mit manuell gezählten Ground Truths, einem Benchmark-Apfeldatensatz mit einer Reihe und Ground-Truth-Fruchtstandorten, während der synthetische Datensatz verschiedene Fruchtarten wie Apfel, Pflaume, Zitrone, Birne, Pfirsich und Mango umfasst. Zusätzlich bewerten wir die Leistung der Fruchtzählung unter Verwendung des Grundlagenmodells im Vergleich zu einem U-Net.
Große multimodale Modelle (LMMs) haben eine neue Ära in der künstlichen Intelligenz eingeläutet, indem sie Fähigkeiten in Sprache und Vision vereinen, um äußerst leistungsfähige visuelle Grundlagenagenten zu bilden. Diese Agenten sollen in der Lage sein, in einer Vielzahl von Aufgaben herausragende Leistungen zu erbringen und möglicherweise der allgemeinen künstlichen Intelligenz nahekommen. Allerdings versagen bestehende Benchmarks darin, LMMs in komplexen realen Umgebungen ausreichend herauszufordern oder ihr volles Potenzial zu präsentieren. Um diese Lücke zu schließen, führen wir VisualAgentBench (VAB) ein, einen umfassenden und wegweisenden Benchmark, der speziell entwickelt wurde, um LMMs als visuelle Grundlagenagenten in verschiedenen Szenarien zu trainieren und zu bewerten, darunter Embodied, Graphical User Interface und Visual Design, mit Aufgaben, die die Tiefe des Verständnisses und der Interaktionsfähigkeiten von LMMs untersuchen sollen. Durch rigorose Tests mit neun proprietären LMM-APIs und acht offenen Modellen zeigen wir die beträchtlichen, aber noch in Entwicklung befindlichen Fähigkeiten dieser Modelle auf. Darüber hinaus erstellt VAB einen Trajektorien-Trainingsdatensatz, der durch hybride Methoden wie Programmbasierte Solver, LMM-Agenten-Bootstrapping und menschliche Demonstrationen erstellt wurde, um signifikante Leistungsverbesserungen in LMMs durch Verhaltensklonierung zu fördern. Unsere Arbeit zielt nicht nur darauf ab, bestehende Modelle zu benchmarken, sondern auch eine solide Grundlage für zukünftige Entwicklungen im Bereich visueller Grundlagenagenten zu schaffen. Der Code, Trainings- und Testdaten sowie Teile von feinabgestimmten offenen LMMs sind unter https://github.com/THUDM/VisualAgentBench verfügbar.
In diesem Paper präsentieren wir einen neuartigen Ansatz zur Erstellung von 3D-Kopf-Avataren, der in der Lage ist, aus wenigen in-the-wild Daten mit hoher Treue und animierbarer Robustheit zu verallgemeinern. Angesichts der unzureichenden Natur dieses Problems ist die Integration von Vorwissen unerlässlich. Daher schlagen wir ein Framework vor, das aus Phasen des Vorwissenslernens und der Avatar-Erstellung besteht. Die Phase des Vorwissenslernens nutzt 3D-Kopf-Vorwissen, das aus einem groß angelegten Multi-View-Dynamik-Datensatz abgeleitet ist, und die Phase der Avatar-Erstellung wendet dieses Vorwissen auf die Personalisierung mit wenigen Aufnahmen an. Unser Ansatz erfasst diese Vorwissen effektiv, indem er ein auf Gaussian Splatting basierendes Auto-Decodierungsnetzwerk mit partiellem dynamischem Modellieren verwendet. Unsere Methode verwendet Identitäts-geteilte Kodierung mit personalisierten latenten Codes für individuelle Identitäten, um die Attribute der Gauss'schen Primitiven zu erlernen. Während der Phase der Avatar-Erstellung erreichen wir eine schnelle Personalisierung von Kopf-Avataren durch die Nutzung von Inversions- und Feinabstimmungsstrategien. Umfangreiche Experimente zeigen, dass unser Modell Kopf-Vorwissen effektiv nutzt und erfolgreich auf die Personalisierung mit wenigen Aufnahmen verallgemeinert, wodurch eine fotorealistische Rendering-Qualität, Multi-View-Konsistenz und stabile Animation erreicht werden.
Dieses Paper präsentiert UniPortrait, ein innovatives Framework zur Personalisierung von menschlichen Bildern, das die Einzel- und Mehrfach-ID-Anpassung mit hoher Gesichtstreue, umfangreicher Gesichtseditierbarkeit, freiform Eingabebeschreibung und vielfältiger Layoutgenerierung vereint. UniPortrait besteht nur aus zwei Plug-and-Play-Modulen: einem ID-Einbettungsmodul und einem ID-Routing-Modul. Das ID-Einbettungsmodul extrahiert vielseitig editierbare Gesichtsmerkmale mit einer Entkopplungsstrategie für jede ID und bettet sie in den Kontextraum von Diffusionsmodellen ein. Das ID-Routing-Modul kombiniert und verteilt dann diese Einbettungen adaptiv auf ihre jeweiligen Regionen innerhalb des synthetisierten Bildes, um die Anpassung von Einzel- und mehreren IDs zu erreichen. Mit einem sorgfältig gestalteten zweistufigen Schulungsschema erzielt UniPortrait eine überlegene Leistung sowohl bei der Einzel- als auch bei der Mehrfach-ID-Anpassung. Quantitative und qualitative Experimente zeigen die Vorteile unserer Methode gegenüber bestehenden Ansätzen sowie ihre gute Skalierbarkeit, z.B. die universelle Kompatibilität mit vorhandenen generativen Steuerungswerkzeugen. Die Projektseite befindet sich unter https://aigcdesigngroup.github.io/UniPortrait-Page/.
In den letzten Jahren ist die Transformer-Architektur zum de facto Standard für maschinelles Lernen in der natürlichen Sprachverarbeitung und Computer Vision geworden. Trotz bemerkenswerter Belege für den erfolgreichen Einsatz dieser Architektur im Kontext des Roboterlernens behaupten wir, dass einfache Transformer die Struktur des Roboterlernproblems nicht vollständig nutzen. Daher schlagen wir den Body Transformer (BoT) vor, eine Architektur, die den Roboter-Körper nutzt, indem sie eine induktive Voreingenommenheit bereitstellt, die den Lernprozess lenkt. Wir stellen den Roboter-Körper als einen Graphen von Sensoren und Aktuatoren dar und verlassen uns auf maskierte Aufmerksamkeit, um Informationen über die gesamte Architektur hinweg zu sammeln. Die resultierende Architektur übertrifft den einfachen Transformer sowie den klassischen mehrschichtigen Perzeptron hinsichtlich Aufgabenerfüllung, Skalierungseigenschaften und Recheneffizienz bei der Darstellung von Imitations- oder Verstärkungslernrichtlinien. Zusätzliches Material einschließlich des Open-Source-Codes ist unter https://sferrazza.cc/bot_site verfügbar.
Trotz ihrer jüngsten Erfolge zeigen Transformer-basierte große Sprachmodelle überraschende Fehlermodi. Ein bekanntes Beispiel für solche Fehlermodi ist ihre Unfähigkeit zur Längenverallgemeinerung: das Lösen von Probleminstanzen zur Inferenzzeit, die länger sind als die während des Trainings gesehenen. In dieser Arbeit erkunden wir die Ursache dieses Fehlers weiter, indem wir eine detaillierte Analyse des Verhaltens des Modells bei der einfachen Paritätsaufgabe durchführen. Unsere Analyse legt nahe, dass Fehler bei der Längenverallgemeinerung eng mit der Unfähigkeit eines Modells verbunden sind, zufällige Speicherzugriffe innerhalb seines Kontextfensters durchzuführen. Wir präsentieren unterstützende Beweise für diese Hypothese, indem wir die Wirksamkeit von Methodologien aufzeigen, die die Notwendigkeit von Indizierung umgehen oder zufälligen Tokenzugriff indirekt ermöglichen, durch inhaltsbasierte Adressierung. Darüber hinaus zeigen wir, wo und wie das Versagen bei zufälligen Speicherzugriffen durch Visualisierungen von Aufmerksamkeitskarten sichtbar wird.