Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen einen neuen Maßstab zur Bewertung der Rollenspiel-Fähigkeiten von Sprachmodellen vor. Unser Ansatz nutzt Sprachmodelle selbst, um Benutzer in dynamischen, mehrstufigen Gesprächen zu imitieren und die resultierenden Dialoge zu bewerten. Das Framework besteht aus drei Hauptkomponenten: einem Spielermodell, das eine spezifische Charakterrolle annimmt, einem Befragermodell, das das Verhalten des Benutzers simuliert, und einem Richtermodell, das die Gesprächsqualität bewertet. Wir führten Experimente durch, die automatisierte Bewertungen mit menschlichen Annotationen verglichen, um unseren Ansatz zu validieren, und zeigten starke Korrelationen über mehrere Kriterien hinweg. Diese Arbeit legt den Grundstein für eine robuste und dynamische Bewertung der Fähigkeiten von Modellen in interaktiven Szenarien.
Die rasante Entwicklung von Large Language Models (LLMs) für Anwendungen im Gesundheitswesen hat Forderungen nach einer ganzheitlichen Bewertung jenseits häufig zitierter Benchmarks wie dem USMLE hervorgerufen, um die Leistung im realen Umfeld besser widerzuspiegeln. Während Bewertungen im realen Umfeld wertvolle Indikatoren für die Nützlichkeit sind, hinken sie oft der Entwicklung von LLMs hinterher, was dazu führen kann, dass die Ergebnisse bei der Implementierung veraltet sind. Diese zeitliche Diskrepanz erfordert eine umfassende anfängliche Bewertung, die die Auswahl des Modells für spezifische klinische Anwendungen lenken kann. Wir stellen MEDIC vor, ein Rahmenwerk zur Bewertung von LLMs über fünf kritische Dimensionen klinischer Kompetenz: medizinisches Denken, Ethik und Voreingenommenheit, Daten- und Sprachverständnis, kontextbezogenes Lernen und klinische Sicherheit. MEDIC umfasst ein neuartiges Kreuzprüfungsrahmenwerk, das die Leistung von LLMs in Bereichen wie Abdeckung und Halluzinationserkennung quantifiziert, ohne Referenzausgaben zu benötigen. Wir wenden MEDIC an, um LLMs in den Bereichen medizinische Fragebeantwortung, Sicherheit, Zusammenfassung, Notenerstellung und anderen Aufgaben zu bewerten. Unsere Ergebnisse zeigen Leistungsunterschiede zwischen Modellgrößen, Grundlinien- und medizinisch feinabgestimmten Modellen auf und haben Auswirkungen auf die Modellauswahl für Anwendungen, die spezifische Modellstärken erfordern, wie z.B. geringe Halluzination oder niedrigere Inferenzkosten. Die vielschichtige Bewertung von MEDIC zeigt diese Leistungskompromisse auf und überbrückt die Kluft zwischen theoretischen Fähigkeiten und praktischer Umsetzung in Gesundheitseinrichtungen, um sicherzustellen, dass die vielversprechendsten Modelle für vielfältige Gesundheitsanwendungen identifiziert und angepasst werden.
Trotz des Potenzials von sprachmodellbasierten Agenten, reale Aufgaben wie die Webnavigation zu lösen, haben aktuelle Methoden immer noch Schwierigkeiten mit langfristigen Aufgaben mit komplexen Aktionsverläufen. Im Gegensatz dazu können Menschen komplexe Aufgaben flexibel lösen, indem sie wiederverwendbare Aufgabenabläufe aus vergangenen Erfahrungen lernen und diese nutzen, um zukünftige Handlungen zu lenken. Um Agenten aufzubauen, die ähnlich von diesem Prozess profitieren können, stellen wir Agent Workflow Memory (AWM) vor, eine Methode zur Induktion von häufig wiederverwendeten Routinen, d.h. Workflows, und zur selektiven Bereitstellung von Workflows für den Agenten, um nachfolgende Generationen zu lenken. AWM kann flexibel auf sowohl Offline- als auch Online-Szenarien angewendet werden, in denen Agenten Workflows entweder im Voraus aus Trainingsbeispielen induzieren oder sie spontan aus Testanfragen generieren. Wir führen Experimente an zwei wichtigen Webnavigationstests -- Mind2Web und WebArena -- durch, die zusammen über 1000 Aufgaben aus mehr als 200 Bereichen wie Reisen, Einkaufen und sozialen Medien abdecken. AWM verbessert die Ausgangsergebnisse signifikant um 24,6 % bzw. 51,1 % relative Erfolgsquote auf Mind2Web und WebArena und reduziert gleichzeitig die Anzahl der Schritte, die zur erfolgreichen Lösung von WebArena-Aufgaben erforderlich sind. Darüber hinaus generalisiert Online-AWM robust in Cross-Task-, Website- und Domain-Bewertungen und übertrifft Baselines um 8,9 bis 14,0 absolute Punkte, wenn die Lücken in der Trainings-Test-Aufgabenverteilung zunehmen.
Trotz enormer Fortschritte bei der Bild-zu-3D-Generierung haben bestehende Methoden immer noch Schwierigkeiten, mehrere Ansichten konsistenter Bilder mit hochauflösenden Texturen im Detail zu erzeugen, insbesondere im Paradigma der 2D-Diffusion, das an 3D-Bewusstsein mangelt. In dieser Arbeit präsentieren wir das High-resolution Image-to-3D-Modell (Hi3D), ein neues auf Video-Diffusion basierendes Paradigma, das ein einzelnes Bild in Multi-View-Bilder als 3D-bewusste sequenzielle Bildgenerierung umdefiniert (d. h. orbitale Video-Generierung). Diese Methodik taucht in das zugrunde liegende zeitliche Konsistenzwissen im Video-Diffusionsmodell ein, das sich gut auf die geometrische Konsistenz über mehrere Ansichten in der 3D-Generierung verallgemeinern lässt. Technisch gesehen stärkt Hi3D zunächst das vortrainierte Video-Diffusionsmodell mit einer 3D-bewussten Voraussetzung (Kamerapositionsbedingung), was zu Multi-View-Bildern mit Niedrigauflösungsdetails führt. Ein 3D-bewusster Video-zu-Video-Verfeinerer wird erlernt, um die Multi-View-Bilder weiter mit hochauflösenden Texturdetails zu skalieren. Solche hochauflösenden Multi-View-Bilder werden durch neuartige Ansichten mittels 3D-Gauß-Splatting weiter ergänzt, die schließlich genutzt werden, um hochwertige Meshes über 3D-Rekonstruktion zu erhalten. Umfangreiche Experimente sowohl zur Synthese von neuartigen Ansichten als auch zur Rekonstruktion von Einzelansichten zeigen, dass unser Hi3D in der Lage ist, überlegene Multi-View-konsistente Bilder mit hochdetaillierten Texturen zu erzeugen. Der Quellcode und die Daten sind unter https://github.com/yanghb22-fdu/Hi3D-Official verfügbar.
Lineare Aufmerksamkeits-Transformer und ihre gesteuerten Varianten, die dafür bekannt sind, paralleles Training und effiziente wiederkehrende Inferenz zu ermöglichen, bleiben im Vergleich zu traditionellen Transformern bei auf Rückruf basierenden Aufgaben hinter diesen zurück und erfordern erhebliche Ressourcen für das Training von Grund auf. Dieses Papier stellt das Gesteuerte Slot-Aufmerksamkeit (GSA) vor, das die Aufmerksamkeit mit begrenzter Speichersteuerung (ABC) verbessert, indem es einen Steuermechanismus integriert, der von der Gesteuerten Linearen Aufmerksamkeit (GLA) inspiriert ist. Im Wesentlichen besteht GSA aus einem zweischichtigen GLA, das über Softmax verbunden ist, wobei kontextbewusstes Speicherlesen und adaptives Vergessen genutzt werden, um die Speicherkapazität zu verbessern und gleichzeitig die kompakte wiederkehrende Zustandsgröße beizubehalten. Dieses Design verbessert sowohl die Effizienz des Trainings als auch der Inferenz erheblich durch den hardwareeffizienten Trainingsalgorithmus von GLA und die reduzierte Zustandsgröße. Darüber hinaus ist die Beibehaltung der Softmax-Operation besonders vorteilhaft in "Feinabstimmung vortrainierter Transformer auf RNNs" (T2R)-Einstellungen, was den Bedarf an umfangreichem Training von Grund auf reduziert. Umfangreiche Experimente bestätigen die überlegene Leistung von GSA in Szenarien, die In-Context-Abruf erfordern, sowie in T2R-Einstellungen.
Die Chain-of-Thought (CoT)-Aufforderung zeigt, dass große Sprachmodelle in der Lage sind, komplexe Schlussfolgerungen über Zwischenschritte durchzuführen. CoT-Aufforderungen werden hauptsächlich in drei Ansätze unterteilt. Der erste Ansatz verwendet einfache Aufforderungen wie "Lassen Sie uns Schritt für Schritt denken", um einen sequenziellen Denkprozess zu generieren, bevor eine Antwort gegeben wird. Der zweite Ansatz nutzt von Menschen erstellte, schrittweise Demonstrationen, um den Denkprozess des Modells zu lenken. Der dritte automatisiert die Generierung begründeter Demonstrationen mit der Aufforderung "Lassen Sie uns Schritt für Schritt denken". Dieser Ansatz führt manchmal zu Schlussfolgerungsfehlern, was die Notwendigkeit unterstreicht, Demonstrationen zu diversifizieren, um ihre irreführenden Effekte zu mildern. Allerdings stellen vielfältige Demonstrationen Herausforderungen für effektive Repräsentationen dar. In dieser Arbeit schlagen wir ECHO vor, eine selbstabgestimmte Chain-of-Thought-Aufforderungsmethode. Sie konsolidiert diverse Lösungswege in einheitliche und effektive Lösungsmuster. ECHO zeigt die beste Gesamtleistung in drei Schlussfolgerungsbereichen.
gsplat ist eine Open-Source-Bibliothek, die für das Training und die Entwicklung von Gaussischem Splatting konzipiert ist. Sie verfügt über ein Front-End mit Python-Bindungen, die mit der PyTorch-Bibliothek kompatibel sind, und ein Back-End mit hochgradig optimierten CUDA-Kernels. gsplat bietet zahlreiche Funktionen, die die Optimierung von Gaussischen Splatting-Modellen verbessern, darunter Optimierungen für Geschwindigkeit, Speicher und Konvergenzzeiten. Experimentelle Ergebnisse zeigen, dass gsplat bis zu 10 % kürzere Trainingszeiten und 4-fach weniger Speicher als die Originalimplementierung erreicht. In mehreren Forschungsprojekten eingesetzt, wird gsplat aktiv auf GitHub gepflegt. Der Quellcode ist unter der Apache-Lizenz 2.0 unter https://github.com/nerfstudio-project/gsplat verfügbar. Wir begrüßen Beiträge aus der Open-Source-Community.
"Ein Gedanke ist nichts mehr und nichts weniger als eine neue Kombination alter Elemente" (Young, J.W.). Die weit verbreitete Verwendung von Large Language Models (LLMs) und öffentlich zugänglichen ChatGPT haben einen bedeutenden Wendepunkt in die Integration von Künstlicher Intelligenz (KI) in den Alltag der Menschen markiert. Diese Studie untersucht die Fähigkeit von LLMs, basierend auf Informationen aus Forschungsarbeiten neue Forschungsideen zu generieren. Wir führen eine gründliche Untersuchung von 4 LLMs in fünf Bereichen (z.B. Chemie, Informatik, Wirtschaftswissenschaften, Medizin und Physik) durch. Wir stellten fest, dass die zukünftigen Forschungsideen, die von Claude-2 und GPT-4 generiert wurden, stärker mit der Perspektive des Autors übereinstimmen als bei GPT-3.5 und Gemini. Wir stellten auch fest, dass Claude-2 vielfältigere zukünftige Forschungsideen generiert als GPT-4, GPT-3.5 und Gemini 1.0. Darüber hinaus führten wir eine menschliche Bewertung der Neuheit, Relevanz und Machbarkeit der generierten zukünftigen Forschungsideen durch. Diese Untersuchung bietet Einblicke in die sich entwickelnde Rolle von LLMs bei der Ideengenerierung und hebt sowohl ihre Fähigkeiten als auch ihre Grenzen hervor. Unsere Arbeit trägt zu den laufenden Bemühungen bei, Sprachmodelle zur Generierung zukünftiger Forschungsideen zu bewerten und zu nutzen. Wir stellen unsere Datensätze und Codes öffentlich zur Verfügung.
Wir schlagen GauFace vor, eine neuartige Gauss'sche Splatting-Repräsentation, die speziell für die effiziente Animation und Darstellung physikalisch basierter Gesichtsobjekte entwickelt wurde. Durch die Nutzung starker geometrischer Voraussetzungen und eingeschränkter Optimierung gewährleistet GauFace eine saubere und strukturierte Gauss'sche Repräsentation, die eine hohe Treue und Echtzeit-Gesichtsinteraktion von 30fps@1440p auf einer Snapdragon 8 Gen 2 Mobilplattform ermöglicht. Anschließend stellen wir TransGS vor, einen Diffusions-Transformer, der physikalisch basierte Gesichtsobjekte sofort in die entsprechenden GauFace-Repräsentationen übersetzt. Speziell verwenden wir eine patchbasierte Pipeline, um die große Anzahl von Gauss'schen Funktionen effektiv zu verarbeiten. Wir führen auch ein neuartiges pixelgenaues Abtastschema mit UV-Positionsencoding ein, um die Durchsatz- und Darstellungsqualität der von unserem TransGS generierten GauFace-Objekte sicherzustellen. Sobald trainiert, kann TransGS Gesichtsobjekte mit Beleuchtungsbedingungen sofort in die GauFace-Repräsentation übersetzen. Mit den vielfältigen Konditionierungsmodalitäten ermöglicht es auch Bearbeitungs- und Animationsfähigkeiten, die an traditionelle CG-Pipelines erinnern. Wir führen umfangreiche Bewertungen und Benutzerstudien durch, verglichen mit traditionellen Offline- und Online-Renderern sowie aktuellen neuronalen Rendering-Methoden, die die überlegene Leistung unseres Ansatzes für die Darstellung von Gesichtsobjekten zeigen. Wir präsentieren auch vielfältige immersive Anwendungen von Gesichtsobjekten unter Verwendung unseres TransGS-Ansatzes und der GauFace-Repräsentation auf verschiedenen Plattformen wie PCs, Telefonen und sogar VR-Headsets.
Wir präsentieren ein Framework zum Erlernen der Generierung von Hintergrundmusik aus Videoeingaben. Im Gegensatz zu bestehenden Arbeiten, die auf symbolischen musikalischen Annotationen basieren, die in Quantität und Vielfalt begrenzt sind, nutzt unsere Methode groß angelegte Webvideos, die von Hintergrundmusik begleitet werden. Dies ermöglicht unserem Modell, realistische und vielfältige Musik zu erlernen. Um dieses Ziel zu erreichen, entwickeln wir einen generativen Video-Musik-Transformer mit einem neuartigen semantischen Video-Musik-Alignmentschema. Unser Modell verwendet ein gemeinsames autoregressives und kontrastives Lernziel, das die Generierung von Musik fördert, die mit hochrangigen Videoinhalten übereinstimmt. Wir führen auch ein neuartiges Video-Beat-Alignmentschema ein, um die generierten Musikbeats mit den niederwertigen Bewegungen im Video abzustimmen. Schließlich führen wir zur Erfassung feingranularer visueller Hinweise in einem Video, die für die realistische Hintergrundmusikgenerierung erforderlich sind, eine neue zeitliche Videoencoder-Architektur ein, die es uns ermöglicht, Videos effizient zu verarbeiten, die aus vielen dicht abgetasteten Frames bestehen. Wir trainieren unser Framework auf unserem neu kuratierten DISCO-MV-Datensatz, der aus 2,2 Mio. Video-Musik-Samples besteht, was um Größenordnungen größer ist als alle zuvor für die Video-Musik-Generierung verwendeten Datensätze. Unsere Methode übertrifft bestehende Ansätze auf den DISCO-MV- und MusicCaps-Datensätzen gemäß verschiedenen Evaluierungsmetriken für die Musikgenerierung, einschließlich menschlicher Bewertung. Die Ergebnisse sind unter https://genjib.github.io/project_page/VMAs/index.html verfügbar.
In den letzten Jahren hat es einen Anstieg in der Entwicklung von Protein-Grundlagenmodellen gegeben, der die Leistung bei der Protein-Vorhersage und generativen Aufgaben von der 3D-Strukturvorhersage und Protein-Design bis zur konformationellen Dynamik signifikant verbessert hat. Die Fähigkeiten und Einschränkungen, die mit diesen Modellen verbunden sind, bleiben jedoch aufgrund des Fehlens eines einheitlichen Bewertungsrahmens schlecht verstanden. Um diese Lücke zu schließen, führen wir ProteinBench ein, einen ganzheitlichen Bewertungsrahmen, der darauf abzielt, die Transparenz von Protein-Grundlagenmodellen zu verbessern. Unser Ansatz besteht aus drei Schlüsselelementen: (i) Eine taxonomische Klassifizierung von Aufgaben, die die Hauptprobleme im Proteinbereich umfassen, basierend auf den Beziehungen zwischen verschiedenen Proteinmodalitäten; (ii) Ein multimetrischer Bewertungsansatz, der die Leistung in vier Schlüsseldimensionen bewertet: Qualität, Neuheit, Vielfalt und Robustheit; und (iii) eingehende Analysen aus verschiedenen Benutzerzielen, die einen ganzheitlichen Blick auf die Leistungen des Modells bieten. Unsere umfassende Bewertung von Protein-Grundlagenmodellen enthüllt mehrere wichtige Erkenntnisse, die Einblick in ihre aktuellen Fähigkeiten und Einschränkungen geben. Um die Transparenz zu fördern und weitere Forschung zu erleichtern, veröffentlichen wir den Bewertungsdatensatz, den Code und ein öffentliches Leaderboard öffentlich zur weiteren Analyse sowie ein allgemeines modulares Toolkit. Wir beabsichtigen, dass ProteinBench zu einem lebendigen Benchmark wird, um einen standardisierten, eingehenden Bewertungsrahmen für Protein-Grundlagenmodelle zu etablieren, ihre Entwicklung und Anwendung voranzutreiben und die Zusammenarbeit innerhalb des Fachgebiets zu fördern.
Angesichts der Tatsache, dass Large Language Models (LLMs) erhebliche Fortschritte beim Schreiben von Code gemacht haben, können sie nun verwendet werden, um Ergebnisse aus Forschungs-Repositories autonom zu reproduzieren? Eine solche Fähigkeit wäre ein Segen für die Forschungsgemeinschaft, da sie Forschern helfen würde, frühere Arbeiten zu validieren, zu verstehen und zu erweitern. Um dieses Ziel voranzutreiben, stellen wir SUPER vor, den ersten Benchmark, der entwickelt wurde, um die Fähigkeit von LLMs zu bewerten, Aufgaben aus Forschungs-Repositories einzurichten und auszuführen. SUPER zielt darauf ab, die realistischen Herausforderungen zu erfassen, mit denen Forscher konfrontiert sind, die mit Machine Learning (ML) und Natural Language Processing (NLP) Forschungs-Repositories arbeiten. Unser Benchmark umfasst drei unterschiedliche Problemsets: 45 End-to-End-Probleme mit annotierten Expertenlösungen, 152 Unterprobleme, die aus dem Expertenset abgeleitet sind und sich auf spezifische Herausforderungen konzentrieren (z.B. Konfiguration eines Trainers), und 602 automatisch generierte Probleme für die Entwicklung im größeren Maßstab. Wir führen verschiedene Bewertungsmethoden ein, um sowohl den Erfolg bei der Aufgabenerfüllung als auch den Fortschritt zu bewerten, wobei Goldlösungen verwendet werden, wenn verfügbar, oder andernfalls Annäherungen. Wir zeigen, dass State-of-the-Art-Ansätze Schwierigkeiten haben, diese Probleme zu lösen, wobei das beste Modell (GPT-4o) nur 16,3% des End-to-End-Sets und 46,1% der Szenarien löst. Dies verdeutlicht die Herausforderung dieser Aufgabe und legt nahe, dass SUPER eine wertvolle Ressource für die Gemeinschaft darstellen kann, um Fortschritte zu erzielen und zu messen.
Dieses Papier stellt MVLLaVA vor, einen intelligenten Agenten, der für neuartige Ansichtssynthesen konzipiert ist. MVLLaVA integriert mehrere Multi-View-Diffusionsmodelle mit einem großen multimodalen Modell, LLaVA, was es ihm ermöglicht, eine Vielzahl von Aufgaben effizient zu bewältigen. MVLLaVA stellt eine vielseitige und vereinheitlichte Plattform dar, die sich an verschiedene Eingabetypen anpasst, einschließlich eines einzelnen Bildes, einer beschreibenden Bildunterschrift oder einer spezifischen Änderung des Betrachtungswinkels, die durch Sprachanweisungen zur Ansichtsgenerierung geleitet wird. Wir erstellen sorgfältig aufgabenspezifische Anweisungsvorlagen, die anschließend zur Feinabstimmung von LLaVA verwendet werden. Als Ergebnis erwirbt MVLLaVA die Fähigkeit, neuartige Ansichtsbilder basierend auf Benutzeranweisungen zu generieren und zeigt damit seine Flexibilität bei verschiedenen Aufgaben. Experimente werden durchgeführt, um die Wirksamkeit von MVLLaVA zu validieren und seine robuste Leistungsfähigkeit und Vielseitigkeit bei der Bewältigung verschiedener Herausforderungen der neuartigen Ansichtssynthese zu demonstrieren.
Generative Modelle, die im großen Maßstab trainiert werden, können jetzt Texte, Videos und neuerdings auch wissenschaftliche Daten wie Kristallstrukturen erzeugen. In Anwendungen generativer Ansätze in der Materialwissenschaft, insbesondere bei Kristallstrukturen, kann die Anleitung durch den Fachexperten in Form von hochrangigen Anweisungen für ein automatisiertes System entscheidend sein, um Kandidatenkristalle zu erzeugen, die für nachgelagerte Forschungszwecke geeignet sind. In dieser Arbeit formulieren wir die Generierung von Sprache zu Struktur als ein Multi-Objektiv-Optimierungsproblem und schlagen Generative Hierarchische Materialsuche (GenMS) für die kontrollierte Generierung von Kristallstrukturen vor. GenMS besteht aus (1) einem Sprachmodell, das hochrangige natürliche Sprache als Eingabe erhält und Zwischeninformationen über einen Kristall generiert (z. B. chemische Formeln), und (2) einem Diffusionsmodell, das Zwischeninformationen als Eingabe erhält und kontinuierliche Kristallstrukturen mit niedriger Ebene erzeugt. GenMS verwendet zusätzlich ein Graph-Neuronennetzwerk, um Eigenschaften (z. B. Bildungsenergie) aus den generierten Kristallstrukturen vorherzusagen. Während der Inferenz nutzt GenMS alle drei Komponenten, um eine Vorwärtssuche über den Raum möglicher Strukturen durchzuführen. Experimente zeigen, dass GenMS andere Alternativen, die direkt Sprachmodelle zur Generierung von Strukturen verwenden, sowohl in der Erfüllung von Benutzeranforderungen als auch in der Generierung von Niedrigenergiestrukturen übertrifft. Wir bestätigen, dass GenMS in der Lage ist, gängige Kristallstrukturen wie Doppel-Perowskite oder Spinelle ausschließlich aus natürlicher Spracheingabe zu generieren und somit die Grundlage für die Generierung komplexerer Strukturen in naher Zukunft bilden kann.