Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle (LLMs) und große Vision-Sprachmodelle (LVLMs) haben beeindruckende Sprach-/Bild-Argumentationsfähigkeiten gezeigt, die den aktuellen Trend der Entwicklung von Agenten für gezielte Anwendungen wie Einkaufsassistenten oder KI-Softwareingenieure ausgelöst haben. In letzter Zeit wurden viele Benchmarks im Bereich der Datenwissenschaft vorgeschlagen, um ihre Leistung im Bereich der Datenwissenschaft zu untersuchen. Allerdings reichen bestehende Benchmarks im Bereich der Datenwissenschaft im Vergleich zu realen Datenwissenschaftsanwendungen aufgrund ihrer vereinfachten Einstellungen noch nicht aus. Um diese Lücke zu schließen, stellen wir DSBench vor, einen umfassenden Benchmark, der entwickelt wurde, um Datenwissenschaftsagenten mit realistischen Aufgaben zu bewerten. Dieser Benchmark umfasst 466 Datenanalyseaufgaben und 74 Datenmodellierungsaufgaben, die aus Eloquence- und Kaggle-Wettbewerben stammen. DSBench bietet eine realistische Umgebung, indem es lange Kontexte, multimodale Aufgabenhintergründe, Argumentation mit großen Datendateien und mehrtabellarische Strukturen sowie die Durchführung von End-to-End-Datenmodellierungsaufgaben einschließt. Unsere Evaluation der modernsten LLMs, LVLMs und Agenten zeigt, dass sie bei den meisten Aufgaben Schwierigkeiten haben, wobei der beste Agent nur 34,12% der Datenanalyseaufgaben löst und eine Relative Performance Gap (RPG) von 34,74% erreicht. Diese Ergebnisse unterstreichen die Notwendigkeit weiterer Fortschritte bei der Entwicklung praktischerer, intelligenterer und autonomer Datenwissenschaftsagenten.
Große Sprachmodelle (LLMs) zeigen bemerkenswertes Potenzial, als Computeragenten zu agieren und die menschliche Produktivität und die Zugänglichkeit von Software in multimodalen Aufgaben zu verbessern, die Planung und Schlussfolgerung erfordern. Die Messung der Leistung von Agenten in realistischen Umgebungen bleibt jedoch eine Herausforderung, da: (i) die meisten Benchmarks auf spezifische Modalitäten oder Domänen beschränkt sind (z. B. nur Text, Webnavigation, Frage-Antwort, Codierung) und (ii) vollständige Benchmark-Evaluationen aufgrund der mehrstufigen sequenziellen Natur von Aufgaben langsam sind (im Bereich von Tagen). Um diesen Herausforderungen zu begegnen, führen wir die Windows Agent Arena ein: eine reproduzierbare, allgemeine Umgebung, die sich ausschließlich auf das Windows-Betriebssystem (OS) konzentriert, in der Agenten frei innerhalb eines echten Windows OS agieren können und dieselbe breite Palette von Anwendungen, Tools und Webbrowsern nutzen können, die menschlichen Benutzern zur Verfügung stehen, wenn sie Aufgaben lösen. Wir passen das OSWorld-Framework (Xie et al., 2024) an, um über 150 verschiedene Windows-Aufgaben in repräsentativen Domänen zu erstellen, die Agentenfähigkeiten in Planung, Bildschirmverständnis und Werkzeugnutzung erfordern. Unser Benchmark ist skalierbar und kann nahtlos in Azure parallelisiert werden, um eine vollständige Benchmark-Evaluation in nur 20 Minuten durchzuführen. Um die Fähigkeiten der Windows Agent Arena zu demonstrieren, stellen wir auch einen neuen multimodalen Agenten, Navi, vor. Unser Agent erreicht eine Erfolgsquote von 19,5% im Windows-Bereich im Vergleich zur Leistung eines ununterstützten Menschen von 74,5%. Navi zeigt auch eine starke Leistung in einem anderen beliebten webbasierten Benchmark, Mind2Web. Wir bieten eine umfangreiche quantitative und qualitative Analyse der Leistung von Navi und geben Einblicke in die Möglichkeiten für zukünftige Forschung in der Agentenentwicklung und der Datengenerierung unter Verwendung der Windows Agent Arena. Webseite: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) haben Optimismus hinsichtlich ihres Potenzials geweckt, wissenschaftliche Entdeckungen zu beschleunigen, wobei eine wachsende Anzahl von Arbeiten Forschungsagenten vorschlägt, die autonom neue Ideen generieren und validieren. Trotzdem hat bisher keine Bewertung gezeigt, dass LLM-Systeme den allerersten Schritt machen können, um neuartige, auf Expertenniveau befindliche Ideen zu produzieren, geschweige denn den gesamten Forschungsprozess durchzuführen. Diesem Thema nähern wir uns, indem wir ein experimentelles Design etablieren, das die Generierung von Forschungsideen bewertet, während es Störfaktoren kontrolliert und den ersten direkten Vergleich zwischen Experten für NLP und einem LLM-Ideenagenten durchführt. Durch die Rekrutierung von über 100 NLP-Forschern zur Erstellung von neuen Ideen und zur Blindbewertung sowohl von LLM- als auch von menschlichen Ideen erhalten wir die erste statistisch signifikante Schlussfolgerung über die aktuellen Fähigkeiten von LLMs für die Ideenfindung in der Forschung: Wir stellen fest, dass LLM-generierte Ideen als neuartiger bewertet werden (p < 0,05) als menschliche Expertenideen, während sie etwas schwächer in Bezug auf die Machbarkeit beurteilt werden. Durch die genaue Untersuchung unserer Agenten-Baselines identifizieren wir offene Probleme beim Aufbau und der Bewertung von Forschungsagenten, einschließlich der Versäumnisse bei der Selbstbewertung von LLMs und deren Mangel an Vielfalt bei der Generierung. Abschließend erkennen wir an, dass die menschliche Bewertung von Neuheit selbst für Experten schwierig sein kann, und schlagen ein End-to-End-Studienkonzept vor, bei dem Forscher beauftragt werden, diese Ideen in vollständige Projekte umzusetzen. Dies ermöglicht es uns zu untersuchen, ob diese Bewertungen der Neuheit und Machbarkeit zu bedeutenden Unterschieden im Forschungsergebnis führen.
Während Text-zu-Bild (T2I) Diffusionsmodelle hervorragend darin sind, visuell ansprechende Bilder einzelner Instanzen zu generieren, haben sie Schwierigkeiten, die Merkmalsgenerierung mehrerer Instanzen genau zu positionieren und zu steuern. Die Layout-zu-Bild (L2I) Aufgabe wurde eingeführt, um die Positionierungsherausforderungen durch die Einbeziehung von Bounding-Boxen als räumliche Steuersignale anzugehen, aber sie erreicht immer noch nicht die präzise Generierung von Instanzmerkmalen. Als Antwort schlagen wir die Aufgabe der Instanzmerkmalgenerierung (IFG) vor, die darauf abzielt, sowohl die Positionsgenauigkeit als auch die Merkmalsfidelität bei generierten Instanzen sicherzustellen. Um die IFG-Aufgabe anzugehen, führen wir den Instanzmerkmaladapter (IFAdapter) ein. Der IFAdapter verbessert die Merkmalsdarstellung, indem er zusätzliche Erscheinungstoken einbezieht und eine Instanzsemantikkarte verwendet, um Instanzebenenmerkmale mit räumlichen Positionen abzustimmen. Der IFAdapter lenkt den Diffusionsprozess als Plug-and-Play-Modul und macht ihn anpassbar an verschiedene Community-Modelle. Zur Bewertung tragen wir einen IFG-Benchmark bei und entwickeln eine Verifizierungspipeline, um die Fähigkeiten der Modelle zur Generierung von Instanzen mit genauer Positionierung und Merkmalen objektiv zu vergleichen. Experimentelle Ergebnisse zeigen, dass der IFAdapter in quantitativen und qualitativen Bewertungen andere Modelle übertrifft.
Große Sprachmodelle haben immer noch Schwierigkeiten in anspruchsvollen Szenarien, die strukturierte Daten, komplexe Argumentation oder Werkzeugnutzung nutzen. In diesem Artikel schlagen wir Source2Synth vor: eine neue Methode, die verwendet werden kann, um LLMs neue Fähigkeiten beizubringen, ohne auf teure menschliche Annotationen angewiesen zu sein. Source2Synth nimmt eine benutzerdefinierte Datenquelle als Eingabe und erzeugt synthetische Datenpunkte mit Zwischenschritten der Argumentation, die auf realen Quellen basieren. Source2Synth verbessert die Qualität des Datensatzes, indem niedrigwertige Generierungen anhand ihrer Beantwortbarkeit verworfen werden. Wir zeigen die Allgemeingültigkeit dieses Ansatzes, indem wir ihn auf zwei anspruchsvolle Bereiche anwenden: Wir testen Argumentationsfähigkeiten in der mehrstufigen Fragebeantwortung (MHQA) und Werkzeugnutzung in der tabellarischen Fragebeantwortung (TQA). Unsere Methode verbessert die Leistung um 25,51% für TQA in WikiSQL und um 22,57% für MHQA in HotPotQA im Vergleich zu den feinabgestimmten Ausgangswerten.
Neueste Durchbrüche in Text-zu-Bild-Modellen haben vielversprechende Forschungswege in der personalisierten Bildgenerierung eröffnet, die es Benutzern ermöglichen, vielfältige Bilder eines bestimmten Themas mithilfe natürlicher Sprachanweisungen zu erstellen. Allerdings leiden bestehende Methoden oft unter Leistungsabfall, wenn nur ein einzelnes Referenzbild bereitgestellt wird. Sie neigen dazu, sich zu stark an die Eingabe anzupassen und produzieren sehr ähnliche Ergebnisse unabhängig von der Textanweisung. Dieser Artikel befasst sich mit der Herausforderung der Personalisierung mit nur einer Aufnahme, indem er das Überanpassungsproblem mildert und die Erstellung steuerbarer Bilder durch Textanweisungen ermöglicht. Konkret schlagen wir eine selektive Feinabstimmungsstrategie vor, die sich auf den Text-Encoder konzentriert. Darüber hinaus führen wir drei Schlüsseltechniken ein, um die Personalisierungsleistung zu verbessern: (1) Augmentierungstoken zur Förderung der Merkmalsentflechtung und zur Linderung von Überanpassung, (2) einen Wissensbewahrungsverlust zur Reduzierung von Sprachdrift und zur Förderung der Verallgemeinerung über verschiedene Anweisungen hinweg und (3) SNR-gewichtete Abtastung für effizientes Training. Umfangreiche Experimente zeigen, dass unser Ansatz hochwertige, vielfältige Bilder effizient generiert, wenn nur ein einzelnes Referenzbild verwendet wird, wobei gleichzeitig der Speicher- und Speicherplatzbedarf signifikant reduziert wird.
Wir präsentieren DreamHOI, eine innovative Methode zur Null-Shot-Synthese von Mensch-Objekt-Interaktionen (HOIs), die es einem 3D-Menschmodell ermöglicht, realistisch mit einem beliebigen Objekt basierend auf einer textuellen Beschreibung zu interagieren. Diese Aufgabe wird durch die unterschiedlichen Kategorien und Geometrien realer Objekte sowie die Knappheit von Datensätzen, die vielfältige HOIs umfassen, kompliziert. Um aufwendige Datensammlungen zu umgehen, greifen wir auf Text-zu-Bild-Diffusionsmodelle zurück, die auf Milliarden von Bildunterschriften-Paaren trainiert wurden. Wir optimieren die Artikulation eines skalierten menschlichen Netzes unter Verwendung von Score Distillation Sampling (SDS)-Gradienten, die von diesen Modellen erhalten werden und Bildraum-Änderungen vorhersagen. Direktes Rückpropagieren von Bildraum-Gradienten in komplexe Artikulationsparameter ist aufgrund der lokalen Natur solcher Gradienten ineffektiv. Um dies zu überwinden, führen wir eine duale implizit-explicit Repräsentation eines skalierten Netzes ein, die (implizite) neuronale Strahlungsfelder (NeRFs) mit (expliziter) skelettgesteuerter Netzartikulation kombiniert. Während der Optimierung wechseln wir zwischen impliziten und expliziten Formen und verankern die NeRF-Generierung, während wir die Netzartikulation verfeinern. Wir validieren unseren Ansatz durch umfangreiche Experimente, die seine Wirksamkeit bei der Erzeugung realistischer HOIs zeigen.
Angetrieben von der Welle der Large Language Models (LLMs) sind Large Visual-Language Models (LVLMs) als entscheidender Fortschritt entstanden, der die Kluft zwischen Bild und Text überbrückt. Allerdings gestaltet es sich für LVLMs als herausfordernd, Videos angemessen zu verarbeiten, aufgrund der Komplexität der Beziehung zwischen Sprache und räumlich-zeitlicher Datenstruktur. Kürzlich entwickelte Large Video-Language Models (LVidLMs) richten Merkmale statischer visueller Daten wie Bilder in den latenten Raum von Sprachmerkmalen aus, indem sie allgemeine multimodale Aufgaben nutzen, um die Fähigkeiten von LLMs ausreichend zu nutzen. In diesem Paper erforschen wir einen feinkörnigen Ausrichtungsansatz über Objekttrajektorien für verschiedene Modalitäten über sowohl räumliche als auch zeitliche Dimensionen gleichzeitig. Daher schlagen wir ein neuartiges LVidLM durch die tragektoriengesteuerte Pixel-Zeit-Ausrichtung vor, genannt PiTe, das vielversprechende anwendbare Modelleigenschaften aufweist. Um eine feinkörnige Video-Sprach-Ausrichtung zu erreichen, erstellen wir einen multimodalen Vor-Trainingsdatensatz PiTe-143k, der die Bereitstellung von Bewegungstrajektorien auf Pixel-Ebene für alle einzelnen Objekte kuratiert, die sowohl im Video als auch in der Bildunterschrift erscheinen und erwähnt werden, durch unsere automatische Annotationspipeline. In der Zwischenzeit zeigt PiTe erstaunliche Fähigkeiten in zahlreichen video-bezogenen multimodalen Aufgaben, indem es die State-of-the-Art-Methoden bei weitem übertrifft.
Diese Studie befasst sich mit der Herausforderung, 3D-Gauß-Splatting genau aus 2D-Masken zu segmentieren. Herkömmliche Methoden verlassen sich oft auf iterative Gradientenabstiegsverfahren, um jedem Gauß eine eindeutige Kennzeichnung zuzuweisen, was zu langwierigen Optimierungen und suboptimalen Lösungen führt. Stattdessen schlagen wir einen einfachen, aber global optimalen Solver für die 3D-GS-Segmentierung vor. Der Kerngedanke unserer Methode ist, dass bei einer rekonstruierten 3D-GS-Szene die Darstellung der 2D-Masken im Wesentlichen eine lineare Funktion in Bezug auf die Kennzeichnungen jedes Gaußschen ist. Als solches kann die optimale Kennzeichnung durch lineare Programmierung in geschlossener Form gelöst werden. Diese Lösung nutzt die Alpha-Blending-Eigenschaft des Splatting-Prozesses für die Optimierung in einem Schritt aus. Durch die Einbeziehung des Hintergrundbias in unsere Ziel-Funktion zeigt unsere Methode eine überlegene Robustheit bei der 3D-Segmentierung gegenüber Störungen. Bemerkenswerterweise ist unsere Optimierung innerhalb von 30 Sekunden abgeschlossen, etwa 50-mal schneller als die besten vorhandenen Methoden. Umfangreiche Experimente zeigen die Effizienz und Robustheit unserer Methode bei der Segmentierung verschiedener Szenen sowie ihre überlegene Leistung bei nachgelagerten Aufgaben wie Objektentfernung und Inpainting. Demos und Code sind verfügbar unter https://github.com/florinshen/FlashSplat.
Die Detektion von Objekten außerhalb der Verteilung (Out-of-Distribution, OOD) ist aufgrund des Mangels an Open-Set OOD-Daten eine anspruchsvolle Aufgabe. Inspiriert von den jüngsten Fortschritten bei textbasierten Bildgenerierungsmodellen, wie z.B. der Stable Diffusion, untersuchen wir das Potenzial von generativen Modellen, die auf groß angelegten Open-Set-Daten trainiert sind, um OOD-Stichproben zu synthetisieren und somit die Detektion von OOD-Objekten zu verbessern. Wir stellen SyncOOD vor, eine einfache Datenaufbereitungsmethode, die die Fähigkeiten großer Grundlagenmodelle nutzt, um automatisch sinnvolle OOD-Daten aus textbasierten Bildgenerierungsmodellen zu extrahieren. Dies bietet dem Modell Zugang zu offenem Weltwissen, das in Standardmodellen eingebettet ist. Die synthetischen OOD-Stichproben werden dann verwendet, um das Training eines leichten, Plug-and-Play OOD-Detektors zu erweitern und somit die Entscheidungsgrenzen zwischen In-Distribution (ID) und OOD effektiv zu optimieren. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass SyncOOD signifikant besser abschneidet als bestehende Methoden und mit minimalem Einsatz synthetischer Daten eine neue State-of-the-Art-Leistung etabliert.