Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Dieses Paper behandelt ein wichtiges Problem der Objektzusatz für Bilder nur mit Textanleitung. Dies ist herausfordernd, da das neue Objekt nahtlos in das Bild mit konsistentem visuellen Kontext integriert werden muss, wie Beleuchtung, Textur und räumliche Lage. Während bestehende textgesteuerte Bildinpainting-Methoden Objekte hinzufügen können, scheitern sie entweder daran, die Hintergrundkonsistenz zu bewahren oder erfordern umständliche menschliche Eingriffe zur Spezifizierung von Bounding-Boxen oder Benutzer-Scribble-Masken. Um diese Herausforderung anzugehen, stellen wir Diffree vor, ein Text-zu-Bild (T2I)-Modell, das die textgesteuerte Objektzusatz mit nur textueller Steuerung erleichtert. Zu diesem Zweck kuratieren wir OABench, einen exquisiten synthetischen Datensatz, indem wir Objekte mit fortschrittlichen Bildinpainting-Techniken entfernen. OABench umfasst 74K realweltliche Tupel eines Originalbildes, eines mit entferntem Objekt ininpainted Bildes, einer Objektmaske und Objektbeschreibungen. Trainiert auf OABench mit dem Stable Diffusion-Modell und einem zusätzlichen Maskenprädiktionsmodul, sagt Diffree einzigartig die Position des neuen Objekts voraus und erreicht Objektzusatz mit nur textueller Anleitung. Umfangreiche Experimente zeigen, dass Diffree sich darin auszeichnet, neue Objekte mit hoher Erfolgsrate hinzuzufügen, während Hintergrundkonsistenz, räumliche Angemessenheit sowie Objektbezug und -qualität erhalten bleiben.
Wir stellen "LAMBDA" vor, ein neuartiges Open-Source-, Code-freies Multi-Agenten-Datenanalyse-System, das die Leistung großer Modelle nutzt. LAMBDA wurde entwickelt, um Datenanalyse-Herausforderungen in komplexen datengetriebenen Anwendungen mithilfe innovativ gestalteter Datenagenten anzugehen, die iterativ und generativ unter Verwendung natürlicher Sprache arbeiten. Im Kern von LAMBDA stehen zwei Schlüsselrollen der Agenten: der Programmierer und der Inspektor, die nahtlos zusammenarbeiten. Speziell generiert der Programmierer Code basierend auf den Anweisungen des Benutzers und domänenspezifischem Wissen, das durch fortschrittliche Modelle verbessert wird. Der Inspektor debuggt den Code bei Bedarf. Um Robustheit zu gewährleisten und mit ungünstigen Szenarien umzugehen, verfügt LAMBDA über eine Benutzeroberfläche, die direkte Benutzereingriffe in die Betriebsschleife ermöglicht. Darüber hinaus kann LAMBDA flexibel externe Modelle und Algorithmen durch unseren Wissensintegrationsmechanismus integrieren, um den Anforderungen der individuellen Datenanalyse gerecht zu werden. LAMBDA hat eine starke Leistungsfähigkeit auf verschiedenen maschinellen Lern-Datensätzen gezeigt. Es hat das Potenzial, die Praxis der Datenwissenschaft und das Analyse-Paradigma zu verbessern, indem es menschliche und künstliche Intelligenz nahtlos integriert und so für Personen aus unterschiedlichen Hintergründen zugänglicher, effektiver und effizienter macht. Die starke Leistung von LAMBDA bei der Lösung von Datenwissenschaftsproblemen wird in mehreren Fallstudien demonstriert, die unter https://www.polyu.edu.hk/ama/cmfai/lambda.html präsentiert werden.
In jüngster Zeit haben Fortschritte bei großen Sprachmodellen (LLMs) neue Möglichkeiten für die Anwendung von Multi-Agenten-Systemen in sehr großen Simulationen eröffnet. Es bestehen jedoch mehrere Herausforderungen bei der Durchführung von Multi-Agenten-Simulationen mit bestehenden Plattformen, wie begrenzte Skalierbarkeit und geringe Effizienz, unzureichende Agentenvielfalt und arbeitsintensive Verwaltungsprozesse. Um diesen Herausforderungen zu begegnen, haben wir mehrere neue Funktionen und Komponenten für AgentScope entwickelt, eine benutzerfreundliche Multi-Agenten-Plattform, um ihre Bequemlichkeit und Flexibilität zur Unterstützung von sehr großen Multi-Agenten-Simulationen zu verbessern. Konkret schlagen wir einen auf Akteuren basierenden verteilten Mechanismus als zugrunde liegende technologische Infrastruktur für hohe Skalierbarkeit und Effizienz vor und bieten flexible Umgebung unterstützung für die Simulation verschiedener realer Szenarien, was parallele Ausführung mehrerer Agenten, zentrale Workflow-Orchestrierung sowie Interaktionen zwischen Agenten und Agenten-Umgebung unter den Agenten ermöglicht. Darüber hinaus integrieren wir ein benutzerfreundliches konfigurierbares Tool und eine automatische Hintergrundgenerierungspipeline in AgentScope, um den Prozess der Erstellung von Agenten mit vielfältigen und detaillierten Hintergrund-Einstellungen zu vereinfachen. Zuletzt bieten wir eine webbasierte Benutzeroberfläche zur bequemen Überwachung und Verwaltung einer großen Anzahl von Agenten, die auf mehreren Geräten bereitgestellt werden können. Wir führen eine umfassende Simulation durch, um die Wirksamkeit der vorgeschlagenen Verbesserungen in AgentScope zu demonstrieren, und bieten detaillierte Beobachtungen und Diskussionen, um das große Potenzial der Anwendung von Multi-Agenten-Systemen in groß angelegten Simulationen hervorzuheben. Der Quellcode ist auf GitHub unter https://github.com/modelscope/agentscope veröffentlicht, um weitere Forschung und Entwicklung in groß angelegten Multi-Agenten-Simulationen zu inspirieren.
Durch das Training über umfangreiche Datensätze zeigen Zero-Shot-Monokular-Tiefenschätzungsverfahren (MDE) robuste Leistungen in der Wildnis, leiden jedoch oft unter unzureichend präzisen Details. Obwohl neuere diffusionsbasierte MDE-Ansätze eine ansprechende Fähigkeit zur Detailextraktion aufweisen, haben sie immer noch Schwierigkeiten in geometrisch anspruchsvollen Szenen aufgrund der Schwierigkeit, robuste geometrische Vorkenntnisse aus vielfältigen Datensätzen zu gewinnen. Um die ergänzenden Vorteile beider Welten zu nutzen, schlagen wir BetterDepth vor, um auf effiziente Weise eine geometrisch korrekte, affin-invariante MDE-Leistung zu erzielen, während feinste Details erfasst werden. Konkret handelt es sich bei BetterDepth um einen bedingten diffusionsbasierten Verfeinerer, der die Vorhersage von vorab trainierten MDE-Modellen als Tiefenkonditionierung verwendet, wobei der globale Tiefenzusammenhang gut erfasst wird und Details iterativ basierend auf dem Eingabebild verfeinert werden. Für das Training eines solchen Verfeinerers schlagen wir globale Vorabausrichtungs- und lokale Patchmaskierungsmethoden vor, um die Treue von BetterDepth zur Tiefenkonditionierung sicherzustellen, während gelernt wird, feinste Szenendetails zu erfassen. Durch effizientes Training auf kleinen synthetischen Datensätzen erzielt BetterDepth eine Spitzenleistung bei Zero-Shot-MDE auf vielfältigen öffentlichen Datensätzen und in Wildszenen. Darüber hinaus kann BetterDepth die Leistung anderer MDE-Modelle auf einfache Weise verbessern, ohne dass zusätzliches Neutraining erforderlich ist.
KI-Agenten haben hauptsächlich aufgrund ihrer Fähigkeit, Umgebungen wahrzunehmen, Aufgaben zu verstehen und autonom Ziele zu erreichen, zunehmend Aufmerksamkeit erregt. Um die Forschung zu KI-Agenten in mobilen Szenarien voranzutreiben, stellen wir das Android Multi-annotation EXpo (AMEX) vor, einen umfassenden, groß angelegten Datensatz, der für generalistische mobile GUI-Steuerungsagenten konzipiert ist. Deren Fähigkeiten, komplexe Aufgaben durch direkte Interaktion mit der grafischen Benutzeroberfläche (GUI) auf mobilen Geräten zu erledigen, werden mit dem vorgeschlagenen Datensatz trainiert und bewertet. AMEX umfasst über 104.000 hochauflösende Screenshots von 110 beliebten mobilen Anwendungen, die auf mehreren Ebenen annotiert sind. Im Gegensatz zu bestehenden Datensätzen zur Steuerung mobiler Geräte, z. B. MoTIF, AitW usw., enthält AMEX drei Ebenen von Annotationen: GUI-interaktive Elementverankerung, GUI-Bildschirm- und Elementfunktionsbeschreibungen sowie komplexe natürlichsprachliche Anweisungen, die durchschnittlich 13 Schritte mit schrittweisen GUI-Aktionsketten umfassen. Wir entwickeln diesen Datensatz aus einer instruktiven und detaillierten Perspektive, um die allgemeinen Einstellungen bestehender Datensätze zu ergänzen. Darüber hinaus entwickeln wir ein Basismodell SPHINX Agent und vergleichen dessen Leistung mit Agenten auf dem neuesten Stand der Technik, die auf anderen Datensätzen trainiert wurden. Um weitere Forschung zu erleichtern, stellen wir unseren Datensatz, Modelle und relevante Evaluierungstools als Open Source zur Verfügung. Das Projekt ist unter https://yuxiangchai.github.io/AMEX/ verfügbar.
Das Risiko schädlicher Inhalte, die von großen Sprachmodellen (LLMs) generiert werden, wird zu einem kritischen Anliegen. Dieser Artikel präsentiert eine systematische Studie zur Bewertung und Verbesserung der Fähigkeit von LLMs, die Aufgabe der Kurskorrektur auszuführen, d.h. das Modell kann autonom davon abweichen, schädliche Inhalte zu generieren. Zunächst stellen wir das C^2-Eval-Benchmark zur quantitativen Bewertung vor und analysieren 10 beliebte LLMs, wobei unterschiedliche Fähigkeiten der aktuellen sicherheitsoptimierten LLMs bei der Kurskorrektur aufgedeckt werden. Zur Verbesserung schlagen wir Feinabstimmung von LLMs mit Präferenzlernen vor, wobei die Präferenz für rechtzeitige Kurskorrekturen betont wird. Unter Verwendung eines automatisierten Workflows erstellen wir C^2-Syn, einen synthetischen Datensatz mit 750K paarweisen Präferenzen, um den Modellen das Konzept der rechtzeitigen Kurskorrektur durch datengesteuertes Präferenzlernen beizubringen. Experimente mit 2 LLMs, Llama2-Chat 7B und Qwen2 7B, zeigen, dass unsere Methode die Fähigkeiten zur Kurskorrektur effektiv verbessert, ohne die allgemeine Leistung zu beeinträchtigen. Darüber hinaus verbessert sie effektiv die Sicherheit von LLMs, insbesondere bei der Abwehr von Jailbreak-Angriffen.
Die Vortrainingsdaten der heutigen leistungsstärksten Sprachmodelle sind undurchsichtig. Insbesondere ist wenig bekannt über die Anteile verschiedener Domänen oder Sprachen, die vertreten sind. In dieser Arbeit behandeln wir eine Aufgabe, die wir als Datengemisch-Inferenz bezeichnen, die darauf abzielt, die Verteilungszusammensetzung der Trainingsdaten aufzudecken. Wir stellen einen neuartigen Angriff vor, der auf einer zuvor übersehenen Informationsquelle basiert - Byte-Pair-Encoding (BPE)-Tokenizer, die von der überwiegenden Mehrheit der modernen Sprachmodelle verwendet werden. Unsere Schlüsselerkenntnis ist, dass die geordnete Liste der Lernregeln eines BPE-Tokenizers auf natürliche Weise Informationen über die Token-Häufigkeiten in seinen Trainingsdaten offenbart: Das erste Zusammenführen ist das häufigste Byte-Paar, das zweite ist das häufigste Paar nach dem Zusammenführen des ersten Tokens usw. Basierend auf der Zusammenführungsliste eines Tokenizers zusammen mit Datenbeispielen für jede interessierende Kategorie formulieren wir ein lineares Programm, das die Anteile jeder Kategorie im Trainingsdatensatz des Tokenizers löst. Wichtig ist, dass wir, in dem Maße, in dem die Trainingsdaten des Tokenizers repräsentativ für die Vortrainingsdaten sind, indirekt Informationen über die Vortrainingsdaten erhalten. In kontrollierten Experimenten zeigen wir, dass unser Angriff Mischungsverhältnisse mit hoher Präzision für Tokenizers wiederherstellt, die auf bekannten Mischungen natürlicher Sprachen, Programmiersprachen und Datenquellen trainiert sind. Anschließend wenden wir unseren Ansatz auf sofort einsatzbereite Tokenizers an, die mit kürzlich veröffentlichten LMs veröffentlicht wurden. Wir bestätigen viele öffentlich bekannt gegebene Informationen über diese Modelle und ziehen auch mehrere neue Schlussfolgerungen: Der Tokenizer von GPT-4o ist viel mehrsprachig als seine Vorgänger und trainiert mit 39 % nicht-englischen Daten; Llama3 erweitert den Tokenizer von GPT-3.5 hauptsächlich für den mehrsprachigen (48 %) Gebrauch; Die Tokenizer von GPT-3.5 und Claude sind hauptsächlich auf Code (~60 %) trainiert. Wir hoffen, dass unsere Arbeit Einblicke in aktuelle Designpraktiken für Vortrainingsdaten bietet und weiterführende Forschung zur Datengemisch-Inferenz für LMs anregt.
Im Bereich der Anweisungsverfolgung großer Vision-Sprachmodelle (LVLMs) stehen die effiziente Bereitstellung dieser Modelle vor Herausforderungen, insbesondere aufgrund des hohen Speicherbedarfs ihrer Schlüssel-Wert (KV) Caches. Herkömmliche Cache-Verwaltungsstrategien für LLMs konzentrieren sich auf Cache-Verdrängung, was oft nicht auf die spezifischen Anforderungen multimodaler Anweisungsverfolgungsmodelle eingeht. Um diese Lücke zu erkennen, stellen wir in diesem Papier Elastic Cache vor, einen neuartigen Ansatz, der von der Anwendung unterschiedlicher Beschleunigungsmethoden für die Anweisungskodierung und die Ausgabenerzeugungsphasen profitiert. Wir untersuchen die wichtigen Metriken in verschiedenen Phasen und schlagen eine bedeutungsgetriebene Cache-Verschmelzungsstrategie vor, um redundante Caches zu reduzieren. Anstatt weniger wichtige Caches zu verwerfen, identifiziert unsere Strategie wichtige Schlüssel/Wert-Vektoren als Ankerpunkte. Umgebende weniger wichtige Caches werden dann mit diesen Ankerpunkten verschmolzen, wodurch die Erhaltung von Kontextinformationen in den KV-Caches verbessert wird und ein beliebiges Beschleunigungsverhältnis erzielt wird. Für die Anweisungskodierung verwenden wir die Häufigkeit, um die Bedeutung von Caches zu bewerten. In Bezug auf die Ausgabenerzeugung priorisieren wir Token basierend auf ihrem Abstand mit einem Offset, wodurch sowohl die anfänglichen als auch die neuesten Token beibehalten werden. Ergebnisse auf einer Reihe von LVLMs zeigen, dass Elastic Cache nicht nur die Effizienz steigert, sondern auch in der Sprachgenerierung über verschiedene Aufgaben hinweg signifikant bessere Leistungen als bestehende Beschneidungsmethoden erbringt. Der Code ist verfügbar unter https://github.com/liuzuyan/ElasticCache.
In jüngster Zeit haben bedeutende Fortschritte die Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) bei der Generierung und dem Verständnis von Bild-zu-Text-Inhalten erheblich verbessert. Trotz dieser Erfolge ist der Fortschritt hauptsächlich auf Englisch beschränkt, aufgrund des Mangels an hochwertigen multimodalen Ressourcen in anderen Sprachen. Diese Begrenzung behindert die Entwicklung wettbewerbsfähiger Modelle in Sprachen wie Arabisch. Um diese Situation zu verbessern, stellen wir einen effizienten arabischen multimodalen Assistenten namens Dallah vor, der ein fortschrittliches Sprachmodell auf Basis von LLaMA-2 nutzt, um multimodale Interaktionen zu erleichtern. Dallah zeigt eine Leistung auf dem neuesten Stand der Technik bei arabischen MLLMs. Durch Feinabstimmung von sechs arabischen Dialekten zeigt Dallah seine Fähigkeit, komplexe dialektale Interaktionen zu bewältigen, die sowohl textuelle als auch visuelle Elemente umfassen. Das Modell zeichnet sich in zwei Benchmark-Tests aus: einer, der seine Leistung bei Modern Standard Arabic (MSA) bewertet, und ein anderer, der speziell entwickelt wurde, um dialektale Antworten zu bewerten. Über seine robuste Leistung bei multimodalen Interaktionsaufgaben hinaus hat Dallah das Potenzial, den Weg für die weitere Entwicklung von dialektbewussten arabischen MLLMs zu ebnen.
Die Segmentierung von Zellkernen in Gewebebildern, die mit dem Blutfarbstoff Hämatoxylin und Eosin (H&E) gefärbt sind, ist für verschiedene klinische Anwendungen und Analysen unerlässlich. Aufgrund der komplexen Merkmale der zellulären Morphologie wird ein großes Rezeptivfeld als entscheidend für die Erzeugung hochwertiger Segmentierungen angesehen. Bisherige Methoden stehen jedoch vor Herausforderungen, einen Ausgleich zwischen dem Rezeptivfeld und dem Rechenaufwand zu erreichen. Um dieses Problem anzugehen, schlagen wir LKCell vor, eine hochpräzise und effiziente Zellsegmentierungsmethode. Der Kerngedanke liegt darin, das Potenzial großer Faltungskerne zu nutzen, um rechentechnisch effiziente große Rezeptivfelder zu erzielen. Konkret: (1) Wir übertragen erstmals vortrainierte große Faltungskernmodelle in den medizinischen Bereich und zeigen deren Wirksamkeit bei der Zellsegmentierung. (2) Wir analysieren die Redundanz früherer Methoden und entwerfen einen neuen Segmentierungsdecoder auf der Basis großer Faltungskerne. Dieser erzielt eine höhere Leistung und reduziert signifikant die Anzahl der Parameter. Wir evaluieren unsere Methode anhand des anspruchsvollsten Benchmarks und erzielen Spitzenresultate (0.5080 mPQ) in der Instanzsegmentierung von Zellkernen mit nur 21,6% FLOPs im Vergleich zur bisher führenden Methode. Unser Quellcode und Modelle sind unter https://github.com/hustvl/LKCell verfügbar.
Wir präsentieren einen Überblick über die FIGNEWS Shared Task, der im Rahmen der ArabicNLP 2024 Konferenz organisiert wurde, die zusammen mit ACL 2024 stattfand. Die Shared Task befasst sich mit der Annotation von Voreingenommenheit und Propaganda in mehrsprachigen Nachrichtenbeiträgen. Wir konzentrieren uns auf die Anfangsphase des Israel-Krieges gegen Gaza als Fallstudie. Das Ziel der Aufgabe besteht darin, die Zusammenarbeit bei der Entwicklung von Annotierungsrichtlinien für subjektive Aufgaben zu fördern, indem Rahmenbedingungen für die Analyse verschiedener Erzählungen geschaffen werden, die potenzielle Voreingenommenheit und Propaganda hervorheben. In einem Geist der Förderung und Ermutigung von Vielfalt behandeln wir das Problem aus einer mehrsprachigen Perspektive, nämlich in fünf Sprachen: Englisch, Französisch, Arabisch, Hebräisch und Hindi. Insgesamt nahmen 17 Teams an zwei Annotierungs-Teilaufgaben teil: Voreingenommenheit (16 Teams) und Propaganda (6 Teams). Die Teams konkurrierten in vier Bewertungsbereichen: Entwicklung von Richtlinien, Annotierungsqualität, Annotierungsmenge und Konsistenz. Insgesamt produzierten die Teams 129.800 Datenpunkte. Schlüsselerkenntnisse und Implikationen für das Feld werden diskutiert.
Die Identifizierung signifikanter Referenzen innerhalb der komplexen Wechselbeziehungen eines Zitationswissensgraphen ist herausfordernd, da sie Verbindungen über Zitationen, Autorschaft, Stichwörter und andere relationale Attribute umfasst. Die Aufgabe der Papierquellenverfolgung (PST) zielt darauf ab, die Identifizierung entscheidender Referenzen für gegebene wissenschaftliche Artikel mithilfe fortschrittlicher Datenanalysetechniken zu automatisieren. Im KDD CUP 2024 entwerfen wir ein auf Empfehlungen basierendes Framework, das speziell für die PST-Aufgabe entwickelt wurde. Dieses Framework verwendet das Neural Collaborative Filtering (NCF)-Modell zur Generierung endgültiger Vorhersagen. Um die textuellen Attribute der Artikel zu verarbeiten und Eingabemerkmale für das Modell zu extrahieren, nutzen wir SciBERT, ein vortrainiertes Sprachmodell. Gemäß den experimentellen Ergebnissen erzielte unsere Methode einen Wert von 0.37814 auf der Mean Average Precision (MAP)-Metrik, übertraf Basismodelle und belegte den 11. Platz unter allen teilnehmenden Teams. Der Quellcode ist öffentlich unter https://github.com/MyLove-XAB/KDDCupFinal verfügbar.