Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
LLMs und RAG-Systeme sind jetzt in der Lage, Millionen von Eingabetokens oder mehr zu verarbeiten. Die Bewertung der Ausgabequalität solcher Systeme bei Aufgaben mit langem Kontext bleibt jedoch herausfordernd, da Aufgaben wie "Nadel im Heuhaufen" an Komplexität fehlen. In dieser Arbeit argumentieren wir, dass Zusammenfassungen eine zentrale Rolle bei einer solchen Bewertung spielen können. Wir entwerfen ein Verfahren zur Synthese von Heuhaufen aus Dokumenten, um sicherzustellen, dass spezifische Erkenntnisse in den Dokumenten wiederholt werden. Die Aufgabe "Zusammenfassung eines Heuhaufens" (SummHay) erfordert dann von einem System, den Heuhaufen zu verarbeiten und basierend auf einer Abfrage eine Zusammenfassung zu generieren, die die relevanten Erkenntnisse identifiziert und die Quelldokumente präzise zitiert. Da wir genaue Kenntnisse darüber haben, welche Erkenntnisse in einer Heuhaufenzusammenfassung erscheinen sollten und welche Dokumente zitiert werden sollten, implementieren wir eine hoch reproduzierbare automatische Bewertung, die Zusammenfassungen in zwei Aspekten bewerten kann - Abdeckung und Zitat. Wir generieren Heuhaufen in zwei Bereichen (Gespräch, Nachrichten) und führen eine groß angelegte Bewertung von 10 LLMs und entsprechenden 50 RAG-Systemen durch. Unsere Ergebnisse deuten darauf hin, dass SummHay eine offene Herausforderung für aktuelle Systeme darstellt, da selbst Systeme, die mit einem Oracle-Signal der Dokumentrelevanz versehen sind, unsere Schätzung der menschlichen Leistung (56\%) um mehr als 10 Punkte bei einem gemeinsamen Score verfehlen. Ohne einen Retrievalerzielerzieler, erzielen LLMs mit langem Kontext wie GPT-4o und Claude 3 Opus weniger als 20% bei SummHay. Wir zeigen, dass SummHay auch zur Untersuchung von Unternehmens-RAG-Systemen und Positionsbias in Langkontextmodellen verwendet werden kann. Wir hoffen, dass zukünftige Systeme die menschliche Leistung bei SummHay erreichen und übertreffen können.
In jüngster Zeit haben Fortschritte bei großen Sprachmodellen (LLMs) die Automatisierung von Softwareentwicklungsaufgaben wie Codesynthese, Programmreparatur und Testgenerierung erheblich vorangetrieben. Forscher und Industriepraktiker haben kürzlich verschiedene autonome LLM-Agenten entwickelt, um End-to-End-Softwareentwicklungsaufgaben auszuführen. Diese Agenten sind in der Lage, Werkzeuge zu verwenden, Befehle auszuführen, Feedback aus der Umgebung zu beobachten und zukünftige Aktionen zu planen. Die Komplexität dieser agentenbasierten Ansätze zusammen mit den begrenzten Fähigkeiten aktueller LLMs wirft jedoch die Frage auf: Müssen wir wirklich komplexe autonome Softwareagenten einsetzen? Um diese Frage zu beantworten, haben wir Agentless entwickelt - einen agentenlosen Ansatz zur automatischen Lösung von Softwareentwicklungsproblemen. Im Vergleich zum ausführlichen und komplexen Setup agentenbasierter Ansätze verwendet Agentless einen simplen zweiphasigen Prozess der Lokalisierung gefolgt von der Reparatur, ohne dass das LLM zukünftige Aktionen entscheidet oder mit komplexen Werkzeugen arbeitet. Unsere Ergebnisse auf dem beliebten SWE-bench Lite Benchmark zeigen überraschenderweise, dass das simplere Agentless sowohl die höchste Leistung (27,33 %) als auch die niedrigsten Kosten (\$0,34) im Vergleich zu allen bestehenden Open-Source-Softwareagenten erzielen kann! Darüber hinaus haben wir die Probleme in SWE-bench Lite manuell klassifiziert und Probleme mit exakten Patches oder unzureichenden/irreführenden Problemstellungen gefunden. Daher haben wir SWE-bench Lite-S erstellt, indem wir solche problematischen Probleme ausschließen, um eine strengere Bewertung und Vergleich durchzuführen. Unsere Arbeit hebt das derzeit übersehene Potenzial einer einfachen, interpretierbaren Technik in der autonomen Softwareentwicklung hervor. Wir hoffen, dass Agentless dazu beiträgt, die Grundlinie, den Ausgangspunkt und den Horizont für autonome Softwareagenten zurückzusetzen und zukünftige Arbeiten in diese wichtige Richtung inspiriert.
Die Generierung von Text-zu-Video (T2V) hat kürzlich dank des großen Multi-Modalitätsmodells Sora erhebliche Aufmerksamkeit erregt. Dennoch stehen der T2V-Generierung immer noch zwei wichtige Herausforderungen gegenüber: 1) Das Fehlen eines präzisen, Open-Source-Hochwertigkeitsdatensatzes. Die zuvor beliebten Videodatensätze, z.B. WebVid-10M und Panda-70M, weisen entweder eine niedrige Qualität auf oder sind für die meisten Forschungseinrichtungen zu groß. Daher ist es herausfordernd, aber entscheidend, präzise hochwertige Text-Video-Paare für die T2V-Generierung zu sammeln. 2) Die unzureichende Nutzung von Textinformationen. Aktuelle T2V-Methoden haben sich auf Vision-Transformer konzentriert, die ein einfaches Kreuz-Aufmerksamkeitsmodul für die Videogenerierung verwenden, das nicht in der Lage ist, semantische Informationen aus dem Textprompt umfassend zu extrahieren. Um diese Probleme anzugehen, stellen wir OpenVid-1M vor, einen präzisen Hochwertigkeitsdatensatz mit ausdrucksstarken Bildunterschriften. Dieser offene Szenariodatensatz enthält über 1 Million Text-Video-Paare und erleichtert die Forschung zur T2V-Generierung. Darüber hinaus kuratieren wir 433K 1080p-Videos aus OpenVid-1M, um OpenVidHD-0.4M zu erstellen, was die Generierung von hochauflösenden Videos vorantreibt. Zusätzlich schlagen wir einen neuartigen Multi-Modalen Video-Diffusions-Transformer (MVDiT) vor, der in der Lage ist, sowohl Strukturinformationen aus visuellen Token als auch semantische Informationen aus Text-Token zu extrahieren. Umfangreiche Experimente und Ablationsstudien bestätigen die Überlegenheit von OpenVid-1M gegenüber früheren Datensätzen und die Wirksamkeit unseres MVDiT.
Die Rechenherausforderungen der Inferenz von Large Language Models (LLMs) bleiben eine bedeutende Hürde für ihren weitreichenden Einsatz, insbesondere da die Promptlängen weiter zunehmen. Aufgrund der quadratischen Komplexität der Aufmerksamkeitsberechnung benötigt ein 8B LLM 30 Minuten, um einen Prompt mit 1M Tokens (d. h. die Vorausfüllungsphase) auf einer einzelnen A100 GPU zu verarbeiten. Bestehende Methoden zur Beschleunigung der Vorausfüllung scheitern oft daran, eine akzeptable Genauigkeit oder Effizienz bei der Anwendung auf LLMs mit langem Kontext aufrechtzuerhalten. Um diese Lücke zu schließen, führen wir MInference (Milliontokens Inferenz) ein, eine sparse Berechnungsmethode, die darauf abzielt, die Vorausfüllung bei der Verarbeitung von langen Sequenzen zu beschleunigen. Konkret identifizieren wir drei einzigartige Muster in den Aufmerksamkeitsmatrizen mit langem Kontext - die A-Form, den Vertikalen Strich und den Block-Sparse -, die für eine effiziente sparse Berechnung auf GPUs genutzt werden können. Wir bestimmen das optimale Muster für jeden Aufmerksamkeitskopf offline und erstellen während der Inferenz dynamisch sparse Indizes basierend auf dem zugewiesenen Muster. Mit dem Muster und den sparse Indizes führen wir effiziente sparse Aufmerksamkeitsberechnungen über unsere optimierten GPU-Kerne durch, um die Latenz in der Vorausfüllungsphase von LLMs mit langem Kontext signifikant zu reduzieren. Unsere vorgeschlagene Technik kann direkt auf bestehende LLMs angewendet werden, ohne dass Änderungen am Pre-Training-Setup oder zusätzliches Fine-Tuning erforderlich sind. Durch Evaluation an einer Vielzahl von Aufgaben, einschließlich InfiniteBench, RULER, PG-19 und Needle In A Haystack, und Modellen wie LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K und Qwen2-128K, zeigen wir, dass MInference die Inferenzlatenz bei der Vorausfüllung auf einer A100 um bis zu 10x reduziert, während die Genauigkeit beibehalten wird. Unser Code ist unter https://aka.ms/MInference verfügbar.
Die Ausrichtung der Präferenzen ist zu einem entscheidenden Bestandteil zur Verbesserung der Leistung von Großen Sprachmodellen (LLMs) geworden, doch ihr Einfluss auf Multimodale Große Sprachmodelle (MLLMs) ist vergleichsweise noch wenig erforscht. Ähnlich wie Sprachmodelle sehen sich MLLMs für Bildverständnisaufgaben mit Herausforderungen wie Halluzinationen konfrontiert. In MLLMs kann Halluzination nicht nur durch die Angabe falscher Fakten auftreten, sondern auch durch die Erzeugung von Antworten, die nicht mit dem Bildinhalt übereinstimmen. Ein Hauptziel der Ausrichtung für MLLMs besteht darin, diese Modelle dazu zu bringen, ihre Antworten enger an die Bildinformationen anzupassen. In letzter Zeit haben mehrere Arbeiten Präferenzdatensätze für MLLMs eingeführt und verschiedene Ausrichtungsmethoden untersucht, darunter die Direkte Präferenzoptimierung (DPO) und die Proximale Richtlinienoptimierung (PPO). Aufgrund von Unterschieden in den Datensätzen, Basismodelltypen und Ausrichtungsmethoden ist jedoch unklar, welche spezifischen Elemente am stärksten zu den berichteten Verbesserungen in diesen Arbeiten beitragen. In diesem Artikel analysieren wir unabhängig jeden Aspekt der Präferenzausrichtung in MLLMs. Wir beginnen damit, die Ausrichtungsalgorithmen in zwei Gruppen zu kategorisieren, offline (wie DPO) und online (wie Online-DPO), und zeigen, dass die Kombination von Offline- und Online-Methoden die Leistung des Modells in bestimmten Szenarien verbessern kann. Wir überprüfen eine Vielzahl von veröffentlichten multimodalen Präferenzdatensätzen und diskutieren, wie die Details zu ihrer Erstellung die Modellleistung beeinflussen. Basierend auf diesen Erkenntnissen stellen wir eine neue Methode zur Erstellung von multimodalen Präferenzdaten namens Bias-Driven Hallucination Sampling (BDHS) vor, die weder zusätzliche Annotationen noch externe Modelle erfordert, und zeigen, dass sie eine wettbewerbsfähige Leistung im Vergleich zu zuvor veröffentlichten Ausrichtungsarbeiten für multimodale Modelle über eine Reihe von Benchmarks erzielen kann.
Wir präsentieren Magic Insert, eine Methode zum Ziehen und Ablegen von Objekten aus einem vom Benutzer bereitgestellten Bild in ein Zielbild eines anderen Stils auf eine physikalisch plausible Weise, während der Stil des Zielbildes beibehalten wird. Diese Arbeit formalisiert das Problem des stilbewussten Ziehens und Ablegens und präsentiert eine Methode zur Bewältigung, indem zwei Teilaufgaben angegangen werden: stilbewusste Personalisierung und realistische Objekteinfügung in stilisierten Bildern. Für stilbewusste Personalisierung feinabstimmt unsere Methode zunächst ein vorab trainiertes Text-zu-Bild-Diffusionsmodell unter Verwendung von LoRA und erlernten Texttokens auf dem Subjektbild und fügt dann eine CLIP-Repräsentation des Zielstils hinzu. Für die Objekteinfügung verwenden wir Bootstrapped Domain Adaption, um ein domänenspezifisches fotorealistisches Objekteinfügungsmodell an die Domäne verschiedener künstlerischer Stile anzupassen. Insgesamt übertrifft die Methode traditionelle Ansätze wie Inpainting signifikant. Abschließend präsentieren wir einen Datensatz, SubjectPlop, um die Bewertung und zukünftigen Fortschritte in diesem Bereich zu erleichtern. Projektseite: https://magicinsert.github.io/
Das Flussanpassen (Flow Matching, FM) ist ein allgemeines Rahmenkonzept zur Definition von Wahrscheinlichkeitspfaden über gewöhnliche Differentialgleichungen (ODEs), um zwischen Rauschen und Datensamples zu transformieren. Aktuelle Ansätze versuchen, diese Flussbahnen zu glätten, um hochwertige Samples mit weniger Funktionsauswertungen zu erzeugen, typischerweise durch iterative Rektifikationsmethoden oder optimale Transportlösungen. In diesem Paper stellen wir Consistency Flow Matching (Consistency-FM) vor, eine neue FM-Methode, die die Selbstkonsistenz im Geschwindigkeitsfeld explizit durchsetzt. Consistency-FM definiert direkt gerade Flüsse, die von verschiedenen Zeitpunkten zum selben Endpunkt starten, und legt Einschränkungen für ihre Geschwindigkeitswerte fest. Darüber hinaus schlagen wir einen mehrsegmentigen Schulungsansatz für Consistency-FM vor, um die Ausdrucksfähigkeit zu verbessern und einen besseren Kompromiss zwischen Sampling-Qualität und Geschwindigkeit zu erreichen. Vorläufige Experimente zeigen, dass unser Consistency-FM die Trainingseffizienz signifikant verbessert, indem es 4,4-mal schneller konvergiert als Konsistenzmodelle und 1,7-mal schneller als rektifizierte Flussmodelle, während es eine bessere Generierungsqualität erreicht. Unser Code ist verfügbar unter: https://github.com/YangLing0818/consistency_flow_matching
Große Sprachmodelle (LLMs), die auf umfangreichen Korpora trainiert werden, behalten zwangsläufig sensible Daten wie persönliche Datenschutzinformationen und urheberrechtlich geschütztes Material. Aktuelle Fortschritte im Bereich des Wissensvergessens beinhalten die Aktualisierung von LLM-Parametern, um spezifisches Wissen zu löschen. Allerdings sind gegenwärtige Vergessensparadigmen in vagen Grenzen des Vergessens verstrickt und löschen oft Wissen willkürlich. In dieser Arbeit stellen wir KnowUnDo vor, einen Benchmark, der urheberrechtlich geschützte Inhalte und Benutzerdatenschutzbereiche enthält, um zu bewerten, ob der Löschvorgang unwissentlich wesentliches Wissen auslöscht. Unsere Ergebnisse deuten darauf hin, dass bestehende Löschmethoden oft unter übermäßigem Vergessen leiden. Um dies zu beheben, schlagen wir eine einfache, aber effektive Methode namens MemFlex vor, die Gradienteninformationen nutzt, um sensible Parameter präzise zu erfassen und zu löschen. Experimentelle Ergebnisse zeigen, dass MemFlex sowohl bei präzisem Wissensvergessen als auch bei der allgemeinen Beibehaltung von Wissen in LLMs überlegen ist. Der Code und der Datensatz werden unter https://github.com/zjunlp/KnowUnDo veröffentlicht.
Die jüngsten Fortschritte in der auf Diffusion basierenden Videogenerierung haben bemerkenswerte Ergebnisse gezeigt, jedoch bleibt die Kluft zwischen synthetischen und realen Videos weitgehend unerforscht. In dieser Studie untersuchen wir diese Kluft aus drei grundlegenden Perspektiven: Erscheinungsbild, Bewegung und Geometrie, indem wir reale Videos mit denen vergleichen, die von einem hochmodernen KI-Modell, Stable Video Diffusion, generiert wurden. Um dies zu erreichen, trainieren wir drei Klassifizierer unter Verwendung von 3D-Faltungsnetzwerken, die jeweils unterschiedliche Aspekte anvisieren: Merkmale des Vision-Grundlagenmodells für das Erscheinungsbild, optischer Fluss für die Bewegung und monokulares Tiefenwissen für die Geometrie. Jeder Klassifizierer zeigt eine starke Leistung bei der Erkennung gefälschter Videos, sowohl qualitativ als auch quantitativ. Dies deutet darauf hin, dass KI-generierte Videos immer noch leicht erkennbar sind und eine signifikante Kluft zwischen realen und gefälschten Videos bestehen bleibt. Darüber hinaus identifizieren wir mithilfe von Grad-CAM systematische Fehler von KI-generierten Videos im Erscheinungsbild, der Bewegung und der Geometrie. Abschließend schlagen wir ein Ensemble-von-Experten-Modell vor, das Erscheinungsbild, optischen Fluss und Tiefeninformationen zur Erkennung gefälschter Videos integriert und dadurch eine verbesserte Robustheit und Generalisierungsfähigkeit bietet. Unser Modell ist in der Lage, Videos, die von Sora generiert wurden, mit hoher Genauigkeit zu erkennen, selbst ohne Exposition gegenüber irgendwelchen Sora-Videos während des Trainings. Dies legt nahe, dass die Kluft zwischen realen und gefälschten Videos auf verschiedene Video-Generierungsmodelle verallgemeinert werden kann. Projektseite: https://justin-crchang.github.io/3DCNNDetection.github.io/
Das Aufdecken latenter Werte und Meinungen in großen Sprachmodellen (LLMs) kann dazu beitragen, Voreingenommenheiten zu identifizieren und potenzielle Schäden zu mildern. In letzter Zeit wurde dies durch die Vorlage von Umfragen an LLMs und die Quantifizierung ihrer Haltungen zu moralisch und politisch aufgeladenen Aussagen angegangen. Die von LLMs generierten Haltungen können jedoch stark variieren, je nachdem, wie sie aufgefordert werden, und es gibt viele Möglichkeiten, für oder gegen eine bestimmte Position zu argumentieren. In dieser Arbeit schlagen wir vor, dies zu bewältigen, indem wir einen großen und robusten Datensatz von 156.000 LLM-Antworten auf die 62 Aussagen des Politischen Kompass Tests (PCT) analysieren, die von 6 LLMs unter Verwendung von 420 verschiedenen Aufforderungsvariationen generiert wurden. Wir führen eine grobkörnige Analyse ihrer generierten Haltungen und eine feinkörnige Analyse der reinen Textbegründungen für diese Haltungen durch. Für die feinkörnige Analyse schlagen wir vor, Tropen in den Antworten zu identifizieren: semantisch ähnliche Phrasen, die wiederkehrend und konsistent über verschiedene Aufforderungen hinweg sind und Muster im Text aufzeigen, die ein bestimmter LLM dazu neigt zu produzieren. Wir stellen fest, dass demografische Merkmale, die den Aufforderungen hinzugefügt werden, die Ergebnisse des PCT signifikant beeinflussen, was Voreingenommenheiten widerspiegelt, sowie Unterschiede zwischen den Ergebnissen von Tests, wenn geschlossene Form gegenüber offenen Domain-Antworten abgefragt werden. Darüber hinaus zeigen Muster in den reinen Textbegründungen über Tropen, dass ähnliche Rechtfertigungen selbst bei unterschiedlichen Haltungen wiederholt über Modelle und Aufforderungen hinweg generiert werden.
Wir untersuchen Neural Foley, die automatische Generierung hochwertiger Soundeffekte, die mit Videos synchronisiert werden, um ein immersives audiovisuelles Erlebnis zu ermöglichen. Trotz des breiten Anwendungsspektrums stoßen bestehende Ansätze an Grenzen, wenn es darum geht, hochwertige und videoausgerichtete (d. h. semantisch relevante und zeitlich synchronisierte) Klänge gleichzeitig zu synthetisieren. Um diese Einschränkungen zu überwinden, schlagen wir FoleyCrafter vor, ein neuartiges Framework, das ein vortrainiertes Text-zu-Audio-Modell nutzt, um eine hochwertige Audioerzeugung sicherzustellen. FoleyCrafter besteht aus zwei Schlüsselkomponenten: dem semantischen Adapter für semantische Ausrichtung und dem zeitlichen Controller für präzise Audio-Video-Synchronisation. Der semantische Adapter verwendet parallele Kreuz-Aufmerksamkeitsschichten, um die Audioerzeugung an Videofunktionen zu konditionieren und realistische Soundeffekte zu erzeugen, die semantisch relevant für den visuellen Inhalt sind. Der zeitliche Controller integriert einen Anschlagdetektor und einen zeitstempelbasierten Adapter, um eine präzise Audio-Video-Ausrichtung zu erreichen. Ein bemerkenswerter Vorteil von FoleyCrafter ist seine Kompatibilität mit Texteingaben, die die Verwendung von Textbeschreibungen ermöglicht, um eine steuerbare und vielfältige Video-zu-Audio-Erzeugung entsprechend den Benutzerabsichten zu erreichen. Wir führen umfangreiche quantitative und qualitative Experimente an Standard-Benchmarks durch, um die Wirksamkeit von FoleyCrafter zu überprüfen. Modelle und Codes sind unter https://github.com/open-mmlab/FoleyCrafter verfügbar.
In jüngster Zeit haben Fortschritte in der Mikroskopie die schnelle Erzeugung von Terabytes an Bilddaten in der Zellbiologie und biomedizinischen Forschung ermöglicht. Vision-Language-Modelle (VLMs) bieten eine vielversprechende Lösung für die groß angelegte biologische Bildanalyse, verbessern die Effizienz der Forscher, identifizieren neue Bild-Biomarker und beschleunigen die Hypothesengenerierung und wissenschaftliche Entdeckung. Es mangelt jedoch an standardisierten, vielfältigen und groß angelegten Vision-Language-Benchmarks zur Bewertung der Wahrnehmungs- und Kognitionsfähigkeiten von VLMs im Verständnis biologischer Bilder. Um diese Lücke zu schließen, stellen wir {\mu}-Bench vor, einen von Experten kuratierten Benchmark, der 22 biomedizinische Aufgaben aus verschiedenen wissenschaftlichen Disziplinen (Biologie, Pathologie), Mikroskopie-Modalitäten (Elektronen, Fluoreszenz, Licht), Skalen (subzellulär, zellulär, Gewebe) und Organismen in normalen und abnormen Zuständen umfasst. Wir evaluieren modernste biomedizinische, pathologische und allgemeine VLMs auf {\mu}-Bench und stellen fest, dass: i) aktuelle Modelle Schwierigkeiten in allen Kategorien haben, selbst bei grundlegenden Aufgaben wie der Unterscheidung von Mikroskopie-Modalitäten; ii) aktuelle Spezialmodelle, die auf biomedizinischen Daten feinabgestimmt sind, oft schlechter abschneiden als Generalistenmodelle; iii) Feinabstimmung in spezifischen Mikroskopiebereichen kann zu katastrophalem Vergessen führen und das zuvor im Basismodell codierte biomedizinische Wissen erodieren. iv) Gewichtsinterpolation zwischen feinabgestimmten und vorab trainierten Modellen bietet eine Lösung für das Vergessen und verbessert die allgemeine Leistung bei biomedizinischen Aufgaben. Wir veröffentlichen {\mu}-Bench unter einer freizügigen Lizenz, um die Forschung und Entwicklung von Grundlagenmodellen für die Mikroskopie zu beschleunigen.