Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Mit der fortschreitenden Skalierung von Sprachmodellen haben Große Sprachmodelle (LLMs) aufkommende Fähigkeiten im Bereich des In-Context Learning (ICL) gezeigt, die es ihnen ermöglichen, Sprachaufgaben zu lösen, indem sie einige In-Context-Demonstrationen (ICDs) als Kontext voranstellen. Inspiriert von diesen Fortschritten haben Forscher diese Techniken erweitert, um Große Multimodale Modelle (LMMs) mit ICL-Fähigkeiten zu entwickeln. Allerdings haben bestehende LMMs ein kritisches Problem: Sie nutzen oft nicht effektiv den visuellen Kontext in multimodalen Demonstrationen und folgen stattdessen einfach nur textuellen Mustern. Dies deutet darauf hin, dass LMMs keine effektive Ausrichtung zwischen multimodalen Demonstrationen und Modellausgaben erreichen. Um dieses Problem anzugehen, schlagen wir Symbol Demonstration Direct Preference Optimization (SymDPO) vor. Speziell zielt SymDPO darauf ab, das traditionelle Paradigma der Konstruktion von multimodalen Demonstrationen zu durchbrechen, indem zufällige Symbole verwendet werden, um Textantworten innerhalb von Instanzen zu ersetzen. Dies zwingt das Modell dazu, die Demonstrationsbilder sorgfältig zu verstehen und eine Beziehung zwischen den Bildern und den Symbolen herzustellen, um Fragen korrekt zu beantworten. Wir validieren die Wirksamkeit dieser Methode anhand mehrerer Benchmarks und zeigen, dass LMMs mit SymDPO das multimodale Umfeld innerhalb von Beispielen effektiver verstehen können und dieses Wissen nutzen, um Fragen besser zu beantworten.
Obwohl die Quantisierung für lineare Schichten weit verbreitet ist, bleibt ihre Anwendung zur Beschleunigung des Aufmerksamkeitsprozesses begrenzt. SageAttention nutzt 8-Bit-Matrixmultiplikation, 16-Bit-Matrixmultiplikation mit 16-Bit-Akkumulator und präzisionssteigernde Methoden, um einen genauen und um den Faktor 2 beschleunigten Kernel im Vergleich zu FlashAttention2 zu implementieren. Um die Effizienz der Aufmerksamkeitsberechnung weiter zu steigern und gleichzeitig die Präzision beizubehalten, schlagen wir SageAttention2 vor, das signifikant schnellere 4-Bit-Matrixmultiplikation (Matmul) zusammen mit zusätzlichen präzisionssteigernden Techniken verwendet. Zunächst schlagen wir vor, Matrizen (Q, K) auf INT4-Ebene zu quantisieren und Matrizen (widetilde P, V) auf FP8-Ebene zu quantisieren. Zweitens schlagen wir eine Methode vor, um Q und V zu glätten und die Genauigkeit der Aufmerksamkeit mit INT4 QK und FP8 PV zu verbessern. Drittens analysieren wir die Quantisierungsgenauigkeit über Zeitstufen und Schichten und schlagen dann eine adaptive Quantisierungsmethode vor, um die End-to-End-Metriken über verschiedene Modelle sicherzustellen. Die Operationen pro Sekunde (OPS) von SageAttention2 übertreffen FlashAttention2 und xformers auf RTX4090 jeweils um etwa das 3- bzw. 5-fache. Umfassende Experimente bestätigen, dass unser Ansatz vernachlässigbare End-to-End-Metrikenverluste über verschiedene Modelle hinweg verursacht, einschließlich solcher für die Verarbeitung großer Sprachen, Bild- und Videogenerierung. Der Code ist verfügbar unter https://github.com/thu-ml/SageAttention.
Die Videoerzeugung hat bedeutende Fortschritte erlebt, jedoch bleibt die Bewertung dieser Modelle eine Herausforderung. Ein umfassender Bewertungsmaßstab für die Videoerzeugung ist aus zwei Gründen unerlässlich: 1) Bestehende Metriken stimmen nicht vollständig mit menschlichen Wahrnehmungen überein; 2) Ein ideales Bewertungssystem sollte Einblicke liefern, um zukünftige Entwicklungen in der Videoerzeugung zu unterstützen. Zu diesem Zweck präsentieren wir VBench, eine umfassende Benchmark-Suite, die die "Videoerzeugungsqualität" in spezifische, hierarchische und entwirrte Dimensionen aufteilt, jede mit maßgeschneiderten Anweisungen und Bewertungsmethoden. VBench hat mehrere ansprechende Eigenschaften: 1) Umfassende Dimensionen: VBench umfasst 16 Dimensionen in der Videoerzeugung (z. B. Inkonsistenz der Subjektidentität, Bewegungsglättung, zeitliches Flimmern und räumliche Beziehung usw.). Die Bewertungsmetriken mit feingranularen Ebenen zeigen die Stärken und Schwächen einzelner Modelle auf. 2) Menschliche Ausrichtung: Wir stellen auch einen Datensatz menschlicher Präferenzannotationen bereit, um die Übereinstimmung unserer Benchmarks mit der menschlichen Wahrnehmung für jede Bewertungsdimension jeweils zu validieren. 3) Wertvolle Einblicke: Wir untersuchen die Fähigkeiten aktueller Modelle in verschiedenen Bewertungsdimensionen und verschiedenen Inhaltstypen. Wir untersuchen auch die Unterschiede zwischen Video- und Bildgenerierungsmodellen. 4) Vielseitige Bewertung: VBench++ unterstützt die Bewertung von Text-zu-Video und Bild-zu-Video. Wir führen eine hochwertige Bildsuite mit einem anpassungsfähigen Seitenverhältnis ein, um faire Bewertungen in verschiedenen Einstellungen der Bild-zu-Video-Erzeugung zu ermöglichen. Über die Bewertung der technischen Qualität hinaus bewertet VBench++ auch die Vertrauenswürdigkeit von Video-generativen Modellen und bietet einen ganzheitlicheren Blick auf die Leistung der Modelle. 5) Vollständige Open-Source: Wir stellen VBench++ vollständig als Open-Source zur Verfügung und fügen kontinuierlich neue Videoerzeugungsmodelle zu unserer Bestenliste hinzu, um das Feld der Videoerzeugung voranzutreiben.
Große multimodale Modelle (LMMs) mit fortschrittlichen Videoanalysefähigkeiten haben in letzter Zeit erhebliche Aufmerksamkeit erregt. Die meisten Bewertungen stützen sich jedoch auf traditionelle Methoden wie Multiple-Choice-Fragen in Benchmarks wie VideoMME und LongVideoBench, die dazu neigen, nicht die erforderliche Tiefe zu haben, um die komplexen Anforderungen realer Benutzer zu erfassen. Um diese Einschränkung zu adressieren - und aufgrund der prohibitiven Kosten und des langsamen Tempos der menschlichen Annotation für Videoaufgaben - führen wir VideoAutoArena ein, einen Arena-basierten Benchmark, inspiriert vom Rahmen des LMSYS Chatbot Arena, der entwickelt wurde, um automatisch die Videoanalysefähigkeiten von LMMs zu bewerten. VideoAutoArena nutzt Benutzersimulation, um offene, anpassungsfähige Fragen zu generieren, die die Leistung des Modells bei der Videoverarbeitung rigoros bewerten. Der Benchmark verfügt über ein automatisiertes, skalierbares Bewertungsframework, das ein modifiziertes ELO-Rating-System für faire und kontinuierliche Vergleiche zwischen mehreren LMMs integriert. Um unser automatisiertes Bewertungssystem zu validieren, erstellen wir einen 'Goldstandard' unter Verwendung eines sorgfältig kuratierten Teils menschlicher Annotationen, was zeigt, dass unsere Arena stark mit menschlichem Urteil übereinstimmt und gleichzeitig skalierbar bleibt. Darüber hinaus führen wir eine fehlergetriebene Evolutionsstrategie ein, die die Fragekomplexität schrittweise erhöht, um die Modelle dazu zu bringen, mit anspruchsvolleren Szenarien der Videoanalyse umzugehen. Experimentelle Ergebnisse zeigen, dass VideoAutoArena effektiv zwischen modernsten LMMs unterscheidet und Einblicke in Modellstärken und Verbesserungsbereiche bietet. Um unsere Bewertung weiter zu optimieren, führen wir VideoAutoBench als zusätzlichen Benchmark ein, bei dem menschliche Annotatoren die Gewinner in einem Teil der VideoAutoArena-Kämpfe kennzeichnen. Wir verwenden GPT-4o als Richter, um die Antworten mit diesen menschlich validierten Antworten zu vergleichen. Zusammen bieten VideoAutoArena und VideoAutoBench ein kostengünstiges und skalierbares Framework zur Bewertung von LMMs in der benutzerzentrierten Videoanalyse.
Das Segment Anything Model 2 (SAM 2) hat eine starke Leistung bei der Objektsegmentierung gezeigt, steht jedoch vor Herausforderungen bei der visuellen Objektverfolgung, insbesondere bei der Bewältigung von überfüllten Szenen mit schnell beweglichen oder sich selbst verdeckenden Objekten. Darüber hinaus berücksichtigt der Ansatz des festen Fensterspeichers im Originalmodell nicht die Qualität der ausgewählten Erinnerungen, um die Bildmerkmale für den nächsten Frame zu konditionieren, was zu Fehlerausbreitung in Videos führt. Dieser Artikel stellt SAMURAI vor, eine verbesserte Anpassung von SAM 2, die speziell für die visuelle Objektverfolgung entwickelt wurde. Durch die Integration von zeitlichen Bewegungshinweisen mit dem vorgeschlagenen bewegungsbewussten Speicherauswahlmechanismus sagt SAMURAI effektiv die Objektbewegung voraus und verfeinert die Maskenauswahl, um eine robuste, präzise Verfolgung ohne die Notwendigkeit einer Neuschulung oder Feinabstimmung zu erreichen. SAMURAI arbeitet in Echtzeit und zeigt eine starke Null-Schuss-Leistung über verschiedene Benchmark-Datensätze hinweg, was seine Fähigkeit zur Verallgemeinerung ohne Feinabstimmung unterstreicht. In Evaluierungen erzielt SAMURAI signifikante Verbesserungen bei Erfolgsrate und Präzision gegenüber bestehenden Verfolgern, mit einem AUC-Gewinn von 7,1% bei LaSOT_{ext} und einem AO-Gewinn von 3,5% bei GOT-10k. Darüber hinaus erzielt es im Vergleich zu vollständig überwachten Methoden auf LaSOT wettbewerbsfähige Ergebnisse, was seine Robustheit in komplexen Verfolgungsszenarien und sein Potenzial für Anwendungen in dynamischen Umgebungen unterstreicht. Code und Ergebnisse sind verfügbar unter https://github.com/yangchris11/samurai.
Die Erweiterung der Kontextfenstergrößen ermöglicht es großen Sprachmodellen (LLMs), längere Sequenzen zu verarbeiten und komplexere Aufgaben zu bewältigen. Die Rotierende Positionale Einbettung (RoPE) hat sich aufgrund ihrer relativen Positionscodierungseigenschaften, die das Training mit langem Kontext begünstigen, als de facto Standard etabliert. Wir beobachten jedoch, dass die Verwendung von RoPE im BFloat16-Format zu numerischen Problemen führt, die dazu führen, dass es von seiner beabsichtigten relativen Positionscodierung abweicht, insbesondere in Szenarien mit langem Kontext. Dieses Problem entsteht durch die begrenzte Genauigkeit von BFloat16 und häuft sich mit zunehmender Kontextlänge an, wobei das erste Token maßgeblich zu diesem Problem beiträgt. Um dies zu lösen, haben wir AnchorAttention entwickelt, eine Plug-and-Play-Aufmerksamkeitsmethode, die numerische Probleme, die durch BFloat16 verursacht werden, mildert, die Fähigkeiten im langen Kontext verbessert und das Training beschleunigt. AnchorAttention reduziert unnötige Aufmerksamkeitsberechnungen, bewahrt semantische Kohärenz und steigert die Rechenleistung, indem das erste Token als gemeinsamer Anker mit einer konsistenten Positions-ID behandelt wird, sodass es für alle Dokumente innerhalb des Trainingskontexts sichtbar ist. Experimente mit drei Arten von LLMs zeigen, dass AnchorAttention die Leistung im langen Kontext signifikant verbessert und die Trainingszeit im Vergleich zu Standard-Voll-Aufmerksamkeitsmechanismen um über 50\% reduziert, während die ursprünglichen Fähigkeiten des LLMs bei allgemeinen Aufgaben erhalten bleiben. Unser Code ist unter https://github.com/haonan3/AnchorContext verfügbar.
Sprachagenten haben vielversprechende Fähigkeiten bei der Automatisierung von webbasierten Aufgaben gezeigt, obwohl ihre aktuellen reaktiven Ansätze im Vergleich zu Menschen immer noch weitgehend unterlegen sind. Die Integration fortschrittlicher Planungsalgorithmen, insbesondere Baum-Suchmethoden, könnte die Leistung dieser Agenten verbessern, jedoch stellen direkte Implementierungen von Baum-Suchen auf Live-Websites aufgrund von nicht umkehrbaren Aktionen wie dem Bestätigen eines Kaufs erhebliche Sicherheitsrisiken und praktische Einschränkungen dar. In diesem Artikel stellen wir ein neuartiges Paradigma vor, das Sprachagenten mit modellbasierter Planung ergänzt und die innovative Verwendung großer Sprachmodelle (LLMs) als Weltmodelle in komplexen Webumgebungen vorantreibt. Unsere Methode, WebDreamer, baut auf der Erkenntnis auf, dass LLMs umfassendes Wissen über Website-Strukturen und -Funktionalitäten inhärent codieren. Konkret verwendet WebDreamer LLMs, um Ergebnisse für jede Kandidatenaktion zu simulieren (z. B. "Was passiert, wenn ich auf diese Schaltfläche klicke?") mithilfe von natürlichsprachlichen Beschreibungen und bewertet dann diese vorgestellten Ergebnisse, um die optimale Aktion in jedem Schritt zu bestimmen. Empirische Ergebnisse zu zwei repräsentativen Webagenten-Benchmarks mit Online-Interaktion - VisualWebArena und Mind2Web-live - zeigen, dass WebDreamer signifikante Verbesserungen gegenüber reaktiven Baselines erzielt. Durch die Feststellung der Machbarkeit von LLMs als Weltmodelle in Webumgebungen legt diese Arbeit den Grundstein für einen Paradigmenwechsel in der automatisierten Webinteraktion. Allgemeiner betrachtet eröffnen unsere Ergebnisse spannende neue Wege für zukünftige Forschung in 1) die Optimierung von LLMs speziell für das Weltmodellieren in komplexen, dynamischen Umgebungen und 2) die modellbasierte spekulative Planung für Sprachagenten.
Diffusionsmodelle zeichnen sich durch ihre Leistungsfähigkeit bei der Bildgenerierung aus, aber ihre Kontrolle bleibt eine Herausforderung. Wir konzentrieren uns auf das Problem der stilbedingten Bildgenerierung. Obwohl Beispielimplementierungen funktionieren, sind sie umständlich: srefs (Stil-Referenzcodes) von MidJourney lösen dieses Problem, indem sie einen spezifischen Bildstil in einem kurzen numerischen Code ausdrücken. Diese sind aufgrund ihrer einfachen Weitergabe weit verbreitet in sozialen Medien und ermöglichen die Verwendung eines Bildes zur Stilsteuerung, ohne die Quellbilder selbst veröffentlichen zu müssen. Allerdings können Benutzer keine srefs aus ihren eigenen Bildern generieren, und das zugrunde liegende Schulungsverfahren ist nicht öffentlich. Wir schlagen StyleCodes vor: eine Open-Source- und Open-Research-Stil-Encoder-Architektur und Schulungsverfahren, um Bildstile als 20-Symbol-Base64-Code auszudrücken. Unsere Experimente zeigen, dass unsere Codierung im Vergleich zu traditionellen Bild-zu-Stil-Techniken zu minimalen Qualitätsverlusten führt.
Die neuesten Entwicklungen bei Large Multimodal Models (LMMs) haben ihre Fähigkeiten erweitert, um auch das Verständnis von Videos einzuschließen. Insbesondere haben Text-to-Video (T2V) Modelle signifikante Fortschritte in Qualität, Verständnis und Dauer gemacht, indem sie sich darauf spezialisiert haben, Videos aus einfachen textuellen Anweisungen zu erstellen. Dennoch produzieren sie häufig halluzinierte Inhalte, die eindeutig darauf hinweisen, dass das Video von KI generiert wurde. Wir stellen ViBe vor: einen groß angelegten Text-to-Video Benchmark für halluzinierte Videos aus T2V Modellen. Wir identifizieren fünf Hauptarten von Halluzinationen: Verschwindendes Subjekt, Numerische Variabilität, Temporale Dysmorphie, Auslassungsfehler und Physische Inkongruenz. Unter Verwendung von 10 Open-Source T2V Modellen haben wir den ersten groß angelegten Datensatz von halluzinierten Videos entwickelt, der 3.782 Videos umfasst, die von Menschen in diese fünf Kategorien eingeteilt wurden. ViBe bietet eine einzigartige Ressource zur Bewertung der Zuverlässigkeit von T2V Modellen und bildet eine Grundlage zur Verbesserung der Erkennung und Milderung von Halluzinationen bei der Videogenerierung. Wir etablieren die Klassifizierung als Basislinie und präsentieren verschiedene Ensemble-Classifier-Konfigurationen, wobei die Kombination von TimeSFormer + CNN die beste Leistung erbringt, mit einer Genauigkeit von 0,345 und einem F1-Score von 0,342. Dieser Benchmark zielt darauf ab, die Entwicklung robuster T2V Modelle voranzutreiben, die Videos produzieren, die genauer mit den Eingabeaufforderungen übereinstimmen.
Während Skalierungsgesetze eine zuverlässige Methodik für die Vorhersage von Trainingsverlusten über Rechenskalen für eine einzelne Datenverteilung bieten, ist weniger darüber bekannt, wie sich diese Vorhersagen ändern sollten, wenn wir die Verteilung ändern. In diesem Paper leiten wir eine Strategie zur Vorhersage eines Verlusts aus einem anderen ab und wenden sie an, um Vorhersagen über verschiedene Vortrainingsdatensätze und von Vortrainingsdaten auf Daten für nachgelagerte Aufgaben zu treffen. Unsere Vorhersagen extrapolieren sogar gut bei 20-fachem des größten FLOP-Budgets, das verwendet wurde, um die Kurven anzupassen. Genauer gesagt finden wir heraus, dass es einfache verschobene Potenzgesetzbeziehungen gibt zwischen (1) den Trainingsverlusten von zwei Modellen, die auf zwei separaten Datensätzen trainiert wurden, wenn die Modelle nach Trainingsrechenleistung gepaart sind (Train-to-Train), (2) dem Trainingsverlust und dem Testverlust auf einer beliebigen nachgelagerten Verteilung für ein einzelnes Modell (Train-to-Test) und (3) den Testverlusten von zwei Modellen, die auf zwei separaten Trainingsdatensätzen trainiert wurden (Test-to-Test). Die Ergebnisse halten auch für Vortrainingsdatensätze, die sich erheblich unterscheiden (manche bestehen ausschließlich aus Code und andere enthalten überhaupt keinen Code) und über eine Vielzahl von nachgelagerten Aufgaben hinweg. Schließlich stellen wir fest, dass in einigen Situationen diese verschobenen Potenzgesetzbeziehungen genauere Vorhersagen liefern können als die Extrapolation von Skalierungsgesetzen für einzelne Datensätze.
Text-zu-Bild-Diffusions-generative Modelle können hochwertige Bilder generieren, jedoch auf Kosten aufwändiger Eingabeaufforderungs-Entwicklung. Die Steuerbarkeit kann durch die Einführung von Layout-Konditionierung verbessert werden, jedoch fehlt es den bestehenden Methoden an Layout-Bearbeitungsfähigkeit und fein abgestimmter Kontrolle über Objekteigenschaften. Das Konzept der Mehrschichtgenerierung birgt großes Potenzial, um diese Einschränkungen anzugehen, jedoch begrenzt die gleichzeitige Generierung von Bildinstanzen zur Szenenzusammensetzung die Kontrolle über fein abgestimmte Objekteigenschaften, relative Positionierung im 3D-Raum und Szenenmanipulationsfähigkeiten. In dieser Arbeit schlagen wir ein neuartiges Mehrstufen-Generierungsparadigma vor, das für fein abgestimmte Kontrolle, Flexibilität und Interaktivität konzipiert ist. Um die Kontrolle über Instanzeigenschaften zu gewährleisten, entwickeln wir ein neuartiges Schulungsparadigma, um ein Diffusionsmodell anzupassen, um isolierte Szenenkomponenten als RGBA-Bilder mit Transparenzinformationen zu generieren. Um komplexe Bilder zu erstellen, verwenden wir diese vorab generierten Instanzen und führen einen Mehrschicht-Kompositgenerierungsprozess ein, der Komponenten in realistischen Szenen nahtlos zusammenfügt. Unsere Experimente zeigen, dass unser RGBA-Diffusionsmodell in der Lage ist, vielfältige und hochwertige Instanzen mit präziser Kontrolle über Objekteigenschaften zu generieren. Durch Mehrschichtzusammensetzung zeigen wir, dass unser Ansatz es ermöglicht, Bilder aus äußerst komplexen Eingabeaufforderungen aufzubauen und zu manipulieren, mit fein abgestimmter Kontrolle über das Erscheinungsbild und den Standort von Objekten, was eine höhere Kontrolle als bei konkurrierenden Methoden ermöglicht.
Das Ziel der Radiologie-Berichterstellung (RRG) besteht darin, automatisch kohärente textuelle Analysen von Krankheiten auf der Grundlage radiologischer Bilder zu erstellen, um so die Arbeitsbelastung der Radiologen zu verringern. Aktuelle KI-basierte Methoden für RRG konzentrieren sich hauptsächlich auf Modifikationen der Architektur des Encoder-Decoder-Modells. Um diese Ansätze voranzutreiben, stellt dieses Papier ein Organ-Regional-Information-Driven (ORID) Framework vor, das multi-modale Informationen effektiv integrieren und den Einfluss von Störungen durch nicht zusammenhängende Organe reduzieren kann. Basierend auf dem LLaVA-Med erstellen wir zunächst einen RRG-bezogenen Anweisungsdatensatz, um die Fähigkeit zur Beschreibung der organregionalen Diagnose zu verbessern und den LLaVA-Med-RRG zu erhalten. Anschließend schlagen wir ein organbasiertes Cross-Modal-Fusionsmodul vor, um die Informationen aus der organregionalen Diagnosebeschreibung und dem radiologischen Bild effektiv zu kombinieren. Um den Einfluss von Störungen durch nicht zusammenhängende Organe auf die Erstellung des Radiologieberichts weiter zu reduzieren, führen wir ein Modul zur Analyse des Organ-Importanzkoeffizienten ein, das auf einem Graph-Neuralen-Netzwerk (GNN) basiert, um die Wechselwirkungen der Cross-Modal-Informationen jeder Organregion zu untersuchen. Umfangreiche Experimente und Vergleiche mit State-of-the-Art-Methoden anhand verschiedener Bewertungskriterien zeigen die überragende Leistung unseres vorgeschlagenen Verfahrens.