Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Bildverbreitungsmodelle wurden für die Video-Superauflösung in der realen Welt angepasst, um Überglättungsprobleme in GAN-basierten Methoden zu bewältigen. Diese Modelle haben jedoch Schwierigkeiten, die zeitliche Konsistenz aufrechtzuerhalten, da sie auf statischen Bildern trainiert sind, was ihre Fähigkeit, zeitliche Dynamiken effektiv zu erfassen, einschränkt. Die Integration von Text-zu-Video (T2V)-Modellen in die Video-Superauflösung zur Verbesserung der zeitlichen Modellierung ist unkompliziert. Es bleiben jedoch zwei Hauptprobleme bestehen: Artefakte, die durch komplexe Degradierungen in realen Szenarien eingeführt werden, und beeinträchtigte Treue aufgrund der starken generativen Kapazität leistungsstarker T2V-Modelle (z. B. CogVideoX-5B). Um die räumlich-zeitliche Qualität wiederhergestellter Videos zu verbessern, stellen wir \name vor (Räumlich-zeitliche Augmentierung mit T2V-Modellen für die Video-Superauflösung in der realen Welt), einen neuartigen Ansatz, der T2V-Modelle für die Video-Superauflösung in der realen Welt nutzt und realistische räumliche Details und robuste zeitliche Konsistenz erreicht. Speziell führen wir ein Lokales Informationsverbesserungsmodul (LIEM) vor dem globalen Aufmerksamkeitsblock ein, um lokale Details anzureichern und Degradierungsartefakte zu mildern. Darüber hinaus schlagen wir einen Dynamischen Frequenz (DF)-Verlust vor, um die Treue zu verstärken und das Modell zu leiten, sich auf verschiedene Frequenzkomponenten über die Diffusionsschritte zu konzentrieren. Umfangreiche Experimente zeigen, dass \name sowohl auf synthetischen als auch auf realen Datensätzen die Methoden auf dem neuesten Stand der Technik übertrifft.
Die bemerkenswerte Leistung des o1-Modells bei komplexem Denken zeigt, dass die Skalierung der Rechenleistung zur Testzeit das Potenzial des Modells weiter freisetzen kann, indem sie leistungsstarkes System-2-Denken ermöglicht. Es fehlen jedoch immer noch umfassende Untersuchungen zur Skalierung der Rechenleistung zur Testzeit. Wir verfolgen das Konzept der Rechenleistung zur Testzeit bis zu System-1-Modellen zurück. In System-1-Modellen befasst sich die Rechenleistung zur Testzeit mit Verteilungsverschiebungen und verbessert die Robustheit und Verallgemeinerung durch Parameteraktualisierung, Eingabemodifikation, Repräsentationsbearbeitung und Ausgabekalibrierung. In System-2-Modellen verbessert sie die Denkfähigkeit des Modells zur Lösung komplexer Probleme durch wiederholte Stichproben, Selbstkorrektur und Baumstruktursuche. Wir gliedern diese Untersuchung entsprechend dem Trend vom System-1- zum System-2-Denken und heben die Schlüsselrolle der Rechenleistung zur Testzeit beim Übergang von System-1-Modellen zu schwachen System-2-Modellen und dann zu starken System-2-Modellen hervor. Wir weisen auch auf einige mögliche zukünftige Richtungen hin.
Spitzen-Large-Language-Modelle (LLMs) zeigen vielversprechende Leistungen bei der Lösung komplexer mathematischer Probleme mit einem Teile-und-Herrsche-Pipeline und der Unterstützung von In-Context-Learning (ICL)-Beispielen. Ihr Verbesserungspotenzial wird jedoch durch zwei kritische Probleme innerhalb ihrer ICL-Beispiele begrenzt: Granularitätsungleichgewicht und das daraus resultierende Problem des negativen Effektrauschens. Konkret sind die LLMs in der Lage, den Teilungsprozess durchzuführen, scheitern jedoch größtenteils an ungenauer Argumentation innerhalb weniger Eroberungsschritte, während die in Frage gestellten ICL-Beispiele manchmal relevante Schritte für einen spezifischen herausfordernden Argumentationsschritt vermissen lassen. Diese Diskrepanz kann die korrekte Argumentation aufgrund ihrer Irrelevanz behindern. Zu diesem Zweck konzentrieren wir uns darauf, die Argumentationsqualität innerhalb jedes Schrittes zu verbessern und präsentieren BoostStep. BoostStep gleicht die Granularität zwischen dem Abrufen und Argumentieren auf Schrittebene an und bietet hoch relevante ICL-Beispiele für jeden Argumentationsschritt mit einer neuartigen "Erstversuch"-Strategie. BoostStep liefert mehr relevante Beispiele als die grobe Frage-Strategie und verbessert so kontinuierlich die Argumentationsqualität des Modells innerhalb jedes Schrittes. BoostStep ist eine allgemeine und robuste Methode zur Verbesserung der Argumentation, die nicht nur die eigenständige Argumentationsleistung verbessert, sondern auch nahtlos mit Monte-Carlo-Baumsuchmethoden (MCTS) integriert wird, um sowohl die Kandidatengenerierung als auch die Entscheidungsfindung zu verfeinern. Quantitativ verbessert es GPT-4o und Qwen2.5-Math-72B jeweils um 3,6\% bzw. 2,0\% auf verschiedenen mathematischen Benchmarks und erzielt zusammen mit MCTS einen Gewinn von 7,5\%.
Die aktive Echtzeitinteraktion mit Video-LLMs führt ein neues Paradigma für die Mensch-Computer-Interaktion ein, bei dem das Modell nicht nur die Benutzerabsicht versteht, sondern auch antwortet, während es kontinuierlich Streaming-Videos verarbeitet. Im Gegensatz zu Offline-Video-LLMs, die das gesamte Video analysieren, bevor sie Fragen beantworten, erfordert die aktive Echtzeitinteraktion drei Fähigkeiten: 1) Wahrnehmung: Echtzeit-Videomonitoring und Interaktionserfassung. 2) Entscheidung: proaktive Interaktion in geeigneten Situationen. 3) Reaktion: kontinuierliche Interaktion mit Benutzern. Es bestehen jedoch inhärente Konflikte zwischen den gewünschten Fähigkeiten. Die Entscheidung und Reaktion erfordern eine gegensätzliche Skala und Feinheit der Wahrnehmung, und die autoregressive Dekodierung blockiert die Echtzeit-Wahrnehmung und Entscheidung während der Reaktion. Um die konfliktären Fähigkeiten in einem harmonischen System zu vereinen, präsentieren wir Dispider, ein System, das Wahrnehmung, Entscheidung und Reaktion entwirrt. Dispider verfügt über ein leichtgewichtiges proaktives Streaming-Videoverarbeitungsmodul, das den Videostream verfolgt und optimale Momente für die Interaktion identifiziert. Sobald die Interaktion ausgelöst wird, bietet ein asynchrones Interaktionsmodul detaillierte Antworten, während das Verarbeitungsmodul gleichzeitig den Videostream überwacht. Unser entwirrtes und asynchrones Design gewährleistet zeitnahe, kontextuell genaue und rechnerisch effiziente Antworten, wodurch Dispider ideal für die aktive Echtzeitinteraktion bei langen Videostreams ist. Experimente zeigen, dass Dispider nicht nur starke Leistungen bei herkömmlichen Video-F&A-Aufgaben aufrechterhält, sondern auch frühere Online-Modelle bei Antworten in Streaming-Szenarien signifikant übertrifft, was die Wirksamkeit unserer Architektur bestätigt. Der Code und das Modell sind unter https://github.com/Mark12Ding/Dispider verfügbar.
Mit der Weiterentwicklung großer Sprachmodelle (LLMs) bietet sich durch ihre Fähigkeit, personalisierte und kontextbewusste Antworten zu liefern, ein transformatives Potenzial zur Verbesserung der Benutzererfahrung. Bestehende Personalisierungsansätze stützen sich jedoch oft ausschließlich auf die Nutzerhistorie, um die Eingabe zu ergänzen, was ihre Wirksamkeit bei der Generierung maßgeschneiderter Ausgaben, insbesondere in Szenarien mit wenigen Daten im sogenannten Kaltstart, einschränkt. Um diese Einschränkungen zu überwinden, schlagen wir Personalized Graph-based Retrieval-Augmented Generation (PGraphRAG) vor, ein Framework, das nutzerzentrierte Wissensgraphen nutzt, um die Personalisierung zu bereichern. Durch die direkte Integration strukturierter Nutzerkenntnisse in den Abrufprozess und die Ergänzung von Eingaben mit nutzerrelevantem Kontext verbessert PGraphRAG das kontextuelle Verständnis und die Ausgabequalität. Wir stellen auch den Personalized Graph-based Benchmark für Textgenerierung vor, der entwickelt wurde, um personalisierte Textgenerierungsaufgaben in realen Umgebungen zu bewerten, in denen die Nutzerhistorie spärlich oder nicht verfügbar ist. Experimentelle Ergebnisse zeigen, dass PGraphRAG signifikant bessere Leistungen als führende Personalisierungsmethoden in verschiedenen Aufgaben erbringt und somit die einzigartigen Vorteile des graphenbasierten Abrufs für die Personalisierung demonstriert.
Text-zu-Video-generative Modelle haben bedeutende Fortschritte gemacht und ermöglichen vielfältige Anwendungen in Unterhaltung, Werbung und Bildung. Die Generierung von RGBA-Videos, die Alphakanäle für Transparenz enthalten, bleibt jedoch eine Herausforderung aufgrund begrenzter Datensätze und der Schwierigkeit, bestehende Modelle anzupassen. Alphakanäle sind entscheidend für visuelle Effekte (VFX) und ermöglichen es transparenten Elementen wie Rauch und Reflexionen, nahtlos in Szenen zu verschmelzen. Wir stellen TransPixar vor, eine Methode zur Erweiterung vortrainierter Video-Modelle für die RGBA-Generierung, während die ursprünglichen RGB-Fähigkeiten beibehalten werden. TransPixar nutzt eine Diffusions-Transformer (DiT) Architektur, integriert alphabezogene Tokens und verwendet LoRA-basiertes Feintuning, um RGB- und Alphakanäle gemeinsam mit hoher Konsistenz zu generieren. Durch die Optimierung von Aufmerksamkeitsmechanismen bewahrt TransPixar die Stärken des ursprünglichen RGB-Modells und erzielt eine starke Ausrichtung zwischen RGB- und Alphakanälen trotz begrenzter Trainingsdaten. Unser Ansatz generiert effektiv vielfältige und konsistente RGBA-Videos, was die Möglichkeiten für VFX und die Erstellung interaktiver Inhalte vorantreibt.
Das Training mit geringer Präzision wird als eine effektive Strategie zur Reduzierung sowohl der Trainings- als auch der nachgelagerten Inferenzkosten betrachtet. Frühere Skalierungsgesetze für Präzision konzentrieren sich hauptsächlich auf die Ganzzahl-Quantisierung, die weniger Aufmerksamkeit auf die Bestandteile der Gleitkomma-Quantisierung richtet und somit nicht gut zu den LLM-Verlusten in diesem Szenario passt. Im Gegensatz dazu, obwohl das Training mit Gleitkomma-Quantisierung in der Produktion häufiger implementiert wird, war die Forschung dazu bisher relativ oberflächlich. In diesem Paper erforschen wir eingehend die Auswirkungen von Gleitkomma-Quantisierungszielen, Exponentenbits, Mantissenbits und der Berechnungsgranularität des Skalierungsfaktors auf die Trainingsleistung von LLM-Modellen mit Gleitkomma-Quantisierung. Während wir ein genaues Gleitkomma-Quantisierungsvereinheitlichungsgesetz vorstellen, bieten wir auch wertvolle Vorschläge für die Community: (1) Exponentenbits tragen etwas mehr zur Modellleistung bei als Mantissenbits. Wir bieten das optimale Exponenten-Mantissen-Bit-Verhältnis für verschiedene Bit-Zahlen an, das für zukünftige Referenzen von Hardwareherstellern verfügbar ist; (2) Wir entdecken die Bildung der kritischen Datengröße beim Training mit geringer Präzision von LLM. Zu viele Trainingsdaten, die die kritische Datengröße überschreiten, führen umgekehrt zu einer Verschlechterung der LLM-Leistung; (3) Die optimale Gleitkomma-Quantisierungspräzision ist direkt proportional zur Rechenleistung, aber innerhalb eines weiten Bereichs von Rechenleistungen schätzen wir, dass die beste Kosten-Leistungs-Präzision zwischen 4-8 Bits liegt.
Wir betrachten die Aufgabe der Bild-zu-Video (I2V)-Generierung, die darin besteht, statische Bilder basierend auf einer textuellen Beschreibung in realistische Videosequenzen zu transformieren. Während aktuelle Fortschritte fotorealistische Ergebnisse liefern, haben sie häufig Schwierigkeiten, Videos mit präziser und konsistenter Objektbewegung zu erstellen, insbesondere in Szenarien mit mehreren Objekten. Um diese Einschränkungen zu bewältigen, schlagen wir ein zweistufiges kompositionelles Framework vor, das die I2V-Generierung in folgende Schritte unterteilt: (i) Eine explizite Zwischenrepräsentationsgenerierungsstufe, gefolgt von (ii) einer Videogenerierungsstufe, die von dieser Repräsentation abhängt. Unsere Hauptinnovation besteht in der Einführung einer maskenbasierten Bewegungsbahn als Zwischenrepräsentation, die sowohl semantische Objektinformationen als auch Bewegung erfasst und eine ausdrucksstarke, aber kompakte Repräsentation von Bewegung und Semantik ermöglicht. Um die gelernte Repräsentation in der zweiten Stufe zu integrieren, nutzen wir objektspezifische Aufmerksamkeitsziele. Insbesondere betrachten wir ein räumliches, pro-Objekt, maskiertes Kreuz-Aufmerksamkeitsziel, das objektspezifische Hinweise in entsprechende latente Raumregionen integriert, sowie ein maskiertes raumzeitliches Selbst-Aufmerksamkeitsziel, das eine Frame-zu-Frame-Konsistenz für jedes Objekt gewährleistet. Wir evaluieren unsere Methode an anspruchsvollen Benchmarks mit Szenarien mit mehreren Objekten und hoher Bewegung und zeigen empirisch, dass die vorgeschlagene Methode Spitzenleistungen in zeitlicher Kohärenz, Bewegungsrealismus und Texttreue erzielt. Darüber hinaus führen wir \benchmark ein, einen neuen anspruchsvollen Benchmark für die Bild-zu-Video-Generierung von Einzelobjekten und Mehrfachobjekten ein und zeigen die Überlegenheit unserer Methode in diesem Benchmark. Die Projektseite ist verfügbar unter https://guyyariv.github.io/TTM/.
Wir haben METAGENE-1, ein autoregressives Transformer-Modell mit 7 Milliarden Parametern, vortrainiert, das wir als metagenomisches Grundlagenmodell bezeichnen, auf einem neuartigen Korpus verschiedener metagenomischer DNA- und RNA-Sequenzen mit über 1,5 Billionen Basenpaaren. Dieser Datensatz stammt aus einer großen Sammlung von menschlichen Abwasserproben, die mit tiefen metagenomischen (Next-Generation) Sequenzierungsmethoden verarbeitet und sequenziert wurden. Im Gegensatz zu genomischen Modellen, die sich auf einzelne Genome oder kuratierte Sätze spezifischer Arten konzentrieren, zielt METAGENE-1 darauf ab, die vollständige Verteilung genomischer Informationen in diesem Abwasser zu erfassen, um bei Aufgaben im Zusammenhang mit der Pandemieüberwachung und der Pathogenerkennung zu helfen. Wir führen eine Byte-Pair-Encoding (BPE) Tokenisierung auf unserem Datensatz durch, die speziell für metagenomische Sequenzen zugeschnitten ist, und trainieren dann unser Modell vor. In diesem Papier beschreiben wir zunächst den Vortrainingsdatensatz, die Tokenisierungsstrategie und die Modellarchitektur, wobei wir die Überlegungen und Designentscheidungen hervorheben, die eine effektive Modellierung von metagenomischen Daten ermöglichen. Anschließend zeigen wir die Ergebnisse des Vortrainings dieses Modells auf unserem metagenomischen Datensatz und geben Einzelheiten zu unseren Verlusten, Systemmetriken und der Trainingsstabilität im Verlauf des Vortrainings. Schließlich demonstrieren wir die Leistung von METAGENE-1, das Spitzenresultate auf einem Satz genomischer Benchmarks und neuen Bewertungen zur Detektion von menschlichen Pathogenen und genomischer Sequenz-Embedding erzielt, was sein Potenzial für Anwendungen im öffentlichen Gesundheitswesen bei der Pandemieüberwachung, der Biosurveillance und der frühzeitigen Erkennung aufkommender Gesundheitsbedrohungen zeigt.
Die automatisierte Red-Teaming ist zu einem entscheidenden Ansatz geworden, um Schwachstellen in großen Sprachmodellen (LLMs) aufzudecken. Die meisten bestehenden Methoden konzentrieren sich jedoch auf isolierte Sicherheitsmängel, was ihre Fähigkeit einschränkt, sich an dynamische Verteidigungen anzupassen und komplexe Schwachstellen effizient aufzudecken. Um diese Herausforderung anzugehen, schlagen wir Auto-RT vor, ein Framework des reinforcement learning, das automatisch komplexe Angriffsstrategien erforscht und optimiert, um Sicherheitslücken effektiv durch bösartige Abfragen aufzudecken. Insbesondere führen wir zwei Schlüsselmechanismen ein, um die Komplexität der Exploration zu reduzieren und die Strategieoptimierung zu verbessern: 1) Frühzeitig beendete Exploration, die die Exploration beschleunigt, indem sie sich auf vielversprechende Angriffsstrategien konzentriert; und 2) Das Progressive Reward Tracking-Algorithmus mit Zwischenabstufungsmodellen, die die Suche dynamisch verfeinern, um eine erfolgreiche Ausnutzung von Sicherheitslücken zu erreichen. Umfangreiche Experimente über verschiedene LLMs hinweg zeigen, dass Auto-RT durch signifikante Verbesserungen der Explorations-Effizienz und automatische Optimierung von Angriffsstrategien einen breiteren Bereich von Schwachstellen erkennt, eine schnellere Entdeckungsgeschwindigkeit erreicht und eine Erfolgsrate von 16,63\% höher im Vergleich zu bestehenden Methoden erzielt.
Die Steuerung von 4D-Videos ist für die Videogenerierung unerlässlich, da sie die Verwendung anspruchsvoller Objektivtechniken wie Mehrkameraaufnahmen und Dolly-Zoom ermöglicht, die derzeit von bestehenden Methoden nicht unterstützt werden. Das Training eines Video Diffusion Transformers (DiT) zur direkten Steuerung von 4D-Inhalten erfordert teure Multi-View-Videos. Inspiriert von der Monocular Dynamic novel View Synthesis (MDVS), die eine 4D-Repräsentation optimiert und Videos gemäß unterschiedlicher 4D-Elemente wie Kameraposition und Objektbewegung bearbeitet, bringen wir pseudo-4D-Gaußfelder in die Videogenerierung ein. Speziell schlagen wir ein neuartiges Framework vor, das ein pseudo-4D-Gaußfeld mit dichtem 3D-Punkt-Tracking konstruiert und das Gaußfeld für alle Videoframes rendert. Anschließend feinjustieren wir einen vorab trainierten DiT, um Videos gemäß der Anleitung des gerenderten Videos zu generieren, das als GS-DiT bezeichnet wird. Um das Training des GS-DiT zu verbessern, schlagen wir auch eine effiziente Methode für das dichte 3D-Punkt-Tracking (D3D-PT) für die Konstruktion des pseudo-4D-Gaußfelds vor. Unser D3D-PT übertrifft SpatialTracker, die führende Methode für das sparse 3D-Punkt-Tracking, in Genauigkeit und beschleunigt die Inferenzgeschwindigkeit um zwei Größenordnungen. Während der Inferenzphase kann der GS-DiT Videos mit demselben dynamischen Inhalt generieren und dabei unterschiedlichen Kameraparametern folgen, was eine bedeutende Einschränkung aktueller Videogenerierungsmodelle angeht. Der GS-DiT zeigt starke Verallgemeinerungsfähigkeiten und erweitert die 4D-Steuerbarkeit von Gauß-Splatting auf die Videogenerierung über reine Kamerapositionen hinaus. Er unterstützt fortgeschrittene kinematografische Effekte durch die Manipulation des Gaußfelds und der Kameraintrinsiken und wird so zu einem leistungsstarken Werkzeug für die kreative Videoproduktion. Demos sind verfügbar unter https://wkbian.github.io/Projects/GS-DiT/.
Die monokulare Tiefenschätzung im Rahmen des Diffusions-Denoising-Paradigmas zeigt eine beeindruckende Generalisierungsfähigkeit, leidet jedoch unter geringer Inferenzgeschwindigkeit. Aktuelle Methoden übernehmen ein einstufiges deterministisches Paradigma, um die Inferenzeffizienz zu verbessern, während sie eine vergleichbare Leistung beibehalten. Allerdings wird die Kluft zwischen generativen und diskriminativen Merkmalen übersehen, was zu suboptimalen Ergebnissen führt. In dieser Arbeit schlagen wir DepthMaster vor, ein einstufiges Diffusionsmodell, das darauf ausgelegt ist, generative Merkmale für die diskriminative Tiefenschätzungsaufgabe anzupassen. Zunächst schlagen wir zur Verringerung von Überanpassung an Texturdetails, die durch generative Merkmale eingeführt werden, ein Feature Alignment-Modul vor, das hochwertige semantische Merkmale integriert, um die Repräsentationsfähigkeit des Denoising-Netzwerks zu verbessern. Zweitens schlagen wir zur Behebung des Mangels an feinkörnigen Details im einstufigen deterministischen Rahmen ein Fourier Enhancement-Modul vor, um das Gleichgewicht zwischen niederfrequenten Strukturen und hochfrequenten Details adaptiv auszubalancieren. Wir übernehmen eine zweistufige Schulungsstrategie, um das volle Potenzial der beiden Module optimal zu nutzen. In der ersten Stufe konzentrieren wir uns auf das Erlernen der globalen Szenenstruktur mit dem Feature Alignment-Modul, während wir in der zweiten Stufe das Fourier Enhancement-Modul nutzen, um die visuelle Qualität zu verbessern. Durch diese Bemühungen erreicht unser Modell Spitzenleistungen in Bezug auf Generalisierung und Detailerhaltung und übertrifft andere auf Diffusion basierende Methoden auf verschiedenen Datensätzen. Unsere Projektseite ist unter https://indu1ge.github.io/DepthMaster_page zu finden.
Prozessbasierte Belohnungsmodelle (PRMs) sind entscheidend für komplexe Schlussfolgerungen und Entscheidungsfindungsaufgaben, bei denen jeder Zwischenschritt eine wichtige Rolle im Schlussfolgerungsprozess spielt. Da Sprachmodelle während des Schlussfolgerungsprozesses anfällig für verschiedene Arten von Fehlern sind, müssen PRMs über differenzierte Fähigkeiten zur Erkennung verschiedener impliziter Fehlerarten in realen Szenarien verfügen. Aktuelle Benchmarks konzentrieren sich jedoch hauptsächlich auf die Korrektheit der Schritte und versäumen es, die Leistung der PRMs systematisch zu bewerten. Um diese Lücke zu schließen, stellen wir PRMBench vor, einen prozessbasierten Benchmark, der speziell entwickelt wurde, um die feinkörnigen Fehlererkennungsfähigkeiten von PRMs zu bewerten. PRMBench umfasst 6.216 sorgfältig entworfene Probleme und 83.456 Schritt-Etiketten und bewertet Modelle in mehreren Dimensionen, einschließlich Einfachheit, Stichhaltigkeit und Empfindlichkeit. In unseren Experimenten mit 15 Modellen, die sowohl Open-Source-PRMs als auch geschlossene große Sprachmodelle umfassen, die als Kritikermodelle fungieren, decken wir signifikante Schwächen in aktuellen PRMs auf. Diese Ergebnisse verdeutlichen die Herausforderungen, die mit der Bewertung auf Prozessebene verbunden sind, und heben wichtige Richtungen für zukünftige Forschung hervor. Wir hoffen, dass PRMBench eine robuste Bench für die Weiterentwicklung der Forschung zur Bewertung und Entwicklung von PRMs sein kann.
Eine effektive Bewertung der Mehrfach-Hop-Toolnutzung ist entscheidend für die Analyse der Verständnis-, Schlussfolgerungs- und Funktionsaufruf-Fähigkeiten großer Sprachmodelle (LLMs). Der Fortschritt wurde jedoch durch einen Mangel an zuverlässigen Bewertungsdatensätzen behindert. Um dies zu lösen, präsentieren wir ToolHop, einen Datensatz bestehend aus 995 Benutzeranfragen und 3.912 zugehörigen Tools, der speziell für eine gründliche Bewertung der Mehrfach-Hop-Toolnutzung konzipiert ist. ToolHop gewährleistet vielfältige Anfragen, sinnvolle Interdependenzen, lokal ausführbare Tools, detailliertes Feedback und überprüfbare Antworten durch einen neuartigen, an Anfragen orientierten Ansatz zur Datenerstellung, der die Toolerstellung, Dokumentenverfeinerung und Codegenerierung umfasst. Wir bewerten 14 LLMs aus fünf Modellfamilien (d.h. LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 und GPT) und decken dabei bedeutende Herausforderungen bei der Bewältigung von Szenarien mit Mehrfach-Hop-Toolnutzung auf. Das führende Modell, GPT-4o, erreicht eine Genauigkeit von 49,04%, was auf erheblichen Verbesserungsbedarf hinweist. Weitere Analysen zeigen Variationen in den Toolnutzungsstrategien für verschiedene Familien auf und bieten handlungsorientierte Erkenntnisse zur Entwicklung effektiverer Ansätze. Code und Daten sind unter https://huggingface.co/bytedance-research/ToolHop verfügbar.
Wir schlagen Samba ASR vor, das erste hochmoderne Automatische Spracherkennungsmodell (ASR), das die neuartige Mamba-Architektur sowohl als Encoder als auch als Decoder nutzt, auf der Grundlage von Zustandsraummodellen (SSMs). Im Gegensatz zu transformerbasierten ASR-Modellen, die auf Selbst-Aufmerksamkeitsmechanismen zur Erfassung von Abhängigkeiten angewiesen sind, modelliert Samba ASR effektiv sowohl lokale als auch globale zeitliche Abhängigkeiten unter Verwendung effizienter Zustandsraum-Dynamik und erzielt bemerkenswerte Leistungssteigerungen. Durch die Bewältigung der Einschränkungen von Transformern, wie der quadratischen Skalierung mit Eingangslänge und der Schwierigkeit im Umgang mit weitreichenden Abhängigkeiten, erreicht Samba ASR eine überlegene Genauigkeit und Effizienz. Experimentelle Ergebnisse zeigen, dass Samba ASR bestehende Open-Source transformerbasierte ASR-Modelle in verschiedenen Standard-Benchmarks übertrifft und es als neuen Stand der Technik in der ASR etabliert. Umfangreiche Bewertungen an Benchmark-Datensätzen zeigen signifikante Verbesserungen im Wortfehlerraten (WER), mit wettbewerbsfähiger Leistung auch in Szenarien mit geringen Ressourcen. Darüber hinaus machen die Rechenleistung und die Parameteroptimierung der Mamba-Architektur Samba ASR zu einer skalierbaren und robusten Lösung für verschiedene ASR-Aufgaben. Unsere Beiträge umfassen: Eine neue Samba ASR-Architektur, die die Überlegenheit von SSMs gegenüber transformerbasierten Modellen für die Verarbeitung von Sprachsequenzen zeigt. Eine umfassende Bewertung an öffentlichen Benchmarks, die eine hochmoderne Leistung zeigt. Eine Analyse der Rechenleistung, der Robustheit gegenüber Rauschen und der Sequenzgeneralisierung. Diese Arbeit hebt die Machbarkeit von Mamba SSMs als transformerfreie Alternative für effiziente und präzise ASR hervor. Durch die Nutzung von Fortschritten in der Zustandsraummodellierung setzt Samba ASR einen neuen Maßstab für die ASR-Leistung und zukünftige Forschung.
Dieses Paper präsentiert ein leistungsstarkes Framework zur Anpassung von Videokreationen durch die Integration mehrerer spezifischer Identitätsfotos (ID) mit Video-Diffusion-Transformern, die als Zutaten bezeichnet werden. Im Allgemeinen besteht unsere Methode aus drei Hauptmodulen: (i) einem Gesichtsextraktor, der vielseitige und präzise Gesichtsmerkmale für jede menschliche ID aus globalen und lokalen Perspektiven erfasst; (ii) einem Multi-Scale-Projektor, der Gesichtseinbettungen in den Kontextraum der Bildabfrage in Video-Diffusionstransformern abbildet; (iii) einem ID-Router, der dynamisch mehrere ID-Einbettungen kombiniert und den entsprechenden Raum-Zeit-Regionen zuweist. Durch die Nutzung eines sorgfältig kuratierten Text-Video-Datensatzes und eines mehrstufigen Schulungsprotokolls zeigt Ingredients eine überlegene Leistung bei der Umwandlung von benutzerdefinierten Fotos in dynamische und personalisierte Videoinhalte. Qualitative Bewertungen heben die Vorteile der vorgeschlagenen Methode hervor und positionieren sie als bedeutenden Fortschritt hin zu effektiveren generativen Videosteuerungswerkzeugen in Transformer-basierten Architekturen im Vergleich zu bestehenden Methoden. Die Daten, der Code und die Modellgewichte sind öffentlich verfügbar unter: https://github.com/feizc/Ingredients.
Das Gestalten von strukturierten Visuals wie Präsentationsfolien ist für kommunikative Anforderungen unerlässlich und erfordert sowohl Fähigkeiten in der Inhaltserstellung als auch im visuellen Planen. In dieser Arbeit behandeln wir die Herausforderung der automatisierten Folien-Erstellung, bei der Modelle Präsentationsfolien aus natürlicher Sprache (NL) generieren. Zuerst stellen wir das SlidesBench-Benchmark vor, das erste Benchmark für die Folien-Erstellung mit 7k Trainings- und 585 Testbeispielen aus 310 Folien-Sets in 10 Domänen. SlidesBench unterstützt Bewertungen, die (i) referenzbasiert sind, um die Ähnlichkeit mit einer Ziel-Folie zu messen, und (ii) referenzfrei sind, um die Design-Qualität der generierten Folien allein zu messen. Wir bewerten End-to-End-Bildgenerierungs- und Programmgenerierungsmethoden mit verschiedenen Modellen und stellen fest, dass programmatische Methoden Folien in benutzerinteraktiven Formaten von höherer Qualität produzieren. Aufbauend auf dem Erfolg der Programmgenerierung erstellen wir AutoPresent, ein auf 8B Llama basierendes Modell, das auf 7k Paaren von Anweisungen trainiert ist, die mit Code für die Folien-Erstellung verbunden sind, und erzielen Ergebnisse, die mit dem Closed-Source-Modell GPT-4o vergleichbar sind. Wir untersuchen weiterhin die iterative Design-Verfeinerung, bei der das Modell beauftragt ist, seine eigene Ausgabe selbst zu verbessern, und stellen fest, dass dieser Prozess die Qualität der Folie verbessert. Wir hoffen, dass unsere Arbeit eine Grundlage für zukünftige Arbeiten zur Generierung strukturierter Visuals bieten wird.
Die rasante Entwicklung von Vision-Language-Modellen (VLMs) erfordert eine gründliche und zuverlässige Bewertung. Allerdings hängen aktuelle Benchmarks für visuelle Frage-Antwort-Systeme (VQA) oft von offenen Fragen ab, was aufgrund der Variabilität der natürlichen Sprachantworten eine genaue Bewertung erschwert. Um diesem Problem zu begegnen, stellen wir AutoConverter vor, ein agentisches Framework, das diese offenen Fragen automatisch in das Multiple-Choice-Format umwandelt. Dies ermöglicht eine objektive Bewertung und reduziert den kostspieligen Prozess der Frageerstellung. Unsere Experimente zeigen, dass AutoConverter korrekte und anspruchsvolle Multiple-Choice-Fragen generieren kann, wobei VLMs bei diesen Fragen im Vergleich zu von Menschen erstellten Fragen konsistent ähnliche oder niedrigere Genauigkeiten aufweisen. Unter Verwendung von AutoConverter erstellen wir VMCBench, einen Benchmark, der durch die Umwandlung von 20 bestehenden VQA-Datensätzen in ein einheitliches Multiple-Choice-Format erstellt wurde und insgesamt 9.018 Fragen umfasst. Wir evaluieren umfassend 33 hochmoderne VLMs auf VMCBench und setzen damit einen neuen Maßstab für skalierbare, konsistente und reproduzierbare VLM-Bewertungen.
In diesem Paper schlagen wir ProTracker vor, ein neuartiges Framework für robustes und präzises Langzeit-Tracking dichter Punkte in Videos. Die Hauptidee unserer Methode besteht darin, probabilistische Integration zu nutzen, um mehrere Vorhersagen aus optischem Fluss und semantischen Merkmalen zur robusten Verfolgung im Kurz- und Langzeitbereich zu verfeinern. Konkret integrieren wir optische Flussabschätzungen auf probabilistische Weise, um durch Maximierung der Wahrscheinlichkeit jeder Vorhersage gleichmäßige und präzise Trajektorien zu erzeugen. Um herausfordernde Punkte effektiv neu zu lokalisieren, die aufgrund von Okklusion verschwinden und wieder auftauchen, integrieren wir zudem langfristige Merkmalskorrespondenz in unsere Flussvorhersagen für kontinuierliche Trajektoriengenerierung. Umfangreiche Experimente zeigen, dass ProTracker die modernste Leistung unter unüberwachten und selbstüberwachten Ansätzen erreicht und sogar überwachte Methoden auf mehreren Benchmarks übertrifft. Unser Code und Modell werden nach der Veröffentlichung öffentlich zugänglich sein.