papers.title

papers.description

Token-Budget-bewusstes LLM-Argumentieren
Token-Budget-Aware LLM Reasoning

Dec 24

ByTingxu Han, Chunrong Fang, Shiyu Zhao, Shiqing Ma, Zhenyu Chen, Zhenting Wang

Das Argumentieren ist entscheidend für große Sprachmodelle (LLMs), um in einer Vielzahl von Aufgaben herausragende Leistungen zu erbringen. Während Methoden wie Chain-of-Thought (CoT)-Argumentation die Leistung von LLMs verbessern, indem sie Probleme in Zwischenschritte zerlegen, gehen sie auch mit erheblichem Overhead bei der Token-Verwendung einher, was zu erhöhten Kosten führt. Wir stellen fest, dass der Argumentationsprozess aktueller LLMs unnötig lang ist und durch die Einbeziehung eines angemessenen Token-Budgets im Prompt komprimiert werden kann, wobei die Wahl des Token-Budgets eine entscheidende Rolle für die tatsächliche Kompressionswirksamkeit spielt. Anschließend schlagen wir ein Token-Budget-bewusstes LLM-Argumentationsrahmenwerk vor, das dynamisch Token-Budgets für verschiedene Probleme basierend auf der Argumentationskomplexität schätzt und die geschätzten Token-Budgets zur Steuerung des Argumentationsprozesses verwendet. Experimente zeigen, dass unsere Methode die Token-Kosten bei CoT-Argumentation effektiv reduziert, bei nur geringfügiger Leistungsreduzierung, und somit eine praktische Lösung bietet, um Effizienz und Genauigkeit bei LLM-Argumentation in Einklang zu bringen. Code: https://github.com/GeniusHTX/TALE.

Mulberry: Stärkung von MLLM durch o1-ähnliches Schlussfolgern und Reflexion mittels kollektiver Monte Carlo-Baumsuche
Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

Dec 24

ByHuanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, Yuxin Song, Haocheng Feng, Li Shen, Dacheng Tao

In dieser Arbeit zielen wir darauf ab, ein MLLM zu entwickeln, das Fragen versteht und löst, indem es lernt, jeden Zwischenschritt des damit verbundenen Denkprozesses bis zur endgültigen Antwort zu erstellen. Zu diesem Zweck schlagen wir Collective Monte Carlo Tree Search (CoMCTS) vor, eine neue Lern-zu-Denken-Methode für MLLMs, die das Konzept des kollektiven Lernens in die "Baumsuche" einführt, um eine effektive und effiziente Suche nach Denkpfaden und Lernen zu ermöglichen. Die Kernidee von CoMCTS besteht darin, kollektives Wissen aus mehreren Modellen zu nutzen, um gemeinsam Vermutungen anzustellen, zu suchen und effektive Denkpfade zu identifizieren, die zu korrekten Antworten führen, über vier iterative Operationen, einschließlich Expansion, Simulation und Fehlerpositionierung, Rückpropagierung und Auswahl. Unter Verwendung von CoMCTS erstellen wir Mulberry-260k, einen multimodalen Datensatz mit einem Baum aus reichen, expliziten und klar definierten Denk-Knoten für jede Frage. Mit Mulberry-260k führen wir kollektive SFT durch, um unser Modell, Mulberry, eine Serie von MLLMs mit O1-ähnlichen schrittweisen Denk- und Reflexionsfähigkeiten, zu trainieren. Umfangreiche Experimente zeigen die Überlegenheit unserer vorgeschlagenen Methoden in verschiedenen Benchmarks. Der Code wird unter https://github.com/HJYao00/Mulberry verfügbar sein.

Video-Panda: Parameter-effiziente Ausrichtung für Encoder-freie Video-Sprachmodelle
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

Dec 24

ByJinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall

Wir präsentieren einen effizienten Ansatz ohne Encoder für das Verstehen von Video-Sprache, der eine wettbewerbsfähige Leistung erzielt und gleichzeitig den Rechenaufwand erheblich reduziert. Aktuelle Video-Sprachmodelle verlassen sich in der Regel auf schwergewichtige Bild-Encoder (300M-1.1B Parameter) oder Video-Encoder (1B-1.4B Parameter), was eine erhebliche Rechenlast bei der Verarbeitung von Mehrbildvideos erzeugt. Unsere Methode führt einen neuartigen räumlich-zeitlichen Ausrichtungsblock (STAB) ein, der Videoeingaben direkt verarbeitet, ohne auf vorab trainierte Encoder angewiesen zu sein, und dabei nur 45M Parameter für die visuelle Verarbeitung verwendet - mindestens eine 6,5-fache Reduzierung im Vergleich zu traditionellen Ansätzen. Die STAB-Architektur kombiniert lokales räumlich-zeitliches Codieren für eine feinkörnige Merkmalsextraktion, effizientes räumliches Downsampling durch erlernte Aufmerksamkeit und separate Mechanismen zur Modellierung von Frame- und Videoebenenbeziehungen. Unser Modell erzielt vergleichbare oder überlegene Leistung im Vergleich zu Encoder-basierten Ansätzen für offene Video-Fragenbeantwortung auf Standard-Benchmarks. Die feinkörnige Bewertung der Video-Fragenbeantwortung zeigt die Wirksamkeit unseres Modells, das in Schlüsselaspekten wie Korrektheit und zeitlichem Verständnis die Encoder-basierten Ansätze Video-ChatGPT und Video-LLaVA übertrifft. Umfangreiche Ablationsstudien bestätigen unsere architektonischen Entscheidungen und zeigen die Wirksamkeit unseres räumlich-zeitlichen Modellierungsansatzes, während gleichzeitig Verarbeitungsgeschwindigkeiten erzielt werden, die 3-4-mal schneller sind als bei früheren Methoden. Der Code ist verfügbar unter https://github.com/jh-yi/Video-Panda.

WavePulse: Echtzeit-Inhaltsanalyse von Radio-Livestreams
WavePulse: Real-time Content Analytics of Radio Livestreams

Dec 23

ByGovind Mittal, Sarthak Gupta, Shruti Wagle, Chirag Chopra, Anthony J DeMattee, Nasir Memon, Mustaque Ahamad, Chinmay Hegde

Radio bleibt ein allgegenwärtiges Medium für die Verbreitung von Masseninformationen, wobei AM/FM-Sender mehr Amerikaner erreichen als soziale Netzwerke auf Smartphones oder Live-Fernsehen. Zunehmend werden Radiosendungen auch online gestreamt und über das Internet abgerufen. Wir stellen WavePulse vor, ein Framework, das Radioinhalte in Echtzeit aufzeichnet, dokumentiert und analysiert. Während unser Framework im Allgemeinen anwendbar ist, zeigen wir die Wirksamkeit von WavePulse in einem gemeinsamen Projekt mit einem Team von Politikwissenschaftlern, das sich auf die Präsidentschaftswahlen 2024 konzentriert. Wir verwenden WavePulse, um Livestreams von 396 Nachrichtenradiosendern über einen Zeitraum von drei Monaten zu überwachen, wobei fast 500.000 Stunden Audio-Streams verarbeitet wurden. Diese Streams wurden in zeitgestempelte, diarisierte Transkripte umgewandelt und analysiert, um politikwissenschaftliche Schlüsselfragen auf nationaler und bundesstaatlicher Ebene zu verfolgen. Unsere Analyse zeigte, wie lokale Themen mit nationalen Trends interagierten und Einblicke in den Informationsfluss lieferten. Unsere Ergebnisse zeigen die Wirksamkeit von WavePulse bei der Erfassung und Analyse von Inhalten aus Radiolivestreams, die aus dem Web stammen. Der Code und das Datenset sind unter https://wave-pulse.io abrufbar.

Wie "real" ist Ihr Echtzeit-Simultan-Sprache-zu-Text-Übersetzungssystem?
How "Real" is Your Real-Time Simultaneous Speech-to-Text Translation System?

Dec 24

BySara Papi, Peter Polak, Ondřej Bojar, Dominik Macháček

Die simultane Sprach-zu-Text-Übersetzung (SimulST) übersetzt die Sprache der Ausgangssprache gleichzeitig mit der Rede des Sprechers in Text der Zielsprache, um eine geringe Latenz für eine bessere Benutzerkomprehension zu gewährleisten. Obwohl sie für die Anwendung auf ungebundene Sprache vorgesehen ist, hat sich die meiste Forschung auf vorab segmentierte menschliche Sprache konzentriert, was die Aufgabe vereinfacht und bedeutende Herausforderungen außer Acht lässt. Dieser enge Fokus, zusammen mit weit verbreiteten terminologischen Inkonsistenzen, schränkt die Anwendbarkeit der Forschungsergebnisse auf realen Anwendungen ein und behindert letztendlich den Fortschritt auf diesem Gebiet. Unsere umfangreiche Literaturübersicht von 110 Artikeln zeigt nicht nur diese kritischen Probleme in der aktuellen Forschung auf, sondern dient auch als Grundlage für unsere wesentlichen Beiträge. Wir 1) definieren die Schritte und Kernkomponenten eines SimulST-Systems, schlagen eine standardisierte Terminologie und Taxonomie vor; 2) führen eine gründliche Analyse der Trends in der Gemeinschaft durch und 3) bieten konkrete Empfehlungen und zukünftige Richtungen an, um die Lücken in der bestehenden Literatur zu überbrücken, von Evaluierungsrahmen bis hin zu Systemarchitekturen, um das Feld hin zu realistischeren und effektiveren SimulST-Lösungen voranzubringen.

VidTwin: Video-VAE mit entkoppelter Struktur und Dynamik
VidTwin: Video VAE with Decoupled Structure and Dynamics

Dec 23

ByYuchi Wang, Junliang Guo, Xinyi Xie, Tianyu He, Xu Sun, Jiang Bian

In jüngster Zeit haben Fortschritte bei Videoautoencodern (Video AEs) die Qualität und Effizienz der Videogenerierung erheblich verbessert. In diesem Artikel schlagen wir einen neuartigen und kompakten Videoautoencoder namens VidTwin vor, der Videos in zwei unterschiedliche latente Räume aufteilt: Struktur-latente Vektoren, die den Gesamtinhalt und die globale Bewegung erfassen, und Dynamik-latente Vektoren, die feine Details und schnelle Bewegungen darstellen. Speziell nutzt unser Ansatz ein Encoder-Decoder-Grundgerüst, das mit zwei Untermodulen zur Extraktion dieser latenten Räume erweitert ist. Das erste Untermodul verwendet ein Q-Former, um niederfrequente Bewegungstrends zu extrahieren, gefolgt von Downsampling-Blöcken, um redundante Inhaltsdetails zu entfernen. Das zweite Mittel berechnet den Durchschnitt der latenten Vektoren entlang der räumlichen Dimension, um schnelle Bewegungen einzufangen. Umfangreiche Experimente zeigen, dass VidTwin eine hohe Kompressionsrate von 0,20% bei hoher Rekonstruktionsqualität (PSNR von 28,14 auf dem MCL-JCV-Datensatz) erreicht und in nachgelagerten generativen Aufgaben effizient und effektiv arbeitet. Darüber hinaus zeigt unser Modell Erklärbarkeit und Skalierbarkeit und ebnet den Weg für zukünftige Forschung im Bereich der latenten Repräsentation und Generierung von Videos. Unser Code wurde unter https://github.com/microsoft/VidTok/tree/main/vidtwin veröffentlicht.

PepTune: Die de novo Generierung therapeutischer Peptide mit Mehrziel-gesteuerter diskreter Diffusion
PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

Dec 23

BySophia Tang, Yinuo Zhang, Pranam Chatterjee

Peptidtherapeutika, eine wichtige Medikamentenklasse, haben bemerkenswerte Erfolge bei Krankheiten wie Diabetes und Krebs erzielt, mit wegweisenden Beispielen wie GLP-1-Rezeptoragonisten, die die Behandlung von Typ-2-Diabetes und Fettleibigkeit revolutioniert haben. Trotz ihres Erfolgs bleibt das Design von Peptiden, die mehrere sich widersprechende Ziele wie die Bindungsaffinität zum Ziel, Löslichkeit und Membranpermeabilität erfüllen, eine große Herausforderung. Klassische Arzneimittelentwicklung und strukturbasiertes Design sind für solche Aufgaben ineffektiv, da sie es versäumen, globale funktionale Eigenschaften zu optimieren, die für die therapeutische Wirksamkeit entscheidend sind. Bestehende generative Rahmenwerke sind weitgehend auf kontinuierliche Räume, unbedingte Ausgaben oder Einzelzielrichtlinien beschränkt, was sie für die diskrete Sequenzoptimierung über mehrere Eigenschaften hinweg ungeeignet macht. Um dies zu bewältigen, stellen wir PepTune vor, ein Multi-Objective Discrete Diffusion Model zur simultanen Generierung und Optimierung von therapeutischen Peptid-SMILES. Aufbauend auf dem Masked Discrete Language Model (MDLM)-Rahmenwerk stellt PepTune gültige Peptidstrukturen mit zustandsabhängigen Maskierungsplänen und strafbewehrten Zielen sicher. Um den Diffusionsprozess zu lenken, schlagen wir eine Monte-Carlo-Tree-Search(MCTS)-basierte Strategie vor, die Exploration und Ausbeutung ausbalanciert, um Pareto-optimale Sequenzen iterativ zu verfeinern. MCTS integriert klassifiziererbasierte Belohnungen mit Suchbaumexpansion, um Gradientenschätzungsprobleme und Datenknappheit, die in diskreten Räumen inhärent sind, zu überwinden. Unter Verwendung von PepTune generieren wir vielfältige, chemisch modifizierte Peptide, die für mehrere therapeutische Eigenschaften optimiert sind, einschließlich der Bindungsaffinität zum Ziel, Membranpermeabilität, Löslichkeit, Hämolyse und nicht-fouling Eigenschaften an verschiedenen krankheitsrelevanten Zielen. Insgesamt zeigen unsere Ergebnisse, dass MCTS-geführte diskrete Diffusion ein leistungsstarker und modularer Ansatz für das Multi-Objective Sequenzdesign in diskreten Zustandsräumen ist.