Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Das Argumentieren ist entscheidend für große Sprachmodelle (LLMs), um in einer Vielzahl von Aufgaben herausragende Leistungen zu erbringen. Während Methoden wie Chain-of-Thought (CoT)-Argumentation die Leistung von LLMs verbessern, indem sie Probleme in Zwischenschritte zerlegen, gehen sie auch mit erheblichem Overhead bei der Token-Verwendung einher, was zu erhöhten Kosten führt. Wir stellen fest, dass der Argumentationsprozess aktueller LLMs unnötig lang ist und durch die Einbeziehung eines angemessenen Token-Budgets im Prompt komprimiert werden kann, wobei die Wahl des Token-Budgets eine entscheidende Rolle für die tatsächliche Kompressionswirksamkeit spielt. Anschließend schlagen wir ein Token-Budget-bewusstes LLM-Argumentationsrahmenwerk vor, das dynamisch Token-Budgets für verschiedene Probleme basierend auf der Argumentationskomplexität schätzt und die geschätzten Token-Budgets zur Steuerung des Argumentationsprozesses verwendet. Experimente zeigen, dass unsere Methode die Token-Kosten bei CoT-Argumentation effektiv reduziert, bei nur geringfügiger Leistungsreduzierung, und somit eine praktische Lösung bietet, um Effizienz und Genauigkeit bei LLM-Argumentation in Einklang zu bringen. Code: https://github.com/GeniusHTX/TALE.
In dieser Arbeit zielen wir darauf ab, ein MLLM zu entwickeln, das Fragen versteht und löst, indem es lernt, jeden Zwischenschritt des damit verbundenen Denkprozesses bis zur endgültigen Antwort zu erstellen. Zu diesem Zweck schlagen wir Collective Monte Carlo Tree Search (CoMCTS) vor, eine neue Lern-zu-Denken-Methode für MLLMs, die das Konzept des kollektiven Lernens in die "Baumsuche" einführt, um eine effektive und effiziente Suche nach Denkpfaden und Lernen zu ermöglichen. Die Kernidee von CoMCTS besteht darin, kollektives Wissen aus mehreren Modellen zu nutzen, um gemeinsam Vermutungen anzustellen, zu suchen und effektive Denkpfade zu identifizieren, die zu korrekten Antworten führen, über vier iterative Operationen, einschließlich Expansion, Simulation und Fehlerpositionierung, Rückpropagierung und Auswahl. Unter Verwendung von CoMCTS erstellen wir Mulberry-260k, einen multimodalen Datensatz mit einem Baum aus reichen, expliziten und klar definierten Denk-Knoten für jede Frage. Mit Mulberry-260k führen wir kollektive SFT durch, um unser Modell, Mulberry, eine Serie von MLLMs mit O1-ähnlichen schrittweisen Denk- und Reflexionsfähigkeiten, zu trainieren. Umfangreiche Experimente zeigen die Überlegenheit unserer vorgeschlagenen Methoden in verschiedenen Benchmarks. Der Code wird unter https://github.com/HJYao00/Mulberry verfügbar sein.
Wir präsentieren einen effizienten Ansatz ohne Encoder für das Verstehen von Video-Sprache, der eine wettbewerbsfähige Leistung erzielt und gleichzeitig den Rechenaufwand erheblich reduziert. Aktuelle Video-Sprachmodelle verlassen sich in der Regel auf schwergewichtige Bild-Encoder (300M-1.1B Parameter) oder Video-Encoder (1B-1.4B Parameter), was eine erhebliche Rechenlast bei der Verarbeitung von Mehrbildvideos erzeugt. Unsere Methode führt einen neuartigen räumlich-zeitlichen Ausrichtungsblock (STAB) ein, der Videoeingaben direkt verarbeitet, ohne auf vorab trainierte Encoder angewiesen zu sein, und dabei nur 45M Parameter für die visuelle Verarbeitung verwendet - mindestens eine 6,5-fache Reduzierung im Vergleich zu traditionellen Ansätzen. Die STAB-Architektur kombiniert lokales räumlich-zeitliches Codieren für eine feinkörnige Merkmalsextraktion, effizientes räumliches Downsampling durch erlernte Aufmerksamkeit und separate Mechanismen zur Modellierung von Frame- und Videoebenenbeziehungen. Unser Modell erzielt vergleichbare oder überlegene Leistung im Vergleich zu Encoder-basierten Ansätzen für offene Video-Fragenbeantwortung auf Standard-Benchmarks. Die feinkörnige Bewertung der Video-Fragenbeantwortung zeigt die Wirksamkeit unseres Modells, das in Schlüsselaspekten wie Korrektheit und zeitlichem Verständnis die Encoder-basierten Ansätze Video-ChatGPT und Video-LLaVA übertrifft. Umfangreiche Ablationsstudien bestätigen unsere architektonischen Entscheidungen und zeigen die Wirksamkeit unseres räumlich-zeitlichen Modellierungsansatzes, während gleichzeitig Verarbeitungsgeschwindigkeiten erzielt werden, die 3-4-mal schneller sind als bei früheren Methoden. Der Code ist verfügbar unter https://github.com/jh-yi/Video-Panda.
Radio bleibt ein allgegenwärtiges Medium für die Verbreitung von Masseninformationen, wobei AM/FM-Sender mehr Amerikaner erreichen als soziale Netzwerke auf Smartphones oder Live-Fernsehen. Zunehmend werden Radiosendungen auch online gestreamt und über das Internet abgerufen. Wir stellen WavePulse vor, ein Framework, das Radioinhalte in Echtzeit aufzeichnet, dokumentiert und analysiert. Während unser Framework im Allgemeinen anwendbar ist, zeigen wir die Wirksamkeit von WavePulse in einem gemeinsamen Projekt mit einem Team von Politikwissenschaftlern, das sich auf die Präsidentschaftswahlen 2024 konzentriert. Wir verwenden WavePulse, um Livestreams von 396 Nachrichtenradiosendern über einen Zeitraum von drei Monaten zu überwachen, wobei fast 500.000 Stunden Audio-Streams verarbeitet wurden. Diese Streams wurden in zeitgestempelte, diarisierte Transkripte umgewandelt und analysiert, um politikwissenschaftliche Schlüsselfragen auf nationaler und bundesstaatlicher Ebene zu verfolgen. Unsere Analyse zeigte, wie lokale Themen mit nationalen Trends interagierten und Einblicke in den Informationsfluss lieferten. Unsere Ergebnisse zeigen die Wirksamkeit von WavePulse bei der Erfassung und Analyse von Inhalten aus Radiolivestreams, die aus dem Web stammen. Der Code und das Datenset sind unter https://wave-pulse.io abrufbar.
Die simultane Sprach-zu-Text-Übersetzung (SimulST) übersetzt die Sprache der Ausgangssprache gleichzeitig mit der Rede des Sprechers in Text der Zielsprache, um eine geringe Latenz für eine bessere Benutzerkomprehension zu gewährleisten. Obwohl sie für die Anwendung auf ungebundene Sprache vorgesehen ist, hat sich die meiste Forschung auf vorab segmentierte menschliche Sprache konzentriert, was die Aufgabe vereinfacht und bedeutende Herausforderungen außer Acht lässt. Dieser enge Fokus, zusammen mit weit verbreiteten terminologischen Inkonsistenzen, schränkt die Anwendbarkeit der Forschungsergebnisse auf realen Anwendungen ein und behindert letztendlich den Fortschritt auf diesem Gebiet. Unsere umfangreiche Literaturübersicht von 110 Artikeln zeigt nicht nur diese kritischen Probleme in der aktuellen Forschung auf, sondern dient auch als Grundlage für unsere wesentlichen Beiträge. Wir 1) definieren die Schritte und Kernkomponenten eines SimulST-Systems, schlagen eine standardisierte Terminologie und Taxonomie vor; 2) führen eine gründliche Analyse der Trends in der Gemeinschaft durch und 3) bieten konkrete Empfehlungen und zukünftige Richtungen an, um die Lücken in der bestehenden Literatur zu überbrücken, von Evaluierungsrahmen bis hin zu Systemarchitekturen, um das Feld hin zu realistischeren und effektiveren SimulST-Lösungen voranzubringen.
Peptidtherapeutika, eine wichtige Medikamentenklasse, haben bemerkenswerte Erfolge bei Krankheiten wie Diabetes und Krebs erzielt, mit wegweisenden Beispielen wie GLP-1-Rezeptoragonisten, die die Behandlung von Typ-2-Diabetes und Fettleibigkeit revolutioniert haben. Trotz ihres Erfolgs bleibt das Design von Peptiden, die mehrere sich widersprechende Ziele wie die Bindungsaffinität zum Ziel, Löslichkeit und Membranpermeabilität erfüllen, eine große Herausforderung. Klassische Arzneimittelentwicklung und strukturbasiertes Design sind für solche Aufgaben ineffektiv, da sie es versäumen, globale funktionale Eigenschaften zu optimieren, die für die therapeutische Wirksamkeit entscheidend sind. Bestehende generative Rahmenwerke sind weitgehend auf kontinuierliche Räume, unbedingte Ausgaben oder Einzelzielrichtlinien beschränkt, was sie für die diskrete Sequenzoptimierung über mehrere Eigenschaften hinweg ungeeignet macht. Um dies zu bewältigen, stellen wir PepTune vor, ein Multi-Objective Discrete Diffusion Model zur simultanen Generierung und Optimierung von therapeutischen Peptid-SMILES. Aufbauend auf dem Masked Discrete Language Model (MDLM)-Rahmenwerk stellt PepTune gültige Peptidstrukturen mit zustandsabhängigen Maskierungsplänen und strafbewehrten Zielen sicher. Um den Diffusionsprozess zu lenken, schlagen wir eine Monte-Carlo-Tree-Search(MCTS)-basierte Strategie vor, die Exploration und Ausbeutung ausbalanciert, um Pareto-optimale Sequenzen iterativ zu verfeinern. MCTS integriert klassifiziererbasierte Belohnungen mit Suchbaumexpansion, um Gradientenschätzungsprobleme und Datenknappheit, die in diskreten Räumen inhärent sind, zu überwinden. Unter Verwendung von PepTune generieren wir vielfältige, chemisch modifizierte Peptide, die für mehrere therapeutische Eigenschaften optimiert sind, einschließlich der Bindungsaffinität zum Ziel, Membranpermeabilität, Löslichkeit, Hämolyse und nicht-fouling Eigenschaften an verschiedenen krankheitsrelevanten Zielen. Insgesamt zeigen unsere Ergebnisse, dass MCTS-geführte diskrete Diffusion ein leistungsstarker und modularer Ansatz für das Multi-Objective Sequenzdesign in diskreten Zustandsräumen ist.