Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Diese Arbeit untersucht geopolitische Verzerrungen in großen Sprachmodellen (LLMs) in Bezug auf verschiedene Länder durch eine Analyse ihrer Interpretation historischer Ereignisse mit widersprüchlichen nationalen Perspektiven (USA, Großbritannien, UdSSR und China). Wir stellen einen neuartigen Datensatz mit neutralen Ereignisbeschreibungen und kontrastierenden Standpunkten aus verschiedenen Ländern vor. Unsere Ergebnisse zeigen signifikante geopolitische Verzerrungen, wobei die Modelle bestimmte nationale Narrative bevorzugen. Einfache Entzerrungs-Prompts hatten nur begrenzte Wirkung bei der Reduzierung dieser Verzerrungen. Experimente mit manipulierten Teilnehmerlabels offenbaren die Sensitivität der Modelle gegenüber Zuschreibungen, wobei Verzerrungen manchmal verstärkt oder Inkonsistenzen erkannt werden, insbesondere bei vertauschten Labels. Diese Arbeit beleuchtet nationale narrative Verzerrungen in LLMs, hinterfragt die Wirksamkeit einfacher Entzerrungsmethoden und bietet einen Rahmen sowie einen Datensatz für zukünftige Forschung zu geopolitischen Verzerrungen.
Typische große Vision-Sprach-Modelle (LVLMs) wenden autoregressive Überwachung ausschließlich auf Textsequenzen an, ohne die visuelle Modalität vollständig in den Lernprozess zu integrieren. Dies führt zu drei wesentlichen Einschränkungen: (1) die Unfähigkeit, Bilder ohne begleitende Beschreibungen zu nutzen, (2) das Risiko, dass Beschreibungen kritische visuelle Details auslassen, und (3) die Herausforderung, dass bestimmte visuell zentrierte Inhalte nicht angemessen durch Text vermittelt werden können. Infolgedessen priorisieren aktuelle LVLMs oft die Ausrichtung von Vision zu Sprache, während feinkörnige visuelle Informationen möglicherweise übersehen werden. Während einige frühere Arbeiten autoregressive Bildgeneration untersucht haben, bleibt die effektive Nutzung autoregressiver visueller Überwachung zur Verbesserung des Bildverständnisses eine offene Herausforderung. In diesem Artikel stellen wir Autoregressive Semantic Visual Reconstruction (ASVR) vor, das das gemeinsame Lernen von visuellen und textuellen Modalitäten innerhalb eines einheitlichen autoregressiven Rahmens ermöglicht. Wir zeigen, dass die autoregressive Rekonstruktion des rohen visuellen Erscheinungsbilds von Bildern das multimodale Verständnis nicht verbessert und es sogar beeinträchtigen kann. Im Gegensatz dazu verbessert die autoregressive Rekonstruktion der semantischen Darstellung von Bildern das Verständnis konsequent. Bemerkenswerterweise stellen wir fest, dass Modelle selbst bei kontinuierlichen Bildmerkmalen als Eingabe effektiv diskrete semantische Tokens rekonstruieren können, was zu stabilen und konsistenten Verbesserungen über eine breite Palette von multimodalen Verständnis-Benchmarks führt. Unser Ansatz erzielt signifikante Leistungssteigerungen über verschiedene Datenskalen (556k-2M) und Arten von LLM-Backbones hinweg. Insbesondere verbessert ASVR LLaVA-1.5 um 5 % in den Durchschnittswerten über 14 multimodale Benchmarks. Der Code ist verfügbar unter https://github.com/AlenjandroWang/ASVR.
Regelbasiertes Schließen wird als eines der grundlegenden Probleme im Bereich des Schließens anerkannt, während Abweichungen in Regelformaten, -typen und -komplexität in realen Anwendungen erhebliche Herausforderungen darstellen. Jüngste Studien haben gezeigt, dass große Schließmodelle (Large Reasoning Models, LRMs) bemerkenswerte Fähigkeiten im Schließen besitzen und ihre Leistung durch Reinforcement Learning (RL) erheblich gesteigert wird. Es bleibt jedoch eine offene Frage, ob kleine Schließmodelle (Small Reasoning Models, SRMs) regelbasiertes Schließen effektiv lernen und dabei eine robuste Generalisierung über verschiedene Aufgaben und Domänen hinweg erreichen können. Um dies zu adressieren, stellen wir Reinforced Rule-based Reasoning, auch bekannt als RuleReasoner, vor – eine einfache, aber effektive Methode zur Durchführung regelbasierten Schließens mithilfe einer breiten Sammlung kuratierter Aufgaben und eines neuartigen domänenbewussten dynamischen Sampling-Ansatzes. Konkret passt RuleReasoner die Sampling-Gewichte verschiedener Domänen basierend auf historischen Belohnungen an und resampelt so jeden Trainingsbatch. Dies ermöglicht Domänen-Erweiterung und flexible Online-Lernpläne für RL, wodurch die Notwendigkeit für vorab menschlich entwickelte Mix-Training-Rezepte, wie sie in bestehenden Methoden verwendet werden, entfällt. Empirische Auswertungen auf In-Distribution (ID) und Out-of-Distribution (OOD) Benchmarks zeigen, dass RuleReasoner führende LRMs deutlich übertrifft (Durchschnittlich Delta4,1% auf acht ID-Aufgaben und Delta10,4% auf drei OOD-Aufgaben gegenüber OpenAI-o1). Bemerkenswerterweise weist unser Ansatz auch eine höhere Recheneffizienz im Vergleich zu früheren dynamischen Sampling-Methoden für RL auf.
Von professioneller Filmproduktion bis hin zu nutzergenerierten Inhalten haben Schöpfer und Konsumenten schon lange erkannt, dass die Wirkung von Videos von der harmonischen Integration dessen abhängt, was wir hören (der Audiospur des Videos) und was wir sehen (die Bildsequenz des Videos). Aktuelle Ansätze zur Videogenerierung ignorieren entweder den Ton, um sich auf die allgemeine, aber stumme Generierung von Bildsequenzen zu konzentrieren, oder sie behandeln sowohl visuelle als auch auditive Elemente, beschränken sich jedoch auf spezifische Anwendungsbereiche wie das Nachsynchronisieren. Wir stellen Mirage vor, ein Audio-zu-Video-Foundation-Modell, das sich durch die Erzeugung realistischer, ausdrucksstarker Bildsequenzen aus dem Nichts heraus bei gegebenem Audioeingang auszeichnet. In Kombination mit bestehenden Methoden zur Sprachsynthese (Text-zu-Sprache, oder TTS) erzeugt Mirage überzeugende multimodale Videos. Wenn Mirage mit Audio-Video-Material von sprechenden Personen (A-Roll) trainiert und auf Audio mit Sprache konditioniert wird, generiert es Videos von Personen, die eine glaubwürdige Interpretation der im Eingangsaudio implizierten Darbietung liefern. Unser zentraler technischer Beitrag ist eine einheitliche Methode zur Schulung von auf Selbstaufmerksamkeit basierenden Audio-zu-Video-Generierungsmodellen, entweder von Grund auf oder unter Verwendung bestehender Gewichte. Diese Methodik ermöglicht es Mirage, seine Allgemeingültigkeit als Ansatz zur Audio-zu-Video-Generierung beizubehalten, während es Ausgaben von überlegener subjektiver Qualität im Vergleich zu Methoden erzeugt, die audio-spezifische Architekturen oder verlustspezifische Komponenten für Personen, Sprache oder Details der Bild- oder Audioaufnahme integrieren. Wir ermutigen die Leser, die Ergebnisse von Mirage selbst zu betrachten und anzuhören (siehe Artikel und Kommentare für Links).
Fortschritte bei Diffusionsmodellen haben die Videoqualität erheblich verbessert und die Aufmerksamkeit auf feinkörnige Steuerbarkeit gelenkt. Viele bestehende Methoden sind jedoch auf das Feinabstimmen großformatiger Videomodelle für spezifische Aufgaben angewiesen, was mit zunehmender Modellgröße immer unpraktischer wird. In dieser Arbeit präsentieren wir Frame Guidance, eine trainingsfreie Steuerung für kontrollierbare Videogenerierung, die auf Frame-Level-Signalen wie Keyframes, Stilreferenzbildern, Skizzen oder Tiefenkarten basiert. Für eine praktische trainingsfreie Steuerung schlagen wir eine einfache latente Verarbeitungsmethode vor, die den Speicherverbrauch drastisch reduziert, und wenden eine neuartige latente Optimierungsstrategie an, die für global kohärente Videogenerierung entwickelt wurde. Frame Guidance ermöglicht eine effektive Steuerung über diverse Aufgaben hinweg, einschließlich Keyframe-Steuerung, Stilisierung und Looping, ohne jegliches Training und ist mit allen Videomodellen kompatibel. Experimentelle Ergebnisse zeigen, dass Frame Guidance hochwertige kontrollierte Videos für eine Vielzahl von Aufgaben und Eingabesignalen erzeugen kann.
Die Entwicklung von Maschinen, die in der Lage sind, die Welt in 3D zu verstehen, ist entscheidend, um Designer zu unterstützen, die 3D-Umgebungen erstellen und bearbeiten, sowie Roboter, die sich in einem dreidimensionalen Raum bewegen und interagieren. Inspiriert durch Fortschritte in der Sprach- und Bildmodellierung untersuchen wir das Potenzial von autoregressiven Modellen für eine neue Modalität: strukturierte 3D-Szenen. Zu diesem Zweck schlagen wir ein einheitliches LLM-Framework vor, das Sprache, Bilder und 3D-Szenen ausrichtet, und stellen ein detailliertes „Kochbuch“ bereit, das kritische Designentscheidungen für optimales Training und Leistung beschreibt und Schlüsselfragen zu Datenrepräsentation, modalitätsspezifischen Zielen und mehr behandelt. Wir bewerten die Leistung in vier zentralen 3D-Aufgaben – Rendering, Erkennung, Befolgung von Anweisungen und Frage-Antwort – sowie in vier 3D-Datensätzen, sowohl synthetischen als auch realen. Wir erweitern unseren Ansatz, um komplexe 3D-Objektformen zu rekonstruieren, indem wir unsere 3D-Modalität mit quantisierten Formkodierungen anreichern, und zeigen die Effektivität unseres Modells bei realen 3D-Objekterkennungsaufgaben. Projektwebseite: https://glab-caltech.github.io/kyvo/
Wir stellen Self Forcing vor, ein neuartiges Trainingsparadigma für autoregressive Video-Diffusionsmodelle. Es adressiert das lang bestehende Problem des Exposure Bias, bei dem Modelle, die auf Ground-Truth-Kontext trainiert werden, während der Inferenz Sequenzen basierend auf ihren eigenen unvollkommenen Ausgaben generieren müssen. Im Gegensatz zu früheren Methoden, die zukünftige Frames basierend auf Ground-Truth-Kontextframes entrauschen, konditioniert Self Forcing die Generierung jedes Frames auf zuvor selbst generierte Ausgaben, indem während des Trainings ein autoregressiver Rollout mit Key-Value (KV)-Caching durchgeführt wird. Diese Strategie ermöglicht eine Überwachung durch einen ganzheitlichen Verlust auf Videoebene, der die Qualität der gesamten generierten Sequenz direkt bewertet, anstatt sich ausschließlich auf traditionelle Frame-weite Ziele zu verlassen. Um die Trainingseffizienz zu gewährleisten, verwenden wir ein Diffusionsmodell mit wenigen Schritten zusammen mit einer stochastischen Gradientenabschneidestrategie, die Rechenkosten und Leistung effektiv ausbalanciert. Wir führen weiterhin einen rollenden KV-Cache-Mechanismus ein, der eine effiziente autoregressive Videoextrapolation ermöglicht. Umfangreiche Experimente zeigen, dass unser Ansatz die Echtzeit-Generierung von Streaming-Videos mit einer Latenz von weniger als einer Sekunde auf einer einzelnen GPU erreicht, während er die Generierungsqualität deutlich langsamerer und nicht-kausaler Diffusionsmodelle erreicht oder sogar übertrifft. Projektwebsite: http://self-forcing.github.io/
Die Beweisung von Ungleichungen, die in verschiedenen wissenschaftlichen und mathematischen Bereichen von entscheidender Bedeutung ist, testet fortgeschrittene Denkfähigkeiten wie das Entdecken enger Schranken und die strategische Anwendung von Theoremen. Dies macht sie zu einer eigenständigen, anspruchsvollen Herausforderung für große Sprachmodelle (LLMs), die über allgemeines mathematisches Problemlösen hinausgeht. Der Fortschritt in diesem Bereich wird durch bestehende Datensätze behindert, die oft knapp, synthetisch oder streng formal sind. Wir adressieren dies, indem wir eine informelle, aber überprüfbare Aufgabenformulierung vorschlagen, die die Beweisung von Ungleichungen in zwei automatisch überprüfbare Teilaufgaben umwandelt: Schätzung von Schranken und Vorhersage von Relationen. Aufbauend darauf veröffentlichen wir IneqMath, einen von Experten kuratierten Datensatz von Olympiad-niveau Ungleichungen, der einen Testdatensatz und ein Trainingskorpus mit schrittweisen Lösungen und Theorem-Annotationen enthält. Wir entwickeln auch ein neuartiges LLM-as-Judge-Bewertungsframework, das einen Endantwort-Richter mit vier schrittweisen Richtern kombiniert, die darauf ausgelegt sind, häufige Denkfehler zu erkennen. Eine systematische Bewertung von 29 führenden LLMs auf IneqMath offenbart eine überraschende Realität: Selbst Spitzenmodelle wie o1 erreichen unter schrittweiser Prüfung eine Gesamtgenauigkeit von weniger als 10%; dies ist ein Rückgang von bis zu 65,5% im Vergleich zu ihrer Genauigkeit, wenn nur die Endantwortäquivalenz berücksichtigt wird. Diese Diskrepanz zeigt fragile deduktive Ketten und eine kritische Lücke bei aktuellen LLMs zwischen dem bloßen Finden einer Antwort und dem Konstruieren eines rigorosen Beweises. Die Skalierung der Modellgröße und die Erhöhung der Rechenzeit während des Tests bringen nur begrenzte Verbesserungen in der Gesamtbeweiskorrektheit. Stattdessen heben unsere Ergebnisse vielversprechende Forschungsrichtungen hervor, wie theoremgeleitetes Denken und Selbstverfeinerung. Code und Daten sind verfügbar unter https://ineqmath.github.io/.
In den letzten Jahren wurden Multimodale Große Sprachmodelle (MLLMs) umfassend für multimodale Denkaufgaben eingesetzt, einschließlich der Automatisierung von Grafischen Benutzeroberflächen (GUIs). Im Gegensatz zu allgemeinen offline multimodalen Aufgaben wird die GUI-Automatisierung in interaktiven Online-Umgebungen ausgeführt, was eine schrittweise Entscheidungsfindung basierend auf dem Echtzeitstatus der Umgebung erfordert. Diese Aufgabe hat eine geringere Toleranz für Entscheidungsfehler in jedem Schritt, da sich Fehler kumulativ auf den Prozess auswirken und potenziell zu irreversiblen Ergebnissen wie Löschungen oder Zahlungen führen können. Um diese Probleme zu adressieren, führen wir einen präoperativen Kritikmechanismus ein, der effektives Feedback vor der tatsächlichen Ausführung liefert, indem er das potenzielle Ergebnis und die Korrektheit von Aktionen analysiert. Konkret schlagen wir eine Suggestion-aware Gradient Relative Policy Optimization (S-GRPO)-Strategie vor, um unser präoperatives Kritikmodell GUI-Critic-R1 zu konstruieren, das einen neuartigen Vorschlagsbonus integriert, um die Zuverlässigkeit des Modellfeedbacks zu erhöhen. Darüber hinaus entwickeln wir eine auf Reasoning-Bootstrapping basierende Datenerfassungspipeline, um ein GUI-Critic-Train und ein GUI-Critic-Test zu erstellen, wodurch bestehende Lücken in den GUI-Kritikdaten geschlossen werden. Statische Experimente auf dem GUI-Critic-Test in den Bereichen Mobilgeräte und Web zeigen, dass unser GUI-Critic-R1 signifikante Vorteile in der Kritikgenauigkeit im Vergleich zu aktuellen MLLMs bietet. Die dynamische Bewertung auf einem GUI-Automatisierungs-Benchmark unterstreicht weiterhin die Effektivität und Überlegenheit unseres Modells, was sich in verbesserten Erfolgsraten und Betriebseffizienz widerspiegelt.
Wir stellen Squeeze3D vor, ein neuartiges Framework, das implizites Vorwissen nutzt, das von bestehenden vortrainierten 3D-Generierungsmodellen gelernt wurde, um 3D-Daten mit extrem hohen Kompressionsraten zu komprimieren. Unser Ansatz verbindet die latenten Räume zwischen einem vortrainierten Encoder und einem vortrainierten Generierungsmodell durch trainierbare Mapping-Netzwerke. Jedes 3D-Modell, das als Mesh, Punktwolke oder Radiance Field dargestellt wird, wird zunächst vom vortrainierten Encoder kodiert und dann in einen hochkompakten latenten Code transformiert (d.h. komprimiert). Dieser latente Code kann effektiv als extrem komprimierte Darstellung des Meshes oder der Punktwolke verwendet werden. Ein Mapping-Netzwerk transformiert den komprimierten latenten Code in den latenten Raum eines leistungsstarken Generierungsmodells, das dann konditioniert wird, um das ursprüngliche 3D-Modell neu zu erstellen (d.h. Dekompression). Squeeze3D wird vollständig auf synthetisch generierten Daten trainiert und benötigt keine 3D-Datensätze. Die Squeeze3D-Architektur kann flexibel mit bestehenden vortrainierten 3D-Encodern und bestehenden Generierungsmodellen verwendet werden. Sie kann flexibel verschiedene Formate unterstützen, darunter Meshes, Punktwolken und Radiance Fields. Unsere Experimente zeigen, dass Squeeze3D Kompressionsraten von bis zu 2187x für texturierte Meshes, 55x für Punktwolken und 619x für Radiance Fields erreicht, während die visuelle Qualität vergleichbar mit vielen bestehenden Methoden bleibt. Squeeze3D verursacht nur eine geringe Kompressions- und Dekompressionslatenz, da es keine objektspezifischen Netzwerke zur Kompression eines Objekts involviert.
Große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen im Bereich der Open-Domain Question Answering (ODQA) gezeigt, indem sie externe Dokumente durch Retrieval-Augmented Generation (RAG) nutzen. Um den RAG-Overhead zu reduzieren, ist eine Kontextkompression bei längeren Kontexten notwendig. Bisherige Kompressionsmethoden konzentrieren sich jedoch nicht darauf, nicht-evidenzbasierte Informationen herauszufiltern, was die Leistung von LLM-basiertem RAG einschränkt. Daher schlagen wir das Evidentiality-guided RAG, oder ECoRAG-Framework, vor. ECoRAG verbessert die Leistung von LLMs, indem es abgerufene Dokumente auf der Grundlage von Evidenz komprimiert und sicherstellt, dass die Antwortgenerierung durch die richtigen Beweise unterstützt wird. Als zusätzlichen Schritt berücksichtigt ECoRAG, ob der komprimierte Inhalt ausreichende Beweise liefert, und falls nicht, werden weitere Dokumente abgerufen, bis dies der Fall ist. Experimente zeigen, dass ECoRAG die Leistung von LLMs bei ODQA-Aufgaben verbessert und bestehende Kompressionsmethoden übertrifft. Darüber hinaus ist ECoRAG äußerst kosteneffizient, da es nicht nur die Latenz reduziert, sondern auch den Token-Verbrauch minimiert, indem nur die notwendigen Informationen zur Generierung der richtigen Antwort beibehalten werden. Der Code ist verfügbar unter https://github.com/ldilab/ECoRAG.
Retrieval Augmented Generation (RAG) ist ein häufig verwendeter Ansatz, um große Sprachmodelle (LLMs) mit relevanten und aktuellen Informationen zu erweitern. Allerdings können die abgerufenen Quellen oft widersprüchliche Informationen enthalten, und es bleibt unklar, wie Modelle mit solchen Diskrepanzen umgehen sollten. In dieser Arbeit schlagen wir zunächst eine neuartige Taxonomie von Wissenskonflikttypen in RAG vor, zusammen mit dem gewünschten Modellverhalten für jeden Typ. Anschließend stellen wir CONFLICTS vor, einen hochwertigen Benchmark mit Expertenannotationen von Konflikttypen in einem realistischen RAG-Szenario. CONFLICTS ist der erste Benchmark, der es ermöglicht, Fortschritte bei der Bewältigung einer breiten Palette von Wissenskonflikten durch Modelle zu verfolgen. Wir führen umfangreiche Experimente mit diesem Benchmark durch und zeigen, dass LLMs oft Schwierigkeiten haben, Konflikte zwischen Quellen angemessen zu lösen. Während die Aufforderung an LLMs, explizit über potenzielle Konflikte in den abgerufenen Dokumenten nachzudenken, die Qualität und Angemessenheit ihrer Antworten deutlich verbessert, bleibt dennoch erheblicher Raum für Verbesserungen in zukünftigen Forschungen.
Die rasante Weiterentwicklung von Bildgenerierungstechnologien verstärkt die Nachfrage nach interpretierbaren und robusten Erkennungsmethoden. Obwohl bestehende Ansätze oft eine hohe Genauigkeit erreichen, arbeiten sie typischerweise als Blackbox-Modelle, ohne für Menschen verständliche Begründungen zu liefern. Multimodale Large Language Models (MLLMs), die ursprünglich nicht für die Erkennung von Fälschungen konzipiert wurden, zeigen starke analytische und schlussfolgernde Fähigkeiten. Bei entsprechender Feinabstimmung können sie effektiv KI-generierte Bilder identifizieren und aussagekräftige Erklärungen liefern. Allerdings kämpfen bestehende MLLMs noch mit Halluzinationen und schaffen es oft nicht, ihre visuellen Interpretationen mit dem tatsächlichen Bildinhalt und menschlicher Logik in Einklang zu bringen. Um diese Lücke zu schließen, erstellen wir einen Datensatz von KI-generierten Bildern, die mit Begrenzungsrahmen und beschreibenden Bildunterschriften versehen sind, die Syntheseartefakte hervorheben. Dies bildet die Grundlage für eine an menschliche Logik angepasste visuell-textuelle Begründung. Anschließend feintunen wir MLLMs durch eine mehrstufige Optimierungsstrategie, die die Ziele einer genauen Erkennung, visuellen Lokalisierung und kohärenten textuellen Erklärung schrittweise ausbalanciert. Das resultierende Modell erzielt eine überlegene Leistung sowohl bei der Erkennung von KI-generierten Bildern als auch bei der Lokalisierung visueller Fehler und übertrifft dabei Baseline-Methoden deutlich.
Große Sprachmodelle (LLMs) nutzen Daten, um die Welt zu verstehen und dadurch sinnvolle Zusammenhänge und Vorhersagen zu erzeugen. Daher haben die Art, der Umfang, die Qualität und die Vielfalt der Datensätze, die zur Schulung dieser Modelle oder zur Unterstützung ihrer Arbeit während der Inferenz verwendet werden, einen direkten Einfluss auf ihre Qualität. Die rasche Entwicklung und Verbreitung von LLMs unterschiedlicher Qualität hat den Mangel an öffentlich verfügbaren, hochwertigen Trainingsdaten in den Fokus gerückt und die dringende Notwendigkeit aufgezeigt, die Verwaltung dieser Datensätze auf nachhaltige Praktiken mit klaren Provenienzketten zu gründen. Zu diesem Zweck stellt dieser technische Bericht Institutional Books 1.0 vor, eine umfangreiche Sammlung von Büchern aus dem öffentlichen Bereich, die ursprünglich im Rahmen der Beteiligung der Harvard Library am Google Books-Projekt ab 2006 digitalisiert wurden. In Zusammenarbeit mit der Harvard Library haben wir diese Bände extrahiert, analysiert und zu einem umfassend dokumentierten Datensatz historischer Texte verarbeitet. Diese Analyse umfasst die gesamte Sammlung der Harvard Library, die im Rahmen dieses Projekts gescannt wurde und ursprünglich 1.075.899 Bände in über 250 verschiedenen Sprachen mit insgesamt etwa 250 Milliarden Tokens umfasste. Im Rahmen dieser Erstveröffentlichung wurden die OCR-extrahierten Texte (original und nachbearbeitet) sowie die Metadaten (bibliografisch, Quellen- und generierte Metadaten) der 983.004 Bände, oder 242 Milliarden Tokens, die als öffentliches Gut identifiziert wurden, verfügbar gemacht. Dieser Bericht beschreibt die Ziele und Methoden dieses Projekts sowie die Ergebnisse der durchgeführten Analysen, alles im Dienst der besseren Zugänglichkeit und einfacheren Filterung, Lektüre und Nutzung dieser historischen Sammlung für Menschen und Maschinen gleichermaßen.
Das aktuelle Paradigma des Testzeit-Skalierens beruht darauf, lange Denkprozesse („mehr nachdenken“) zu generieren, bevor eine Antwort produziert wird. Bei Agentenproblemen, die Interaktion erfordern, kann dies durch das Generieren von Denkprozessen vor dem Handeln in der Welt erreicht werden. Dieser Prozess ermöglicht es Agenten jedoch nicht, neue Informationen aus der Umgebung zu erlangen oder ihr Verhalten im Laufe der Zeit anzupassen. In dieser Arbeit schlagen wir vor, die Testzeit-Interaktion zu skalieren, eine bisher ungenutzte Dimension des Testzeit-Skalierens, die den Interaktionshorizont des Agenten erweitert, um reichhaltige Verhaltensweisen wie Exploration, Rückverfolgung und dynamische Neuplanung innerhalb eines einzigen Rollouts zu ermöglichen. Um das Potenzial dieser Skalierungsdimension zu demonstrieren, untersuchen wir den Bereich der Web-Agenten. Wir zeigen zunächst, dass selbst eine auf Prompting basierende Interaktionsskalierung ohne jegliches Training die Aufgabenbewältigung auf Web-Benchmarks erheblich verbessern kann. Darauf aufbauend führen wir TTI (Test-Time Interaction) ein, einen curriculum-basierten Online-Reinforcement-Learning (RL)-Ansatz, der Agenten trainiert, indem er ihre Rollout-Längen adaptiv anpasst. Mit einem Gemma 3 12B-Modell erzeugt TTI state-of-the-art Open-Source- und Open-Data-Web-Agenten auf den WebVoyager- und WebArena-Benchmarks. Wir zeigen weiterhin, dass TTI Agenten ermöglicht, Exploration und Ausnutzung adaptiv auszubalancieren. Unsere Ergebnisse etablieren die Interaktionsskalierung als eine leistungsstarke, komplementäre Achse zur Skalierung der Berechnung pro Schritt und eröffnen neue Wege für das Training adaptiver Agenten.
Die parameter-effiziente Anpassung des Bild-Text-Vortrainierungsmodells CLIP für die Video-Text-Retrieval ist ein bedeutendes Forschungsgebiet. Während CLIP auf die Bild-Text-Zuordnung auf Bildebene ausgerichtet ist, erfordert die Video-Text-Retrieval ein umfassendes Verständnis auf Videoebene. Beim Übergang von der Bild- zur Videoebene treten drei wesentliche Diskrepanzen auf: Vision, Sprache und Ausrichtung. Bisherige Methoden konzentrieren sich jedoch hauptsächlich auf die Vision, während Sprache und Ausrichtung vernachlässigt werden. In diesem Artikel schlagen wir Discrepancy Reduction in Vision, Language, and Alignment (DiscoVLA) vor, das alle drei Diskrepanzen gleichzeitig reduziert. Konkret führen wir Image-Video Features Fusion ein, um Bild- und Videoebenenmerkmale zu integrieren und so sowohl die Vision- als auch die Sprachdiskrepanzen effektiv zu bewältigen. Zusätzlich generieren wir pseudo-Bildbeschriftungen, um eine feinkörnige Ausrichtung auf Bildebene zu erlernen. Um die Ausrichtungsdiskrepanzen zu verringern, schlagen wir Image-to-Video Alignment Distillation vor, das das Wissen über die Ausrichtung auf Bildebene nutzt, um die Ausrichtung auf Videoebene zu verbessern. Umfangreiche Experimente demonstrieren die Überlegenheit unseres DiscoVLA. Insbesondere übertrifft DiscoVLA auf MSRVTT mit CLIP (ViT-B/16) bisherige Methoden um 1,5 % in R@1 und erreicht einen Endwert von 50,5 % R@1. Der Code ist verfügbar unter https://github.com/LunarShen/DsicoVLA.
Aktuelle Studien integrieren Low-Rank Adaptation (LoRA) und Mixture-of-Experts (MoE), um die Leistung parameter-effizienter Feinabstimmungsmethoden (PEFT) in Anwendungen großer Sprachmodelle (LLMs) weiter zu verbessern. Bestehende Methoden verwenden homogene MoE-LoRA-Architekturen, die aus LoRA-Experten mit entweder ähnlichen oder identischen Strukturen und Kapazitäten bestehen. Diese Ansätze leiden jedoch häufig unter Repräsentationskollaps und Expertenlastungleichgewichten, was das Potenzial von LLMs negativ beeinflusst. Um diese Herausforderungen zu bewältigen, schlagen wir einen heterogenen Mixture-of-Adapters (MoA)-Ansatz vor. Diese Methode integriert dynamisch PEFT-Adapterexperten mit unterschiedlichen Strukturen und nutzt deren komplementäre Repräsentationsfähigkeiten, um die Spezialisierung der Experten zu fördern und dadurch die effektive Übertragung von vortrainiertem Wissen auf nachgelagerte Aufgaben zu verbessern. MoA unterstützt zwei Varianten: (i) Soft MoA erreicht eine fein abgestimmte Integration durch eine gewichtete Fusion aller Expertenausgaben; (ii) Sparse MoA aktiviert Adapterexperten spärlich basierend auf ihrem Beitrag, was mit vernachlässigbarer Leistungsbeeinträchtigung erreicht wird. Experimentelle Ergebnisse zeigen, dass heterogene MoA-Methoden sowohl in der Leistung als auch in der Parameter-Effizienz homogene MoE-LoRA-Methoden übertreffen. Unser Projekt ist verfügbar unter https://github.com/DCDmllm/MoA.
Jüngste Fortschritte bei großen Sprachmodellen zeigen vielversprechende Ansätze für formales Schließen. Die meisten auf LLM basierenden Theorembeweiser waren jedoch lange Zeit durch die Notwendigkeit von von Experten verfassten formalen Aussagen als Eingaben eingeschränkt, was ihre Anwendbarkeit auf reale Probleme, die in natürlicher Sprache formuliert sind, begrenzte. Wir adressieren diese Lücke mit Mathesis, der ersten End-to-End-Theorembeweis-Pipeline, die informale Problemstellungen verarbeitet. Sie beinhaltet den Mathesis-Autoformalizer, den ersten Autoformalizer, der Verstärkungslernen nutzt, um die Formalisierungsfähigkeit von Problemen in natürlicher Sprache zu verbessern, unterstützt durch unser neuartiges LeanScorer-Framework zur differenzierten Bewertung der Formalisierungsqualität. Zudem wird ein Mathesis-Prover vorgeschlagen, der formale Beweise aus den formalisierten Aussagen generiert. Um die praktische Anwendbarkeit des End-to-End-formalen Theorembeweisens zu bewerten, führen wir Gaokao-Formal ein, einen Benchmark mit 488 komplexen Problemen aus der nationalen Hochschulaufnahmeprüfung Chinas. Unser Ansatz ist sorgfältig gestaltet, mit einer gründlichen Untersuchung jeder Komponente. Experimente demonstrieren die Wirksamkeit von Mathesis, wobei der Autoformalizer den besten Baseline-Wert in der Erfolgsquote auf Gaokao-Formal um 22 % übertrifft. Das vollständige System übertrifft andere Modellkombinationen und erreicht eine Genauigkeit von 64 % auf MiniF2F mit pass@32 sowie einen state-of-the-art-Wert von 18 % auf Gaokao-Formal.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) bergen großes Potenzial für Finanzanwendungen, führen jedoch zu kritischen Herausforderungen in Bezug auf Genauigkeit und Compliance im Bereich der digitalen regulatorischen Berichterstattung (DRR). Um diese Probleme zu lösen, schlagen wir RKEFino1 vor, ein regelungswissensverstärktes Finanzmodell, das auf Fino1 basiert und mit Domänenwissen aus XBRL, CDM und MOF feinabgestimmt wurde. Wir formulieren zwei QA-Aufgaben – wissensbasierte und mathematische Schlussfolgerungen – und führen eine neuartige Numerical NER-Aufgabe ein, die finanzielle Entitäten sowohl in Sätzen als auch in Tabellen abdeckt. Experimentelle Ergebnisse demonstrieren die Effektivität und Generalisierungsfähigkeit von RKEFino1 bei compliancekritischen Finanzaufgaben. Unser Modell wurde auf Hugging Face veröffentlicht.
Dieses Paper stellt MMRefine vor, einen MultiModal Refinement-Benchmark, der entwickelt wurde, um die Fähigkeiten von Multimodalen Großen Sprachmodellen (MLLMs) zur Fehlerverfeinerung zu bewerten. Da der Schwerpunkt zunehmend auf die Verbesserung des Schlussfolgerns während der Inferenz gelegt wird, bietet MMRefine ein Framework, das die Fähigkeiten von MLLMs zur Erkennung und Korrektur von Fehlern in sechs verschiedenen Szenarien über den bloßen Vergleich der Endgenauigkeit vor und nach der Verfeinerung hinaus bewertet. Darüber hinaus analysiert der Benchmark die Verfeinerungsleistung, indem Fehler in sechs Fehlertypen kategorisiert werden. Experimente mit verschiedenen offenen und geschlossenen MLLMs offenbaren Engpässe und Faktoren, die die Verfeinerungsleistung behindern, und heben Bereiche für Verbesserungen in der effektiven Steigerung der Schlussfolgerungsfähigkeit hervor. Unser Code und Datensatz sind öffentlich unter https://github.com/naver-ai/MMRefine verfügbar.
Review-basierte Produktfragenbeantwortung (PQA) ermöglicht es E-Commerce-Plattformen, Kundenanfragen automatisch zu beantworten, indem sie Erkenntnisse aus Nutzerbewertungen nutzen. Bisherige PQA-Systeme generieren jedoch Antworten mit nur einer einzigen Perspektive und erfassen somit nicht die Vielfalt der Kundenmeinungen. In diesem Artikel stellen wir eine neuartige Aufgabe vor, die Quantitative Query-Focused Summarization (QQSUM), die darauf abzielt, unterschiedliche Kundenmeinungen in repräsentative Schlüsselpunkte (KPs) zusammenzufassen und deren Häufigkeit zu quantifizieren, um Benutzeranfragen effektiv zu beantworten. Obwohl Retrieval-Augmented Generation (RAG) vielversprechend für PQA ist, erfassen die generierten Antworten immer noch nicht die gesamte Bandbreite der Ansichten. Um diese Herausforderung zu bewältigen, erweitert unser Modell QQSUM-RAG, das auf RAG basiert, Few-Shot-Learning, um einen KP-orientierten Retriever und einen KP-Zusammenfassungsgenerator gemeinsam zu trainieren. Dies ermöglicht KP-basierte Zusammenfassungen, die diverse und repräsentative Meinungen erfassen. Experimentelle Ergebnisse zeigen, dass QQSUM-RAG im Vergleich zu state-of-the-art RAG-Baselines sowohl in der textuellen Qualität als auch in der Quantifizierungsgenauigkeit der Meinungen überlegene Leistung erzielt. Unser Quellcode ist verfügbar unter: https://github.com/antangrocket1312/QQSUMM