Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben es LLM-basierten Agenten ermöglicht, interaktive Planungsaufgaben erfolgreich zu bewältigen. Trotz dieser Erfolge leiden bestehende Ansätze jedoch häufig unter Planungshalluzinationen und erfordern eine erneute Anpassung für jeden neuen Agenten. Um diese Herausforderungen zu bewältigen, schlagen wir das Meta-Plan-Optimierungs-Framework (MPO) vor, das die Planungsfähigkeiten von Agenten durch die direkte Einbindung expliziter Anleitungen verbessert. Im Gegensatz zu früheren Methoden, die auf komplexem Wissen basieren, das entweder erheblichen menschlichen Aufwand erfordert oder keine Qualitätssicherung bietet, nutzt MPO allgemeine, hochrangige Anleitungen durch Meta-Pläne, um die Planung der Agenten zu unterstützen, und ermöglicht eine kontinuierliche Optimierung der Meta-Pläne basierend auf Rückmeldungen aus der Aufgabenausführung des Agenten. Unsere Experimente, die an zwei repräsentativen Aufgaben durchgeführt wurden, zeigen, dass MPO bestehende Vergleichsmethoden deutlich übertrifft. Darüber hinaus zeigt unsere Analyse, dass MPO eine Plug-and-Play-Lösung bietet, die sowohl die Effizienz der Aufgabenabwicklung als auch die Generalisierungsfähigkeiten in bisher unbekannten Szenarien verbessert.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten als autonome Agenten gezeigt, doch bestehende Benchmarks konzentrieren sich entweder auf Einzelagenten-Aufgaben oder sind auf enge Domänen beschränkt, wodurch sie die Dynamik der Multi-Agenten-Koordination und -Konkurrenz nicht erfassen. In diesem Artikel stellen wir MultiAgentBench vor, einen umfassenden Benchmark, der entwickelt wurde, um LLM-basierte Multi-Agenten-Systeme in diversen, interaktiven Szenarien zu evaluieren. Unser Framework misst nicht nur die Aufgabenbewältigung, sondern auch die Qualität der Zusammenarbeit und Konkurrenz mithilfe neuartiger, meilensteinbasierter Key Performance Indicators. Darüber hinaus evaluieren wir verschiedene Koordinationsprotokolle (einschließlich Stern-, Ketten-, Baum- und Graphentopologien) sowie innovative Strategien wie Gruppendiskussionen und kognitive Planung. Bemerkenswerterweise erreicht gpt-4o-mini die durchschnittlich höchste Aufgabenbewertung, die Graphenstruktur schneidet unter den Koordinationsprotokollen im Forschungsszenario am besten ab, und kognitive Planung verbessert die Meilenstein-Erreichungsraten um 3%. Code und Datensätze sind öffentlich verfügbar unter https://github.com/MultiagentBench/MARBLE.
Der Anstieg von Fehlinformationen, verstärkt durch Large Language Models (LLMs) wie GPT und Gemini, erfordert robuste Lösungen zur Faktenüberprüfung, insbesondere für ressourcenarme Sprachen wie Vietnamesisch. Bestehende Methoden kämpfen mit semantischer Mehrdeutigkeit, Homonymen und komplexen linguistischen Strukturen und opfern oft Genauigkeit zugunsten von Effizienz. Wir stellen SemViQA vor, ein neuartiges Framework zur Faktenüberprüfung im Vietnamesischen, das Semantic-based Evidence Retrieval (SER) und Two-step Verdict Classification (TVC) integriert. Unser Ansatz balanciert Präzision und Geschwindigkeit und erzielt state-of-the-art Ergebnisse mit 78,97 % strenger Genauigkeit auf ISE-DSC01 und 80,82 % auf ViWikiFC, womit der erste Platz im UIT Data Science Challenge gesichert wird. Zusätzlich verbessert SemViQA Faster die Inferenzgeschwindigkeit um das 7-fache bei gleichbleibend wettbewerbsfähiger Genauigkeit. SemViQA setzt einen neuen Maßstab für die vietnamesische Faktenüberprüfung und fördert den Kampf gegen Fehlinformationen. Der Quellcode ist verfügbar unter: https://github.com/DAVID-NGUYEN-S16/SemViQA.
In diesem Artikel präsentieren wir eine umfassende Analyse der Auswirkungen von Large Language Models (LLMs) auf Wikipedia. Wir untersuchen die Entwicklung von Wikipedia anhand bestehender Daten und nutzen Simulationen, um potenzielle Risiken zu erforschen. Zunächst analysieren wir Seitenaufrufe und Artikelinhalte, um die jüngsten Veränderungen bei Wikipedia zu studieren und den Einfluss von LLMs zu bewerten. Anschließend evaluieren wir, wie LLMs verschiedene Natural Language Processing (NLP)-Aufgaben im Zusammenhang mit Wikipedia beeinflussen, einschließlich maschineller Übersetzung und retrieval-augmentierter Generierung (RAG). Unsere Ergebnisse und Simulationsdaten zeigen, dass Wikipedia-Artikel von LLMs beeinflusst wurden, wobei der Einfluss in bestimmten Kategorien etwa 1%-2% beträgt. Wenn der auf Wikipedia basierende Benchmark für maschinelle Übersetzung von LLMs beeinflusst wird, könnten die Bewertungen der Modelle überhöht werden und die Vergleichsergebnisse zwischen den Modellen sich verschieben. Darüber hinaus könnte die Effektivität von RAG abnehmen, wenn die Wissensbasis durch LLM-generierte Inhalte verunreinigt wird. Obwohl LLMs die Sprach- und Wissensstrukturen von Wikipedia noch nicht vollständig verändert haben, glauben wir, dass unsere empirischen Erkenntnisse die Notwendigkeit einer sorgfältigen Betrachtung potenzieller zukünftiger Risiken signalisieren.
Wir stellen LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) vor, ein Framework, das es großen Sprachmodellen ermöglicht, ihre Problemlösungsfähigkeiten autonom durch selbstgesteuertes Lernen zu verbessern, indem sie rekursiv zunehmend einfachere Varianten komplexer Probleme generieren und lösen. Im Gegensatz zu früheren Ansätzen, die kuratierte Datensätze oder menschliches Feedback erfordern, nutzt LADDER die eigenen Fähigkeiten eines Modells, um einfachere Fragenvarianten zu generieren. Wir demonstrieren die Wirksamkeit von LADDER im Bereich der mathematischen Integration, indem wir die Genauigkeit von Llama 3.2 3B bei Problemen auf Undergraduate-Niveau von 1 % auf 82 % steigern und Qwen2.5 7B Deepseek-R1 Distilled ermöglichen, 73 % im Qualifikationsexamen des MIT Integration Bee zu erreichen. Wir führen außerdem TTRL (Test-Time Reinforcement Learning) ein, bei dem wir Verstärkungslernen an Varianten von Testproblemen zur Inferenzzeit durchführen. TTRL ermöglicht es Qwen2.5 7B Deepseek-R1 Distilled, einen Spitzenwert von 90 % im Qualifikationsexamen des MIT Integration Bee zu erreichen und damit die Leistung von OpenAI o1 zu übertreffen. Diese Ergebnisse zeigen, wie selbstgesteuertes strategisches Lernen signifikante Fähigkeitsverbesserungen erreichen kann, ohne auf architektonische Skalierung oder menschliche Aufsicht angewiesen zu sein.
Große Sprachmodelle (LLMs) zeigen Halluzinationen (d. h. unzuverlässige oder unsinnige Informationen), wenn sie als KI-Assistenten in verschiedenen Domänen eingesetzt werden. Da Halluzinationen in den LLM-Antworten stets mit wahrheitsgemäßen Inhalten einhergehen, führten bisherige Methoden zur Faktizitätsausrichtung, die auf Präferenzlernen auf Antwortebene basieren, unweigerlich Rauschen während des Trainings ein. Daher schlägt dieses Papier eine feinkörnige Methode zur Faktizitätsausrichtung basierend auf Direct Preference Optimization (DPO) vor, genannt Mask-DPO. Indem Mask-DPO die Faktizität auf Satzebene als Maskensignale einbezieht, lernt es nur aus faktisch korrekten Sätzen in den bevorzugten Proben und verhindert die Bestrafung von faktischen Inhalten in den nicht bevorzugten Proben, wodurch die Mehrdeutigkeit im Präferenzlernen aufgelöst wird. Umfangreiche experimentelle Ergebnisse zeigen, dass Mask-DPO die Faktizität der LLM-Antworten auf Fragen sowohl aus in-domain als auch out-of-domain Datensätzen signifikant verbessern kann, obwohl diese Fragen und ihre entsprechenden Themen während des Trainings unbekannt waren. Nur auf dem ANAH-Trainingssatz trainiert, verbesserte sich die Punktzahl von Llama3.1-8B-Instruct auf dem ANAH-Testsatz von 49,19 % auf 77,53 % und übertraf sogar die Punktzahl von Llama3.1-70B-Instruct (53,44 %), während sein FactScore auf dem out-of-domain Biography-Datensatz ebenfalls von 30,29 % auf 39,39 % stieg. Wir untersuchen weiterhin die Generalisierungseigenschaft von Mask-DPO unter Verwendung verschiedener Trainingsstichproben-Skalierungsstrategien und stellen fest, dass die Skalierung der Anzahl der Themen im Datensatz effektiver ist als die Anzahl der Fragen. Wir stellen eine Hypothese darüber auf, was Faktizitätsausrichtung mit LLMs bewirkt, diskutieren die Implikationen dieses Phänomens und führen Proof-of-Concept-Experimente durch, um dies zu verifizieren. Wir hoffen, dass die Methode und die Erkenntnisse den Weg für zukünftige Forschungen zur Skalierung der Faktizitätsausrichtung ebnen.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) konzentrieren sich darauf, Antworten zu erzeugen, die menschlichen Erwartungen entsprechen und mit gemeinsamen Werten übereinstimmen – ein Prozess, der als Alignment bezeichnet wird. Die Ausrichtung von LLMs bleibt jedoch aufgrund der inhärenten Diskrepanz zwischen der Komplexität menschlicher Werte und der begrenzten Natur der technologischen Ansätze, die zu ihrer Bewältigung entwickelt wurden, eine Herausforderung. Aktuelle Alignment-Methoden führen oft zu fehlspezifizierten Zielen, was das breitere Problem unvollständiger Verträge widerspiegelt – die Unpraktikabilität, einen Vertrag zwischen einem Modellentwickler und dem Modell zu spezifizieren, der jedes Szenario in der LLM-Ausrichtung berücksichtigt. In diesem Papier argumentieren wir, dass die Verbesserung der LLM-Ausrichtung die Einbeziehung von Erkenntnissen aus gesellschaftlichen Alignment-Rahmenwerken erfordert, einschließlich sozialer, wirtschaftlicher und vertraglicher Ausrichtung, und diskutieren potenzielle Lösungen aus diesen Bereichen. Angesichts der Rolle der Unsicherheit in gesellschaftlichen Alignment-Rahmenwerken untersuchen wir dann, wie sie sich in der LLM-Ausrichtung manifestiert. Wir schließen unsere Diskussion mit einem alternativen Blick auf die LLM-Ausrichtung ab, indem wir die unzureichend spezifizierte Natur ihrer Ziele als Chance anstelle einer perfekten Spezifikation betrachten. Neben technischen Verbesserungen in der LLM-Ausrichtung diskutieren wir die Notwendigkeit partizipativer Alignment-Schnittstellendesigns.
Die Anpassung generativer Modelle an spezifische Domänen bietet eine effektive Lösung, um spezialisierte Anforderungen zu erfüllen. Die Anpassung an einige komplexe Domänen bleibt jedoch herausfordernd, insbesondere wenn diese Domänen erhebliche gepaarte Daten benötigen, um die Zielverteilungen zu erfassen. Da ungepaarte Daten aus einer einzelnen Modalität, wie Vision oder Sprache, leichter verfügbar sind, nutzen wir die bidirektionalen Abbildungen zwischen Vision und Sprache, die durch das vereinheitlichte generative Modell gelernt wurden, um das Training mit ungepaarten Daten für die Domänenanpassung zu ermöglichen. Konkret schlagen wir DoraCycle vor, das zwei multimodale Zyklen integriert: Text-zu-Bild-zu-Text und Bild-zu-Text-zu-Bild. Das Modell wird durch den Kreuzentropieverlust optimiert, der an den Zyklusendpunkten berechnet wird, wobei beide Endpunkte dieselbe Modalität teilen. Dies ermöglicht die Selbstentwicklung des Modells ohne Abhängigkeit von annotierten Text-Bild-Paaren. Experimentelle Ergebnisse zeigen, dass DoraCycle für Aufgaben, die unabhängig von gepaartem Wissen sind, wie Stilisierung, das vereinheitlichte Modell effektiv nur mit ungepaarten Daten anpassen kann. Für Aufgaben, die neues gepaartes Wissen beinhalten, wie spezifische Identitäten, ist eine Kombination aus einer kleinen Menge gepaarter Bild-Text-Beispiele und größeren Mengen ungepaarter Daten ausreichend, um eine effektive domänenorientierte Anpassung zu erreichen. Der Code wird unter https://github.com/showlab/DoraCycle veröffentlicht.
Pipeline-Parallelismus (PP) wird häufig für das Training großer Sprachmodelle (LLMs) eingesetzt, doch seine Skalierbarkeit wird oft durch den hohen Speicherverbrauch für Aktivierungen eingeschränkt, da die Anzahl der in Bearbeitung befindlichen Mikrobatches mit dem Grad des PP ansteigt. In diesem Beitrag konzentrieren wir uns darauf, diese Herausforderung durch die Nutzung der bisher wenig erforschten Speicherauslagerungsstrategie in PP zu bewältigen. Durch empirische Studien stellen wir fest, dass in den meisten Standardkonfigurationen mindestens die Hälfte, und potenziell alle, der Aktivierungen mit vernachlässigbarem Overhead ausgelagert werden können. In Fällen, in denen eine vollständige Auslagerung nicht möglich ist, führen wir eine neuartige selektive Auslagerungsstrategie ein, die den Spitzenverbrauch von Aktivierungsspeicher besser als linear reduziert. Darüber hinaus integrieren wir die Speicherauslagerung mit anderen Techniken, um den Gesamtdurchsatz und die Speicherbeschränkungen gemeinsam zu berücksichtigen. Unsere Experimente belegen, dass der Aktivierungsspeicher pro Gerät effektiv mit der Gesamtzahl der Stufen reduziert wird, wodurch PP eine stärkere Alternative zu TP darstellt und eine Beschleunigung von bis zu 19 % bei sogar geringerem Speicherverbrauch bietet. Die Implementierung ist unter https://github.com/sail-sg/zero-bubble-pipeline-parallelism{dieser URL} quelloffen verfügbar.
Während Reinforcement Learning from Human Feedback (RLHF) die vorherrschende Methode zur Steuerung von Sprachmodellausgaben geworden ist, leidet sie unter hohen Rechenkosten und Instabilität während des Trainings. Gesteuertes Decodieren, insbesondere wertgesteuerte Methoden, bietet eine kosteneffiziente Alternative, indem es Ausgaben kontrolliert, ohne Modelle neu zu trainieren. Die Genauigkeit der Wertfunktion ist jedoch entscheidend für wertgesteuertes Decodieren, da Ungenauigkeiten zu suboptimalen Entscheidungen und verschlechterter Leistung führen können. Bestehende Methoden kämpfen mit der präzisen Schätzung der optimalen Wertfunktion, was zu weniger effektiver Kontrolle führt. Wir schlagen Iterative Value Function Optimization vor, ein neuartiges Framework, das diese Einschränkungen durch zwei Schlüsselkomponenten adressiert: Monte Carlo Value Estimation, das die Schätzvarianz durch die Erkundung diverser Trajektorien reduziert, und Iterative On-Policy Optimization, das die Wertschätzung durch das Sammeln von Trajektorien aus wertgesteuerten Richtlinien schrittweise verbessert. Umfangreiche Experimente zur Textzusammenfassung, mehrschrittigen Dialogen und Befolgung von Anweisungen demonstrieren die Wirksamkeit wertgesteuerter Decodierungsansätze bei der Ausrichtung von Sprachmodellen. Diese Ansätze erreichen nicht nur eine Ausrichtung, sondern reduzieren auch die Rechenkosten erheblich, indem sie eine prinzipienbasierte Optimierung der Wertfunktion für eine effiziente und effektive Kontrolle nutzen.
Ein einheitliches Video- und Aktionsmodell birgt erhebliches Potenzial für die Robotik, wobei Videos umfangreiche Szeneninformationen für die Aktionsvorhersage liefern und Aktionen Dynamikinformationen für die Videovorhersage bereitstellen. Die effektive Kombination von Videogenerierung und Aktionsvorhersage bleibt jedoch eine Herausforderung, und aktuelle videogenerierungsbasierte Methoden haben Schwierigkeiten, die Leistung des direkten Politiklernens in Bezug auf Aktionsgenauigkeit und Inferenzgeschwindigkeit zu erreichen. Um diese Lücke zu schließen, führen wir das Unified Video Action Model (UVA) ein, das Video- und Aktionsvorhersagen gemeinsam optimiert, um sowohl hohe Genauigkeit als auch effiziente Aktionsinferenz zu erreichen. Der Schlüssel liegt im Erlernen einer gemeinsamen Video-Aktions-Latentdarstellung und der Entkopplung der Video-Aktions-Dekodierung. Die gemeinsame Latentdarstellung verbindet die visuelle und die Aktionsdomäne und modelliert effektiv die Beziehung zwischen Video- und Aktionssequenzen. Gleichzeitig ermöglicht die entkoppelte Dekodierung, die von zwei leichten Diffusionsköpfen angetrieben wird, eine hochgeschwindige Aktionsinferenz, indem die Videogenerierung während der Inferenz umgangen wird. Ein solcher einheitlicher Rahmen ermöglicht weiterhin vielseitige Funktionalität durch maskierte Eingabetrainings. Durch selektives Maskieren von Aktionen oder Videos kann ein einzelnes Modell verschiedene Aufgaben über das Politiklernen hinaus bewältigen, wie z.B. die Modellierung von Vorwärts- und Rückwärtsdynamik und die Videogenerierung. Durch eine umfangreiche Reihe von Experimenten zeigen wir, dass UVA als allgemeine Lösung für eine Vielzahl von Robotikaufgaben dienen kann, wie z.B. Politiklernen, Vorwärts-/Rückwärtsdynamik und Videobeobachtungsvorhersage, ohne die Leistung im Vergleich zu Methoden, die für spezifische Anwendungen entwickelt wurden, zu beeinträchtigen. Die Ergebnisse sind am besten auf https://unified-video-action-model.github.io/ zu sehen.
Diffusionsmodelle haben bemerkenswerte Fortschritte in verschiedenen Bildgenerierungsaufgaben erzielt. Ihre Leistung nimmt jedoch deutlich ab, wenn Bilder in höheren Auflösungen generiert werden sollen, als sie während des Trainings verwendet wurden. Obwohl es zahlreiche Methoden zur Erzeugung hochauflösender Bilder gibt, leiden diese entweder unter Ineffizienz oder werden durch komplexe Operationen behindert. In diesem Artikel schlagen wir RectifiedHR vor, eine effiziente und unkomplizierte Lösung für das trainingsfreie Generieren hochauflösender Bilder. Insbesondere führen wir die Noise-Refresh-Strategie ein, die theoretisch nur wenige Codezeilen benötigt, um die Fähigkeit des Modells zur Hochauflösungsgenerierung freizuschalten und die Effizienz zu verbessern. Zudem beobachten wir erstmals das Phänomen des Energieabbaus, das während des Prozesses der Hochauflösungsbildgenerierung zu Unschärfe führen kann. Um dieses Problem zu lösen, schlagen wir eine Energy-Rectification-Strategie vor, bei der die Anpassung der Hyperparameter des Classifier-Free-Guidance die Generierungsleistung effektiv verbessert. Unsere Methode ist vollständig trainingsfrei und zeichnet sich durch eine einfache Implementierungslogik aus. Durch umfangreiche Vergleiche mit zahllichen Baseline-Methoden zeigt unser RectifiedHR überlegene Wirksamkeit und Effizienz.
Jüngste Fortschritte bei Large Language Models (LLMs) haben zur Entwicklung intelligenter, LLM-basierter Agenten geführt, die in der Lage sind, mit grafischen Benutzeroberflächen (GUIs) zu interagieren. Diese Agenten zeigen eine starke Fähigkeit zum logischen Denken und zur Anpassung, wodurch sie komplexe Aufgaben bewältigen können, die traditionell vordefinierte Regeln erforderten. Allerdings führt die Abhängigkeit von schrittweisem Denken in LLM-basierten Agenten oft zu Ineffizienzen, insbesondere bei Routineaufgaben. Im Gegensatz dazu zeichnen sich traditionelle regelbasierte Systeme durch Effizienz aus, mangelt es ihnen jedoch an Intelligenz und Flexibilität, um sich an neue Szenarien anzupassen. Um diese Herausforderung zu bewältigen, schlagen wir einen neuartigen evolutionären Rahmen für GUI-Agenten vor, der die operative Effizienz steigert, während Intelligenz und Flexibilität erhalten bleiben. Unser Ansatz integriert einen Speichermechanismus, der die Aufgabenausführungsgeschichte des Agenten aufzeichnet. Durch die Analyse dieser Geschichte identifiziert der Agent sich wiederholende Aktionssequenzen und entwickelt hochrangige Aktionen, die als Abkürzungen fungieren und diese niedrigrangigen Operationen ersetzen, wodurch die Effizienz verbessert wird. Dies ermöglicht es dem Agenten, sich auf Aufgaben zu konzentrieren, die komplexeres Denken erfordern, während Routineaktionen vereinfacht werden. Experimentelle Ergebnisse bei mehreren Benchmark-Aufgaben zeigen, dass unser Ansatz bestehende Methoden sowohl in Bezug auf Effizienz als auch Genauigkeit deutlich übertrifft. Der Code wird Open-Source bereitgestellt, um weitere Forschungen zu unterstützen.
Das Sammeln von Ground-Truth-Belohnungen für Aufgabenabschlüsse oder menschlichen Demonstrationen für mehrstufige Denkaufgaben ist oft kostspielig und zeitaufwendig, insbesondere in interaktiven Bereichen wie Webaufgaben. Um diesen Engpass zu bewältigen, stellen wir Self-Taught Lookahead vor, eine selbstüberwachte Methode, die Zustandsübergangsdynamiken nutzt, um ein Wertmodell zu trainieren, das effektiv die Suche eines sprachmodellgesteuerten Suchprozesses leiten kann. Wir stellen fest, dass mittelgroße (8 Milliarden Parameter) Open-Weight-Wertmodelle, die mit Self-Taught Lookahead verbessert wurden, die Leistung eines fortschrittlichen LLM wie GPT-4o als Wertmodell erreichen können. Darüber hinaus zeigt sich, dass Self-Taught Lookahead die Leistung um 20 % steigert und die Kosten im Vergleich zu früheren LLM-basierten Baumsuchverfahren um das 37-fache reduziert, ohne dabei auf Ground-Truth-Belohnungen angewiesen zu sein.
Autoregressive Sprachmodelle nutzen einen Key-Value (KV)-Cache, der die Neuberechnung vergangener versteckter Zustände während der Generierung vermeidet und somit den Prozess beschleunigt. Mit zunehmender Modellgröße und Kontextlänge wird der KV-Cache jedoch zu einem erheblichen Speicher-Engpass, was Kompressionsmethoden erforderlich macht, die seine Größe während der Generierung begrenzen. In diesem Artikel entdecken wir überraschende Eigenschaften von Query (Q)- und Key (K)-Vektoren, die es uns ermöglichen, Attention-Scores effizient zu approximieren, ohne die Attention-Maps zu berechnen. Wir schlagen Q-Filters vor, eine trainingsfreie KV-Cache-Kompressionsmethode, die weniger wichtige Key-Value-Paare basierend auf einer einzigen kontextunabhängigen Projektion herausfiltert. Im Gegensatz zu vielen Alternativen ist Q-Filters mit FlashAttention kompatibel, da es keinen direkten Zugriff auf Attention-Gewichte erfordert. Experimentelle Ergebnisse in Langzeitkontexten zeigen, dass Q-Filters bei Retrieval-Aufgaben mit attention-basierten Kompressionsmethoden wie SnapKV konkurrenzfähig ist und effiziente Kompressionsverfahren wie Streaming-LLM in Generierungsszenarien durchgängig übertrifft. Bemerkenswerterweise erreicht Q-Filters eine 99%ige Genauigkeit in der „Nadel im Heuhaufen“-Aufgabe bei einem Kompressionsfaktor von x32 und reduziert den Perplexitätsabfall in der Textgenerierung im Vergleich zu Streaming-LLM um bis zu 65%.
Große Sprachmodell-Agenten (LLM-Agenten) haben bemerkenswerte Generalisierungsfähigkeiten über Multi-Domain-Aufgaben hinweg gezeigt. Bestehende Ansätze zur Feinabstimmung von Agenten verwenden typischerweise überwachtes Feinabstimmen auf gesamten Experten-Trajektorien. Allerdings kann das Verhaltensklonen vollständiger Trajektorien Expertenbias einführen und die Generalisierung auf Zustände, die nicht durch die Experten-Daten abgedeckt sind, schwächen. Darüber hinaus sind kritische Schritte wie Planung, komplexe Schlussfolgerungen für Zwischenunteraufgaben und strategische Entscheidungsfindung entscheidend für den Erfolg von Agenten-Aufgaben, sodass das Erlernen dieser Schritte der Schlüssel zur Verbesserung von LLM-Agenten ist. Für eine effektivere und effizientere Feinabstimmung von Agenten schlagen wir ATLaS vor, das die kritischen Schritte in Experten-Trajektorien identifiziert und LLMs ausschließlich auf diesen Schritten mit reduzierten Kosten feinabstimmt. Indem wir den Fokus des Trainings auf einige kritische Schritte lenken, verringert unsere Methode das Risiko einer Überanpassung an gesamte Trajektorien und fördert die Generalisierung über verschiedene Umgebungen und Aufgaben hinweg. In umfangreichen Experimenten übertrifft ein LLM, das auf nur 30 % der von ATLaS ausgewählten kritischen Schritte feinabgestimmt wurde, den LLM, der auf allen Schritten feinabgestimmt wurde, sowie aktuelle Open-Source-LLM-Agenten. ATLaS bewahrt und verbessert die Basisfähigkeiten des LLM als Generalisten-Agenten, die mit verschiedenen Umgebungen interagieren.
Generalist-Modelle haben bemerkenswerte Erfolge sowohl in Sprach- als auch in Vision-Sprach-Aufgaben erzielt und das Potenzial der einheitlichen Modellierung aufgezeigt. Die effektive Integration von feingranularen Wahrnehmungsaufgaben wie Detektion und Segmentierung in diese Modelle bleibt jedoch eine erhebliche Herausforderung. Dies liegt vor allem daran, dass diese Aufgaben oft stark auf aufgabenspezifische Designs und Architekturen angewiesen sind, was den Modellierungsprozess verkomplizieren kann. Um diese Herausforderung zu bewältigen, präsentieren wir \ours, ein Framework, das feingranulare visuelle Wahrnehmungsaufgaben durch eine offene Sprachschnittstelle vereinheitlicht. Indem alle Wahrnehmungsziele in den Sprachraum transformiert werden, vereint \ours objektbasierte Detektion, pixelgenaue Segmentierung und bildbasierte Vision-Sprach-Aufgaben in einem einzigen Modell. Zusätzlich führen wir einen neuartigen Embedding-Retrieval-Ansatz ein, der sich ausschließlich auf die Sprachschnittstelle stützt, um Segmentierungsaufgaben zu unterstützen. Unser Framework überbrückt die Lücke zwischen feingranularer Wahrnehmung und Vision-Sprach-Aufgaben, vereinfacht die architektonische Gestaltung und Trainingsstrategien erheblich und erreicht dabei vergleichbare oder überlegene Leistungen gegenüber Methoden mit komplexen aufgabenspezifischen Designs. Nach einem Multi-Task-Training auf fünf Standard-Datensätzen für visuelle Wahrnehmung übertrifft \ours die bisherigen State-of-the-Art-Generalist-Modelle um 12,3 mAP bei der Instanzsegmentierung auf COCO und 3,3 mIoU bei der semantischen Segmentierung auf ADE20K. Darüber hinaus integriert sich unsere Methode nahtlos in bestehende MLLMs und kombiniert effektiv feingranulare Wahrnehmungsfähigkeiten mit ihren fortgeschrittenen Sprachfähigkeiten, wodurch anspruchsvollere Aufgaben wie Reasoning-Segmentierung ermöglicht werden. Code und Modelle werden öffentlich verfügbar sein.
Spekulative Stichprobenentnahme hat sich als wichtige Technik zur Beschleunigung des autoregressiven Generierungsprozesses großer Sprachmodelle (LLMs) etabliert, indem sie einen Entwurf-dann-überprüfen-Mechanismus nutzt, um mehrere Token pro Vorwärtsdurchlauf zu erzeugen. Während state-of-the-art spekulative Stichprobenmethoden nur eine einzelne Schicht und einen Sprachmodellierungs-Kopf (LM Head) als Entwurfsmodell verwenden, um eine beeindruckende Schichtkompression zu erreichen, sind ihre Effizienzgewinne für LLMs mit großem Vokabular, wie Llama-3-8B mit einem Vokabular von 128k Token, erheblich reduziert. Um dies zu adressieren, präsentieren wir FR-Spec, ein frequenzbasiertes spekulatives Stichprobenframework, das die Auswahl von Entwurfskandidaten durch die Kompression des Vokabularraums optimiert. Durch die Beschränkung der Entwurfssuche auf eine frequenzpriorisierte Token-Teilmenge reduziert unsere Methode den Rechenaufwand des LM Heads um 75 %, während die Äquivalenz der endgültigen Ausgabeverteilung sichergestellt wird. Experimente über mehrere Datensätze hinweg zeigen eine durchschnittliche Beschleunigung von 1,12-mal gegenüber der state-of-the-art spekulativen Stichprobenmethode EAGLE-2.
Die Bewertung von Text-zu-Vision-Inhalten basiert auf zwei entscheidenden Aspekten: der visuellen Qualität und der Ausrichtung. Obwohl bedeutende Fortschritte bei der Entwicklung objektiver Modelle zur Bewertung dieser Dimensionen erzielt wurden, hängt die Leistung solcher Modelle stark vom Umfang und der Qualität menschlicher Annotationen ab. Gemäß dem Skalierungsgesetz führt die Erhöhung der Anzahl von durch Menschen gekennzeichneten Instanzen zu einem vorhersehbaren Muster, das die Leistung von Bewertungsmodellen verbessert. Daher stellen wir einen umfassenden Datensatz vor, der entwickelt wurde, um die visuelle Qualität und das Ausrichtungsniveau von Text-zu-Vision-Inhalten zu bewerten (Q-EVAL-100K). Dieser Datensatz umfasst die größte Sammlung von menschlich bewerteten Mean Opinion Scores (MOS) für die genannten beiden Aspekte. Der Q-EVAL-100K-Datensatz beinhaltet sowohl Text-zu-Bild- als auch Text-zu-Video-Modelle, mit 960.000 menschlichen Annotationen, die speziell auf die visuelle Qualität und Ausrichtung von 100.000 Instanzen (60.000 Bilder und 40.000 Videos) fokussiert sind. Unter Nutzung dieses Datensatzes mit Kontext-Prompt schlagen wir den Q-Eval-Score vor, ein einheitliches Modell, das sowohl die visuelle Qualität als auch die Ausrichtung bewerten kann, mit besonderen Verbesserungen für die Handhabung der Ausrichtung bei langen Text-Prompts. Experimentelle Ergebnisse zeigen, dass der vorgeschlagene Q-Eval-Score sowohl bei der visuellen Qualität als auch bei der Ausrichtung eine überlegene Leistung erzielt, mit starken Generalisierungsfähigkeiten über andere Benchmarks hinweg. Diese Ergebnisse unterstreichen den bedeutenden Wert des Q-EVAL-100K-Datensatzes. Daten und Codes werden unter https://github.com/zzc-1998/Q-Eval verfügbar sein.
Preference Learning verbessert Code-LLMs über das überwachte Feinabstimmen hinaus, indem es relative Qualitätsvergleiche nutzt. Bestehende Methoden konstruieren Präferenzpaare aus Kandidaten basierend auf dem Erfolg von Testfällen, wobei die Probe mit der höheren Erfolgsquote als positiv und die mit der niedrigeren als negativ behandelt wird. Dieser Ansatz identifiziert jedoch keine spezifischen Fehler im Code, was verhindert, dass das Modell informativere Fehlerkorrekturmuster lernt, da die Ausrichtung von fehlerhaftem Code als Ganzes die Granularität fehlt, um bedeutungsvolle Fehler-Behebungs-Beziehungen zu erfassen. Um diese Probleme zu lösen, schlagen wir IterPref vor, ein neues Präferenzausrichtungs-Framework, das das iterative Debugging von Menschen nachahmt, um Code-LLMs zu verfeinern. IterPref lokalisiert explizit Fehlerbereiche und richtet die entsprechenden Tokens über einen maßgeschneiderten DPO-Algorithmus aus. Um informative Paare zu generieren, führen wir das CodeFlow-Dataset ein, in dem Proben iterativ verfeinert werden, bis sie Tests bestehen, wobei die Modifikationen Fehlerkorrekturen erfassen. Umfangreiche Experimente zeigen, dass eine vielfältige Suite von Code-LLMs, die mit IterPref ausgestattet sind, signifikante Leistungssteigerungen in der Code-Generierung erreicht und bei anspruchsvollen Aufgaben wie BigCodeBench verbessert. Eine detaillierte Analyse zeigt, dass IterPref weniger Fehler verursacht. Unser Code und unsere Daten werden öffentlich zugänglich gemacht.
In der Repräsentationslernforschung bezieht sich Uniformität auf die gleichmäßige Verteilung von Merkmalen im latenten Raum (d. h. auf der Einheitshypersphäre). Frühere Arbeiten haben gezeigt, dass die Verbesserung der Uniformität zum Lernen unterrepräsentierter Klassen beiträgt. Die meisten bisherigen Arbeiten konzentrierten sich jedoch auf die Klassifikation; der Repräsentationsraum für unausgewogene Regressionen bleibt weitgehend unerforscht. Klassifikationsbasierte Methoden sind für Regressionsaufgaben ungeeignet, da sie Merkmale in distinkte Gruppen clustern, ohne die für Regressionen wesentliche kontinuierliche und geordnete Natur zu berücksichtigen. Aus geometrischer Sicht konzentrieren wir uns einzigartig darauf, Uniformität im latenten Raum für unausgewogene Regressionen durch zwei Schlüsselverluste sicherzustellen: Einhüllung und Homogenität. Der Einhüllungsverlust fördert, dass die induzierte Spur gleichmäßig die Oberfläche einer Hypersphäre besetzt, während der Homogenitätsverlust für Glätte sorgt, indem die Repräsentationen in gleichmäßigen Abständen verteilt sind. Unsere Methode integriert diese geometrischen Prinzipien in die Datenrepräsentationen über ein Surrogate-gestütztes Repräsentationslernframework (SRL). Experimente mit realen Regressions- und Operatorlernaufgaben unterstreichen die Bedeutung der Uniformität bei unausgewogenen Regressionen und validieren die Wirksamkeit unserer geometriebasierten Verlustfunktionen.
Die Weiterentwicklung von KI in der computergestützten Pathologie erfordert große, hochwertige und vielfältige Datensätze. Bisherige öffentliche Datensätze sind jedoch oft in Bezug auf Organvielfalt, Klassenabdeckung oder Annotationsqualität eingeschränkt. Um diese Lücke zu schließen, stellen wir SPIDER (Supervised Pathology Image-DEscription Repository) vor, den größten öffentlich verfügbaren Patch-Level-Datensatz, der mehrere Organtypen wie Haut, Kolorektal und Thorax abdeckt, mit umfassender Klassenabdeckung für jedes Organ. SPIDER bietet hochwertige, von Expert:innen verifizierte Annotationen und enthält umgebende Kontext-Patches, die die Klassifikationsleistung durch die Bereitstellung räumlicher Kontexte verbessern. Neben dem Datensatz präsentieren wir Baseline-Modelle, die auf SPIDER trainiert wurden und das Hibou-L-Foundation-Modell als Feature-Extraktor in Kombination mit einem auf Aufmerksamkeit basierenden Klassifikationskopf verwenden. Die Modelle erzielen state-of-the-art Leistungen über mehrere Gewebekategorien hinweg und dienen als starke Benchmarks für zukünftige Forschung in der digitalen Pathologie. Über die Patch-Klassifikation hinaus ermöglicht das Modell die schnelle Identifizierung signifikanter Bereiche, quantitative Gewebemetriken und legt die Grundlage für multimodale Ansätze. Sowohl der Datensatz als auch die trainierten Modelle sind öffentlich verfügbar, um Forschung, Reproduzierbarkeit und KI-gestützte Pathologieentwicklung voranzutreiben. Zugriff unter: https://github.com/HistAI/SPIDER
In den letzten Jahren haben sich allgemeine visuelle Basismodelle (VFMs) zunehmend verbreitet, insbesondere als Bild-Encoder für beliebte multimodale große Sprachmodelle (MLLMs). Ohne semantisch fein abgestimmte Überwachung stoßen diese Modelle jedoch weiterhin auf grundlegende Vorhersagefehler im Kontext von nachgelagerten Text-Bild-bezogenen Aufgaben, d. h. bei der Wahrnehmung, dem Verständnis und der Schlussfolgerung mit Bildern, die kleine und dichte Texte enthalten. Um diese Lücke zu schließen, entwickeln wir TokenOCR, das erste token-spezifische visuelle Basismodell, das speziell für Text-Bild-bezogene Aufgaben konzipiert ist und eine Vielzahl traditioneller nachgelagerter Anwendungen unterstützt. Um das Pretraining von TokenOCR zu erleichtern, entwickeln wir außerdem eine hochwertige Datenproduktionspipeline, die den ersten token-spezifischen Bildtextdatensatz, TokenIT, erstellt, der 20 Millionen Bilder und 1,8 Milliarden Token-Masken-Paare umfasst. Darüber hinaus nutzen wir diese Grundlage mit außergewöhnlicher Bild-als-Text-Fähigkeit, um frühere VFMs nahtlos durch TokenOCR zu ersetzen und ein dokumentenbasiertes MLLM, TokenVL, für VQA-basierte Dokumentverständnisaufgaben zu konstruieren. Schließlich zeigen umfangreiche Experimente die Wirksamkeit von TokenOCR und TokenVL. Code, Datensätze und Gewichte werden unter https://token-family.github.io/TokenOCR_project verfügbar sein.
Während Fortschritte bei großen Sprachmodellen (LLMs) die Qualität synthetischer Textdaten in den letzten Jahren erheblich verbessert haben, wurde die Synthese von tabellarischen Daten vergleichsweise weniger beachtet. Wir gehen auf diese Diskrepanz mit Tabby ein, einer einfachen, aber leistungsstarken Nachschulungsmodifikation der standardmäßigen Transformer-Sprachmodellarchitektur, die deren Einsatz für die Synthese von Tabellendatensätzen ermöglicht. Tabby ermöglicht die Darstellung von Unterschieden zwischen Spalten mithilfe von Gated Mixture-of-Experts mit spaltenspezifischen Parametersätzen. Empirisch erzielt Tabby eine Datenqualität, die nahezu oder gleich der von echten Daten ist. Durch die Kombination unserer neuartigen LLM-Tabellentrainingsmethode, Plain, mit Tabby beobachten wir eine Verbesserung der Qualität von bis zu 44 % gegenüber früheren Methoden. Wir zeigen auch, dass Tabby über Tabellen hinaus auf allgemeiner strukturierte Daten erweitert werden kann und auf einem verschachtelten JSON-Datensatz ebenfalls eine Parität mit echten Daten erreicht.
In den letzten Jahrzehnten haben neurowissenschaftliche und psychologische Forschungen direkte Zusammenhänge zwischen Geschmack und auditiver Wahrnehmung aufgezeigt. Dieser Artikel untersucht multimodale generative Modelle, die auf dieser Grundlagenforschung aufbauen und in der Lage sind, Geschmacksinformationen in Musik umzuwandeln. Wir bieten einen kurzen Überblick über den Stand der Technik in diesem Bereich und heben wichtige Erkenntnisse und Methoden hervor. Wir präsentieren ein Experiment, in dem eine feinabgestimmte Version eines generativen Musikmodells (MusicGEN) verwendet wird, um Musik basierend auf detaillierten Geschmacksbeschreibungen zu erzeugen, die für jedes Musikstück bereitgestellt wurden. Die Ergebnisse sind vielversprechend: Laut der Bewertung der Teilnehmer (n=111) produziert das feinabgestimmte Modell Musik, die die eingegebenen Geschmacksbeschreibungen kohärenter widerspiegelt als das nicht feinabgestimmte Modell. Diese Studie stellt einen bedeutenden Schritt zum Verständnis und zur Entwicklung verkörperter Interaktionen zwischen KI, Klang und Geschmack dar und eröffnet neue Möglichkeiten im Bereich der generativen KI. Wir veröffentlichen unseren Datensatz, Code und das vortrainierte Modell unter: https://osf.io/xs5jy/.
Dieses Papier stellt Discrete-time Hybrid Automata Learning (DHAL) vor, ein Framework, das On-Policy Reinforcement Learning nutzt, um Moduswechsel zu identifizieren und auszuführen, ohne dabei auf Trajektoriensegmentierung oder das Lernen von Ereignisfunktionen angewiesen zu sein. Hybride dynamische Systeme, die kontinuierliche Flüsse und diskrete Moduswechsel umfassen, können Robotikaufgaben wie die Fortbewegung von Laufrobotern modellieren. Modellbasierte Methoden sind in der Regel auf vordefinierte Gangarten angewiesen, während modellfreie Ansätze explizites Wissen über Moduswechsel vermissen. Aktuelle Methoden identifizieren diskrete Modi durch Segmentierung, bevor sie den kontinuillichen Fluss regressieren, doch das Lernen hochdimensionaler, komplexer Starrkörperdynamiken ohne Trajektorienlabels oder Segmentierung bleibt eine herausfordernde offene Problemstellung. Unser Ansatz integriert eine Beta-Policy-Verteilung und eine Multi-Critic-Architektur, um kontaktgesteuerte Bewegungen zu modellieren, veranschaulicht durch eine anspruchsvolle Aufgabe mit einem vierbeinigen Roboter auf einem Skateboard. Wir validieren unsere Methode durch Simulationen und Tests in der realen Welt und demonstrieren robuste Leistung in hybriden dynamischen Systemen.