Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Obwohl große Sprachmodelle (LLMs) bei Generierungsaufgaben hervorragende Leistungen erbringen, begrenzt ihre ausschließliche Decoder-Architektur oft ihr Potenzial als Einbettungsmodelle, wenn keine weitere Feinabstimmung der Repräsentation erfolgt. Widerspricht dies ihrem Anspruch als Generalisten? Um diese Frage zu beantworten, werfen wir einen genaueren Blick auf Mixture-of-Experts (MoE) LLMs. Unsere Studie zeigt, dass die Experten-Routen in MoE LLMs als Einbettungsmodell von der Stange dienen können und vielversprechende Leistungen bei einer vielfältigen Klasse von auf Einbettungen fokussierten Aufgaben erbringen, ohne dass eine Feinabstimmung erforderlich ist. Darüber hinaus zeigt unsere umfangreiche Analyse, dass die MoE-Routungsgewichte (RW) ergänzend zum versteckten Zustand (HS) von LLMs, einer weit verbreiteten Einbettung, sind. Im Vergleich zu HS stellen wir fest, dass RW robuster gegenüber der Wahl von Anregungen ist und sich auf semantische Hochlevelelemente konzentriert. Angeregt durch die Analyse schlagen wir MoEE vor, das RW und HS kombiniert und eine bessere Leistung erzielt als bei der Verwendung jeder Komponente separat. Unsere Erkundung ihrer Kombination und Anregungsstrategie bringt mehrere neue Erkenntnisse ans Licht, z.B. dass eine gewichtete Summe von RW- und HS-Ähnlichkeiten die Ähnlichkeit ihrer Konkatenation übertrifft. Unsere Experimente werden an 6 Einbettungsaufgaben mit 20 Datensätzen aus dem Massive Text Embedding Benchmark (MTEB) durchgeführt. Die Ergebnisse zeigen die signifikante Verbesserung, die MoEE für LLM-basierte Einbettungen ohne weitere Feinabstimmung mit sich bringt.
Die Anpassung von medizinischen Large Language Models an lokale Sprachen kann die Zugangsbarrieren zu Gesundheitsdiensten verringern, aber Datenknappheit bleibt eine bedeutende Herausforderung, insbesondere für sprachlich ressourcenarme Sprachen. Um dies anzugehen, erstellen wir zunächst einen hochwertigen medizinischen Datensatz und führen Analysen durch, um seine Qualität sicherzustellen. Um die Generalisierungsfähigkeit von mehrsprachigen LLMs effizient auf sprachlich ressourcenärmere Sprachen auszudehnen, untersuchen wir den internen Informationsfluss von LLMs aus einer mehrsprachigen Perspektive unter Verwendung der Modulartät des Mixture of Experts (MoE). Technisch gesehen schlagen wir eine neuartige MoE-Routing-Methode vor, die sprachspezifische Experten und kreuzsprachiges Routing verwendet. Inspiriert von der Schaltungstheorie enthüllte unsere Routing-Analyse einen Informationsflussmechanismus namens Spread Out in the End: Während frühere Schichten den kreuzsprachigen Informationsfluss konzentrieren, zeigen spätere Schichten eine sprachspezifische Divergenz. Diese Erkenntnis führte direkt zur Entwicklung der Post-MoE-Architektur, die nur in den späteren Schichten eine spärliche Routenführung anwendet, während andere dicht bleiben. Experimentelle Ergebnisse zeigen, dass dieser Ansatz die Generalisierung von mehrsprachigen Modellen auf andere Sprachen verbessert, während die Interpretierbarkeit erhalten bleibt. Schließlich führen wir zur effizienten Skalierung des Modells auf 50 Sprachen das Konzept der Sprachfamilienexperten ein, das auf linguistischen Voraussetzungen beruht und es ermöglicht, die Anzahl der Sprachen ohne Hinzufügen zusätzlicher Parameter zu skalieren.
Die Erweiterung des Kontextfensters großer Sprachmodelle (LLMs) ist zu einem entscheidenden Forschungsbereich geworden, insbesondere für Anwendungen, die extrem lange Texte umfassen. In dieser Arbeit schlagen wir ein neuartiges, trainingfreies Framework zur Verarbeitung langer Texte vor, das eine Teile-und-Herrsche-Strategie nutzt, um ein umfassendes Verständnis von Dokumenten zu erreichen. Das vorgeschlagene LLMtimesMapReduce-Framework teilt das gesamte Dokument in mehrere Abschnitte auf, die von LLMs gelesen werden, und aggregiert dann die Zwischenergebnisse, um die endgültige Ausgabe zu erzeugen. Die Hauptherausforderung für Teile-und-Herrsche-Frameworks zur Verarbeitung langer Texte liegt im Risiko des Verlusts wesentlicher Informationen über große Entfernungen beim Aufteilen des Dokuments, was dazu führen kann, dass das Modell auf der Grundlage der segmentierten Texte unvollständige oder falsche Antworten liefert. Unterbrochene Informationen über große Entfernungen können in zwei Kategorien eingeteilt werden: zwischen Abschnittsabhängigkeit und zwischen Abschnittskonflikt. Wir entwerfen ein strukturiertes Informationsprotokoll, um besser mit der Abschnittsabhängigkeit umzugehen, und einen Mechanismus zur Kalibrierung des Kontextvertrauens, um Abschnittskonflikte zu lösen. Experimentelle Ergebnisse zeigen, dass LLMtimesMapReduce repräsentative Open-Source- und kommerzielle LLMs mit langem Kontext übertreffen kann und auf mehrere verschiedene Modelle anwendbar ist.
Die Skalierung von Transformer-basierten großen Sprachmodellen (LLMs) hat vielversprechende Leistungen in verschiedenen Aufgaben gezeigt, führt jedoch auch redundante Architekturen ein, die Effizienzprobleme bei der Implementierung in der realen Welt darstellen. Obwohl die Redundanz in LLMs teilweise anerkannt wird, ist die Variabilität der Redundanz in verschiedenen Architekturen von Transformatoren, wie MLP- und Aufmerksamkeitsschichten, wenig erforscht. In dieser Arbeit untersuchen wir Redundanzen in verschiedenen Modulen innerhalb von Transformatoren, einschließlich Blöcken, MLP und Aufmerksamkeitsschichten, unter Verwendung eines ähnlichkeitsbasierten Metrik. Überraschenderweise haben wir festgestellt, dass trotz der entscheidenden Rolle von Aufmerksamkeitsschichten bei der Unterscheidung von Transformatoren von anderen Architekturen ein großer Teil dieser Schichten übermäßig hohe Ähnlichkeiten aufweist und ohne Leistungseinbußen beschnitten werden kann. Zum Beispiel erzielte Llama-2-70B durch das Beschneiden der Hälfte der Aufmerksamkeitsschichten eine Beschleunigung um 48,4 % bei nur einem Leistungsabfall von 2,4 %. Darüber hinaus haben wir durch das Verfolgen von Modell-Checkpoints während des Trainingsprozesses festgestellt, dass die Redundanz von Aufmerksamkeitsschichten angeboren ist und über die Trainingsphasen hinweg konsistent bleibt. Darüber hinaus schlagen wir eine Methode vor, die das gleichzeitige Entfernen von Aufmerksamkeits- und MLP-Schichten ermöglicht, um zusätzliche Schichten aggressiver zu entfernen. Zum Beispiel behält Llama-2-13B bei Entfernung von 31 Schichten (Aufmerksamkeit + MLP) immer noch 90 % der Leistung bei der MMLU-Aufgabe bei. Unsere Arbeit liefert wertvolle Erkenntnisse für zukünftiges Design von Netzwerkarchitekturen. Der Code ist verfügbar unter: https://github.com/Shwai-He/LLM-Drop.
Multimodale Große Sprachmodelle (MLLMs) zeigen häufig Halluzinationsphänomene, aber die zugrunde liegenden Gründe sind noch nicht gut verstanden. In diesem Paper präsentieren wir eine empirische Analyse und stellen fest, dass MLLMs zwar die Objekte im endgültigen Output falsch generieren, sie jedoch tatsächlich in der Lage sind, visuelle Objekte in den vorhergehenden Schichten zu erkennen. Wir vermuten, dass dies auf die starken Wissensprioritäten des Sprachmodells zurückzuführen sein könnte, die die visuellen Informationen unterdrücken und so zu Halluzinationen führen. Basierend darauf schlagen wir eine neuartige dynamische Korrekturdekodierungsmethode für MLLMs (DeCo) vor, die adaptiv die geeigneten vorhergehenden Schichten auswählt und das Wissen proportional in die endgültige Schicht integriert, um die Ausgabelogits anzupassen. Beachten Sie, dass DeCo modellagnostisch ist und nahtlos mit verschiedenen klassischen Dekodierungsstrategien kombiniert und auf verschiedene MLLMs angewendet werden kann. Wir evaluieren DeCo an weit verbreiteten Benchmarks und zeigen, dass es im Vergleich zu Baselines die Halluzinationsraten deutlich reduzieren kann, was sein Potenzial zur Minderung von Halluzinationen unterstreicht. Der Code ist verfügbar unter https://github.com/zjunlp/DeCo.
Moderne Bewertungstechniken sind unzureichend für agentische Systeme. Diese Ansätze konzentrieren sich entweder ausschließlich auf endgültige Ergebnisse - und ignorieren die schrittweise Natur agentischer Systeme - oder erfordern übermäßige manuelle Arbeit. Um dies zu lösen, führen wir das Agent-als-Richter-Framework ein, bei dem agentische Systeme zur Bewertung anderer agentischer Systeme verwendet werden. Dies ist eine organische Erweiterung des LLM-als-Richter-Frameworks, das agentische Merkmale integriert, die ein Zwischenfeedback für den gesamten Aufgabenlösungsprozess ermöglichen. Wir wenden das Agent-als-Richter-Framework auf die Aufgabe der Codegenerierung an. Um Probleme mit bestehenden Benchmarks zu überwinden und ein Proof-of-Concept-Testfeld für Agent-als-Richter bereitzustellen, präsentieren wir DevAI, einen neuen Benchmark mit 55 realistischen automatisierten KI-Entwicklungsaufgaben. Er umfasst umfangreiche manuelle Annotationen, wie insgesamt 365 hierarchische Benutzeranforderungen. Wir bewerten drei der beliebten agentischen Systeme mit Agent-als-Richter und stellen fest, dass es LLM-als-Richter deutlich übertrifft und genauso zuverlässig ist wie unsere menschliche Bewertungsbasislinie. Insgesamt sind wir der Meinung, dass Agent-als-Richter einen konkreten Schritt nach vorne für moderne agentische Systeme darstellt - indem es reiche und zuverlässige Belohnungssignale bereitstellt, die für eine dynamische und skalierbare Selbstverbesserung erforderlich sind.
Die Wirksamkeit von Videogenerierungsmodellen hängt stark von der Qualität ihrer Trainingsdatensätze ab. Die meisten bisherigen Videogenerierungsmodelle werden auf kurzen Videoclips trainiert, während in letzter Zeit ein zunehmendes Interesse an der direkten Schulung von langen Videogenerierungsmodellen an längeren Videos besteht. Der Mangel an hochwertigen langen Videos behindert jedoch den Fortschritt bei der Generierung langer Videos. Um die Forschung in der Generierung langer Videos zu fördern, wünschen wir uns einen neuen Datensatz mit vier Schlüsselfunktionen, die für das Training von langen Videogenerierungsmodellen unerlässlich sind: (1) lange Videos, die mindestens 10 Sekunden abdecken, (2) lange Aufnahmen ohne Schnitte, (3) große Bewegungen und vielfältige Inhalte und (4) zeitlich dichte Untertitel. Um dies zu erreichen, führen wir eine neue Pipeline zur Auswahl hochwertiger Langzeitaufnahmen und zur Generierung zeitlich dichter Untertitel ein. Speziell definieren wir einen Satz von Metriken zur quantitativen Bewertung der Videoqualität, einschließlich Szenenschnitten, dynamischer Grade und semantischer Qualitätsebene, die es uns ermöglichen, hochwertige Langzeitaufnahmen aus einer großen Anzahl von Quellvideos herauszufiltern. Anschließend entwickeln wir eine hierarchische Videountertitelungspipeline, um lange Videos mit zeitlich dichten Untertiteln zu versehen. Mit dieser Pipeline kuratieren wir den ersten Datensatz für Langzeitaufnahmen, LVD-2M, bestehend aus 2 Millionen Langzeitaufnahmen, die jeweils mehr als 10 Sekunden abdecken und mit zeitlich dichten Untertiteln versehen sind. Wir validieren die Wirksamkeit von LVD-2M weiterhin, indem wir Videogenerierungsmodelle feinabstimmen, um lange Videos mit dynamischen Bewegungen zu generieren. Wir glauben, dass unsere Arbeit einen bedeutenden Beitrag zur zukünftigen Forschung in der Generierung langer Videos leisten wird.
Große Sprachmodelle (LLMs) haben massive Verbesserungen in den Bereichen Argumentation und Entscheidungsfindung gezeigt und können natürliche Gespräche mit Benutzern führen. In letzter Zeit wurden viele Benchmark-Datensätze für die Werkzeugnutzung vorgeschlagen. Allerdings weisen bestehende Datensätze folgende Einschränkungen auf: (1). Unzureichende Bewertungsszenarien (z. B. decken nur begrenzte Werkzeugnutzungsszenen ab). (2). Hohe Evaluationskosten (z. B. GPT-API-Kosten). Um diesen Einschränkungen zu begegnen, schlagen wir in dieser Arbeit einen Multi-Granularitäts-Werkzeugnutzungsbenchmark für große Sprachmodelle namens MTU-Bench vor. Für die Eigenschaft der "Multi-Granularität" deckt unser MTU-Bench fünf Werkzeugnutzungsszenen ab (d. h. Einzelzugang und Einzelwerkzeug, Einzelzugang und mehrere Werkzeuge, mehrere Zugänge und Einzelwerkzeug, mehrere Zugänge und mehrere Werkzeuge sowie Aufgaben außerhalb der Verteilung). Darüber hinaus basieren alle Bewertungsmetriken unseres MTU-Bench auf den Vorhersageergebnissen und der Ground Truth, ohne dabei auf GPT oder menschliche Bewertungsmetriken zurückzugreifen. Außerdem wird unser MTU-Bench durch die Umwandlung bestehender hochwertiger Datensätze gesammelt, um reale Werkzeugnutzungsszenarien zu simulieren, und wir schlagen auch einen Anweisungsdatensatz namens MTU-Instruct Data vor, um die Werkzeugnutzungsfähigkeiten bestehender LLMs zu verbessern. Umfassende experimentelle Ergebnisse zeigen die Wirksamkeit unseres MTU-Bench. Code und Daten werden unter https://github.com/MTU-Bench-Team/MTU-Bench.git veröffentlicht.
Als eine der beliebtesten und gefragtesten generativen Modelle in den letzten Jahren haben Diffusionsmodelle das Interesse vieler Forscher geweckt und kontinuierlich hervorragende Vorteile in verschiedenen generativen Aufgaben wie Bildsynthese, Videogenerierung, Moleküldesign, 3D-Szenen-Rendering und multimodale Generierung gezeigt, basierend auf ihren dichten theoretischen Prinzipien und zuverlässigen Anwendungspraktiken. Der bemerkenswerte Erfolg dieser jüngsten Bemühungen im Bereich der Diffusionsmodelle resultiert größtenteils aus progressiven Designprinzipien und effizienten Architekturen, Schulungs-, Inferenz- und Bereitstellungsmethoden. Es gab jedoch bisher keine umfassende und tiefgreifende Überprüfung, um diese Prinzipien und Praktiken zusammenzufassen, um das schnelle Verständnis und die Anwendung von Diffusionsmodellen zu unterstützen. In dieser Umfrage bieten wir eine neue, auf Effizienz ausgerichtete Perspektive auf diese bestehenden Bemühungen, die sich hauptsächlich auf die tiefgreifenden Prinzipien und effizienten Praktiken in Architekturentwürfen, Modellschulung, schnelle Inferenz und zuverlässige Bereitstellung konzentriert, um weitere theoretische Forschung, Algorithmusmigration und Modellanwendung für neue Szenarien auf benutzerfreundliche Weise zu leiten.
Große Sprachmodelle (LLMs), kombiniert mit Werkzeuglernen, haben beeindruckende Ergebnisse in realen Anwendungen erzielt. Während des Werkzeuglernens können LLMs mehrere Werkzeuge in verschachtelter Reihenfolge aufrufen, wobei der spätere Werkzeugaufruf die Antwort des vorherigen als Eingabeparameter verwenden kann. Die aktuelle Forschung zu den Fähigkeiten des verschachtelten Werkzeuglernens ist jedoch noch wenig erforscht, da die bestehenden Benchmarks an relevanten Datenbeispielen fehlen. Um dieses Problem zu lösen, stellen wir NesTools vor, um die aktuelle Lücke bei umfassenden Bewertungen des verschachtelten Werkzeuglernens zu schließen. NesTools umfasst eine neuartige automatische Datengenerierungsmethode zur Erstellung von groß angelegten verschachtelten Werkzeugaufrufen mit unterschiedlichen Verschachtelungsstrukturen. Durch manuelle Überprüfung und Verfeinerung ist der Datensatz von hoher Qualität und eng mit realen Szenarien verbunden. Daher kann NesTools als neuer Benchmark dienen, um die Fähigkeiten von LLMs im verschachtelten Werkzeuglernen zu bewerten. Wir führen umfangreiche Experimente mit 22 LLMs durch und bieten detaillierte Analysen mit NesTools, die zeigen, dass aktuelle LLMs immer noch unter der komplexen Aufgabe des verschachtelten Werkzeuglernens leiden.
Bestehende Arbeiten haben mehrere Benchmarks etabliert, um die Sicherheitsrisiken im Zusammenhang mit Code-Generierungs-KI hervorzuheben. Diese Risiken spiegeln sich hauptsächlich in zwei Bereichen wider: dem Potenzial eines Modells, unsicheren Code zu generieren (unsicheres Codieren) und dessen Nützlichkeit bei Cyberangriffen (Cyberangriff-Hilfreichkeit). Obwohl diese Benchmarks bedeutende Fortschritte gemacht haben, bestehen weiterhin Möglichkeiten für Verbesserungen. Beispielsweise neigen viele aktuelle Benchmarks dazu, sich mehr auf die Fähigkeit eines Modells zu konzentrieren, Angriffsvorschläge zu liefern, anstatt auf seine Fähigkeit, ausführbare Angriffe zu generieren. Darüber hinaus stützen sich die meisten Benchmarks stark auf statische Evaluierungsmetriken, die möglicherweise nicht so präzise sind wie dynamische Metriken wie das Bestehen von Testfällen. Im Gegensatz dazu arbeiten von Experten überprüfte Benchmarks, obwohl sie qualitativ hochwertige Daten liefern, oft in kleinerem Maßstab. Um diese Lücken zu schließen, entwickeln wir SecCodePLT, eine vereinheitlichte und umfassende Evaluierungsplattform für die Risiken von Code-Generierungs-KIs. Für unsicheren Code führen wir eine neue Methodik zur Datenerstellung ein, die Experten mit automatischer Generierung kombiniert. Unsere Methodik gewährleistet die Datenqualität und ermöglicht gleichzeitig eine groß angelegte Generierung. Wir ordnen außerdem Beispiele Testfällen zu, um eine dynamische Evaluierung im Zusammenhang mit dem Code durchzuführen. Für die Cyberangriff-Hilfreichkeit richten wir eine reale Umgebung ein und erstellen Beispiele, um ein Modell zur Generierung tatsächlicher Angriffe zu veranlassen, zusammen mit dynamischen Metriken in unserer Umgebung. Wir führen umfangreiche Experimente durch und zeigen, dass SecCodePLT den State-of-the-Art-Benchmark CyberSecEval in Bezug auf Sicherheitsrelevanz übertrifft. Darüber hinaus identifiziert es die Sicherheitsrisiken von State-of-the-Art-Modellen besser im unsicheren Codieren und bei der Cyberangriff-Hilfreichkeit. Abschließend wenden wir SecCodePLT auf den State-of-the-Art-Code-Agenten, Cursor, an und identifizieren erstmals nicht-triviale Sicherheitsrisiken in diesem fortgeschrittenen Code-Agenten.
Die Echokardiographie ist die am weitesten verbreitete kardiale Bildgebungsmodalität, die Ultraschall-Videodaten erfasst, um die Struktur und Funktion des Herzens zu beurteilen. Künstliche Intelligenz (KI) in der Echokardiographie hat das Potenzial, manuelle Aufgaben zu optimieren und die Reproduzierbarkeit und Präzision zu verbessern. Die meisten KI-Modelle in der Echokardiographie sind jedoch Einzelbild-Einzel-Aufgaben-Systeme, die keine ergänzenden Informationen aus mehreren während einer vollständigen Untersuchung erfassten Ansichten synthetisieren und daher zu einer begrenzten Leistung und Anwendungsbereich führen. Um dieses Problem zu lösen, stellen wir EchoPrime vor, ein Multi-View-, View-Informed-, Video-basiertes Vision-Language-Grundlagenmodell, das auf über 12 Millionen Video-Berichtspaaren trainiert wurde. EchoPrime verwendet kontrastives Lernen, um ein vereinheitlichtes Einbettungsmodell für alle Standardansichten in einer umfassenden Echokardiogrammstudie mit der Darstellung sowohl seltener als auch häufiger Krankheiten und Diagnosen zu trainieren. EchoPrime nutzt dann die Ansichtsklassifizierung und ein view-informed anatomisches Aufmerksamkeitsmodell, um videobezogene Interpretationen zu gewichten, die die Beziehung zwischen echokardiographischen Ansichten und anatomischen Strukturen genau abbilden. Mit einer abrufgestützten Interpretation integriert EchoPrime Informationen aus allen Echokardiogramm-Videos in einer umfassenden Studie und führt eine ganzheitliche klinische Echokardiographie-Interpretation durch. In Datensätzen aus zwei unabhängigen Gesundheitssystemen erzielt EchoPrime Spitzenleistungen bei 23 verschiedenen Benchmarks für kardiale Form und Funktion und übertrifft die Leistung sowohl von aufgabenspezifischen Ansätzen als auch früheren Grundlagenmodellen. Nach einer rigorosen klinischen Bewertung kann EchoPrime Ärzten bei der automatisierten vorläufigen Bewertung einer umfassenden Echokardiographie unterstützen.
Wir präsentieren eine auf räumlichen und winkelbezogenen Gauß-Funktionen basierende Darstellung und einen dreifachen Splatting-Prozess für die Echtzeit-Synthese hochwertiger neuer Beleuchtungs- und Ansichtseffekte aus mehreren Ansichtspunkten beleuchteten Eingangsbildern. Zur Beschreibung komplexer Erscheinungsbilder verwenden wir eine lambertsche Funktion sowie eine Mischung aus winkelbezogenen Gauß-Funktionen als effektive Reflexionsfunktion für jede räumliche Gauß-Funktion. Um Selbstschatten zu erzeugen, splatten wir alle räumlichen Gauß-Funktionen in Richtung der Lichtquelle, um Schattenwerte zu erhalten, die durch ein kleines Multi-Layer-Perzeptron weiter verfeinert werden. Um andere Effekte wie globale Beleuchtung auszugleichen, wird ein weiteres Netzwerk trainiert, um ein pro-räumliche-Gauß-Funktion RGB-Tupel zu berechnen und hinzuzufügen. Die Effektivität unserer Darstellung wird anhand von 30 Beispielen mit einer breiten Variation in Geometrie (von massiv bis flauschig) und Erscheinungsbild (von durchscheinend bis anisotrop) sowie unter Verwendung verschiedener Formen von Eingabedaten demonstriert, einschließlich gerenderter Bilder von synthetischen/rekonstruierten Objekten, Fotos, die mit einer Handkamera und einem Blitz aufgenommen wurden, oder von einem professionellen Lichtbühne. Wir erreichen eine Trainingszeit von 40-70 Minuten und eine Rendergeschwindigkeit von 90 fps auf einer einzelnen handelsüblichen GPU. Unsere Ergebnisse stehen im Vergleich zu modernsten Techniken in Bezug auf Qualität/Leistung gut da. Unser Code und unsere Daten sind öffentlich verfügbar unter https://GSrelight.github.io/.
Die jüngsten Fortschritte in der Computer Vision (CV) und der Natural Language Processing (NLP) wurden größtenteils durch die Skalierung der Anzahl der Netzwerkparameter vorangetrieben, obwohl traditionelle Theorien nahelegen, dass größere Netzwerke anfällig für Overfitting sind. Diese großen Netzwerke vermeiden Overfitting, indem sie Komponenten integrieren, die eine Einfachheitsneigung induzieren und Modelle zu einfachen und generalisierbaren Lösungen führen. Allerdings wurde das Design und die Skalierung von Netzwerken im Deep Reinforcement Learning (RL) weniger erforscht. Angespornt durch diese Gelegenheit präsentieren wir SimBa, eine Architektur, die darauf ausgelegt ist, die Parameter im Deep RL durch die Integration einer Einfachheitsneigung zu skalieren. SimBa besteht aus drei Komponenten: (i) einer Beobachtungsnormierungsschicht, die Eingaben mit laufenden Statistiken standardisiert, (ii) einem residualen Feedforward-Block, um einen linearen Pfad vom Eingang zum Ausgang bereitzustellen, und (iii) einer Schichtnormalisierung zur Kontrolle der Merkmalsmagnituden. Durch die Skalierung der Parameter mit SimBa wird die Stichprobeneffizienz verschiedener Deep RL-Algorithmen - einschließlich Off-Policy, On-Policy und unüberwachter Methoden - kontinuierlich verbessert. Darüber hinaus erreicht oder übertrifft allein durch die Integration der SimBa-Architektur in SAC diese den Stand der Technik in Deep RL-Methoden mit hoher Rechenleistungseffizienz über DMC, MyoSuite und HumanoidBench. Diese Ergebnisse zeigen die breite Anwendbarkeit und Wirksamkeit von SimBa über verschiedene RL-Algorithmen und Umgebungen hinweg.
Die zunehmende Nachfrage nach vielseitigen Robotersystemen, die in verschiedenen und dynamischen Umgebungen eingesetzt werden können, hat die Bedeutung einer Generalistenstrategie betont, die auf einem großen Datenkorpus verschiedener Körper basiert, um eine breite Anpassungsfähigkeit und hochrangiges Denken zu erleichtern. Allerdings würde der Generalist mit ineffizienter Inferenz und kostspieligem Training zu kämpfen haben. Die Spezialistenstrategie hingegen ist für spezifische Domänendaten konzipiert und zeichnet sich durch präzise Aufgabenebene mit Effizienz aus. Es fehlt ihr jedoch an der Verallgemeinerungsfähigkeit für eine Vielzahl von Anwendungen. Inspiriert von diesen Beobachtungen stellen wir RoboDual vor, ein synergistisches Dualsystem, das die Vorteile sowohl der Generalisten- als auch der Spezialistenstrategie ergänzt. Ein auf Diffusionstransformatoren basierter Spezialist wurde für mehrstufige Aktionsabläufe entwickelt, die exquisit auf dem Verständnis der hochrangigen Aufgabe und der diskreten Aktionsausgabe eines auf Vision-Sprache-Aktion (VLA) basierenden Generalisten konditioniert sind. Im Vergleich zu OpenVLA erzielt RoboDual eine Verbesserung von 26,7 % in realen Umgebungen und einen Gewinn von 12 % bei CALVIN, indem eine Spezialistenstrategie mit lediglich 20 Millionen trainierbaren Parametern eingeführt wird. Es behält eine starke Leistung bei nur 5 % der Demonstrationsdaten und ermöglicht eine 3,8-mal höhere Steuerfrequenz bei der Bereitstellung in der realen Welt. Der Code wird öffentlich zugänglich gemacht. Unsere Projektseite ist unter folgender Adresse zu finden: https://opendrivelab.com/RoboDual/
Der Mutual Reinforcement Effect (MRE) untersucht die synergetische Beziehung zwischen der Klassifizierung auf Wortebene und der Klassifizierung auf Textebene bei Textklassifizierungsaufgaben. Er postuliert, dass die Leistung beider Klassifizierungsebenen gegenseitig gesteigert werden kann. Allerdings wurde dieser Mechanismus in früheren Forschungsarbeiten nicht ausreichend nachgewiesen oder erklärt. Um diese Lücke zu schließen, verwenden wir empirische Experimente, um die MRE-Theorie zu beobachten und zu untermauern. Unsere Experimente mit 21 MRE-Mix-Datensätzen zeigten das Vorhandensein von MRE im Modell und dessen Auswirkungen. Insbesondere führten wir Vergleichsexperimente mit Feinabstimmung durch. Die Ergebnisse der Vergleichsexperimente bestätigen die Existenz von MRE. Darüber hinaus erweiterten wir die Anwendung von MRE auf das Prompt-Learning, wobei Informationen auf Wortebene als Verbalisierer genutzt werden, um die Vorhersage von Textklassifizierungsetiketten des Modells zu stärken. In unserem abschließenden Experiment übertraf der F1-Score signifikant die Basislinie in 18 von 21 MRE-Mix-Datensätzen, was die Idee untermauert, dass Informationen auf Wortebene das Verständnis des Sprachmodells für den Text als Ganzes verbessern.
Aktuelle Ansätze versuchen, leistungsstarke interaktive Segmentierungsmodelle wie SAM an interaktives Matting anzupassen und die Modelle basierend auf synthetischen Matting-Datensätzen zu feinabzustimmen. Modelle, die auf synthetischen Daten trainiert sind, scheitern jedoch daran, sich auf komplexe Szenen mit Überlagerungen zu verallgemeinern. Wir begegnen dieser Herausforderung, indem wir einen neuen Matting-Datensatz basierend auf dem COCO-Datensatz vorschlagen, nämlich COCO-Matting. Speziell umfasst die Konstruktion unseres COCO-Matting die Fusion von Accessoires und Mask-to-Matte, wobei komplexe Bilder aus der realen Welt aus COCO ausgewählt und semantische Segmentierungsmasken in Matting-Labels umgewandelt werden. Das erstellte COCO-Matting umfasst eine umfangreiche Sammlung von 38.251 Alpha-Matten auf Instanzebene von Menschen in komplexen natürlichen Szenarien. Darüber hinaus extrahieren bestehende SAM-basierte Matting-Methoden Zwischenmerkmale und Masken aus einem eingefrorenen SAM und trainieren nur einen leichtgewichtigen Matting-Decoder mit End-to-End-Matting-Verlusten, die das Potenzial des vorab trainierten SAM nicht vollständig ausschöpfen. Daher schlagen wir SEMat vor, das die Netzwerkarchitektur und Trainingsziele überarbeitet. Für die Netzwerkarchitektur lernt der vorgeschlagene Feature-alignierte Transformer, feinkörnige Kanten- und Transparenzmerkmale zu extrahieren. Der vorgeschlagene Matte-alignierte Decoder zielt darauf ab, matting-spezifische Objekte zu segmentieren und grobe Masken in hochpräzise Matten umzuwandeln. Für die Trainingsziele zielen die vorgeschlagene Regularisierung und Trimap-Verlust darauf ab, das Vorwissen aus dem vorab trainierten Modell zu bewahren und die aus dem Masken-Decoder extrahierten Matting-Logits mit trimpapierter semantischer Information zu versehen. Umfangreiche Experimente über sieben verschiedene Datensätze hinweg zeigen die überragende Leistung unserer Methode und belegen ihre Wirksamkeit beim interaktiven natürlichen Bildmatting. Wir stellen unseren Code, Modelle und Datensatz unter https://github.com/XiaRho/SEMat als Open Source zur Verfügung.
Das effiziente Abrufen und Synthetisieren von Informationen aus umfangreichen multimodalen Sammlungen ist zu einer entscheidenden Herausforderung geworden. Allerdings leiden bestehende Videorückgewinnungsdatensätze unter Umfangsbeschränkungen, die sich hauptsächlich auf die Zuordnung von beschreibenden, aber vagen Abfragen mit kleinen Sammlungen professionell bearbeiteter, englischzentrierter Videos konzentrieren. Um diese Lücke zu schließen, stellen wir MultiVENT 2.0 vor, einen umfangreichen, mehrsprachigen, ereigniszentrierten Videorückgewinnungsbenchmark, der eine Sammlung von mehr als 218.000 Nachrichtenvideos und 3.906 Abfragen zu spezifischen Weltgeschehnissen umfasst. Diese Abfragen zielen speziell auf Informationen ab, die im visuellen Inhalt, im Audio, im eingebetteten Text und in den Textmetadaten der Videos gefunden werden, wobei Systeme alle diese Quellen nutzen müssen, um bei der Aufgabe erfolgreich zu sein. Vorläufige Ergebnisse zeigen, dass modernste Bildsprachmodelle erhebliche Schwierigkeiten mit dieser Aufgabe haben, und obwohl alternative Ansätze vielversprechend sind, reichen sie immer noch nicht aus, um dieses Problem angemessen anzugehen. Diese Erkenntnisse unterstreichen die Notwendigkeit robusterer multimodaler Rückgewinnungssysteme, da eine effektive Videorückgewinnung ein entscheidender Schritt hin zu multimodalen Inhaltsverständnis- und Generierungsaufgaben ist.