Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
GPT-4o ist ein autoregressives Omni-Modell, das jede Kombination von Text, Audio, Bild und Video als Eingabe akzeptiert und jede Kombination von Text, Audio und Bild als Ausgabe generiert. Es wird end-to-end über Text, Vision und Audio trainiert, was bedeutet, dass alle Eingaben und Ausgaben vom selben neuronalen Netzwerk verarbeitet werden. GPT-4o kann auf Audioeingaben in nur 232 Millisekunden reagieren, mit einem Durchschnitt von 320 Millisekunden, was ähnlich ist wie die menschliche Reaktionszeit in Gesprächen. Es erreicht die Leistung des GPT-4 Turbo bei Texten in Englisch und Code, mit signifikanter Verbesserung bei Texten in nicht-englischen Sprachen, während es auch schneller ist und 50\% günstiger in der API. GPT-4o ist insbesondere besser in der Vision- und Audioverarbeitung im Vergleich zu bestehenden Modellen. Im Einklang mit unserem Engagement für die sichere Entwicklung von KI und unseren freiwilligen Verpflichtungen gegenüber dem Weißen Haus teilen wir die GPT-4o Systemkarte, die unsere Bewertungen des Vorbereitungsrahmens enthält. In dieser Systemkarte bieten wir einen detaillierten Einblick in die Fähigkeiten, Einschränkungen und Sicherheitsbewertungen von GPT-4o in verschiedenen Kategorien, wobei der Schwerpunkt auf der Sprach-zu-Sprach-Verarbeitung liegt, während auch Text- und Bildfähigkeiten bewertet werden, sowie Maßnahmen, die wir implementiert haben, um sicherzustellen, dass das Modell sicher und ausgerichtet ist. Wir beinhalten auch Bewertungen von Drittanbietern zu gefährlichen Fähigkeiten sowie Diskussionen über potenzielle gesellschaftliche Auswirkungen der Text- und Bildfähigkeiten von GPT-4o.
Wir stellen Bielik 7B v0.1 vor, ein generatives Textmodell mit 7 Milliarden Parametern für die Verarbeitung der polnischen Sprache. Trainiert anhand kuratierter polnischer Korpora, begegnet dieses Modell zentralen Herausforderungen bei der Entwicklung von Sprachmodellen durch innovative Techniken. Dazu gehören das gewichtete Anweisungs-Kreuzentropie-Verlust, das das Lernen verschiedener Anweisungstypen ausbalanciert, und die adaptive Lernrate, die basierend auf dem Trainingsfortschritt dynamisch die Lernrate anpasst. Zur Bewertung der Leistung haben wir das Open PL LLM Leaderboard und Polish MT-Bench erstellt, neuartige Rahmenwerke zur Bewertung verschiedener NLP-Aufgaben und Konversationsfähigkeiten. Bielik 7B v0.1 zeigt signifikante Verbesserungen, erreicht eine 9-Prozentpunkte-Steigerung im durchschnittlichen Score im Vergleich zu Mistral-7B-v0.1 bei der RAG Reader-Aufgabe. Es überzeugt auch im Polish MT-Bench, insbesondere in den Kategorien Reasoning (6,15/10) und Role-playing (7,83/10). Dieses Modell stellt einen bedeutenden Fortschritt im Bereich der polnischen Sprach-KI dar, bietet ein leistungsstarkes Werkzeug für vielfältige linguistische Anwendungen und setzt neue Maßstäbe in der Branche.
Kleine Sprachmodelle (SLMs) sind aufgrund ihrer Effizienz und Leistungsfähigkeit bei der Durchführung verschiedener Sprachaufgaben mit minimalen Rechenressourcen zunehmend wichtig geworden, was sie ideal für verschiedene Anwendungen wie On-Device, mobile, Edge-Geräte und viele andere macht. In diesem Artikel präsentieren wir eine umfassende Übersicht über SLMs, wobei wir uns auf ihre Architekturen, Trainingsmethoden und Modellkomprimierungstechniken konzentrieren. Wir schlagen eine neue Taxonomie zur Kategorisierung der Methoden vor, die zur Optimierung von SLMs verwendet werden, einschließlich Modellkomprimierung, Pruning und Quantisierungstechniken. Wir fassen die Benchmark-Datensätze zusammen, die nützlich sind, um SLMs zu benchmarken, zusammen mit den üblicherweise verwendeten Bewertungsmetriken. Darüber hinaus heben wir wichtige offene Herausforderungen hervor, die noch angegangen werden müssen. Unsere Übersicht soll als wertvolle Ressource für Forscher und Praktiker dienen, die daran interessiert sind, kleine, aber effiziente Sprachmodelle zu entwickeln und einzusetzen.
Digitale Agenten, die komplexe Computer-Aufgaben automatisieren können, haben aufgrund ihres enormen Potenzials zur Verbesserung der Mensch-Computer-Interaktion erhebliche Aufmerksamkeit erregt. Allerdings weisen bestehende Agentenmethoden Mängel in ihren Verallgemeinerungs- und Spezialisierungsfähigkeiten auf, insbesondere bei der Bewältigung offener Computer-Aufgaben in realen Umgebungen. Inspiriert von der umfangreichen Funktionalität des App Stores präsentieren wir AgentStore, eine skalierbare Plattform, die darauf ausgelegt ist, heterogene Agenten dynamisch zu integrieren, um Computer-Aufgaben zu automatisieren. AgentStore ermöglicht es Benutzern, Agenten von Drittanbietern zu integrieren, wodurch das System kontinuierlich seine Fähigkeiten erweitern und sich an schnelllebig verändernde Betriebssysteme anpassen kann. Darüber hinaus schlagen wir einen neuartigen Kern-MetaAgenten mit der AgentToken-Strategie vor, um diverse Agenten effizient zu verwalten und ihre spezialisierten und generalistischen Fähigkeiten sowohl für domänenspezifische als auch systemweite Aufgaben zu nutzen. Umfangreiche Experimente an drei anspruchsvollen Benchmarks zeigen, dass AgentStore die Einschränkungen früherer Systeme mit engen Fähigkeiten übertrifft, insbesondere eine signifikante Verbesserung von 11,21\% auf 23,85\% beim OSWorld-Benchmark erzielt, was mehr als eine Verdopplung der bisherigen Ergebnisse bedeutet. Umfassende quantitative und qualitative Ergebnisse zeigen weiterhin die Fähigkeit von AgentStore, Agentensysteme sowohl in der Verallgemeinerung als auch Spezialisierung zu verbessern und unterstreichen sein Potenzial zur Entwicklung des spezialisierten Generalisten-Computerassistenten. Alle unsere Codes werden öffentlich unter https://chengyou-jia.github.io/AgentStore-Home verfügbar sein.
Die Dokumentenanalyse ist entscheidend für die Umwandlung von unstrukturierten und halbstrukturierten Dokumenten - wie Verträgen, wissenschaftlichen Arbeiten und Rechnungen - in strukturierte, maschinenlesbare Daten. Die Dokumentenanalyse extrahiert zuverlässige strukturierte Daten aus unstrukturierten Eingaben und bietet enorme Bequemlichkeit für zahlreiche Anwendungen. Insbesondere mit den jüngsten Fortschritten bei großen Sprachmodellen spielt die Dokumentenanalyse eine unverzichtbare Rolle sowohl beim Aufbau von Wissensdatenbanken als auch bei der Generierung von Trainingsdaten. Diese Übersicht bietet eine umfassende Bewertung des aktuellen Standes der Dokumentenanalyse, die wichtige Methoden von modularen Pipeline-Systemen bis hin zu End-to-End-Modellen, die von großen Bildsprachmodellen angetrieben werden, abdeckt. Kernkomponenten wie Layout-Erkennung, Inhaltsextraktion (einschließlich Text, Tabellen und mathematischer Ausdrücke) und die Integration multimodaler Daten werden im Detail untersucht. Darüber hinaus diskutiert dieser Artikel die Herausforderungen, mit denen modulare Dokumentenanalyse-Systeme und Bildsprachmodelle bei der Bewältigung komplexer Layouts, der Integration mehrerer Module und der Erkennung von Texten hoher Dichte konfrontiert sind. Er betont die Bedeutung der Entwicklung größerer und vielfältigerer Datensätze und skizziert zukünftige Forschungsrichtungen.
Wir stellen MarDini vor, eine neue Familie von Videodiffusionsmodellen, die die Vorteile der maskierten Auto-Regression (MAR) in ein vereinheitlichtes Diffusionsmodell (DM) integrieren. Hier übernimmt MAR die zeitliche Planung, während DM sich auf die räumliche Generierung in einem asymmetrischen Netzwerkdesign konzentriert: i) Ein auf MAR basierendes Planungsmodell, das die meisten Parameter enthält, generiert Planungssignale für jedes maskierte Frame unter Verwendung eines Eingangs mit geringer Auflösung; ii) Ein leichtgewichtiges Generierungsmodell verwendet diese Signale, um hochauflösende Frames über Diffusionsrauschen zu erzeugen. MarDinis MAR ermöglicht die Videogenerierung, die auf einer beliebigen Anzahl von maskierten Frames an beliebigen Frame-Positionen bedingt ist: Ein einzelnes Modell kann die Videointerpolation (z.B. Maskierung von mittleren Frames), die Bild-zu-Video-Generierung (z.B. Maskierung ab dem zweiten Frame) und die Videoerweiterung (z.B. Maskierung der Hälfte der Frames) bewältigen. Das effiziente Design weist den Großteil der Rechenressourcen dem Planungsmodell mit geringer Auflösung zu, was es ermöglicht, rechenintensive, aber wichtige räumlich-zeitliche Aufmerksamkeit in großem Maßstab durchzuführen. MarDini setzt einen neuen Stand der Technik für die Videointerpolation; währenddessen generiert es effizient innerhalb weniger Inferenzschritte Videos auf dem Niveau von deutlich teureren fortschrittlichen Bild-zu-Video-Modellen.
FP8-Training hat sich als vielversprechende Methode zur Verbesserung der Trainingseffizienz herausgestellt. Bestehende Frameworks beschleunigen das Training, indem sie FP8-Berechnungen auf lineare Schichten anwenden, während Optimizer-Zustände und Aktivierungen in höherer Präzision belassen werden, was jedoch nicht vollständig die Speicherauslastung optimiert. Dieses Paper stellt COAT (Compressing Optimizer States and Activations for FP8 Training) vor, ein neuartiges FP8-Trainingsframework, das darauf abzielt, den Speicherbedarf beim Training großer Modelle signifikant zu reduzieren. COAT begegnet aktuellen Einschränkungen durch zwei Schlüsselinnovationen: (1) Dynamische Bereichserweiterung, die Optimizer-Zustandsverteilungen enger an den FP8-Repräsentationsbereich anpasst, wodurch die Quantisierungsfehler reduziert werden, und (2) Gemischte Granularitätsaktivierungsquantisierung, die die Aktivierungsspeicherung mithilfe einer Kombination von pro-Tensor- und pro-Gruppen-Quantisierungsstrategien optimiert. Experimente zeigen, dass COAT den Gesamtspeicherbedarf für das Training um das 1,54-fache im Vergleich zu BF16 effektiv reduziert, während nahezu verlustfreie Leistung bei verschiedenen Aufgaben wie dem Vorabtraining und Feintuning großer Sprachmodelle sowie dem Training von Vision-Sprachmodellen erzielt wird. COAT erreicht auch eine 1,43-fache Beschleunigung des Gesamttrainings im Vergleich zu BF16 und liegt dabei auf Augenhöhe oder übertrifft die Beschleunigung von TransformerEngine. COAT ermöglicht effizientes Training großer Modelle mit allen Parametern auf weniger GPUs und erleichtert die Verdopplung der Batch-Größe in verteilten Trainingseinstellungen, was eine praktische Lösung für das Skalieren des Trainings großer Modelle darstellt. Der Code ist verfügbar unter https://github.com/NVlabs/COAT.
Die Bildwiederherstellung (IR) in realen Szenarien stellt aufgrund des Mangels an leistungsstarken Modellen und umfassenden Datensätzen erhebliche Herausforderungen dar. Um diesen Problemen zu begegnen, präsentieren wir eine doppelte Strategie: GenIR, eine innovative Datenkuratierungspipeline, und DreamClear, ein hochmodernes Bildwiederherstellungsmodell auf Basis des Diffusion Transformers (DiT). GenIR, unser bahnbrechender Beitrag, ist eine doppelte Lernpipeline, die die Einschränkungen bestehender Datensätze überwindet, die in der Regel nur aus einigen tausend Bildern bestehen und somit eine begrenzte Verallgemeinerbarkeit für größere Modelle bieten. GenIR vereinfacht den Prozess in drei Phasen: Konstruktion von Bild-Text-Paaren, Feinabstimmung auf Basis von doppelten Anweisungen und Datengenerierung und -filterung. Dieser Ansatz umgeht den mühsamen Prozess des Datensammelns, gewährleistet die Einhaltung des Urheberrechts und bietet eine kostengünstige, datenschutzsichere Lösung für den Aufbau von IR-Datensätzen. Das Ergebnis ist ein Datensatz im großen Maßstab von einer Million hochwertigen Bildern. Unser zweiter Beitrag, DreamClear, ist ein auf DiT basierendes Bildwiederherstellungsmodell. Es nutzt die generativen Voraussetzungen von Text-zu-Bild-Diffusionsmodellen und die robusten wahrnehmungsfähigen Fähigkeiten von multimodalen großen Sprachmodellen (MLLMs), um fotorealistische Wiederherstellung zu erreichen. Um die Anpassungsfähigkeit des Modells an verschiedene reale Degradierungen zu verbessern, führen wir das Mixture of Adaptive Modulator (MoAM) ein. Es verwendet tokenweise Degradierungsvoraussetzungen, um verschiedene Wiederherstellungsexperten dynamisch zu integrieren und somit den Bereich der Degradierungen zu erweitern, die das Modell bewältigen kann. Unsere umfangreichen Experimente bestätigen die überlegene Leistung von DreamClear und unterstreichen die Wirksamkeit unserer doppelten Strategie für die Bildwiederherstellung in realen Szenarien. Der Code und die vorab trainierten Modelle sind verfügbar unter: https://github.com/shallowdream204/DreamClear.
Obwohl bedeutende Fortschritte bei der Entwicklung von großangelegten Sprachmodellen mit langem Kontext (LLMs) erzielt wurden, beeinträchtigt die beeinträchtigte Qualität der von LLMs synthetisierten Daten für das überwachte Feintuning (SFT) häufig die Leistung von SFT-Modellen im langen Kontext und führt zu inhärenten Einschränkungen. Grundsätzlich kann die Verstärkungslernmethode (RL) mit geeigneten Belohnungssignalen die Kapazitäten von Modellen weiter verbessern. Es bleibt jedoch unerforscht, wie zuverlässige Belohnungen in Szenarien mit langem Kontext erhalten werden können. Zu diesem Zweck schlagen wir LongReward vor, eine neuartige Methode, die ein sofort einsatzbereites LLM verwendet, um Belohnungen für Modellantworten im langen Kontext aus vier menschlich bewerteten Dimensionen bereitzustellen: Hilfreichkeit, Logik, Treue und Vollständigkeit, jede mit einer sorgfältig gestalteten Bewertungspipeline. Durch die Kombination von LongReward und dem Offline-RL-Algorithmus DPO können wir die Leistung von SFT-Modellen im langen Kontext effektiv verbessern. Unsere Experimente zeigen, dass LongReward nicht nur die Leistung von Modellen im langen Kontext signifikant verbessert, sondern auch ihre Fähigkeit verbessert, kurzen Anweisungen zu folgen. Wir stellen auch fest, dass der langkontextige DPO mit LongReward und der konventionelle kurzkontextige DPO gemeinsam verwendet werden können, ohne die Leistung des einen oder des anderen zu beeinträchtigen.
Wir stellen eine neuartige, trainingsfreie räumliche Verankerungstechnik für die Text-zu-Bild-Generierung unter Verwendung von Diffusion-Transformern (DiT) vor. Die räumliche Verankerung mit Begrenzungsrahmen hat aufgrund ihrer Einfachheit und Vielseitigkeit Aufmerksamkeit erregt und ermöglicht eine verbesserte Benutzerkontrolle bei der Bildgenerierung. Bisherige trainingsfreie Ansätze stützen sich jedoch oft auf die Aktualisierung des verrauschten Bildes während des umgekehrten Diffusionsprozesses über Backpropagation aus benutzerdefinierten Verlustfunktionen, die häufig Schwierigkeiten haben, eine präzise Kontrolle über einzelne Begrenzungsrahmen zu bieten. In dieser Arbeit nutzen wir die Flexibilität der Transformer-Architektur und zeigen, dass DiT rauschhafte Patches generieren kann, die jedem Begrenzungsrahmen entsprechen, das Zielobjekt vollständig codierend und eine fein abgestimmte Kontrolle über jeden Bereich ermöglichen. Unser Ansatz baut auf einer faszinierenden Eigenschaft von DiT auf, die wir als semantisches Teilen bezeichnen. Aufgrund des semantischen Teilens werden kleinere Patches gemeinsam mit einem generierbaren Bild während des Entfernungsvorgangs zu "semantischen Klonen". Jeder Patch wird in seinem eigenen Zweig des Generierungsprozesses entrauscht und dann zu jedem Zeitpunkt in den entsprechenden Bereich des ursprünglichen verrauschten Bildes transplantiert, was zu einer robusten räumlichen Verankerung für jeden Begrenzungsrahmen führt. In unseren Experimenten an den HRS- und DrawBench-Benchmarks erzielen wir im Vergleich zu früheren trainingsfreien räumlichen Verankerungsansätzen eine Spitzenleistung.
Suchmaschinen ermöglichen die Wiederbeschaffung unbekannter Informationen anhand von Texten. Traditionelle Methoden stoßen jedoch an ihre Grenzen, wenn es darum geht, unbekannte visuelle Inhalte zu verstehen, wie z.B. die Identifizierung eines Objekts, das das Modell noch nie zuvor gesehen hat. Diese Herausforderung ist besonders ausgeprägt bei großen Vision-Language-Modellen (VLMs): Wenn das Modell noch nicht mit dem in einem Bild dargestellten Objekt in Kontakt gekommen ist, hat es Schwierigkeiten, zuverlässige Antworten auf die Frage des Benutzers zu diesem Bild zu generieren. Darüber hinaus ist es aufgrund hoher Rechenlasten unpraktisch, VLMs häufig zu aktualisieren, da ständig neue Objekte und Ereignisse auftauchen. Um diese Einschränkung zu überwinden, schlagen wir den Vision Search Assistant vor, ein neuartiges Framework, das die Zusammenarbeit zwischen VLMs und Web-Agenten erleichtert. Dieser Ansatz nutzt die visuellen Verständnisfähigkeiten von VLMs und den Echtzeit-Informationszugriff von Web-Agenten, um über das Web eine offene Retrieval-Augmented Generation durchzuführen. Durch die Integration von visuellen und textuellen Darstellungen durch diese Zusammenarbeit kann das Modell informierte Antworten geben, selbst wenn das Bild für das System neu ist. Umfangreiche Experimente, die an sowohl offenen als auch geschlossenen Frage-Antwort-Benchmarks durchgeführt wurden, zeigen, dass der Vision Search Assistant signifikant besser abschneidet als andere Modelle und weitreichend auf bestehende VLMs angewendet werden kann.
Die sichere und effektive Bereitstellung von Large Language Models (LLMs) beinhaltet einen entscheidenden Schritt namens Ausrichtung, der sicherstellt, dass die Antworten des Modells mit menschlichen Präferenzen übereinstimmen. Vorherrschende Ausrichtungstechniken wie DPO, PPO und deren Varianten richten LLMs aus, indem sie die vortrainierten Modellgewichte während einer Phase namens Post-Training ändern. Obwohl vorherrschend, fügen diese post-training Methoden erhebliche Komplexität hinzu, bevor LLMs eingesetzt werden können. Ausrichtungsmethoden zur Inferenzzeit umgehen den komplexen Post-Training-Schritt und lenken stattdessen die Generierung auf Antworten, die mit menschlichen Präferenzen übereinstimmen. Die bekannteste Ausrichtungsmethode zur Inferenzzeit, genannt Best-of-N, ist genauso effektiv wie die modernsten post-training Verfahren. Leider erfordert Best-of-N bei der Inferenzzeit erheblich mehr Ressourcen als Standard-Decodierungsstrategien, was es rechnerisch nicht machbar macht. In dieser Arbeit stellen wir Speculative Rejection vor, einen rechnerisch machbaren Ausrichtungsalgorithmus zur Inferenzzeit. Er generiert hoch bewertete Antworten gemäß eines gegebenen Belohnungsmodells, ähnlich wie Best-of-N, und ist dabei zwischen 16 und 32 Mal rechnerisch effizienter.
Wir präsentieren LARP, einen innovativen Videotokenizer, der entwickelt wurde, um die Einschränkungen in aktuellen Videotokenisierungsmethoden für autoregressive (AR) generative Modelle zu überwinden. Im Gegensatz zu traditionellen patchweisen Tokenizern, die lokale visuelle Patches direkt in diskrete Tokens codieren, führt LARP ein ganzheitliches Tokenisierungsschema ein, das Informationen aus dem visuellen Inhalt mithilfe eines Satzes von erlernten ganzheitlichen Abfragen sammelt. Dieses Design ermöglicht es LARP, globalere und semantischere Repräsentationen zu erfassen, anstatt auf lokale Patch-Ebene beschränkt zu sein. Darüber hinaus bietet es Flexibilität, indem es eine beliebige Anzahl diskreter Tokens unterstützt, was eine anpassungsfähige und effiziente Tokenisierung basierend auf den spezifischen Anforderungen der Aufgabe ermöglicht. Um den diskreten Tokenraum mit nachgelagerten AR-Generierungsaufgaben abzustimmen, integriert LARP ein leichtgewichtiges AR-Transformermodell als Trainingszeit-Prior-Modell, das das nächste Token in seinem diskreten latenten Raum vorhersagt. Durch die Einbeziehung des Prior-Modells während des Trainings lernt LARP einen latenten Raum, der nicht nur für die Videorekonstruktion optimiert ist, sondern auch strukturiert ist, um die autoregressive Generierung zu fördern. Darüber hinaus definiert dieser Prozess eine sequenzielle Reihenfolge für die diskreten Tokens, die sie während des Trainings progressiv in Richtung einer optimalen Konfiguration drängt, um eine reibungslosere und genauere AR-Generierung zur Inferenzzeit zu gewährleisten. Umfassende Experimente zeigen die starke Leistung von LARP, die einen state-of-the-art FVD auf dem UCF101 klassenkonditionalen Videogenerierungsbenchmark erreicht. LARP verbessert die Kompatibilität von AR-Modellen mit Videos und eröffnet das Potenzial, vereinheitlichte hochwertige multimodale große Sprachmodelle (MLLMs) zu erstellen.
In dieser Arbeit formulieren wir das Modellkompressionsproblem neu als das individualisierte Kompensationsproblem: Angesichts eines komprimierten Modells zielen wir darauf ab, residuale Pfade mit niedriger Rangstufe einzuführen, um Kompressionsfehler unter individuellen Anforderungen von Benutzern (z. B. Aufgaben, Kompressionsverhältnisse) auszugleichen, was zu einer größeren Flexibilität bei der Anpassung der Gesamtkapazität führt, ohne durch spezifische Kompressionsformate eingeschränkt zu sein. Allerdings führt die naive Anwendung der Singulärwertzerlegung (SVD) zur Ableitung residueller Pfade zu einer suboptimalen Nutzung der Kapazität der Darstellung mit niedriger Rangstufe. Stattdessen schlagen wir Training-free Eigenspace Low-Rank Approximation (EoRA) vor, eine Methode, die Kompressionsfehler direkt minimiert, ohne auf Gradienten-basiertes Training angewiesen zu sein, und eine schnelle Optimierung in Minuten unter Verwendung einer geringen Menge an Kalibrierungsdaten erreicht. EoRA projiziert Kompressionsfehler in den Eigenraum der Eingangsaktivierungen, wobei Eigenwerte genutzt werden, um die Rekonstruktion von Fehlerkomponenten hoher Bedeutung effektiv zu priorisieren. Darüber hinaus kann EoRA nahtlos mit Feinabstimmung und Quantisierung integriert werden, um die Wirksamkeit und Effizienz weiter zu verbessern. EoRA übertrifft konsistent frühere Methoden bei der Kompensation von Fehlern für komprimierte LLaMA2/3-Modelle in verschiedenen Aufgabenbereichen, wie Sprachgenerierung, Common-Sense-Argumentation und mathematische Argumentation (z. B. 31,31 %/12,88 % und 9,69 % Verbesserungen bei ARC-Easy/ARC-Challenge und MathQA bei der Kompensation von LLaMA3-8B, das auf 4 Bit quantisiert und auf eine 2:4-Spärlichkeit reduziert wurde). EoRA bietet eine skalierbare, training-freie Lösung zur Kompensation von Kompressionsfehlern und ist somit ein leistungsstarkes Werkzeug zur Bereitstellung von LLMs bei verschiedenen Kapazitäts- und Effizienzanforderungen.
Große Sprachmodelle (LLMs) sind teuer in der Bereitstellung. Das Teilen von Parametern bietet einen möglichen Weg zur Reduzierung ihrer Größe und Kosten, aber seine Wirksamkeit in modernen LLMs bleibt recht begrenzt. In dieser Arbeit überdenken wir "Layer Tying" als Form des Parameterteilens in Transformern und führen neue Methoden ein, um bestehende LLMs in kleinere "Rekursive Transformer" umzuwandeln, die Parameter über Schichten hinweg teilen, mit minimalem Leistungsverlust. Hier werden unsere Rekursiven Transformer effizient von standardmäßig vorab trainierten Transformern initialisiert, verwenden jedoch nur einen einzigen Block einzigartiger Schichten, der dann mehrmals in einer Schleife wiederholt wird. Wir verbessern die Leistung weiter, indem wir "Relaxed Recursive Transformers" einführen, die über Tiefen-weise Low-Rank-Anpassung (LoRA) Module Flexibilität zur Schichtbindung hinzufügen, aber dennoch die Kompaktheit des Gesamtmodells bewahren. Wir zeigen, dass unsere rekursiven Modelle (z. B. rekursive Gemma 1B) sowohl ähnlich großen vorab trainierten Modellen (wie TinyLlama 1.1B und Pythia 1B) und Wissensverdichtungs-Baselines übertreffen - und sogar die meisten der Leistung des ursprünglichen "Vollgrößen"-Modells (z. B. Gemma 2B ohne gemeinsame Parameter) wiederherstellen können. Abschließend schlagen wir kontinuierliches Tiefen-Weises Batching vor, ein vielversprechendes neues Inferenz-Paradigma, das durch den Rekursiven Transformer in Verbindung mit frühzeitigem Beenden ermöglicht wird. In einer theoretischen Analyse zeigen wir, dass dies das Potenzial hat, zu signifikanten (2-3-fachen) Gewinnen bei der Inferenzdurchsatz zu führen.
Videos werden häufig verwendet, um zu lernen oder die erforderlichen Informationen zu extrahieren, um Aufgaben auf andere Weise zu vervollständigen, als es Text und statische Bilder allein bieten können. Viele bestehende Agenten-Benchmarks vernachlässigen jedoch das Verständnis von Videos mit langem Kontext und konzentrieren sich stattdessen auf Text- oder statische Bildinputs. Um diese Lücke zu schließen, stellen wir VideoWebArena (VideoWA) vor, einen Benchmark zur Bewertung der Fähigkeiten von multimodalen Agenten mit langem Kontext im Bereich des Videoverständnisses. VideoWA besteht aus 2.021 Web-Agenten-Aufgaben, die auf manuell erstellten Video-Tutorials basieren und insgesamt fast vier Stunden Inhalt umfassen. Für unseren Benchmark definieren wir eine Taxonomie von langkontextbasierten Agentenaufgaben mit zwei Hauptbereichen: Fähigkeitserhaltung und Faktenerhaltung. Während Fähigkeitserhaltungsaufgaben bewerten, ob ein Agent eine gegebene menschliche Demonstration effizient nutzen kann, bewertet die Faktenerhaltungsaufgabe, ob ein Agent instruktionsrelevante Informationen aus einem Video abrufen kann, um eine Aufgabe zu vervollständigen. Wir stellen fest, dass das beste Modell eine Erfolgsquote von 13,3% bei Faktenerhaltungsaufgaben und 45,8% bei Faktenerhaltungs-Fragen-Antwort-Paaren erzielt, weit unter der menschlichen Leistung von 73,9% bzw. 79,3%. Bei Fähigkeitserhaltungsaufgaben schneiden Modelle mit langem Kontext schlechter ab, wenn Tutorials verwendet werden, mit einer Leistungsminderung von 5% bei WebArena-Aufgaben und 10,3% bei VisualWebArena-Aufgaben. Unsere Arbeit unterstreicht die Notwendigkeit, die agentischen Fähigkeiten von multimodalen Modellen mit langem Kontext zu verbessern, und bietet eine Testumgebung für zukünftige Entwicklungen mit Agenten für Videos mit langem Kontext.
Neuronale Felder haben sich als ein transformativer Ansatz für die 3D-Szenendarstellung in der Computer Vision und Robotik herausgebildet, der eine präzise Inferenz von Geometrie, 3D-Semantik und Dynamik aus 2D-Daten ermöglicht. Durch die Nutzung der differentiellen Darstellung umfassen Neuronale Felder sowohl kontinuierliche implizite als auch explizite neuronale Repräsentationen, die eine hochwertige 3D-Rekonstruktion, die Integration von multimodalen Sensordaten und die Generierung neuer Ansichten ermöglichen. Diese Übersicht erforscht ihre Anwendungen in der Robotik und betont ihr Potenzial zur Verbesserung von Wahrnehmung, Planung und Steuerung. Ihre Kompaktheit, Speichereffizienz und Differentiierbarkeit sowie ihre nahtlose Integration mit Grundlagen- und Generativmodellen machen sie ideal für Echtzeitanwendungen, die die Anpassungsfähigkeit und Entscheidungsfindung von Robotern verbessern. Dieser Artikel bietet eine gründliche Untersuchung von Neuronalen Feldern in der Robotik, kategorisiert Anwendungen in verschiedenen Bereichen und bewertet ihre Stärken und Grenzen auf der Grundlage von über 200 Artikeln. Zunächst präsentieren wir vier wichtige Neuronale Felder-Frameworks: Besetzungsnetze, Vorzeichenabstandsnetze, Neuronale Strahlungsfelder und Gaußsches Splatting. Zweitens erläutern wir die Anwendungen von Neuronalen Feldern in fünf wichtigen Robotikbereichen: Pose-Schätzung, Manipulation, Navigation, Physik und autonomes Fahren, wobei Schlüsselarbeiten hervorgehoben und Erkenntnisse sowie offene Herausforderungen diskutiert werden. Abschließend skizzieren wir die aktuellen Einschränkungen von Neuronalen Feldern in der Robotik und schlagen vielversprechende Forschungsrichtungen für die Zukunft vor. Projektseite: https://robonerf.github.io
Die effiziente Ableitung strukturierter Workflows aus unannotierten Dialogen bleibt eine wenig erforschte und gewaltige Herausforderung in der Computerlinguistik. Die Automatisierung dieses Prozesses könnte die manuelle Gestaltung von Workflows in neuen Bereichen erheblich beschleunigen und die Verankerung großer Sprachmodelle in domänenspezifischen Flussdiagrammen ermöglichen, was die Transparenz und Steuerbarkeit verbessert. In diesem Artikel stellen wir Dialog2Flow (D2F)-Einbettungen vor, die sich von herkömmlichen Satzeinbettungen unterscheiden, indem sie Äußerungen in einen latenten Raum abbilden, in dem sie nach ihren kommunikativen und informativen Funktionen gruppiert werden (d. h. die Aktionen, die sie repräsentieren). D2F ermöglicht die Modellierung von Dialogen als kontinuierliche Trajektorien in einem latenten Raum mit unterschiedlichen aktionsbezogenen Regionen. Durch Clustering von D2F-Einbettungen wird der latente Raum quantisiert, und Dialoge können in Sequenzen von Region-/Aktions-IDs umgewandelt werden, was die Extraktion des zugrunde liegenden Workflows erleichtert. Um D2F vorzuschulen, erstellen wir einen umfassenden Datensatz, indem wir zwanzig aufgabenorientierte Dialogdatensätze mit normalisierten Aktionsannotationen pro Runde vereinheitlichen. Wir führen auch eine neuartige weiche kontrastive Verlustfunktion ein, die die semantischen Informationen dieser Aktionen nutzt, um den Repräsentationslernprozess zu lenken, und zeigen eine überlegene Leistung im Vergleich zum Standard überwachten kontrastiven Verlust. Die Evaluation gegen verschiedene Satzeinbettungen, einschließlich dialogspezifischer, zeigt, dass D2F überlegene qualitative und quantitative Ergebnisse in verschiedenen Bereichen liefert.
Diese Forschung untersucht die Rolle von Large Language Models (LLMs) als formale Zweitmeinungswerkzeuge in professionellen Entscheidungsprozessen, wobei der Fokus insbesondere auf komplexen medizinischen Fällen liegt, bei denen selbst erfahrene Ärzte um Rat von Kollegen ersuchen. Die Arbeit analysierte 183 herausfordernde medizinische Fälle von Medscape über einen Zeitraum von 20 Monaten und testete die Leistung mehrerer LLMs im Vergleich zu den Antworten von Ärzten, die über Crowdsourcing gesammelt wurden. Eine wichtige Erkenntnis war die hohe Gesamtpunktzahl, die mit den neuesten grundlegenden Modellen erzielt werden konnte (>80% Genauigkeit im Vergleich zur Konsensmeinung), was die meisten von Menschen gemeldeten Metriken zu denselben klinischen Fällen (450 Seiten mit Patientenprofilen, Testergebnissen) übertrifft. Die Studie bewertet die Leistungsunterschiede der LLMs zwischen einfachen Fällen (>81% Genauigkeit) und komplexen Szenarien (43% Genauigkeit), insbesondere in Fällen, die unter menschlichen Ärzten zu erheblichen Debatten führen. Die Forschung zeigt, dass LLMs möglicherweise wertvoll sind als Ersteller umfassender differenzialdiagnostischer Ansätze anstelle von primären diagnostischen Werkzeugen, was potenziell dazu beitragen könnte, kognitive Verzerrungen in klinischen Entscheidungsprozessen zu bekämpfen, kognitive Belastungen zu reduzieren und somit einige Quellen für medizinische Fehler zu beseitigen. Die Einbeziehung eines zweiten vergleichenden rechtlichen Datensatzes (Supreme Court-Fälle, N=21) liefert zusätzlichen empirischen Kontext für die Verwendung von KI zur Förderung von Zweitmeinungen, obwohl sich herausstellte, dass diese rechtlichen Herausforderungen für LLMs deutlich einfacher zu analysieren waren. Neben den ursprünglichen Beiträgen empirischer Beweise für die Genauigkeit von LLMs aggregierte die Forschung einen neuen Benchmark, an dem andere die Zuverlässigkeit hoch umstrittener Fragen und Antworten zwischen LLMs und widersprechenden menschlichen Praktikern bewerten können. Diese Ergebnisse legen nahe, dass der optimale Einsatz von LLMs in professionellen Umgebungen sich erheblich von den derzeitigen Ansätzen unterscheiden könnte, die die Automatisierung routinemäßiger Aufgaben betonen.
Angesichts der hohen Kosten für die Erfassung von Roboterdaten in der realen Welt ist die Effizienz bei der Datenerfassung in der Robotik ein durchgehend überzeugendes Ziel. In diesem Artikel stellen wir SGRv2 vor, ein Imitationslern-Framework, das die Datenerfassungseffizienz durch verbesserte visuelle und Aktionsrepräsentationen steigert. Zentral für das Design von SGRv2 ist die Integration eines kritischen induktiven Bias - der Aktionslokalität, der besagt, dass die Aktionen des Roboters hauptsächlich von dem Zielobjekt und dessen Interaktionen mit der lokalen Umgebung beeinflusst werden. Umfangreiche Experimente in simulierten und realen Umgebungen zeigen, dass die Aktionslokalität entscheidend ist, um die Datenerfassungseffizienz zu steigern. SGRv2 zeichnet sich in RLBench-Aufgaben mit Keyframe-Steuerung aus, wobei lediglich 5 Demonstrationen verwendet werden, und übertrifft die RVT-Basislinie in 23 von 26 Aufgaben. Darüber hinaus liegt die Erfolgsquote von SGRv2 bei der Bewertung anhand von ManiSkill2 und MimicGen mit dichter Steuerung um 2,54-mal höher als die von SGR. In realen Umgebungen kann SGRv2 mit nur acht Demonstrationen eine Vielzahl von Aufgaben mit einer deutlich höheren Erfolgsquote als Basismodelle ausführen. Projektwebsite: http://sgrv2-robot.github.io
Das Imitationslernen anhand von menschlichen Bewegungsdaten aus der Bewegungserfassung (MoCap) bietet einen vielversprechenden Weg, um humanoide Roboter zu trainieren. Aufgrund von Unterschieden in der Morphologie, wie unterschiedlichen Grade an Gelenkfreiheit und Kraftgrenzen, ist eine exakte Nachbildung menschlichen Verhaltens für humanoide Roboter möglicherweise nicht machbar. Daher kann die Einbeziehung physikalisch nicht realisierbarer MoCap-Daten in Trainingsdatensätzen die Leistung der Roboterstrategie negativ beeinflussen. Um dieses Problem zu lösen, schlagen wir ein Imitationslern-Framework auf Basis einer zweistufigen Optimierung vor, das abwechselnd die Optimierung sowohl der Roboterstrategie als auch der Ziel-MoCap-Daten vornimmt. Konkret entwickeln wir zunächst ein generatives latentes Dynamikmodell unter Verwendung eines neuartigen selbstkonsistenten Autoencoders, der spärliche und strukturierte Bewegungsrepräsentationen lernt und dabei gewünschte Bewegungsmuster im Datensatz erfasst. Das Dynamikmodell wird dann genutzt, um Referenzbewegungen zu generieren, während die latente Repräsentation den zweistufigen Bewegungsimitationsprozess reguliert. Simulationen mit einem realistischen Modell eines humanoiden Roboters zeigen, dass unsere Methode die Roboterstrategie verbessert, indem Referenzbewegungen so modifiziert werden, dass sie physisch konsistent sind.