Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Moderne Parameter-Efficient Fine-Tuning (PEFT)-Methoden wie Low-Rank Adaptation (LoRA) reduzieren die Kosten für die Anpassung großer Sprachmodelle (LLMs), erfordern jedoch weiterhin eine separate Optimierung für jeden nachgelagerten Datensatz. Wir stellen Drag-and-Drop LLMs (\textit{DnD}) vor, einen prompt-bedingten Parameter-Generator, der das Training pro Aufgabe überflüssig macht, indem er eine Handvoll ungelabelter Aufgaben-Prompts direkt auf LoRA-Gewichtsaktualisierungen abbildet. Ein leichtgewichtiger Text-Encoder verdichtet jeden Prompt-Batch in Bedingungs-Embeddings, die dann von einem kaskadierten hyper-konvolutionalen Decoder in den vollständigen Satz von LoRA-Matrizen transformiert werden. Nachdem DnD in einer vielfältigen Sammlung von Prompt-Checkpoint-Paaren trainiert wurde, erzeugt es aufgaben-spezifische Parameter in Sekunden, was i) bis zu 12.000-mal geringere Overhead-Kosten als vollständiges Fine-Tuning, ii) durchschnittliche Leistungssteigerungen von bis zu 30\% gegenüber den stärksten trainierten LoRAs bei ungesehenen Common-Sense-Reasoning-, Mathematik-, Coding- und multimodalen Benchmarks sowie iii) robuste domänenübergreifende Generalisierung trotz nie gesehener Ziel-Daten oder -Labels liefert. Unsere Ergebnisse zeigen, dass die prompt-bedingte Parameter-Generierung eine praktikable Alternative zur gradientenbasierten Anpassung für die schnelle Spezialisierung von LLMs darstellt. Unser Projekt ist verfügbar unter https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
Retrieval-Augmented Generation (RAG)-Systeme haben die Informationsbeschaffung und Fragebeantwortung revolutioniert, doch traditionelle textbasierte Chunking-Methoden stoßen bei komplexen Dokumentstrukturen, mehrseitigen Tabellen, eingebetteten Abbildungen und kontextuellen Abhängigkeiten über Seiten hinweg an ihre Grenzen. Wir stellen einen neuartigen multimodalen Ansatz zur Dokumentsegmentierung vor, der Large Multimodal Models (LMMs) nutzt, um PDF-Dokumente in Batches zu verarbeiten, während semantische Kohärenz und strukturelle Integrität erhalten bleiben. Unser Verfahren verarbeitet Dokumente in konfigurierbaren Seitenbatches mit kontextübergreifender Erhaltung, wodurch die präzise Handhabung von mehrseitigen Tabellen, eingebetteten visuellen Elementen und prozeduralen Inhalten ermöglicht wird. Wir evaluieren unseren Ansatz anhand eines kuratierten Datensatzes von PDF-Dokumenten mit manuell erstellten Abfragen und zeigen Verbesserungen in der Chunk-Qualität und der nachgelagerten RAG-Leistung. Unser visuell gesteuerter Ansatz erzielt eine höhere Genauigkeit im Vergleich zu traditionellen Vanilla-RAG-Systemen, wobei qualitative Analysen eine überlegene Erhaltung der Dokumentstruktur und semantischen Kohärenz belegen.
In der visuellen Generierung führt die quadratische Komplexität von Aufmerksamkeitsmechanismen zu hohen Speicher- und Rechenkosten, insbesondere bei längeren Token-Sequenzen, die für die Generierung hochauflösender Bilder oder mehrfacher Videoframes erforderlich sind. Um dies zu bewältigen, haben frühere Forschungen Techniken wie Sparsifizierung und Quantisierung untersucht. Diese Techniken stoßen jedoch bei geringer Dichte und reduzierter Bitbreite auf erhebliche Herausforderungen. Durch systematische Analysen identifizieren wir, dass die Kernschwierigkeit von den zerstreuten und unregelmäßigen Eigenschaften visueller Aufmerksamkeitsmuster herrührt. Daher schlagen wir anstelle der Einführung spezialisierter Sparsifizierungs- und Quantisierungsdesigns, die solche Muster berücksichtigen, eine alternative Strategie vor: die *Neuordnung* des Aufmerksamkeitsmusters, um die Herausforderungen zu mildern. Inspiriert von der lokalen Aggregationsnatur der visuellen Merkmalsextraktion entwickeln wir eine neuartige **Pattern-Aware Token ReOrdering (PARO)**-Technik, die die diversen Aufmerksamkeitsmuster in ein hardwarefreundliches blockweises Muster vereinheitlicht. Diese Vereinheitlichung vereinfacht und verbessert sowohl die Sparsifizierung als auch die Quantisierung erheblich. Wir bewerten die Leistungs-Effizienz-Kompromisse verschiedener Designentscheidungen und finalisieren eine Methodik, die auf das vereinheitlichte Muster zugeschnitten ist. Unser Ansatz, **PAROAttention**, erreicht die Generierung von Videos und Bilden mit verlustfreien Metriken und nahezu identischen Ergebnissen wie die Vollpräzision (FP)-Baselines, während er bei deutlich geringerer Dichte (~20%-30%) und Bitbreite (**INT8/INT4**) arbeitet und eine **1,9x** bis **2,7x** Beschleunigung der End-to-End-Latenz erzielt.
Jüngste Fortschritte in der diffusionsbasierten und kontrollierbaren Videogenerierung haben die Synthese hochwertiger und zeitlich kohärenter Videos ermöglicht, wodurch die Grundlage für immersive interaktive Spielerlebnisse geschaffen wurde. Allerdings stoßen aktuelle Methoden an Grenzen in Bezug auf Dynamik, Allgemeingültigkeit, langfristige Konsistenz und Effizienz, was die Fähigkeit zur Erstellung verschiedener Gameplay-Videos einschränkt. Um diese Lücken zu schließen, stellen wir Hunyuan-GameCraft vor, ein neuartiges Framework für die hochdynamische interaktive Videogenerierung in Spielumgebungen. Um eine fein abgestimmte Aktionskontrolle zu erreichen, vereinheitlichen wir Standard-Tastatur- und Mauseingaben in einem gemeinsamen Kameradarstellungsraum, was eine nahtlose Interpolation zwischen verschiedenen Kamerabewegungen und -operationen ermöglicht. Anschließend schlagen wir eine hybride, geschichtsbasierte Trainingsstrategie vor, die Videosequenzen autoregressiv erweitert, während gleichzeitig Spielszenerieinformationen erhalten bleiben. Zusätzlich erreichen wir zur Steigerung der Inferenzeffizienz und Spielbarkeit eine Modell-Destillation, um den Rechenaufwand zu reduzieren, während die Konsistenz über lange Zeitsequenzen hinweg gewährleistet wird, was es für den Einsatz in Echtzeit in komplexen interaktiven Umgebungen geeignet macht. Das Modell wird auf einem umfangreichen Datensatz trainiert, der über eine Million Gameplay-Aufzeichnungen aus mehr als 100 AAA-Spielen umfasst, wodurch eine breite Abdeckung und Vielfalt sichergestellt wird. Anschließend wird es auf einem sorgfältig annotierten synthetischen Datensatz feinabgestimmt, um Präzision und Kontrolle zu verbessern. Die kuratierten Spielszeneriedaten verbessern die visuelle Treue, den Realismus und die Aktionssteuerbarkeit erheblich. Umfangreiche Experimente zeigen, dass Hunyuan-GameCraft bestehende Modelle deutlich übertrifft und den Realismus und die Spielbarkeit der interaktiven Spielvideogenerierung vorantreibt.
Die Koordination mehrerer verkörperter Agenten in dynamischen Umgebungen bleibt eine zentrale Herausforderung in der künstlichen Intelligenz, die sowohl wahrnehmungsgesteuertes Denken als auch skalierbare Kooperationsstrategien erfordert. Während neuere Arbeiten große Sprachmodelle (LLMs) für die Multi-Agenten-Planung nutzen, haben einige begonnen, Vision-Sprach-Modelle (VLMs) für visuelles Denken zu erforschen. Diese VLM-basierten Ansätze sind jedoch noch begrenzt in ihrer Unterstützung für verschiedene Verkörperungstypen. In dieser Arbeit stellen wir VIKI-Bench vor, den ersten hierarchischen Benchmark, der speziell für die verkörperte Multi-Agenten-Kooperation entwickelt wurde und drei strukturierte Ebenen umfasst: Agentenaktivierung, Aufgabenplanung und Trajektorienwahrnehmung. VIKI-Bench beinhaltet diverse Roboter-Verkörperungen, Multi-Ansicht-Visualbeobachtungen und strukturierte Überwachungssignale, um das auf visuellen Eingaben basierende Denken zu bewerten. Um den Nutzen von VIKI-Bench zu demonstrieren, schlagen wir VIKI-R vor, ein zweistufiges Framework, das ein vortrainiertes Vision-Sprach-Modell (VLM) mit Chain-of-Thought-annotierten Demonstrationen feinabstimmt, gefolgt von bestärkendem Lernen unter mehrstufigen Belohnungssignalen. Unsere umfangreichen Experimente zeigen, dass VIKI-R die Baseline-Methoden auf allen Aufgabenebenen deutlich übertrifft. Darüber hinaus zeigen wir, dass bestärkendes Lernen die Entstehung von kompositionellen Kooperationsmustern unter heterogenen Agenten ermöglicht. Zusammen bieten VIKI-Bench und VIKI-R eine einheitliche Testumgebung und Methode zur Weiterentwicklung der Multi-Agenten-, visuell gesteuerten Kooperation in verkörperten KI-Systemen.
State-of-the-Art-Text-to-Speech (TTS)-Systeme erreichen eine hohe Natürlichkeit in monolingualen Umgebungen, doch die Synthese von Sprache mit korrekten multilingualen Akzenten (insbesondere für indische Sprachen) und kontextrelevanten Emotionen stellt aufgrund kultureller Nuancenunterschiede in aktuellen Frameworks weiterhin eine Herausforderung dar. Dieses Papier stellt eine neue TTS-Architektur vor, die Akzente integriert und gleichzeitig Transliteration mit mehrskaliger Emotionsmodellierung bewahrt, speziell für Hindi und indisches Englisch optimiert. Unser Ansatz erweitert das Parler-TTS-Modell durch die Integration einer sprachspezifischen Phonem-Alignment-Hybrid-Encoder-Decoder-Architektur sowie kultursensitiver Emotions-Einbettungsschichten, die auf Korpora von Muttersprachlern trainiert wurden, und durch die Einbindung eines dynamischen Akzent-Code-Switchings mit residualer Vektorquantisierung. Quantitative Tests zeigen eine Verbesserung der Akzentgenauigkeit um 23,7 % (Reduktion der Wortfehlerrate von 15,4 % auf 11,8 %) und eine Emotionserkennungsgenauigkeit von 85,3 % bei muttersprachlichen Zuhörern, womit die METTS- und VECL-TTS-Baselines übertroffen werden. Die Neuartigkeit des Systems liegt darin, dass es Code in Echtzeit mischen kann – beispielsweise Aussagen wie „Namaste, let’s talk about <Hindi-Phrase>“ mit nahtlosen Akzentwechseln erzeugt, während die emotionale Konsistenz erhalten bleibt. Eine subjektive Bewertung mit 200 Nutzern ergab einen mittleren Meinungswert (MOS) von 4,2/5 für kulturelle Korrektheit, was deutlich besser ist als bei bestehenden multilingualen Systemen (p<0,01). Diese Forschung macht cross-linguale Synthese durch skalierbare Akzent-Emotions-Entflechtung praktikabler und zeigt direkte Anwendungen in südasiatischer EdTech- und Barrierefreiheitssoftware.
Die Synthese von 3D-Panoramen ist eine vielversprechende, aber anspruchsvolle Aufgabe, die eine hochwertige und vielfältige visuelle Erscheinung sowie Geometrie des erzeugten omnidirektionalen Inhalts erfordert. Bestehende Methoden nutzen umfangreiche Bildprioritäten aus vortrainierten 2D-Foundation-Modellen, um die Knappheit von 3D-Panoramadaten zu umgehen, doch die Inkompatibilität zwischen 3D-Panoramen und 2D-Einzelansichten schränkt deren Effektivität ein. In dieser Arbeit zeigen wir, dass durch die Anwendung von Multi-Ebenen-Synchronisation auf die Operatoren aus 2D-Foundation-Modellen deren Fähigkeiten nahtlos auf den omnidirektionalen Bereich erweitert werden können. Basierend auf diesem Design führen wir DreamCube ein, ein Multi-Ebenen-RGB-D-Diffusionsmodell zur Erzeugung von 3D-Panoramen, das die Wiederverwendung von 2D-Foundation-Modell-Prioritäten maximiert, um vielfältige Erscheinungen und präzise Geometrie bei gleichzeitiger Wahrung der Multi-Ansicht-Konsistenz zu erreichen. Umfangreiche Experimente demonstrieren die Effektivität unseres Ansatzes in der Panoramabildgenerierung, der Panorama-Tiefenschätzung und der 3D-Szenengenerierung.
In diesem Bericht stellen wir Hunyuan3D 2.5 vor, eine leistungsstarke Suite von 3D-Diffusionsmodellen, die darauf abzielt, hochwertige und detaillierte texturierte 3D-Assets zu generieren. Hunyuan3D 2.5 folgt der zweistufigen Pipeline seiner Vorgängerversion Hunyuan3D 2.0, zeigt jedoch erhebliche Fortschritte sowohl in der Form- als auch in der Texturgenerierung. Im Bereich der Formgenerierung führen wir ein neues Formgrundmodell ein – LATTICE, das mit skalierten, hochwertigen Datensätzen, Modellgrößen und Rechenleistung trainiert wird. Unser größtes Modell erreicht 10 Milliarden Parameter und erzeugt scharfe und detaillierte 3D-Formen mit präziser Bild-3D-Nachbildung, während die Mesh-Oberfläche sauber und glatt bleibt, wodurch die Lücke zwischen generierten und handgefertigten 3D-Formen erheblich verringert wird. Im Bereich der Texturgenerierung wurde es mit physikalisch basiertem Rendering (PBR) über eine neuartige Multi-View-Architektur erweitert, die auf dem Hunyuan3D 2.0 Paint-Modell basiert. Unsere umfangreiche Auswertung zeigt, dass Hunyuan3D 2.5 frühere Methoden sowohl in der Form- als auch in der end-to-end Texturgenerierung deutlich übertrifft.
Vision-Language-Modelle (VLMs) zeichnen sich durch multimodales Verständnis aus, doch ihre rein textbasierte Dekodierung zwingt sie dazu, visuelle Schlussfolgerungen zu verbalisieren, was ihre Leistung bei Aufgaben, die visuelle Vorstellungskraft erfordern, einschränkt. Jüngste Ansätze trainieren VLMs darauf, explizite Bilder zu erzeugen, doch die umfangreiche Vorabschulung zur Bildgenerierung beeinträchtigt oft die Fähigkeit zum logischen Schlussfolgern. Inspiriert von der Art und Weise, wie Menschen mit mentalen Bildern – der internen Konstruktion und Manipulation visueller Hinweise – schlussfolgern, untersuchen wir, ob VLMs durch verschränkte multimodale Trajektorien schlussfolgern können, ohne explizite Bilder zu erzeugen. Zu diesem Zweck stellen wir ein Framework für maschinelle mentale Bilder vor, das wir Mirage nennen und das die VLM-Dekodierung mit latenten visuellen Tokens neben gewöhnlichem Text erweitert. Konkret rekonstruiert das Modell seine verborgenen Zustände als nächste Tokens, wenn es sich entscheidet, „visuell zu denken“, und setzt so eine multimodale Trajektorie fort, ohne pixelgenaue Bilder zu erzeugen. Zunächst werden die latenten Tokens durch Distillation aus Ground-Truth-Bildembeddings überwacht, dann wird auf rein textbasierte Überwachung umgestellt, um die latente Trajektorie eng an das Aufgabenobjekt anzupassen. Eine anschließende Verstärkungslernphase verbessert die multimodale Schlussfolgerungsfähigkeit weiter. Experimente auf verschiedenen Benchmarks zeigen, dass Mirage eine stärkere multimodale Schlussfolgerungsfähigkeit ohne explizite Bildgenerierung freisetzt.
Die einheitliche Bildverständnis- und -generierung hat sich als vielversprechendes Paradigma in der multimodalen künstlichen Intelligenz etabliert. Trotz jüngster Fortschritte bleibt die optimale Architekturgestaltung für solche einheitlichen Modelle eine offene Herausforderung. In dieser Arbeit analysieren wir zunächst die Modalitätsausrichtungsverhalten von aufgabenspezifischen Expertenmodellen für Verständnis und Generierung sowie aktueller einheitlicher Modelle. Unsere Analyse offenbart eine entscheidende Beobachtung: Verständnisaufgaben profitieren von einer progressiv zunehmenden Modalitätsausrichtung über die Netzwerktiefe hinweg, was dazu beiträgt, semantische Informationen für ein besseres Verständnis aufzubauen. Im Gegensatz dazu folgen Generierungsaufgaben einem anderen Trend: Die Modalitätsausrichtung nimmt in den frühen Schichten zu, verringert sich jedoch in den tieferen Schichten, um räumliche Details wiederherzustellen. Diese divergenten Ausrichtungsmuster erzeugen einen grundlegenden Konflikt in vollständig geteilten Transformer-Backbones, bei denen ein einheitlicher Repräsentationsfluss oft zu Leistungseinbußen bei beiden Aufgaben führt. Motiviert durch diese Erkenntnis führen wir UniFork ein, eine neuartige Y-förmige Architektur, die die flachen Schichten für das aufgabenübergreifende Repräsentationslernen teilt, während in tieferen Schichten aufgabenspezifische Zweige eingesetzt werden, um Aufgabeninterferenzen zu vermeiden. Dieses Design balanciert effektiv gemeinsames Lernen und Aufgaben-Spezialisierung. Durch umfangreiche Ablationsexperimente zeigen wir, dass UniFork konventionelle vollständig geteilte Transformer-Architekturen konsequent übertrifft und eine Leistung erreicht, die mit aufgabenspezifischen Modellen vergleichbar oder besser ist.
3D-KI-generierte Inhalte (AIGC) sind ein dynamisches Forschungsfeld, das die Erstellung von 3D-Modellen in den Bereichen Gaming, Film und Design erheblich beschleunigt hat. Trotz der Entwicklung mehrerer bahnbrechender Modelle, die die 3D-Generierung revolutioniert haben, bleibt das Feld aufgrund der Komplexitäten bei der Sammlung, Verarbeitung und dem Training von 3D-Modellen weitgehend Forschern, Entwicklern und Designern vorbehalten. Um diese Herausforderungen zu bewältigen, stellen wir in diesem Tutorial Hunyuan3D 2.1 als Fallstudie vor. Dieses Tutorial bietet eine umfassende, schrittweise Anleitung zur Verarbeitung von 3D-Daten, zum Training eines 3D-Generierungsmodells und zur Bewertung seiner Leistung mit Hunyuan3D 2.1, einem fortschrittlichen System zur Erstellung hochauflösender, texturierter 3D-Assets. Das System besteht aus zwei Kernkomponenten: dem Hunyuan3D-DiT für die Formgenerierung und dem Hunyuan3D-Paint für die Textursynthese. Wir werden den gesamten Workflow untersuchen, einschließlich Datenvorbereitung, Modellarchitektur, Trainingsstrategien, Bewertungsmetriken und Bereitstellung. Am Ende dieses Tutorials werden Sie über das Wissen verfügen, um ein robustes 3D-Generierungsmodell für Anwendungen in Gaming, Virtual Reality und Industriedesign zu optimieren oder zu entwickeln.
Moderne multimodale Large Language Models (MLLMs) können über stundenlange Videos schlussfolgern, doch ihr Key-Value (KV)-Cache wächst linear mit der Zeit – und übersteigt schnell den begrenzten Speicher von Smartphones, AR-Brillen und Edge-Robotern. Bisherige Kompressionsverfahren gehen entweder davon aus, dass das gesamte Video und die Benutzeranfrage offline verfügbar sind, oder müssen zunächst den vollständigen Cache aufbauen, sodass der Speicherbedarf weiterhin mit der Länge des Streams skaliert. InfiniPot-V ist das erste trainingsfreie, abfrageunabhängige Framework, das eine strikte, längenunabhängige Speicherbegrenzung für das Verständnis von Streaming-Videos durchsetzt. Während der Videokodierung überwacht es den Cache und führt, sobald ein benutzerdefinierter Schwellenwert erreicht ist, eine leichtgewichtige Kompression durch, die (i) zeitlich redundante Token mithilfe der Temporal-axis Redundancy (TaR)-Metrik entfernt und (ii) semantisch bedeutsame Token durch Value-Norm (VaN)-Ranking beibehält. Über vier Open-Source-MLLMs und vier Langvideo- sowie zwei Streaming-Video-Benchmarks hinweg reduziert InfiniPot-V den Spitzen-GPU-Speicher um bis zu 94%, ermöglicht Echtzeitgenerierung und erreicht oder übertrifft die Genauigkeit des vollständigen Caches – selbst in mehrfachen Dialogen. Indem es den KV-Cache-Engpass ohne Neustraining oder Kenntnis der Abfrage auflöst, schließt InfiniPot-V die Lücke für On-Device-Streaming-Video-Assistenten.
Ein Versprechen, das Vision-Language-Action (VLA)-Modelle gegenüber traditionellem Imitationslernen in der Robotik bieten, ist die Nutzung der breiten Generalisierungsfähigkeiten großer Vision-Language-Modelle (VLMs), um vielseitige, „generalistische“ Roboterrichtlinien zu erzeugen. Allerdings bleiben aktuelle Bewertungen von VLA-Modellen unzureichend. Traditionelle Benchmarks für Imitationslernen sind ungeeignet, da sie keine Sprachanweisungen enthalten. Neu entstehende Benchmarks für VLA-Modelle, die Sprache integrieren, bieten oft nur begrenzte Evaluierungsaufgaben und zielen nicht darauf ab, zu untersuchen, wie viel das VLM-Pretraining tatsächlich zur Generalisierungsfähigkeit der nachgelagerten Roboterrichtlinie beiträgt. Gleichzeitig stützt sich viel Forschung auf reale Robotersysteme, die isoliert von verschiedenen Institutionen entwickelt wurden, was die Reproduzierbarkeit und Zugänglichkeit erschwert. Um diese Lücke zu schließen, führen wir ein einheitliches Testsuite mit 50 simulationsbasierten Aufgaben in 10 Unterkategorien ein, die Sprachanweisungen, Vision und Objekte umfassen. Wir bewerten systematisch mehrere state-of-the-art VLA-Architekturen in diesem Suite, um ihre Generalisierungsfähigkeit zu verstehen. Unsere Ergebnisse zeigen, dass VLM-Backbones VLA-Modellen zwar ein robustes Wahrnehmungsverständnis und eine hochwertige Planung verleihen, was wir als gute Absichten bezeichnen, dies jedoch nicht zuverlässig in präzise motorische Ausführung umgesetzt wird: Bei Beobachtungen außerhalb der Trainingsverteilung zeigen die Richtlinien oft kohärente Absichten, scheitern jedoch bei der Ausführung der Aktionen. Darüber hinaus kann das Feinabstimmen auf Aktionsdaten die ursprünglichen generalistischen Denkfähigkeiten des VLM beeinträchtigen. Wir veröffentlichen unser Aufgaben-Suite und Evaluierungscode als standardisierten Benchmark für zukünftige VLA-Modelle und um die Forschung zur Schließung der Lücke zwischen Wahrnehmung und Aktion voranzutreiben. Weitere Informationen, einschließlich des Quellcodes, finden Sie unter https://ai4ce.github.io/INT-ACT/.
Ein idealer Verkehrssimulator repliziert die realistische langfristige Punkt-zu-Punkt-Fahrt, die ein autonomes System während des Einsatzes erlebt. Bisherige Modelle und Benchmarks konzentrieren sich auf die geschlossene Bewegungssimulation für initiale Agenten in einer Szene. Dies ist für die langfristige Simulation problematisch. Agenten betreten und verlassen die Szene, während das Ego-Fahrzeug neue Regionen erreicht. Wir schlagen InfGen vor, ein einheitliches Next-Token-Vorhersagemodell, das eine verschachtelte geschlossene Bewegungssimulation und Szenengenerierung durchführt. InfGen wechselt automatisch zwischen dem Modus der geschlossenen Bewegungssimulation und der Szenengenerierung. Es ermöglicht eine stabile langfristige Rollout-Simulation. InfGen erreicht den Stand der Technik in der kurzfristigen (9s) Verkehrssimulation und übertrifft alle anderen Methoden in der langfristigen (30s) Simulation deutlich. Der Code und das Modell von InfGen werden unter https://orangesodahub.github.io/InfGen veröffentlicht.
Die Kombination vortrainierter Expertenmodelle bietet erhebliches Potenzial für skalierbares multimodales Denken, doch die Entwicklung eines einheitlichen Frameworks bleibt aufgrund der zunehmenden Vielfalt von Eingabemodalitäten und Aufgabenkomplexität eine Herausforderung. Beispielsweise erfordert die medizinische Diagnose präzises Denken über strukturierte klinische Tabellen, während die Finanzprognose auf der Interpretation von diagrammbasierten Daten beruht, um fundierte Vorhersagen zu treffen. Um diese Herausforderung zu bewältigen, stellen wir MEXA vor, ein trainingsfreies Framework, das eine modalitäts- und aufgabenbewusste Aggregation mehrerer Expertenmodelle durchführt, um effektives multimodales Denken über diverse und unterschiedliche Domänen hinweg zu ermöglichen. MEXA wählt dynamisch Expertenmodelle basierend auf der Eingabemodalität und den aufgabenspezifischen Denkanforderungen (d. h. Fähigkeiten) aus. Jedes Expertenmodell, das auf ein Modalitäts-Aufgaben-Paar spezialisiert ist, erzeugt interpretierbare textuelle Denkausgaben. MEXA aggregiert und denkt dann über diese Ausgaben mithilfe eines Large Reasoning Models (LRM) nach, um die endgültige Antwort zu erzeugen. Dieses modulare Design ermöglicht flexibles und transparentes multimodales Denken über diverse Domänen hinweg ohne zusätzlichen Trainingsaufwand. Wir evaluieren unseren Ansatz umfassend auf verschiedenen multimodalen Benchmarks, darunter Video Reasoning, Audio Reasoning, 3D-Verständnis und Medical QA. MEXA erzielt durchweg Leistungsverbesserungen gegenüber starken multimodalen Baselines, was die Wirksamkeit und breite Anwendbarkeit unserer expertengetriebenen Auswahl und Aggregation in verschiedenen multimodalen Denkaufgaben unterstreicht.
Die Erstellung unvoreingenommener Zusammenfassungen in realen Anwendungsfällen wie der politischen Perspektivenzusammenfassung bleibt eine entscheidende Anwendung von Large Language Models (LLMs). Bislang stützen sich bestehende Evaluierungsrahmen jedoch auf traditionelle Metriken zur Messung wichtiger Attribute wie Abdeckung und Treue, ohne deren Anwendbarkeit zu überprüfen, und Bemühungen zur Entwicklung verbesserter Zusammenfassungssysteme sind noch in den Anfängen. Wir schließen diese Lücken, indem wir (1) zuverlässige Metriken zur Messung der Qualität von Perspektivenzusammenfassungen identifizieren und (2) die Wirksamkeit von LLM-basierten Methoden über Zero-Shot-Inferenz hinaus untersuchen. Konkret erstellen wir einen Testdatensatz zur Bewertung der Zuverlässigkeit von Metriken mithilfe menschlicher Annotationen und zeigen, dass traditionelle Metriken im Vergleich zu sprachmodellbasierten Metriken unterlegen sind, die sich als starke Bewertungswerkzeuge erweisen. Mit diesen Metriken demonstrieren wir, dass Methoden basierend auf Neubewertung (Reranking) robuste Ergebnisse liefern und dass die Feinabstimmung (Preference Tuning) mit synthetisch generierten und durch Reranking gelabelten Daten die Leistung weiter steigert. Unsere Erkenntnisse zielen darauf ab, zu einer zuverlässigen Bewertung und Entwicklung von Methoden zur Perspektivenzusammenfassung beizutragen.
Das Einbetten von Wasserzeichen in die Ausgaben von generativen Modellen hat sich als vielversprechender Ansatz zur Verfolgung ihrer Herkunft erwiesen. Trotz des erheblichen Interesses an autoregressiven Bildgenerierungsmodellen und ihres Potenzials für Missbrauch hat bisher keine Arbeit versucht, ihre Ausgaben auf Token-Ebene mit Wasserzeichen zu versehen. In dieser Arbeit präsentieren wir den ersten solchen Ansatz, indem wir Techniken zur Wasserzeicheneinbettung von Sprachmodellen auf diesen Kontext anpassen. Wir identifizieren eine zentrale Herausforderung: das Fehlen von Rückwärts-Zyklus-Konsistenz (Reverse Cycle-Consistency, RCC), bei der die erneute Tokenisierung von generierten Bild-Tokens die Token-Sequenz erheblich verändert und das Wasserzeichen effektiv löscht. Um dies zu bewältigen und unsere Methode robust gegenüber gängigen Bildtransformationen, neuronaler Kompression und Entfernungsangriffen zu machen, führen wir (i) ein spezielles Feinabstimmungsverfahren für Tokenizer-Detokenizer ein, das die RCC verbessert, und (ii) eine ergänzende Wasserzeichen-Synchronisationsschicht ein. Wie unsere Experimente zeigen, ermöglicht unser Ansatz eine zuverlässige und robuste Wasserzeichenerkennung mit theoretisch fundierten p-Werten.
Die Inversion von Sprachmodellen zielt darauf ab, versteckte Prompts allein anhand der Ausgaben von Sprachmodellen wiederherzustellen. Diese Fähigkeit hat Auswirkungen auf die Sicherheit und Rechenschaftspflicht bei der Bereitstellung von Sprachmodellen, beispielsweise das Auslecken privater Informationen aus einer API-geschützten Systemnachricht eines Sprachmodells. Wir schlagen eine neue Methode vor – die Prompt-Inversion aus Logprob-Sequenzen (PILS) –, die versteckte Prompts durch das Sammeln von Hinweisen aus den nächsten Token-Wahrscheinlichkeiten des Modells über mehrere Generierungsschritte hinweg rekonstruiert. Unsere Methode wird durch eine zentrale Erkenntnis ermöglicht: Die vektorwertigen Ausgaben eines Sprachmodells besetzen einen niedrigdimensionalen Unterraum. Dies ermöglicht es uns, die vollständige nächste Token-Wahrscheinlichkeitsverteilung über mehrere Generierungsschritte hinweg verlustfrei mithilfe einer linearen Abbildung zu komprimieren, wodurch mehr Ausgabeinformationen für die Inversion genutzt werden können. Unser Ansatz erzielt erhebliche Verbesserungen gegenüber bisherigen State-of-the-Art-Methoden zur Wiederherstellung versteckter Prompts und erreicht 2–3,5 Mal höhere exakte Wiederherstellungsraten über Testdatensätze hinweg, wobei in einem Fall die Wiederherstellungsrate von 17 % auf 60 % gesteigert wird. Unsere Methode zeigt auch überraschend gutes Generalisierungsverhalten; beispielsweise erzielt ein auf 16 Generierungsschritte trainiertes Inversionsmodell eine 5–27 Punkte höhere Prompt-Wiederherstellung, wenn die Anzahl der Schritte bei der Testzeit auf 32 erhöht wird. Darüber hinaus demonstrieren wir die starke Leistung unserer Methode bei der anspruchsvolleren Aufgabe, versteckte Systemnachrichten wiederherzustellen. Wir analysieren auch die Rolle von wörtlichen Wiederholungen bei der Prompt-Wiederherstellung und schlagen eine neue Methode für den modellübergreifenden Transfer von Logit-basierten Inversionsmodellen vor. Unsere Ergebnisse zeigen, dass nächste Token-Wahrscheinlichkeiten eine deutlich anfälligere Angriffsfläche für Inversionsangriffe darstellen als bisher bekannt.