Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Südostasien (SEA) ist eine Region von außergewöhnlicher sprachlicher und kultureller Vielfalt, bleibt jedoch in der Vision-Language-Forschung (VL) deutlich unterrepräsentiert. Dies führt oft dazu, dass KI-Modelle die kulturellen Nuancen Südostasiens nicht erfassen. Um diese Lücke zu schließen, präsentieren wir SEA-VL, eine Open-Source-Initiative, die sich der Entwicklung hochwertiger, kulturell relevanter Daten für südostasiatische Sprachen widmet. Durch die Einbindung von Mitwirkenden aus SEA-Ländern zielt SEA-VL darauf ab, eine bessere kulturelle Relevanz und Diversität zu gewährleisten und die Inklusion unterrepräsentierter Sprachen in der VL-Forschung zu fördern. Über Crowdsourcing hinaus geht unsere Initiative einen Schritt weiter in der Erforschung der automatischen Sammlung kulturell relevanter Bilder durch Crawling und Bildgenerierung. Erstens stellen wir fest, dass das Crawling von Bildern eine kulturelle Relevanz von etwa ~85 % erreicht und dabei kosteneffizienter und zeitsparender ist als Crowdsourcing. Zweitens bleiben synthetische Bilder trotz erheblicher Fortschritte bei generativen Vision-Modellen unzuverlässig, wenn es darum geht, die Kulturen Südostasiens präzise widerzuspiegeln. Die generierten Bilder spiegeln oft die nuancierten Traditionen und kulturellen Kontexte der Region nicht wider. Insgesamt sammeln wir 1,28 Millionen kulturell relevante Bilder aus Südostasien, was mehr als das 50-fache anderer bestehender Datensätze ist. Mit SEA-VL streben wir an, die Repräsentationslücke in Südostasien zu schließen und die Entwicklung inklusiverer KI-Systeme zu fördern, die die vielfältigen Kulturen Südostasiens authentisch repräsentieren.
Die Verbesserung der logischen Schlussfolgerung in großen multimodalen Modellen (LMMs) steht vor einzigartigen Herausforderungen, die sich aus dem komplexen Zusammenspiel zwischen visueller Wahrnehmung und logischem Denken ergeben, insbesondere in kompakten Architekturen mit 3 Milliarden Parametern, bei denen architektonische Einschränkungen die Denkfähigkeit und die Modalkoordination begrenzen. Während regelbasiertes Reinforcement Learning (RL) in rein textbasierten Domänen hervorragende Ergebnisse erzielt, stößt seine multimodale Erweiterung auf zwei kritische Hindernisse: (1) Datenbeschränkungen aufgrund mehrdeutiger Antworten und seltener Beispiele für komplexes logisches Denken sowie (2) eine beeinträchtigte grundlegende Denkfähigkeit, die durch multimodales Vortraining induziert wird. Um diese Herausforderungen zu bewältigen, schlagen wir \method vor, ein zweistufiges Framework, das regelbasiertes RL für multimodales logisches Denken durch eine Verbesserung der grundlegenden Denkfähigkeit (Foundational Reasoning Enhancement, FRE) gefolgt von einem multimodalen Generalisierungstraining (Multimodal Generalization Training, MGT) anpasst. Die FRE-Stärkung verbessert zunächst die Denkfähigkeiten mithilfe von rein textbasierten Daten und regelbasiertem RL, während die MGT-Stufe diese Fähigkeiten auf multimodale Domänen verallgemeinert. Experimente mit Qwen2.5-VL-Instruct-3B zeigen, dass \method durchschnittliche Verbesserungen von 4,83 % und 4,5 % gegenüber den Baselines in multimodalen und rein textbasierten Benchmarks erzielt, mit einem Zuwachs von 3,63 % bei komplexen Football-Game-Aufgaben. Diese Ergebnisse bestätigen, dass die textbasierte Verbesserung der Denkfähigkeit eine effektive multimodale Generalisierung ermöglicht und ein dateneffizientes Paradigma bietet, das kostspielige hochwertige multimodale Trainingsdaten umgeht.
Wir widmen uns der Aufgabe der langformatigen Musikerzeugung – insbesondere dem anspruchsvollen Problem der Text-zu-Lied-Generierung – indem wir YuE vorstellen, eine Familie offener Foundation-Modelle, die auf der LLaMA2-Architektur basieren. Konkret skaliert YuE auf Billionen von Tokens und erzeugt bis zu fünf Minuten Musik, während es lyrische Ausrichtung, kohärente musikalische Struktur und ansprechende Gesangsmelodien mit passender Begleitung beibehält. Dies wird erreicht durch (1) track-entkoppelte Next-Token-Vorhersage zur Überwindung dichter Mischsignale, (2) strukturelle progressive Konditionierung für langfristige lyrische Ausrichtung und (3) ein multitaskiges, mehrphasiges Vor-Trainings-Rezept zur Konvergenz und Generalisierung. Zudem gestalten wir die In-Context-Learning-Technik für die Musikerzeugung neu, wodurch vielseitiger Stiltransfer (z.B. die Umwandlung von Japanese City Pop in einen englischen Rap bei Beibehaltung der originalen Begleitung) und bidirektionale Generierung ermöglicht werden. Durch umfangreiche Evaluationen zeigen wir, dass YuE einige proprietäre Systeme in Bezug auf Musikalität und vokale Agilität erreicht oder sogar übertrifft. Darüber hinaus ermöglicht das Feinabstimmen von YuE zusätzliche Kontrollmöglichkeiten und verbesserte Unterstützung für Randsprachen. Außerdem zeigen wir, dass die gelernten Repräsentationen von YuE auch bei Musikverständnisaufgaben gut abschneiden, wobei die Ergebnisse von YuE auf dem MARBLE-Benchmark state-of-the-art-Methoden erreichen oder übertreffen. Schlüsselwörter: Text-zu-Lied, Liedgenerierung, Langformat, Foundation-Modell, Musikerzeugung
Das Training von Modellen, um die Rechenleistung zur Testzeit effektiv zu nutzen, ist entscheidend für die Verbesserung der Argumentationsleistung von LLMs. Aktuelle Methoden erreichen dies hauptsächlich durch Feinabstimmung auf Suchspuren oder das Ausführen von RL mit 0/1-Ergebnisbelohnung, aber nutzen diese Ansätze die Rechenleistung zur Testzeit effizient? Würden diese Ansätze weiterhin skalieren, wenn das Budget verbessert wird? In diesem Papier versuchen wir, diese Fragen zu beantworten. Wir formalisieren das Problem der Optimierung der Rechenleistung zur Testzeit als ein Meta-Reinforcement-Learning (RL)-Problem, das eine prinzipielle Perspektive auf die Nutzung der Rechenleistung zur Testzeit bietet. Diese Perspektive ermöglicht es uns, den langen Ausgabestrom des LLMs als mehrere Episoden zu betrachten, die zur Testzeit ausgeführt werden, und führt uns dazu, ein Konzept des kumulativen Bedauerns über Ausgabetoken als Maß für die Wirksamkeit der Rechenleistung zur Testzeit zu verwenden. Ähnlich wie RL-Algorithmen den besten Kompromiss zwischen Exploration und Exploitation während des Trainings finden können, würde die Minimierung des kumulativen Bedauerns auch das beste Gleichgewicht zwischen Exploration und Exploitation im Tokenstrom bieten. Während wir zeigen, dass state-of-the-art Modelle das Bedauern nicht minimieren, kann dies erreicht werden, indem ein dichter Belohnungsbonus in Verbindung mit der 0/1-Ergebnisbelohnung RL maximiert wird. Dieser Bonus ist der „Fortschritt“, der durch jeden nachfolgenden Block im Ausgabestrom erzielt wird, quantifiziert durch die Änderung der Wahrscheinlichkeit des letztendlichen Erfolgs. Mit diesen Erkenntnissen entwickeln wir Meta Reinforcement Fine-Tuning, oder MRT, eine neue Klasse von Feinabstimmungsmethoden zur Optimierung der Rechenleistung zur Testzeit. MRT führt zu einem relativen Leistungsgewinn von 2-3x und einem ungefähren Effizienzgewinn von 1,5x bei mathematischen Argumentationen im Vergleich zu RL mit Ergebnisbelohnung.
In diesem Bericht stellen wir Gemini Embedding vor, ein modernstes Embedding-Modell, das die Leistungsfähigkeit von Gemini, dem leistungsstärksten großen Sprachmodell von Google, nutzt. Indem es die inhärenten Fähigkeiten von Gemini im Bereich Mehrsprachigkeit und Codeverständnis ausnutzt, erzeugt Gemini Embedding hochgradig generalisierbare Embeddings für Texte in zahlreichen Sprachen und Textmodalitäten. Die von Gemini Embedding generierten Repräsentationen können vorberechnet und auf eine Vielzahl von Downstream-Aufgaben angewendet werden, darunter Klassifizierung, Ähnlichkeit, Clustering, Ranking und Retrieval. Evaluiert auf dem Massive Multilingual Text Embedding Benchmark (MMTEB), der über hundert Aufgaben in mehr als 250 Sprachen umfasst, übertrifft Gemini Embedding deutlich frühere State-of-the-Art-Modelle und zeigt erhebliche Verbesserungen in der Embedding-Qualität. Mit State-of-the-Art-Leistungen in den mehrsprachigen, englischen und Code-Benchmarks von MMTEB demonstriert unser einheitliches Modell starke Fähigkeiten über eine breite Auswahl von Aufgaben hinweg und übertrifft spezialisierte, domänenspezifische Modelle.
Die rasante Weiterentwicklung von Diffusionsmodellen hat bemerkenswerte Fortschritte im Bereich der Bildgenerierung vorangetrieben. Dennoch kämpfen verbreitete Modelle wie Flux, SD3.5 und Midjourney weiterhin mit Problemen wie Modellverzerrungen, begrenzten Textdarstellungsfähigkeiten und unzureichendem Verständnis für kulturelle Nuancen im Chinesischen. Um diese Einschränkungen zu überwinden, präsentieren wir Seedream 2.0, ein natives chinesisch-englisches bilinguales Bildgenerierungs-Grundmodell, das in verschiedenen Dimensionen hervorragt und sowohl chinesische als auch englische Textanweisungen geschickt verarbeitet, wodurch es bilinguale Bildgenerierung und Textdarstellung unterstützt. Wir entwickeln ein leistungsstarkes Datensystem, das die Wissensintegration erleichtert, sowie ein Beschreibungssystem, das Genauigkeit und Reichhaltigkeit bei der Bildbeschreibung ausbalanciert. Insbesondere ist Seedream mit einem selbst entwickelten bilingualen großen Sprachmodell als Textencoder integriert, wodurch es natives Wissen direkt aus umfangreichen Daten lernen kann. Dies ermöglicht es, hochwertige Bilder mit präzisen kulturellen Nuancen und ästhetischen Ausdrücken zu generieren, die entweder auf Chinesisch oder Englisch beschrieben sind. Zudem wird Glyph-Aligned ByT5 für flexible zeichenbasierte Textdarstellung eingesetzt, während ein Scaled ROPE gut auf ungeübte Auflösungen verallgemeinert. Mehrphasige Nachschulungsoptimierungen, einschließlich SFT- und RLHF-Iterationen, verbessern die Gesamtfähigkeit weiter. Durch umfangreiche Experimente zeigen wir, dass Seedream 2.0 in mehreren Aspekten, einschließlich Anweisungsbefolgung, Ästhetik, Textdarstellung und struktureller Korrektheit, Spitzenleistungen erzielt. Darüber hinaus wurde Seedream 2.0 durch mehrere RLHF-Iterationen optimiert, um seine Ausgaben eng an menschliche Präferenzen anzupassen, wie sein herausragender ELO-Score zeigt. Zusätzlich kann es leicht an ein anweisungsbasiertes Bildbearbeitungsmodell wie SeedEdit angepasst werden, das eine starke Bearbeitungsfähigkeit aufweist, die Anweisungsbefolgung und Bildkonsistenz ausbalanciert.
Wir präsentieren MagicInfinite, ein neuartiges Diffusion Transformer (DiT)-Framework, das die traditionellen Grenzen der Porträtanimation überwindet und hochwertige Ergebnisse über diverse Charaktertypen hinweg liefert – realistische Menschen, Ganzkörperfiguren und stilisierte Anime-Charaktere. Es unterstützt verschiedene Gesichtsposen, einschließlich Rückansichten, und animiert einzelne oder mehrere Charaktere mit Eingabemasken zur präzisen Sprecherkennung in Szenen mit mehreren Charakteren. Unser Ansatz adressiert zentrale Herausforderungen mit drei Innovationen: (1) 3D-Vollaufmerksamkeitsmechanismen mit einer Sliding-Window-Rauschunterdrückungsstrategie, die eine unendliche Videogenerierung mit zeitlicher Kohärenz und visueller Qualität über diverse Charakterstile hinweg ermöglichen; (2) ein zweistufiges Curriculum-Learning-Schema, das Audio für Lippensynchronisation, Text für ausdrucksstarke Dynamik und Referenzbilder zur Identitätserhaltung integriert, wodurch eine flexible multimodale Steuerung über lange Sequenzen ermöglicht wird; und (3) regionsspezifische Masken mit adaptiven Verlustfunktionen, um globale textuelle Steuerung und lokale Audioführung auszugleichen, was sprecherspezifische Animationen unterstützt. Die Effizienz wird durch unsere innovativen einheitlichen Schritt- und cfg-Destillationstechniken verbessert, was eine 20-fache Beschleunigung der Inferenzgeschwindigkeit gegenüber dem Basismodell erreicht: die Generierung eines 10-Sekunden-Videos in 540x540p in 10 Sekunden oder 720x720p in 30 Sekunden auf 8 H100-GPUs, ohne Qualitätsverlust. Bewertungen auf unserem neuen Benchmark demonstrieren die Überlegenheit von MagicInfinite in der Audio-Lippen-Synchronisation, Identitätserhaltung und Bewegungsnatürlichkeit über diverse Szenarien hinweg. Es ist öffentlich verfügbar unter https://www.hedra.com/, mit Beispielen auf https://magicinfinite.github.io/.
Wie unterscheiden sich zwei Personen bei der Ausführung derselben Handlung? In dieser Arbeit führen wir Video Action Differencing (VidDiff) ein, eine neuartige Aufgabe, die darin besteht, subtile Unterschiede zwischen Videos derselben Handlung zu identifizieren. Diese Aufgabe hat viele Anwendungen, wie z. B. Coaching und Fertigkeitstraining. Um die Entwicklung in dieser neuen Aufgabe zu ermöglichen, erstellen wir zunächst VidDiffBench, einen Benchmark-Datensatz, der 549 Videopaare enthält, mit menschlichen Annotationen von 4.469 fein abgestuften Handlungsunterschieden und 2.075 Lokalisierungszeitstempeln, die angeben, wo diese Unterschiede auftreten. Unsere Experimente zeigen, dass VidDiffBench eine erhebliche Herausforderung für state-of-the-art große multimodale Modelle (LMMs) wie GPT-4o und Qwen2-VL darstellt. Durch die Analyse von Fehlfällen der LMMs auf VidDiffBench heben wir zwei zentrale Herausforderungen für diese Aufgabe hervor: die Lokalisierung relevanter Teilhandlungen über zwei Videos hinweg und den fein abgestuften Vergleich von Einzelbildern. Um diese zu bewältigen, schlagen wir die VidDiff-Methode vor, einen agentenbasierten Workflow, der die Aufgabe in drei Phasen unterteilt: Vorschlag von Handlungsunterschieden, Lokalisierung von Schlüsselbildern und Bilddifferenzierung, wobei jede Phase spezialisierte Foundation-Modelle nutzt. Um zukünftige Forschung in dieser neuen Aufgabe zu fördern, veröffentlichen wir den Benchmark unter https://huggingface.co/datasets/jmhb/VidDiffBench und den Code unter http://jmhb0.github.io/viddiff.
Unified Multimodal Models (UMMs) haben sich als ein leistungsstarkes Paradigma in der grundlegenden Computer-Vision-Forschung etabliert und zeigen erhebliches Potenzial sowohl im Bereich des Bildverständnisses als auch der Bildgenerierung. Bisher konzentriert sich die Forschung im Gesichtsbereich jedoch hauptsächlich auf das grobe Verständnis von Gesichtsattributen, mit begrenzter Fähigkeit, fein abgestufte Gesichtsattribute zu verarbeiten, und ohne die Generierungsfähigkeiten zu berücksichtigen. Um diese Einschränkungen zu überwinden, schlagen wir UniF^2ace vor, das erste UMM, das speziell für das fein abgestufte Gesichtsverständnis und die Gesichtsgenerierung entwickelt wurde. Im Allgemeinen trainieren wir UniF^2ace auf einem selbst erstellten, spezialisierten Datensatz unter Verwendung von zwei sich gegenseitig ergänzenden Diffusionstechniken und einer zweistufigen Mixture-of-Experts-Architektur. Konkret erstellen wir zunächst einen groß angelegten Gesichtsdatensatz, UniF^2ace-130K, der 130.000 Bild-Text-Paare mit einer Million Frage-Antwort-Paaren enthält, die ein breites Spektrum von Gesichtsattributen abdecken. Zweitens stellen wir eine theoretische Verbindung zwischen diskreter Diffusions-Score-Matching und maskierten generativen Modellen her, indem wir beide Evidenz Lower Bounds gleichzeitig optimieren, was die Fähigkeit des Modells zur Synthese von Gesichtsdetails erheblich verbessert. Schließlich führen wir sowohl Token-Level- als auch Sequenz-Level-Mixture-of-Experts ein, die ein effizientes, fein abgestuftes Repräsentationslernen sowohl für Verständnis- als auch für Generierungsaufgaben ermöglichen. Umfangreiche Experimente auf UniF^2ace-130K zeigen, dass UniF^2ace bestehende UMMs und generative Modelle übertrifft und sowohl bei Verständnis- als auch bei Generierungsaufgaben überlegene Leistung erzielt.
Während MLLMs (Multimodale Large Language Models) angemessene Fähigkeiten im Bildverständnis demonstriert haben, kämpfen sie immer noch mit der pixelgenauen Komprehension, was ihre praktischen Anwendungen einschränkt. Aktuelle Evaluierungsaufgaben wie VQA (Visual Question Answering) und visuelles Grounding bleiben zu grob, um die fein abgestufte Pixelverständnis genau zu bewerten. Obwohl Segmentierung grundlegend für das pixelgenaue Verständnis ist, erfordern bestehende Methoden oft, dass MLLMs implizite Tokens generieren, die durch externe Pixel-Decoder decodiert werden. Dieser Ansatz stört den Textausgaberaum der MLLMs, was möglicherweise die Sprachfähigkeiten beeinträchtigt und die Flexibilität und Erweiterbarkeit reduziert, während er das intrinsische pixelgenaue Verständnis des Modells nicht widerspiegelt. Daher führen wir die Human-Like Mask Annotation Task (HLMAT) ein, ein neues Paradigma, bei dem MLLMs menschliche Annotatoren mit interaktiven Segmentierungswerkzeugen nachahmen. Indem die Segmentierung als mehrstufiger Markov-Entscheidungsprozess modelliert wird, ermöglicht HLMAT MLLMs, iterativ textbasierte Klickpunkte zu generieren und so hochwertige Masken ohne architektonische Änderungen oder implizite Tokens zu erreichen. Durch diesen Aufbau entwickeln wir SegAgent, ein Modell, das auf menschlichen Annotationspfaden feinabgestimmt wurde und eine Leistung erzielt, die mit state-of-the-art (SOTA) Methoden vergleichbar ist, und zusätzliche Aufgaben wie Maskenverfeinerung und Annotationsfilterung unterstützt. HLMAT bietet ein Protokoll zur Bewertung des fein abgestuften Pixelverständnisses in MLLMs und führt eine visuell zentrierte, mehrstufige Entscheidungsfindungsaufgabe ein, die die Erforschung der visuellen Argumentationsfähigkeiten von MLLMs erleichtert. Unsere Anpassungen der Policy-Verbesserungsmethode StaR und der PRM-geführten Baumsuche verbessern die Modellrobustheit in komplexen Segmentierungsaufgaben weiter und legen eine Grundlage für zukünftige Fortschritte in der fein abgestuften visuellen Wahrnehmung und der mehrstufigen Entscheidungsfindung für MLLMs.
Während jüngste Fortschritte in Text-zu-Video-Diffusionsmodellen die Erzeugung hochwertiger Kurzvideos aus einer einzigen Eingabe ermöglichen, bleibt die Generierung realitätsnaher langer Videos in einem Durchgang aufgrund begrenzter Daten und hoher Rechenkosten eine Herausforderung. Um dies zu bewältigen, schlagen mehrere Arbeiten tuningfreie Ansätze vor, d. h. die Erweiterung bestehender Modelle für die Generierung langer Videos, insbesondere durch die Verwendung mehrerer Eingaben, um dynamische und kontrollierte Inhaltsänderungen zu ermöglichen. Diese Methoden konzentrieren sich jedoch hauptsächlich darauf, fließende Übergänge zwischen benachbarten Bildern zu gewährleisten, was oft zu einer inhaltlichen Abweichung und einem allmählichen Verlust der semantischen Kohärenz über längere Sequenzen führt. Um dieses Problem zu lösen, schlagen wir Synchronized Coupled Sampling (SynCoS) vor, ein neuartiges Inferenzframework, das die Denoising-Pfade über das gesamte Video hinweg synchronisiert und so eine langfristige Konsistenz sowohl zwischen benachbarten als auch entfernten Bildern sicherstellt. Unser Ansatz kombiniert zwei komplementäre Sampling-Strategien: Reverse Sampling und optimierungsbasiertes Sampling, die nahtlose lokale Übergänge bzw. globale Kohärenz gewährleisten. Ein direktes Wechseln zwischen diesen Samplings führt jedoch zu einer Fehlausrichtung der Denoising-Pfade, stört die Eingabesteuerung und führt zu unbeabsichtigten Inhaltsänderungen, da sie unabhängig voneinander arbeiten. Um dies zu beheben, synchronisiert SynCoS sie durch einen festgelegten Zeitschritt und ein festes Basisrauschen, wodurch ein vollständig gekoppeltes Sampling mit ausgerichteten Denoising-Pfaden sichergestellt wird. Umfangreiche Experimente zeigen, dass SynCoS die Generierung langer Videos mit mehreren Ereignissen erheblich verbessert, flüssigere Übergänge und eine überlegene langfristige Kohärenz erreicht und bisherige Ansätze sowohl quantitativ als auch qualitativ übertrifft.
Test-Time-Compute entwickelt sich zu einem neuen Paradigma, um die komplexen, mehrstufigen Denkfähigkeiten von Sprachmodellen zu verbessern, wie der Erfolg von OpenAIs o1 und o3 sowie DeepSeek's R1 zeigt. Im Vergleich zum expliziten Denken beim Test-Time-Compute ist das implizite Denken inferenzeffizienter, da es weniger generierte Tokens erfordert. Doch warum entsteht die fortgeschrittene Denkfähigkeit nicht im impliziten Denkstil? In dieser Arbeit trainieren wir GPT-2 von Grund auf mit einem kuratierten Datensatz für mehrstufiges mathematisches Denken und führen analytische Experimente durch, um zu untersuchen, wie Sprachmodelle implizites Denken bei mehrstufigen Aufgaben bewältigen. Unsere Ergebnisse zeigen: 1) Sprachmodelle können schrittweises Denken durchführen und sowohl in domänenspezifischen als auch domänenübergreifenden Tests hohe Genauigkeit durch implizites Denken erreichen. Diese Fähigkeit entsteht jedoch nur, wenn sie mit Daten mit festen Mustern trainiert werden. 2) Umgekehrt neigen implizite Denkfähigkeiten, die durch das Training mit Daten ohne feste Muster entstehen, dazu, sich an ein spezifisches Muster zu überanpassen und scheitern bei der weiteren Generalisierung. Bemerkenswerterweise wird diese Einschränkung auch bei modernsten großen Sprachmodellen beobachtet. Diese Erkenntnisse deuten darauf hin, dass Sprachmodelle implizites Denken durch Shortcut-Learning erwerben, was eine starke Leistung bei Aufgaben mit ähnlichen Mustern ermöglicht, während die Generalisierung fehlt.
Jüngste Fortschritte in der Text-zu-Bild-Generierung basierten hauptsächlich auf umfangreichen Datensätzen und Architekturen mit hohem Parameteraufwand. Diese Anforderungen schränken die Zugänglichkeit für Forscher und Praktiker, die über begrenzte Rechenressourcen verfügen, erheblich ein. In diesem Artikel stellen wir \model vor, ein effizientes Trainingsparadigma für Bildgenerierungsmodelle, das Wissensdistillation (Knowledge Distillation, KD) und Direct Preference Optimization (DPO) nutzt. Inspiriert vom Erfolg von KD-Techniken, die in Multi-Modalen Großen Sprachmodellen (MLLMs) weit verbreitet sind, destilliert LightGen Wissen aus state-of-the-art (SOTA) Text-zu-Bild-Modellen in eine kompakte Masked Autoregressive (MAR)-Architektur mit nur 0,7 Milliarden Parametern. Mit einem kompakten synthetischen Datensatz von lediglich 2 Millionen hochwertigen Bildern, die aus verschiedenen Bildbeschreibungen generiert wurden, zeigen wir, dass die Datenvielfalt das Datenvolumen in Bezug auf die Modellleistung deutlich übertrifft. Diese Strategie reduziert den Rechenaufwand erheblich und verkürzt die Vor-Trainingszeit von potenziell tausenden GPU-Tagen auf nur 88 GPU-Tage. Darüber hinaus integrieren wir die DPO-Technik, um die inhärenten Schwächen synthetischer Daten, insbesondere schlechte Hochfrequenzdetails und räumliche Ungenauigkeiten, zu beheben und so die Bildqualität und Positionsgenauigkeit zu verbessern. Umfassende Experimente bestätigen, dass LightGen eine Bildgenerierungsqualität erreicht, die mit SOTA-Modellen vergleichbar ist, während gleichzeitig die Rechenressourcen erheblich reduziert und die Zugänglichkeit für ressourcenbeschränkte Umgebungen erweitert wird. Der Code ist verfügbar unter https://github.com/XianfengWu01/LightGen.
Jüngste Fortschritte in der einheitlichen multimodalen Verständnis- und Bildgenerierungsmodellen (oder multimodalen Generierungsmodellen) wurden durch ihre quadratische Rechenkomplexität und ihre Abhängigkeit von groß angelegten Trainingsdaten behindert. Wir stellen OmniMamba vor, das erste auf einer linearen Architektur basierende multimodale Generierungsmodell, das sowohl Text als auch Bilder durch ein einheitliches Next-Token-Prediction-Paradigma erzeugt. Das Modell nutzt die hohe Rechen- und Speichereffizienz von Mamba-2 voll aus und erweitert dessen Fähigkeiten von der Textgenerierung auf die multimodale Generierung. Um die Datenineffizienz bestehender einheitlicher Modelle zu beheben, schlagen wir zwei wesentliche Innovationen vor: (1) entkoppelte Vokabulare zur Steuerung der modalspezifischen Generierung und (2) aufgaben spezifisches LoRA für parameter effiziente Anpassung. Darüber hinaus führen wir eine entkoppelte zweistufige Trainingsstrategie ein, um das Datenungleichgewicht zwischen den beiden Aufgaben zu mildern. Mit diesen Techniken ausgestattet, erzielt OmniMamba eine wettbewerbsfähige Leistung mit JanusFlow und übertrifft Show-o in Benchmarks, obwohl es lediglich mit 2 Millionen Bild-Text-Paaren trainiert wurde, was 1.000 Mal weniger ist als bei Show-o. Besonders hervorzuheben ist, dass OmniMamba mit herausragender Inferenzeffizienz glänzt und im Vergleich zu Transformer-basierten Gegenstücken eine Beschleunigung um das 119,2-fache und eine Reduzierung des GPU-Speichers um 63 % für die Langsequenzgenerierung erreicht. Code und Modelle sind unter https://github.com/hustvl/OmniMamba veröffentlicht.
Instruktionsfolgende Retriever wurden in der Praxis häufig neben großen Sprachmodellen (LLMs) eingesetzt, jedoch wurde bisher wenig Arbeit in die Untersuchung der Sicherheitsrisiken im Zusammenhang mit ihren zunehmenden Suchfähigkeiten investiert. Wir untersuchen empirisch die Fähigkeit von Retrievern, bösartige Anfragen zu erfüllen, sowohl bei direkter Nutzung als auch in einem retrieval-augmented-generation-basierten Setup. Konkret analysieren wir sechs führende Retriever, darunter NV-Embed und LLM2Vec, und stellen fest, dass die meisten Retriever bei bösartigen Anfragen (für >50 % der Anfragen) relevante schädliche Passagen auswählen können. Beispielsweise wählt LLM2Vec für 61,35 % unserer bösartigen Anfragen korrekt entsprechende Passagen aus. Darüber hinaus decken wir ein aufkommendes Risiko bei instruktionsfolgenden Retrievern auf, bei dem hochrelevante schädliche Informationen durch die Ausnutzung ihrer instruktionsfolgenden Fähigkeiten aufgedeckt werden können. Schließlich zeigen wir, dass sogar sicherheitsausgerichtete LLMs wie Llama3 bösartige Anfragen erfüllen können, wenn ihnen schädliche, im Kontext abgerufene Passagen bereitgestellt werden. Zusammenfassend unterstreichen unsere Ergebnisse die Risiken des bösartigen Missbrauchs, die mit der steigenden Fähigkeit von Retrievern verbunden sind.
Code Localization – die präzise Identifizierung der Stellen in einer Codebasis, an denen Änderungen vorgenommen werden müssen – ist eine grundlegende, aber herausfordernde Aufgabe in der Softwarewartung. Bestehende Ansätze haben Schwierigkeiten, komplexe Codebasen effizient zu navigieren, um relevante Codeabschnitte zu identifizieren. Die Herausforderung besteht darin, natürliche Sprachbeschreibungen von Problemen mit den entsprechenden Codeelementen zu verknüpfen, was oft eine logische Schlussfolgerung über hierarchische Strukturen und mehrere Abhängigkeiten erfordert. Wir stellen LocAgent vor, ein Framework, das Code Localization durch eine graphenbasierte Darstellung adressiert. Indem es Codebasen in gerichtete heterogene Graphen zerlegt, erstellt LocAgent eine leichtgewichtige Repräsentation, die Codestrukturen (Dateien, Klassen, Funktionen) und ihre Abhängigkeiten (Importe, Aufrufe, Vererbung) erfasst. Dies ermöglicht es LLM-Agenten, relevante Entitäten durch leistungsstarkes Multi-Hop-Reasoning effektiv zu suchen und zu lokalisieren. Experimentelle Ergebnisse auf realen Benchmarks zeigen, dass unser Ansatz die Genauigkeit bei der Code Localization deutlich verbessert. Insbesondere erreicht unsere Methode mit dem feinabgestimmten Qwen-2.5-Coder-Instruct-32B-Modell vergleichbare Ergebnisse zu proprietären SOTA-Modellen bei deutlich reduzierten Kosten (ca. 86 % Reduktion) und erzielt eine Genauigkeit von bis zu 92,7 % bei der Dateiebene-Lokalisierung. Gleichzeitig verbessert sie die Erfolgsrate bei der Lösung von GitHub-Issues um 12 % für mehrere Versuche (Pass@10). Unser Code ist verfügbar unter https://github.com/gersteinlab/LocAgent.
Die Interaktion des Menschen mit der externen Welt beinhaltet grundsätzlich den Austausch von persönlichen Erinnerungen, sei es mit anderen Personen, Websites, Anwendungen oder, in Zukunft, KI-Agenten. Ein erheblicher Teil dieser Interaktion ist redundant, da Nutzer dieselben Informationen in verschiedenen Kontexten wiederholt bereitstellen müssen. Bestehende Lösungen wie im Browser gespeicherte Zugangsdaten, Autofill-Mechanismen und vereinheitlichte Authentifizierungssysteme haben versucht, diese Redundanz zu verringern, indem sie als Vermittler fungieren, die häufig verwendete Nutzerdaten speichern und abrufen. Die Entwicklung großer Sprachmodelle (LLMs) bietet die Möglichkeit, das Speichermanagement durch ein KI-natives Paradigma neu zu definieren: SECOND ME. SECOND ME fungiert als intelligentes, persistentes Speicherablagesystem, das nutzerspezifisches Wissen bewahrt, organisiert und dynamisch nutzt. Indem es als Vermittler in Nutzerinteraktionen agiert, kann es autonom kontextbewusste Antworten generieren, erforderliche Informationen vorausfüllen und nahtlose Kommunikation mit externen Systemen ermöglichen, wodurch die kognitive Belastung und Interaktionsreibung erheblich reduziert werden. Im Gegensatz zu traditionellen Speicherlösungen geht SECOND ME über die statische Datenspeicherung hinaus, indem es LLM-basierte Speicherparametrisierung nutzt. Dies ermöglicht eine strukturierte Organisation, kontextbezogenes Denken und adaptives Wissenabrufen, was einen systematischeren und intelligenteren Ansatz für das Speichermanagement fördert. Da KI-gesteuerte persönliche Agenten wie SECOND ME zunehmend in digitale Ökosysteme integriert werden, stellt SECOND ME einen entscheidenden Schritt dar, um die Mensch-Welt-Interaktion mit persistenten, kontextbewussten und selbstoptimierenden Speichersystemen zu erweitern. Wir haben das vollständig lokalisierbare Bereitstellungssystem auf GitHub veröffentlicht: https://github.com/Mindverse/Second-Me.
Wir stellen ein neuartiges Framework zur visuellen Tokenisierung vor, das eine beweisbare, PCA-ähnliche Struktur in den latenten Token-Raum einbettet. Während bestehende visuelle Tokenizer primär die Rekonstruktionsgenauigkeit optimieren, vernachlässigen sie oft die strukturellen Eigenschaften des latenten Raums – ein entscheidender Faktor sowohl für die Interpretierbarkeit als auch für nachgelagerte Aufgaben. Unser Verfahren erzeugt eine 1D-kausale Token-Sequenz für Bilder, bei der jeder aufeinanderfolgende Token nicht überlappende Informationen mit mathematisch garantierter abnehmender erklärter Varianz beiträgt, analog zur Hauptkomponentenanalyse. Diese strukturelle Einschränkung stellt sicher, dass der Tokenizer zunächst die wichtigsten visuellen Merkmale extrahiert, wobei jeder nachfolgende Token abnehmende, aber komplementäre Informationen hinzufügt. Zusätzlich haben wir einen semantisch-spektralen Kopplungseffekt identifiziert und behoben, der zu einer unerwünschten Vermischung von hochgradig semantischem Inhalt und niedriggradigen spektralen Details in den Tokens führt, indem wir einen Diffusions-Decoder nutzen. Experimente zeigen, dass unser Ansatz eine state-of-the-art Rekonstruktionsleistung erreicht und eine bessere Interpretierbarkeit ermöglicht, die mit dem menschlichen Sehsystem übereinstimmt. Darüber hinaus erreichen autoregressive Modelle, die auf unseren Token-Sequenzen trainiert werden, eine Leistung, die mit aktuellen state-of-the-art Methoden vergleichbar ist, während sie weniger Tokens für Training und Inferenz benötigen.
Da multimodale Grundlagenmodelle experimentell in selbstfahrenden Autos eingesetzt werden, stellt sich die berechtigte Frage, wie ähnlich diese Systeme in bestimmten Fahrsituationen – insbesondere solchen, die außerhalb der Trainingsdaten liegen – auf menschliches Verhalten reagieren. Um dies zu untersuchen, erstellen wir den Robusto-1-Datensatz, der Dashcam-Videodaten aus Peru verwendet, einem Land mit einer der aggressivsten Fahrweisen weltweit, einem hohen Verkehrsaufkommen und einem hohen Anteil an ungewöhnlichen Straßenobjekten, die wahrscheinlich nie im Training gesehen wurden. Insbesondere um auf kognitiver Ebene vorläufig zu testen, wie gut visuell-sprachliche Grundlagenmodelle (VLMs) im Vergleich zu Menschen beim Fahren abschneiden, weichen wir von Bounding Boxes, Segmentierungskarten, Belegungskarten oder Trajektorien-Schätzungen ab und verwenden stattdessen multimodales visuelles Frage-Antworten (VQA). Dabei vergleichen wir sowohl Menschen als auch Maschinen mithilfe einer in der Systemneurowissenschaft bekannten Methode, der Repräsentationalen Ähnlichkeitsanalyse (RSA). Abhängig von der Art der Fragen, die wir stellen, und den Antworten, die diese Systeme geben, zeigen wir, in welchen Fällen VLMs und Menschen übereinstimmen oder abweichen, was es uns ermöglicht, ihre kognitive Ausrichtung zu untersuchen. Wir stellen fest, dass das Ausmaß der Übereinstimmung stark variiert, je nachdem, welche Art von Fragen an die jeweiligen Systeme (Menschen vs. VLMs) gestellt wird, was eine Lücke in ihrer Ausrichtung verdeutlicht.
In diesem Artikel stellen wir CineBrain vor, den ersten groß angelegten Datensatz mit simultanen EEG- und fMRI-Aufnahmen während dynamischer audiovisueller Stimulation. In Anerkennung der komplementären Stärken der hohen zeitlichen Auflösung von EEG und der tiefen räumlichen Abdeckung von fMRI bietet CineBrain etwa sechs Stunden narrativ getriebener Inhalte aus der beliebten Fernsehserie The Big Bang Theory für jede der sechs Teilnehmer:innen. Aufbauend auf diesem einzigartigen Datensatz schlagen wir CineSync vor, ein innovatives multimodales Dekodierungsframework, das einen Multi-Modal Fusion Encoder mit einem diffusionsbasierten Neural Latent Decoder integriert. Unser Ansatz fusioniert EEG- und fMRI-Signale effektiv und verbessert die Rekonstruktionsqualität komplexer audiovisueller Stimuli signifikant. Um eine rigorose Bewertung zu ermöglichen, führen wir Cine-Benchmark ein, ein umfassendes Evaluationsprotokoll, das Rekonstruktionen über semantische und perzeptive Dimensionen hinweg bewertet. Experimentelle Ergebnisse zeigen, dass CineSync state-of-the-art Video-Rekonstruktionsleistungen erzielt und unseren anfänglichen Erfolg bei der Kombination von fMRI und EEG zur Rekonstruktion sowohl von Video- als auch Audio-Stimuli unterstreicht. Projektseite: https://jianxgao.github.io/CineBrain.
Große visuell-sprachliche Modelle (LVLMs) haben bemerkenswerte Erfolge erzielt, doch die Erzeugung nicht-faktischer Antworten bleibt bei faktenorientierten Frage-Antwort-Systemen (QA) weit verbreitet. Aktuelle multimodale Benchmarks für faktenorientierte Fragestellungen konzentrieren sich hauptsächlich darauf, die Modellausgaben mit den tatsächlichen Antworten zu vergleichen, bieten jedoch nur begrenzte Einblicke in die Leistung modalspezifischer Module. Um diese Lücke zu schließen, stellen wir VisualSimpleQA vor, einen multimodalen Benchmark für faktenorientierte Fragestellungen mit zwei wesentlichen Merkmalen. Erstens ermöglicht er eine vereinfachte und entkoppelte Bewertung von LVLMs in visuellen und linguistischen Modalitäten. Zweitens integriert er klar definierte Schwierigkeitskriterien, um die menschliche Annotation zu leiten und die Extraktion einer anspruchsvollen Teilmenge, VisualSimpleQA-hard, zu erleichtern. Experimente mit 15 LVLMs zeigen, dass selbst state-of-the-art Modelle wie GPT-4o in der multimodalen faktenorientierten QA auf VisualSimpleQA lediglich eine Korrektheit von 60 %+ und auf VisualSimpleQA-hard von 30 %+ erreichen. Darüber hinaus verdeutlicht die entkoppelte Bewertung dieser Modelle erhebliche Verbesserungspotenziale sowohl in den visuellen als auch in den linguistischen Modulen. Der Datensatz ist verfügbar unter https://huggingface.co/datasets/WYLing/VisualSimpleQA.
Benchmarks sind unerlässlich für eine konsistente Bewertung und Reproduzierbarkeit. Die Integration von Künstlicher Intelligenz in die Softwareentwicklung (AI4SE) hat zu einer Vielzahl von Benchmarks für Aufgaben wie Code-Generierung und Bugfixing geführt. Dieser Anstieg bringt jedoch Herausforderungen mit sich: (1) verstreutes Benchmark-Wissen über verschiedene Aufgaben hinweg, (2) Schwierigkeiten bei der Auswahl relevanter Benchmarks, (3) das Fehlen eines einheitlichen Standards für die Benchmark-Entwicklung und (4) die Grenzen bestehender Benchmarks. In diesem Artikel überprüfen wir 173 Studien und identifizieren 204 AI4SE-Benchmarks. Wir klassifizieren diese Benchmarks, analysieren ihre Grenzen und decken Lücken in den Praktiken auf. Basierend auf unserer Überprüfung haben wir BenchScout entwickelt, ein semantisches Suchtool, um relevante Benchmarks zu finden, indem wir die Kontexte der zugehörigen Studien automatisch clustern. Wir führten eine Nutzerstudie mit 22 Teilnehmern durch, um die Benutzerfreundlichkeit, Effektivität und Intuitivität von BenchScout zu bewerten, was zu durchschnittlichen Bewertungen von 4,5, 4,0 und 4,1 von 5 führte. Um Benchmarking-Standards voranzutreiben, schlagen wir BenchFrame vor, eine einheitliche Methode zur Verbesserung der Benchmark-Qualität. Als Fallstudie haben wir BenchFrame auf den HumanEval-Benchmark angewendet und seine Hauptgrenzen adressiert. Dies führte zu HumanEvalNext, das (1) korrigierte Fehler, (2) verbesserte Sprachkonvertierung, (3) erweiterte Testabdeckung und (4) erhöhte Schwierigkeit bietet. Anschließend bewerteten wir zehn state-of-the-art Code-Sprachmodelle auf HumanEval, HumanEvalPlus und HumanEvalNext. Auf HumanEvalNext zeigten die Modelle eine Reduktion der pass@1-Werte um 31,22 % bzw. 19,94 % im Vergleich zu HumanEval und HumanEvalPlus.
Neuronen in großen Sprachmodellen zeigen oft Polysemantizität, indem sie gleichzeitig mehrere unabhängige Konzepte kodieren und dadurch die Interpretierbarkeit verschleiern. Anstatt auf nachträgliche Methoden zurückzugreifen, stellen wir MoE-X vor, ein Mixture-of-Experts (MoE)-Sprachmodell, das von Grund auf interpretierbar gestaltet ist. Unser Ansatz wird durch die Beobachtung motiviert, dass in Sprachmodellen breitere Netzwerke mit spärlichen Aktivierungen eher interpretierbare Faktoren erfassen. Die direkte Ausbildung solcher großen, spärlichen Netzwerke ist jedoch rechenintensiv und unpraktikabel. MoE-Architekturen bieten eine skalierbare Alternative, indem sie für jede Eingabe nur eine Teilmenge von Experten aktivieren, was sich von Natur aus mit den Zielen der Interpretierbarkeit deckt. In MoE-X stellen wir diese Verbindung her, indem wir die MoE-Schicht als ein äquivalentes, spärliches großes MLP umschreiben. Dieser Ansatz ermöglicht eine effiziente Skalierung der verborgenen Größe bei gleichzeitiger Beibehaltung der Sparsamkeit. Um die Interpretierbarkeit weiter zu verbessern, erzwingen wir eine spärliche Aktivierung innerhalb jedes Experten und gestalten den Routing-Mechanismus neu, um Experten mit der höchsten Aktivierungssparsamkeit zu priorisieren. Diese Designs stellen sicher, dass nur die wichtigsten Merkmale geroutet und von den Experten verarbeitet werden. Wir evaluieren MoE-X anhand von Schach- und natürlichen Sprachaufgaben und zeigen, dass es eine Leistung erzielt, die mit dichten Modellen vergleichbar ist, während die Interpretierbarkeit deutlich verbessert wird. MoE-X erreicht eine bessere Perplexität als GPT-2, wobei die Interpretierbarkeit sogar Ansätze auf Basis spärlicher Autoencoder (SAE) übertrifft.
Die gemeinsame Audio-Video (AV)-Generierung bleibt eine erhebliche Herausforderung in der generativen KI, hauptsächlich aufgrund von drei kritischen Anforderungen: der Qualität der generierten Samples, der nahtlosen multimodalen Synchronisation und zeitlichen Kohärenz, bei der Audiospuren zu den visuellen Daten passen und umgekehrt, sowie der unbegrenzten Videodauer. In diesem Artikel präsentieren wir eine neuartige Transformer-basierte Architektur, die alle wesentlichen Herausforderungen der AV-Generierung adressiert. Wir untersuchen drei verschiedene Cross-Modality-Interaktionsmodule, wobei unser leichtgewichtiges temporales Fusionsmodul als der effektivste und recheneffizienteste Ansatz zur Ausrichtung von Audio- und visuellen Modalitäten hervorgeht. Unsere experimentellen Ergebnisse zeigen, dass bestehende state-of-the-art Modelle in multimodalen AV-Generierungsaufgaben übertroffen werden. Unser Code und unsere Checkpoints sind unter https://github.com/ErgastiAlex/R-FLAV verfügbar.
Trotz jüngster Fortschritte beim lernbasierten Motion In-Betweening wurde eine zentrale Einschränkung übersehen: die Notwendigkeit von charakter-spezifischen Datensätzen. In dieser Arbeit stellen wir AnyMoLe vor, eine neuartige Methode, die diese Einschränkung adressiert, indem sie Video-Diffusionsmodelle nutzt, um Bewegungs-Zwischenframes für beliebige Charaktere ohne externe Daten zu generieren. Unser Ansatz verwendet einen zweistufigen Frame-Generierungsprozess, um das kontextuelle Verständnis zu verbessern. Darüber hinaus führen wir ICAdapt ein, eine Feinabstimmungstechnik für Video-Diffusionsmodelle, um die Domänenlücke zwischen realen und gerenderten Charakteranimationen zu überbrücken. Zusätzlich schlagen wir eine „Motion-Video-Nachahmungs“-Optimierungstechnik vor, die nahtlose Bewegungsgenerierung für Charaktere mit beliebigen Gelenkstrukturen unter Verwendung von 2D- und 3D-bewussten Merkmalen ermöglicht. AnyMoLe reduziert die Datenabhängigkeit erheblich und erzeugt gleichzeitig flüssige und realistische Übergänge, wodurch es für eine Vielzahl von Motion-In-Betweening-Aufgaben anwendbar ist.
Frühere Studien haben gezeigt, dass Sprachmodelle stereotypisierte Vorurteile aufweisen. Bestehende Strategien zur Entfernung von Vorurteilen, wie das erneute Trainieren eines Modells mit kontrafaktischen Daten, Repräsentationsprojektion und Prompting, scheitern oft daran, Vorurteile effizient zu beseitigen oder die voreingenommenen internen Repräsentationen der Modelle direkt zu verändern. Um diese Probleme zu lösen, schlagen wir BiasEdit vor, eine effiziente Methode zur Modellbearbeitung, die stereotypisierte Vorurteile aus Sprachmodellen entfernt, indem sie leichtgewichtige Netzwerke als Editoren verwendet, um Parameteraktualisierungen zu generieren. BiasEdit nutzt einen Entbiasungsverlust, der die Editornetzwerke anleitet, lokale Bearbeitungen an Teilparametern eines Sprachmodells vorzunehmen, um Vorurteile zu entfernen, während die Sprachmodellierungsfähigkeiten während der Bearbeitung durch einen Beibehaltungsverlust erhalten bleiben. Experimente mit StereoSet und Crows-Pairs demonstrieren die Wirksamkeit, Effizienz und Robustheit von BiasEdit bei der Beseitigung von Vorurteilen im Vergleich zu tangentialen Entbiasungs-Baselines und zeigen nur geringe bis keine Auswirkungen auf die allgemeinen Fähigkeiten der Sprachmodelle. Zusätzlich führen wir eine Vorurteilsverfolgung durch, um Vorurteile in verschiedenen Modulen zu untersuchen, und erforschen die Auswirkungen der Vorurteilsbearbeitung auf verschiedene Komponenten von Sprachmodellen.
Menschen sind zweifellos die wichtigsten Akteure in der Computer Vision, und die Fähigkeit, eine beliebige Person anhand einer natürlichen Sprachbeschreibung zu erkennen – eine Aufgabe, die wir als Referenzierung einer beliebigen Person definieren –, besitzt erheblichen praktischen Wert. Allerdings stellen wir fest, dass bestehende Modelle im Allgemeinen nicht die für die reale Welt erforderliche Nutzbarkeit erreichen und aktuelle Benchmarks durch ihre Fokussierung auf Eins-zu-eins-Referenzierungen begrenzt sind, was den Fortschritt in diesem Bereich behindert. In dieser Arbeit betrachten wir diese Aufgabe aus drei kritischen Perspektiven: Aufgabendefinition, Datensatzdesign und Modellarchitektur. Zunächst identifizieren wir fünf Aspekte referenzierbarer Entitäten und drei charakteristische Merkmale dieser Aufgabe. Anschließend stellen wir HumanRef vor, einen neuartigen Datensatz, der entwickelt wurde, um diese Herausforderungen zu bewältigen und reale Anwendungen besser abzubilden. Aus der Perspektive des Modellentwurfs integrieren wir ein multimodales großes Sprachmodell mit einem Objekterkennungsframework und konstruieren ein robustes Referenzmodell namens RexSeek. Experimentelle Ergebnisse zeigen, dass state-of-the-art Modelle, die auf gängigen Benchmarks wie RefCOCO/+/g gut abschneiden, mit HumanRef Schwierigkeiten haben, da sie nicht in der Lage sind, mehrere Personen zu erkennen. Im Gegensatz dazu überzeugt RexSeek nicht nur bei der Referenzierung von Personen, sondern generalisiert auch effektiv auf die Referenzierung gewöhnlicher Objekte, was es breit anwendbar für verschiedene Wahrnehmungsaufgaben macht. Der Code ist verfügbar unter https://github.com/IDEA-Research/RexSeek.
Diffusionsmodelle und Flow Matching erzeugen hochwertige Stichproben, sind jedoch bei der Inferenz langsam, und ihre Destillation in Modelle mit wenigen Schritten führt oft zu Instabilität und umfangreicher Feinabstimmung. Um diese Kompromisse zu lösen, schlagen wir Inductive Moment Matching (IMM) vor, eine neue Klasse von generativen Modellen für die Stichprobenentnahme in einem oder wenigen Schritten mit einem einstufigen Trainingsverfahren. Im Gegensatz zur Destillation erfordert IMM keine Vorabinitialisierung und Optimierung zweier Netzwerke; und im Gegensatz zu Consistency Models garantiert IMM die Konvergenz auf Verteilungsebene und bleibt unter verschiedenen Hyperparametern und Standardmodellarchitekturen stabil. IMM übertrifft Diffusionsmodelle auf ImageNet-256x256 mit einem FID von 1,99 bei nur 8 Inferenzschritten und erreicht einen state-of-the-art 2-Schritt-FID von 1,98 auf CIFAR-10 für ein Modell, das von Grund auf trainiert wurde.
Frühere Studien haben gezeigt, dass auf PLM (Pre-trained Language Models) basierte Retrieval-Modelle eine Präferenz für LLM-generierte Inhalte aufweisen und diesen Dokumenten höhere Relevanzwerte zuweisen, selbst wenn ihre semantische Qualität mit von Menschen verfassten Inhalten vergleichbar ist. Dieses Phänomen, bekannt als Quellenverzerrung (Source Bias), gefährdet die nachhaltige Entwicklung des Informationszugriffssystems. Die zugrunde liegenden Ursachen dieser Quellenverzerrung sind jedoch noch unerforscht. In dieser Arbeit erklären wir den Prozess der Informationsbeschaffung anhand eines kausalen Graphen und entdecken, dass PLM-basierte Retrieval-Systeme Perplexitätsmerkmale für die Relevanzschätzung erlernen, wodurch sie Dokumente mit niedriger Perplexität höher einstufen und so die Quellenverzerrung verursachen. Eine theoretische Analyse zeigt weiterhin, dass dieses Phänomen auf die positive Korrelation zwischen den Gradienten der Verlustfunktionen in der Sprachmodellierungsaufgabe und der Retrieval-Aufgabe zurückzuführen ist. Basierend auf dieser Analyse wird eine kausal inspirierte Methode zur Entzerrung zur Inferenzzeit vorgeschlagen, genannt Causal Diagnosis and Correction (CDC). CDC diagnostiziert zunächst den Verzerrungseffekt der Perplexität und trennt dann diesen Verzerrungseffekt vom gesamten geschätzten Relevanzwert. Experimentelle Ergebnisse in drei Domänen demonstrieren die überlegene Entzerrungswirksamkeit von CDC und unterstreichen die Gültigkeit des vorgeschlagenen Erklärungsrahmens. Die Quellcodes sind unter https://github.com/WhyDwelledOnAi/Perplexity-Trap verfügbar.
Diffusionsmodelle haben in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Ihre langsame Generierungsgeschwindigkeit bleibt jedoch eine kritische Herausforderung. Bestehende Beschleunigungsmethoden, die darauf abzielen, die Schritte zu reduzieren, gehen oft auf Kosten der Probenqualität, der Steuerbarkeit oder führen zu erhöhten Trainingskomplexitäten. Daher schlagen wir RayFlow vor, ein neuartiges Diffusionsframework, das diese Einschränkungen adressiert. Im Gegensatz zu früheren Methoden führt RayFlow jede Probe entlang eines einzigartigen Pfads zu einer instanzspezifischen Zielverteilung. Diese Methode minimiert die Abtastschritte, während sie die Generierungsvielfalt und -stabilität bewahrt. Darüber hinaus führen wir den Time Sampler ein, eine Importance-Sampling-Technik, die die Trainings effizienz verbessert, indem sie sich auf entscheidende Zeitschritte konzentriert. Umfangreiche Experimente demonstrieren die Überlegenheit von RayFlow bei der Erzeugung hochwertiger Bilder mit verbesserter Geschwindigkeit, Kontrolle und Trainings effizienz im Vergleich zu bestehenden Beschleunigungstechniken.
Das Feld der neuronalen maschinellen Übersetzung (NMT) hat sich mit dem Aufkommen großer Sprachmodelle (LLMs) verändert. Ein Großteil der jüngsten Schwerpunkte in der natürlichen Sprachverarbeitung (NLP) lag darauf, maschinelle Übersetzung und viele andere Probleme mithilfe eines einzigen vortrainierten Transformer-Decoders zu modellieren, während Encoder-Decoder-Architekturen, die in früheren NMT-Modellen der Standard waren, relativ weniger Beachtung fanden. In diesem Artikel untersuchen wir Übersetzungsmodelle, die universell, effizient und einfach zu optimieren sind, indem wir die Welt der LLMs mit der Welt der NMT verbinden. Wir wenden LLMs auf die NMT-Kodierung an und lassen den NMT-Decoder unverändert. Zudem entwickeln wir Methoden, um LLMs besser an den NMT-Decoder anzupassen. Darüber hinaus erstellen wir einen neuen Datensatz mit mehreren Aufgaben, um zu bewerten, wie gut das maschinelle Übersetzungssystem über verschiedene Aufgaben hinweg generalisiert. Auswertungen auf den WMT- und unseren Datensätzen zeigen, dass die Ergebnisse unserer Methode in Bezug auf die Übersetzungsqualität mit einer Reihe von Baselines gleichziehen oder diese übertreffen, dabei jedoch eine 2,4- bis 6,5-fache Beschleunigung der Inferenzgeschwindigkeit und eine 75%ige Reduzierung des Speicherbedarfs des KV-Caches erreichen. Es zeigt auch eine starke Generalisierung über eine Vielzahl von übersetzungsbezogenen Aufgaben hinweg.
Jüngste Fortschritte im Bereich des Verständnisses langer Videos mildern typischerweise visuelle Redundanz durch das Beschneiden visueller Tokens basierend auf der Aufmerksamkeitsverteilung. Während bestehende Methoden jedoch nachträgliches Beschneiden von Tokens mit geringer Reaktion in Decoder-Schichten verwenden, übersehen sie die semantische Korrelation auf Eingabeebene zwischen visuellen Tokens und Anweisungen (Query). In diesem Artikel schlagen wir QuoTA vor, ein ante-hoc, trainingsfreies Modul, das bestehende große Video-Sprachmodelle (LVLMs) für die visuelle Token-Zuweisung basierend auf einer query-orientierten Bewertung der Frame-Wichtigkeit erweitert. Die query-orientierte Token-Auswahl ist entscheidend, da sie die visuelle Verarbeitung mit aufgaben-spezifischen Anforderungen abstimmt und die Nutzung des Token-Budgets optimiert, während semantisch relevante Inhalte erhalten bleiben. Konkret (i) weist QuoTA strategisch Frame-Wichtigkeitswerte basierend auf der Query-Relevanz zu, ermöglicht eine einmalige visuelle Token-Zuweisung vor cross-modalen Interaktionen in Decoder-Schichten, (ii) entkoppeln wir die Query durch Chain-of-Thoughts-Argumentation, um eine präzisere Frame-Wichtigkeitsbewertung basierend auf LVLM zu erleichtern, und (iii) bietet QuoTA eine Plug-and-Play-Funktionalität, die sich auf bestehende LVLMs erstreckt. Umfangreiche experimentelle Ergebnisse zeigen, dass die Implementierung von QuoTA mit LLaVA-Video-7B eine durchschnittliche Leistungssteigerung von 3,2 % über sechs Benchmarks (einschließlich Video-MME und MLVU) erzielt, während innerhalb eines identischen visuellen Token-Budgets wie der Baseline gearbeitet wird. Die Codes sind unter https://github.com/MAC-AutoML/QuoTA quelloffen verfügbar.
So einfach es auch erscheinen mag, ein Objekt an eine andere Position innerhalb eines Bildes zu verschieben, ist es tatsächlich eine anspruchsvolle Bildbearbeitungsaufgabe, die eine Neuabstimmung der Beleuchtung, eine Anpassung der Pose basierend auf der Perspektive, eine präzise Füllung verdeckter Bereiche sowie eine kohärente Synchronisation von Schatten und Reflexionen erfordert, während die Objektidentität beibehalten wird. In diesem Artikel präsentieren wir ObjectMover, ein generatives Modell, das Objektbewegungen in hochkomplexen Szenen durchführen kann. Unser zentraler Ansatz besteht darin, diese Aufgabe als ein Sequenz-zu-Sequenz-Problem zu modellieren und ein Videogenerierungsmodell zu feinabstimmen, um dessen Wissen über konsistente Objekterzeugung über Videoframes hinweg zu nutzen. Wir zeigen, dass unser Modell mit diesem Ansatz in der Lage ist, sich an komplexe reale Szenarien anzupassen, indem es extreme Beleuchtungsanpassungen und Objekteffektbewegungen bewältigt. Da groß angelegte Daten für Objektbewegungen nicht verfügbar sind, erstellen wir eine Datengenerierungspipeline mithilfe einer modernen Spiel-Engine, um hochwertige Datenpaare zu synthetisieren. Darüber hinaus schlagen wir eine Multi-Task-Lernstrategie vor, die das Training mit realen Videodaten ermöglicht, um die Modellgeneralisierung zu verbessern. Durch umfangreiche Experimente demonstrieren wir, dass ObjectMover hervorragende Ergebnisse erzielt und sich gut an reale Szenarien anpasst.
Das Mixture of Experts (MoE) ist eine effektive Architektur zur Skalierung großer Sprachmodelle, die durch die Nutzung spärlicher Expertenaktivierung den Kompromiss zwischen Leistung und Effizienz optimiert. Unter Expertenparallelismus leidet MoE jedoch an Inferenzineffizienzen aufgrund unausgeglichener Token-zu-Experten-Zuweisung, bei der einige Experten überlastet sind, während andere unterausgelastet bleiben. Dieses Ungleichgewicht führt zu einer schlechten Ressourcennutzung und erhöhter Latenz, da der am stärksten belastete Experte die Gesamtverzögerung bestimmt – ein Phänomen, das wir als \textit{Straggler-Effekt} bezeichnen. Um dies zu mildern, schlagen wir Capacity-Aware Inference vor, das zwei Schlüsseltechniken umfasst: (1) \textit{Capacity-Aware Token Drop}, das überlastete Token verwirft, um die maximale Latenz von MoE zu regulieren, und (2) \textit{Capacity-Aware Token Reroute}, das überlaufende Token unterausgelasteten Experten neu zuweist und so die Tokenverteilung ausgleicht. Diese Techniken optimieren gemeinsam sowohl die Nutzung hoch- als auch niedrig belasteter Experten und führen zu einer effizienteren MoE-Inferenzpipeline. Umfangreiche Experimente demonstrieren die Wirksamkeit unserer Methoden und zeigen signifikante Verbesserungen in der Inferenzeffizienz, z. B. eine durchschnittliche Leistungssteigerung von 0,2\% und eine 1,94-fache Beschleunigung der Inferenz bei Mixtral-8x7B-Instruct.
Dichte Retrieval-Modelle werden häufig in Anwendungen der Informationsbeschaffung (Information Retrieval, IR) eingesetzt, wie beispielsweise bei Retrieval-Augmented Generation (RAG). Da sie oft den ersten Schritt in diesen Systemen darstellen, ist ihre Robustheit entscheidend, um Fehler zu vermeiden. In dieser Arbeit nutzen wir einen Datensatz zur Relationsextraktion (z. B. Re-DocRED) neu, um kontrollierte Experimente zu entwerfen, die den Einfluss heuristischer Verzerrungen, wie die Bevorzugung kürzerer Dokumente, in Retrieval-Modellen wie Dragon+ und Contriever zu quantifizieren. Unsere Ergebnisse zeigen erhebliche Schwachstellen: Retrieval-Modelle verlassen sich oft auf oberflächliche Muster, wie die übermäßige Priorisierung von Dokumentanfängen, kürzeren Dokumenten, wiederholten Entitäten und wörtlichen Übereinstimmungen. Zudem neigen sie dazu, zu übersehen, ob das Dokument die Antwort auf die Anfrage enthält, und verfügen über kein tiefes semantisches Verständnis. Besonders bemerkenswert ist, dass bei der Kombination mehrerer Verzerrungen die Modelle einen katastrophalen Leistungsabfall zeigen und in weniger als 3 % der Fälle das antwortenthaltende Dokument gegenüber einem verzerrten Dokument ohne Antwort auswählen. Darüber hinaus zeigen wir, dass diese Verzerrungen direkte Auswirkungen auf nachgelagerte Anwendungen wie RAG haben, bei denen retrieval-bevorzugte Dokumente große Sprachmodelle (LLMs) in die Irre führen können, was zu einem Leistungsabfall von 34 % im Vergleich dazu führt, überhaupt keine Dokumente bereitzustellen.
Intelligenz ist eine entscheidende Eigenschaft von Spezies, um Lösungen innerhalb einer begrenzten Anzahl von Versuch-und-Irrtum-Versuchen zu finden. Aufbauend auf dieser Idee führen wir das Survival Game als Rahmenwerk ein, um Intelligenz basierend auf der Anzahl der gescheiterten Versuche in einem Versuch-und-Irrtum-Prozess zu bewerten. Weniger Fehlschläge deuten auf eine höhere Intelligenz hin. Wenn sowohl der Erwartungswert als auch die Varianz der Fehlschläge endlich sind, signalisiert dies die Fähigkeit, konsistent Lösungen für neue Herausforderungen zu finden, was wir als das Autonome Niveau der Intelligenz definieren. Mithilfe des Survival Games bewerten wir umfassend bestehende KI-Systeme. Unsere Ergebnisse zeigen, dass KI-Systeme zwar das Autonome Niveau bei einfachen Aufgaben erreichen, sie jedoch bei komplexeren Aufgaben wie Sehen, Suche, Empfehlung und Sprache noch weit davon entfernt sind. Während die Skalierung aktueller KI-Technologien helfen könnte, wäre dies mit astronomischen Kosten verbunden. Prognosen deuten darauf hin, dass das Erreichen des Autonomen Niveaus für allgemeine Aufgaben 10^{26} Parameter erfordern würde. Um dies ins Verhältnis zu setzen: Das Laden eines so massiven Modells erfordert so viele H100-GPUs, dass ihr Gesamtwert das 10^{7}-fache des Marktwerts von Apple Inc. beträgt. Selbst mit Moores Gesetz würde die Unterstützung eines solchen Parameterumfangs 70 Jahre dauern. Diese überwältigenden Kosten unterstreichen die Komplexität menschlicher Aufgaben und die Unzulänglichkeiten aktueller KI-Technologien. Um dieses Phänomen weiter zu untersuchen, führen wir eine theoretische Analyse des Survival Games und seiner experimentellen Ergebnisse durch. Unsere Erkenntnisse deuten darauf hin, dass menschliche Aufgaben eine kritische Eigenschaft besitzen. Folglich erfordert das Autonome Niveau ein tiefes Verständnis der zugrunde liegenden Mechanismen der Aufgabe. Aktuelle KI-Systeme erfassen diese Mechanismen jedoch nicht vollständig und verlassen sich stattdessen auf oberflächliche Nachahmung, was es ihnen erschwert, ein autonomes Niveau zu erreichen. Wir glauben, dass das Survival Game nicht nur die zukünftige Entwicklung der KI leiten, sondern auch tiefe Einblicke in die menschliche Intelligenz bieten kann.
Halluzinierte Ausgaben von Sprachmodellen bergen Risiken im medizinischen Bereich, insbesondere für Laien, die gesundheitsbezogene Entscheidungen treffen. Bestehende Methoden zur Bewertung der Faktizität, wie solche, die auf Entailment und Frage-Antwort-Systemen (QA) basieren, haben Schwierigkeiten mit der Erstellung von Zusammenfassungen in einfacher Sprache (Plain Language Summary, PLS), da das Phänomen der elaborativen Erklärung externen Inhalt (z. B. Definitionen, Hintergrundinformationen, Beispiele) einführt, der im Ausgangsdokument nicht vorhanden ist, um das Verständnis zu verbessern. Um dies zu lösen, stellen wir PlainQAFact vor, ein Framework, das auf einem fein abgestuften, von Menschen annotierten Datensatz namens PlainFact trainiert wurde, um die Faktizität sowohl von vereinfachten als auch von elaborativ erklärten Sätzen zu bewerten. PlainQAFact klassifiziert zunächst den Faktizitätstyp und bewertet dann die Faktizität mithilfe einer retrieval-gestützten QA-basierten Bewertungsmethode. Unser Ansatz ist ressourcenschonend und recheneffizient. Empirische Ergebnisse zeigen, dass bestehende Faktizitätsmetriken die Faktizität in PLS, insbesondere bei elaborativen Erklärungen, nicht effektiv bewerten können, während PlainQAFact state-of-the-art Leistung erzielt. Wir analysieren weiterhin seine Wirksamkeit über externe Wissensquellen, Strategien zur Antwortextraktion, Überlappungsmaße und Dokumentgranularitätsebenen hinweg und verfeinern so seine Gesamtbewertung der Faktizität.
Datenschutzbedenken im Zusammenhang mit der stetig wachsenden Anzahl von Kameras nehmen im heutigen digitalen Zeitalter zu. Obwohl bestehende Anonymisierungsmethoden in der Lage sind, Identitätsinformationen zu verschleiern, haben sie oft Schwierigkeiten, die Nützlichkeit der Bilder zu bewahren. In dieser Arbeit stellen wir eine trainingsfreie Methode zur Gesichtsanonymisierung vor, die wichtige nicht identitätsbezogene Attribute bewahrt. Unser Ansatz nutzt ein vortrainiertes Text-zu-Bild-Diffusionsmodell, ohne Optimierung oder Training zu erfordern. Er beginnt mit der Invertierung des Eingabebildes, um das ursprüngliche Rauschen wiederherzustellen. Das Rauschen wird dann durch einen identitätsbedingten Diffusionsprozess enträuscht, bei dem modifizierte Identitäts-Einbettungen sicherstellen, dass das anonymisierte Gesicht von der ursprünglichen Identität unterschiedlich ist. Unser Ansatz unterstützt auch lokalisierte Anonymisierung, wodurch Benutzer kontrollieren können, welche Gesichtsregionen anonymisiert oder intakt gehalten werden. Umfassende Bewertungen im Vergleich zu modernsten Methoden zeigen, dass unser Ansatz in Bezug auf Anonymisierung, Attributerhaltung und Bildqualität hervorragend abschneidet. Seine Flexibilität, Robustheit und Praktikabilität machen ihn gut geeignet für reale Anwendungen. Code und Daten sind unter https://github.com/hanweikung/nullface verfügbar.
In den letzten Jahren gab es bedeutende Fortschritte bei Foundation-Modellen durch generatives Pre-Training, doch die algorithmische Innovation in diesem Bereich hat sich weitgehend auf autoregressive Modelle für diskrete Signale und Diffusionsmodelle für kontinuierliche Signale beschränkt. Diese Stagnation schafft einen Engpass, der uns daran hindert, das Potenzial von reichhaltigen multimodalen Daten vollständig auszuschöpfen, was wiederum den Fortschritt bei multimodaler Intelligenz begrenzt. Wir argumentieren, dass eine Inferenz-zuerst-Perspektive, die die Skalierungseffizienz während der Inferenzzeit über Sequenzlänge und Verfeinerungsschritte priorisiert, neue generative Pre-Training-Algorithmen inspirieren kann. Am Beispiel von Inductive Moment Matching (IMM) zeigen wir, wie die gezielte Behebung von Einschränkungen im Inferenzprozess von Diffusionsmodellen durch gezielte Modifikationen zu einem stabilen, einstufigen Algorithmus führt, der eine überlegene Probenqualität bei einer um mehr als eine Größenordnung höheren Inferenzeffizienz erreicht.
Vision-Language-Action (VLA)-Modelle zielen darauf ab, robotische Aktionen basierend auf visuellen Beobachtungen und Sprachanweisungen vorherzusagen. Bestehende Ansätze erfordern das Feinabstimmen vortrainierter Vision-Language-Modelle (VLMs), da visuelle und sprachliche Merkmale unabhängig voneinander in nachgelagerte Policies eingespeist werden, was die vortrainierten semantischen Ausrichtungen beeinträchtigt. Wir schlagen OTTER vor, eine neuartige VLA-Architektur, die diese bestehenden Ausrichtungen durch explizite, textbewusste Extraktion visueller Merkmale nutzt. Anstatt alle visuellen Merkmale zu verarbeiten, extrahiert und übergibt OTTER selektiv nur die aufgabenrelevanten visuellen Merkmale, die semantisch mit der Sprachanweisung ausgerichtet sind, an den Policy-Transformer. Dies ermöglicht es OTTER, die vortrainierten Vision-Language-Encoder eingefroren zu lassen. Dadurch bewahrt und nutzt OTTER das umfangreiche semantische Verständnis, das durch groß angelegtes Vortraining erlernt wurde, und ermöglicht starke Zero-Shot-Generalisierungsfähigkeiten. In Simulations- und realen Experimenten übertrifft OTTER bestehende VLA-Modelle deutlich und zeigt eine starke Zero-Shot-Generalisierung auf neue Objekte und Umgebungen. Video, Code, Checkpoints und Datensatz: https://ottervla.github.io/.