Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Um in komplexen Umgebungen zu überleben und zu gedeihen, haben Menschen ausgeklügelte Selbstverbesserungsmechanismen entwickelt, die auf der Erkundung der Umgebung, der hierarchischen Abstraktion von Erfahrungen in wiederverwendbare Fähigkeiten und der gemeinschaftlichen Konstruktion eines stetig wachsenden Fähigkeitsrepertoires basieren. Trotz jüngster Fortschritte mangelt es autonomen Web-Agenten immer noch an entscheidenden Selbstverbesserungsfähigkeiten, insbesondere bei der Abstraktion von prozeduralem Wissen, der Verfeinerung von Fähigkeiten und der Komposition von Fähigkeiten. In dieser Arbeit stellen wir SkillWeaver vor, ein fähigkeitszentriertes Framework, das es Agenten ermöglicht, sich selbst zu verbessern, indem sie autonom wiederverwendbare Fähigkeiten als APIs synthetisieren. Bei einer neuen Website entdeckt der Agent autonom Fähigkeiten, führt sie zur Übung aus und destilliert die Übungserfahrungen in robuste APIs. Iterative Erkundung erweitert kontinuierlich eine Bibliothek von leichtgewichtigen, Plug-and-Play-APIs, die die Fähigkeiten des Agenten erheblich verbessern. Experimente auf WebArena und realen Websites demonstrieren die Wirksamkeit von SkillWeaver mit relativen Erfolgsratenverbesserungen von 31,8 % bzw. 39,8 %. Darüber hinaus verbessern APIs, die von starken Agenten synthetisiert werden, schwächere Agenten durch übertragbare Fähigkeiten erheblich, was Verbesserungen von bis zu 54,3 % auf WebArena erzielt. Diese Ergebnisse zeigen die Effektivität der Verfeinerung verschiedener Website-Interaktionen in APIs, die nahtlos zwischen verschiedenen Web-Agenten geteilt werden können.
Diffusion-Transformer haben eine bemerkenswerte Generierungsqualität demonstriert, obwohl sie längere Trainingsiterationen und zahlreiche Inferenzschritte erfordern. In jedem Denoising-Schritt kodieren Diffusion-Transformer die verrauschten Eingaben, um die niederfrequente semantische Komponente zu extrahieren, und dekodieren dann die höhere Frequenz mit identischen Modulen. Dieses Schema erzeugt ein inhärentes Optimierungsdilemma: Die Kodierung niederfrequenter Semantik erfordert die Reduzierung hochfrequenter Komponenten, was eine Spannung zwischen semantischer Kodierung und hochfrequenter Dekodierung erzeugt. Um diese Herausforderung zu lösen, schlagen wir einen neuen \color{ddtD}entkoppelten \color{ddtD}iffusion-\color{ddtT}ransformer~(\color{ddtDDT}) vor, mit einem entkoppelten Design eines dedizierten Konditionskodierers für die semantische Extraktion sowie eines spezialisierten Geschwindigkeitsdekodierers. Unsere Experimente zeigen, dass ein leistungsfähigerer Kodierer mit zunehmender Modellgröße Leistungsverbesserungen bringt. Für ImageNet 256×256 erreicht unser DDT-XL/2 eine neue Bestleistung von {1,31 FID}~(fast 4-mal schnellere Trainingskonvergenz im Vergleich zu früheren Diffusion-Transformern). Für ImageNet 512×512 erreicht unser DDT-XL/2 einen neuen Bestwert von 1,28 FID. Zusätzlich verbessert unsere entkoppelte Architektur als nützliches Nebenprodukt die Inferenzgeschwindigkeit, indem sie die gemeinsame Nutzung von Selbstkonditionen zwischen benachbarten Denoising-Schritten ermöglicht. Um Leistungseinbußen zu minimieren, schlagen wir einen neuartigen statistischen dynamischen Programmieransatz vor, um optimale Sharing-Strategien zu identifizieren.
Wir präsentieren OLMoTrace, das erste System, das die Ausgaben von Sprachmodellen in Echtzeit auf ihre vollständigen, mehrere Billionen Token umfassenden Trainingsdaten zurückverfolgt. OLMoTrace identifiziert und zeigt wortwörtliche Übereinstimmungen zwischen Segmenten der Sprachmodellausgaben und Dokumenten in den Trainingsdatenkorpora. Angetrieben durch eine erweiterte Version von infini-gram (Liu et al., 2024), liefert unser System die Rückverfolgungsergebnisse innerhalb weniger Sekunden. OLMoTrace kann Nutzern helfen, das Verhalten von Sprachmodellen durch die Linse ihrer Trainingsdaten zu verstehen. Wir demonstrieren, wie es zur Untersuchung von Faktenprüfung, Halluzinationen und der Kreativität von Sprachmodellen eingesetzt werden kann. OLMoTrace ist öffentlich zugänglich und vollständig Open-Source.
Wir stellen fest, dass die Antwortlänge von LLMs, die für logisches Denken trainiert wurden – unabhängig davon, ob durch Reinforcement Learning oder überwachtes Lernen –, bei schlecht gestellten Fragen mit fehlenden Prämissen (MiP) drastisch zunimmt, was zu redundanter und ineffektiver Denkweise führt. Dieses neu eingeführte Szenario verschärft das allgemeine Problem des Überdenkens in erheblichem Maße, was wir als MiP-Überdenken bezeichnen. Solche Fehler widersprechen dem „Test-Time-Scaling-Gesetz“, wurden jedoch in mehreren von uns erstellten Datensätzen mit MiP weit verbreitet beobachtet, was auf die Gefahren von billigem Überdenken und einen Mangel an kritischem Denken hinweist. Überraschenderweise zeigen LLMs, die nicht speziell für logisches Denken trainiert wurden, im MiP-Szenario eine deutlich bessere Leistung und liefern viel kürzere Antworten, die schlecht gestellte Anfragen schnell identifizieren. Dies deutet auf einen kritischen Fehler im aktuellen Trainingsansatz für logisch denkende LLMs hin, der effizientes Denken nicht ausreichend fördert und zu einem Missbrauch von Denkmustern führt. Um die Gründe für diese Fehler weiter zu untersuchen, führen wir detaillierte Analysen der Denklänge, der Überdenkmuster und der Position des kritischen Denkens bei verschiedenen Arten von LLMs durch. Darüber hinaus zeigt unsere erweiterte Ablationsstudie, dass das Überdenken durch die Destillation der Antworten von Denkmodellen ansteckend ist. Diese Ergebnisse verbessern das Verständnis des Überdenkens und bieten neue Einblicke in die Minderung des Problems.
Die Erstellung eines realistischen, animierbaren Avatars aus einem einzigen statischen Porträt bleibt eine Herausforderung. Bestehende Ansätze haben oft Schwierigkeiten, subtile Gesichtsausdrücke, die damit verbundenen globalen Körperbewegungen und den dynamischen Hintergrund zu erfassen. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Framework vor, das ein vortrainiertes Video-Diffusions-Transformer-Modell nutzt, um hochwertige, kohärente sprechende Porträts mit kontrollierbaren Bewegungsdynamiken zu erzeugen. Kern unserer Arbeit ist eine zweistufige Audio-Visual-Alignment-Strategie. In der ersten Stufe verwenden wir ein Clip-Level-Trainingsschema, um kohärente globale Bewegungen durch die Ausrichtung der audio-gesteuerten Dynamik über die gesamte Szene hinweg zu etablieren, einschließlich des Referenzporträts, kontextueller Objekte und des Hintergrunds. In der zweiten Stufe verfeinern wir die Lippenbewegungen auf Frame-Ebene mithilfe einer Lippenverfolgungsmaske, um eine präzise Synchronisation mit den Audiosignalen zu gewährleisten. Um die Identität zu bewahren, ohne die Bewegungsflexibilität zu beeinträchtigen, ersetzen wir das häufig verwendete Referenznetzwerk durch ein gesichtsorientiertes Cross-Attention-Modul, das effektiv die Gesichtskonsistenz im gesamten Video aufrechterhält. Darüber hinaus integrieren wir ein Modul zur Modulation der Bewegungsintensität, das explizit die Intensität von Ausdruck und Körperbewegungen steuert und so eine kontrollierbare Manipulation der Porträtbewegungen über die reine Lippenbewegung hinaus ermöglicht. Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagener Ansatz eine höhere Qualität mit besserem Realismus, Kohärenz, Bewegungsintensität und Identitätserhaltung erreicht. Unsere Projektseite: https://fantasy-amap.github.io/fantasy-talking/.
Die bedingte Bildgenerierung hat aufgrund ihrer Fähigkeit, Inhalte zu personalisieren, erhebliche Aufmerksamkeit erlangt. Allerdings steht das Feld vor Herausforderungen bei der Entwicklung von aufgabenunabhängigen, zuverlässigen und erklärbaren Bewertungsmetriken. Dieses Papier stellt CIGEval vor, einen einheitlichen agentenbasierten Rahmen für die umfassende Bewertung von Aufgaben der bedingten Bildgenerierung. CIGEval nutzt große multimodale Modelle (LMMs) als Kern, integriert ein multifunktionales Werkzeugset und etabliert ein fein abgestuftes Bewertungsrahmenwerk. Zusätzlich synthetisieren wir Bewertungstrajektorien für das Feinabstimmen, wodurch kleinere LMMs befähigt werden, autonom geeignete Werkzeuge auszuwählen und differenzierte Analysen auf der Grundlage von Werkzeugausgaben durchzuführen. Experimente über sieben bedeutende Aufgaben der bedingten Bildgenerierung zeigen, dass CIGEval (GPT-4o-Version) eine hohe Korrelation von 0,4625 mit menschlichen Bewertungen erreicht, was eng an die Inter-Annotator-Korrelation von 0,47 heranreicht. Darüber hinaus übertrifft CIGEval, wenn es mit 7B Open-Source-LMMs unter Verwendung von nur 2,3K Trainings-Trajektorien implementiert wird, die bisherige GPT-4o-basierte State-of-the-Art-Methode. Fallstudien zur GPT-4o-Bildgenerierung unterstreichen die Fähigkeit von CIGEval, subtile Probleme im Zusammenhang mit der Subjektkonsistenz und der Einhaltung von Steuerungsanleitungen zu identifizieren, was auf sein großes Potenzial für die Automatisierung der Bewertung von Bildgenerierungsaufgaben mit menschlicher Zuverlässigkeit hinweist.
Die Gestaltung der Kameratrajektorie spielt eine entscheidende Rolle in der Videoproduktion und dient als grundlegendes Werkzeug, um die Intention des Regisseurs zu vermitteln und die visuelle Erzählung zu verbessern. In der Kinematografie entwerfen Kameraleiter sorgfältig Kamerabewegungen, um ausdrucksstarke und intentionale Bildkompositionen zu erreichen. Allerdings sind bestehende Methoden zur Generierung von Kameratrajektorien begrenzt: Traditionelle Ansätze stützen sich auf geometrische Optimierung oder handgefertigte prozedurale Systeme, während neuere lernbasierte Methoden oft strukturelle Verzerrungen aufweisen oder keine Textausrichtung besitzen, was die kreative Synthese einschränkt. In dieser Arbeit stellen wir ein autoregressives Modell vor, das von der Expertise der Kameraleiter inspiriert ist, um künstlerische und ausdrucksstarke Kameratrajektorien zu generieren. Zunächst führen wir DataDoP ein, einen groß angelegten multimodalen Datensatz, der 29.000 reale Aufnahmen mit frei beweglichen Kameratrajektorien, Tiefenkarten und detaillierten Beschreibungen spezifischer Bewegungen, Interaktionen mit der Szene und Regieabsichten enthält. Dank der umfassenden und vielfältigen Datenbasis trainieren wir weiterhin einen autoregressiven, decoder-only Transformer für die hochwertige, kontextbewusste Generierung von Kamerabewegungen basierend auf Textanweisungen und RGBD-Eingaben, genannt GenDoP. Umfangreiche Experimente zeigen, dass GenDoP im Vergleich zu bestehenden Methoden eine bessere Steuerbarkeit, feinere Trajektorienanpassungen und eine höhere Bewegungsstabilität bietet. Wir glauben, dass unser Ansatz einen neuen Standard für lernbasierte Kinematografie setzt und den Weg für zukünftige Fortschritte in der Kamerasteuerung und Filmproduktion ebnet. Unsere Projektwebsite: https://kszpxxzmc.github.io/GenDoP/.
Das Schließen hat sich als die nächste große Herausforderung für Sprachmodelle (Language Models, LMs) herauskristallisiert, mit rasanten Fortschritten sowohl aus akademischen als auch industriellen Laboren. Dieser Fortschritt überholt jedoch oft die methodische Strenge, da viele Bewertungen auf Benchmarking-Praktiken beruhen, denen Transparenz, Robustheit oder statistische Fundierung fehlen. In dieser Arbeit führen wir eine umfassende empirische Studie durch und stellen fest, dass aktuelle Benchmarks für mathematisches Schließen stark von subtilen Implementierungsentscheidungen abhängen – einschließlich Dekodierungsparametern, Zufallsinitialisierungen, Prompt-Formatierungen und sogar Hardware- und Software-Framework-Konfigurationen. Die in jüngsten Studien berichteten Leistungssteigerungen beruhen häufig auf unklaren Vergleichen oder nicht dokumentierten Varianzquellen. Um diese Probleme zu adressieren, schlagen wir ein standardisiertes Bewertungsframework mit klar definierten Best Practices und Berichtsstandards vor. Mit diesem Framework bewerten wir neuere Methoden neu und stellen fest, dass Ansätze des Reinforcement Learning (RL) nur bescheidene Verbesserungen erzielen – weit unter den bisherigen Behauptungen – und anfällig für Überanpassung sind, insbesondere bei kleinskaligen Benchmarks wie AIME24. Im Gegensatz dazu zeigen Methoden des Supervised Finetuning (SFT) durchweg eine stärkere Generalisierungsfähigkeit. Um die Reproduzierbarkeit zu fördern, veröffentlichen wir den gesamten Code, die Prompts und Modellausgaben für Schließen-Benchmarks und schaffen so eine solide Grundlage für zukünftige Arbeiten.
Wir stellen OmniCaptioner vor, ein vielseitiges Framework zur visuellen Beschriftung, das feingranulare textuelle Beschreibungen für eine breite Palette visueller Domänen generiert. Im Gegensatz zu früheren Methoden, die auf bestimmte Bildtypen (z. B. natürliche Bilder oder geometrische Visualisierungen) beschränkt waren, bietet unser Framework eine einheitliche Lösung für die Beschriftung von natürlichen Bildern, visuellem Text (z. B. Plakate, Benutzeroberflächen, Lehrbücher) und strukturierten Visualisierungen (z. B. Dokumente, Tabellen, Diagramme). Indem es niedrig aufgelöste Pixelinformationen in semantisch reiche textuelle Repräsentationen umwandelt, schließt unser Framework die Lücke zwischen visuellen und textuellen Modalitäten. Unsere Ergebnisse heben drei wesentliche Vorteile hervor: (i) Verbessertes visuelles Schließen mit LLMs, bei dem langkontextuelle Beschreibungen visueller Modalitäten LLMs, insbesondere die DeepSeek-R1-Serie, befähigen, effektiv in multimodalen Szenarien zu schließen; (ii) Verbesserte Bildgenerierung, bei der detaillierte Beschreibungen Aufgaben wie Text-zu-Bild-Generierung und Bildtransformation optimieren; und (iii) Effizientes Supervised Fine-Tuning (SFT), das eine schnellere Konvergenz mit weniger Daten ermöglicht. Wir glauben, dass die Vielseitigkeit und Anpassungsfähigkeit von OmniCaptioner eine neue Perspektive bieten kann, um die Lücke zwischen Sprach- und visuellen Modalitäten zu schließen.
Während das Schlussfolgern zur Testzeit es Sprachmodellen ermöglicht, komplexe Aufgaben zu bewältigen, kann das Suchen oder Planen in natürlicher Sprache langsam, kostspielig und fehleranfällig sein. Doch selbst wenn Sprachmodelle Schwierigkeiten haben, die präzisen Denkschritte zur Lösung eines Problems nachzuahmen, sind sie oft hervorragend darin, dessen abstrakte Struktur zu beschreiben – sowohl wie man Lösungen überprüft als auch wie man nach ihnen sucht. Dieses Papier stellt DisCIPL vor, eine Methode zur „Selbststeuerung“ von Sprachmodellen, bei der ein Planungsmodell ein aufgaben-spezifisches Inferenzprogramm generiert, das von einer Gruppe von Follower-Modellen ausgeführt wird. Unser Ansatz stattet Sprachmodelle mit der Fähigkeit aus, rekursive Suchverfahren zu schreiben, die die Inferenz der Modelle leiten und so neue Formen von überprüfbarem und effizientem Schlussfolgern ermöglichen. Wenn DisCIPL mit einem kleinen Follower-Modell (z.B. Llama-3.2-1B) instanziiert wird, erreicht es (und übertrifft manchmal sogar) viel größere Modelle, einschließlich GPT-4o und o1, bei anspruchsvollen Aufgaben zur eingeschränkten Generierung. Durch die Entkopplung von Planung und Ausführung eröffnet unsere Arbeit einen Designraum hochgradig parallelisierter Monte-Carlo-Inferenzstrategien, die das Standard-Best-of-N-Sampling übertreffen, kein Fine-Tuning erfordern und automatisch von bestehenden Sprachmodellen implementiert werden können.
Wir präsentieren CAT-V (Caption AnyThing in Video), ein trainingsfreies Framework für feinkörnige, objektzentrierte Videobeschriftung, das detaillierte Beschreibungen von benutzerdefinierten Objekten über die Zeit ermöglicht. CAT-V integriert drei Schlüsselkomponenten: einen Segmentierer basierend auf SAMURAI für präzise Objektsegmentierung über Frames hinweg, einen Temporal Analyzer, der von TRACE-Uni angetrieben wird, für die genaue Erkennung von Ereignisgrenzen und temporale Analyse, sowie einen Captioner, der InternVL-2.5 verwendet, um detaillierte objektzentrierte Beschreibungen zu generieren. Durch räumlich-zeitliche visuelle Prompts und Chain-of-Thought-Reasoning erzeugt unser Framework detaillierte, zeitlich bewusste Beschreibungen von Objektattributen, Aktionen, Zuständen, Interaktionen und Umgebungskontexten, ohne zusätzliche Trainingsdaten zu benötigen. CAT-V unterstützt flexible Benutzerinteraktionen durch verschiedene visuelle Prompts (Punkte, Begrenzungsrahmen und unregelmäßige Regionen) und bewahrt die zeitliche Sensitivität, indem es Objektzustände und Interaktionen über verschiedene Zeitsegmente hinweg verfolgt. Unser Ansatz adressiert die Einschränkungen bestehender Videobeschriftungsmethoden, die entweder zu abstrakte Beschreibungen liefern oder an Objektpräzision mangeln, und ermöglicht feinkörnige, objektspezifische Beschreibungen bei gleichzeitiger Wahrung der zeitlichen Kohärenz und räumlichen Genauigkeit. Das GitHub-Repository für dieses Projekt ist verfügbar unter https://github.com/yunlong10/CAT-V.
Jüngste Fortschritte im Bereich des Reinforcement Learning haben die Fähigkeiten multimodaler großer Sprachmodelle (MLLMs) im Bereich des logischen Denkens erheblich vorangetrieben. Während Ansätze wie die Group Relative Policy Optimization (GRPO) und regelbasierte Belohnungsmechanismen vielversprechend in den Bereichen Text und Bild sind, bleibt ihre Anwendung auf das Verständnis von Videos begrenzt. Dieses Papier präsentiert eine systematische Untersuchung von Reinforcement Fine-Tuning (RFT) mit GRPO für Video-MLLMs, mit dem Ziel, die räumlich-zeitliche Wahrnehmung zu verbessern, ohne dabei die allgemeinen Fähigkeiten zu beeinträchtigen. Unsere Experimente zeigen, dass RFT äußerst dateneffizient für aufgabenspezifische Verbesserungen ist. Durch Multi-Task-RFT auf räumlich-zeitliche Wahrnehmungsziele mit begrenzten Stichproben entwickeln wir VideoChat-R1, ein leistungsstarkes Video-MLLM, das Spitzenleistungen bei räumlich-zeitlichen Wahrnehmungsaufgaben erzielt, ohne die Chat-Fähigkeit zu opfern, und dabei aufkeimende räumlich-zeitliche Denkfähigkeiten zeigt. Im Vergleich zu Qwen2.5-VL-7B steigert VideoChat-R1 die Leistung um ein Vielfaches bei Aufgaben wie zeitlicher Verankerung (+31,8) und Objektverfolgung (+31,2). Zudem verbessert es sich signifikant bei allgemeinen QA-Benchmarks wie VideoMME (+0,9), MVBench (+1,0) und Perception Test (+0,9). Unsere Ergebnisse unterstreichen das Potenzial von RFT für die spezialisierte Aufgabenverbesserung von Video-MLLMs. Wir hoffen, dass unsere Arbeit wertvolle Einblicke für zukünftige RL-Forschung in Video-MLLMs bietet.
Die Erzeugung natürlicher und nuancierter Zuhörerbewegungen für längere Interaktionen bleibt ein ungelöstes Problem. Bestehende Methoden stützen sich oft auf niedrigdimensionale Bewegungscodes für die Generierung von Gesichtsverhalten, gefolgt von fotorealistischem Rendering, was sowohl die visuelle Qualität als auch die Ausdrucksvielfalt einschränkt. Um diese Herausforderungen zu bewältigen, stellen wir DiTaiListener vor, das von einem Video-Diffusionsmodell mit multimodalen Bedingungen angetrieben wird. Unser Ansatz generiert zunächst kurze Segmente von Zuhörerreaktionen, die auf der Sprache und den Gesichtsbewegungen des Sprechers basieren, mit DiTaiListener-Gen. Anschließend werden die Übergangsbilder über DiTaiListener-Edit für einen nahtlosen Übergang verfeinert. Konkret passt DiTaiListener-Gen einen Diffusion Transformer (DiT) für die Aufgabe der Generierung von Zuhörerkopfporträts an, indem ein Causal Temporal Multimodal Adapter (CTM-Adapter) eingeführt wird, um die auditiven und visuellen Hinweise des Sprechers zu verarbeiten. Der CTM-Adapter integriert die Eingaben des Sprechers in kausaler Weise in den Videogenerierungsprozess, um zeitlich kohärente Zuhörerreaktionen zu gewährleisten. Für die Generierung von Langformvideos führen wir DiTaiListener-Edit ein, ein Übergangsverfeinerungsmodell für Video-zu-Video-Diffusion. Dieses Modell fügt Videosegmente zu flüssigen und kontinuierlichen Videos zusammen und gewährleistet dabei die zeitliche Konsistenz von Gesichtsausdrücken und Bildqualität bei der Zusammenführung kurzer Videosegmente, die von DiTaiListener-Gen erzeugt wurden. Quantitativ erreicht DiTaiListener Spitzenleistungen auf Benchmark-Datensätzen sowohl im Bereich des Fotorealismus (+73,8 % im FID auf RealTalk) als auch in der Bewegungsdarstellung (+6,1 % im FD-Metrik auf VICO). Nutzerstudien bestätigen die überlegene Leistung von DiTaiListener, wobei das Modell in Bezug auf Feedback, Vielfalt und Flüssigkeit klar bevorzugt wird und die Konkurrenz deutlich übertrifft.
Wir präsentieren WildGS-SLAM, ein robustes und effizientes monokulares RGB-SLAM-System, das für den Umgang mit dynamischen Umgebungen entwickelt wurde, indem es unsicherheitsbewusstes geometrisches Mapping nutzt. Im Gegensatz zu traditionellen SLAM-Systemen, die von statischen Szenen ausgehen, integriert unser Ansatz Tiefen- und Unsicherheitsinformationen, um die Tracking-, Mapping- und Rendering-Leistung in Gegenwart von beweglichen Objekten zu verbessern. Wir führen eine Unsicherheitskarte ein, die von einem flachen Multi-Layer-Perzeptron und DINOv2-Features vorhergesagt wird, um die Entfernung dynamischer Objekte sowohl während des Trackings als auch des Mappings zu steuern. Diese Unsicherheitskarte verbessert die dichte Bündeljustierung und die Optimierung der Gaußschen Karte, was die Rekonstruktionsgenauigkeit erhöht. Unser System wird auf mehreren Datensätzen evaluiert und zeigt eine artefaktfreie Viewsynthese. Die Ergebnisse demonstrieren die überlegene Leistung von WildGS-SLAM in dynamischen Umgebungen im Vergleich zu state-of-the-art Methoden.
Das selbstüberwachte Lernen hat die 2D-Computervision revolutioniert, indem es Modellen ermöglicht, auf großen, nicht annotierten Datensätzen trainiert zu werden und vielseitige, sofort einsatzbereite Merkmale bereitzustellen, die ähnlich gut abschneiden wie Modelle, die mit Labels trainiert wurden. Im Bereich des 3D-Szenenverständnisses werden selbstüberwachte Methoden jedoch typischerweise nur als Gewichtsinitialisierungsschritt für aufgaben-spezifisches Fein-Tuning verwendet, was ihren Nutzen für die allgemeine Merkmalsextraktion einschränkt. Diese Arbeit behebt diesen Mangel, indem sie ein robustes Evaluationsprotokoll vorschlägt, das speziell dafür entwickelt wurde, die Qualität selbstüberwachter Merkmale für das 3D-Szenenverständnis zu bewerten. Unser Protokoll verwendet Multi-Resolution-Feature-Sampling von hierarchischen Modellen, um reichhaltige punktbasierte Repräsentationen zu erstellen, die die semantischen Fähigkeiten des Modells erfassen und somit für die Bewertung mit Linear-Probing- und Nearest-Neighbor-Methoden geeignet sind. Darüber hinaus stellen wir das erste selbstüberwachte Modell vor, das ähnlich gut abschneidet wie überwachte Modelle, wenn nur sofort einsatzbereite Merkmale in einem Linear-Probing-Setup verwendet werden. Insbesondere wird unser Modell nativ in 3D mit einem neuartigen selbstüberwachten Ansatz trainiert, der auf einem Masked Scene Modeling-Ziel basiert, das tiefe Merkmale maskierter Patches auf eine Bottom-Up-Weise rekonstruiert und speziell auf hierarchische 3D-Modelle zugeschnitten ist. Unsere Experimente zeigen nicht nur, dass unsere Methode eine wettbewerbsfähige Leistung zu überwachten Modellen erreicht, sondern auch bestehende selbstüberwachte Ansätze deutlich übertrifft. Das Modell und der Trainingscode sind in unserem Github-Repository verfügbar (https://github.com/phermosilla/msm).
Objektzentriertes Lernen (Object-centric Learning, OCL) zielt darauf ab, Repräsentationen zu erlernen, die ausschließlich ein Objekt kodieren und es von anderen Objekten oder Hintergrundinformationen in einer Szene isolieren. Dieser Ansatz unterstützt verschiedene Ziele, darunter die Generalisierung außerhalb der Verteilung (Out-of-Distribution, OOD), effiziente Zusammensetzung mit wenigen Beispielen und die Modellierung strukturierter Umgebungen. Der Großteil der Forschung konzentrierte sich auf die Entwicklung unüberwachter Mechanismen, die Objekte in diskrete Slots im Repräsentationsraum trennen, bewertet durch unüberwachte Objekterkennung. Mit den jüngsten, probeneffizienten Segmentierungsmodellen können wir jedoch Objekte im Pixelraum trennen und unabhängig voneinander kodieren. Dies erzielt bemerkenswerte Zero-Shot-Leistungen auf OOD-Objekterkennungs-Benchmarks, ist skalierbar für Foundation-Modelle und kann eine variable Anzahl von Slots ohne Anpassungen verarbeiten. Somit wurde das Ziel von OCL-Methoden, objektzentrierte Repräsentationen zu erhalten, weitgehend erreicht. Trotz dieses Fortschritts bleibt eine zentrale Frage offen: Wie trägt die Fähigkeit, Objekte innerhalb einer Szene zu trennen, zu breiteren OCL-Zielen wie der OOD-Generalisierung bei? Wir gehen dieser Frage nach, indem wir die OOD-Generalisierungsherausforderung, die durch irreführende Hintergrundinformationen verursacht wird, durch die Linse des OCL untersuchen. Wir schlagen eine neuartige, trainingsfreie Methode namens Object-Centric Classification with Applied Masks (OCCAM) vor und zeigen, dass die segmentierungsbasierte Kodierung einzelner Objekte slot-basierte OCL-Methoden deutlich übertrifft. Dennoch bleiben Herausforderungen in realen Anwendungen bestehen. Wir stellen der OCL-Community ein Toolbox zur Verfügung, um skalierbare objektzentrierte Repräsentationen zu nutzen, und konzentrieren uns auf praktische Anwendungen und grundlegende Fragen, wie das Verständnis der Objektwahrnehmung in der menschlichen Kognition. Unser Code ist verfügbar unter https://github.com/AlexanderRubinstein/OCCAM{hier}.
Große Sprachmodelle (LLMs) haben Potenzial als Werkzeuge für wissenschaftliche Entdeckungen gezeigt. Dies hat ein wachsendes Interesse an ihrer Verwendung in humanistischen Disziplinen wie der historischen Linguistik und den Literaturwissenschaften geweckt. Diese Felder konstruieren oft Argumente auf der Grundlage von Abgrenzungen wie Genre oder, weniger flexibel, Zeitperioden. Obwohl Bemühungen unternommen wurden, die Inferenz auf spezifische Domänen durch Feinabstimmung oder Modellbearbeitung zu beschränken, vertreten wir die Ansicht, dass die einzige echte Garantie eine domänenbegrenzte Vorabschulung ist – in der Regel ein daten- und rechenintensives Unterfangen. Wir zeigen, dass effiziente Vorabschulungstechniken nützliche Modelle über Korpora erzeugen können, die zu groß für eine einfache manuelle Überprüfung, aber zu klein für „typische“ LLM-Ansätze sind. Wir verwenden eine neuartige Datumszuweisungs-Pipeline, um einen zeitlich segmentierten Datensatz von fünf 10-Millionen-Wort-Abschnitten zu erhalten. Wir trainieren zwei entsprechende Batterien von fünf Modellen über diese Korpussegmente, effizient vorabgeschult und Llama3-8B-Parameter effizient feinabgestimmt. Wir stellen fest, dass die vorabgeschulten Modelle schneller zu trainieren sind als die feinabgestimmten Baselines und dass sie die historischen Abteilungen unseres Korpus besser respektieren. Die Betonung von Geschwindigkeit und Präzision gegenüber a-historischer Vollständigkeit ermöglicht eine Reihe neuartiger Ansätze zur Hypothesenentdeckung und -prüfung in unseren Zielgebieten. Indem wir die diachrone Linguistik als Testumgebung verwenden, zeigen wir, dass unsere Methode die Erkennung einer vielfältigen Reihe von Phänomenen ermöglicht, einschließlich lexikalischer Veränderungen en masse, nicht-lexikalischer (grammatikalischer und morphologischer) Veränderungen sowie der Einführung/Veraltung von Wortbedeutungen. Wir stellen eine einsatzbereite Pipeline zur Verfügung, die die Erweiterung unseres Ansatzes auf andere Zielgebiete mit nur minimaler Anpassung ermöglicht.
Robustes Greifen verschiedener Objekte basierend auf Einzelbildwahrnehmung ist grundlegend für geschickte Roboter. Bisherige Arbeiten stützen sich oft auf vollständig beobachtbare Objekte, Experten-Demonstrationen oder statische Greifposen, was ihre Generalisierungsfähigkeit und Anpassungsfähigkeit an externe Störungen einschränkt. In dieser Arbeit präsentieren wir ein auf Verstärkungslernen basierendes Framework, das das null-Shot dynamische geschickte Greifen einer Vielzahl von unbekannten Objekten aus Einzelbildwahrnehmung ermöglicht, während adaptive Bewegungen als Reaktion auf externe Störungen ausgeführt werden. Wir verwenden eine handzentrische Objektdarstellung zur Extraktion von Formmerkmalen, die interaktionsrelevante lokale Formen betont und so die Robustheit gegenüber Formvarianz und Unsicherheit erhöht. Um eine effektive Handanpassung an Störungen bei begrenzten Beobachtungen zu ermöglichen, schlagen wir eine gemischte Curriculum-Lernstrategie vor, die zunächst Imitationslernen nutzt, um eine mit privilegiertem Echtzeit-Feedback aus visuellen und taktilen Daten trainierte Policy zu destillieren, und schrittweise zu Verstärkungslernen übergeht, um adaptive Bewegungen unter Störungen durch Beobachtungsrauschen und dynamische Randomisierung zu erlernen. Unsere Experimente zeigen eine starke Generalisierung beim Greifen unbekannter Objekte mit zufälligen Posen, mit Erfolgsraten von 97,0 % über 247.786 simulierte Objekte und 94,6 % über 512 reale Objekte. Wir demonstrieren auch die Robustheit unserer Methode gegenüber verschiedenen Störungen, einschließlich unbeobachteter Objektbewegungen und externer Kräfte, durch quantitative und qualitative Auswertungen. Projektseite: https://zdchan.github.io/Robust_DexGrasp/
In diesem Artikel stellen wir die Dialogue Evaluation Shared Task zur Extraktion strukturierter Meinungen aus russischen Nachrichtentexten vor. Die Aufgabe des Wettbewerbs besteht darin, Meinungstupel für einen gegebenen Satz zu extrahieren; die Tupel setzen sich aus einem Meinungsträger, dessen Zielobjekt, einem Ausdruck und der Einstellung des Trägers gegenüber dem Zielobjekt zusammen. Insgesamt erhielt die Aufgabe mehr als 100 Einreichungen. Die Teilnehmer experimentierten hauptsächlich mit großen Sprachmodellen in Zero-Shot-, Few-Shot- und Fine-Tuning-Formaten. Das beste Ergebnis auf dem Testset wurde durch das Fine-Tuning eines großen Sprachmodells erzielt. Wir verglichen außerdem 30 Prompts und 11 Open-Source-Sprachmodelle mit 3 bis 32 Milliarden Parametern in den 1-Shot- und 10-Shot-Einstellungen und identifizierten die besten Modelle und Prompts.
Der dominante Ansatz zur Generierung aus Sprachmodellen unter Berücksichtigung einer bestimmten Einschränkung ist das lokal eingeschränkte Decodieren (LCD), bei dem Token in jedem Zeitschritt inkrementell so abgetastet werden, dass die Einschränkung niemals verletzt wird. Typischerweise wird dies durch Token-Masking erreicht: Es wird über das Vokabular iteriert und nicht konforme Token ausgeschlossen. Es gibt zwei wichtige Probleme bei diesem Ansatz. (i) Die Bewertung der Einschränkung für jedes Token kann unverhältnismäßig teuer sein – die Vokabulare von Sprachmodellen überschreiten oft 100.000 Token. (ii) LCD kann die globale Verteilung über Zeichenketten verzerren, indem Token nur basierend auf lokalen Informationen abgetastet werden, selbst wenn sie in Sackgassen führen. Diese Arbeit stellt einen neuen Algorithmus vor, der beide Probleme adressiert. Erstens schlagen wir, um die Bewertung einer Einschränkung auf dem gesamten Vokabular in jedem Generierungsschritt zu vermeiden, einen adaptiven Rejection-Sampling-Algorithmus vor, der typischerweise um Größenordnungen weniger Einschränkungsbewertungen erfordert. Zweitens zeigen wir, wie dieser Algorithmus erweitert werden kann, um mit sehr geringem zusätzlichem Aufwand Schätzungen mit geringer Varianz und unverzerrten Gewichten zu erzeugen – Schätzungen, die sicher innerhalb zuvor vorgeschlagener sequentieller Monte-Carlo-Algorithmen verwendet werden können, um das kurzsichtige Verhalten der lokalen Einschränkungsdurchsetzung zu korrigieren. Durch umfangreiche empirische Bewertungen in den Bereichen Text-zu-SQL, Molekülsynthese, Zielinferenz, Mustererkennung und JSON-Domänen zeigen wir, dass unser Ansatz den state-of-the-art Baselines überlegen ist, eine breitere Klasse von Einschränkungen unterstützt und sowohl die Laufzeit als auch die Leistung verbessert. Zusätzliche theoretische und empirische Analysen zeigen, dass die Laufzeiteffizienz unserer Methode durch ihre dynamische Nutzung von Berechnungen angetrieben wird, die mit der Divergenz zwischen dem uneingeschränkten und dem eingeschränkten Sprachmodell skaliert, und als Konsequenz sind die Laufzeitverbesserungen für bessere Modelle größer.