Artigos de pesquisa em IA selecionados diariamente com traduções
Inspirados pelo sucesso do DeepSeek-R1 em eliciar habilidades de raciocínio por meio de aprendizado por reforço baseado em regras (RL), introduzimos o Video-R1 como a primeira tentativa de explorar sistematicamente o paradigma R1 para eliciar raciocínio em vídeo dentro de modelos de linguagem multimodal de grande escala (MLLMs). No entanto, a aplicação direta do treinamento de RL com o algoritmo GRPO para raciocínio em vídeo apresenta dois desafios principais: (i) a falta de modelagem temporal para o raciocínio em vídeo, e (ii) a escassez de dados de alta qualidade para raciocínio em vídeo. Para abordar essas questões, primeiro propomos o algoritmo T-GRPO, que incentiva os modelos a utilizar informações temporais em vídeos para raciocínio. Além disso, em vez de depender exclusivamente de dados de vídeo, incorporamos dados de alta qualidade para raciocínio em imagens no processo de treinamento. Construímos dois conjuntos de dados: Video-R1-COT-165k para o início a frio de SFT e Video-R1-260k para o treinamento de RL, ambos contendo dados de imagem e vídeo. Os resultados experimentais demonstram que o Video-R1 alcança melhorias significativas em benchmarks de raciocínio em vídeo, como VideoMMMU e VSI-Bench, bem como em benchmarks gerais de vídeo, incluindo MVBench e TempCompass, entre outros. Notavelmente, o Video-R1-7B atinge uma precisão de 35,8% no benchmark de raciocínio espacial em vídeo VSI-bench, superando o modelo proprietário comercial GPT-4o. Todos os códigos, modelos e dados são disponibilizados.
A era dos agentes inteligentes está sobre nós, impulsionada por avanços revolucionários em modelos de linguagem de grande escala. Agentes baseados em Large Language Models (LLMs), com comportamentos orientados a objetivos e capacidades de adaptação dinâmica, potencialmente representam um caminho crítico em direção à inteligência artificial geral. Este estudo desconstroi sistematicamente os sistemas de agentes LLM por meio de uma taxonomia centrada em metodologias, conectando fundamentos arquitetônicos, mecanismos de colaboração e caminhos evolutivos. Unificamos fios de pesquisa fragmentados ao revelar conexões fundamentais entre os princípios de design de agentes e seus comportamentos emergentes em ambientes complexos. Nosso trabalho oferece uma perspectiva arquitetônica unificada, examinando como os agentes são construídos, como colaboram e como evoluem ao longo do tempo, ao mesmo tempo em que aborda metodologias de avaliação, aplicações de ferramentas, desafios práticos e diversos domínios de aplicação. Ao examinar os desenvolvimentos mais recentes neste campo em rápida evolução, oferecemos aos pesquisadores uma taxonomia estruturada para entender os agentes LLM e identificamos direções promissoras para pesquisas futuras. A coleção está disponível em https://github.com/luo-junyu/Awesome-Agent-Papers.
O recente DeepSeek-R1 demonstrou o surgimento de capacidades de raciocínio em LLMs por meio de aprendizado por reforço (RL) com recompensas baseadas em regras. Baseando-se nessa ideia, somos os primeiros a explorar como o RL baseado em regras pode aprimorar as capacidades de raciocínio de modelos de linguagem multimodal (MLLMs) para tarefas de previsão de ações em interfaces gráficas de usuário (GUI). Para isso, criamos um pequeno, porém de alta qualidade, conjunto de dados de 136 tarefas desafiadoras, abrangendo cinco tipos de ações comuns em dispositivos móveis. Também introduzimos uma recompensa de ação unificada baseada em regras, permitindo a otimização do modelo por meio de algoritmos baseados em políticas, como o Group Relative Policy Optimization (GRPO). Os resultados experimentais demonstram que nosso modelo proposto, eficiente em dados, UI-R1-3B, alcança melhorias substanciais tanto em tarefas dentro do domínio (ID) quanto fora do domínio (OOD). Especificamente, no benchmark ID AndroidControl, a precisão do tipo de ação melhora em 15%, enquanto a precisão de localização aumenta em 10,3%, em comparação com o modelo base (ou seja, Qwen2.5-VL-3B). No benchmark OOD de localização de GUI ScreenSpot-Pro, nosso modelo supera o modelo base em 6,0% e alcança desempenho competitivo com modelos maiores (por exemplo, OS-Atlas-7B), que são treinados por meio de ajuste fino supervisionado (SFT) em 76K dados. Esses resultados destacam o potencial do aprendizado por reforço baseado em regras para avançar a compreensão e o controle de GUIs, abrindo caminho para pesquisas futuras nesse domínio.
Nos últimos anos, o rápido desenvolvimento de modelos de raciocínio em larga escala resultou na saturação dos benchmarks existentes para avaliação de raciocínio matemático, destacando a necessidade urgente de frameworks de avaliação mais desafiadores e rigorosos. Para abordar essa lacuna, apresentamos o OlymMATH, um novo benchmark matemático de nível olímpico, projetado para testar rigorosamente as capacidades de raciocínio complexo de LLMs. O OlymMATH apresenta 200 problemas meticulosamente curados, cada um verificado manualmente e disponível em versões paralelas em inglês e chinês. Os problemas são organizados sistematicamente em dois níveis distintos de dificuldade: (1) problemas de nível AIME (fáceis) que estabelecem uma linha de base para a avaliação de raciocínio matemático, e (2) problemas significativamente mais desafiadores (difíceis) projetados para expandir os limites dos modelos state-of-the-art atuais. Em nosso benchmark, esses problemas abrangem quatro áreas principais da matemática, cada uma incluindo uma solução numérica verificável para permitir uma avaliação objetiva e baseada em regras. Resultados empíricos destacam o desafio significativo apresentado pelo OlymMATH, com modelos state-of-the-art, incluindo o DeepSeek-R1 e o o3-mini da OpenAI, demonstrando precisão notavelmente limitada no subconjunto de problemas difíceis. Além disso, o benchmark facilita uma avaliação bilíngue abrangente das habilidades de raciocínio matemático—uma dimensão crítica que permanece amplamente não abordada nos benchmarks mainstream de raciocínio matemático. Lançamos o benchmark OlymMATH no projeto STILL: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
A geração de vídeos avançou significativamente, evoluindo da produção de resultados irreais para a criação de vídeos visualmente convincentes e temporalmente coerentes. Para avaliar esses modelos generativos de vídeo, benchmarks como o VBench foram desenvolvidos para medir sua fidelidade, considerando fatores como estética por quadro, consistência temporal e aderência básica ao prompt. No entanto, esses aspectos representam principalmente uma fidelidade superficial, que se concentra em se o vídeo parece visualmente convincente, em vez de se ele adere a princípios do mundo real. Embora os modelos recentes tenham um desempenho cada vez melhor nessas métricas, eles ainda lutam para gerar vídeos que não sejam apenas visualmente plausíveis, mas fundamentalmente realistas. Para alcançar verdadeiros "modelos de mundo" por meio da geração de vídeos, a próxima fronteira está na fidelidade intrínseca, garantindo que os vídeos gerados adiram às leis físicas, ao raciocínio de senso comum, à correção anatômica e à integridade composicional. Alcançar esse nível de realismo é essencial para aplicações como a produção de filmes assistida por IA e a modelagem de mundos simulados. Para preencher essa lacuna, apresentamos o VBench-2.0, um benchmark de próxima geração projetado para avaliar automaticamente modelos generativos de vídeo quanto à sua fidelidade intrínseca. O VBench-2.0 avalia cinco dimensões principais: Fidelidade Humana, Controlabilidade, Criatividade, Física e Senso Comum, cada uma delas subdividida em capacidades refinadas. Adaptado para dimensões individuais, nosso framework de avaliação integra generalistas, como VLMs e LLMs de última geração, e especialistas, incluindo métodos de detecção de anomalias propostos para geração de vídeo. Realizamos anotações extensas para garantir o alinhamento com o julgamento humano. Ao ir além da fidelidade superficial em direção à fidelidade intrínseca, o VBench-2.0 visa estabelecer um novo padrão para a próxima geração de modelos generativos de vídeo na busca pela fidelidade intrínseca.
Modelos de Raciocínio de Grande Escala (LRMs) exibem habilidades notáveis de raciocínio, mas dependem principalmente de conhecimento paramétrico, o que limita a precisão factual. Embora trabalhos recentes tenham equipado LRMs baseados em aprendizado por reforço (RL) com capacidades de recuperação de informações, eles sofrem com excesso de reflexão e falta de robustez no raciocínio, reduzindo sua eficácia em tarefas de questionamento e resposta (QA). Para resolver isso, propomos o ReaRAG, um modelo de raciocínio aprimorado em factualidade que explora consultas diversas sem iterações excessivas. Nossa solução inclui uma nova estrutura de construção de dados com um limite superior no comprimento da cadeia de raciocínio. Especificamente, primeiro utilizamos um LRM para gerar pensamento deliberado, depois selecionamos uma ação de um espaço de ações predefinido (Pesquisar e Finalizar). Para a ação de Pesquisar, uma consulta é executada no mecanismo RAG, onde o resultado é retornado como observação para orientar etapas de raciocínio posteriores. Esse processo itera até que uma ação de Finalizar seja escolhida. Beneficiando-se das fortes capacidades de raciocínio do ReaRAG, nossa abordagem supera as linhas de base existentes em QA de múltiplos saltos. Análises adicionais destacam sua forte capacidade reflexiva de reconhecer erros e refinar sua trajetória de raciocínio. Nosso estudo aprimora a factualidade dos LRMs enquanto integra efetivamente raciocínio robusto para Geração Aumentada por Recuperação (RAG).
Apresentamos o LeX-Art, um conjunto abrangente para síntese de texto-imagem de alta qualidade que preenche sistematicamente a lacuna entre a expressividade do prompt e a fidelidade na renderização de texto. Nossa abordagem segue um paradigma centrado em dados, construindo um pipeline de síntese de dados de alta qualidade baseado no Deepseek-R1 para criar o LeX-10K, um conjunto de 10 mil imagens de alta resolução e esteticamente refinadas com dimensões de 1024x1024. Além da construção do conjunto de dados, desenvolvemos o LeX-Enhancer, um modelo robusto de enriquecimento de prompts, e treinamos dois modelos de texto para imagem, o LeX-FLUX e o LeX-Lumina, alcançando desempenho de ponta na renderização de texto. Para avaliar sistematicamente a geração de texto visual, introduzimos o LeX-Bench, um benchmark que avalia fidelidade, estética e alinhamento, complementado pela Distância de Edição Normalizada Pareada (PNED), uma nova métrica para avaliação robusta da precisão do texto. Experimentos demonstram melhorias significativas, com o LeX-Lumina alcançando um ganho de 79,81% no PNED no CreateBench, e o LeX-FLUX superando as baselines em precisão de cor (+3,18%), posicional (+4,45%) e de fonte (+3,81%). Nossos códigos, modelos, conjuntos de dados e demonstração estão publicamente disponíveis.
Retratos de vídeo-chat interativos em tempo real têm sido cada vez mais reconhecidos como a tendência futura, particularmente devido ao progresso notável alcançado nas tecnologias de chat de texto e voz. No entanto, os métodos existentes focam principalmente na geração em tempo real de movimentos da cabeça, mas lutam para produzir movimentos corporais sincronizados que correspondam a essas ações da cabeça. Além disso, alcançar um controle refinado sobre o estilo de fala e as nuances das expressões faciais continua sendo um desafio. Para abordar essas limitações, introduzimos uma nova estrutura para geração de vídeo de retrato estilizado em tempo real, permitindo um vídeo-chat expressivo e flexível que vai além da interação de cabeça falante para incluir o corpo superior. Nossa abordagem consiste em duas etapas. A primeira etapa envolve modelos eficientes de difusão de movimento hierárquico, que consideram tanto representações de movimento explícitas quanto implícitas com base em entradas de áudio, capazes de gerar uma variedade diversificada de expressões faciais com controle estilístico e sincronização entre os movimentos da cabeça e do corpo. A segunda etapa visa gerar vídeo de retrato com movimentos do corpo superior, incluindo gestos das mãos. Injetamos sinais de controle explícitos das mãos no gerador para produzir movimentos mais detalhados das mãos, e ainda realizamos refinamento facial para aumentar o realismo e a expressividade geral do vídeo de retrato. Além disso, nossa abordagem suporta a geração eficiente e contínua de vídeo de retrato do corpo superior em resolução máxima de 512 * 768 a até 30fps em uma GPU 4090, permitindo vídeo-chat interativo em tempo real. Resultados experimentais demonstram a capacidade de nossa abordagem de produzir vídeos de retrato com rica expressividade e movimentos naturais do corpo superior.
Avanços recentes em modelos de pensamento profundo demonstraram capacidades notáveis de raciocínio em tarefas matemáticas e de codificação. No entanto, sua eficácia em domínios incorporados, que exigem interação contínua com ambientes por meio de trajetórias intercaladas de imagem e ação, permanece amplamente inexplorada. Apresentamos o Embodied Reasoner, um modelo que estende o raciocínio no estilo o1 para tarefas de busca interativa incorporada. Diferente do raciocínio matemático, que depende principalmente de dedução lógica, cenários incorporados exigem compreensão espacial, raciocínio temporal e autorreflexão contínua com base no histórico de interações. Para enfrentar esses desafios, sintetizamos 9,3 mil trajetórias coerentes de Observação-Pensamento-Ação, contendo 64 mil imagens interativas e 90 mil processos de pensamento diversos (análise, raciocínio espacial, reflexão, planejamento e verificação). Desenvolvemos um pipeline de treinamento em três estágios que aprimora progressivamente as capacidades do modelo por meio de aprendizado por imitação, autoexploração via amostragem por rejeição e autocorreção por meio de ajuste de reflexão. A avaliação mostra que nosso modelo supera significativamente os modelos avançados de raciocínio visual, por exemplo, excedendo o OpenAI o1, o3-mini e Claude-3.7 em +9%, 24% e +13%, respectivamente. A análise revela que nosso modelo exibe menos buscas repetidas e inconsistências lógicas, com vantagens particulares em tarefas complexas de longo horizonte. Ambientes do mundo real também demonstram nossa superioridade, exibindo menos casos de buscas repetidas e inconsistências lógicas.
Apresentamos o Lumina-Image 2.0, um framework avançado de geração de imagens a partir de texto que alcança progressos significativos em comparação com trabalhos anteriores, como o Lumina-Next. O Lumina-Image 2.0 é construído sobre dois princípios fundamentais: (1) Unificação - ele adota uma arquitetura unificada (Unified Next-DiT) que trata tokens de texto e imagem como uma sequência conjunta, permitindo interações multimodais naturais e a expansão contínua de tarefas. Além disso, como sistemas de legendagem de alta qualidade podem fornecer pares de treinamento texto-imagem semanticamente alinhados, introduzimos um sistema de legendagem unificado, o Unified Captioner (UniCap), projetado especificamente para tarefas de geração de texto para imagem (T2I). O UniCap se destaca na geração de legendas abrangentes e precisas, acelerando a convergência e melhorando a aderência aos prompts. (2) Eficiência - para melhorar a eficiência do nosso modelo proposto, desenvolvemos estratégias de treinamento progressivo em múltiplos estágios e introduzimos técnicas de aceleração de inferência sem comprometer a qualidade da imagem. Avaliações extensas em benchmarks acadêmicos e arenas públicas de geração de texto para imagem demonstram que o Lumina-Image 2.0 oferece desempenhos robustos mesmo com apenas 2,6 bilhões de parâmetros, destacando sua escalabilidade e eficiência de design. Disponibilizamos nossos detalhes de treinamento, código e modelos em https://github.com/Alpha-VLLM/Lumina-Image-2.0.
Modelos de linguagem de grande escala (LLMs) têm demonstrado potencial em auxiliar pesquisas científicas, mas sua capacidade de descobrir hipóteses de pesquisa de alta qualidade permanece inexplorada devido à falta de um benchmark dedicado. Para preencher essa lacuna, introduzimos o primeiro benchmark em larga escala para avaliar LLMs com um conjunto quase suficiente de sub-tarefas de descoberta científica: recuperação de inspirações, composição de hipóteses e classificação de hipóteses. Desenvolvemos um framework automatizado que extrai componentes críticos - questões de pesquisa, revisões de literatura, inspirações e hipóteses - de artigos científicos em 12 disciplinas, com validação de especialistas confirmando sua precisão. Para evitar contaminação de dados, focamos exclusivamente em artigos publicados em 2024, garantindo sobreposição mínima com os dados de pré-treinamento dos LLMs. Nossa avaliação revela que os LLMs têm bom desempenho na recuperação de inspirações, uma tarefa fora da distribuição, sugerindo sua capacidade de revelar associações de conhecimento novas. Isso posiciona os LLMs como "minas de hipóteses de pesquisa", capazes de facilitar a descoberta científica automatizada ao gerar hipóteses inovadoras em escala com intervenção humana mínima.
Os Modelos de Linguagem de Grande Escala para Áudio (AudioLLMs) têm recebido ampla atenção e melhoraram significativamente o desempenho em tarefas de áudio, como conversação, compreensão de áudio e reconhecimento automático de fala (ASR). Apesar desses avanços, há uma ausência de um benchmark para avaliar AudioLLMs em cenários financeiros, onde dados de áudio, como chamadas de conferência de resultados e discursos de CEOs, são recursos cruciais para análise financeira e decisões de investimento. Neste artigo, apresentamos o FinAudio, o primeiro benchmark projetado para avaliar a capacidade de AudioLLMs no domínio financeiro. Primeiro, definimos três tarefas com base nas características únicas do domínio financeiro: 1) ASR para áudio financeiro curto, 2) ASR para áudio financeiro longo e 3) sumarização de áudio financeiro longo. Em seguida, curamos dois conjuntos de dados de áudio curtos e dois longos, respectivamente, e desenvolvemos um novo conjunto de dados para sumarização de áudio financeiro, compondo o benchmark FinAudio. Depois, avaliamos sete AudioLLMs prevalentes no FinAudio. Nossa avaliação revela as limitações dos AudioLLMs existentes no domínio financeiro e oferece insights para melhorar os AudioLLMs. Todos os conjuntos de dados e códigos serão disponibilizados.
Investigamos como aprimorar a fidelidade física de modelos de geração de vídeo utilizando vídeos sintéticos derivados de pipelines de computação gráfica. Esses vídeos renderizados respeitam a física do mundo real, como a manutenção da consistência 3D, e servem como um recurso valioso que pode potencialmente melhorar os modelos de geração de vídeo. Para aproveitar esse potencial, propomos uma solução que cuida e integra dados sintéticos, ao mesmo tempo em que introduz um método para transferir seu realismo físico para o modelo, reduzindo significativamente artefatos indesejados. Por meio de experimentos em três tarefas representativas que enfatizam a consistência física, demonstramos sua eficácia em aprimorar a fidelidade física. Embora nosso modelo ainda não possua um entendimento profundo da física, nosso trabalho oferece uma das primeiras demonstrações empíricas de que vídeos sintéticos melhoram a fidelidade física na síntese de vídeo. Website: https://kevinz8866.github.io/simulation/
Os modelos de difusão alcançam uma qualidade de geração notável, mas sofrem com amostragem computacionalmente intensiva devido à discretização de passos subótima. Enquanto trabalhos existentes se concentram na otimização das direções de remoção de ruído, abordamos o design fundamentado de cronogramas de tamanho de passo. Este artigo propõe a Destilação de Tamanho de Passo Ótimo, uma estrutura de programação dinâmica que extrai cronogramas teoricamente ótimos ao destilar conhecimento de trajetórias de referência. Ao reformular a otimização do tamanho do passo como uma minimização recursiva de erro, nosso método garante limites globais de discretização por meio da exploração de subestrutura ótima. Crucialmente, os cronogramas destilados demonstram forte robustez em arquiteturas, solucionadores de EDOs e cronogramas de ruído. Experimentos mostram uma aceleração de 10x na geração de texto para imagem, preservando 99,4% do desempenho no GenEval. Nosso código está disponível em https://github.com/bebebe666/OptimalSteps.
Os recentes avanços na geração de vídeos têm testemunhado progressos significativos, especialmente com o rápido desenvolvimento dos modelos de difusão. Apesar disso, suas deficiências em cognição física têm gradualmente recebido ampla atenção - o conteúdo gerado frequentemente viola as leis fundamentais da física, caindo no dilema de "realismo visual, mas absurdo físico". Os pesquisadores começaram a reconhecer cada vez mais a importância da fidelidade física na geração de vídeos e tentaram integrar cognição física heurística, como representações de movimento e conhecimento físico, em sistemas generativos para simular cenários dinâmicos do mundo real. Considerando a falta de uma visão sistemática nesse campo, esta pesquisa visa fornecer um resumo abrangente dos designs de arquitetura e suas aplicações para preencher essa lacuna. Especificamente, discutimos e organizamos o processo evolutivo da cognição física na geração de vídeos a partir de uma perspectiva da ciência cognitiva, enquanto propomos uma taxonomia de três níveis: 1) percepção de esquema básico para geração, 2) cognição passiva de conhecimento físico para geração e 3) cognição ativa para simulação de mundo, abrangendo métodos state-of-the-art, paradigmas clássicos e benchmarks. Posteriormente, enfatizamos os desafios-chave inerentes a esse domínio e delineamos possíveis caminhos para pesquisas futuras, contribuindo para avançar as fronteiras da discussão tanto na academia quanto na indústria. Por meio de uma revisão estruturada e análise interdisciplinar, esta pesquisa visa fornecer orientação direcional para o desenvolvimento de paradigmas de geração de vídeos interpretáveis, controláveis e fisicamente consistentes, impulsionando assim os modelos generativos do estágio de "mimetização visual" para uma nova fase de "compreensão física semelhante à humana".
Modelos de segmentação semântica de vocabulário aberto associam visão e texto para rotular pixels a partir de um conjunto indefinido de classes usando consultas textuais, oferecendo desempenho versátil em novos conjuntos de dados. No entanto, grandes mudanças entre os domínios de treinamento e teste degradam seu desempenho, exigindo ajuste fino para aplicações eficazes no mundo real. Introduzimos a Adaptação de Biblioteca Semântica (SemLA), uma nova estrutura para adaptação de domínio em tempo de teste sem necessidade de treinamento. A SemLA aproveita uma biblioteca de adaptadores baseados em LoRA indexados com embeddings CLIP, combinando dinamicamente os adaptadores mais relevantes com base na proximidade ao domínio alvo no espaço de embeddings. Essa abordagem constrói um modelo ad-hoc personalizado para cada entrada específica sem treinamento adicional. Nosso método escala de forma eficiente, melhora a explicabilidade ao rastrear as contribuições dos adaptadores e protege inerentemente a privacidade dos dados, tornando-o ideal para aplicações sensíveis. Experimentos abrangentes em um benchmark de 20 domínios construído sobre 10 conjuntos de dados padrão demonstram a superior adaptabilidade e desempenho da SemLA em diversos cenários, estabelecendo um novo padrão em adaptação de domínio para segmentação semântica de vocabulário aberto.
Modelos generativos multimodais que podem compreender e gerar conteúdo em múltiplas modalidades são predominantemente baseados em abordagens autoregressivas (AR), que processam tokens sequencialmente da esquerda para a direita ou de cima para baixo. Esses modelos lidam conjuntamente com imagens, texto, vídeo e áudio para diversas tarefas, como legendagem de imagens, resposta a perguntas e geração de imagens. Neste trabalho, exploramos modelos de difusão discreta como uma formulação generativa unificada no domínio conjunto de texto e imagem, construindo sobre seu sucesso recente na geração de texto. Modelos de difusão discreta oferecem várias vantagens em relação aos modelos AR, incluindo maior controle sobre a qualidade versus diversidade das amostras geradas, a capacidade de realizar preenchimento multimodal conjunto (em ambos os domínios de texto e imagem) e maior controlabilidade na geração por meio de orientação. Aproveitando esses benefícios, apresentamos o primeiro Modelo de Difusão Discreta Multimodal Unificado (UniDisc), capaz de compreender e gerar conjuntamente texto e imagens para uma variedade de tarefas subsequentes. Comparamos o UniDisc a modelos AR multimodais, realizando uma análise de escalabilidade e demonstrando que o UniDisc supera esses modelos em termos de desempenho e computação no tempo de inferência, além de maior controlabilidade, editabilidade, preenchimento e flexibilidade na troca entre tempo de inferência e qualidade de geração. Código e visualizações adicionais estão disponíveis em https://unidisc.github.io.
Este artigo apresenta a submissão da equipe ZJUKLAB para a Tarefa 4 do SemEval-2025: Desaprendizado de Conteúdo Sensível em Modelos de Linguagem de Grande Escala. Esta tarefa visa apagar seletivamente conhecimentos sensíveis de modelos de linguagem de grande escala, evitando tanto o esquecimento excessivo quanto o insuficiente. Propomos um sistema de desaprendizado que utiliza a Fusão de Modelos (especificamente TIES-Merging), combinando dois modelos especializados em um modelo desaprendido mais equilibrado. Nosso sistema alcança resultados competitivos, ficando em segundo lugar entre 26 equipes, com uma pontuação online de 0,944 para a Agregação de Tarefas e 0,487 para a Agregação Geral. Neste artigo, também realizamos experimentos locais e uma análise abrangente do processo de desaprendizado, examinando trajetórias de desempenho, dinâmicas de perda e perspectivas de pesos, juntamente com vários experimentos complementares, para entender a eficácia de nosso método. Além disso, analisamos as deficiências de nosso método e das métricas de avaliação, enfatizando que as pontuações MIA e as métricas baseadas em ROUGE são insuficientes para avaliar completamente o sucesso do desaprendizado. Por fim, destacamos a necessidade de metodologias de avaliação mais abrangentes e uma reavaliação dos objetivos do desaprendizado em pesquisas futuras. O código está disponível em https://github.com/zjunlp/unlearn/tree/main/semeval25.
Avanços recentes em modelos 2D e multimodais alcançaram sucesso notável ao aproveitar o treinamento em grande escala em conjuntos de dados extensos. No entanto, estender essas conquistas para permitir interações de forma livre e operações semânticas de alto nível com cenas 3D/4D complexas continua sendo um desafio. Essa dificuldade decorre da disponibilidade limitada de conjuntos de dados 3D/4D ou multiview em grande escala e anotados, que são cruciais para tarefas generalizáveis de visão e linguagem, como segmentação baseada em vocabulário aberto e prompts, edição guiada por linguagem e resposta a perguntas visuais (VQA). Neste artigo, apresentamos o Feature4X, um framework universal projetado para estender qualquer funcionalidade de um modelo de fundação de visão 2D para o domínio 4D, utilizando apenas vídeo monocular como entrada, amplamente disponível em conteúdo gerado por usuários. O "X" no Feature4X representa sua versatilidade, permitindo qualquer tarefa por meio de destilação de campo de características 4D condicionado por modelos e adaptável. No cerne de nosso framework está uma estratégia de otimização dinâmica que unifica múltiplas capacidades de modelos em uma única representação. Além disso, até onde sabemos, o Feature4X é o primeiro método a destilar e elevar as características de modelos de fundação de vídeo (por exemplo, SAM2, InternVideo2) para um campo de características 4D explícito usando Gaussian Splatting. Nossos experimentos demonstram segmentação de qualquer coisa em novas visões, edição geométrica e de aparência de cenas, e VQA de forma livre em todos os passos de tempo, impulsionados por LLMs em loops de feedback. Esses avanços ampliam o escopo de aplicações de IA agentiva ao fornecer uma base para sistemas escaláveis, contextualmente e espaciotemporalmente conscientes, capazes de interação imersiva com cenas dinâmicas 4D.
Entradas que induzem falhas desempenham um papel crucial no diagnóstico e análise de bugs de software. Relatórios de bugs geralmente contêm essas entradas, que os desenvolvedores extraem para facilitar a depuração. Como os relatórios de bugs são escritos em linguagem natural, pesquisas anteriores têm aproveitado várias técnicas de Processamento de Linguagem Natural (PLN) para a extração automatizada de entradas. Com o advento dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), surge uma importante questão de pesquisa: quão efetivamente os LLMs generativos podem extrair entradas que induzem falhas de relatórios de bugs? Neste artigo, propomos o LLPut, uma técnica para avaliar empiricamente o desempenho de três LLMs generativos de código aberto -- LLaMA, Qwen e Qwen-Coder -- na extração de entradas relevantes de relatórios de bugs. Realizamos uma avaliação experimental em um conjunto de dados de 206 relatórios de bugs para avaliar a precisão e a eficácia desses modelos. Nossos resultados fornecem insights sobre as capacidades e limitações dos LLMs generativos no diagnóstico automatizado de bugs.
A consistência temporal é crucial na previsão de vídeos para garantir que as saídas sejam coerentes e livres de artefatos. Métodos tradicionais, como atenção temporal e convolução 3D, podem enfrentar dificuldades com movimentos significativos de objetos e podem não capturar dependências temporais de longo alcance em cenas dinâmicas. Para abordar essa lacuna, propomos a Camada Tracktention, um componente arquitetônico inovador que integra explicitamente informações de movimento usando trilhas de pontos, ou seja, sequências de pontos correspondentes entre quadros. Ao incorporar essas pistas de movimento, a Camada Tracktention melhora o alinhamento temporal e lida efetivamente com movimentos complexos de objetos, mantendo representações de características consistentes ao longo do tempo. Nossa abordagem é computacionalmente eficiente e pode ser integrada de forma contínua em modelos existentes, como Vision Transformers, com modificações mínimas. Ela pode ser usada para atualizar modelos projetados apenas para imagens para modelos de vídeo de última geração, às vezes superando modelos projetados nativamente para previsão de vídeo. Demonstramos isso na previsão de profundidade de vídeo e na colorização de vídeo, onde modelos aprimorados com a Camada Tracktention exibem uma consistência temporal significativamente melhorada em comparação com as linhas de base.
A edição de imagens guiada por texto tem como objetivo modificar regiões específicas de uma imagem de acordo com instruções em linguagem natural, mantendo a estrutura geral e a fidelidade do fundo. Os métodos existentes utilizam máscaras derivadas de mapas de atenção cruzada gerados por modelos de difusão para identificar as regiões alvo para modificação. No entanto, como os mecanismos de atenção cruzada focam na relevância semântica, eles têm dificuldade em manter a integridade da imagem. Como resultado, esses métodos frequentemente carecem de consistência espacial, levando a artefatos de edição e distorções. Neste trabalho, abordamos essas limitações e introduzimos o LOCATEdit, que aprimora os mapas de atenção cruzada por meio de uma abordagem baseada em grafos, utilizando relações entre patches derivadas da auto-atenção para manter uma atenção suave e coerente entre as regiões da imagem, garantindo que as alterações sejam limitadas aos itens designados enquanto preservam a estrutura circundante. O \method supera consistentemente e substancialmente as baselines existentes no PIE-Bench, demonstrando seu desempenho de ponta e eficácia em várias tarefas de edição. O código pode ser encontrado em https://github.com/LOCATEdit/LOCATEdit/.