Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Story2Board, um framework sem necessidade de treinamento para a geração expressiva de storyboards a partir de linguagem natural. Os métodos existentes focam de forma restrita na identidade do sujeito, negligenciando aspectos-chave da narrativa visual, como composição espacial, evolução do cenário e ritmo narrativo. Para abordar isso, introduzimos um framework leve de consistência composto por dois componentes: Ancoragem de Painel Latente, que preserva uma referência compartilhada de personagem entre os painéis, e Mistura Recíproca de Valores de Atenção, que combina suavemente características visuais entre pares de tokens com forte atenção recíproca. Juntos, esses mecanismos aprimoram a coerência sem alterações arquitetônicas ou ajustes finos, permitindo que modelos de difusão de última geração gerem storyboards visualmente diversos, porém consistentes. Para estruturar a geração, utilizamos um modelo de linguagem pronto para converter histórias de forma livre em prompts fundamentados em nível de painel. Para avaliação, propomos o Rich Storyboard Benchmark, um conjunto de narrativas de domínio aberto projetadas para avaliar diversidade de layout e narrativa fundamentada no cenário, além da consistência. Também introduzimos uma nova métrica de Diversidade de Cena, que quantifica a variação espacial e de pose entre os storyboards. Nossos resultados qualitativos e quantitativos, bem como um estudo com usuários, mostram que o Story2Board produz storyboards mais dinâmicos, coerentes e narrativamente envolventes do que as abordagens existentes.
Apresentamos o M3-Agent, uma nova estrutura de agente multimodal equipada com memória de longo prazo. Assim como os humanos, o M3-Agent pode processar entradas visuais e auditivas em tempo real para construir e atualizar sua memória de longo prazo. Além da memória episódica, ele também desenvolve memória semântica, permitindo que acumule conhecimento sobre o mundo ao longo do tempo. Sua memória é organizada em um formato multimodal centrado em entidades, permitindo uma compreensão mais profunda e consistente do ambiente. Dada uma instrução, o M3-Agent realiza de forma autônoma raciocínios iterativos em múltiplas etapas e recupera informações relevantes da memória para concluir a tarefa. Para avaliar a eficácia da memória e o raciocínio baseado em memória em agentes multimodais, desenvolvemos o M3-Bench, um novo benchmark de respostas a perguntas em vídeos longos. O M3-Bench compreende 100 vídeos recém-gravados do mundo real capturados da perspectiva de um robô (M3-Bench-robot) e 929 vídeos obtidos da web em diversos cenários (M3-Bench-web). Anotamos pares de perguntas e respostas projetados para testar capacidades essenciais para aplicações de agentes, como compreensão humana, extração de conhecimento geral e raciocínio multimodal. Os resultados experimentais mostram que o M3-Agent, treinado por meio de aprendizado por reforço, supera o baseline mais forte, um agente de prompt usando Gemini-1.5-pro e GPT-4o, alcançando acurácia 6,7%, 7,7% e 5,3% maior no M3-Bench-robot, M3-Bench-web e VideoMME-long, respectivamente. Nosso trabalho avança os agentes multimodais em direção a uma memória de longo prazo mais semelhante à humana e fornece insights para seu design prático. Modelo, código e dados estão disponíveis em https://github.com/bytedance-seed/m3-agent.
Modelos de linguagem de grande escala (LLMs), especialmente modelos de raciocínio de Cadeia Longa de Pensamento Explícita (CoT), como DeepSeek-R1 e QWQ, demonstraram capacidades de raciocínio poderosas, alcançando desempenho impressionante em raciocínio de senso comum e inferência matemática. Apesar de sua eficácia, os modelos de raciocínio Long-CoT são frequentemente criticados por sua capacidade limitada e baixa eficiência em domínios intensivos em conhecimento, como a descoberta de moléculas. O sucesso nesse campo requer um entendimento preciso do conhecimento do domínio, incluindo estruturas moleculares e princípios químicos, o que é desafiador devido à complexidade inerente dos dados moleculares e à escassez de anotações de alta qualidade feitas por especialistas. Para preencher essa lacuna, introduzimos o Mol-R1, uma nova estrutura projetada para melhorar a explicabilidade e o desempenho de raciocínio de LLMs de Cadeia Longa de Pensamento Explícita semelhantes ao R1 na geração de moléculas baseada em texto. Nossa abordagem começa com um conjunto de dados de raciocínio de alta qualidade, curado por meio de Regulação Prévia via Destilação em Contexto (PRID), uma estratégia de destilação dedicada para gerar efetivamente traços de raciocínio emparelhados guiados por regulamentações prévias. Com base nisso, introduzimos o MoIA, Adaptação Iterativa Molecular, uma estratégia de treinamento sofisticada que combina iterativamente Ajuste Fino Supervisionado (SFT) com Otimização de Política Reforçada (RPO), projetada para impulsionar o desempenho de raciocínio de modelos semelhantes ao R1 na descoberta de moléculas. Por fim, examinamos o desempenho do Mol-R1 na tarefa de geração de raciocínio molecular baseada em texto, mostrando um desempenho superior em relação às linhas de base existentes.
Gerar vídeos humanos de alta fidelidade que correspondam a identidades especificadas pelo usuário é importante, mas desafiador no campo da IA generativa. Os métodos existentes frequentemente dependem de um número excessivo de parâmetros de treinamento e carecem de compatibilidade com outras ferramentas de AIGC. Neste artigo, propomos o Stand-In, uma estrutura leve e plug-and-play para preservação de identidade na geração de vídeos. Especificamente, introduzimos um ramo condicional de imagem no modelo pré-treinado de geração de vídeos. O controle de identidade é alcançado por meio de auto-atenções restritas com mapeamento posicional condicional e pode ser aprendido rapidamente com apenas 2000 pares. Apesar de incorporar e treinar apenas sim1\% de parâmetros adicionais, nossa estrutura obtém excelentes resultados em qualidade de vídeo e preservação de identidade, superando outros métodos de treinamento com todos os parâmetros. Além disso, nossa estrutura pode ser integrada de forma contínua para outras tarefas, como geração de vídeos orientada por sujeitos, geração de vídeos referenciados por pose, estilização e troca de rostos.
O rápido avanço dos grandes modelos de linguagem (LLMs) capacitou agentes inteligentes a utilizar diversas ferramentas externas para resolver problemas complexos do mundo real. No entanto, à medida que os agentes dependem cada vez mais de múltiplas ferramentas, eles enfrentam novos desafios: contextos estendidos provenientes de fontes distintas e saídas de ferramentas ruidosas ou irrelevantes podem comprometer a confiabilidade e a precisão do sistema. Esses desafios ressaltam a necessidade de maior estabilidade em sistemas baseados em agentes. Para abordar isso, introduzimos mecanismos dinâmicos de supervisão e manobra, construindo uma arquitetura robusta e dinâmica de Sistema Multi-Agente (MAS) dentro do framework AWorld. Em nossa abordagem, o Agente de Execução invoca o Agente de Guarda em etapas críticas para verificar e corrigir o processo de raciocínio, reduzindo efetivamente erros decorrentes de ruído e fortalecendo a robustez na resolução de problemas. Experimentos extensivos no conjunto de testes GAIA revelam que nosso mecanismo dinâmico de manobra melhora significativamente tanto a eficácia quanto a estabilidade das soluções, superando sistemas de agente único (SAS) e sistemas padrão aumentados por ferramentas. Como resultado, nosso sistema dinâmico MAS alcançou o primeiro lugar entre os projetos de código aberto no prestigiado ranking GAIA. Esses achados destacam o valor prático de papéis colaborativos de agentes no desenvolvimento de sistemas inteligentes mais confiáveis e seguros.
Os Modelos de Linguagem de Grande Escala baseados em Difusão (dLLMs) surgiram como uma alternativa promissora aos LLMs autoregressivos (AR) para geração de texto, com o potencial de decodificar múltiplos tokens em uma única iteração. No entanto, nenhum dos dLLMs de código aberto existentes alcançou uma velocidade de inferência superior em comparação com LLMs AR de tamanho similar. Este artigo supera essa barreira com base em uma estratégia simples e eficaz chamada de forçamento de difusão discreta (D2F). O D2F equipa os dLLMs com duas capacidades principais: (1) geração autoregressiva em blocos para permitir a utilização do cache KV; (2) previsão de tokens subsequentes sem a necessidade de completar blocos anteriores para decodificação paralela entre blocos. Dessa forma, os dLLMs convencionais são reformulados em um paradigma híbrido AR-difusão para inferência eficiente. O D2F pode ser implementado com um processo de destilação assimétrica baseado em dLLMs pré-treinados. Propomos ainda um algoritmo de decodificação paralela em pipeline, que permite um equilíbrio entre eficiência e eficácia. Empiricamente, os dLLMs com D2F alcançam uma velocidade de inferência mais de 2,5 vezes maior que a do LLaMA3 e do Qwen2.5 no GSM8K. Em comparação com dLLMs convencionais como LLaDA e Dream, a aceleração pode ser superior a 50 vezes, mantendo uma qualidade de saída comparável. O código está disponível em https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
Recentemente, o GPT-4o tem atraído atenção significativa por seu forte desempenho na geração de imagens, embora os modelos de código aberto ainda estejam atrás. Vários estudos exploraram a destilação de dados de imagem do GPT-4o para aprimorar modelos de código aberto, alcançando progressos notáveis. No entanto, uma questão fundamental permanece: dado que os conjuntos de dados de imagens do mundo real já constituem uma fonte natural de dados de alta qualidade, por que deveríamos usar dados sintéticos gerados pelo GPT-4o? Neste trabalho, identificamos duas vantagens principais das imagens sintéticas. Primeiro, elas podem complementar cenários raros em conjuntos de dados do mundo real, como fantasia surreal ou geração de imagens com múltiplas referências, que frequentemente ocorrem em consultas de usuários. Segundo, elas fornecem supervisão limpa e controlável. Os dados do mundo real muitas vezes contêm ruídos complexos de fundo e desalinhamentos inerentes entre descrições de texto e conteúdo de imagem, enquanto as imagens sintéticas oferecem fundos puros e sinais de supervisão de cauda longa, facilitando um alinhamento mais preciso entre texto e imagem. Com base nessas percepções, introduzimos o Echo-4o-Image, um conjunto de dados sintéticos em escala de 180K gerado pelo GPT-4o, aproveitando o poder dos dados de imagem sintética para abordar pontos cegos na cobertura do mundo real. Usando esse conjunto de dados, ajustamos finamente a linha de base de geração multimodal unificada Bagel para obter o Echo-4o. Além disso, propomos dois novos benchmarks de avaliação para uma avaliação mais precisa e desafiadora das capacidades de geração de imagens: o GenEval++, que aumenta a complexidade das instruções para mitigar a saturação de pontuação, e o Imagine-Bench, que se concentra em avaliar tanto a compreensão quanto a geração de conteúdo imaginativo. O Echo-4o demonstra um forte desempenho em benchmarks padrão. Além disso, a aplicação do Echo-4o-Image a outros modelos de base (por exemplo, OmniGen2, BLIP3-o) resulta em ganhos consistentes de desempenho em várias métricas, destacando a forte transferibilidade do conjunto de dados.
Metodologias de alinhamento emergiram como um caminho crítico para aprimorar as capacidades de alinhamento de modelos de linguagem. Enquanto o SFT (fine-tuning supervisionado) acelera a convergência por meio de intervenção direta na perda em nível de token, sua eficácia é limitada pela trajetória de política offline. Em contraste, o RL (aprendizado por reforço) facilita a otimização exploratória de políticas, mas sofre com baixa eficiência de amostragem e dependência rigorosa de modelos base de alta qualidade. Para abordar esses desafios duplos, propomos o GRAO (Otimização de Alinhamento Relativo em Grupo), um framework unificado que sinergiza os pontos fortes do SFT e do RL por meio de três inovações principais: 1) Uma estratégia de geração de múltiplas amostras que permite avaliação comparativa de qualidade por meio de feedback de recompensa; 2) Uma nova formulação de Perda de Alinhamento Direto em Grupo que aproveita a ponderação de vantagem relativa intra-grupo; 3) Atualizações de parâmetros conscientes de referência guiadas por dinâmicas de preferência pareadas. Nossa análise teórica estabelece garantias de convergência do GRAO e vantagens de eficiência de amostragem sobre abordagens convencionais. Avaliações abrangentes em tarefas complexas de alinhamento humano demonstram o desempenho superior do GRAO, alcançando melhorias relativas de 57,70%, 17,65%, 7,95% e 5,18% sobre as baselines de SFT, DPO, PPO e GRPO, respectivamente. Este trabalho fornece tanto um framework de alinhamento teoricamente fundamentado quanto evidências empíricas para a evolução eficiente de capacidades em modelos de linguagem.
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho notável em tarefas de raciocínio, onde o aprendizado por reforço (RL) serve como um algoritmo chave para aprimorar suas capacidades de raciocínio. Atualmente, existem dois paradigmas principais de recompensa: recompensas baseadas em modelos e recompensas baseadas em regras. No entanto, ambas as abordagens sofrem limitações: recompensas baseadas em regras carecem de robustez, enquanto recompensas baseadas em modelos são vulneráveis a manipulação de recompensas (reward hacking). Para resolver esses problemas, propomos o Cooper (Co-otimização do Modelo de Política e do Modelo de Recompensa), um framework de RL que otimiza conjuntamente o modelo de política e o modelo de recompensa. O Cooper aproveita a alta precisão das recompensas baseadas em regras ao identificar respostas corretas e constrói e seleciona dinamicamente pares de amostras positivas-negativas para continuar treinando o modelo de recompensa. Esse design aumenta a robustez e mitiga o risco de manipulação de recompensas. Para apoiar ainda mais o Cooper, introduzimos uma estratégia de anotação híbrida que gera dados de treinamento para o modelo de recompensa de forma eficiente e precisa. Também propomos um paradigma de modelagem de recompensa baseado em referência, onde o modelo de recompensa recebe uma resposta de referência como entrada. Com base nesse design, treinamos um modelo de recompensa chamado VerifyRM, que alcança maior precisão no VerifyBench em comparação com outros modelos do mesmo tamanho. Realizamos aprendizado por reforço usando tanto o VerifyRM quanto o Cooper. Nossos experimentos mostram que o Cooper não apenas alivia a manipulação de recompensas, mas também melhora o desempenho de RL de ponta a ponta, por exemplo, alcançando um ganho de 0,54% na precisão média no Qwen2.5-1.5B-Instruct. Nossos resultados demonstram que a atualização dinâmica do modelo de recompensa é uma maneira eficaz de combater a manipulação de recompensas, fornecendo uma referência para integrar melhor modelos de recompensa em RL.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades notáveis em raciocínio matemático visual em diversos benchmarks existentes. No entanto, esses benchmarks são predominantemente baseados em entradas multimodais limpas ou processadas, sem incorporar as imagens fornecidas por usuários reais da educação infantil ao ensino médio (K-12). Para abordar essa lacuna, introduzimos o MathReal, um conjunto de dados meticulosamente curado que compreende 2.000 questões matemáticas com imagens capturadas por dispositivos móveis portáteis em cenários autênticos. Cada questão é uma imagem, contendo o texto da questão e um elemento visual. Classificamos sistematicamente as imagens reais em três categorias principais: degradação da qualidade da imagem, variação de perspectiva e interferência de conteúdo irrelevante, que são ainda subdivididas em 14 subcategorias. Além disso, o MathReal abrange cinco categorias principais de conhecimento e habilidade, que englobam três tipos de questões e são divididas em três níveis de dificuldade. Para avaliar de forma abrangente as habilidades de raciocínio matemático multimodal dos MLLMs de última geração em cenários do mundo real, projetamos seis configurações experimentais que permitem uma análise sistemática de seu desempenho. Por meio de experimentação extensiva, descobrimos que as habilidades de resolução de problemas dos MLLMs existentes são significativamente desafiadas em contextos educacionais realistas. Com base nisso, realizamos uma análise detalhada de seu desempenho e padrões de erro, fornecendo insights sobre suas capacidades de reconhecimento, compreensão e raciocínio, e delineando direções para melhorias futuras. Dados e código: https://github.com/junfeng0288/MathReal.
O novo paradigma de escalonamento em tempo de teste tem gerado avanços notáveis em Modelos de Linguagem de Grande Escala (LLMs) (por exemplo, modelos de raciocínio) e em modelos generativos de visão, permitindo que os modelos aloquem computação adicional durante a inferência para lidar efetivamente com problemas cada vez mais complexos. Apesar das melhorias trazidas por essa abordagem, uma limitação importante surge: o aumento substancial no tempo de computação torna o processo lento e impraticável para muitas aplicações. Dado o sucesso desse paradigma e seu uso crescente, buscamos preservar seus benefícios enquanto evitamos a sobrecarga de inferência. Neste trabalho, propomos uma solução para o problema crítico de integrar o conhecimento de escalonamento em tempo de teste em um modelo durante o pós-treinamento. Especificamente, substituímos a otimização de ruído guiada por recompensa em tempo de teste em modelos de difusão por uma Hiper-rede de Ruído que modula o ruído inicial de entrada. Propomos um framework teoricamente fundamentado para aprender essa distribuição inclinada por recompensa para geradores destilados, por meio de um objetivo tratável no espaço de ruído que mantém a fidelidade ao modelo base enquanto otimiza para características desejadas. Mostramos que nossa abordagem recupera uma porção substancial dos ganhos de qualidade da otimização explícita em tempo de teste a uma fração do custo computacional. O código está disponível em https://github.com/ExplainableML/HyperNoise.
Grandes modelos de linguagem treinados com aprendizado por reforço com recompensas verificáveis tendem a trocar precisão por extensão—inflacionando o comprimento das respostas para obter ganhos em precisão. Embora respostas mais longas possam ser justificadas para problemas mais difíceis, muitos tokens são meramente "preenchimento": texto repetitivo e prolixo que não avança de fato a solução. Introduzimos o GFPO (Group Filtered Policy Optimization), que controla essa explosão de comprimento ao amostrar grupos maiores por problema durante o treinamento e filtrar as respostas para treinar com base em duas métricas-chave: (1) comprimento da resposta e (2) eficiência de tokens: razão de recompensa por token. Ao amostrar mais durante o treinamento, ensinamos os modelos a pensar menos no momento da inferência. No modelo Phi-4-reasoning, o GFPO reduz a inflação de comprimento do GRPO em 46-71% em benchmarks desafiadores de STEM e programação (AIME 24/25, GPQA, Omni-MATH, LiveCodeBench) enquanto mantém a precisão. Otimizar para recompensa por token aumenta ainda mais as reduções na inflação de comprimento para 71-85%. Também propomos o GFPO de Dificuldade Adaptativa, que aloca dinamicamente mais recursos de treinamento para problemas mais difíceis com base em estimativas de dificuldade em tempo real, melhorando o equilíbrio entre eficiência computacional e precisão, especialmente em questões difíceis. O GFPO demonstra que o aumento do tempo de computação no treinamento se traduz diretamente em redução do tempo de computação no teste—uma troca simples, mas eficaz, para raciocínio eficiente.
Nos últimos anos, tem havido um crescente interesse e adoção de LLMs (Large Language Models), com o muTransfer se tornando uma técnica fundamental para ajustar hiperparâmetros em treinamentos de grande escala. Enquanto isso, a arquitetura Mixture-of-Experts (MoE) surgiu como uma abordagem líder em modelos extremamente grandes. No entanto, a interseção desses dois avanços permaneceu inexplorada. Neste trabalho, derivamos uma mu-Parametrização (muP) para MoE, fornecendo garantias teóricas para o aprendizado de características em diferentes larguras de modelo, tanto no roteador quanto nos especialistas. Validamos empiricamente nossa parametrização e investigamos ainda como a escalabilidade do número de especialistas e da granularidade afeta a taxa de aprendizado ótima.
Modelos de visão e linguagem (VLMs) têm demonstrado avanços significativos em tarefas como a fundamentação visual, onde localizam objetos específicos em imagens com base em consultas de linguagem natural e imagens. No entanto, questões de segurança em tarefas de fundamentação visual para VLMs permanecem pouco exploradas, especialmente no contexto de ataques de backdoor. Neste artigo, introduzimos um novo método de ataque de backdoor consciente da entrada, IAG, projetado para manipular o comportamento de fundamentação de VLMs. Esse ataque força o modelo a fundamentar um objeto alvo específico na imagem de entrada, independentemente da consulta do usuário. Propomos um gerador de gatilho adaptativo que incorpora a informação semântica da descrição do alvo do ataque na imagem original usando uma U-Net condicionada por texto, superando assim o desafio do ataque de vocabulário aberto. Para garantir a discrição do ataque, utilizamos uma perda de reconstrução para minimizar as discrepâncias visuais entre imagens envenenadas e limpas. Além disso, introduzimos um método unificado para gerar dados de ataque. O IAG é avaliado teórica e empiricamente, demonstrando sua viabilidade e eficácia. Notavelmente, nosso ASR@0.5 no InternVL-2.5-8B atinge mais de 65% em vários conjuntos de teste. O IAG também mostra potencial promissor na manipulação do Ferret-7B e do LlaVA-1.5-7B com uma diminuição muito pequena na precisão em amostras limpas. Experimentos específicos extensivos, como estudo de ablação e defesa potencial, também indicam a robustez e transferibilidade do nosso ataque.
Os modelos de linguagem multimodal de grande escala (MLLMs) avançaram significativamente a integração do entendimento visual e textual. No entanto, sua capacidade de gerar código a partir de entradas multimodais ainda é limitada. Neste trabalho, apresentamos o VisCodex, um framework unificado que combina de forma harmoniosa modelos de visão e linguagem de programação, capacitando os MLLMs com habilidades robustas de geração de código multimodal. Utilizando uma técnica de fusão de modelos baseada em vetores de tarefa, integramos um modelo de linguagem de programação de última geração em uma base sólida de visão e linguagem, preservando tanto a compreensão visual quanto as habilidades avançadas de codificação. Para apoiar o treinamento e a avaliação, introduzimos o Multimodal Coding Dataset (MCD), uma coleção extensa e diversificada de 598 mil amostras, incluindo código HTML de alta qualidade, pares de imagem-código de gráficos, perguntas e respostas do StackOverflow aumentadas com imagens e problemas algorítmicos. Além disso, propomos o InfiBench-V, um novo e desafiador benchmark projetado especificamente para avaliar modelos em questões de programação do mundo real, ricas em elementos visuais, que exigem uma compreensão refinada de contextos textuais e visuais. Experimentos extensivos demonstram que o VisCodex alcança desempenho de ponta entre os MLLMs de código aberto e se aproxima de modelos proprietários como o GPT-4o, destacando a eficácia de nossa estratégia de fusão de modelos e dos novos conjuntos de dados.
Avanços recentes em modelos de texto para imagem (T2I) permitiram a edição regional de imagens sem necessidade de treinamento, aproveitando os priors generativos de modelos de base. No entanto, os métodos existentes lutam para equilibrar a aderência ao texto nas regiões editadas, a fidelidade ao contexto em áreas não editadas e a integração perfeita das edições. Apresentamos o CannyEdit, uma nova estrutura sem treinamento que aborda esses desafios por meio de duas inovações principais: (1) Controle Seletivo Canny, que mascara a orientação estrutural do Canny ControlNet em regiões editáveis especificadas pelo usuário, enquanto preserva estritamente os detalhes das imagens originais em áreas não editadas por meio da retenção de informações do ControlNet na fase de inversão. Isso permite edições precisas e guiadas por texto sem comprometer a integridade contextual. (2) Orientação de Duplo Prompt, que combina prompts locais para edições específicas de objetos com um prompt global de destino para manter interações coerentes na cena. Em tarefas de edição de imagens do mundo real (adição, substituição, remoção), o CannyEdit supera métodos anteriores como o KV-Edit, alcançando uma melhoria de 2,93 a 10,49 por cento no equilíbrio entre aderência ao texto e fidelidade ao contexto. Em termos de perfeição na edição, estudos com usuários revelam que apenas 49,2 por cento dos usuários gerais e 42,0 por cento dos especialistas em AIGC identificaram os resultados do CannyEdit como editados por IA quando comparados com imagens reais sem edições, contra 76,08 a 89,09 por cento para métodos concorrentes.
A reconstrução de cenas 3D usando 3D Gaussian Splatting (3DGS) a partir de visões esparsas é um problema mal posto devido à informação insuficiente, frequentemente resultando em artefatos perceptíveis. Embora abordagens recentes tenham buscado aproveitar priors generativos para completar informações em regiões sub-restritas, elas enfrentam dificuldades para gerar conteúdo que permaneça consistente com as observações de entrada. Para enfrentar esse desafio, propomos o GSFixer, uma nova estrutura projetada para melhorar a qualidade das representações 3DGS reconstruídas a partir de entradas esparsas. O núcleo de nossa abordagem é o modelo de restauração de vídeo guiado por referência, construído sobre um modelo de difusão de vídeo baseado em DiT treinado em renders 3DGS com artefatos e frames limpos com condições adicionais baseadas em referência. Considerando as visões esparsas de entrada como referências, nosso modelo integra tanto características semânticas 2D quanto características geométricas 3D das visões de referência extraídas do modelo de fundação de geometria visual, aprimorando a coerência semântica e a consistência 3D ao corrigir artefatos em novas visões. Além disso, considerando a falta de benchmarks adequados para avaliação de restauração de artefatos em 3DGS, apresentamos o DL3DV-Res, que contém frames renderizados usando 3DGS de baixa qualidade. Experimentos extensivos demonstram que nosso GSFixer supera os métodos atuais de última geração em restauração de artefatos 3DGS e reconstrução 3D a partir de visões esparsas. Página do projeto: https://github.com/GVCLab/GSFixer.
Este artigo apresenta o primeiro método descentralizado para permitir a manipulação no mundo real de uma carga suspensa por cabos com 6 graus de liberdade (6-DoF) utilizando uma equipe de Veículos Aéreos Micro (MAVs). Nosso método aproveita o aprendizado por reforço multiagente (MARL) para treinar uma política de controle de malha externa para cada MAV. Diferente dos controladores state-of-the-art que utilizam um esquema centralizado, nossa política não requer estados globais, comunicação entre MAVs, nem informações sobre MAVs vizinhos. Em vez disso, os agentes se comunicam implicitamente apenas por meio de observações da pose da carga, o que permite alta escalabilidade e flexibilidade. Isso também reduz significativamente os custos computacionais durante o tempo de inferência, possibilitando a implantação da política a bordo. Além disso, introduzimos um novo design de espaço de ação para os MAVs utilizando aceleração linear e taxas de rotação do corpo. Essa escolha, combinada com um controlador de baixo nível robusto, permite uma transferência confiável de simulação para o mundo real, apesar das incertezas significativas causadas pela tensão do cabo durante o movimento dinâmico em 3D. Validamos nosso método em vários experimentos do mundo real, incluindo o controle de pose completa sob incertezas do modelo da carga, mostrando desempenho de rastreamento de ponto de ajuste comparável ao método centralizado state-of-the-art. Também demonstramos a cooperação entre agentes com políticas de controle heterogêneas e robustez à perda completa em voo de um MAV. Vídeos dos experimentos: https://autonomousrobots.nl/paper_websites/aerial-manipulation-marl
No campo em rápida evolução do Processamento de Linguagem Natural (PLN) Explicável, explicações textuais, ou seja, racionalizações semelhantes às humanas, são fundamentais para explicar as previsões dos modelos e enriquecer conjuntos de dados com rótulos interpretáveis. As abordagens tradicionais dependem de anotações humanas, que são custosas, trabalhosas e prejudicam a escalabilidade. Neste trabalho, apresentamos uma estrutura automatizada que aproveita vários modelos de linguagem de grande escala (LLMs) de última geração para gerar explicações textuais de alta qualidade. Avaliamos rigorosamente a qualidade dessas explicações geradas por LLMs usando um conjunto abrangente de métricas de Geração de Linguagem Natural (NLG). Além disso, investigamos o impacto dessas explicações no desempenho de modelos de linguagem pré-treinados (PLMs) e LLMs em tarefas de inferência em linguagem natural em dois conjuntos de dados de referência diversos. Nossos experimentos demonstram que as explicações automatizadas exibem uma eficácia altamente competitiva em comparação com as explicações anotadas por humanos na melhoria do desempenho dos modelos. Nossas descobertas destacam uma via promissora para a geração escalável e automatizada de explicações textuais baseadas em LLMs, visando estender conjuntos de dados de PLN e aprimorar o desempenho dos modelos.
Os ataques de inferência de associação servem como uma ferramenta útil para o uso justo de modelos de linguagem, como a detecção de possíveis violações de direitos autorais e a auditoria de vazamentos de dados. No entanto, muitos dos ataques mais avançados atualmente exigem acesso aos estados ocultos ou à distribuição de probabilidade dos modelos, o que impede a investigação de modelos mais amplamente utilizados e acessíveis apenas por API, como o GPT-4. Neste trabalho, introduzimos o Ataque de Cobertura N-Gram, um ataque de inferência de associação que depende exclusivamente das saídas de texto do modelo alvo, permitindo ataques a modelos completamente em caixa-preta. Aproveitamos a observação de que os modelos têm maior probabilidade de memorizar e, subsequentemente, gerar padrões de texto que foram comumente observados em seus dados de treinamento. Especificamente, para fazer uma previsão sobre um candidato a membro, o Ataque de Cobertura N-Gram primeiro obtém várias gerações do modelo condicionadas a um prefixo do candidato. Em seguida, usa métricas de sobreposição de n-gramas para calcular e agregar as similaridades dessas saídas com o sufixo verdadeiro; altas similaridades indicam provável associação. Primeiro, demonstramos em um conjunto diversificado de benchmarks existentes que o Ataque de Cobertura N-Gram supera outros métodos de caixa-preta, ao mesmo tempo em que impressionantemente alcança desempenho comparável ou até melhor do que os ataques mais avançados de caixa-branca - apesar de ter acesso apenas a saídas de texto. Curiosamente, descobrimos que a taxa de sucesso do nosso método escala com o orçamento de computação do ataque - à medida que aumentamos o número de sequências geradas pelo modelo alvo condicionadas ao prefixo, o desempenho do ataque tende a melhorar. Tendo verificado a precisão do nosso método, usamos ele para investigar modelos fechados da OpenAI previamente não estudados em múltiplos domínios. Descobrimos que modelos mais recentes, como o GPT-4o, exibem maior robustez à inferência de associação, sugerindo uma tendência evolutiva em direção a proteções de privacidade aprimoradas.
A ressecção precisa de lesões depende da identificação precisa de estruturas anatômicas de granularidade fina. Embora muitos métodos de segmentação de granularidade grossa (CGS) tenham sido bem-sucedidos em segmentações em larga escala (por exemplo, órgãos), eles se mostram insuficientes em cenários clínicos que exigem segmentação de granularidade fina (FGS), que continua sendo um desafio devido às variações individuais frequentes em estruturas anatômicas de pequena escala. Embora modelos recentes baseados em Mamba tenham avançado na segmentação de imagens médicas, eles frequentemente dependem de ordens de varredura fixas e definidas manualmente, o que limita sua adaptabilidade às variações individuais na FGS. Para resolver isso, propomos o ASM-UNet, uma nova arquitetura baseada em Mamba para FGS. Ele introduz escores de varredura adaptativos para guiar dinamicamente a ordem de varredura, gerados pela combinação de características comuns em nível de grupo e variações em nível individual. Experimentos em dois conjuntos de dados públicos (ACDC e Synapse) e um novo conjunto de dados desafiador de FGS do trato biliar, denominado BTMS, demonstram que o ASM-UNet alcança desempenho superior tanto em tarefas de CGS quanto de FGS. Nosso código e conjunto de dados estão disponíveis em https://github.com/YqunYang/ASM-UNet.
Modelos de Linguagem de Grande Escala (LLMs) são tipicamente ajustados para tarefas de raciocínio por meio de um pipeline de duas etapas: Ajuste Fino Supervisionado (SFT) seguido por Aprendizado por Reforço (RL), um processo repleto de esquecimento catastrófico e compensações subótimas entre imitação e exploração. Métodos recentes de estágio único tentam unificar SFT e RL usando heurísticas, mas carecem de um mecanismo fundamentado para equilibrar dinamicamente os dois paradigmas. Neste artigo, reformulamos esse desafio através da lente teórica de recompensas implícitas, vendo SFT e RL não como métodos distintos, mas como sinais de recompensa complementares. Introduzimos o Ajuste Fino Meta Adaptativo (AMFT), um algoritmo inovador de estágio único que aprende o equilíbrio ideal entre a recompensa implícita no nível do caminho do SFT e a recompensa explícita baseada no resultado do RL. O núcleo do AMFT é um controlador de peso adaptativo de meta-gradiente que trata o equilíbrio SFT-RL como um parâmetro aprendível, otimizando-o dinamicamente para maximizar o desempenho em tarefas de longo prazo. Essa abordagem prospectiva, regularizada pela entropia da política para estabilidade, descobre autonomamente um currículo de treinamento eficaz. Realizamos uma avaliação abrangente em benchmarks desafiadores que abrangem raciocínio matemático, raciocínio visual abstrato (General Points) e navegação visão-linguagem (V-IRL). O AMFT consistentemente estabelece um novo estado da arte e demonstra generalização superior em tarefas fora da distribuição (OOD). Estudos de ablação e análise da dinâmica de treinamento confirmam que o controlador de meta-aprendizado é crucial para a estabilidade, eficiência amostral e desempenho do AMFT, oferecendo um paradigma mais fundamentado e eficaz para o alinhamento de LLMs. Nossos códigos são de código aberto em https://github.com/hlxtsyj/AMFT.
A rápida proliferação dos Modelos de Linguagem de Grande Escala (LLMs) contribuiu significativamente para o desenvolvimento de sistemas de IA equitativos capazes de responder a perguntas factuais (QA). No entanto, nenhum estudo conhecido testa a robustez dos LLMs quando confrontados com versões ofuscadas de perguntas. Para avaliar sistematicamente essas limitações, propomos uma nova técnica, ObfusQAte, e, aproveitando-a, introduzimos o ObfusQA, um framework abrangente e pioneiro, com níveis de ofuscação em múltiplas camadas, projetado para examinar as capacidades dos LLMs em três dimensões distintas: (i) Indireção de Entidades Nomeadas, (ii) Indireção de Distratores e (iii) Sobrecarga Contextual. Ao capturar essas distinções refinadas na linguagem, o ObfusQA fornece um benchmark abrangente para avaliar a robustez e a adaptabilidade dos LLMs. Nosso estudo observa que os LLMs tendem a falhar ou gerar respostas alucinadas quando confrontados com essas variações cada vez mais sutis. Para fomentar pesquisas nessa direção, disponibilizamos publicamente o ObfusQAte.