Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem Grandes (LLMs) e os Modelos de Linguagem Visão-linguagem Grandes (LVLMs) demonstraram impressionantes habilidades de raciocínio linguagem/visão, dando início à recente tendência de construir agentes para aplicações específicas como assistentes de compras ou engenheiros de software de IA. Recentemente, muitos benchmarks de ciência de dados foram propostos para investigar seu desempenho no domínio da ciência de dados. No entanto, os benchmarks de ciência de dados existentes ainda deixam a desejar quando comparados às aplicações reais de ciência de dados devido às suas configurações simplificadas. Para preencher essa lacuna, apresentamos o DSBench, um benchmark abrangente projetado para avaliar agentes de ciência de dados com tarefas realistas. Este benchmark inclui 466 tarefas de análise de dados e 74 tarefas de modelagem de dados, provenientes de competições Eloquence e Kaggle. O DSBench oferece uma configuração realista ao abranger contextos longos, backgrounds de tarefas multimodais, raciocínio com arquivos de dados grandes e estruturas de várias tabelas, e realização de tarefas de modelagem de dados de ponta a ponta. Nossa avaliação dos LLMs, LVLMs e agentes de ponta mostra que eles enfrentam dificuldades com a maioria das tarefas, sendo que o melhor agente resolve apenas 34,12% das tarefas de análise de dados e alcança uma Lacuna de Desempenho Relativo (RPG) de 34,74%. Essas descobertas destacam a necessidade de avanços adicionais no desenvolvimento de agentes de ciência de dados mais práticos, inteligentes e autônomos.
Grandes modelos de linguagem (LLMs) mostram um potencial notável para atuar como agentes de computador, aprimorando a produtividade humana e a acessibilidade de software em tarefas multimodais que exigem planejamento e raciocínio. No entanto, medir o desempenho do agente em ambientes realistas continua sendo um desafio, uma vez que: (i) a maioria dos benchmarks é limitada a modalidades ou domínios específicos (por exemplo, apenas texto, navegação na web, perguntas e respostas, codificação) e (ii) as avaliações completas dos benchmarks são lentas (da ordem de magnitude de dias) devido à natureza sequencial de várias etapas das tarefas. Para enfrentar esses desafios, apresentamos a Arena de Agentes do Windows: um ambiente geral e reproduzível focado exclusivamente no sistema operacional (SO) Windows, onde os agentes podem operar livremente dentro de um verdadeiro SO Windows e utilizar a mesma ampla gama de aplicativos, ferramentas e navegadores da web disponíveis para os usuários humanos ao resolver tarefas. Adaptamos o framework OSWorld (Xie et al., 2024) para criar mais de 150 tarefas diversas do Windows em domínios representativos que exigem habilidades do agente em planejamento, compreensão de tela e uso de ferramentas. Nosso benchmark é escalável e pode ser paralelizado de forma contínua no Azure para uma avaliação completa do benchmark em tão pouco quanto 20 minutos. Para demonstrar as capacidades da Arena de Agentes do Windows, também apresentamos um novo agente multimodal, Navi. Nosso agente alcança uma taxa de sucesso de 19,5% no domínio do Windows, em comparação com o desempenho de 74,5% de um humano não assistido. Navi também demonstra um bom desempenho em outro benchmark popular baseado na web, o Mind2Web. Oferecemos uma análise extensa quantitativa e qualitativa do desempenho de Navi e fornecemos insights sobre as oportunidades para futuras pesquisas no desenvolvimento de agentes e geração de dados usando a Arena de Agentes do Windows. Página da web: https://microsoft.github.io/WindowsAgentArena Código: https://github.com/microsoft/WindowsAgentArena
Os avanços recentes em modelos de linguagem grandes (LLMs) têm gerado otimismo sobre seu potencial para acelerar a descoberta científica, com um número crescente de trabalhos propondo agentes de pesquisa que geram e validam autonomamente novas ideias. No entanto, até o momento, nenhuma avaliação demonstrou que sistemas LLM podem dar o primeiro passo de produzir ideias novas e de nível especialista, muito menos executar todo o processo de pesquisa. Abordamos essa questão estabelecendo um design experimental que avalia a geração de ideias de pesquisa, controlando variáveis confundidoras e realizando a primeira comparação direta entre pesquisadores especialistas em PNL e um agente de ideação LLM. Ao recrutar mais de 100 pesquisadores em PNL para escrever ideias novas e realizar revisões cegas das ideias geradas pelo LLM e por humanos, obtemos a primeira conclusão estatisticamente significativa sobre as capacidades atuais dos LLMs para a ideação de pesquisa: descobrimos que as ideias geradas pelo LLM são consideradas mais novas (p < 0,05) do que as ideias de especialistas humanos, embora sejam julgadas ligeiramente menos viáveis. Ao estudar de perto nossos agentes de referência, identificamos problemas em aberto na construção e avaliação de agentes de pesquisa, incluindo falhas na autoavaliação dos LLMs e na falta de diversidade na geração. Por fim, reconhecemos que os julgamentos humanos sobre novidade podem ser difíceis, mesmo para especialistas, e propomos um design de estudo de ponta a ponta que recruta pesquisadores para executar essas ideias em projetos completos, permitindo-nos estudar se esses julgamentos de novidade e viabilidade resultam em diferenças significativas nos resultados da pesquisa.
Enquanto os modelos de difusão Texto-para-Imagem (T2I) se destacam na geração de imagens visualmente atraentes de instâncias individuais, eles têm dificuldade em posicionar e controlar com precisão a geração de características de múltiplas instâncias. A tarefa de Layout-para-Imagem (L2I) foi introduzida para lidar com os desafios de posicionamento incorporando caixas delimitadoras como sinais de controle espacial, mas ainda falha em gerar características precisas das instâncias. Em resposta, propomos a tarefa de Geração de Características de Instância (IFG), que visa garantir tanto a precisão posicional quanto a fidelidade das características nas instâncias geradas. Para abordar a tarefa IFG, introduzimos o Adaptador de Características de Instância (IFAdapter). O IFAdapter aprimora a representação de características incorporando tokens de aparência adicionais e utilizando um Mapa Semântico de Instância para alinhar as características de nível de instância com as localizações espaciais. O IFAdapter guia o processo de difusão como um módulo plug-and-play, tornando-o adaptável a vários modelos da comunidade. Para avaliação, contribuímos com um benchmark de IFG e desenvolvemos um pipeline de verificação para comparar objetivamente as habilidades dos modelos de gerar instâncias com posicionamento e características precisas. Resultados experimentais demonstram que o IFAdapter supera outros modelos em avaliações quantitativas e qualitativas.
Grandes Modelos de Linguagem ainda enfrentam dificuldades em cenários desafiadores que envolvem dados estruturados, raciocínio complexo ou uso de ferramentas. Neste artigo, propomos Source2Synth: um novo método que pode ser usado para ensinar a LLMs novas habilidades sem depender de anotações humanas custosas. Source2Synth recebe como entrada uma fonte de dados personalizada e produz pontos de dados sintéticos com etapas de raciocínio intermediárias fundamentadas em fontes do mundo real. Source2Synth melhora a qualidade do conjunto de dados descartando gerações de baixa qualidade com base em sua capacidade de resposta. Demonstramos a generalidade deste método aplicando-o a dois domínios desafiadores: testamos habilidades de raciocínio em perguntas de múltiplos saltos (MHQA) e uso de ferramentas em perguntas respondidas em tabelas (TQA). Nosso método melhora o desempenho em 25,51% para TQA no WikiSQL e 22,57% para MHQA no HotPotQA em comparação com os modelos de referência ajustados finamente.
Avanços recentes em modelos de texto para imagem abriram caminho para promissores caminhos de pesquisa na geração de imagens personalizadas, permitindo que os usuários criem imagens diversas de um assunto específico usando instruções em linguagem natural. No entanto, os métodos existentes frequentemente sofrem de degradação de desempenho quando fornecidos apenas com uma única imagem de referência. Eles tendem a se ajustar demais à entrada, produzindo saídas altamente similares independentemente da instrução de texto. Este artigo aborda o desafio da personalização em uma única tentativa, mitigando o ajuste excessivo, possibilitando a criação de imagens controláveis por meio de instruções de texto. Especificamente, propomos uma estratégia de ajuste fino seletivo que se concentra no codificador de texto. Além disso, introduzimos três técnicas-chave para melhorar o desempenho da personalização: (1) tokens de aumento para incentivar a desentrelaçamento de características e aliviar o ajuste excessivo, (2) uma perda de preservação de conhecimento para reduzir a deriva linguística e promover a generalização em diversas instruções, e (3) amostragem ponderada por SNR para treinamento eficiente. Experimentos extensos demonstram que nossa abordagem gera eficientemente imagens diversas e de alta qualidade usando apenas uma única imagem de referência, ao mesmo tempo que reduz significativamente os requisitos de memória e armazenamento.
Apresentamos o DreamHOI, um método inovador para a síntese de interações humano-objeto (HOIs) sem a necessidade de treinamento, possibilitando que um modelo humano 3D interaja realisticamente com qualquer objeto dado com base em uma descrição textual. Essa tarefa é complicada devido às diferentes categorias e geometrias de objetos do mundo real e à escassez de conjuntos de dados abrangendo diversas HOIs. Para contornar a necessidade de dados extensivos, aproveitamos modelos de difusão texto-imagem treinados em bilhões de pares de imagens e legendas. Otimizamos a articulação de um modelo humano esquelético usando gradientes de Amostragem de Destilação de Pontuação (SDS) obtidos desses modelos, que preveem edições no espaço da imagem. No entanto, retropropagar gradientes do espaço da imagem diretamente para parâmetros de articulação complexos é ineficaz devido à natureza local desses gradientes. Para superar isso, introduzimos uma representação dual implícita-explícita de um modelo esquelético, combinando campos de radiância neural (NeRFs) (implícitos) com articulação de malha impulsionada por esqueleto (explícita). Durante a otimização, transitamos entre formas implícitas e explícitas, fundamentando a geração de NeRF enquanto refinamos a articulação da malha. Validamos nossa abordagem por meio de experimentos extensivos, demonstrando sua eficácia na geração de HOIs realistas.
Impulsionados pela onda dos Grandes Modelos de Linguagem (LLMs), os Grandes Modelos de Linguagem Visual (LVLMs) surgiram como um avanço fundamental, preenchendo a lacuna entre imagem e texto. No entanto, a criação de vídeos torna desafiador para os LVLMs desempenharem adequadamente devido à complexidade da relação entre linguagem e estrutura de dados espaciais-temporais. Modelos Recentes de Linguagem Visual em Vídeo (LVidLMs) alinham características de dados visuais estáticos, como imagem, ao espaço latente de características de linguagem, por meio de tarefas multimodais gerais para aproveitar adequadamente as habilidades dos LLMs. Neste artigo, exploramos uma abordagem de alinhamento detalhado por meio de trajetória de objetos para diferentes modalidades em ambas as dimensões espaciais e temporais simultaneamente. Assim, propomos um novo LVidLM por meio do Alinhamento Pixel-Temporal guiado por trajetória, denominado PiTe, que apresenta uma propriedade de modelo aplicável promissora. Para alcançar o alinhamento detalhado de vídeo-linguagem, criamos um conjunto de dados de pré-treinamento multimodal PiTe-143k, que fornece trajetórias em movimento no nível de pixel para todos os objetos individuais que aparecem e são mencionados tanto no vídeo quanto na legenda, por meio de nosso pipeline de anotação automática. Enquanto isso, o PiTe demonstra capacidades surpreendentes em uma infinidade de tarefas multimodais relacionadas a vídeos, superando significativamente os métodos de ponta.
Este estudo aborda o desafio de segmentar com precisão o Splatting Gaussiano 3D a partir de máscaras 2D. Métodos convencionais frequentemente dependem de descida de gradiente iterativa para atribuir a cada Gaussiana um rótulo único, resultando em otimizações demoradas e soluções subótimas. Em vez disso, propomos um resolvedor direto, porém globalmente ótimo, para segmentação 3D-GS. A ideia central do nosso método é que, com uma cena 3D-GS reconstruída, a renderização das máscaras 2D é essencialmente uma função linear em relação aos rótulos de cada Gaussiana. Dessa forma, a atribuição ótima de rótulos pode ser resolvida por meio de programação linear em forma fechada. Esta solução se beneficia da característica de mistura alfa do processo de splatting para otimização em um único passo. Ao incorporar o viés de fundo em nossa função objetivo, nosso método demonstra uma robustez superior na segmentação 3D contra ruídos. Notavelmente, nossa otimização é concluída em 30 segundos, cerca de 50 vezes mais rápido do que os melhores métodos existentes. Experimentos extensos demonstram a eficiência e robustez do nosso método na segmentação de várias cenas, e seu desempenho superior em tarefas subsequentes como remoção de objetos e inpainting. Demonstrativos e código estarão disponíveis em https://github.com/florinshen/FlashSplat.
A detecção de objetos fora da distribuição (Out-of-distribution - OOD) é uma tarefa desafiadora devido à ausência de dados OOD de conjunto aberto. Inspirados nos avanços recentes em modelos generativos de texto para imagem, como a Difusão Estável, estudamos o potencial de modelos generativos treinados em dados de conjunto aberto em larga escala para sintetizar amostras OOD, aprimorando assim a detecção de objetos OOD. Apresentamos o SyncOOD, um método simples de curadoria de dados que aproveita as capacidades de grandes modelos fundamentais para extrair automaticamente dados OOD significativos de modelos generativos de texto para imagem. Isso oferece ao modelo acesso ao conhecimento de mundo aberto encapsulado nos modelos fundamentais prontos para uso. As amostras sintéticas OOD são então utilizadas para aumentar o treinamento de um detector OOD leve e pronto para uso, otimizando efetivamente os limites de decisão entre em distribuição (ID) e OOD. Experimentos extensos em diversos benchmarks demonstram que o SyncOOD supera significativamente os métodos existentes, estabelecendo um novo desempenho de ponta com uso mínimo de dados sintéticos.