Artigos de pesquisa em IA selecionados diariamente com traduções
O GPT-4o é um modelo omni autoregressivo que aceita como entrada qualquer combinação de texto, áudio, imagem e vídeo, e gera qualquer combinação de saídas de texto, áudio e imagem. Ele é treinado de ponta a ponta em texto, visão e áudio, o que significa que todas as entradas e saídas são processadas pela mesma rede neural. O GPT-4o pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humano em uma conversa. Ele iguala o desempenho do GPT-4 Turbo em texto em inglês e código, com melhorias significativas em texto em idiomas não ingleses, sendo também muito mais rápido e 50% mais barato na API. O GPT-4o é especialmente melhor em compreensão de visão e áudio em comparação com modelos existentes. Em conformidade com nosso compromisso de construir IA de forma segura e consistente com nossos compromissos voluntários com a Casa Branca, estamos compartilhando o Cartão do Sistema GPT-4o, que inclui nossas avaliações do Framework de Preparação. Neste Cartão do Sistema, fornecemos uma visão detalhada das capacidades, limitações e avaliações de segurança do GPT-4o em várias categorias, focando em fala para fala, enquanto também avaliamos as capacidades de texto e imagem, e medidas que implementamos para garantir que o modelo seja seguro e alinhado. Também incluímos avaliações de terceiros sobre capacidades perigosas, bem como discussão sobre os impactos sociais potenciais das capacidades de texto e visão do GPT-4o.
Apresentamos o Bielik 7B v0.1, um modelo gerador de texto de 7 bilhões de parâmetros para o processamento da língua polonesa. Treinado em corpora polonesas selecionadas, este modelo aborda desafios-chave no desenvolvimento de modelos de linguagem por meio de técnicas inovadoras. Estas incluem a Perda Cruzada Ponderada por Instrução, que equilibra a aprendizagem de diferentes tipos de instruções, e a Taxa de Aprendizagem Adaptativa, que ajusta dinamicamente a taxa de aprendizagem com base no progresso do treinamento. Para avaliar o desempenho, criamos o Quadro de Líderes Open PL LLM e o Polish MT-Bench, estruturas inovadoras que avaliam várias tarefas de PNL e habilidades conversacionais. O Bielik 7B v0.1 demonstra melhorias significativas, alcançando um aumento de 9 pontos percentuais na pontuação média em comparação com o Mistral-7B-v0.1 na tarefa de Leitura RAG. Ele também se destaca no Polish MT-Bench, especialmente nas categorias de Raciocínio (6,15/10) e Role-playing (7,83/10). Este modelo representa um avanço substancial na IA da língua polonesa, oferecendo uma ferramenta poderosa para diversas aplicações linguísticas e estabelecendo novos padrões no campo.
Os Modelos de Linguagem Pequenos (SLMs) tornaram-se cada vez mais importantes devido à sua eficiência e desempenho na realização de várias tarefas linguísticas com recursos computacionais mínimos, tornando-os ideais para diversos contextos, incluindo dispositivos móveis, dispositivos de borda, entre outros. Neste artigo, apresentamos uma pesquisa abrangente sobre SLMs, focando em suas arquiteturas, técnicas de treinamento e técnicas de compressão de modelo. Propomos uma nova taxonomia para categorizar os métodos usados para otimizar SLMs, incluindo compressão de modelo, poda e técnicas de quantização. Resumimos os conjuntos de dados de referência que são úteis para a avaliação de SLMs juntamente com as métricas de avaliação comumente utilizadas. Além disso, destacamos os principais desafios em aberto que ainda precisam ser abordados. Nossa pesquisa tem como objetivo servir como um recurso valioso para pesquisadores e profissionais interessados em desenvolver e implementar modelos de linguagem pequenos, porém eficientes.
Agentes digitais capazes de automatizar tarefas complexas em computadores têm atraído considerável atenção devido ao seu imenso potencial para aprimorar a interação humano-computador. No entanto, os métodos de agentes existentes apresentam deficiências em suas capacidades de generalização e especialização, especialmente no manuseio de tarefas de computador de natureza aberta em ambientes do mundo real. Inspirados na rica funcionalidade da App Store, apresentamos o AgentStore, uma plataforma escalável projetada para integrar dinamicamente agentes heterogêneos para automatizar tarefas de computador. O AgentStore capacita os usuários a integrar agentes de terceiros, permitindo que o sistema enriqueça continuamente suas capacidades e se adapte a sistemas operacionais em constante evolução. Além disso, propomos um novo MetaAgente central com a estratégia AgentToken para gerenciar eficientemente agentes diversos e utilizar suas habilidades especializadas e generalistas para tarefas específicas de domínio e em toda a extensão do sistema. Experimentos extensivos em três benchmarks desafiadores demonstram que o AgentStore supera as limitações de sistemas anteriores com capacidades restritas, alcançando particularmente uma melhoria significativa de 11,21% para 23,85% no benchmark OSWorld, mais que dobrando os resultados anteriores. Resultados quantitativos e qualitativos abrangentes demonstram ainda a capacidade do AgentStore de aprimorar sistemas de agentes tanto na generalização quanto na especialização, destacando seu potencial para desenvolver o assistente de computador generalista especializado. Todo o nosso código estará disponível publicamente em https://chengyou-jia.github.io/AgentStore-Home.
A análise de documentos é essencial para converter documentos não estruturados e semi-estruturados - como contratos, trabalhos acadêmicos e faturas - em dados estruturados e legíveis por máquina. A análise de documentos extrai dados estruturados confiáveis a partir de entradas não estruturadas, proporcionando grande conveniência para inúmeras aplicações. Especialmente com os recentes avanços em Modelos de Linguagem de Grande Escala, a análise de documentos desempenha um papel indispensável tanto na construção de bases de conhecimento quanto na geração de dados de treinamento. Esta pesquisa apresenta uma revisão abrangente do estado atual da análise de documentos, abrangendo metodologias-chave, desde sistemas de pipeline modulares até modelos ponta a ponta impulsionados por grandes modelos de visão e linguagem. Componentes principais como detecção de layout, extração de conteúdo (incluindo texto, tabelas e expressões matemáticas) e integração de dados multimodais são examinados em detalhes. Além disso, este artigo discute os desafios enfrentados por sistemas modulares de análise de documentos e modelos de visão e linguagem no tratamento de layouts complexos, na integração de múltiplos módulos e no reconhecimento de texto de alta densidade. Ele enfatiza a importância do desenvolvimento de conjuntos de dados maiores e mais diversos e delineia as direções futuras de pesquisa.
Apresentamos MarDini, uma nova família de modelos de difusão de vídeo que integram as vantagens da auto-regressão mascarada (MAR) em um framework unificado de modelo de difusão (DM). Aqui, o MAR lida com o planejamento temporal, enquanto o DM se concentra na geração espacial em um design de rede assimétrica: i) um modelo de planejamento baseado em MAR contendo a maioria dos parâmetros gera sinais de planejamento para cada quadro mascarado usando entrada de baixa resolução; ii) um modelo de geração leve utiliza esses sinais para produzir quadros de alta resolução por meio de desembaçamento por difusão. O MAR do MarDini permite a geração de vídeo condicionada a qualquer número de quadros mascarados em quaisquer posições de quadro: um único modelo pode lidar com interpolação de vídeo (por exemplo, mascarando quadros intermediários), geração de imagem para vídeo (por exemplo, mascarando a partir do segundo quadro em diante) e expansão de vídeo (por exemplo, mascarando metade dos quadros). O design eficiente aloca a maioria dos recursos computacionais ao modelo de planejamento de baixa resolução, tornando viável em escala a atenção espaço-temporal computacionalmente cara, mas importante. MarDini estabelece um novo estado-da-arte para interpolação de vídeo; enquanto isso, em poucas etapas de inferência, ele gera vídeos de forma eficiente em pé de igualdade com os de modelos avançados de imagem para vídeo muito mais caros.
O treinamento em FP8 surgiu como um método promissor para melhorar a eficiência do treinamento. Estruturas existentes aceleram o treinamento aplicando cálculos em FP8 às camadas lineares, enquanto deixam os estados do otimizador e ativações em maior precisão, o que falha em otimizar totalmente o uso da memória. Este artigo apresenta o COAT (Compressão de Estados do Otimizador e Ativações para Treinamento em FP8), um novo framework de treinamento em FP8 projetado para reduzir significativamente a pegada de memória ao treinar modelos grandes. O COAT aborda as limitações atuais por meio de duas inovações-chave: (1) Expansão de Faixa Dinâmica, que alinha mais de perto as distribuições de estados do otimizador com a faixa de representação do FP8, reduzindo assim o erro de quantização, e (2) Quantização de Ativação de Granularidade Mista, que otimiza a memória de ativação usando uma combinação de estratégias de quantização por tensor e por grupo. Experimentos demonstram que o COAT reduz efetivamente a pegada de memória de treinamento de ponta a ponta em 1,54x em comparação com o BF16, enquanto alcança um desempenho quase sem perdas em várias tarefas, como pré-treinamento de Modelos de Linguagem Grandes e ajuste fino, e treinamento de Modelos de Linguagem Visual. O COAT também alcança um aumento de velocidade de treinamento de ponta a ponta de 1,43x em comparação com o BF16, atuando em pé de igualdade ou superando o aumento de velocidade do TransformerEngine. O COAT possibilita o treinamento eficiente de todos os parâmetros de modelos grandes em menos GPUs e facilita a duplicação do tamanho do lote em configurações de treinamento distribuído, fornecendo uma solução prática para a escalabilidade do treinamento de modelos em larga escala. O código está disponível em https://github.com/NVlabs/COAT.
A restauração de imagens (IR) em cenários do mundo real apresenta desafios significativos devido à falta de modelos de alta capacidade e conjuntos de dados abrangentes. Para enfrentar essas questões, apresentamos uma estratégia dupla: GenIR, um inovador pipeline de curadoria de dados, e DreamClear, um modelo de restauração de imagens baseado no Transformer de Difusão (DiT) de ponta. GenIR, nossa contribuição pioneira, é um pipeline de aprendizado de duplo prompt que supera as limitações dos conjuntos de dados existentes, que normalmente compreendem apenas algumas milhares de imagens e, portanto, oferecem generalização limitada para modelos maiores. GenIR simplifica o processo em três etapas: construção de pares imagem-texto, ajuste fino com base em duplo prompt e geração e filtragem de dados. Essa abordagem contorna o processo demorado de coleta de dados, garantindo conformidade com direitos autorais e fornecendo uma solução econômica e segura em termos de privacidade para a construção do conjunto de dados de IR. O resultado é um conjunto de dados em grande escala com um milhão de imagens de alta qualidade. Nossa segunda contribuição, DreamClear, é um modelo de restauração de imagens baseado em DiT. Ele utiliza os precursores generativos de modelos de difusão de texto para imagem (T2I) e as robustas capacidades perceptuais de modelos de linguagem multimodal grande (MLLMs) para alcançar uma restauração fotorrealista. Para impulsionar a adaptabilidade do modelo a diversas degradações do mundo real, introduzimos o Mixture of Adaptive Modulator (MoAM). Ele emprega precursores de degradação por token para integrar dinamicamente vários especialistas em restauração, expandindo assim o alcance das degradações que o modelo pode abordar. Nossos experimentos exaustivos confirmam o desempenho superior do DreamClear, destacando a eficácia de nossa estratégia dupla para restauração de imagens do mundo real. O código e os modelos pré-treinados estarão disponíveis em: https://github.com/shallowdream204/DreamClear.
Embora tenham sido alcançados avanços significativos no desenvolvimento de modelos de linguagem grandes de longo contexto (LLMs), a qualidade comprometida dos dados sintetizados pelo LLM para ajuste fino supervisionado (SFT) frequentemente afeta o desempenho de longo contexto dos modelos SFT e leva a limitações inerentes. Em princípio, o aprendizado por reforço (RL) com sinais de recompensa apropriados pode aprimorar ainda mais as capacidades dos modelos. No entanto, como obter recompensas confiáveis em cenários de longo contexto permanece inexplorado. Para isso, propomos o LongReward, um método inovador que utiliza um LLM pronto para fornecer recompensas para respostas de modelos de longo contexto a partir de quatro dimensões valorizadas pelos humanos: utilidade, lógica, fidelidade e completude, cada uma com um pipeline de avaliação cuidadosamente projetado. Ao combinar o LongReward e o algoritmo de RL offline DPO, somos capazes de melhorar efetivamente os modelos de SFT de longo contexto. Nossos experimentos indicam que o LongReward não apenas melhora significativamente o desempenho de longo contexto dos modelos, mas também aprimora sua capacidade de seguir instruções curtas. Também descobrimos que o DPO de longo contexto com LongReward e o DPO de curto contexto convencional podem ser usados juntos sem prejudicar o desempenho de nenhum deles.
Apresentamos uma nova técnica de fundamentação espacial sem treinamento para geração de texto para imagem usando Transformadores de Difusão (DiT). A fundamentação espacial com caixas delimitadoras tem ganhado atenção por sua simplicidade e versatilidade, permitindo um controle aprimorado do usuário na geração de imagens. No entanto, abordagens anteriores sem treinamento frequentemente dependem da atualização da imagem ruidosa durante o processo de difusão reversa por meio de retropropagação a partir de funções de perda personalizadas, que frequentemente têm dificuldade em fornecer controle preciso sobre caixas delimitadoras individuais. Neste trabalho, aproveitamos a flexibilidade da arquitetura Transformer, demonstrando que o DiT pode gerar patches ruidosos correspondentes a cada caixa delimitadora, codificando totalmente o objeto alvo e permitindo um controle detalhado sobre cada região. Nossa abordagem se baseia em uma propriedade intrigante do DiT, que chamamos de compartilhamento semântico. Devido ao compartilhamento semântico, quando um patch menor é conjuntamente desenruido juntamente com uma imagem de tamanho gerável, os dois se tornam "clones semânticos". Cada patch é desenruido em seu próprio ramo do processo de geração e depois transplantado para a região correspondente da imagem ruidosa original em cada passo de tempo, resultando em uma fundamentação espacial robusta para cada caixa delimitadora. Em nossos experimentos nos benchmarks HRS e DrawBench, alcançamos desempenho de ponta em comparação com abordagens anteriores de fundamentação espacial sem treinamento.
Os motores de busca permitem a recuperação de informações desconhecidas por meio de textos. No entanto, os métodos tradicionais são limitados quando se trata de compreender conteúdo visual desconhecido, como identificar um objeto que o modelo nunca viu antes. Este desafio é particularmente evidente para os grandes modelos de visão e linguagem (VLMs): se o modelo não foi exposto ao objeto representado em uma imagem, ele tem dificuldade em gerar respostas confiáveis para a pergunta do usuário sobre essa imagem. Além disso, à medida que novos objetos e eventos surgem continuamente, atualizar frequentemente os VLMs é impraticável devido ao alto ônus computacional. Para lidar com essa limitação, propomos o Assistente de Busca Visual, um novo framework que facilita a colaboração entre VLMs e agentes da web. Esta abordagem aproveita as capacidades de compreensão visual dos VLMs e o acesso a informações em tempo real dos agentes da web para realizar Geração com Recuperação Aprimorada de Mundo Aberto via web. Ao integrar representações visuais e textuais por meio dessa colaboração, o modelo pode fornecer respostas informadas mesmo quando a imagem é nova para o sistema. Experimentos extensos realizados em benchmarks de perguntas e respostas tanto de conjunto aberto quanto fechado demonstram que o Assistente de Busca Visual supera significativamente os outros modelos e pode ser amplamente aplicado aos VLMs existentes.
A implantação segura e eficaz de Modelos de Linguagem Grandes (LLMs) envolve uma etapa crítica chamada alinhamento, que garante que as respostas do modelo estejam de acordo com as preferências humanas. Técnicas de alinhamento prevalentes, como DPO, PPO e suas variantes, alinham LLMs alterando os pesos do modelo pré-treinado durante uma fase chamada pós-treinamento. Embora predominantes, esses métodos de pós-treinamento adicionam complexidade substancial antes que os LLMs possam ser implantados. Métodos de alinhamento no momento da inferência evitam a etapa complexa de pós-treinamento e, em vez disso, direcionam a geração para respostas alinhadas com as preferências humanas. O método de alinhamento no momento da inferência mais conhecido, chamado Melhor-de-N, é tão eficaz quanto os procedimentos de pós-treinamento de ponta. Infelizmente, o Melhor-de-N requer recursos muito maiores no momento da inferência do que as estratégias de decodificação padrão, o que o torna computacionalmente inviável. Neste trabalho, apresentamos o Rejeição Especulativa, um algoritmo de alinhamento no momento da inferência viável computacionalmente. Ele gera respostas de alta pontuação de acordo com um modelo de recompensa dado, como o Melhor-de-N faz, enquanto sendo entre 16 a 32 vezes mais eficiente computacionalmente.
Apresentamos o LARP, um novo tokenizador de vídeo projetado para superar as limitações nos métodos atuais de tokenização de vídeo para modelos generativos autoregressivos (AR). Ao contrário dos tokenizadores tradicionais baseados em patches que codificam diretamente patches visuais locais em tokens discretos, o LARP introduz um esquema de tokenização holística que reúne informações do conteúdo visual usando um conjunto de consultas holísticas aprendidas. Esse design permite que o LARP capture representações mais globais e semânticas, em vez de se limitar a informações locais em nível de patch. Além disso, oferece flexibilidade ao suportar um número arbitrário de tokens discretos, possibilitando uma tokenização adaptativa e eficiente com base nos requisitos específicos da tarefa. Para alinhar o espaço de tokens discretos com tarefas de geração AR subsequentes, o LARP integra um transformador AR leve como modelo prior durante o treinamento, que prevê o próximo token em seu espaço latente discreto. Ao incorporar o modelo prior durante o treinamento, o LARP aprende um espaço latente otimizado não apenas para reconstrução de vídeo, mas também estruturado de forma mais propícia à geração autoregressiva. Além disso, esse processo define uma ordem sequencial para os tokens discretos, empurrando-os progressivamente em direção a uma configuração ótima durante o treinamento, garantindo uma geração AR mais suave e precisa no momento da inferência. Experimentos abrangentes demonstram o forte desempenho do LARP, alcançando o estado-da-arte no FVD no benchmark de geração de vídeo condicional à classe UCF101. O LARP aprimora a compatibilidade de modelos AR com vídeos e abre o potencial para construir modelos unificados de linguagem multimodal de alta fidelidade (MLLMs).
Neste trabalho, reformulamos o problema de compressão de modelos no problema de compensação personalizada: Dado um modelo comprimido, nosso objetivo é introduzir caminhos residuais de baixa classificação para compensar erros de compressão sob requisitos personalizados dos usuários (por exemplo, tarefas, taxas de compressão), resultando em maior flexibilidade para ajustar a capacidade geral sem ser limitado por formatos de compressão específicos. No entanto, aplicar ingenuamente a SVD para derivar caminhos residuais causa utilização subótima da capacidade de representação de baixa classificação. Em vez disso, propomos a Aproximação de Baixa Classificação do Espaço Próprio sem Treinamento (EoRA), um método que minimiza diretamente os erros induzidos pela compressão sem exigir treinamento baseado em gradiente, alcançando uma otimização rápida em minutos usando uma pequena quantidade de dados de calibração. EoRA projeta os erros de compressão no espaço próprio das ativações de entrada, alavancando os autovalores para priorizar efetivamente a reconstrução dos componentes de erro de alta importância. Além disso, EoRA pode ser integrado de forma transparente com ajuste fino e quantização para melhorar ainda mais a eficácia e eficiência. EoRA supera consistentemente métodos anteriores na compensação de erros para modelos LLaMA2/3 comprimidos em várias tarefas, como geração de linguagem, raciocínio de senso comum e tarefas de raciocínio matemático (por exemplo, melhorias de 31,31%/12,88% e 9,69% em ARC-Easy/ARC-Challenge e MathQA ao compensar LLaMA3-8B quantizado para 4 bits e podado para esparsidade de 2:4). EoRA oferece uma solução escalável e sem treinamento para compensar erros de compressão, tornando-se uma ferramenta poderosa para implantar LLMs em várias exigências de capacidade e eficiência.
Modelos de linguagem de grande escala (LLMs) são caros de implantar. O compartilhamento de parâmetros oferece um caminho possível para reduzir seu tamanho e custo, mas sua eficácia em LLMs modernos ainda é bastante limitada. Neste trabalho, revisitamos o "layer tying" como uma forma de compartilhamento de parâmetros em Transformers e introduzimos métodos inovadores para converter LLMs existentes em "Transformers Recursivos" menores que compartilham parâmetros entre camadas, com perda mínima de desempenho. Aqui, nossos Transformers Recursivos são inicializados de forma eficiente a partir de Transformers pré-treinados padrão, mas usam apenas um bloco de camadas exclusivas que é então repetido várias vezes em um loop. Melhoramos ainda mais o desempenho ao introduzir Transformers Recursivos Relaxados que adicionam flexibilidade à restrição de "layer tying" por meio de módulos de adaptação de baixa classificação em profundidade (LoRA), mas ainda preservam a compacidade do modelo geral. Mostramos que nossos modelos recursivos (por exemplo, Gemma 1B recursivo) superam tanto modelos pré-treinados semelhantes em tamanho (como TinyLlama 1.1B e Pythia 1B) quanto baselines de destilação de conhecimento - e podem até recuperar a maior parte do desempenho do modelo "tamanho completo" original (por exemplo, Gemma 2B sem parâmetros compartilhados). Finalmente, propomos o Agrupamento Contínuo em Profundidade, um novo paradigma promissor de inferência habilitado pelo Transformer Recursivo quando combinado com saídas antecipadas. Em uma análise teórica, mostramos que isso tem o potencial de levar a ganhos significativos (2-3x) na taxa de inferência.
Os vídeos são frequentemente utilizados para aprender ou extrair as informações necessárias para completar tarefas de maneiras diferentes do que apenas texto e imagens estáticas podem fornecer. No entanto, muitos benchmarks de agentes existentes negligenciam a compreensão de vídeos de longo contexto, em vez disso, focando em entradas de texto ou imagens estáticas. Para preencher essa lacuna, apresentamos o VideoWebArena (VideoWA), um benchmark para avaliar as capacidades de agentes multimodais de longo contexto para compreensão de vídeos. O VideoWA é composto por 2.021 tarefas de agentes da web baseadas em tutoriais de vídeo criados manualmente, totalizando quase quatro horas de conteúdo. Para nosso benchmark, definimos uma taxonomia de tarefas de agentes baseadas em vídeos de longo contexto com dois principais focos: retenção de habilidades e retenção de fatos. Enquanto as tarefas de retenção de habilidades avaliam se um agente pode usar uma demonstração humana fornecida para completar uma tarefa de forma eficiente, a tarefa de retenção de fatos avalia se um agente pode recuperar informações relevantes para a instrução de um vídeo para completar uma tarefa. Descobrimos que o melhor modelo alcança 13,3% de sucesso em tarefas de retenção de fatos e 45,8% em pares de perguntas e respostas de retenção de fatos, muito abaixo do desempenho humano de 73,9% e 79,3%, respectivamente. Nas tarefas de retenção de habilidades, os modelos de longo contexto têm um desempenho pior com tutoriais do que sem eles, exibindo uma diminuição de desempenho de 5% nas tarefas do WebArena e uma diminuição de 10,3% nas tarefas do VisualWebArena. Nosso trabalho destaca a necessidade de melhorar as habilidades agentes de modelos multimodais de longo contexto e fornece uma plataforma de testes para desenvolvimentos futuros com agentes de vídeo de longo contexto.
Os Campos Neurais surgiram como uma abordagem transformadora para a representação de cenas 3D em visão computacional e robótica, permitindo uma inferência precisa de geometria, semântica 3D e dinâmica a partir de dados 2D fornecidos. Aproveitando a renderização diferenciável, os Campos Neurais abrangem representações neurais contínuas implícitas e explícitas, possibilitando uma reconstrução 3D de alta fidelidade, integração de dados de sensores multimodais e geração de novos pontos de vista. Esta pesquisa explora suas aplicações em robótica, enfatizando seu potencial para aprimorar a percepção, planejamento e controle. Sua compacidade, eficiência de memória e diferenciabilidade, juntamente com a integração perfeita com modelos fundamentais e generativos, os tornam ideais para aplicações em tempo real, melhorando a adaptabilidade e tomada de decisão dos robôs. Este artigo fornece uma revisão abrangente dos Campos Neurais em robótica, categorizando aplicações em diversos domínios e avaliando seus pontos fortes e limitações, com base em mais de 200 artigos. Primeiramente, apresentamos quatro estruturas-chave de Campos Neurais: Redes de Ocupação, Campos de Distância Assinada, Campos de Radiância Neural e Splatting Gaussiano. Em segundo lugar, detalhamos as aplicações dos Campos Neurais em cinco grandes domínios da robótica: estimativa de pose, manipulação, navegação, física e direção autônoma, destacando trabalhos importantes e discutindo conclusões e desafios em aberto. Por fim, delineamos as limitações atuais dos Campos Neurais em robótica e propomos direções promissoras para pesquisas futuras. Página do projeto: https://robonerf.github.io
Derivar de forma eficiente fluxos de trabalho estruturados a partir de diálogos não anotados continua sendo um desafio subexplorado e formidável na linguística computacional. Automatizar esse processo poderia acelerar significativamente o design manual de fluxos de trabalho em novos domínios e permitir a fundamentação de grandes modelos de linguagem em diagramas de fluxo específicos do domínio, aprimorando a transparência e a controlabilidade. Neste artigo, introduzimos os embeddings Dialog2Flow (D2F), que diferem dos embeddings de frases convencionais ao mapear enunciados para um espaço latente onde são agrupados de acordo com suas funções comunicativas e informativas (ou seja, as ações que representam). D2F permite modelar diálogos como trajetórias contínuas em um espaço latente com regiões distintas relacionadas a ações. Ao agrupar os embeddings D2F, o espaço latente é quantizado, e os diálogos podem ser convertidos em sequências de IDs de região/ação, facilitando a extração do fluxo subjacente. Para pré-treinar o D2F, construímos um conjunto de dados abrangente unificando vinte conjuntos de dados de diálogos orientados a tarefas com anotações normalizadas de ações por turno. Também introduzimos uma nova perda contrastiva suave que aproveita a informação semântica dessas ações para orientar o processo de aprendizado de representação, demonstrando desempenho superior em comparação com a perda contrastiva supervisionada padrão. A avaliação em relação a vários embeddings de frases, incluindo os específicos para diálogos, demonstra que o D2F produz resultados qualitativos e quantitativos superiores em diversos domínios.
Esta pesquisa testa o papel dos Modelos de Linguagem de Grande Escala (LLMs) como ferramentas formais de segunda opinião na tomada de decisão profissional, focando especialmente em casos médicos complexos nos quais até mesmo médicos experientes buscam consultas de colegas. O trabalho analisou 183 casos médicos desafiadores do Medscape ao longo de um período de 20 meses, testando o desempenho de múltiplos LLMs em comparação com as respostas de médicos obtidas de forma colaborativa. Uma descoberta importante foi a alta pontuação geral possível nos modelos fundamentais mais recentes (>80% de precisão em comparação com a opinião consensual), superando a maioria das métricas humanas relatadas nos mesmos casos clínicos (450 páginas de perfis de pacientes, resultados de testes). O estudo avalia a disparidade de desempenho dos LLMs entre casos simples (>81% de precisão) e cenários complexos (43% de precisão), especialmente nesses casos que geram considerável debate entre os médicos humanos. A pesquisa demonstra que os LLMs podem ser valiosos como geradores de diagnósticos diferenciais abrangentes em vez de ferramentas diagnósticas primárias, potencialmente ajudando a combater vieses cognitivos na tomada de decisões clínicas, reduzir cargas cognitivas e, assim, eliminar algumas fontes de erros médicos. A inclusão de um segundo conjunto de dados legais comparativos (casos da Suprema Corte, N=21) fornece contexto empírico adicional para o uso de IA na promoção de segundas opiniões, embora esses desafios legais tenham se mostrado consideravelmente mais fáceis para os LLMs analisarem. Além das contribuições originais de evidências empíricas para a precisão dos LLMs, a pesquisa agregou um novo referencial para que outros avaliem a confiabilidade de perguntas e respostas altamente contestadas entre os LLMs e profissionais humanos discordantes. Esses resultados sugerem que a implantação ideal dos LLMs em ambientes profissionais pode diferir substancialmente das abordagens atuais que enfatizam a automação de tarefas rotineiras.
Dado o alto custo de coletar dados robóticos no mundo real, a eficiência amostral é uma busca constantemente convincente na robótica. Neste artigo, apresentamos SGRv2, um framework de aprendizado por imitação que aprimora a eficiência amostral por meio de representações visuais e de ação aprimoradas. Central para o design do SGRv2 está a incorporação de um viés indutivo crítico - a localidade da ação, que postula que as ações do robô são predominantemente influenciadas pelo objeto alvo e suas interações com o ambiente local. Experimentos extensivos em ambientes simulados e no mundo real demonstram que a localidade da ação é essencial para aumentar a eficiência amostral. O SGRv2 se destaca nas tarefas do RLBench com controle de keyframe usando apenas 5 demonstrações e supera o modelo de referência RVT em 23 de 26 tarefas. Além disso, ao ser avaliado no ManiSkill2 e MimicGen usando controle denso, a taxa de sucesso do SGRv2 é 2,54 vezes maior que a do SGR. Em ambientes do mundo real, com apenas oito demonstrações, o SGRv2 pode realizar uma variedade de tarefas com uma taxa de sucesso significativamente maior em comparação com os modelos de referência. Website do projeto: http://sgrv2-robot.github.io
A aprendizagem por imitação a partir de dados de captura de movimento humano (MoCap) oferece uma maneira promissora de treinar robôs humanoides. No entanto, devido a diferenças na morfologia, como graus variados de liberdade articular e limites de força, a replicação exata de comportamentos humanos pode não ser viável para robôs humanoides. Consequentemente, a incorporação de dados MoCap fisicamente inviáveis nos conjuntos de treinamento pode afetar adversamente o desempenho da política do robô. Para abordar esse problema, propomos um framework de aprendizagem por imitação baseado em otimização em dois níveis que alterna entre a otimização da política do robô e dos dados MoCap alvo. Especificamente, primeiro desenvolvemos um modelo dinâmico latente generativo usando um autoencoder autoconsistente inovador, que aprende representações de movimento esparsas e estruturadas enquanto captura padrões de movimento desejados no conjunto de dados. O modelo dinâmico é então utilizado para gerar movimentos de referência enquanto a representação latente regulariza o processo de imitação de movimento em dois níveis. Simulações realizadas com um modelo realista de um robô humanoide demonstram que nosso método melhora a política do robô modificando os movimentos de referência para serem fisicamente consistentes.