Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de Linguagem de Grande Escala (LLMs) frequentemente alucinam em tarefas de resposta a perguntas (QA). Um fator crucial, mas pouco explorado, que contribui para isso é a temporalidade das perguntas -- se elas são perenes (as respostas permanecem estáveis ao longo do tempo) ou mutáveis (as respostas mudam). Neste trabalho, apresentamos o EverGreenQA, o primeiro conjunto de dados QA multilíngue com rótulos perenes, suportando tanto avaliação quanto treinamento. Utilizando o EverGreenQA, avaliamos 12 LLMs modernos para verificar se eles codificam a temporalidade das perguntas explicitamente (por meio de julgamentos verbalizados) ou implicitamente (por meio de sinais de incerteza). Também treinamos o EG-E5, um classificador multilíngue leve que alcança desempenho de estado da arte (SoTA) nessa tarefa. Por fim, demonstramos a utilidade prática da classificação perene em três aplicações: melhoria da estimativa de autoconhecimento, filtragem de conjuntos de dados QA e explicação do comportamento de recuperação do GPT-4o.
Apresentamos o PartCrafter, o primeiro modelo generativo 3D estruturado que sintetiza conjuntamente múltiplas malhas 3D semanticamente significativas e geometricamente distintas a partir de uma única imagem RGB. Diferente dos métodos existentes que produzem formas 3D monolíticas ou seguem pipelines de duas etapas, ou seja, primeiro segmentam uma imagem e depois reconstroem cada segmento, o PartCrafter adota uma arquitetura de geração unificada e composicional que não depende de entradas pré-segmentadas. Condicionado a uma única imagem, ele desnrui simultaneamente múltiplas partes 3D, permitindo a geração consciente de partes de forma end-to-end tanto para objetos individuais quanto para cenas complexas com múltiplos objetos. O PartCrafter é construído sobre um transformer de difusão de malhas 3D (DiT) pré-treinado em objetos inteiros, herdando os pesos, codificador e decodificador pré-treinados, e introduz duas inovações principais: (1) Um espaço latente composicional, onde cada parte 3D é representada por um conjunto de tokens latentes desacoplados; (2) Um mecanismo de atenção hierárquica que permite o fluxo estruturado de informações tanto dentro de partes individuais quanto entre todas as partes, garantindo coerência global enquanto preserva detalhes em nível de parte durante a geração. Para suportar supervisão em nível de parte, criamos um novo conjunto de dados extraindo anotações em nível de parte de grandes conjuntos de dados de objetos 3D. Experimentos mostram que o PartCrafter supera abordagens existentes na geração de malhas 3D decomponíveis, incluindo partes que não estão diretamente visíveis nas imagens de entrada, demonstrando a força de priors generativos conscientes de partes para compreensão e síntese 3D. O código e os dados de treinamento serão disponibilizados.
Embora os modelos de linguagem multimodal de grande escala (MLLMs) tenham feito progressos significativos em tarefas de raciocínio complexo por meio de aprendizado por reforço, acredita-se comumente que dados de treinamento extensos são necessários para melhorar a capacidade de raciocínio multimodal, o que inevitavelmente leva à redundância de dados e a custos computacionais substanciais. No entanto, conjuntos de dados menores e de alto valor podem igualar ou superar corpora completos para o raciocínio multimodal em MLLMs? Neste trabalho, desafiamos essa suposição por meio de uma observação crucial: o raciocínio multimodal significativo é desencadeado apenas por um subconjunto esparso de amostras de treinamento, denominadas amostras cognitivas, enquanto a maioria contribui marginalmente. Com base nessa percepção, propomos um novo paradigma de seleção de dados denominado Potencial de Ativação de Raciocínio (RAP), que identifica amostras cognitivas estimando o potencial de cada amostra para estimular o raciocínio multimodal genuíno por meio de dois estimadores complementares: 1) o Estimador de Discrepância Causal (CDE), baseado no princípio do modelo de resultado potencial, elimina amostras que dependem excessivamente de prioridades linguísticas comparando saídas entre entradas multimodais e apenas de texto; 2) o Estimador de Confiança de Atenção (ACE), que explora a autoatenção em nível de token para descartar amostras dominadas por tokens irrelevantes, mas superenfatizados, em estágios intermediários de raciocínio. Além disso, introduzimos um Módulo de Substituição Sensível à Dificuldade (DRM) para substituir instâncias triviais por outras cognitivamente desafiadoras, garantindo assim complexidade para um raciocínio multimodal robusto. Experimentos em seis conjuntos de dados mostram que nosso método RAP alcança consistentemente desempenho superior usando apenas 9,3% dos dados de treinamento, enquanto reduz os custos computacionais em mais de 43%. Nosso código está disponível em https://github.com/Leo-ssl/RAP.
O desempenho de modelos de linguagem de grande escala em tarefas específicas de domínio exige ajuste fino, que é computacionalmente caro e tecnicamente desafiador. Este artigo foca no ajuste fino eficiente em termos de parâmetros usando soft prompting, uma abordagem promissora que adapta modelos pré-treinados para tarefas subsequentes ao aprender um pequeno conjunto de parâmetros. Propomos uma nova técnica de Soft Prompting Dependente da Entrada com um Mecanismo de Auto-atenção (ID-SPAM) que gera soft prompts com base nos tokens de entrada e atribui diferentes níveis de importância a vários tokens. Nosso método é simples e eficiente, mantendo o número de parâmetros treináveis reduzido. Demonstramos os méritos da abordagem proposta em comparação com técnicas state-of-the-art em várias tarefas e mostramos a capacidade aprimorada de transferência de domínio zero shot.
Apesar dos rápidos avanços nos modelos de visão e linguagem (VLMs), os benchmarks atuais para raciocínio multimodal apresentam deficiências em três dimensões principais. Primeiro, eles dependem predominantemente de imagens estáticas, falhando em capturar a complexidade temporal dos ambientes do mundo real. Segundo, eles se concentram de forma restrita na resolução de problemas matemáticos, negligenciando o espectro mais amplo de habilidades de raciocínio — incluindo capacidades abstratas, físicas, de planejamento, espaciais e temporais — necessárias para uma inteligência multimodal robusta. Terceiro, muitos benchmarks rapidamente atingem saturação, oferecendo espaço limitado para diagnosticar modos de falha ou medir progressos contínuos. Introduzimos o MORSE-500 (Multimodal Reasoning Stress-test Environment), um benchmark de vídeo composto por 500 clipes totalmente roteirizados com perguntas incorporadas que abrangem seis categorias complementares de raciocínio. Cada instância é gerada programaticamente usando scripts Python determinísticos (via Manim, Matplotlib, MoviePy), modelos generativos de vídeo e filmagens reais curadas. Esse design baseado em scripts permite controle refinado sobre a complexidade visual, densidade de distrações e dinâmicas temporais — possibilitando que a dificuldade seja escalada sistematicamente à medida que os modelos melhoram. Diferente de benchmarks estáticos que se tornam obsoletos após a saturação, o MORSE-500 foi construído para evoluir: seu pipeline de geração controlável suporta a criação de novas instâncias arbitrariamente desafiadoras, tornando-o ideal para testar modelos de próxima geração sob pressão. Experimentos iniciais com sistemas de última geração — incluindo várias versões do Gemini 2.5 Pro e OpenAI o3, que representam os mais avançados disponíveis no momento, além de modelos open-source robustos — revelam lacunas substanciais de desempenho em todas as categorias, com déficits particularmente grandes em tarefas abstratas e de planejamento. Disponibilizamos o conjunto de dados completo, scripts de geração e ferramentas de avaliação para apoiar pesquisas transparentes, reproduzíveis e prospectivas em raciocínio multimodal.
A geração de legendas de áudio em larga escala e de alta qualidade é crucial para o avanço da compreensão de áudio, mas os métodos automatizados atuais frequentemente produzem legendas que carecem de detalhes refinados e precisão contextual, principalmente devido à sua dependência de informações unimodais limitadas ou multimodais superficiais. Inspirados pela percepção auditiva humana, que integra habilmente pistas multimodais e realiza uma análise sofisticada de cenas auditivas, introduzimos um novo pipeline automatizado em duas etapas. Esse pipeline primeiro emprega modelos pré-treinados especializados para extrair diversas pistas contextuais (por exemplo, fala, música, sons gerais e informações visuais de vídeos associados). Um modelo de linguagem de grande escala (LLM, na sigla em inglês) então sintetiza essas entradas multimodais ricas para gerar legendas de áudio detalhadas e contextualmente conscientes. As principais contribuições deste trabalho incluem: (1) o método escalável proposto para geração de legendas de áudio refinadas; (2) FusionAudio, um novo conjunto de dados em larga escala composto por 1,2 milhão dessas legendas detalhadas, combinadas com 6 milhões de pares de perguntas e respostas; e (3) modelos de áudio aprimorados desenvolvidos usando o FusionAudio, especificamente um codificador de áudio baseado em CLAP com alinhamento superior entre áudio e texto e capacidade de seguir instruções. Este artigo abre caminho para uma compreensão automatizada mais precisa e matizada de ambientes de áudio complexos. O código e os dados podem ser encontrados em https://github.com/satsuki2486441738/FusionAudio.
Os Modelos de Linguagem de Grande Escala (LLMs) estão se tornando cada vez mais poderosos, mas permanecem vulneráveis a ataques de injeção de prompt, onde entradas maliciosas fazem o modelo desviar de suas instruções pretendidas. Este artigo apresenta o Sentinel, um novo modelo de detecção, qualifire/prompt-injection-sentinel, baseado na arquitetura \answerdotai/ModernBERT-large. Ao aproveitar os recursos avançados do ModernBERT e ajustar finamente um extenso e diversificado conjunto de dados que inclui algumas coleções de código aberto e privadas, o Sentinel alcança desempenho de ponta. Esse conjunto de dados combina diversos tipos de ataques, desde a simulação de papéis e o sequestro de instruções até tentativas de gerar conteúdo tendencioso, juntamente com um amplo espectro de instruções benignas, com conjuntos de dados privados especificamente voltados para correção de erros sutis e classificações errôneas do mundo real. Em um conjunto de testes interno abrangente e não visto, o Sentinel demonstra uma precisão média de 0,987 e um F1-score de 0,980. Além disso, quando avaliado em benchmarks públicos, ele supera consistentemente bases fortes como protectai/deberta-v3-base-prompt-injection-v2. Este trabalho detalha a arquitetura do Sentinel, sua curadoria meticulosa de dados, sua metodologia de treinamento e uma avaliação completa, destacando suas capacidades superiores de detecção.
Modelos de linguagem omni-modais (OLMs) visam integrar e raciocinar sobre diversas modalidades de entrada—como texto, imagens, vídeo e áudio—mantendo capacidades linguísticas robustas. Apesar dos avanços recentes, os modelos existentes, especialmente os de código aberto, ainda estão longe de uma verdadeira omni-modalidade, lutando para generalizar além dos pares de modalidades específicas em que são treinados ou para alcançar um desempenho forte ao processar entradas multimodais. Estudamos o efeito da extensão de modalidade, a técnica dominante para treinar modelos multimodais, na qual um modelo de linguagem pré-treinado é ajustado para dados de domínio e idioma específicos. Especificamente, investigamos três questões-chave: (1) A extensão de modalidade compromete as habilidades linguísticas centrais? (2) A fusão de modelos pode integrar efetivamente modelos específicos de modalidade ajustados independentemente para alcançar a omni-modalidade? (3) A extensão omni-modal leva a um melhor compartilhamento de conhecimento e generalização em comparação com a extensão sequencial? Por meio de experimentos extensivos, analisamos essas compensações e fornecemos insights sobre a viabilidade de alcançar a verdadeira omni-modalidade usando as abordagens atuais.
Apresentamos o STARFlow, um modelo generativo escalável baseado em fluxos normalizadores que alcança um desempenho robusto na síntese de imagens de alta resolução. O núcleo do STARFlow é o Fluxo Autoregressivo com Transformers (TARFlow), que combina o poder expressivo dos fluxos normalizadores com as capacidades de modelagem estruturada dos Transformers Autoregressivos. Primeiro, estabelecemos a universalidade teórica do TARFlow para modelar distribuições contínuas. Com base nesse fundamento, introduzimos várias inovações arquitetônicas e algorítmicas chave para aprimorar significativamente a escalabilidade: (1) um design profundo-raso, no qual um bloco Transformer profundo captura a maior parte da capacidade representacional do modelo, complementado por alguns blocos Transformer rasos que são computacionalmente eficientes, mas substancialmente benéficos; (2) modelagem no espaço latente de autoencoders pré-treinados, que se mostra mais eficaz do que a modelagem direta no nível de pixels; e (3) um algoritmo de orientação inovador que melhora significativamente a qualidade das amostras. Crucialmente, nosso modelo permanece um fluxo normalizador de ponta a ponta, permitindo o treinamento exato de máxima verossimilhança em espaços contínuos sem discretização. O STARFlow alcança desempenho competitivo tanto em tarefas de geração de imagens condicionadas por classe quanto por texto, aproximando-se da qualidade de amostras dos modelos de difusão state-of-the-art. Até onde sabemos, este trabalho é a primeira demonstração bem-sucedida de fluxos normalizadores operando efetivamente nessa escala e resolução.
Fornecer tratamentos eficazes e tomar decisões clínicas informadas são objetivos essenciais da medicina moderna e dos cuidados clínicos. Estamos interessados em simular a dinâmica de doenças para a tomada de decisões clínicas, aproveitando os avanços recentes em grandes modelos generativos. Para isso, introduzimos o Medical World Model (MeWM), o primeiro modelo de mundo na medicina que prevê visualmente estados futuros de doenças com base em decisões clínicas. O MeWM compreende (i) modelos de visão e linguagem que servem como modelos de política, e (ii) modelos generativos de tumores como modelos de dinâmica. O modelo de política gera planos de ação, como tratamentos clínicos, enquanto o modelo de dinâmica simula a progressão ou regressão do tumor sob determinadas condições de tratamento. Com base nisso, propomos o modelo de dinâmica inversa que aplica análise de sobrevivência ao tumor simulado pós-tratamento, permitindo a avaliação da eficácia do tratamento e a seleção do plano de ação clínico ideal. Como resultado, o MeWM proposto simula a dinâmica de doenças sintetizando tumores pós-tratamento, com especificidade de ponta em testes de Turing avaliados por radiologistas. Simultaneamente, seu modelo de dinâmica inversa supera GPTs especializados em medicina na otimização de protocolos de tratamento individualizados em todas as métricas. Notavelmente, o MeWM melhora a tomada de decisões clínicas para médicos intervencionistas, aumentando o F1-score na seleção do protocolo TACE ideal em 13%, abrindo caminho para a futura integração de modelos de mundo médico como segundos leitores.
Modelos de linguagem de grande escala com consciência de áudio (ALLMs, do inglês *Audio-aware Large Language Models*) podem compreender informações textuais e não textuais presentes em entradas de áudio. Neste artigo, exploramos o uso de ALLMs como juízes automáticos para avaliar os estilos de fala em discursos. Utilizamos juízes ALLMs para avaliar os discursos gerados por modelos de linguagem falada (SLMs, do inglês *Spoken Language Models*) em duas tarefas: seguir instruções de estilo de voz e interpretação de papéis. O estilo de fala que consideramos inclui emoção, volume, ritmo de fala, ênfase nas palavras, controle de tom e elementos não verbais. Empregamos quatro modelos de linguagem falada (SLMs) para realizar as duas tarefas e utilizamos humanos e ALLMs para julgar as respostas dos SLMs. Comparamos dois juízes ALLMs, GPT-4o-audio e Gemini-2.5-pro, com os resultados da avaliação humana e mostramos que a concordância entre o Gemini e os juízes humanos é comparável à concordância entre avaliadores humanos. Esses resultados promissores demonstram que ALLMs podem ser usados como juízes para avaliar SLMs. Nossos resultados também revelam que os SLMs atuais, incluindo o GPT-4o-audio, ainda têm espaço para melhorias no controle do estilo de fala e na geração de diálogos naturais.
O desenvolvimento de modelos modernos de Inteligência Artificial (IA), particularmente os modelos baseados em difusão utilizados em tarefas de visão computacional e geração de imagens, está passando por uma mudança paradigmática nas metodologias de desenvolvimento. Tradicionalmente dominado por uma abordagem "Centrada no Modelo", na qual os ganhos de desempenho eram buscados principalmente por meio de arquiteturas de modelos cada vez mais complexas e otimização de hiperparâmetros, o campo agora está reconhecendo uma abordagem mais sutil "Centrada em Dados". Esse novo paradigma coloca a qualidade, estrutura e relevância dos dados de treinamento como o principal impulsionador do desempenho do modelo. Para operacionalizar essa mudança de paradigma, introduzimos o conjunto de dados de amostra DataSeeds.AI (o "DSD"), inicialmente composto por aproximadamente 10.610 imagens fotográficas de alta qualidade classificadas por pares humanos e acompanhadas por extensas anotações de múltiplos níveis. O DSD é um conjunto de dados fundamental para visão computacional, projetado para estabelecer um novo padrão para conjuntos de dados comerciais de imagens. Representando uma pequena fração do catálogo de mais de 100 milhões de imagens da DataSeed.AI, o DSD fornece uma base escalável necessária para o desenvolvimento robusto de IA comercial e multimodal. Por meio desta análise exploratória detalhada, documentamos as melhorias quantitativas geradas pelo DSD em modelos específicos em relação a benchmarks conhecidos e disponibilizamos publicamente o código e os modelos treinados utilizados em nossa avaliação.
Perceber o mundo tanto a partir de perspectivas egocêntricas (em primeira pessoa) quanto exocêntricas (em terceira pessoa) é fundamental para a cognição humana, permitindo uma compreensão rica e complementar de ambientes dinâmicos. Nos últimos anos, permitir que as máquinas aproveitem o potencial sinérgico dessas perspectivas duplas emergiu como uma direção de pesquisa atraente no entendimento de vídeos. Nesta pesquisa, fornecemos uma revisão abrangente do entendimento de vídeos a partir de pontos de vista tanto exocêntricos quanto egocêntricos. Começamos destacando as aplicações práticas da integração de técnicas egocêntricas e exocêntricas, vislumbrando sua potencial colaboração entre domínios. Em seguida, identificamos tarefas de pesquisa essenciais para realizar essas aplicações. Depois, organizamos e revisamos sistematicamente os avanços recentes em três principais direções de pesquisa: (1) aproveitar dados egocêntricos para aprimorar o entendimento exocêntrico, (2) utilizar dados exocêntricos para melhorar a análise egocêntrica, e (3) frameworks de aprendizado conjunto que unificam ambas as perspectivas. Para cada direção, analisamos um conjunto diversificado de tarefas e trabalhos relevantes. Além disso, discutimos conjuntos de dados de referência que apoiam a pesquisa em ambas as perspectivas, avaliando seu escopo, diversidade e aplicabilidade. Por fim, discutimos limitações nos trabalhos atuais e propomos direções futuras promissoras de pesquisa. Ao sintetizar insights de ambas as perspectivas, nosso objetivo é inspirar avanços no entendimento de vídeos e na inteligência artificial, aproximando as máquinas de perceber o mundo de maneira semelhante aos humanos. Um repositório GitHub de trabalhos relacionados pode ser encontrado em https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
A programação competitiva, devido à sua alta dificuldade de raciocínio e feedback preciso de correção, tornou-se uma tarefa fundamental tanto para o treinamento quanto para a avaliação das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). No entanto, embora uma grande quantidade de dados públicos de problemas, como enunciados e soluções, esteja disponível, os casos de teste desses problemas são frequentemente difíceis de obter. Portanto, a geração de casos de teste é uma tarefa necessária para a construção de conjuntos de dados em larga escala, e a qualidade dos casos de teste determina diretamente a precisão da avaliação. Neste artigo, apresentamos um sistema baseado em agentes LLM que cria casos de teste de alta qualidade para problemas de programação competitiva. Aplicamos esse sistema ao conjunto de dados CodeContests e propomos uma nova versão com casos de teste aprimorados, chamada CodeContests+. Avaliamos a qualidade dos casos de teste no CodeContestsPlus. Primeiro, utilizamos 1,72 milhão de submissões com rótulos de aprovação/reprovação para examinar a precisão desses casos de teste na avaliação. Os resultados indicaram que o CodeContests+ alcança uma precisão significativamente maior do que o CodeContests, particularmente com uma taxa de verdadeiros positivos (TVP) notavelmente mais alta. Posteriormente, nossos experimentos em Aprendizado por Reforço (RL) com LLMs confirmaram ainda que melhorias na qualidade dos casos de teste trazem vantagens consideráveis para o RL.
Os LLMs estão destinados a transformar a área da saúde com suporte avançado à tomada de decisões e assistentes de chat flexíveis. No entanto, os LLMs tendem a gerar conteúdo médico impreciso. Para fundamentar os LLMs em conhecimento médico de alta qualidade, eles têm sido equipados com conhecimento externo via RAG, onde o conhecimento médico não estruturado é dividido em pequenos trechos de texto que podem ser seletivamente recuperados e integrados ao contexto dos LLMs. No entanto, os pipelines de RAG existentes dependem de texto médico bruto e não estruturado, que pode ser ruidoso, não curado e difícil para os LLMs aproveitarem de forma eficaz. Abordagens sistemáticas para organizar o conhecimento médico de modo a melhor apresentá-lo aos LLMs geralmente são escassas. Para enfrentar esses desafios, apresentamos o MIRIAD, um corpus em grande escala e curado de 5.821.948 pares de perguntas e respostas médicas, cada um reformulado e fundamentado em uma passagem da literatura médica revisada por pares, utilizando um pipeline semi-automatizado que combina geração de LLM, filtragem, fundamentação e anotação humana. Diferente de corpora médicos anteriores, que dependem de texto não estruturado, o MIRIAD encapsula conhecimento médico em escala da web em um formato operacionalizado de consulta-resposta, o que permite uma recuperação mais direcionada. Experimentos em benchmarks desafiadores de perguntas e respostas médicas mostram que aumentar os LLMs com o MIRIAD melhora a precisão em até 6,7% em comparação com baselines de RAG não estruturados com o mesmo corpus de origem e com a mesma quantidade de texto recuperado. Além disso, o MIRIAD melhorou a capacidade dos LLMs de detectar alucinações médicas em 22,5 a 37% (aumento no score F1). Introduzimos ainda o MIRIAD-Atlas, um mapa interativo do MIRIAD abrangendo 56 disciplinas médicas, permitindo que usuários clínicos explorem, pesquisem e refinem visualmente o conhecimento médico. O MIRIAD promete desbloquear uma riqueza de aplicações downstream, incluindo recuperadores de informações médicas, aplicações de RAG aprimoradas e interfaces de chat fundamentadas em conhecimento, o que, em última análise, permite aplicações mais confiáveis de LLMs na área da saúde.
A criação de simulações físicas precisas diretamente a partir do movimento de robôs no mundo real tem grande valor para o aprendizado de robôs seguro, escalável e acessível, mas continua sendo excepcionalmente desafiador. Os dados de robôs reais sofrem com oclusões, poses de câmera ruidosas e elementos dinâmicos da cena, o que dificulta a criação de gêmeos digitais geometricamente precisos e fotorrealistas de objetos não vistos. Apresentamos uma nova estrutura real-to-sim que aborda todos esses desafios simultaneamente. Nossa principal percepção é uma representação híbrida da cena que combina a renderização fotorrealista do 3D Gaussian Splatting com malhas de objetos explícitas adequadas para simulação física em uma única representação. Propomos um pipeline de otimização de ponta a ponta que aproveita a renderização diferenciável e a física diferenciável no MuJoCo para refinar conjuntamente todos os componentes da cena - desde a geometria e aparência dos objetos até as poses do robô e parâmetros físicos - diretamente a partir de trajetórias brutas e imprecisas do robô. Essa otimização unificada nos permite alcançar simultaneamente a reconstrução de malhas de objetos de alta fidelidade, gerar novas visões fotorrealistas e realizar a calibração de poses do robô sem anotações. Demonstramos a eficácia da nossa abordagem tanto em simulação quanto em sequências desafiadoras do mundo real usando um manipulador bimanual ALOHA 2, permitindo pipelines real-to-simulation mais práticos e robustos.
A manipulação tem sido uma tarefa desafiadora para robôs, enquanto os humanos conseguem realizar interações complexas com objetos de forma quase intuitiva, como pendurar uma xícara em um suporte. Uma razão fundamental para isso é a falta de um conjunto de dados grande e uniforme para ensinar habilidades de manipulação a robôs. Os conjuntos de dados atuais para robôs frequentemente registram ações em diferentes espaços de ação dentro de cenas simples. Isso dificulta que o robô aprenda uma representação de ação unificada e robusta para diferentes robôs em cenários diversos. Ao observar como os humanos compreendem uma tarefa de manipulação, percebemos que entender como os objetos devem se mover no espaço 3D é uma pista crítica para guiar as ações. Essa pista é independente da forma física e é adequada tanto para humanos quanto para diferentes robôs. Motivados por isso, buscamos aprender um modelo de mundo de fluxo 3D a partir de dados de manipulação humana e robótica. Esse modelo prevê o movimento futuro dos objetos interagentes no espaço 3D, orientando o planejamento de ações para manipulação. Especificamente, sintetizamos um conjunto de dados em larga escala de fluxo óptico 3D, chamado ManiFlow-110k, por meio de um pipeline de detecção automática de objetos em movimento. Um modelo de mundo baseado em difusão de vídeo então aprende a física da manipulação a partir desses dados, gerando trajetórias de fluxo óptico 3D condicionadas a instruções em linguagem natural. Com o fluxo óptico 3D gerado, propomos um mecanismo de renderização guiada por fluxo, que renderiza o estado final previsto e utiliza o GPT-4o para avaliar se o fluxo previsto está alinhado com a descrição da tarefa. Isso equipa o robô com uma capacidade de planejamento em loop fechado. Por fim, consideramos o fluxo óptico 3D previsto como restrições para uma política de otimização, determinando um conjunto de ações robóticas para manipulação. Experimentos extensivos demonstram uma forte generalização em diversas tarefas de manipulação robótica e uma adaptação confiável entre diferentes formas físicas sem treinamento específico para hardware.
Os rápidos avanços em Modelos de Linguagem de Grande Escala (LLMs) estão impulsionando o desenvolvimento de Sistemas Multiagente (MAS) autônomos. No entanto, os frameworks atuais frequentemente carecem de flexibilidade, consciência de recursos, diversidade de modelos e criação autônoma de ferramentas. Este artigo apresenta o HASHIRU (Hierarchical Agent System for Hybrid Intelligent Resource Utilization), um novo framework MAS que aprimora a flexibilidade, eficiência de recursos e adaptabilidade. O HASHIRU possui um agente "CEO" que gerencia dinamicamente agentes especializados "funcionários", instanciados com base nas necessidades da tarefa e restrições de recursos (custo, memória). Sua inteligência híbrida prioriza LLMs menores e locais (via Ollama), enquanto utiliza de forma flexível APIs externas e modelos maiores quando necessário. Um modelo econômico com custos de contratação/demissão promove estabilidade da equipe e alocação eficiente de recursos. O sistema também inclui criação autônoma de ferramentas de API e uma função de memória. Avaliações em tarefas como revisão de artigos acadêmicos (58% de sucesso), avaliações de segurança (100% em um subconjunto do JailbreakBench) e raciocínio complexo (superando o Gemini 2.0 Flash no GSM8K: 96% vs. 61%; JEEBench: 80% vs. 68,3%; SVAMP: 92% vs. 84%) demonstram as capacidades do HASHIRU. Estudos de caso ilustram sua autossuperação por meio de geração autônoma de modelos de custo, integração de ferramentas e gerenciamento de orçamento. O HASHIRU oferece uma abordagem promissora para MAS mais robustos, eficientes e adaptáveis por meio de controle hierárquico dinâmico, inteligência híbrida consciente de recursos e extensão funcional autônoma. O código-fonte e benchmarks estão disponíveis em https://github.com/HASHIRU-AI/HASHIRU e https://github.com/HASHIRU-AI/HASHIRUBench, respectivamente, e uma demonstração ao vivo está disponível em https://hashiruagentx-hashiruai.hf.space mediante solicitação.
Modelos Multimodais de Grande Escala (LMMs) têm alcançado progressos impressionantes em percepção visual e raciocínio. No entanto, quando confrontados com textos de cena visualmente ambíguos ou não semânticos, eles frequentemente lutam para identificar e compreender o conteúdo com precisão, gerando respostas semanticamente plausíveis, mas visualmente incorretas, o que chamamos de alucinação semântica. Neste trabalho, investigamos as causas subjacentes da alucinação semântica e identificamos uma descoberta crucial: camadas de Transformers em LLMs com foco de atenção mais forte em regiões de texto de cena são menos propensas a produzir alucinações semânticas. Assim, propomos um framework de mitigação de alucinação semântica sem necessidade de treinamento, composto por dois componentes principais: (1) ZoomText, uma estratégia de granularidade grossa para fina que identifica regiões potenciais de texto sem detectores externos; e (2) Correção de Camada Fundamentada, que adaptativamente aproveita as representações internas de camadas menos propensas à alucinação para guiar a decodificação, corrigindo saídas alucinadas para amostras não semânticas, enquanto preserva a semântica das amostras significativas. Para permitir uma avaliação rigorosa, introduzimos o TextHalu-Bench, um benchmark com mais de 1.730 amostras abrangendo casos semânticos e não semânticos, com pares de perguntas e respostas cuidadosamente curados para sondar alucinações do modelo. Experimentos extensivos demonstram que nosso método não apenas mitiga efetivamente a alucinação semântica, mas também alcança um desempenho forte em benchmarks públicos para detecção e compreensão de texto de cena.
O Group Relative Policy Optimization (GRPO) aprimora o aprendizado de políticas ao calcular gradientes a partir de comparações relativas entre saídas candidatas que compartilham um prefixo de entrada comum. Apesar de sua eficácia, o GRPO introduz uma sobrecarga computacional significativa ao processar prefixos compartilhados longos, que precisam ser codificados de forma redundante para cada membro do grupo. Essa ineficiência se torna um grande gargalo de escalabilidade em cenários de aprendizado com contexto longo. Propomos o Prefix Grouper, um algoritmo de treinamento eficiente para GRPO que elimina a computação redundante de prefixos por meio de uma estratégia de Forward de Prefixo Compartilhado. Especificamente, ao reestruturar a auto-atenção em duas partes, nosso método permite que o prefixo compartilhado seja codificado apenas uma vez, mantendo a diferenciabilidade completa e a compatibilidade com o treinamento de ponta a ponta. Fornecemos evidências teóricas e empíricas de que o Prefix Grouper é equivalente ao GRPO padrão em termos de treinamento: ele produz saídas diretas e gradientes retropropagados idênticos, garantindo que a dinâmica de otimização e o desempenho final da política permaneçam inalterados. Empiricamente, nossos experimentos confirmam que o Prefix Grouper alcança resultados consistentes enquanto reduz significativamente o custo computacional do treinamento, especialmente em cenários com prefixos longos. O método proposto é totalmente plug-and-play: é compatível com arquiteturas baseadas em GRPO existentes e pode ser integrado de forma transparente aos pipelines de treinamento atuais como uma substituição direta, sem exigir modificações estruturais e apenas mudanças mínimas na construção de entradas e no cálculo de atenção. O Prefix Grouper permite o uso de tamanhos de grupo maiores sob o mesmo orçamento computacional, melhorando assim a escalabilidade do GRPO para tarefas mais complexas e modelos maiores. O código está disponível em https://github.com/johncaged/PrefixGrouper.
A IA para Gerenciamento do Ciclo de Vida de Ativos Industriais visa automatizar fluxos de trabalho operacionais complexos -- como monitoramento de condições, planejamento de manutenção e agendamento de intervenções -- para reduzir a carga de trabalho humana e minimizar o tempo de inatividade do sistema. As abordagens tradicionais de IA/ML têm tratado esses problemas principalmente de forma isolada, resolvendo tarefas específicas dentro do pipeline operacional mais amplo. Em contraste, o surgimento de agentes de IA e modelos de linguagem de grande escala (LLMs) introduz uma oportunidade de próxima geração: permitir a automação de ponta a ponta em todo o ciclo de vida do ativo. Este artigo vislumbra um futuro onde agentes de IA gerenciam autonomamente tarefas que anteriormente exigiam expertise distinta e coordenação manual. Para isso, introduzimos o AssetOpsBench -- uma estrutura e ambiente unificados projetados para orientar o desenvolvimento, orquestração e avaliação de agentes específicos de domínio, adaptados para aplicações da Indústria 4.0. Descrevemos os principais requisitos para tais sistemas holísticos e fornecemos insights práticos para a construção de agentes que integram percepção, raciocínio e controle para operações industriais do mundo real. O software está disponível em https://github.com/IBM/AssetOpsBench.
Avanços recentes em raciocínio de IA têm impulsionado melhorias substanciais em diversas tarefas. Uma questão crítica em aberto é se essas melhorias também resultam em uma transferência de conhecimento mais eficaz: a capacidade dos modelos de comunicar seu raciocínio de maneiras que os humanos possam compreender, aplicar e aprender. Para investigar isso, introduzimos o Knowledge Integration and Transfer Evaluation (KITE), um framework conceitual e experimental para avaliar capacidades de transferência de conhecimento entre Humanos e IA, e realizamos o primeiro estudo em larga escala (N=118) explicitamente projetado para medi-la. Em nossa configuração de duas fases, os humanos primeiro colaboram com uma IA na elaboração de estratégias de resolução de problemas e, em seguida, implementam soluções de forma independente, isolando a influência das explicações do modelo no entendimento humano. Nossos resultados revelam que, embora o desempenho dos modelos em benchmarks esteja correlacionado com os resultados colaborativos, essa relação é notavelmente inconsistente, apresentando outliers significativos, indicando que a transferência de conhecimento requer otimização dedicada. Nossa análise identifica fatores comportamentais e estratégicos que mediam a transferência de conhecimento bem-sucedida. Disponibilizamos nosso código, conjunto de dados e framework de avaliação para apoiar trabalhos futuros em modelos alinhados comunicativamente.
Os sistemas de Extração de Informação (EI) são tradicionalmente específicos de domínio, exigindo uma adaptação custosa que envolve o design de esquemas por especialistas, anotação de dados e treinamento de modelos. Embora os Modelos de Linguagem de Grande Escala tenham mostrado potencial na EI em cenário zero-shot, o desempenho degrada significativamente em domínios não vistos onde as definições de rótulos diferem. Este artigo introduz o GUIDEX, um método inovador que define automaticamente esquemas específicos de domínio, infere diretrizes e gera instâncias rotuladas sinteticamente, permitindo uma melhor generalização fora do domínio. O ajuste fino do Llama 3.1 com o GUIDEX estabelece um novo estado da arte em sete benchmarks de Reconhecimento de Entidades Nomeadas em zero-shot. Modelos treinados com o GUIDEX ganham até 7 pontos F1 em relação a métodos anteriores sem dados rotulados por humanos, e quase 2 pontos F1 a mais quando combinados com eles. Modelos treinados com o GUIDEX demonstram uma compreensão aprimorada de esquemas de anotação complexos e específicos de domínio. Código, modelos e conjuntos de dados sintéticos estão disponíveis em neilus03.github.io/guidex.com.
Modelos de espaço de estados (SSMs) oferecem uma arquitetura promissora para modelagem de sequências, fornecendo uma alternativa aos Transformers ao substituir a custosa auto-atenção por recorrências lineares. Neste artigo, propomos um truque simples, porém eficaz, para aprimorar SSMs dentro de orçamentos computacionais dados, esparsificando-os. Nossa intuição é que os tokens em SSMs são altamente redundantes devido a atualizações recorrentes graduais, e operações de recorrência densas bloqueiam a entrega de informações passadas. Em particular, observamos que as camadas superiores dos SSMs tendem a ser mais redundantes, pois codificam informações globais, enquanto as camadas inferiores codificam informações locais. Motivados por isso, introduzimos Simba, um método hierárquico de esparsificação para SSMs baseado em poda de tokens. O Simba esparsifica mais as camadas superiores do que as inferiores, incentivando que as camadas superiores se comportem como rodovias. Para alcançar isso, propomos um novo critério de poda de tokens para SSMs, medindo o impacto global dos tokens na saída final ao acumular recorrências locais. Demonstramos que o Simba supera o modelo de referência, Mamba, com o mesmo número de FLOPS em várias tarefas de linguagem natural. Além disso, ilustramos o efeito das rodovias, mostrando que o Simba não apenas aumenta a eficiência, mas também melhora o fluxo de informações em sequências longas. O código está disponível em https://github.com/woominsong/Simba.