Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos anos, observamos progressos notáveis tanto em modelos de compreensão multimodal quanto em modelos de geração de imagens. Apesar de seus respectivos sucessos, esses dois domínios evoluíram de forma independente, resultando em paradigmas arquitetônicos distintos: enquanto arquiteturas baseadas em autoregressão dominaram a compreensão multimodal, modelos baseados em difusão tornaram-se a base da geração de imagens. Recentemente, tem crescido o interesse no desenvolvimento de frameworks unificados que integram essas tarefas. O surgimento das novas capacidades do GPT-4o exemplifica essa tendência, destacando o potencial para unificação. No entanto, as diferenças arquitetônicas entre os dois domínios apresentam desafios significativos. Para fornecer uma visão clara dos esforços atuais em direção à unificação, apresentamos uma pesquisa abrangente com o objetivo de guiar futuras investigações. Primeiro, introduzimos os conceitos fundamentais e os avanços recentes em modelos de compreensão multimodal e geração de texto para imagem. Em seguida, revisamos os modelos unificados existentes, categorizando-os em três principais paradigmas arquitetônicos: baseados em difusão, baseados em autoregressão e abordagens híbridas que fundem mecanismos autoregressivos e de difusão. Para cada categoria, analisamos os designs estruturais e as inovações introduzidas por trabalhos relacionados. Além disso, compilamos conjuntos de dados e benchmarks específicos para modelos unificados, oferecendo recursos para exploração futura. Por fim, discutimos os principais desafios enfrentados por esse campo emergente, incluindo estratégias de tokenização, atenção multimodal e dados. Como essa área ainda está em estágios iniciais, antecipamos avanços rápidos e atualizaremos regularmente esta pesquisa. Nosso objetivo é inspirar novas investigações e fornecer uma referência valiosa para a comunidade. As referências associadas a esta pesquisa estão disponíveis no GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
A busca eficiente de informações é essencial para aprimorar as capacidades de raciocínio e geração de grandes modelos de linguagem (LLMs). Pesquisas recentes têm explorado o uso de aprendizado por reforço (RL) para melhorar as capacidades de busca dos LLMs por meio da interação com motores de busca reais em ambientes do mundo real. Embora essas abordagens apresentem resultados promissores, elas enfrentam dois grandes desafios: (1) Qualidade Incontrolável dos Documentos: A qualidade dos documentos retornados pelos motores de busca é frequentemente imprevisível, introduzindo ruído e instabilidade no processo de treinamento. (2) Custos Proibitivos de API: O treinamento de RL requer execuções frequentes, potencialmente envolvendo centenas de milhares de solicitações de busca, o que gera custos substanciais de API e limita severamente a escalabilidade. Para enfrentar esses desafios, apresentamos o ZeroSearch, uma estrutura de aprendizado por reforço que incentiva as capacidades de busca dos LLMs sem interagir com motores de busca reais. Nossa abordagem começa com um ajuste fino supervisionado leve para transformar o LLM em um módulo de recuperação capaz de gerar documentos relevantes e ruidosos em resposta a uma consulta. Durante o treinamento de RL, empregamos uma estratégia de execução baseada em currículo que degrada gradualmente a qualidade dos documentos gerados, eliciando progressivamente a capacidade de raciocínio do modelo ao expô-lo a cenários de recuperação cada vez mais desafiadores. Experimentos extensivos demonstram que o ZeroSearch incentiva efetivamente as capacidades de busca dos LLMs usando um LLM de 3B como módulo de recuperação. Notavelmente, um módulo de recuperação de 7B alcança desempenho comparável ao motor de busca real, enquanto um módulo de 14B até o supera. Além disso, ele generaliza bem tanto para modelos base quanto para modelos ajustados por instrução de vários tamanhos de parâmetros e é compatível com uma ampla gama de algoritmos de RL.
A geração de vídeos personalizados visa produzir vídeos que apresentam sujeitos específicos sob condições flexíveis definidas pelo usuário, mas os métodos existentes frequentemente enfrentam desafios com a consistência de identidade e modalidades de entrada limitadas. Neste artigo, propomos o HunyuanCustom, um framework de geração de vídeos personalizados multi-modal que enfatiza a consistência do sujeito enquanto suporta condições de imagem, áudio, vídeo e texto. Construído sobre o HunyuanVideo, nosso modelo primeiro aborda a tarefa de geração condicionada por imagem e texto, introduzindo um módulo de fusão texto-imagem baseado no LLaVA para aprimorar a compreensão multi-modal, juntamente com um módulo de aprimoramento de ID de imagem que utiliza concatenação temporal para reforçar as características de identidade entre os quadros. Para habilitar a geração condicionada por áudio e vídeo, propomos mecanismos de injeção de condições específicos para cada modalidade: um módulo AudioNet que alcança alinhamento hierárquico via atenção cruzada espacial, e um módulo de injeção guiado por vídeo que integra vídeo condicional comprimido em latente através de uma rede de alinhamento de características baseada em patchify. Experimentos extensivos em cenários de sujeito único e multi-sujeito demonstram que o HunyuanCustom supera significativamente os métodos state-of- the-art de código aberto e fechado em termos de consistência de ID, realismo e alinhamento texto-vídeo. Além disso, validamos sua robustez em tarefas subsequentes, incluindo geração de vídeos personalizados guiados por áudio e vídeo. Nossos resultados destacam a eficácia das estratégias de condicionamento multi-modal e de preservação de identidade no avanço da geração de vídeos controlável. Todo o código e modelos estão disponíveis em https://hunyuancustom.github.io.
O CLIP da OpenAI, lançado no início de 2021, tem sido a escolha preferida de codificador visual para a construção de modelos fundamentais multimodais. Embora alternativas recentes, como o SigLIP, tenham começado a desafiar esse status quo, até onde sabemos, nenhuma delas é totalmente aberta: seus dados de treinamento permanecem proprietários e/ou suas receitas de treinamento não são divulgadas. Este artigo preenche essa lacuna com o OpenVision, uma família de codificadores visuais totalmente aberta e custo-eficiente que iguala ou supera o desempenho do CLIP da OpenAI quando integrada em frameworks multimodais como o LLaVA. O OpenVision se baseia em trabalhos existentes — por exemplo, o CLIPS para o framework de treinamento e o Recap-DataComp-1B para os dados de treinamento — enquanto revela várias percepções-chave para melhorar a qualidade do codificador e demonstra benefícios práticos no avanço de modelos multimodais. Ao lançar codificadores visuais que variam de 5,9M a 632,1M de parâmetros, o OpenVision oferece aos profissionais uma troca flexível entre capacidade e eficiência na construção de modelos multimodais: modelos maiores proporcionam desempenho multimodal aprimorado, enquanto versões menores permitem implantações multimodais leves e prontas para a borda.
A abstração de primitivas de forma, que decompõe formas 3D complexas em elementos geométricos simples, desempenha um papel crucial na cognição visual humana e tem amplas aplicações em visão computacional e gráficos. Embora os avanços recentes na geração de conteúdo 3D tenham mostrado progresso notável, os métodos existentes de abstração de primitivas ou dependem de otimização geométrica com compreensão semântica limitada ou aprendem a partir de conjuntos de dados pequenos e específicos de categorias, lutando para generalizar em diversas categorias de formas. Apresentamos o PrimitiveAnything, uma nova estrutura que reformula a abstração de primitivas de forma como uma tarefa de geração de montagem de primitivas. O PrimitiveAnything inclui um transformador de primitivas condicionado por forma para geração autorregressiva e um esquema de parametrização livre de ambiguidades para representar múltiplos tipos de primitivas de maneira unificada. A estrutura proposta aprende diretamente o processo de montagem de primitivas a partir de abstrações em grande escala criadas por humanos, permitindo capturar como os humanos decompõem formas complexas em elementos primitivos. Através de extensos experimentos, demonstramos que o PrimitiveAnything pode gerar montagens de primitivas de alta qualidade que se alinham melhor com a percepção humana, mantendo a fidelidade geométrica em diversas categorias de formas. Ele beneficia várias aplicações 3D e mostra potencial para habilitar conteúdo gerado por usuários (UGC) baseado em primitivas em jogos. Página do projeto: https://primitiveanything.github.io
Estratégias de mistura de dados têm reduzido com sucesso os custos envolvidos no treinamento de modelos de linguagem. Embora promissoras, tais métodos apresentam duas falhas. Primeiro, eles dependem de domínios de dados predeterminados (por exemplo, fontes de dados, tipos de tarefas), o que pode falhar em capturar nuances semânticas críticas, deixando desempenho potencialmente inexplorado. Segundo, esses métodos escalam com o número de domínios de uma forma computacionalmente proibitiva. Nós abordamos esses desafios por meio do R&B, um framework que reparticiona os dados de treinamento com base na similaridade semântica (Regroup) para criar domínios mais refinados e otimiza eficientemente a composição dos dados (Balance) ao aproveitar uma matriz de Gram induzida pelos gradientes de domínio obtidos durante o treinamento. Diferente de trabalhos anteriores, ele elimina a necessidade de computação adicional para obter informações de avaliação, como perdas ou gradientes. Analisamos essa técnica sob condições de regularidade padrão e fornecemos insights teóricos que justificam a eficácia do R&B em comparação com abordagens de mistura não adaptativas. Empiricamente, demonstramos a eficácia do R&B em cinco conjuntos de dados diversos, variando de linguagem natural a tarefas de raciocínio e multimodais. Com apenas 0,01% de sobrecarga computacional adicional, o R&B iguala ou supera o desempenho das estratégias de mistura de dados mais avançadas.
Investigamos a capacidade dos Modelos de Linguagem Visual (VLMs) em realizar tomada de perspectiva visual utilizando um novo conjunto de tarefas visuais inspiradas em testes humanos estabelecidos. Nossa abordagem aproveita cenas cuidadosamente controladas, nas quais uma única minifigura humanóide é emparelhada com um único objeto. Ao variar sistematicamente as configurações espaciais — como a posição do objeto em relação à minifigura humanóide e a orientação da minifigura humanóide — e utilizando tanto visões de cima (bird's-eye) quanto de nível de superfície, criamos 144 tarefas visuais únicas. Cada tarefa visual é associada a uma série de 7 perguntas diagnósticas projetadas para avaliar três níveis de cognição visual: compreensão da cena, raciocínio espacial e tomada de perspectiva visual. Nossa avaliação de vários modelos de última geração, incluindo GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct e variantes do Claude Sonnet, revela que, embora eles se destaquem na compreensão da cena, o desempenho diminui significativamente no raciocínio espacial e se deteriora ainda mais na tomada de perspectiva. Nossa análise sugere uma lacuna entre o reconhecimento superficial de objetos e o raciocínio espacial e de perspectiva mais profundo necessário para tarefas visuais complexas, apontando para a necessidade de integrar representações geométricas explícitas e protocolos de treinamento personalizados no desenvolvimento futuro de VLMs.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram potencial para raciocínio complexo, mas sua capacidade de coordenação emergente em Sistemas Multiagentes (MAS) ao operar sob restrições rigorosas—como percepção e comunicação locais limitadas, características de enxames naturais—ainda é amplamente inexplorada, particularmente no que diz respeito às nuances da inteligência de enxame. Os benchmarks existentes frequentemente não capturam plenamente os desafios únicos da coordenação descentralizada que surgem quando os agentes operam com informações espaço-temporais incompletas. Para preencher essa lacuna, introduzimos o SwarmBench, um novo benchmark projetado para avaliar sistematicamente as capacidades de inteligência de enxame de LLMs atuando como agentes descentralizados. O SwarmBench apresenta cinco tarefas fundamentais de coordenação MAS em um ambiente configurável de grade 2D, forçando os agentes a depender principalmente de entrada sensorial local (visão k x k) e comunicação local. Propomos métricas para a eficácia da coordenação e analisamos a dinâmica de grupo emergente. Avaliando vários LLMs líderes em um cenário zero-shot, encontramos variações significativas de desempenho entre as tarefas, destacando as dificuldades impostas pelas restrições de informação local. Embora alguma coordenação surja, os resultados indicam limitações no planejamento robusto e na formação de estratégias sob incerteza nesses cenários descentralizados. Avaliar LLMs sob condições semelhantes a enxames é crucial para realizar seu potencial em futuros sistemas descentralizados. Lançamos o SwarmBench como um kit de ferramentas aberto e extensível—construído sobre um sistema físico personalizável e escalável com propriedades mecânicas definidas. Ele fornece ambientes, prompts, scripts de avaliação e os conjuntos de dados experimentais abrangentes gerados, visando fomentar pesquisas reproduzíveis sobre coordenação MAS baseada em LLMs e os fundamentos teóricos dos MAS Embarcados. Nosso repositório de código está disponível em https://github.com/x66ccff/swarmbench.
Modelos de Linguagem de Grande Escala (LLMs) são propensos a alucinações, e a Geração Aumentada por Recuperação (RAG) ajuda a mitigar isso, mas a um alto custo computacional e com o risco de desinformação. A recuperação adaptativa visa recuperar informações apenas quando necessário, mas as abordagens existentes dependem de estimativas de incerteza baseadas em LLMs, que permanecem ineficientes e impraticáveis. Neste estudo, introduzimos métodos leves de recuperação adaptativa independentes de LLMs, baseados em informações externas. Investigamos 27 características, organizadas em 7 grupos, e suas combinações híbridas. Avaliamos esses métodos em 6 conjuntos de dados de perguntas e respostas (QA), medindo o desempenho e a eficiência. Os resultados mostram que nossa abordagem iguala o desempenho de métodos complexos baseados em LLMs, ao mesmo tempo em que alcança ganhos significativos de eficiência, demonstrando o potencial das informações externas para a recuperação adaptativa.
Como uma tarefa aparentemente autoexplicativa, a resolução de problemas tem sido um componente significativo da ciência e da engenharia. No entanto, uma formulação geral e concreta da própria resolução de problemas está ausente. Com o recente desenvolvimento de agentes de resolução de problemas baseados em IA, a demanda por verificabilidade em nível de processo está aumentando rapidamente, mas ainda é pouco explorada. Para preencher essas lacunas, apresentamos uma formulação fundamentada da resolução de problemas como um processo de decisão de Markov determinístico; um novo framework, FPS (Formal Problem-Solving), que utiliza ambientes existentes de FTP (prova de teoremas formais) para realizar a resolução de problemas verificada em nível de processo; e D-FPS (Deductive FPS), que desacopla a resolução e a verificação de respostas para melhor alinhamento humano. A expressividade, solidez e completude dos frameworks são comprovadas. Construímos três benchmarks de resolução de problemas: FormalMath500, uma formalização de um subconjunto do benchmark MATH500; MiniF2F-Solving e PutnamBench-Solving, adaptações dos benchmarks de FTP MiniF2F e PutnamBench. Para uma avaliação fiel, interpretável e alinhada com humanos, propomos RPE (Restricted Propositional Equivalence), uma abordagem simbólica para determinar a correção das respostas por meio de verificação formal. Avaliamos quatro modelos prevalentes de FTP e dois métodos de prompting como baselines, resolvendo no máximo 23,77% do FormalMath500, 27,47% do MiniF2F-Solving e 0,31% do PutnamBench-Solving.
A tarefa de resolução de problemas no GitHub visa resolver automaticamente os problemas relatados em repositórios. Com os avanços nos modelos de linguagem de grande escala (LLMs), essa tarefa tem recebido crescente atenção, e vários benchmarks foram propostos para avaliar a capacidade de resolução de problemas dos LLMs. No entanto, os benchmarks existentes apresentam três limitações principais. Primeiro, os benchmarks atuais focam em uma única linguagem de programação, limitando a avaliação de problemas de repositórios em diferentes linguagens. Segundo, eles geralmente cobrem uma gama estreita de domínios, o que pode não representar a diversidade de problemas do mundo real. Terceiro, os benchmarks existentes dependem exclusivamente de informações textuais nas descrições dos problemas, ignorando informações multimodais, como imagens nos problemas. Neste artigo, propomos o OmniGIRL, um benchmark de Resolução de Problemas no GitHub que é multilíngue, multimodal e multidisciplinar. O OmniGIRL inclui 959 instâncias de tarefas, coletadas de repositórios em quatro linguagens de programação (ou seja, Python, JavaScript, TypeScript e Java) e oito domínios diferentes. Nossa avaliação mostra que os LLMs atuais apresentam desempenhos limitados no OmniGIRL. Notavelmente, o modelo com melhor desempenho, GPT-4o, resolve apenas 8,6% dos problemas. Além disso, descobrimos que os LLMs atuais têm dificuldade em resolver problemas que exigem a compreensão de imagens. O melhor desempenho é alcançado pelo Claude-3.5-Sonnet, que resolve apenas 10,5% dos problemas com informações de imagem. Por fim, analisamos as razões por trás do fracasso dos LLMs atuais no OmniGIRL, fornecendo insights para melhorias futuras.
A resolução de problemas tem sido um impulsionador fundamental do progresso humano em diversos domínios. Com os avanços na inteligência artificial, os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) surgiram como ferramentas poderosas capazes de lidar com problemas complexos em diferentes áreas. Diferentemente dos sistemas computacionais tradicionais, os LLMs combinam poder bruto de processamento com uma aproximação do raciocínio humano, permitindo que gerem soluções, façam inferências e até mesmo utilizem ferramentas computacionais externas. No entanto, a aplicação de LLMs na resolução de problemas do mundo real apresenta desafios significativos, incluindo raciocínio em múltiplas etapas, integração de conhecimento de domínio e verificação de resultados. Esta pesquisa explora as capacidades e limitações dos LLMs na resolução de problemas complexos, examinando técnicas como o raciocínio em Cadeia de Pensamento (Chain-of-Thought, CoT), aumento de conhecimento e diversas técnicas de verificação baseadas em LLMs e em ferramentas. Além disso, destacamos desafios específicos de domínio em áreas como engenharia de software, raciocínio e prova matemática, análise e modelagem de dados, e pesquisa científica. O artigo discute ainda as limitações fundamentais das soluções atuais baseadas em LLMs e as direções futuras para a resolução de problemas complexos com base em LLMs, sob a perspectiva de raciocínio em múltiplas etapas, integração de conhecimento de domínio e verificação de resultados.
Arquiteturas VLA (Visão-Linguagem-Ação) de sistema duplo tornaram-se um tópico quente na pesquisa de inteligência incorporada, mas há uma carência de trabalhos de código aberto suficientes para análises e otimizações de desempenho mais aprofundadas. Para abordar esse problema, este artigo irá resumir e comparar os designs estruturais das arquiteturas de sistema duplo existentes, além de realizar avaliações empíricas sistemáticas sobre os elementos centrais de design dessas arquiteturas. Por fim, será fornecido um modelo de código aberto de baixo custo para explorações futuras. Naturalmente, este projeto continuará a ser atualizado com mais conclusões experimentais e modelos de código aberto com desempenho aprimorado para que todos possam escolher. Página do projeto: https://openhelix-robot.github.io/.
Neste artigo, apresentamos o OSUniverse: um benchmark de tarefas complexas e multimodais orientadas para desktop, destinado a agentes de IA avançados de navegação em interfaces gráficas (GUI), com foco em facilidade de uso, extensibilidade, cobertura abrangente de casos de teste e validação automatizada. Dividimos as tarefas em níveis crescentes de complexidade, desde cliques básicos de precisão até testes multietapas e multiaplicativos que exigem destreza, precisão e pensamento claro por parte do agente. Na primeira versão do benchmark, apresentada aqui, calibramos a complexidade dos casos de teste para garantir que os agentes de ponta (State of the Art - SOTA) no momento da publicação não alcancem resultados superiores a 50%, enquanto um trabalhador de colarinho branco médio consegue realizar todas essas tarefas com precisão perfeita. O benchmark pode ser avaliado manualmente, mas também introduzimos um mecanismo de validação automatizada com uma taxa de erro média inferior a 2%. Portanto, este benchmark oferece uma base sólida para a medição totalmente automatizada do progresso, das capacidades e da eficácia de agentes de IA de navegação em GUI no curto e médio prazo. O código-fonte do benchmark está disponível em https://github.com/agentsea/osuniverse.
A maioria dos detectores de anomalias em vídeo existentes depende exclusivamente de quadros RGB, que carecem da resolução temporal necessária para capturar pistas de movimento abruptas ou transitórias, indicadores-chave de eventos anômalos. Para superar essa limitação, propomos o Image-Event Fusion for Video Anomaly Detection (IEF-VAD), um framework que sintetiza representações de eventos diretamente a partir de vídeos RGB e as funde com características de imagem por meio de um processo fundamentado e consciente da incerteza. O sistema (i) modela o ruído de sensor de cauda pesada com uma verossimilhança de Student-t, derivando pesos de variância inversa em nível de valor por meio de uma aproximação de Laplace; (ii) aplica atualizações quadro a quadro no estilo Kalman para equilibrar as modalidades ao longo do tempo; e (iii) refina iterativamente o estado latente fundido para eliminar ruído residual entre modalidades. Sem qualquer sensor de eventos dedicado ou rótulos em nível de quadro, o IEF-VAD estabelece um novo estado da arte em vários benchmarks de detecção de anomalias do mundo real. Esses resultados destacam a utilidade de representações sintéticas de eventos para enfatizar pistas de movimento que frequentemente são sub-representadas em quadros RGB, permitindo uma compreensão de vídeo precisa e robusta em diversas aplicações sem a necessidade de sensores de eventos dedicados. Códigos e modelos estão disponíveis em https://github.com/EavnJeong/IEF-VAD.
Os agentes são predominantemente avaliados e otimizados por meio de métricas de sucesso em tarefas, que são grosseiras, dependem de design manual de especialistas e falham em recompensar comportamentos emergentes intermediários. Propomos o AutoLibra, uma estrutura para avaliação de agentes, que transforma feedback humano aberto, por exemplo, "Se você perceber que o botão está desativado, não clique nele novamente", ou "Este agente tem autonomia excessiva para decidir o que fazer por conta própria", em métricas para avaliar comportamentos detalhados em trajetórias de agentes. O AutoLibra realiza isso ancorando o feedback ao comportamento do agente, agrupando comportamentos positivos e negativos semelhantes, e criando métricas concretas com definições claras e exemplos específicos, que podem ser usados para orientar LLM-as-a-Judge como avaliadores. Propomos ainda duas meta-métricas para avaliar o alinhamento de um conjunto de métricas (induzidas) com feedback aberto: "cobertura" e "redundância". Ao otimizar essas meta-métricas, demonstramos experimentalmente a capacidade do AutoLibra de induzir métricas de avaliação de agentes mais concretas do que as propostas em benchmarks anteriores de avaliação de agentes e descobrir novas métricas para analisar agentes. Também apresentamos duas aplicações do AutoLibra na melhoria de agentes: Primeiro, mostramos que as métricas induzidas pelo AutoLibra servem como alvos melhores para engenharia de prompts do que a taxa de sucesso em tarefas em uma ampla gama de tarefas de jogos de texto, melhorando o desempenho do agente em relação à linha de base em uma média de 20%. Segundo, mostramos que o AutoLibra pode selecionar iterativamente dados de ajuste fino de alta qualidade para agentes de navegação na web. Nossos resultados sugerem que o AutoLibra é uma ferramenta poderosa e independente de tarefas para avaliar e melhorar agentes de linguagem.
Modelos de linguagem de grande escala (LLMs) alcançam desempenho notável em diversas tarefas ao utilizar uma ampla gama de estratégias de adaptação. No entanto, selecionar de forma ideal um modelo e uma estratégia de adaptação sob restrições de recursos é desafiador e frequentemente requer experimentação extensiva. Investigamos se é possível prever com precisão tanto o desempenho quanto o custo sem a necessidade de testes dispendiosos. Formalizamos o problema de seleção de estratégias para LLMs e introduzimos o COSMOS, uma estrutura de predição unificada que estima eficientemente os resultados de adaptação com custo mínimo. Instanciamos e estudamos a capacidade de nossa estrutura por meio de um par de preditores poderosos: modelos proxy leves aumentados por embeddings para prever o desempenho de ajuste fino, e leis de escalonamento de baixa amostragem para prever o aprendizado contextual aumentado por recuperação. Uma avaliação extensa em oito benchmarks representativos demonstra que o COSMOS alcança alta precisão de predição enquanto reduz os custos computacionais em 92,72% em média, e até 98,71% em cenários intensivos em recursos. Nossos resultados mostram que a predição eficiente dos resultados de adaptação não só é viável, mas pode reduzir substancialmente a sobrecarga computacional da implantação de LLMs, mantendo os padrões de desempenho.
O aprendizado semi-supervisionado tornou-se uma abordagem convincente para a segmentação 3D de dentes a partir de tomografias computadorizadas de feixe cônico (CBCT), onde os dados rotulados são escassos. No entanto, os métodos existentes ainda enfrentam dois desafios persistentes: supervisão corretiva limitada em regiões estruturalmente ambíguas ou mal rotuladas durante o treinamento supervisionado e degradação de desempenho causada por pseudo-rótulos não confiáveis em dados não rotulados. Para resolver esses problemas, propomos o Aprendizado Instrucional Consciente da Região (RAIL), uma estrutura semi-supervisionada de duplo grupo e duplo estudante. Cada grupo contém dois modelos estudante orientados por uma rede professora compartilhada. Ao alternar o treinamento entre os dois grupos, o RAIL promove a transferência de conhecimento intergrupo e a instrução colaborativa consciente da região, reduzindo o sobreajuste às características de qualquer modelo individual. Especificamente, o RAIL introduz dois mecanismos instrucionais. O Controlador de Supervisão Focada em Divergência (DFS) melhora o aprendizado supervisionado ao instruir previsões apenas em áreas onde as saídas dos estudantes divergem tanto da verdade fundamental quanto do melhor estudante, concentrando assim a supervisão em áreas estruturalmente ambíguas ou mal rotuladas. Na fase não supervisionada, o Modulador de Aprendizado Consciente da Confiança (CAL) reforça o acordo em regiões com alta certeza do modelo, enquanto reduz o efeito de previsões de baixa confiança durante o treinamento. Isso ajuda a evitar que nosso modelo aprenda padrões instáveis e melhora a confiabilidade geral dos pseudo-rótulos. Experimentos extensivos em quatro conjuntos de dados de segmentação de dentes CBCT mostram que o RAIL supera os métodos mais avançados sob anotação limitada. Nosso código estará disponível em https://github.com/Tournesol-Saturday/RAIL.
O Modelo de Linguagem Multimodal de Grande Escala (MLLM, na sigla em inglês) está atualmente passando por um crescimento acelerado, impulsionado pelas capacidades avançadas dos LLMs (Modelos de Linguagem de Grande Escala). Diferente dos especialistas anteriores, os MLLMs existentes estão evoluindo em direção a um paradigma de Generalista Multimodal. Inicialmente limitados à compreensão de múltiplas modalidades, esses modelos avançaram para não apenas compreender, mas também gerar conteúdo entre modalidades. Suas capacidades se expandiram de uma compreensão multimodal de granularidade grossa para uma de granularidade fina, e de suportar modalidades limitadas para modalidades arbitrárias. Embora existam muitos benchmarks para avaliar MLLMs, uma questão crítica surge: Podemos simplesmente assumir que um desempenho superior em tarefas indica uma capacidade mais forte do MLLM, nos aproximando de uma IA de nível humano? Argumentamos que a resposta não é tão direta quanto parece. Este projeto introduz o General-Level, um framework de avaliação que define cinco níveis de escala para o desempenho e generalidade dos MLLMs, oferecendo uma metodologia para comparar MLLMs e medir o progresso dos sistemas existentes em direção a generalistas multimodais mais robustos e, finalmente, em direção à AGI (Inteligência Artificial Geral). No cerne do framework está o conceito de Sinergia, que mede se os modelos mantêm capacidades consistentes entre compreensão e geração, e entre múltiplas modalidades. Para apoiar essa avaliação, apresentamos o General-Bench, que abrange um espectro mais amplo de habilidades, modalidades, formatos e capacidades, incluindo mais de 700 tarefas e 325.800 instâncias. Os resultados da avaliação, que envolvem mais de 100 MLLMs state-of-the-art existentes, revelam as classificações de capacidade dos generalistas, destacando os desafios para alcançar uma IA genuína. Esperamos que este projeto abra caminho para pesquisas futuras sobre modelos de fundação multimodal de próxima geração, fornecendo uma infraestrutura robusta para acelerar a realização da AGI. Página do projeto: https://generalist.top/
A criação de conhecimento científico está passando por uma transformação fundamental à medida que humanos e sistemas de IA evoluem além de relações de ferramenta-usuário para parcerias epistêmicas coevolutivas. Quando o AlphaFold revolucionou a previsão de estruturas proteicas, pesquisadores descreveram o engajamento com um parceiro epistêmico que remodelou como eles conceituavam relações fundamentais. Este artigo introduz a Cognitio Emergens (CE), uma estrutura que aborda limitações críticas em modelos existentes que focam em papéis estáticos ou métricas estreitas, falhando em capturar como o entendimento científico emerge através da interação recursiva entre humanos e IA ao longo do tempo. A CE integra três componentes que abordam essas limitações: Configurações de Agência, que descrevem como a autoridade se distribui entre humanos e IA (Direcionada, Contributiva, Parceria), com parcerias oscilando dinamicamente entre configurações em vez de seguir uma progressão linear; Dimensões Epistêmicas, que capturam seis capacidades específicas emergentes através da colaboração nos eixos de Descoberta, Integração e Projeção, criando "assinaturas de capacidade" distintas que orientam o desenvolvimento; e Dinâmicas de Parceria, que identificam forças que moldam como essas relações evoluem, particularmente o risco de alienação epistêmica, onde pesquisadores perdem o controle interpretativo sobre o conhecimento que formalmente endossam. Baseando-se na teoria da autopoiese, na teoria dos sistemas sociais e na modularidade organizacional, a CE revela como a cocriação de conhecimento emerge através da negociação contínua de papéis, valores e estruturas organizacionais. Ao reconceituar a colaboração científica entre humanos e IA como fundamentalmente coevolutiva, a CE oferece uma perspectiva equilibrada que nem celebra acriticamente nem teme desnecessariamente o papel evolutivo da IA, fornecendo, em vez disso, ferramentas conceituais para cultivar parcerias que mantêm a participação humana significativa enquanto possibilitam avanços científicos transformadores.