Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de Linguagem de Grande Escala (LLMs) demonstraram uma versatilidade impressionante como modelos de propósito geral. No entanto, sua ampla aplicabilidade vem com um alto custo de sobrecarga computacional, especialmente na decodificação autorregressiva, onde cada etapa requer uma passagem direta. Em cenários específicos de domínio, as capacidades de propósito geral são desnecessárias e podem ser trocadas por eficiência. Neste trabalho, adotamos uma perspectiva inovadora sobre adaptação de domínio, reduzindo a latência e os custos computacionais ao adaptar o vocabulário a domínios de interesse específicos. Introduzimos o AdaptiVocab, uma abordagem de ponta a ponta para adaptação de vocabulário, projetada para aumentar a eficiência dos LLMs em domínios de baixo recurso. O AdaptiVocab pode ser aplicado a qualquer tokenizador e arquitetura, modificando o vocabulário ao substituir tokens por tokens baseados em n-gramas específicos do domínio, reduzindo assim o número de tokens necessários tanto para o processamento de entrada quanto para a geração de saída. O AdaptiVocab inicializa novos embeddings de n-tokens usando uma combinação ponderada exponencialmente de embeddings existentes e emprega uma fase de ajuste fino leve que pode ser realizada de forma eficiente em uma única GPU. Avaliamos dois LLMs de 7B em três domínios de nicho, medindo eficiência, qualidade de geração e desempenho em tarefas finais. Nossos resultados mostram que o AdaptiVocab reduz o uso de tokens em mais de 25% sem comprometer o desempenho.
O Aprendizado por Reforço com Feedback Humano (RLHF) é crucial para alinhar grandes modelos de linguagem com as preferências humanas. Embora pesquisas recentes tenham focado em melhorias algorítmicas, a importância da construção de dados de prompt tem sido negligenciada. Este artigo aborda essa lacuna ao explorar gargalos baseados em dados no dimensionamento do desempenho do RLHF, particularmente o "reward hacking" e a diminuição da diversidade de respostas. Introduzimos um sistema de recompensa híbrido que combina verificadores de tarefas de raciocínio (RTV) e um modelo de recompensa generativo (GenRM) para mitigar o "reward hacking". Também propomos um novo método de seleção de prompts, Pre-PPO, para manter a diversidade de respostas e aumentar a eficácia do aprendizado. Além disso, descobrimos que priorizar tarefas matemáticas e de codificação no início do treinamento do RLHF melhora significativamente o desempenho. Experimentos em dois tamanhos de modelo validam a eficácia e escalabilidade de nossos métodos. Os resultados mostram que o RTV é mais resistente ao "reward hacking", seguido pelo GenRM com verdade fundamental e, em seguida, pelo GenRM com respostas SFT Best-of-N. Nossas estratégias permitem a captura rápida de distinções sutis específicas da tarefa, levando a melhorias substanciais no desempenho geral do RLHF. Este trabalho destaca a importância de uma construção cuidadosa de dados e fornece métodos práticos para superar barreiras de desempenho no RLHF.
Modelos Recentes de Raciocínio em Grande Escala (LRMs, na sigla em inglês), como o DeepSeek-R1 e o OpenAI o1, demonstraram ganhos significativos de desempenho ao escalar o comprimento do raciocínio em cadeia (Chain-of-Thought, CoT) durante a inferência. No entanto, uma preocupação crescente reside em sua tendência a produzir traços de raciocínio excessivamente longos, frequentemente preenchidos com conteúdo redundante (por exemplo, definições repetidas), superanálise de problemas simples e exploração superficial de múltiplos caminhos de raciocínio para tarefas mais complexas. Essa ineficiência introduz desafios significativos para o treinamento, a inferência e a implantação no mundo real (por exemplo, em sistemas baseados em agentes), onde a economia de tokens é crucial. Nesta pesquisa, fornecemos uma visão abrangente dos esforços recentes destinados a melhorar a eficiência do raciocínio em LRMs, com um foco particular nos desafios únicos que surgem nesse novo paradigma. Identificamos padrões comuns de ineficiência, examinamos métodos propostos ao longo do ciclo de vida dos LRMs, desde o pré-treinamento até a inferência, e discutimos direções futuras promissoras para pesquisa. Para apoiar o desenvolvimento contínuo, também mantemos um repositório GitHub em tempo real que acompanha os progressos recentes no campo. Esperamos que esta pesquisa sirva como base para explorações adicionais e inspire inovações nesta área em rápida evolução.
A Recomendação Sequencial (SeqRec) visa prever o próximo item ao capturar padrões sequenciais das interações históricas dos usuários, desempenhando um papel crucial em muitos sistemas de recomendação do mundo real. No entanto, as abordagens existentes adotam predominantemente um paradigma de computação direta para frente, onde o estado oculto final do codificador de sequência serve como a representação do usuário. Argumentamos que esse paradigma de inferência, devido à sua profundidade computacional limitada, luta para modelar a natureza complexa e em evolução das preferências dos usuários e carece de uma compreensão detalhada dos itens de cauda longa, levando a um desempenho subótimo. Para resolver esse problema, propomos o ReaRec, o primeiro framework de computação em tempo de inferência para sistemas de recomendação, que aprimora as representações dos usuários por meio de raciocínio implícito em múltiplos passos. Especificamente, o ReaRec alimenta autoregressivamente o último estado oculto da sequência no recomendador sequencial, enquanto incorpora embeddings de posição de raciocínio especial para desacoplar o espaço de codificação original dos itens do espaço de raciocínio em múltiplos passos. Além disso, introduzimos dois métodos de aprendizado baseados em raciocínio leves, o Aprendizado de Raciocínio por Conjunto (ERL) e o Aprendizado de Raciocínio Progressivo (PRL), para explorar ainda mais efetivamente o potencial de raciocínio do ReaRec. Experimentos extensivos em cinco conjuntos de dados públicos do mundo real e diferentes arquiteturas de SeqRec demonstram a generalidade e eficácia do nosso ReaRec proposto. Notavelmente, análises post-hoc revelam que o ReaRec eleva significativamente o teto de desempenho de múltiplas bases de recomendação sequencial em aproximadamente 30\%-50\%. Assim, acreditamos que este trabalho pode abrir um novo e promissor caminho para pesquisas futuras em computação em tempo de inferência para recomendação sequencial.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm ganhado destaque significativo por sua capacidade de processar diversos tipos de dados de entrada e gerar saídas coerentes e contextualmente relevantes em várias aplicações. Embora o ajuste fino supervisionado (SFT) tenha sido a abordagem predominante para aprimorar as capacidades dos MLLMs na otimização específica de tarefas, ele frequentemente falha em promover habilidades cruciais de raciocínio generalizado. Embora o aprendizado por reforço (RL) tenha grande potencial para superar essas limitações, ele enfrenta dois desafios significativos: (1) suas capacidades generalizadas em tarefas multimodais permanecem amplamente inexploradas, e (2) suas restrições de treinamento, incluindo a divergência constante de Kullback-Leibler ou a estratégia de clamp, frequentemente resultam em gargalos subótimos. Para abordar esses desafios, propomos o OThink-MR1, um MLLM avançado equipado com capacidades profundas de compreensão e raciocínio em tarefas multimodais. Especificamente, introduzimos a Otimização de Política Relativa em Grupo com uma estratégia dinâmica de Kullback-Leibler (GRPO-D), que melhora significativamente o desempenho do aprendizado por reforço (RL). Para o Qwen2-VL-2B-Instruct, o GRPO-D alcança uma melhoria relativa de mais de 5,72% em relação ao SFT e mais de 13,59% em relação ao GRPO na avaliação de mesma tarefa em dois conjuntos de dados adaptados. Além disso, o GRPO-D demonstra capacidades notáveis de generalização entre tarefas, com uma melhoria relativa média de mais de 61,63% em relação ao SFT na avaliação entre tarefas. Esses resultados destacam que o MLLM treinado com GRPO-D em uma tarefa multimodal pode ser efetivamente transferido para outra tarefa, sublinhando as capacidades superiores de raciocínio generalizado do nosso modelo proposto, OThink-MR1.
Apresentamos o ORIGEN, o primeiro método de ancoragem de orientação 3D em geração de texto para imagem em cenários de zero-shot, abrangendo múltiplos objetos e diversas categorias. Enquanto trabalhos anteriores sobre ancoragem espacial na geração de imagens focaram principalmente no posicionamento 2D, eles carecem de controle sobre a orientação 3D. Para resolver isso, propomos uma abordagem de amostragem guiada por recompensa, utilizando um modelo discriminativo pré-treinado para estimação de orientação 3D e um modelo de fluxo gerativo de texto para imagem em uma única etapa. Embora a otimização baseada em gradiente ascendente seja uma escolha natural para orientação baseada em recompensa, ela enfrenta dificuldades em manter o realismo da imagem. Em vez disso, adotamos uma abordagem baseada em amostragem usando dinâmica de Langevin, que estende o gradiente ascendente simplesmente injetando ruído aleatório—requerendo apenas uma única linha adicional de código. Além disso, introduzimos o redimensionamento adaptativo de tempo com base na função de recompensa para acelerar a convergência. Nossos experimentos mostram que o ORIGEN supera tanto métodos baseados em treinamento quanto métodos de orientação em tempo de teste, tanto em métricas quantitativas quanto em estudos com usuários.
O refinamento de sumarização enfrenta desafios ao se estender para múltiplas dimensões. Neste artigo, apresentamos o ReFeed, um poderoso pipeline de refinamento de sumarização que aprimora múltiplas dimensões por meio de raciocínio reflexivo sobre feedback. Para alcançar isso, lançamos o SumFeed-CoT, um conjunto de dados em larga escala baseado em Long-CoT, otimizado para treinar um modelo leve com raciocínio reflexivo. Nossos experimentos revelam como o número de dimensões, a exposição ao feedback e a política de raciocínio influenciam o desempenho do refinamento, destacando que o raciocínio reflexivo e a abordagem simultânea de múltiplos feedbacks são cruciais para mitigar o trade-off entre as dimensões. Além disso, o ReFeed é robusto a feedbacks ruidosos e à ordem dos feedbacks. Por fim, nossa descoberta enfatiza que a criação de dados com um objetivo e diretrizes adequados constitui um pilar fundamental para um raciocínio eficaz. O conjunto de dados e o modelo serão disponibilizados.
Os avanços recentes na geração de cabeças falantes 3D impulsionadas por fala têm feito progressos significativos na sincronização labial. No entanto, os modelos existentes ainda enfrentam dificuldades para capturar o alinhamento perceptivo entre as características variáveis da fala e os movimentos labiais correspondentes. Neste trabalho, afirmamos que três critérios -- Sincronização Temporal, Legibilidade Labial e Expressividade -- são cruciais para alcançar movimentos labiais perceptualmente precisos. Motivados por nossa hipótese de que existe um espaço de representação desejável para atender a esses três critérios, introduzimos uma representação sincronizada de fala-malha que captura correspondências intrincadas entre sinais de fala e malhas faciais 3D. Descobrimos que nossa representação aprendida exibe características desejáveis, e a integramos em modelos existentes como uma perda perceptual para melhor alinhar os movimentos labiais à fala fornecida. Além disso, utilizamos essa representação como uma métrica perceptual e introduzimos duas outras métricas de sincronização labial fisicamente fundamentadas para avaliar o quão bem as cabeças falantes 3D geradas se alinham com esses três critérios. Experimentos mostram que o treinamento de modelos de geração de cabeças falantes 3D com nossa perda perceptual melhora significativamente todos os três aspectos da sincronização labial perceptualmente precisa. Códigos e conjuntos de dados estão disponíveis em https://perceptual-3d-talking-head.github.io/.
Apresentamos o Free4D, uma nova estrutura sem ajuste para geração de cenas 4D a partir de uma única imagem. Os métodos existentes focam na geração em nível de objeto, tornando inviável a geração em nível de cena, ou dependem de grandes conjuntos de dados de vídeos multiview para treinamento caro, com capacidade limitada de generalização devido à escassez de dados de cenas 4D. Em contraste, nossa principal ideia é destilar modelos de base pré-treinados para representação consistente de cenas 4D, o que oferece vantagens promissoras, como eficiência e generalização. 1) Para alcançar isso, primeiro animamos a imagem de entrada usando modelos de difusão de imagem para vídeo, seguido pela inicialização da estrutura geométrica 4D. 2) Para transformar essa estrutura grosseira em vídeos multiview espacial-temporalmente consistentes, projetamos um mecanismo de orientação adaptativa com uma estratégia de redução de ruído guiada por pontos para consistência espacial e uma nova estratégia de substituição latente para coerência temporal. 3) Para elevar essas observações geradas a uma representação 4D consistente, propomos um refinamento baseado em modulação para mitigar inconsistências, aproveitando ao máximo as informações geradas. A representação 4D resultante permite renderização em tempo real e controlável, marcando um avanço significativo na geração de cenas 4D baseada em uma única imagem.
Os Vision Transformers (ViTs) têm demonstrado desempenho e escalabilidade notáveis em diversas tarefas de visão computacional. Para aplicar ViTs de escala única à segmentação de imagens, os métodos existentes adotam um adaptador convolucional para gerar características multiescala, um decodificador de pixels para fundir essas características e um decodificador Transformer que utiliza as características fundidas para fazer previsões. Neste artigo, mostramos que os vieses indutivos introduzidos por esses componentes específicos da tarefa podem, em vez disso, ser aprendidos pelo próprio ViT, desde que sejam utilizados modelos suficientemente grandes e pré-treinamento extensivo. Com base nessas descobertas, introduzimos o Encoder-only Mask Transformer (EoMT), que reaproveita a arquitetura simples do ViT para realizar segmentação de imagens. Com modelos de grande escala e pré-treinamento, o EoMT obtém uma precisão de segmentação semelhante aos modelos state-of-the-art que utilizam componentes específicos da tarefa. Ao mesmo tempo, o EoMT é significativamente mais rápido do que esses métodos devido à sua simplicidade arquitetônica, por exemplo, até 4x mais rápido com o ViT-L. Em uma variedade de tamanhos de modelos, o EoMT demonstra um equilíbrio ideal entre precisão de segmentação e velocidade de previsão, sugerindo que os recursos computacionais são melhor empregados na escalabilidade do próprio ViT em vez de adicionar complexidade arquitetônica. Código: https://www.tue-mps.org/eomt/.
A segmentação de objetos em movimento é uma tarefa crucial para alcançar uma compreensão de alto nível de cenas visuais e possui inúmeras aplicações subsequentes. Os seres humanos conseguem segmentar objetos em movimento em vídeos com facilidade. Trabalhos anteriores dependiam amplamente do fluxo óptico para fornecer pistas de movimento; no entanto, essa abordagem frequentemente resulta em previsões imperfeitas devido a desafios como movimento parcial, deformações complexas, desfoque de movimento e distrações de fundo. Propomos uma nova abordagem para a segmentação de objetos em movimento que combina pistas de movimento de trajetórias de longo alcance com características semânticas baseadas em DINO e utiliza o SAM2 para a densificação de máscaras em nível de pixel por meio de uma estratégia iterativa de prompts. Nosso modelo emprega Atenção de Trajetória Espaço-Temporal e Incorporação Desacoplada de Movimento-Semântica para priorizar o movimento enquanto integra suporte semântico. Testes extensivos em diversos conjuntos de dados demonstram desempenho de ponta, destacando-se em cenários desafiadores e na segmentação refinada de múltiplos objetos. Nosso código está disponível em https://motion-seg.github.io/.
Apresentamos o PHYSICS, um benchmark abrangente para a resolução de problemas de física em nível universitário. Ele contém 1297 problemas anotados por especialistas, abrangendo seis áreas principais: mecânica clássica, mecânica quântica, termodinâmica e mecânica estatística, eletromagnetismo, física atômica e óptica. Cada problema exige conhecimento avançado de física e raciocínio matemático. Desenvolvemos um sistema automatizado robusto de avaliação para validação precisa e confiável. Nossa avaliação dos principais modelos de base revela limitações significativas. Mesmo o modelo mais avançado, o o3-mini, atinge apenas 59,9% de precisão, destacando desafios consideráveis na resolução de problemas científicos de alto nível. Por meio de uma análise abrangente de erros, exploração de diversas estratégias de prompt e aumento de conhecimento baseado em Geração Aumentada por Recuperação (RAG), identificamos áreas-chave para melhoria, estabelecendo as bases para avanços futuros.
Recentemente, a geração de vídeos multi-visão ou 4D emergiu como um tópico de pesquisa significativo. No entanto, as abordagens recentes para geração 4D ainda enfrentam limitações fundamentais, pois dependem principalmente da utilização de múltiplos modelos de difusão de vídeo com treinamento adicional ou do treinamento computacionalmente intensivo de um modelo completo de difusão 4D, que é limitado pela escassez de dados 4D do mundo real e pelos altos custos computacionais. Para enfrentar esses desafios, propomos aqui o primeiro método de geração de vídeo 4D sem treinamento, que aproveita modelos de difusão de vídeo prontos para uso para gerar vídeos multi-visão a partir de um único vídeo de entrada. Nossa abordagem consiste em duas etapas principais: (1) Ao designar os frames de borda na grade de amostragem espaço-temporal como frames-chave, primeiro os sintetizamos usando um modelo de difusão de vídeo, empregando uma técnica de deformação baseada em profundidade para orientação. Essa abordagem garante consistência estrutural entre os frames gerados, preservando a coerência espacial e temporal. (2) Em seguida, interpolamos os frames restantes usando um modelo de difusão de vídeo, construindo uma grade de amostragem totalmente preenchida e temporalmente coerente, enquanto mantemos a consistência espacial e temporal. Por meio dessa abordagem, estendemos um único vídeo em um vídeo multi-visão ao longo de novas trajetórias de câmera, mantendo a consistência espaço-temporal. Nosso método é livre de treinamento e utiliza totalmente um modelo de difusão de vídeo pronto para uso, oferecendo uma solução prática e eficaz para a geração de vídeos multi-visão.
Motivados em parte por sua relevância para treinamento de baixa precisão e quantização, as ativações massivas em modelos de linguagem de grande escala (LLMs) emergiram recentemente como um tópico de interesse. No entanto, as análises existentes são limitadas em escopo, e a generalização entre arquiteturas não é clara. Este artigo ajuda a abordar algumas dessas lacunas ao conduzir uma análise das ativações massivas em uma ampla gama de LLMs, incluindo arquiteturas baseadas em GLU e não baseadas em GLU. Nossas descobertas desafiam várias suposições anteriores, mais importante: (1) nem todas as ativações massivas são prejudiciais, ou seja, suprimi-las não leva a uma explosão de perplexidade ou a um colapso no desempenho em tarefas subsequentes; (2) estratégias de mitigação propostas, como o viés de Attention KV, são específicas do modelo e ineficazes em certos casos. Consequentemente, investigamos novas estratégias híbridas de mitigação; em particular, o emparelhamento de Target Variance Rescaling (TVR) com o viés de Attention KV ou Dynamic Tanh (DyT) equilibra com sucesso a mitigação de ativações massivas com a preservação do desempenho do modelo em tarefas subsequentes nos cenários que investigamos. Nosso código está disponível em: https://github.com/bluorion-com/refine_massive_activations.
Com a crescente demanda por modelos 3D de alta fidelidade a partir de imagens 2D, os métodos existentes ainda enfrentam desafios significativos na reprodução precisa de detalhes geométricos refinados devido a limitações nas lacunas de domínio e ambiguidades inerentes nas imagens RGB. Para abordar esses problemas, propomos o Hi3DGen, uma nova estrutura para gerar geometria 3D de alta fidelidade a partir de imagens por meio de mapeamento de normais. O Hi3DGen consiste em três componentes principais: (1) um estimador de imagem para normal que desacopla o padrão de imagem de baixa e alta frequência com injeção de ruído e treinamento de fluxo duplo para alcançar uma estimação generalizável, estável e precisa; (2) uma abordagem de aprendizado de normal para geometria que utiliza aprendizado de difusão latente regularizada por normais para melhorar a fidelidade na geração de geometria 3D; e (3) um pipeline de síntese de dados 3D que constrói um conjunto de dados de alta qualidade para suportar o treinamento. Experimentos extensivos demonstram a eficácia e superioridade de nossa estrutura na geração de detalhes geométricos ricos, superando métodos state-of-the-art em termos de fidelidade. Nosso trabalho fornece uma nova direção para a geração de geometria 3D de alta fidelidade a partir de imagens, utilizando mapas de normais como uma representação intermediária.
Neste artigo, apresentamos um método para reconstruir humanos em 3D a partir de uma única imagem utilizando um modelo esquelético biomecanicamente preciso. Para isso, treinamos um transformer que recebe uma imagem como entrada e estima os parâmetros do modelo. Devido à escassez de dados de treinamento para essa tarefa, construímos um pipeline para gerar parâmetros de modelo pseudo ground truth para imagens únicas e implementamos um procedimento de treinamento que refina iterativamente esses rótulos pseudo. Em comparação com os métodos state-of-the-art para recuperação de malha humana em 3D, nosso modelo alcança desempenho competitivo em benchmarks padrão, enquanto supera significativamente esses métodos em cenários com poses e pontos de vista extremos em 3D. Além disso, mostramos que métodos anteriores de reconstrução frequentemente violam os limites de ângulo das articulações, resultando em rotações não naturais. Em contraste, nossa abordagem aproveita os graus de liberdade biomecanicamente plausíveis, produzindo estimativas de rotação das articulações mais realistas. Validamos nossa abordagem em múltiplos benchmarks de estimativa de pose humana. Disponibilizamos o código, modelos e dados em: https://isshikihugh.github.io/HSMR/
A criação de malhas 3D de alta fidelidade com topologia arbitrária, incluindo superfícies abertas e interiores complexos, continua sendo um desafio significativo. Os métodos existentes de campos implícitos frequentemente exigem uma conversão custosa e que degrada detalhes para tornar as superfícies estanques, enquanto outras abordagens enfrentam dificuldades com altas resoluções. Este artigo introduz o SparseFlex, uma nova representação de isosuperfície com estrutura esparsa que permite a reconstrução diferenciável de malhas em resoluções de até 1024^3 diretamente a partir de perdas de renderização. O SparseFlex combina a precisão dos Flexicubes com uma estrutura de voxels esparsa, concentrando a computação em regiões adjacentes à superfície e lidando eficientemente com superfícies abertas. Crucialmente, introduzimos uma estratégia de treinamento de voxels seccionais consciente do frustum que ativa apenas os voxels relevantes durante a renderização, reduzindo drasticamente o consumo de memória e permitindo o treinamento em alta resolução. Isso também permite, pela primeira vez, a reconstrução de interiores de malhas usando apenas supervisão de renderização. Com base nisso, demonstramos um pipeline completo de modelagem de formas treinando um autoencoder variacional (VAE) e um transformador de fluxo retificado para a geração de formas 3D de alta qualidade. Nossos experimentos mostram uma precisão de reconstrução de última geração, com uma redução de ~82% na Distância de Chamfer e um aumento de ~88% no F-score em comparação com métodos anteriores, e demonstram a geração de formas 3D detalhadas e de alta resolução com topologia arbitrária. Ao permitir a reconstrução e geração diferenciável de malhas em alta resolução com perdas de renderização, o SparseFlex avança significativamente o estado da arte na representação e modelagem de formas 3D.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes de compreensão de imagens/vídeos 2D. No entanto, não há benchmarks padronizados publicamente disponíveis para avaliar as habilidades dos MLLMs na compreensão de objetos 4D (objetos 3D com evolução temporal ao longo do tempo). Neste artigo, apresentamos o 4D-Bench, o primeiro benchmark para avaliar as capacidades dos MLLMs na compreensão de objetos 4D, com tarefas de Resposta a Perguntas sobre Objetos 4D (4D object QA) e legendagem de objetos 4D. O 4D-Bench oferece objetos 4D com diversas categorias, anotações de alta qualidade e tarefas que exigem compreensão espaço-temporal multiview, diferindo dos benchmarks existentes baseados em imagens/vídeos 2D. Com o 4D-Bench, avaliamos uma ampla gama de MLLMs de código aberto e proprietários. Os resultados do experimento de legendagem de objetos 4D indicam que os MLLMs geralmente exibem uma compreensão temporal mais fraca em comparação com sua compreensão de aparência, destacando que, embora os modelos de código aberto se aproximem do desempenho dos modelos proprietários na compreensão de aparência, eles mostram lacunas maiores na compreensão temporal. O 4D object QA revela descobertas surpreendentes: mesmo com vídeos simples de um único objeto, os MLLMs têm um desempenho ruim, com o GPT-4o, estado da arte, alcançando apenas 63% de precisão em comparação com a linha de base humana de 91%. Essas descobertas destacam uma lacuna substancial na compreensão de objetos 4D e a necessidade de avanços adicionais nos MLLMs.
O desenvolvimento de sistemas de IA confiáveis para auxiliar clínicos humanos no diagnóstico médico multimodal tem sido um objetivo fundamental para os pesquisadores. Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ganharam atenção significativa e obtiveram sucesso em diversos domínios. Com capacidades avançadas de raciocínio e a habilidade de executar diversas tarefas com base em instruções do usuário, eles apresentam grande potencial para aprimorar o diagnóstico médico. No entanto, a aplicação direta de MLLMs no domínio médico ainda enfrenta desafios. Eles carecem de uma percepção detalhada de entradas visuais, limitando sua capacidade de realizar análises quantitativas de imagens, que são cruciais para diagnósticos médicos. Além disso, os MLLMs frequentemente exibem alucinações e inconsistências no raciocínio, enquanto os diagnósticos clínicos devem aderir estritamente a critérios estabelecidos. Para enfrentar esses desafios, propomos o MedAgent-Pro, um sistema de raciocínio baseado em evidências projetado para alcançar diagnósticos médicos confiáveis, explicáveis e precisos. Isso é realizado por meio de um fluxo de trabalho hierárquico: no nível da tarefa, o raciocínio baseado em conhecimento gera planos de diagnóstico confiáveis para doenças específicas, seguindo critérios clínicos recuperados. Já no nível do caso, múltiplos agentes de ferramentas processam entradas multimodais, analisam diferentes indicadores de acordo com o plano e fornecem um diagnóstico final baseado em evidências quantitativas e qualitativas. Experimentos abrangentes em tarefas de diagnóstico médico 2D e 3D demonstram a superioridade e eficácia do MedAgent-Pro, enquanto estudos de caso destacam ainda mais sua confiabilidade e interpretabilidade. O código está disponível em https://github.com/jinlab-imvr/MedAgent-Pro.
A classificação tradicional de imagens requer uma lista predefinida de categorias semânticas. Em contraste, os Modelos Multimodais de Grande Escala (LMMs) podem contornar essa exigência ao classificar imagens diretamente usando linguagem natural (por exemplo, respondendo ao prompt "Qual é o objeto principal na imagem?"). Apesar dessa capacidade notável, a maioria dos estudos existentes sobre o desempenho de classificação dos LMMs é surpreendentemente limitada em escopo, frequentemente assumindo um cenário de mundo fechado com um conjunto predefinido de categorias. Neste trabalho, abordamos essa lacuna ao avaliar minuciosamente o desempenho de classificação dos LMMs em um cenário verdadeiramente de mundo aberto. Primeiro, formalizamos a tarefa e introduzimos um protocolo de avaliação, definindo várias métricas para avaliar o alinhamento entre as classes previstas e as classes reais. Em seguida, avaliamos 13 modelos em 10 benchmarks, abrangendo classes prototípicas, não prototípicas, de granularidade fina e de granularidade muito fina, demonstrando os desafios que os LMMs enfrentam nessa tarefa. Análises adicionais baseadas nas métricas propostas revelam os tipos de erros que os LMMs cometem, destacando desafios relacionados à granularidade e às capacidades de granularidade fina, mostrando como prompts e raciocínios personalizados podem mitigá-los.
A IA para engenharia de software tem feito progressos notáveis recentemente, tornando-se um sucesso significativo dentro da IA generativa. Apesar disso, ainda há muitos desafios que precisam ser abordados antes que a engenharia de software automatizada atinja seu pleno potencial. Deve ser possível alcançar altos níveis de automação, onde os humanos possam se concentrar nas decisões críticas sobre o que construir e como equilibrar trade-offs difíceis, enquanto a maior parte do esforço de desenvolvimento rotineiro é automatizada. Alcançar esse nível de automação exigirá esforços substanciais de pesquisa e engenharia tanto na academia quanto na indústria. Neste artigo, buscamos discutir o progresso em direção a isso de três maneiras. Primeiro, fornecemos uma taxonomia estruturada de tarefas concretas em IA para engenharia de software, enfatizando as muitas outras tarefas na engenharia de software além da geração e conclusão de código. Segundo, delineamos vários gargalos principais que limitam as abordagens atuais. Por fim, apresentamos uma lista opinativa de direções de pesquisa promissoras para avançar nesses gargalos, na esperança de inspirar pesquisas futuras neste campo que amadurece rapidamente.
A reconstrução de tomografia computadorizada quadridimensional (4D CT) é crucial para capturar mudanças anatômicas dinâmicas, mas enfrenta limitações inerentes dos fluxos de trabalho convencionais de agrupamento por fases. Os métodos atuais discretizam a resolução temporal em fases fixas com dispositivos de gating respiratório, introduzindo desalinhamento de movimento e restringindo a praticidade clínica. Neste artigo, propomos o X^2-Gaussian, uma nova estrutura que permite a reconstrução contínua de 4D-CT ao integrar o splatting Gaussiano radiante dinâmico com o aprendizado autossupervisionado de movimento respiratório. Nossa abordagem modela a dinâmica anatômica por meio de uma arquitetura codificador-decodificador espaço-temporal que prevê deformações Gaussianas variáveis no tempo, eliminando a discretização de fases. Para remover a dependência de dispositivos de gating externos, introduzimos uma perda de consistência periódica orientada pela fisiologia que aprende ciclos respiratórios específicos do paciente diretamente das projeções por meio de otimização diferenciável. Experimentos extensivos demonstram desempenho de ponta, alcançando um ganho de 9,93 dB no PSNR em relação aos métodos tradicionais e uma melhoria de 2,25 dB em comparação com técnicas anteriores de splatting Gaussiano. Ao unificar a modelagem contínua de movimento com o aprendizado de períodos sem hardware, o X^2-Gaussian avança a reconstrução de alta fidelidade de 4D CT para imagens clínicas dinâmicas. Site do projeto em: https://x2-gaussian.github.io/.
A intenção, tipicamente formulada e planejada de forma clara, funciona como uma estrutura cognitiva para raciocínio e resolução de problemas. Este artigo introduz o conceito de Falar com Intenção (SWI, do inglês *Speaking with Intent*) em modelos de linguagem de grande escala (LLMs), onde a intenção explicitamente gerada encapsula a intenção subjacente do modelo e fornece um planejamento de alto nível para guiar análises e comunicações subsequentes. Ao emular pensamentos deliberados e propositais da mente humana, o SWI é hipotetizado para aprimorar as capacidades de raciocínio e a qualidade de geração dos LLMs. Experimentos extensivos em benchmarks de raciocínio matemático demonstram consistentemente a superioridade do Falar com Intenção em relação à Linha de Base (ou seja, geração sem intenção explícita). Além disso, o SWI supera métodos de *prompting* baseados em gatilhos de resposta, como *Chain-of-Thought* e *Plan-and-Solve*, e mantém desempenho competitivo com o método robusto ARR (*Analyzing, Retrieving, and Reasoning*). Adicionalmente, a eficácia e generalizabilidade do SWI são solidificadas em benchmarks de questionamento e resposta (QA) intensivos em raciocínio e de sumarização de texto, onde o SWI traz melhorias consistentes em relação à geração da Linha de Base. Na sumarização de texto, os resumos gerados pelo SWI exibem maior precisão, concisão e correção factual, com menos alucinações. Além disso, avaliações humanas verificam a coerência, eficácia e interpretabilidade da intenção produzida pelo SWI. Este estudo de prova de conceito abre uma nova via para aprimorar as habilidades de raciocínio dos LLMs com noções cognitivas.