Artigos de pesquisa em IA selecionados diariamente com traduções
Este relatório apresenta o VibeVoice, um modelo inovador projetado para sintetizar fala de longa duração com múltiplos falantes, utilizando a difusão de próximo token, um método unificado para modelar dados contínuos por meio da geração autoregressiva de vetores latentes via difusão. Para viabilizar isso, introduzimos um novo tokenizador de fala contínua que, em comparação com o popular modelo Encodec, melhora a compressão de dados em 80 vezes enquanto mantém um desempenho comparável. O tokenizador preserva efetivamente a fidelidade do áudio e aumenta significativamente a eficiência computacional no processamento de sequências longas. Assim, o VibeVoice é capaz de sintetizar fala de longa duração por até 90 minutos (em uma janela de contexto de 64K) com um máximo de 4 falantes, capturando o "vibe" autêntico da conversação e superando modelos de diálogo tanto de código aberto quanto proprietários.
Os avanços recentes no alinhamento de grandes modelos de linguagem por meio de aprendizado por reforço têm alcançado ganhos notáveis na resolução de problemas complexos de raciocínio, mas ao custo de rollouts on-policy dispendiosos e uma exploração limitada de caminhos de raciocínio diversos. Neste trabalho, apresentamos o TreePO, que envolve um algoritmo de rollout autoguiado que enxerga a geração de sequências como um processo de busca estruturado em árvore. Composto por uma política de amostragem dinâmica em árvore e decodificação de segmentos de comprimento fixo, o TreePO aproveita a incerteza local para garantir ramificações adicionais. Ao amortizar a computação em prefixos comuns e podar caminhos de baixo valor precocemente, o TreePO essencialmente reduz o custo computacional por atualização, preservando ou até mesmo aumentando a diversidade de exploração. As principais contribuições incluem: (1) um algoritmo de amostragem segmentada que alivia a carga do cache KV por meio de segmentos contíguos e gera novos ramos juntamente com um mecanismo de parada antecipada; (2) uma estimativa de vantagem em nível de segmento baseada em árvore que considera tanto a otimização de política proximal global quanto local; e (3) uma análise sobre a eficácia da divergência dinâmica orientada por probabilidade e qualidade, além de uma estratégia de fallback. Validamos empiricamente o ganho de desempenho do TreePO em um conjunto de benchmarks de raciocínio e a economia de eficiência em horas de GPU, que variou de 22% a 43% no design de amostragem para os modelos treinados, ao mesmo tempo em que mostramos uma redução de até 40% no nível de trajetória e 35% no nível de token na computação de amostragem para os modelos existentes. Ao oferecer uma melhoria gratuita na eficiência de inferência, o TreePO revela um caminho prático para escalar o pós-treinamento baseado em RL com menos amostras e menos computação. A página inicial está localizada em https://m-a-p.ai/TreePO.
Apresentamos o CMPhysBench, projetado para avaliar a proficiência de Modelos de Linguagem de Grande Escala (LLMs) em Física da Matéria Condensada, como um novo benchmark. O CMPhysBench é composto por mais de 520 questões meticulosamente curadas em nível de pós-graduação, abrangendo tanto subáreas representativas quanto estruturas teóricas fundamentais da física da matéria condensada, como magnetismo, supercondutividade, sistemas fortemente correlacionados, entre outros. Para garantir um entendimento profundo do processo de resolução de problemas, focamos exclusivamente em problemas de cálculo, exigindo que os LLMs gerem soluções completas de forma independente. Paralelamente, utilizando representações baseadas em árvore de expressões, introduzimos a pontuação de Distância de Edição de Expressão Escalável (SEED), que fornece crédito parcial refinado (não binário) e resulta em uma avaliação mais precisa da similaridade entre a previsão e a verdade fundamental. Nossos resultados mostram que mesmo os melhores modelos, como o Grok-4, atingem apenas uma pontuação SEED média de 36 e 28% de precisão no CMPhysBench, destacando uma lacuna significativa de capacidade, especialmente para este domínio prático e de fronteira em relação à física tradicional. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/CMPhysBench/CMPhysBench.
A edição local 3D de regiões especificadas é crucial para a indústria de jogos e interação com robôs. Métodos recentes geralmente editam imagens renderizadas de múltiplas vistas e, em seguida, reconstroem modelos 3D, mas enfrentam desafios em preservar com precisão regiões não editadas e a coerência geral. Inspirados por modelos generativos 3D estruturados, propomos o VoxHammer, uma nova abordagem livre de treinamento que realiza edições precisas e coerentes no espaço latente 3D. Dado um modelo 3D, o VoxHammer primeiro prevê sua trajetória de inversão e obtém seus latentes invertidos e tokens de chave-valor em cada passo de tempo. Posteriormente, na fase de denoising e edição, substituímos as características de denoising das regiões preservadas pelos latentes invertidos correspondentes e pelos tokens de chave-valor armazenados. Ao reter essas características contextuais, essa abordagem garante uma reconstrução consistente das áreas preservadas e uma integração coerente das partes editadas. Para avaliar a consistência das regiões preservadas, construímos o Edit3D-Bench, um conjunto de dados anotado por humanos que compreende centenas de amostras, cada uma com regiões de edição 3D cuidadosamente rotuladas. Experimentos demonstram que o VoxHammer supera significativamente os métodos existentes em termos de consistência 3D das regiões preservadas e qualidade geral. Nosso método promete sintetizar dados editados emparelhados de alta qualidade, estabelecendo assim a base de dados para geração 3D em contexto. Consulte nossa página do projeto em https://huanngzh.github.io/VoxHammer-Page/.
Os modelos existentes de avatares em vídeo podem produzir animações humanas fluidas, mas enfrentam dificuldades para ir além da mera semelhança física e capturar a essência autêntica de um personagem. Seus movimentos geralmente sincronizam-se com pistas de baixo nível, como o ritmo do áudio, carecendo de uma compreensão semântica mais profunda de emoção, intenção ou contexto. Para preencher essa lacuna, propomos um framework projetado para gerar animações de personagens que não apenas são fisicamente plausíveis, mas também semanticamente coerentes e expressivas. Nosso modelo, OmniHuman-1.5, é construído sobre duas contribuições técnicas principais. Primeiro, utilizamos Modelos de Linguagem Multimodais de Grande Escala para sintetizar uma representação textual estruturada de condições que fornece orientação semântica de alto nível. Essa orientação direciona nosso gerador de movimentos além da sincronização rítmica simplista, permitindo a produção de ações que ressoam contextual e emocionalmente. Segundo, para garantir a fusão eficaz dessas entradas multimodais e mitigar conflitos intermodais, introduzimos uma arquitetura Multimodal DiT especializada com um novo design de Pseudo Último Quadro. A sinergia desses componentes permite que nosso modelo interprete com precisão a semântica conjunta de áudio, imagens e texto, gerando assim movimentos profundamente coerentes com o personagem, a cena e o conteúdo linguístico. Experimentos extensivos demonstram que nosso modelo alcança desempenho líder em um conjunto abrangente de métricas, incluindo precisão de sincronização labial, qualidade de vídeo, naturalidade do movimento e consistência semântica com prompts textuais. Além disso, nossa abordagem mostra uma extensibilidade notável para cenários complexos, como aqueles envolvendo múltiplas pessoas e sujeitos não humanos. Página inicial: https://omnihuman-lab.github.io/v1_5/
Embora os modelos de Mistura de Especialistas (MoE) alcancem eficiência notável ao ativar apenas subconjuntos de parâmetros, eles sofrem com altos custos de acesso à memória durante a inferência. As arquiteturas de camadas de memória oferecem uma alternativa atraente com muito poucos acessos à memória, mas tentativas anteriores, como o UltraMem, só conseguiram igualar o desempenho de modelos MoE com 2 especialistas, ficando significativamente aquém das configurações state-of-the-art com 8 especialistas. Apresentamos o UltraMemV2, uma arquitetura de camadas de memória redesenhada que fecha essa lacuna de desempenho. Nossa abordagem introduz cinco melhorias principais: integração de camadas de memória em cada bloco do transformer, simplificação da expansão de valores com projeções lineares únicas, adoção do processamento de valores baseado em FFN do PEER, implementação de inicialização de parâmetros fundamentada e reequilíbrio das proporções de computação entre memória e FFN. Por meio de avaliação extensiva, demonstramos que o UltraMemV2 alcança paridade de desempenho com modelos MoE de 8 especialistas sob a mesma computação e parâmetros, mas com acesso à memória significativamente menor. Notavelmente, o UltraMemV2 mostra desempenho superior em tarefas intensivas em memória, com melhorias de +1,6 pontos em memorização de contexto longo, +6,2 pontos em memorização de múltiplas rodadas e +7,9 pontos em aprendizado em contexto. Validamos nossa abordagem em escala com modelos de até 2,5 bilhões de parâmetros ativados de um total de 120 bilhões de parâmetros, e estabelecemos que a densidade de ativação tem maior impacto no desempenho do que a contagem total de parâmetros esparsos. Nosso trabalho leva as arquiteturas de camadas de memória à paridade de desempenho com os modelos MoE state-of-the-art, apresentando uma alternativa convincente para computação esparsa eficiente.
Inferir as propriedades físicas de cenas 3D a partir de informações visuais é uma tarefa crucial, porém desafiadora, para a criação de mundos virtuais interativos e realistas. Embora os humanos compreendam intuitivamente características dos materiais, como elasticidade ou rigidez, os métodos existentes frequentemente dependem de otimizações lentas e específicas por cena, limitando sua generalização e aplicação. Para resolver esse problema, introduzimos o PIXIE, um método inovador que treina uma rede neural generalizável para prever propriedades físicas em múltiplas cenas a partir de características visuais 3D, utilizando exclusivamente perdas supervisionadas. Uma vez treinada, nossa rede de propagação direta pode realizar inferências rápidas de campos de materiais plausíveis, que, combinados com uma representação estática de cena aprendida, como o Gaussian Splatting, permitem simulações físicas realistas sob forças externas. Para facilitar essa pesquisa, também coletamos o PIXIEVERSE, um dos maiores conjuntos de dados conhecidos de ativos 3D emparelhados com anotações de materiais físicos. Avaliações extensivas demonstram que o PIXIE é cerca de 1,46 a 4,39 vezes melhor e ordens de magnitude mais rápido do que métodos de otimização em tempo de teste. Ao aproveitar características visuais pré-treinadas, como o CLIP, nosso método também pode generalizar de forma zero-shot para cenas do mundo real, apesar de ter sido treinado apenas com dados sintéticos. https://pixie-3d.github.io/
Os recentes avanços em LLMs (Modelos de Linguagem de Grande Escala) tornaram a pesquisa científica automatizada a próxima fronteira no caminho para a superinteligência artificial. No entanto, esses sistemas estão limitados a tarefas de escopo restrito ou às capacidades criativas limitadas dos LLMs. Propomos o Spacer, um sistema de descoberta científica que desenvolve conceitos criativos e fundamentados em fatos sem intervenção externa. O Spacer busca alcançar isso por meio da "descontextualização deliberada", uma abordagem que desmonta a informação em unidades atômicas — palavras-chave — e extrai criatividade de conexões inexploradas entre elas. O Spacer consiste em (i) Nuri, um motor de inspiração que constrói conjuntos de palavras-chave, e (ii) o Pipeline de Manifestação, que refina esses conjuntos em declarações científicas elaboradas. O Nuri extrai conjuntos de palavras-chave novos e de alto potencial de um grafo de palavras-chave construído com 180.000 publicações acadêmicas em áreas biológicas. O Pipeline de Manifestação encontra ligações entre as palavras-chave, analisa sua estrutura lógica, valida sua plausibilidade e, por fim, redige conceitos científicos originais. De acordo com nossos experimentos, a métrica de avaliação do Nuri classifica com precisão publicações de alto impacto, com um score AUROC de 0,737. Nosso Pipeline de Manifestação também reconstrói com sucesso conceitos centrais dos artigos mais recentes de revistas de alto impacto, apenas a partir de seus conjuntos de palavras-chave. Um sistema de pontuação baseado em LLM estima que essa reconstrução foi sólida em mais de 85% dos casos. Por fim, nossa análise do espaço de embeddings mostra que as saídas do Spacer são significativamente mais semelhantes às publicações líderes em comparação com as dos LLMs state-of-the-art (SOTA).
Modelos recentes de base para vídeo, como o SAM2, destacam-se na segmentação de vídeo com prompts ao tratar máscaras como um primitivo de uso geral. No entanto, muitos cenários do mundo real exigem segmentação sem prompts, que visa detectar e rastrear todos os objetos em um vídeo sem pistas externas, deixando o cenário atual fragmentado em modelos e pipelines específicos para tarefas. Reinterpretamos a segmentação de vídeo em fluxo contínuo como previsão sequencial de máscaras, análoga à modelagem de linguagem, e introduzimos o Modelo de Segmentação Universal Autoregressivo (AUSM), uma única arquitetura que unifica tanto a segmentação de vídeo com prompts quanto sem prompts. Baseado em modelos recentes de espaço de estados, o AUSM mantém um estado espacial de tamanho fixo e escala para fluxos de vídeo de comprimento arbitrário. Além disso, todos os componentes do AUSM são projetados para treinamento paralelo entre quadros, resultando em ganhos substanciais de velocidade em relação ao treinamento iterativo. Em benchmarks padrão (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021 e OVIS), o AUSM supera métodos anteriores de segmentação universal de vídeo em fluxo contínuo e alcança treinamentos até 2,5 vezes mais rápidos em sequências de 16 quadros.
Os modelos de difusão visual alcançam progressos notáveis, mas geralmente são treinados em resoluções limitadas devido à escassez de dados de alta resolução e recursos computacionais restritos, o que prejudica sua capacidade de gerar imagens ou vídeos de alta fidelidade em resoluções mais elevadas. Esforços recentes exploraram estratégias sem ajuste para revelar o potencial inexplorado de geração visual em alta resolução de modelos pré-treinados. No entanto, esses métodos ainda tendem a produzir conteúdo visual de baixa qualidade com padrões repetitivos. O principal obstáculo reside no aumento inevitável de informações de alta frequência quando o modelo gera conteúdo visual que excede sua resolução de treinamento, levando a padrões repetitivos indesejáveis decorrentes de erros acumulados. Neste trabalho, propomos o CineScale, um novo paradigma de inferência para permitir a geração visual em alta resolução. Para abordar os diversos problemas introduzidos pelos dois tipos de arquiteturas de geração de vídeo, propomos variantes dedicadas adaptadas a cada uma. Diferente dos métodos de linha de base existentes, que se limitam à geração de T2I (texto para imagem) e T2V (texto para vídeo) em alta resolução, o CineScale amplia o escopo ao permitir a síntese de I2V (imagem para vídeo) e V2V (vídeo para vídeo) em alta resolução, construído sobre frameworks de geração de vídeo de código aberto de última geração. Experimentos extensivos validam a superioridade de nosso paradigma em estender as capacidades de geração visual em alta resolução tanto para modelos de imagem quanto de vídeo. Notavelmente, nossa abordagem permite a geração de imagens em 8k sem qualquer ajuste fino e alcança a geração de vídeos em 4k com apenas um ajuste mínimo via LoRA. Amostras de vídeos gerados estão disponíveis em nosso site: https://eyeline-labs.github.io/CineScale/.
Os métodos atuais de última geração (SOTA) para animação de personagens impulsionada por áudio demonstram desempenho promissor em cenários que envolvem principalmente fala e canto. No entanto, eles frequentemente ficam aquém em produções mais complexas de cinema e televisão, que exigem elementos sofisticados, como interações sutis entre personagens, movimentos corporais realistas e trabalho dinâmico de câmera. Para enfrentar esse desafio de longa data de alcançar animação de personagens em nível cinematográfico, propomos um modelo impulsionado por áudio, que denominamos Wan-S2V, construído com base em Wan. Nosso modelo alcança expressividade e fidelidade significativamente aprimoradas em contextos cinematográficos em comparação com abordagens existentes. Realizamos extensos experimentos, comparando nosso método com modelos de ponta, como Hunyuan-Avatar e Omnihuman. Os resultados experimentais demonstram consistentemente que nossa abordagem supera significativamente essas soluções existentes. Além disso, exploramos a versatilidade de nosso método por meio de suas aplicações na geração de vídeos de longa duração e na edição precisa de sincronização labial em vídeos.
Abordagens recentes de geração de malhas geralmente tokenizam malhas triangulares em sequências de tokens e treinam modelos autoregressivos para gerar esses tokens sequencialmente. Apesar de avanços significativos, essas sequências de tokens inevitavelmente reutilizam vértices múltiplas vezes para representar completamente malhas manifold, já que cada vértice é compartilhado por múltiplas faces. Essa redundância resulta em sequências de tokens excessivamente longas e processos de geração ineficientes. Neste artigo, propomos um framework eficiente que gera malhas artísticas tratando vértices e faces separadamente, reduzindo significativamente a redundância. Empregamos um modelo autoregressivo exclusivamente para a geração de vértices, diminuindo a contagem de tokens para aproximadamente 23% daquela exigida pelo tokenizador mais compacto existente. Em seguida, utilizamos um transformer bidirecional para completar a malha em um único passo, capturando relações inter-vértices e construindo a matriz de adjacência que define as faces da malha. Para melhorar ainda mais a qualidade da geração, introduzimos um aprimorador de fidelidade para refinar o posicionamento dos vértices em arranjos mais naturais e propomos um framework de pós-processamento para remover conexões de aresta indesejáveis. Resultados experimentais mostram que nosso método alcança uma velocidade mais de 8 vezes maior na geração de malhas em comparação com as abordagens state-of-the-art, enquanto produz uma qualidade de malha superior.
Modelos de linguagem de grande escala (LLMs) com raciocínio em cadeia de pensamento têm demonstrado capacidades notáveis de resolução de problemas, mas controlar seu esforço computacional continua sendo um desafio significativo para implantação prática. Sistemas proprietários recentes, como a série gpt-oss da OpenAI, introduziram modos operacionais discretos para controle intuitivo do raciocínio, mas a comunidade de código aberto em grande parte não conseguiu alcançar tais capacidades. Neste artigo, apresentamos o ThinkDial, o primeiro framework de código aberto de ponta a ponta que implementa com sucesso o raciocínio controlável no estilo gpt-oss por meio de modos operacionais discretos. Nosso sistema permite a alternância perfeita entre três regimes distintos de raciocínio: Modo Alto (capacidade total de raciocínio), Modo Médio (redução de 50% nos tokens com degradação de desempenho <10%) e Modo Baixo (redução de 75% nos tokens com degradação de desempenho <15%). Isso é alcançado por meio de um paradigma de treinamento de ponta a ponta que integra o controle de modo de orçamento em todo o pipeline: ajuste fino supervisionado em modo de orçamento que incorpora capacidades de raciocínio controlável diretamente no processo de aprendizagem, e aprendizado por reforço em duas fases com modelagem adaptativa de recompensas. Experimentos extensivos demonstram que o ThinkDial atinge compensações desejadas entre compressão e desempenho, com reduções claras no comprimento das respostas, mantendo os limiares de desempenho. O framework também exibe fortes capacidades de generalização em tarefas fora da distribuição.
O advento dos agentes de Deep Research reduziu substancialmente o tempo necessário para a realização de tarefas extensas de pesquisa. No entanto, essas tarefas exigem, por natureza, padrões rigorosos de precisão factual e abrangência, necessitando de uma avaliação minuciosa antes de sua adoção generalizada. Neste artigo, propomos o ReportBench, um benchmark sistemático projetado para avaliar a qualidade do conteúdo de relatórios de pesquisa gerados por modelos de linguagem de grande escala (LLMs). Nossa avaliação concentra-se em duas dimensões críticas: (1) a qualidade e relevância da literatura citada, e (2) a fidelidade e veracidade das afirmações contidas nos relatórios gerados. O ReportBench utiliza artigos de revisão de alta qualidade publicados no arXiv como referências padrão-ouro, a partir dos quais aplicamos engenharia reversa de prompts para derivar prompts específicos de domínio e estabelecer um corpus de avaliação abrangente. Além disso, desenvolvemos uma estrutura automatizada baseada em agentes dentro do ReportBench que analisa sistematicamente os relatórios gerados, extraindo citações e afirmações, verificando a fidelidade do conteúdo citado em relação às fontes originais e validando afirmações não citadas usando recursos baseados na web. Avaliações empíricas demonstram que agentes comerciais de Deep Research, como os desenvolvidos pela OpenAI e Google, geram consistentemente relatórios mais abrangentes e confiáveis do que LLMs autônomos aumentados com ferramentas de busca ou navegação. No entanto, ainda há um espaço considerável para melhoria em termos de amplitude e profundidade da cobertura de pesquisa, bem como na consistência factual. O código completo e os dados serão disponibilizados no seguinte link: https://github.com/ByteDance-BandAI/ReportBench
A descoberta de medicamentos é um processo complexo e que consome muitos recursos, tornando a previsão precoce dos resultados de aprovação crucial para otimizar os investimentos em pesquisa. Embora os métodos clássicos de aprendizado de máquina e aprendizado profundo tenham mostrado potencial na previsão de aprovação de medicamentos, sua limitada interpretabilidade restringe seu impacto. Aqui, apresentamos o DrugReasoner, um modelo de linguagem grande (LLM) baseado em raciocínio, construído sobre a arquitetura LLaMA e ajustado com otimização de política relativa de grupo (GRPO) para prever a probabilidade de aprovação de pequenas moléculas. O DrugReasoner integra descritores moleculares com raciocínio comparativo contra compostos aprovados e não aprovados estruturalmente semelhantes, gerando previsões juntamente com racionalizações passo a passo e pontuações de confiança. O DrugReasoner alcançou um desempenho robusto com uma AUC de 0,732 e um F1-score de 0,729 no conjunto de validação e 0,725 e 0,718 no conjunto de teste, respectivamente. Esses resultados superaram as linhas de base convencionais, incluindo regressão logística, máquina de vetores de suporte e k-vizinhos mais próximos, e tiveram desempenho competitivo em relação ao XGBoost. Em um conjunto de dados externo independente, o DrugReasoner superou tanto a linha de base quanto o modelo ChemAP recentemente desenvolvido, alcançando uma AUC de 0,728 e um F1-score de 0,774, enquanto mantinha alta precisão e sensibilidade equilibrada, demonstrando robustez em cenários do mundo real. Esses achados demonstram que o DrugReasoner não apenas oferece precisão preditiva competitiva, mas também aumenta a transparência por meio de suas saídas de raciocínio, abordando assim um gargalo crítico na descoberta de medicamentos assistida por IA. Este estudo destaca o potencial dos LLMs aumentados por raciocínio como ferramentas interpretáveis e eficazes para a tomada de decisões farmacêuticas.
Leis de escalonamento empíricas têm impulsionado a evolução dos grandes modelos de linguagem (LLMs), mas seus coeficientes mudam sempre que a arquitetura do modelo ou o pipeline de dados é alterado. Modelos de Mistura de Especialistas (MoE), agora padrão em sistemas de última geração, introduzem uma nova dimensão de esparsidade que as fronteiras atuais de modelos densos ignoram. Investigamos como a esparsidade MoE influencia dois regimes distintos de capacidade: memorização e raciocínio. Treinamos famílias de Transformers MoE que variam sistematicamente o número total de parâmetros, parâmetros ativos e o roteamento top-k, mantendo o orçamento computacional fixo. Para cada modelo, registramos a perda durante o pré-treinamento, a perda em tarefas subsequentes e a precisão da tarefa, permitindo-nos separar a lacuna de generalização treino-teste da lacuna perda-precisão. Benchmarks de memorização melhoram monotonicamente com o aumento do número total de parâmetros, refletindo a perda de treinamento. Em contraste, o desempenho em raciocínio satura e pode até regredir, apesar dos ganhos contínuos tanto no número total de parâmetros quanto na perda de treinamento. Alterar apenas o top-k tem pouco efeito quando os parâmetros ativos são constantes, e hiperparâmetros clássicos, como taxa de aprendizado e inicialização, modulam a lacuna de generalização na mesma direção que a esparsidade. Nem o aprendizado por reforço pós-treinamento (GRPO) nem o aumento de computação no momento do teste conseguem resgatar o déficit de raciocínio de modelos excessivamente esparsos. Nossos checkpoints de modelo, código e logs são de código aberto em https://github.com/rioyokotalab/optimal-sparsity.
O preenchimento 3D frequentemente depende do preenchimento de imagens 2D de múltiplas visões, onde as inconsistências inerentes entre as diferentes visões preenchidas podem resultar em texturas borradas, descontinuidades espaciais e artefatos visuais perturbadores. Essas inconsistências representam desafios significativos ao buscar a conclusão precisa e realista de objetos 3D, especialmente em aplicações que exigem alta fidelidade e coerência estrutural. Para superar essas limitações, propomos o ObjFiller-3D, um método novo projetado para a conclusão e edição de objetos 3D de alta qualidade e consistência. Em vez de empregar um modelo convencional de preenchimento de imagens 2D, nossa abordagem utiliza uma seleção criteriosa de modelos de edição de vídeo de última geração para preencher as regiões mascaradas de objetos 3D. Analisamos a lacuna de representação entre 3D e vídeos e propomos uma adaptação de um modelo de preenchimento de vídeo para o preenchimento de cenas 3D. Além disso, introduzimos um método de preenchimento 3D baseado em referência para aprimorar ainda mais a qualidade da reconstrução. Experimentos em diversos conjuntos de dados mostram que, em comparação com métodos anteriores, o ObjFiller-3D produz reconstruções mais fiéis e detalhadas (PSNR de 26,6 vs. NeRFiller (15,9) e LPIPS de 0,19 vs. Instant3dit (0,25)). Além disso, ele demonstra um forte potencial para implantação prática em aplicações reais de edição 3D. Página do projeto: https://objfiller3d.github.io/ Código: https://github.com/objfiller3d/ObjFiller-3D.
A resolução de problemas científicos apresenta desafios únicos para LLMs, exigindo tanto conhecimento profundo do domínio quanto a capacidade de aplicar esse conhecimento por meio de raciocínio complexo. Embora os sistemas automatizados de raciocínio científico tenham grande potencial para auxiliar cientistas humanos, atualmente não há um benchmark holístico amplamente adotado para avaliar o raciocínio científico, e poucas abordagens separam sistematicamente os papéis distintos do conhecimento e do raciocínio nessas tarefas. Para preencher essas lacunas, introduzimos o SciReas, um conjunto diversificado de benchmarks existentes para tarefas de raciocínio científico, e o SciReas-Pro, um subconjunto seletivo que exige raciocínio mais complexo. Nossa avaliação holística revela insights sobre o desempenho do raciocínio científico que permanecem ocultos ao depender apenas de benchmarks individuais. Em seguida, propomos o KRUX, uma estrutura de sondagem para estudar os papéis distintos do raciocínio e do conhecimento em tarefas científicas. Combinando os dois, realizamos uma análise aprofundada que resulta em várias descobertas-chave: (1) Recuperar conhecimento relevante para a tarefa a partir dos parâmetros do modelo é um gargalo crítico para LLMs no raciocínio científico; (2) Modelos de raciocínio consistentemente se beneficiam de conhecimento externo adicionado em contexto, além do aprimoramento do raciocínio; (3) Melhorar o raciocínio verbalizado aumenta a capacidade dos LLMs de destacar conhecimento relevante para a tarefa. Por fim, realizamos uma análise leve, comparando nossa composição de dados focada em ciência com esforços contemporâneos em SFT de CoT longo, e lançamos o SciLit01, uma forte baseline de 8B para raciocínio científico.
Este artigo apresenta o MovieCORE, um novo conjunto de dados para resposta a perguntas em vídeo (VQA) projetado para explorar uma compreensão cognitiva mais profunda do conteúdo cinematográfico. Diferente dos conjuntos de dados existentes que se concentram na compreensão superficial, o MovieCORE enfatiza perguntas que envolvem o pensamento do Sistema 2, mantendo-se específicas ao material do vídeo. Apresentamos uma abordagem inovadora de brainstorming agentivo, utilizando múltiplos modelos de linguagem de grande escala (LLMs) como agentes de pensamento para gerar e refinar pares de perguntas e respostas de alta qualidade. Para avaliar a qualidade do conjunto de dados, desenvolvemos um conjunto de testes cognitivos que avaliam profundidade, potencial de provocação de pensamento e complexidade sintática. Também propomos um esquema de avaliação abrangente para medir o desempenho de modelos VQA em tarefas cognitivas mais profundas. Para abordar as limitações dos modelos vídeo-linguagem (VLMs) existentes, introduzimos um módulo de aprimoramento agentivo, o Agentic Choice Enhancement (ACE), que melhora as capacidades de raciocínio do modelo após o treinamento em até 25%. Nosso trabalho contribui para o avanço da compreensão de filmes em sistemas de IA e oferece insights valiosos sobre as capacidades e limitações dos modelos VQA atuais ao enfrentarem perguntas mais desafiadoras e sutis sobre conteúdo cinematográfico. Nossa página do projeto, conjunto de dados e código podem ser encontrados em https://joslefaure.github.io/assets/html/moviecore.html.
Modelos de Linguagem de Grande Escala (LLMs) têm bom desempenho em tarefas gerais de Perguntas e Respostas (QA), mas frequentemente enfrentam dificuldades em cenários específicos de domínio. A Geração Aumentada por Recuperação (RAG) introduz conhecimento externo, mas sofre com alucinações e latência devido a recuperações ruidosas. O pré-treinamento contínuo internaliza o conhecimento de domínio, mas é custoso e carece de flexibilidade entre domínios. Atribuímos esse desafio à distribuição de cauda longa do conhecimento de domínio, que deixa conhecimento interno parcial, porém útil, subutilizado. Argumentamos ainda que a aquisição de conhecimento deve ser progressiva, espelhando o aprendizado humano: primeiro compreendendo conceitos, depois aplicando-os em raciocínios complexos. Para abordar isso, propomos o Selct2Know (S2K), um framework econômico que internaliza o conhecimento de domínio por meio de uma estratégia de autosseleção de conhecimento interno-externo e ajuste fino supervisionado seletivo. Também introduzimos um pipeline estruturado de geração de dados para raciocínio e integramos o GRPO para aprimorar a capacidade de raciocínio. Experimentos em benchmarks de QA médicos, jurídicos e financeiros mostram que o S2K supera consistentemente os métodos existentes e equipara-se a LLMs pré-treinados em domínios específicos com custo significativamente menor.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades excepcionais quando treinados em ambientes de execução executáveis, destacando-se especialmente em tarefas de engenharia de software por meio de loops de feedback verificados. No entanto, ambientes de execução fundamentados escaláveis e generalizáveis ainda são escassos, limitando o progresso no treinamento de agentes de ML mais capazes. Apresentamos o CTF-Dojo, o primeiro ambiente de execução executável em grande escala projetado para treinar LLMs com feedback verificável, apresentando 658 desafios do tipo Capture-The-Flag (CTF) totalmente funcionais, containerizados em Docker com garantia de reprodutibilidade. Para permitir escalabilidade rápida sem intervenção manual, desenvolvemos o CTF-Forge, um pipeline automatizado que transforma artefatos disponíveis publicamente em ambientes de execução prontos para uso em minutos, eliminando semanas de configuração especializada tradicionalmente necessária. Treinamos agentes baseados em LLM com apenas 486 trajetórias de alta qualidade e verificadas por execução do CTF-Dojo, alcançando ganhos absolutos de até 11,6% sobre bases fortes em três benchmarks competitivos: InterCode-CTF, NYU CTF Bench e Cybench. Nosso modelo de 32B com melhor desempenho atinge 31,9% de Pass@1, estabelecendo um novo estado da arte de peso aberto que rivaliza com modelos de fronteira como DeepSeek-V3-0324 e Gemini-2.5-Flash. Ao enquadrar tarefas do tipo CTF como um benchmark para aprendizado de agentes executáveis, o CTF-Dojo demonstra que sinais de treinamento fundamentados em execução não são apenas eficazes, mas cruciais para avançar agentes de ML de alto desempenho sem depender de sistemas proprietários custosos.
Os Modelos de Linguagem de Grande Escala (LLMs) transformaram nosso mundo com avanços significativos na ciência, engenharia e sociedade, por meio de aplicações que vão desde descobertas científicas e diagnósticos médicos até chatbots. Apesar de sua onipresença e utilidade, os mecanismos subjacentes dos LLMs permanecem ocultos em bilhões de parâmetros e estruturas complexas, tornando sua arquitetura interna e processos cognitivos difíceis de compreender. Abordamos essa lacuna adotando abordagens para entender a cognição emergente na biologia e desenvolvendo uma estrutura baseada em redes que conecta habilidades cognitivas, arquiteturas de LLMs e conjuntos de dados, inaugurando uma mudança de paradigma na análise de modelos de base. A distribuição de habilidades nas comunidades de módulos demonstra que, embora os LLMs não sigam estritamente a especialização focalizada observada em sistemas biológicos específicos, eles exibem comunidades únicas de módulos cujos padrões emergentes de habilidades espelham parcialmente a organização cognitiva distribuída, mas interconectada, observada em cérebros de aves e pequenos mamíferos. Nossos resultados numéricos destacam uma divergência crucial entre sistemas biológicos e LLMs, onde a aquisição de habilidades se beneficia substancialmente de interações dinâmicas e inter-regionais e da plasticidade neural. Ao integrar princípios da ciência cognitiva com o aprendizado de máquina, nossa estrutura fornece novos insights sobre a interpretabilidade dos LLMs e sugere que estratégias eficazes de ajuste fino devem aproveitar dinâmicas de aprendizado distribuído em vez de intervenções modulares rígidas.
As capacidades avançadas de raciocínio em Modelos de Linguagem de Grande Escala (LLMs) têm levado a uma maior prevalência de alucinações; no entanto, a maioria dos trabalhos de mitigação foca na filtragem após o fato, em vez de moldar as consultas que as desencadeiam. Apresentamos o QueryBandits, um framework baseado em bandidos que projeta estratégias de reescrita para maximizar um modelo de recompensa, que encapsula a propensão a alucinações com base nas sensibilidades de 17 características linguísticas da consulta de entrada e, portanto, direciona proativamente os LLMs para evitar a geração de alucinações. Em 13 benchmarks diversos de Q&A e 1.050 consultas lexicalmente perturbadas por conjunto de dados, nosso QueryBandit contextual superior (Amostragem de Thompson) alcança uma taxa de sucesso de 87,5% em relação a uma linha de base sem reescrita e também supera o prompting estático zero-shot ("parafrasear" ou "expandir") em 42,6% e 60,3%, respectivamente. Assim, comprovamos empiricamente a eficácia do QueryBandits na mitigação de alucinações por meio de uma intervenção que assume a forma de uma reescrita de consulta. Curiosamente, certas estratégias de prompting estático, que constituem uma parcela considerável da literatura atual sobre reescrita de consultas, apresentam um arrependimento cumulativo maior do que a linha de base sem reescrita, indicando que reescritas estáticas podem piorar as alucinações. Além disso, descobrimos que os vetores de peso das características de regressão por braço convergidos corroboram que não há uma única estratégia de reescrita ideal para todas as consultas. Nesse contexto, a reescrita guiada por meio da exploração de características semânticas com o QueryBandits pode induzir mudanças significativas no comportamento de saída por meio de mecanismos de passagem direta, dispensando a necessidade de retreinamento ou adaptação baseada em gradientes.
Modelos de linguagem de grande escala (LLMs) alcançaram desempenho notável em diversas tarefas de geração. No entanto, alinhá-los efetivamente com comportamentos desejados continua sendo um desafio significativo. A direcionamento de ativações é uma abordagem eficaz e de baixo custo que modifica diretamente as ativações dos LLMs durante a etapa de inferência, alinhando suas respostas com os comportamentos desejados e evitando o alto custo do ajuste fino. Os métodos existentes geralmente intervêm indiscriminadamente em todas as gerações ou dependem exclusivamente da pergunta para determinar a intervenção, o que limita a avaliação precisa da intensidade da intervenção. Para isso, propomos o framework Flexible Activation Steering with Backtracking (FASB), que determina dinamicamente tanto a necessidade quanto a intensidade da intervenção ao rastrear os estados internos dos LLMs durante a geração, considerando tanto a pergunta quanto o conteúdo gerado. Como intervir após detectar um desvio do comportamento desejado muitas vezes é tarde demais, propomos ainda o mecanismo de retrocesso para corrigir os tokens desviados e direcionar os LLMs para o comportamento desejado. Experimentos extensivos no conjunto de dados TruthfulQA e em seis conjuntos de dados de múltipla escolha demonstram que nosso método supera as abordagens basais. Nosso código será disponibilizado em https://github.com/gjw185/FASB.
Este estudo avalia redes neurais profundas para a previsão de distribuições de probabilidade de retornos financeiros. Redes neurais convolucionais 1D (CNN) e arquiteturas de Long Short-Term Memory (LSTM) são utilizadas para prever parâmetros de três distribuições de probabilidade: Normal, t de Student e t de Student assimétrica. Usando funções de perda personalizadas de log-verossimilhança negativa, os parâmetros das distribuições são otimizados diretamente. Os modelos são testados em seis principais índices de ações (S\&P 500, BOVESPA, DAX, WIG, Nikkei 225 e KOSPI) utilizando métricas de avaliação probabilística, incluindo Log Predictive Score (LPS), Continuous Ranked Probability Score (CRPS) e Probability Integral Transform (PIT). Os resultados mostram que os modelos de aprendizado profundo fornecem previsões distribucionais precisas e têm desempenho competitivo em comparação com modelos GARCH clássicos para a estimativa de Value-at-Risk. O LSTM com distribuição t de Student assimétrica apresenta o melhor desempenho em múltiplos critérios de avaliação, capturando tanto caudas pesadas quanto assimetria nos retornos financeiros. Este trabalho demonstra que as redes neurais profundas são alternativas viáveis aos modelos econométricos tradicionais para avaliação de risco financeiro e gestão de portfólio.
Reivindicações legais referem-se às demandas do autor em um caso e são essenciais para orientar o raciocínio judicial e a resolução do caso. Embora muitos trabalhos tenham se concentrado em melhorar a eficiência dos profissionais do direito, a pesquisa sobre como ajudar não profissionais (por exemplo, autores) permanece inexplorada. Este artigo explora o problema da geração de reivindicações legais com base nos fatos de um caso. Primeiro, construímos o ClaimGen-CN, o primeiro conjunto de dados para a tarefa de geração de reivindicações legais em chinês, a partir de diversas disputas legais do mundo real. Além disso, projetamos uma métrica de avaliação personalizada para avaliar as reivindicações geradas, que abrange duas dimensões essenciais: factualidade e clareza. Com base nisso, realizamos uma avaliação abrangente de modelos de linguagem de grande escala, tanto gerais quanto específicos para o domínio jurídico, em cenário de zero-shot. Nossos resultados destacam as limitações dos modelos atuais em precisão factual e clareza expressiva, apontando para a necessidade de um desenvolvimento mais direcionado nesse domínio. Para incentivar a exploração adicional dessa tarefa importante, disponibilizaremos o conjunto de dados publicamente.