A DeepMind, braço do Google focado em inteligência artificial (IA), apresentou uma nova ferramenta capaz de criar som para vídeos e descrição em texto. O recurso interpreta o comando do usuário e combina com o contexto das imagens para criar o áudio desejado.
Ainda sem nome, a solução é uma ferramenta de “vídeo para áudio” (“video-to-audio”, ou “V2A”, em inglês). A plataforma aproveita as capacidades de interpretação textual e visual dos modelos da DeepMind para gerar um áudio específico para uma variedade de contextos, incluindo músicas e diálogos.
Segundo o Google, a ferramenta tem a capacidade de entregar várias possibilidades, como trilhas sonoras para gravações, filmes, cenas de conversas e som ambiente.
O resultado ainda tem cara de uma produção gerada por IA. O som apresenta uma alta qualidade e a DeepMind trabalha em melhorar a sincronização de lábios com diálogo.