Microsoft a récemment dévoilé VASA-1, une technologie d’intelligence artificielle capable de générer des vidéos hyperréalistes à partir d’une seule image et d’un fichier audio. VASA-1 peut produire des vidéos d’une résolution de 512×512 pixels à une cadence allant jusqu’à 40 images par seconde, avec des mouvements des lèvres synchronisés avec l’audio, des expressions faciales réalistes, et des mouvements de tête naturels. Le système vise à créer des vidéos aussi proches que possible de la réalité.
Cette technologie a des applications potentielles dans divers domaines, tels que l’industrie du divertissement, les assistants virtuels, l’éducation et la formation, ainsi que l’accessibilité et l’inclusivité. Cependant, VASA-1 soulève également des préoccupations éthiques, en particulier en ce qui concerne les risques de deepfakes et de désinformation. Microsoft souligne que VASA-1 est uniquement une démonstration de recherche et qu’il n’y a pas de plans pour un produit commercial ou une API à ce stade. L’entreprise a mis en garde contre les dangers potentiels de l’utilisation abusive de cette technologie, tout en mettant en œuvre des mesures de sécurité pour minimiser les risques.