Skip to content

Fix high memory usage when embedding a large number of images

Victor Amblard requested to merge fix-high-memory-usage-embed-images into version-1.2

Contrairement à la méthode build_embeddings qui process les entrées (textes ou images) par batch, la méthode embed_images n'utilise pas de batches ce qui la rend inutilisable lorsqu'un nombre trop important d'images est donné en entrée.

  • Ajout d'ume méthode _generate_batches qui génère des batches de taille fixe d'images (ou de textes)
  • Modification de la méthode _embed_images et de la chaîne d'appels pour intégrer un paramètre batch_size et faire appel à la méthode précédente
  • Correction d'un bug dans SigLIP sur la dimension des embeddings générés indiquée dans l'attribut default_config (passage de 512 à 768 ce qui correspond à la taille effective).

Merge request reports

Loading