• Sphks@lemmy.dbzer0.com
      link
      fedilink
      Français
      arrow-up
      1
      ·
      8 months ago

      J’imagine que l’intégralité des générateurs d’images vont passer par cette étape.
      Sur Stable Diffusion, l’analyse de texte est à zéro. Si on lui donne un prompt compliqué du type : “un homme en vert qui tient un chien, et un homme en bleu qui saute”, il ne tient compte d’aucune relation, subordonnée, virgule. Ça traite ceci : “homme vert tenir chien homme bleu sauter” et on peut très bien se retrouver avec un seul homme à tête bleue avec un chien vert qui saute à côté".

      Dall-e 3 qui vient de sortir est exceptionnellement bon. Je ne sais pas comment ça marche sous le capot, mais il arrive à analyser la sémantique de manière très fine. Avec le prompt précédent, on a exactement un homme en vert qui tient le chien. Pour moi, il y a un LLM en premier…