Les machines vont-elles remplacer les artistes?
Après avoir fait mes propres essais de génération d’images à partir de phrase plus ou moins complexes, j’ai voulu en savoir plus ces outils de création à base d’Intelligence artificielle. D’ailleurs la quasi-totalité des images contenue dans cet article a été créée avec MidJourney v4, en moins d’un quart d’heure (pour vous donner une idée).
Pour creuser sur le sujet des images générées par IA, je me suis tourné vers mon ami Eric Debeir, spécialiste en réseaux de neurones et en machine learning.
Je souhaitais connaitre son opinion franche sur les dernières évolutions en termes d'”intelligence artificielle”.
Je voulais savoir notamment comment il voyait le futur des artistes dans un contexte aussi exceptionnel que celui que nous vivons actuellement, avec notamment la montée des modèles tels que MidJourney, OpenAI et StableAI pour ne citer qu’eux.
Je sais qu’Éric est quelqu’un de très franc, passionné à la fois par les mathématiques et l’art.
C’était donc la personne idéale à interviewer pour faire le point sur le deep learning.
Pit : Bonjour Eric, merci d’avoir pris du temps pour répondre à cette interview, je sais que tu es très occupé….
Peux-tu te présenter brièvement?
Peux-tu décrire ton cursus scolaire jusqu’à ta situation professionnelle d’aujourd’hui?
Eric : Je suis un abruti comme il y en a quelques milliards, passionné de mathématiques et de création artistique. Mon cursus est un petit bordel appréciable entre école d’ingénieur, projets artistiques et carrière scientifique. Je suis tombé dans “l’intelligence artificielle” en 2014. Je suis aujourd’hui directeur scientifique de Datalchemy qui travaille en IA pour différents clients.
Pit : Pour les novices qui nous lisent, peux-tu nous donner ta définition du deep learning?
Eric : Le Deep Learning est une nouvelle forme d’un domaine plus vaste nommé le Machine Learning. Le Machine Learning est une nouvelle approche de l’informatique avec un nouveau paradigme. Avant, nous avions besoin de spécifier exactement le fonctionnement d’un algorithme. Aujourd’hui, nous pouvons créer un algorithme à partir d’une grande masse de données, et de nouveaux outils assez révolutionnaires sont apparus ces dernières années.
L'utilisation du terme "intelligence artificielle": une aberration!
Pit : Qu’est-ce qui t’a amené à t’intéresser aux réseaux de neurones et au deeplearning?
Eric : Les mathématiques (sans lesquelles il n’y a pas de joie possible sur cette terre (avis personnel)), et les exploits observés en 2014. AlphaGo, par exemple, est une révolution que beaucoup pensaient impossible, le jeu de Go étant d’une extrême complexité.
Pit : Que penses-tu du terme “intelligence artificielle”?
Penses-tu que les machines vont bientôt venir nous chercher pour nous désosser et nous réduire en miettes?
Eric : Je déteste ce terme qui est une tromperie gigantesque et insupportable.
Quand on entend les mots “intelligence artificielle”, on imagine évidemment tous des “êtres” numériques plus ou moins conscients comme dans les livres / bds / films ou jeux vidéo. On imagine la reproduction d’une intelligence humaine sous une forme numérique…
Et tout cela n’a strictement rien à voir avec les outils du Deep Learning.
On appelle ces outils IA aujourd’hui pour des raisons à la fois historiques et marketing, mais cela n’a rien à voir avec la réalité de ces outils qui sont de gros circuits entrée/sortie basés sur une multitude de calculs mathématiques assez simples.
Pour le dire autrement, si le Deep Learning est de l’Intelligence artificielle, alors, on peut considérer que n’importe quel logiciel (Photoshop, ou le premier jeu vidéo) en est aussi.
Pour le répéter autrement, prétendre que les outils que nous avons aujourd’hui en Deep Learning sont un pas vers l’intelligence artificielle, c’est comme prétendre que nos voitures sont un pas vers le voyage intergalactique.
Pour simplifier : les IAs (au sens de la SF) n’existent juste pas. Et beaucoup de discussions sur l’éthique ou de potentielles “attaques de robot” sont de la mauvaise littérature sans réalité scientifique.
Au sujet du transhumanisme et de la transcendance
Pit : Crois-tu en la transcendance de la technologie et au transhumanisme?
Eric : J’y crois très peu.
Pit : Dans quels domaines peut s’appliquer le deep learning?
Peux-tu donner quelques exemples évidents? Et d’autres moins évidents?
Eric : Des tonnes de domaines, c’est justement un des aspects passionnants de ces outils, qui peuvent s’appliquer à de nombreux sujets très différents. Ici, en me restreignant au côté artistique, et cette liste n’est sûrement pas exhaustive
Génération d’images originales à partir d’un dataset : le stylegan par exemple
https://github.com/NVlabs/stylegan3
https://compvis.github.io/taming-transformers/
Cette approche a récemment fait du bruit, entre modèles de diffusion et découverte d’un espace commun texte/image : les DALLE-2 ou plus récemment l’excellent Stable Diffusion
https://openai.com/dall-e-2/
https://github.com/CompVis/stable-diffusion
La conversion d’images d’un domaine vers l’autre (peinture vers photo, hiver vers été), avec l’ancêtre du CycleGan :
https://junyanz.github.io/CycleGAN/
La découverte d’un environnement 3d à partir d’une photographie
https://github.com/NVlabs/instant-ngp
La modification précise d’une image de départ
https://github.com/orpatashnik/StyleCLIP
La création d’images à partir d’un dessin simpliste
http://gaugan.org/gaugan2/
Ou en musique :
La séparation de sources (partir d’un mix et récupérer les pistes séparées) :
https://github.com/sigsep/open-unmix-pytorch
La génération de musique
https://openai.com/blog/jukebox/
La découverte de lignes mélodiques ou autres outils de composition
https://magenta.tensorflow.org/demos
Très récemment, on voit apparaître des approches proches de la génération d’image (modèles de diffusion), mais pour la musique :
https://storage.googleapis.com/music-synthesis-with-spectrogram-diffusion/index.html
Les limites du Deep Learning
Pit : Quelles sont globalement les limites que l’on retrouve le plus dans les modèles de deep learning?
Eric : La principale limite à date est notre incompréhension de ces outils. Nous les entraînons, observons des résultats incroyables, mais nous savons peu ou pas nous en servir. Il faudrait que de plus en plus, des utilisateurs puissent s’emparer de ces nouveaux outils pour mieux les comprendre et découvrir leurs possibilités.
Sinon, il existe quelques limites assez connues :
- Ces modèles peuvent coûter cher à entraîner, demandent un matériel précis, et ont un bilan écologique assez dégueulasse
- Une quantité énorme de données est nécessaire pour entraîner un modèle
- Notre compréhension scientifique de ces outils reste à date très limitée, et donc bien peu efficace
Pit : De ton côté, sur quoi travailles-tu? Je sais que certains détails des projets sur lesquels tu travailles doivent être tenus secrets, mais peux-tu développer un peu sur quoi tu travailles actuellement?
Eric : 80% de mon travail est confidentiel :/ Je travaille sur de l’image, de la vidéo, du son, du texte ou de la robotique…
Sur le plan personnel, je joue énormément avec les outils “artistiques” disponibles (quand j’en ai le temps)
Les modèles connus de Deep Learning
Pit : Peux-tu nous résumer les différents modèles principaux (les plus connus) de deep learning appliqués à la création d’images obtenues à partir de requêtes textuelles?
Eric : Le premier modèle a vraiment faire quelque chose d’impressionnant est le premier DALL-E. Ces modèles apprennent ce qu’on appelle un espace latent (soit, un espace le plus simple possible) dans lequel ils vont résumer en même temps une image et une phrase. Ces modèles sont entraînés de manière à avoir le même “résumé” entre une image et le texte qui la décrit. Une fois que ce modèle est entraîné, on peut partir d’une phrase, trouver le vecteur latent “résumé”, et ensuite créer une image qui ait le même “résumé”.
Ces vecteurs latents sont le Graal dans cette histoire. Une image de 1000px par 1000px, en couleur, c’est 3.000.000 de valeurs numériques. Et on arrive à “résumer” cette image par un vecteur qui contiendra entre 500 et 1000 valeurs, vecteur qui semble recouvrir un très grand nombre de styles et de contenus. Tu peux imaginer une machine avec 1000 leviers. Chaque combinaison des 1000 leviers donne une nouvelle image incroyable. Il ne reste plus qu’à apprendre à jouer de ces leviers.
Pit : Quel est le projet qui t’impressionne le plus actuellement dans le domaine des visuels créés à partir de texte et pourquoi?
Eric : Sans hésitation, Stable Diffusion. Déjà, car les résultats sont excellents. Mais surtout, car contrairement au DALL-E d’OpenAI, ils ont diffusé l’ensemble des modèles qui fait que chacun peut jouer chez soi (pour peu qu’il dispose d’un gpu assez cher).
Quel avenir pour les artistes face aux "IA"?
Pit : Quels impacts penses-tu que le deep learning aura potentiellement sur les artistes et le monde de l’image dans le futur proche, à moyen et à long terme?
Eric : L’apocalypse professionnelle et une révolution artistique
L’apocalypse : Très vite, il sera “facilement” possible de générer des visuels incroyables uniquement en jouant avec des phrases. On peut imaginer que sur de nombreux projets commerciaux, les dirigeants arrêteront de (mal) payer un artiste pour faire des économies tout en ayant des visuels impressionnants à disposition. Peut-être le public s’habituera-t-il et retrouvera-t-on une valeur à la création humaine. Mais les projets à petit budget vont disparaître. Or, ce sont ces projets qui permettent à de jeunes débutants de faire leurs premières armes et de vivre, sans rien enlever au fait que de nombreux dinosaures du domaine continuent de vivre en partie de cette activité.
La révolution : nous sommes face à une redéfinition totale de ce qu’est une image. Nous avons une machine à laquelle nous ne comprenons rien, aujourd’hui. Évidemment, la communauté artistique va se saisir de ces nouveaux outils, les exploiter, les redécouvrir, les détourner. Le sampling n’a pas tué la musique. De nouveaux courants ou pratiques artistiques que nous n’imaginons même pas vont naître de ces outils.
Pit : Si tu étais un artiste en devenir, que ferais-tu dans le contexte actuel?
Eric : Honnêtement, je serais assez stressé et (attention, j’ai une tendance pessimiste), dans certains cas, je réfléchirai à une réorientation pro si les sujets qui me vont vivre financièrement semblent rentrer dans ce que peuvent générer les IAs. En même temps, créativement, j’aurais envie d’éprouver à fond ces nouveaux outils pour devenir un des premiers acteurs à les maîtriser. C’est une belle montagne à gravir, avec des mathématiques en embuscade, mais il y a des choses incroyables à trouver. Plus prosaïquement, un artiste avec sa culture et sa pratique sera vite un excellent utilisateur de ces IAs. Apprendre à travailler avec peut permettre d’aller beaucoup plus vite sur certaines parties et de mieux se concentrer sur d’autres. Autant s’y mettre.
Pit : As-tu quelque chose à ajouter sur le sujet qui pourrait être pertinent pour la communauté apprendre à dessiner?
Eric : Miaw & rrrrrrrrrr
Pit : merci encore pour ton temps
Conclusion sur les innovations des IA dans la création d'image
Je dois avouer que la première fois que j’ai vu ce qu’était capable de faire la version 4 de Midjourney (début novembre 2022), mon coeur a failli lâcher.
Jamais je n’aurais imaginé voir cela de mon vivant.
Je suis très ambivalent sur le sujet:
D’un côté je ressens une excitation incroyable pour l’outil et cela me donne envie d’essayer plein d’idées afin d’accélérer mes projets.
D’un autre côté, je ressens la peur de perdre mon travail à terme et de voir le monde de l’illustration se métamorphoser en un univers dominé par le machine learning.
Y a t-il de l’espoir pour les artistes, notamment les illustrateurs, concept artist et tous les métiers de création d’images?
Ma réponse est oui.
Cependant, les industries vont changer radicalement.
Et à la question: “pourquoi ne régule-t-on pas les outils de machine learning?”, je réponds que le processus est déjà en cours.
Les gouvernements et les comités d’éthique vont être contraints de réagir vite pour faire le ménage face à un nouveau paradigme qui pénalise certaines industries… et pas que les artistes, loin de là!
D’autres industries comme celle des transports ou de la médecine vont être révolutionnées les prochaines années.
Il faut s’y attendre.
Mais si le Machine Learning doit co-exister avec l’humain, il faudra qu’il nous serve avant tout et pas le contraire.
Nous avons donc la responsabilité de participer à la discussion, d’échanger de façon productive et de décider des barrières à ne pas dépasser.
L’heure n’est pas à l’émotion. Nous allons devoir décider des limites du Deep Learning et de tous ces algorithmes mathématiques qui vont transformer nos vies au cours des prochaines décennies.
Pour contribuer à la discussion, je suis en train de rédiger un essai sur ma vision de l’avenir et des mesures à mettre en place pour ne pas que nous devenions les esclaves de nos propres outils.
Dans tous les cas, il faut garder la tête haute et ne pas se décourager. Il existe des solutions à tout.
Nous ne pouvons clairement pas rester à l’âge de pierre, mais nous nous devons de ne pas nous tirer une balle dans le pied non plus.
Gardez en tête que chaque cerveau humain est unique. Notre originalité fait notre force.
L’artiste ne sera jamais vraiment remplacé par la machine, mais les domaines vont clairement être ébranlés.
Cela ne doit pas nous décourager à apprendre et nous former aux métiers de l’image, car la vision de l’artiste, sa sensibilité et ses idées ne peuvent être remplacées.
L’avantage du Machine Learning est que nous pouvons déléguer une partie de nos tâches et gagner en rapidité et en productivité.
J’aimerais aussi rajouté que le travail manuel sera de plus en plus rare, mais ce qui est rare a beaucoup de valeur.
Ma façon de voir les choses: le travail de l’artiste prendra encore plus de valeur dans un monde de machine.
Et toi qui me lis, que penses-tu de cette révolution?
Partage tes craintes, tes espoirs et tes pensées en commentaire.
Pit Graf
Créateur du blog Apprendre à Dessiner
Ancien kinésithérapeute recyclé en prof de dessin.
Toujours partant pour parler apprentissage du dessin et pour faire l’âne sur ses vidéos.