Les modèles d’IA comme DALL-E 2 continuent de faire de l’art qui a l’air bien trop européen

Fin septembre, OpenAI a largement diffusé son générateur d’art DALL-E 2 AI accessible au public, permettant à quiconque disposant d’un ordinateur de créer l’une de ces images frappantes et légèrement bizarres qui semblent flotter de plus en plus sur Internet ces jours-ci. DALL-E 2 n’est en aucun cas le premier générateur d’art IA à être ouvert au public (les modèles d’art IA concurrents Diffusion stable et À mi-parcours également lancé cette année), mais il est doté d’un solide pedigree : son cousin, le modèle de génération de texte connu sous le nom de GPT-3, qui fait lui-même l’objet de nombreuses intrigues et plusieurs gadget histoires — a également été développé par OpenAI.

La semaine dernière, Microsoft annoncé il ajouterait des outils artistiques générés par l’IA – alimentés par DALL-E 2 – à sa suite logicielle Office, et en juin, DALL-E 2 a été utilisé pour concevoir le couverture du magazine Cosmopolitan. Les partisans les plus techno-utopiques de l’art généré par l’IA disent qu’il fournit une démocratisation de l’art pour les masses ; les cyniques parmi nous diraient que c’est copier des artistes humains et menacer de mettre fin à leur carrière. Quoi qu’il en soit, il semble clair que l’art de l’IA est là et que son potentiel ne fait que commencer à être exploré.

Naturellement, j’ai décidé de l’essayer.

Alors que je parcourais des exemples du travail de DALL-E pour m’inspirer (j’avais déterminé que ma première tentative devait être un chef-d’œuvre), il m’a semblé que l’art généré par l’IA n’avait pas d’esthétique particulière autre que, peut-être, d’être un un peu étrange. Il y avait des cochons portant des lunettes de soleil et des chemises à fleurs tout en conduisant des motos, des ratons laveurs jouant au tennis, et Johannes Vermeer Une fille avec une boucle d’oreille, légèrement modifié afin de remplacer la fille titulaire par une loutre de mer. Mais alors que je continuais à défiler, j’ai réalisé qu’il y avait un thème unificateur sous-jacent à chaque pièce : l’art de l’IA, le plus souvent, ressemble à l’art occidental.

“Toute l’IA n’est que rétrospective”, a déclaré Amelia Winger-Bearskin, professeur d’intelligence artificielle et d’arts au Digital Worlds Institute de l’Université de Floride. “Ils ne peuvent que regarder le passé, puis ils peuvent faire une prédiction de l’avenir.”

Pour un modèle d’IA (également connu sous le nom d’algorithme), le passé est l’ensemble de données sur lequel il a été formé. Pour un modèle d’art IA, cet ensemble de données est l’art. Et une grande partie du monde des beaux-arts est dominée par des artistes blancs occidentaux. Cela conduit à des images générées par l’IA qui semblent majoritairement occidentales. C’est, franchement, un peu décevant : l’art généré par l’IA, en théorie, pourrait être un outil incroyablement utile pour imaginer une vision plus équitable de l’art qui semble très différente de ce que nous prenons pour acquis. Au lieu de cela, il s’agit simplement de perpétuer les idées coloniales qui animent notre compréhension de l’art aujourd’hui.

Pour être clair, on peut demander à des modèles comme DALL-E 2 de générer de l’art dans le style de n’importe quel artiste ; demander une image avec le modificateur “Ukiyo-e”, par exemple, créera des œuvres qui imitent des gravures sur bois et des peintures japonaises. Mais les utilisateurs doivent inclure ces modificateurs ; ils sont rarement, voire jamais, la valeur par défaut.

Interprétation par DALL-E 2 de l’invite “Hokusai painting of Artificial Intelligence”
Neel Dhanesha/Vox ; Avec l’aimable autorisation d’OpenAI

Winger-Bearskin a vu de ses propres yeux les limites de l’art de l’IA. Lorsque l’un de ses élèves a utilisé des images générées par Stable Diffusion pour réaliser une vidéo d’une scène de la nature, elle s’est rendu compte que les arrière-plans crépusculaires produits par le modèle d’IA ressemblaient étrangement aux scènes peintes par les animateurs de Disney dans les années 1950 et 1960 – qui eux-mêmes a été inspiré par le mouvement rococo français. “Il y a beaucoup de films Disney, et ce qu’il a récupéré est quelque chose que nous voyons beaucoup”, a déclaré Winger-Bearskin à Recode. « Il manque tellement de choses dans ces ensembles de données. Il y a des millions de scènes nocturnes du monde entier que nous ne verrions jamais.

Le biais de l’IA est un problème notoirement difficile. Non coché, algorithmes peut perpétuer des préjugés racistes et sexisteset ce biais s’étend également à l’art de l’IA : comme Sigal Samuel a écrit pour Future Perfect en avril, les versions précédentes de DALL-E crachaient des images d’hommes blancs lorsqu’on leur demandait de représenter des avocats, par exemple, et dépeignaient toutes les hôtesses de l’air comme des femmes. OpenAI a été travail pour atténuer ces effets, affinant son modèle pour essayer d’éliminer les stéréotypes, bien que les chercheurs ne soient toujours pas d’accord sur l’efficacité de ces mesures.

Mais même s’ils fonctionnent, le problème du style artistique persistera : si DALL-E parvient à dépeindre un monde exempt de stéréotypes racistes et sexistes, il le fera tout de même à l’image de l’Occident.

“Vous ne pouvez pas affiner un modèle pour qu’il soit moins occidental si votre ensemble de données est principalement occidental”, Yilun Du, doctorant et chercheur en intelligence artificielle au MIT, a déclaré à Recode. Les modèles d’IA sont formés en grattant Internet à la recherche d’images, et Du pense que les modèles créés par des groupes basés aux États-Unis ou en Europe sont probablement prédisposés aux médias occidentaux. Certains modèles fabriqués en dehors des États-Unis, comme ERNIE-ViLG, qui a été développé par la société de technologie chinoise Baidu, font un meilleur travail en générant des images plus pertinentes culturellement pour leur lieu d’origine, mais ils présentent leurs propres problèmes ; comme le Examen de la technologie du MIT rapporté en septembre, ERNIE-ViLG est meilleur pour produire de l’art animé que DALL-E 2 mais refuse de faire des images de la place Tiananmen.

Parce que l’IA est rétrospective, elle ne peut faire que des variations d’images qu’elle a vues auparavant. C’est pourquoi, selon Du, un modèle d’IA est incapable de créer l’image d’une assiette posée sur une fourchette, même s’il devrait en théorie comprendre chaque aspect de la demande. Le modèle n’a tout simplement jamais vu d’image d’une assiette sur une fourchette, il crache donc des images de fourchettes sur des assiettes à la place.

Injecter plus d’art non occidental dans un ensemble de données existant ne serait pas non plus une solution très utile, en raison de la prévalence écrasante de l’art occidental sur Internet. “C’est un peu comme donner de l’eau propre à un arbre qui a été nourri avec de l’eau contaminée au cours des 25 dernières années”, a déclaré Winger-Bearskin. « Même si l’eau s’améliore maintenant, les fruits de cet arbre sont toujours contaminés. L’exécution de ce même modèle avec de nouvelles données d’entraînement ne le modifie pas de manière significative. »

Au lieu de cela, créer un modèle d’IA meilleur et plus représentatif nécessiterait de le créer à partir de zéro – ce que fait Winger-Bearskin, qui est membre de la nation Seneca-Cayuga de l’Oklahoma et artiste elle-même, lorsqu’elle utilise l’IA pour créer de l’art sur la crise climatique.

C’est un processus qui prend du temps. “Le plus difficile est de créer l’ensemble de données”, a déclaré Du. La formation d’un générateur d’art IA nécessite des millions d’images, et Du a déclaré qu’il faudrait des mois pour créer un ensemble de données qui soit également représentatif de tous les styles artistiques que l’on peut trouver dans le monde.

S’il y a un avantage au biais artistique inhérent à la plupart des modèles d’art de l’IA, c’est peut-être celui-ci : comme tout bon art, il expose quelque chose sur notre société. De nombreux musées d’art moderne, a déclaré Winger-Bearskin, accordent plus d’espace à l’art réalisé par des personnes issues de communautés sous-représentées qu’ils ne le faisaient dans le passé. Mais cet art ne représente encore qu’une petite fraction de ce qui existe dans les archives des musées.

“Le travail d’un artiste est de parler de ce qui se passe dans le monde, d’amplifier les problèmes pour que nous les remarquions”, a déclaré Jean Oh, professeur associé de recherche à l’Institut de robotique de l’Université Carnegie Mellon. Les modèles d’art de l’IA sont incapables de fournir leurs propres commentaires – tout ce qu’ils produisent est à la demande d’un humain – mais l’art qu’ils produisent crée une sorte de méta-commentaire accidentel qui, selon Oh, mérite d’être remarqué. “Cela nous donne un moyen d’observer le monde tel qu’il est structuré, et non le monde parfait que nous voulons qu’il soit.”

Cela ne veut pas dire que Oh pense que des modèles plus équitables ne devraient pas être créés – ils sont importants dans les circonstances où la représentation d’un monde idéalisé est utile, comme pour les livres pour enfants ou les applications commerciales, a-t-elle déclaré à Recode – mais plutôt que l’existence des modèles imparfaits devrait nous pousser à réfléchir plus profondément à la façon dont nous les utilisons. Au lieu d’essayer simplement d’éliminer les biais comme s’ils n’existaient pas, a déclaré Oh, nous devrions prendre le temps de les identifier et de les quantifier afin d’avoir des discussions constructives sur leurs impacts et sur la manière de les minimiser.

“L’objectif principal est d’aider la créativité humaine”, a déclaré Oh, qui recherche des moyens de créer des interactions homme-IA plus intuitives. “Les gens veulent blâmer l’IA. Mais le produit final est notre responsabilité.

Cette histoire a été publiée pour la première fois dans la newsletter Recode. Inscrivez-vous ici pour ne pas rater la prochaine !

Leave a Reply

Your email address will not be published. Required fields are marked *