L’art de l’IA est une propagande douce pour le Nord global

Il est 8h06 et je regarde des images qui défilent sur l’écran de mon téléphone au rythme de cinq secondes : « Viking, château, festin, hall » ; “Banksi [sic], mise à l’échelle » ; “Un avion commercial se dirigeant vers un grand portail temporel de forme ronde qui ressemble à un saut dans le temps, à indice d’octane élevé, réaliste, hdr – fond d’écran.” C’est mon temps de recherche quotidien sur ce qu’on appelle «l’art de l’IA». Les images sont produites sur le serveur Discord de Milieujourney, un “générateur d’images AI”. La dernière tendance dans la course à l’IA en cours, ces types de générateurs, y compris Dall-E par OpenAI et Diffusion stable par StabilityAI, sont des systèmes algorithmiques basés sur l’apprentissage profond et l’apprentissage probabiliste. Ils composent des modèles informatiques pour le traitement du langage naturel (GPT-3 par OpenAI et ses dérivés), la vision par ordinateur et la synthèse d’images dans des systèmes de type Frankenstein qui produisent des artefacts visuels bidimensionnels correspondant à l’invite de l’utilisateur. Ils sont remarquablement populaires et, certes, un exploit technique impressionnant. Mais, je me demande, au-delà de l’attrait esthétique facile, que font ces modèles au niveau culturel ?

En tant qu’artiste et chercheur travaillant avec la technologie open source depuis 2004 et avec l’apprentissage automatique et l’IA depuis 2012, je suis aussi fasciné que fatigué par les potentiels créatifs et les implications culturelles de l’apprentissage automatique. L’apprentissage en profondeur et, par extension, les générateurs d’IA sont particulièrement problématiques car leur efficacité dépend des actifs exclusifs de quelques agents extraordinairement riches de l’industrie. Ils disposent d’une vaste puissance de calcul, d’immenses ensembles de données, de capitaux à investir dans la recherche universitaire et de capacités pour former des modèles sans cesse croissants (Dall-E a 12 milliards de paramètres et d’autres doivent être ajoutés). L’open source d’un modèle, comme StabilityAI l’a fait avec le sien, peut ouvrir la recherche dans une certaine mesure mais ne compromet pas la dépendance de l’ensemble du projet (développement, maintenance, campagne promotionnelle, investissements, revenus) sur le flux constant d’argent par son fondateur — un ancien gestionnaire de fonds spéculatifs. Sans surprise, les lacunes artistiques et éthiques des générateurs d’IA sont liées à leur dépendance au capital et au capitalisme.

Contrairement à l’opinion populaire, ces systèmes ne créent pas des images à partir de rien, mais fusionnent plutôt des caractéristiques abstraites d’œuvres d’art existantes en pastiches. En raison de leur nature mathématique, la façon dont ils créent des artefacts manque d’intention de base et est plutôt motivée par des approximations de probabilité compliquées. Leur fonctionnement semble si obscur que David Holz, fondateur de Midjourney, déclaré: “On ne sait pas vraiment ce qui fait que les modèles d’IA fonctionnent bien […] Il n’est pas clair quelles parties des données donnent réellement [the model] quelles capacités ».

D’autres choses sont assez claires, cependant. Premièrement, l’exploitation du capital culturel. Ces modèles exploitent d’énormes ensembles de données d’images extraites du Web sans le consentement des auteurs, et nombre de ces images sont des œuvres d’art originales d’artistes morts et vivants. LAION5, une base de données de recherche universitaire financée par StabilityAI et utilisée pour former son modèle de diffusion stable, se compose de 5,85 milliards de paires image-texte. LAION-Aesthetics, un sous-ensemble de cette base de données, contient une collection de 600 millions d’images sélectionnées de manière algorithmique pour être des “images esthétiques” – comme si le plaisir esthétique était universel. Une récente enquête d’un sous-ensemble de cette dernière collection a révélé qu’une grande partie des images sont extraites de Pinterest (8,5 %) et de sites Web hébergés par WordPress (6,8 %), tandis que le reste provient d’emplacements variés, y compris des plates-formes orientées artistes comme DeviantArt, Flickr, Tumblr, ainsi que des sites d’achat d’art, dont Fine Art America (5,8 %), Shopify, Squarespace et Etsy. Les artistes contemporains dont le travail est exploité ont fait entendre leur voix sur le problème et les plateformes d’art numérique ont commencé à interdire le contenu généré par l’IA suite aux pressions de leurs communautés.

La deuxième préoccupation est la propagation de l’idée que la créativité peut être isolée de l’incarnation, des relations et des contextes socioculturels pour être modélisée statistiquement. En fait, loin d’être « créatives », les images générées par l’IA sont des approximations probabilistes des caractéristiques d’œuvres d’art existantes. Au sens figuré, les générateurs d’images IA créent une cartographie d’un ensemble de données, où les caractéristiques des images et des textes (sous la forme d’abstractions mathématiques) sont distribuées à des emplacements particuliers selon des calculs de probabilité. La cartographie est appelée « collecteur » et contient toutes les combinaisons d’images possibles avec les données disponibles. Lorsqu’un utilisateur invite un générateur, celui-ci navigue dans le collecteur afin de trouver l’emplacement où se trouvent les caractéristiques d’échantillonnage pertinentes. Pour comprendre cela un peu mieux, quoique grossièrement, considérons l’exemple suivant, que j’illustre à l’aide de Stable Diffusion : Plusieurs images d’un chien par Francis Bacon sont regroupées à un endroit dans le collecteur ; plusieurs images d’une fleur par Georgia O’Keefe sont regroupées à un autre endroit. Mais il existe un point dans le collecteur où les chiens de Bacon et les fleurs d’O’Keefe se rencontrent. Ainsi, lorsqu’il est invité à générer “un chien de Francis Bacon dans une fleur de Georgia O’Keefe”, le modèle utilise le texte comme instructions pour trouver cet endroit particulier où les chiens et les fleurs vivent côte à côte. Ensuite, il échantillonne certaines des caractéristiques visuelles stockées à cet emplacement et les utilise pour filtrer le bruit du signal sous la forme d’une image cohérente (techniquement, Bruit gaussien est utilisé). L’échantillonnage des caractéristiques est stochastique, ce qui signifie que les échantillons sont sélectionnés au hasard à partir des données pertinentes ; c’est pourquoi un modèle invité avec le même texte générera toujours un résultat différent. C’est intelligent, ça marche bien, et vous n’avez pas besoin d’un doctorat pour voir qu’un tel processus a très peu à voir avec n’importe quel type de créativité, quelle que soit la façon dont vous pouvez le définir.

Mais au-delà de la question fatiguée de la créativité se cache quelque chose de plus crucial. Les générateurs d’images IA ne mériteraient pas beaucoup de critiques s’ils dépendaient du consentement des artistes et étaient commercialisés en tant que plug-ins logiciels. Ils sont, après tout, des points d’entrée ludiques et accessibles dans l’art informatique et, si la terne homogénéité de leur production est diversifiée, peuvent même devenir des outils utiles pour certains artistes. C’est la revendication d’une nouvelle forme d’art par le moteur de relations publiques de l’industrie et le marché de l’art qui est extrêmement problématique, surtout lorsqu’elle est utilisée pour motiver des revendications hyperboliques d’intelligence générale des machines. De telles affirmations exploitent la culture et l’art pour renforcer ce que j’appelle une idéologie de la prédiction, une croyance que tout peut être prédit et, par extension, contrôlé. L’idéologie de la prédiction est le système d’exploitation du Nord global. Les entreprises et les particuliers riches investissent frénétiquement dans la recherche sur l’apprentissage approfondi et probabiliste. Étant donné que la majeure partie du Nord global est structurée autour de systèmes algorithmiques (de l’aide sociale, de la justice et de l’emploi à la guerre, à la finance et à la politique nationale et internationale), la mise en œuvre d’un apprentissage en profondeur à grande échelle offre un gain financier potentiellement énorme à ceux qui dirigent l’entreprise. Pourtant, alors que l’apprentissage en profondeur s’est avéré utile dans des cas spécifiques, tels que la modélisation du repliement des protéines ou la perte de biodiversité, sa signature sur la société a été jusqu’à présent catastrophique. Considérez le rôle de Cambridge Analytica dans le Campagne Leave.EU et L’élection de Donald Trump; l’enchevêtrement de Google et de l’armée américaine dans le projet Maven, où la bibliothèque d’apprentissage automatique de Google, TensorFlow, a été utilisée pour améliorer les drones de guerre et analyser les données de surveillance ; la exploitation automatisée du travail d’Amazon et Netflix à Uber, Spotify et Airbnb ; la capacité du trading algorithmique déstabiliser des marchés financiers déjà volatils, comme dans le flash accident de 2010; et le quotidien violence psychologique envers les enfantsfr par l’Instagram de Meta.

L’art de l’IA est, à mon avis, une propagande douce pour l’idéologie de la prédiction. Tant qu’il restera lié au paradigme et à la politique des modèles toujours plus grands, à l’augmentation du capital et à l’hyperbole marketing, sa contribution à la pratique artistique n’aura que peu de sens, voire aucun. Là où l’idéologie de la prédiction voit l’avenir de l’art dans un modèle je-sais-tout générant de l’art à la demande, ou dans un égaliseur de créativité luttant contre l’intention artistique d’œuvres d’art volées, je vois plutôt autre chose : des outils d’apprentissage automatique imprévisibles, des œuvres d’art comme valeurs aberrantes des tendances, perversions affirmatives de la technologie et développement à la base d’instruments créatifs. C’est un avenir déjà en gestation, il suffit de chercher les artistes qui ne veulent pas jouer le pari de la hype cycle et osent plutôt imaginer comment créer des technologies inattendues et des langages artistiques risqués.

Leave a Reply

Your email address will not be published. Required fields are marked *