ChatGPT est incapable de respecter le copyright !

Vous êtes émerveillé par la qualité et la forme des réponses fournies à vos questions par ChatGPT ? Normal ! C’est par la lecture et l’analyse de contenus rédigés par des humains qu’il s’est entrainé. Mais au fait, avez-vous donné l’autorisation à un outil comme ChatGPT de lire, analyser, reproduire, transformer, résumer, traduire, les contenus que vous avez publié sur Internet ? Non, en effet, jamais. Il est venu se servir, directement dans votre site web, sans tenir compte de votre copyright, et sans vous demander votre autorisation.

Mais au fait, ai-je envie que ce que je publie sur Internet soit utilisé par les nouvelles IA dont tout le monde parle ?

Et si je ne voulais tout simplement pas partager mon contenu avec un robot ? Et si je voulais réserver la lecture de mes articles aux seuls Êtres Humains. En ai-je le droit ? Oui bien sur, mais ce droit n’est pas aujourd’hui respecté !

Comment ChatGPT a-t-il été alimenté, entrainé ?

Pour en avoir le coeur net, j’ai demandé au moteur lui-même de quelles données il avait été nourri. Voici sa réponse :

“OpenAI utilise un modèle de traitement du langage appelé GPT (Generative Pre-training Transformer) pour entraîner son assistant de chat. Ce modèle est entraîné sur un grand ensemble de données de textes en utilisant une technique d'apprentissage automatique appelée pré-entraînement.

Pour entraîner GPT, OpenAI a utilisé un grand corpus de textes disponibles sur internet, comme des articles de nouvelles, des livres électroniques, des pages web, des publications scientifiques, etc. Ce corpus comprend des textes en plusieurs langues, mais principalement en anglais. Les données ont été nettoyées pour éliminer les données sensibles ou malveillantes, pour garantir la qualité des données de base et de la sécurité pour les utilisateurs.

Le modèle GPT est ensuite fine-tuné en fonction des tâches spécifiques pour lesquelles il sera utilisé, comme la génération de textes, la réponse à des questions, la traduction automatique, etc. Cela permet au modèle d'acquérir des connaissances spécifiques et de s'adapter aux besoins de l'application pour laquelle il est utilisé.

Il est important de noter que le modèle d'IA continue d'évoluer et d'être amélioré grâce à des nouvelles données et des méthodes d'apprentissage automatique plus avancées, afin de continuer à offrir des réponses plus précises et utiles pour les utilisateurs.”

J’ai ensuite voulu aller un peu plus loin, et lui faire part de mes inquiétudes sur mon droit de propriété intellectuelle sur le contenu que j’ai moi-même rédigé.

Je lui ai donc demandé s’il était possible de lui interdire l’accès à certaines sources. Voici sa réponse :

“Il n'est pas possible de bloquer spécifiquement l'utilisation de certains articles que vous avez publiés sur Internet lors de l'entraînement de modèles tels que GPT. OpenAI utilise un grand corpus de textes disponibles sur internet pour entraîner son modèle, et il est peu probable que vous puissiez identifier et bloquer tous les articles qui contiennent du contenu que vous avez créé.

Il est possible de signaler à OpenAI tout contenu que vous estimez inapproprié ou illégal qui aurait été utilisé pour entraîner le modèle, en utilisant les formulaires de contact sur leur site web. L'équipe d'OpenAI examinera alors votre signalement et prendra les mesures appropriées.

Si vous souhaitez vous assurer que vos propres articles ne sont pas utilisés pour entraîner des modèles automatiques, vous pouvez utiliser des stratégies de protection de la propriété intellectuelle telles que le droit d'auteur, les brevets et les marques de commerce pour protéger votre travail. Il est également possible de configurer les paramètres de confidentialité de vos publications en ligne pour limiter l'accès à votre contenu.

Il est important de noter que si vous n'avez pas mis en place des mesures pour protéger vos articles, il est possible qu'ils soient utilisés pour entraîner des modèles automatiques sans votre autorisation.”

La solution : une balise anti-GPT

Donc, en résumé, soit vous publiez sur internet, et vous ne pouvez pas empêcher un modèle d'utiliser votre contenu pour s’entrainer, soit vous placez votre contenu derrière un système d’authentification.

ChatGPT et OpenAI appliquent donc le grand principe que l’on a toujours reproché aux internautes : si c’est en ligne c’est que c’est gratuit ! Bravo !

Alors quelle solution ?

Utiliser la balise meta robots, et cacher son contenu. Il n’est plus découvert par ChatGPT (ou moins), mais plus non plus par les internautes…
Inventer une balise meta GPT, qui rendrait le contenu lisible par les robots d’indexation, mais indiquerait clairement aux GPTs qu’il ne peuvent pas utiliser ce contenu. Il faudrait bien entendu que l’ensemble des éditeurs d’IA générative s’engagent à respecter cette balise.

Qu’en pensez-vous ? Doit-on disposer librement de ses contenus, et de notre souhait de les partager avec une IA ou non ? Est-il légal pour ChatGPT de s’entrainer à partir du contenu disponible sur Internet sans se soucier d’un éventuel copyright ?

[20/03/2023] Une piste de réponse est apportée par Glaze afin de protéger techniquement les oeuvres digitales (peintures, photos...) en ajoutant une couche qui rend plus difficile leur "compréhension" par les IA. Cela ne concerne pas encore le texte, mais c'est déjà une idée. Et cela ne résout pas le point juridique, mais cela donne à l'artiste une présomption de son désir de ne pas voir son oeuvre réutilisée par des modèles d'IA.

[17/01/2023] pour compléter, une action juridique en cours : https://www.cbr.com/ai-art-midjourney-deviantart-copyright-lawsuit/ A suivre pour commencer à construire une jurisprudence.

[12/01/2023] pour compléter, voici un lien vers un autre article qui aborde le même sujet sous l'angle des créatifs (graphismes, images, photos...) confrontés au même problème : https://trustmyscience.com/artistes-colere-usage-non-autorise-oeuvres-par-ia-ont-ils-un-recours/