L’affaire opposant The New York Times à OpenAI et Microsoft a débuté il y a presque trois ans, soit le 23 décembre 2023. Le journal accuse l'entreprise d’avoir violé ses droits d’auteur.
Le litige porte sur l’utilisation présumée par OpenAI de millions d’articles du New York Times, pour entrainer ses modèles d’IA (ChatGPT), sans autorisation ni compensation. Selon le journal, cela a eu un impact direct sur ses activités en réduisant le nombre d'abonnements. OpenAI affirme que le New York Times doit démontrer des pertes financières réelles ; le tribunal estime que l'accès aux données financières internes n’est pas justifié.
Les avocats du New York Times ont mis en avant le fait que l’utilisation de leur contenu par OpenAI constitue une violation du droit d’auteur car les modèles d’IA absorbent « l’expression des faits » et ne « comprennent » (contiennent) pas simplement l’information. En d’autres termes, les contenus extraits au moyen des opérations de moissonnage réapparaissent sous une forme textuelle substantiellement identique lors de la génération par le modèle. Aussi, le tribunal ordonne à OpenAI de remettre 20 millions de logs anonymisés de conversations ChatGPT au New York Times. Sam Altman, fondateur et pdg d'Open AI soulève immédiatement de fortes inquiétudes sur la vie privée et les limites de l’anonymisation des données.
La principale défense d’OpenAI et Microsoft repose sur la doctrine du « Fair Use » (Utilisation équitable) en affirmant que le traitement de contenu journalistique par l’IA n’est pas illégal, et en comparant cela à des innovations historiques comme le magnétoscope ou les moteurs de recherche. Ils allèguent qu’il s’agit de reproductions intermédiaires qui n’entrent pas en concurrence avec les œuvres originales s’appuyant notamment sur le précédent Google Books (https://actualitte.com/article/33827/encheres/google-books-victorieux-les-auteurs-ont-subi-une-perte-colossale).
Si le New York Times obtenait gain de cause et qu’un juge fédéral ordonnait la destruction du jeu de données ayant servi à entraîner ChatGPT, les opérations d’OpenAI seraient profondément perturbées. L’entreprise devrait alors reconstruire sa base d’entraînement en utilisant uniquement des contenus autorisés.
En somme, l’affaire met en lumière des tensions croissantes quant à la preuve, aux questions de transparence et aux enjeux de propriété intellectuelle. Au-delà du conflit immédiat, elle s’annonce comme un précédent majeur pour les auteurs, les créateurs et l’innovation technologique.
Affaire à suivre.