Pages

mercredi 27 septembre 2023

Les Invités de LLC. Bruno Mathis : L'open data, l'open source et les craintes de la Cour de cassation


Bruno Mathis est chercheur associé au Centre de droit et d'économie de l'ESSEC


L'open data, l'open source 

et les craintes de la Cour de cassation


 

Le 8 octobre 2016 est adoptée la loi pour une République numérique et ses articles prévoyant la mise à disposition du public des décisions de justice. C'est alors une bonne nouvelle pour le chercheur devant qui s'ouvre tout un champ d'investigations possibles, sur l'analyse du contentieux ou le fonctionnement même de la justice. 

Le législateur a choisi de pseudonymiser les décisions de justice, ce que Légifrance faisait déjà pour les arrêts motivés des cours suprêmes et une sélection d’arrêts d’appel. La Cour de cassation lance dès 2016 un projet pour les pseudonymiser elle-même grâce à l’intelligence artificielle, et, après avoir testé un progiciel d’un éditeur privé, décide de développer sa propre solution à base d’apprentissage automatique.

En avril 2020, sinon avant, la Cour décide que sa solution sera en open source. La perspective est également une opportunité pour le chercheur, qui pourrait pseudonymiser automatiquement des décisions qui seraient en sa possession en version intègre, avant d’engager une autre expérimentation. Un exemple est d’extraire des données relatives au parcours du contentieux, de la première saisine jusqu’au dernier recours. Si des arrêts civils d’appel et de cassation sont disponibles en suffisamment grand nombre en open data pour être prêts à l’emploi, l’essentiel des jugements civils de première instance ne sera mis à disposition, au mieux, qu’en 2026. Pseudonymiser des jugements avec le même algorithme ayant pseudonymisé des arrêts permettrait d’éviter un biais dans l’expérimentation. Pourquoi perdre du temps à construire un nouvel outil de pseudonymisation, puisque la Cour a promis de mettre le sien en open source ?

Après avoir fait des pieds et des mains pour l’obtenir, la Cour se voit confier, par un décret de juin 2020, la responsabilité de l’open data des décisions de justice judiciaire. Plus connue comme juridiction suprême, la Cour devient éditeur de logiciel et opérateur technique, non sans risquer le conflit d’intérêts. 

 


 Les chiffres. Joseph Brauner. 1927

 

La demande adressée à la Cour de cassation

 

En octobre 2021, l’auteur de ces lignes demande à la Cour de cassation de lui communiquer, en vertu de l’article L311-1 du Code des relations entre le public et l'administration (CRPA), l’analyse d’impact relative à la protection des données (AIPD) du traitement d’open data des décisions de justice. La Cour envoie alors une AIPD après « occultation des mentions qui ne sont pas communicables en application des articles L. 311-5 et L. 311-6 du même code », c’est-à-dire après l’avoir caviardée aux deux tiers. La partie en clair n’explique même pas clairement que l’outil appelé LABEL sert à corriger manuellement les défauts de pseudonymisation résiduels, après application automatique du modèle d’apprentissage, ni que son développement, comme le recrutement de vingt agents pour l’utiliser, informations publiquement disponibles, ont été décidés au titre de mesure de réduction du risque. Le document précise que « la présente étude d’impact sera mise à jour en fonction des évolutions techniques qui le permettront », et non pas en fonction de l’évolution des risques. Le système n’est pas défini à partir de l’analyse des risques, c’est le contraire. Il n’est pas utile de demander la version intégrale de l’AIPD.

En juillet 2022, une demande est adressée à la Cour de cassation pour obtenir le code source de la pseudonymisation automatique. Elle ne porte pas sur le jeu d’apprentissage lui-même, c’est-à-dire la liste des décisions de justice en version intègre assorties des annotations portées manuellement en vue de leur apprentissage par l’algorithme, mais sur le modèle qui en résulte et le code source qui l’utilise. Pour simplifier, le modèle d’apprentissage remplace par des chiffres tous les mots des décisions apprises ; sans lui, pas de réutilisation possible. La requête fait valoir que le code source est mentionné dans une liste non limitative de documents considérés comme administratifs par l’article L300-2 du CRPA. L’absence de réponse deux mois plus tard conduit alors à la saisine de la Commission d’accès aux documents administratifs (CADA). 

 

L'avis de la CADA

 

L’avis, négatif, de la CADA, indique que «  le premier président de la Cour de cassation s’oppose à la communication des documents sollicités au motif qu’il existe un risque que des opérations de rétro-ingénierie […] permettent de reconstituer les données qui ont été occultées ». La Commission estime que ce risque présente « un caractère suffisant de vraisemblance pour être tenu pour acquis », sans fournir de référence à la littérature scientifique à l’appui de cette affirmation.

Relisons l’AIPD « communicable ». Deux titres de paragraphes laissés en clair, sur « la sécurisation des flux inter-applicatifs » et la « sécurisation des accès aux bases de données » suggèrent l’identification implicite d’un risque de dissémination fortuite, ou d’interception, de données personnelles et d’un risque d’intrusion à froid. La partie en clair ne fait pas valoir le risque aujourd’hui allégué de rétro-ingénierie né de la mise à disposition du public de l’outil, encore moins ledit risque né du simple fait de sa communication. Elle ne fournit pas de précisions sur la taille de l’échantillon de décisions de justice ayant fait l’objet d’un apprentissage supervisé, sans doute de quelques dizaines à quelques milliers. Elle ne tente pas de rapprocher la probabilité d’une reconstitution de données personnelles, par rétro-ingénierie du modèle d’apprentissage, appliquée à cet échantillon une seule fois, avec la probabilité de défaut de pseudonymisation appliquée à quelques millions de décisions de justice mises en open data chaque année. L’AIPD ne se demande pas si la rétro-ingénierie est possible sans y déployer des efforts disproportionnés, réservés à des spécialistes en intelligence artificielle, qui feraient perdre à ces données leur caractère personnel au sens du considérant 26 du RGPD. À supposer que ces données personnelles soient reconstituées sans de tels efforts, et sans altération, l’AIPD ne tente pas davantage d’évaluer le risque que cette reconstitution entraîne une atteinte à la vie privée ou aux droits fondamentaux de ces personnes.

Ou alors ce risque serait mentionné dans la partie occultée ? L’article L311-5 du CRPA mentionne des exceptions à la communicabilité au titre de l’intérêt de l’État (secret des délibérations du pouvoir exécutif, secret de la défense nationale, etc…), et le suivant au titre de la vie privée des personnes, du secret des affaires et du secret médical. Cela n’expliquerait pas pourquoi une exception, mentionnée par l’un de ces articles, justifierait de ne pas faire état de ce risque de rétro-ingénierie à ce moment-là, mais n’empêcherait pas d’en faire état aujourd’hui et de l’opposer au demandeur. Le résultat tient en tous cas du paradoxe : pour ouvrir les décisions de justice, il faudrait fermer l’algorithme qui les produit.

L’emploi d’un argument d’autorité et les contradictions de la Cour ont conduit à un recours auprès du tribunal administratif.

Que craint vraiment la Cour de cassation ? Une atteinte aux droits fondamentaux des personnes ou un examen de ce qu’elle fait dans son nouveau rôle d’éditeur de logiciel ?

2 commentaires:

  1. La question est simple dans son principe mais complexe dans sa mise en oeuvre comme souvent en matière d'interprétation du droit positif. Si l'on y ajoute une dimension numérique et médiatique, le problème de la pseudonymisation - en un mot l'Open source - devient inextricable. Pire encore, plusieurs structures en charge de l'interprétation de la norme peuvent fournir des appréciations différentes. Ce qui semble être le cas que vous exposez.

    Un exemple emblématique du mal français : déclamation de principes généreux mais mise en oeuvre pratique restrictive, voire mesquine. Le problème se trouve en amont : celui de la clarté de la norme. Vaste programme lorsque l'on sait comment elle est souvent élaborée au Parlement : de nuit en présence de quelques élus.

    Cela mériterait la rédaction d'un rapport rédigé par des juristes et des praticiens pour poser le diagnostic et proposer quelques remèdes idoines simples. Nous en sommes encore loin.

    RépondreSupprimer
  2. Que dire alors de la Cour des Comptes ?
    3433 texte(s) trouvé(s) sur le site legifrance, dernier du 23/12/2022
    des arrêts de 2023 n'ont pas non plus été publiés sur le site de la Cour des Comptes

    RépondreSupprimer