De la confiance dans les plateformes de consultations publiques

Cet article est le fruit d'une réflexion personnelle qui n'engage pas la mission Etalab de la DINSIC.

Les plateformes de consultation

Le grand débat national a permis à plus d'un million de français d'interagir avec une plateforme de consultation.

Une plateforme de consultation est un site web proposant de s'enregistrer comme utilisateur pour répondre à des questions, formuler des propositions, voter sur des propositions ou des réponses - les fonctionnalités peuvent varier d'une plateforme à l'autre.

/img/legranddebat-homepage.png — Le site du grand débat national, opéré par Cap Collectif

La plateforme de consultation est un site web qui peut (ou non) exposer les données de consultation collectées (à l'exclusion des données personnelles des participants) et être opéré (ou non) par des logiciels libres, c'est-à-dire des logiciels dont chacun peut lire le code source, le modifier et partager ses modifications.

/img/decidim-homepage.png — La plateforme Decidim, reposant sur des logiciels libres.

Les consultations publiques

Ces outils sont disponibles pour toute forme de consultation, privée ou publique. Dans le cas des consultations publiques, il y a un enjeu particulier autour de la confiance que les citoyens peuvent avoir dans les données produites par la plateforme et les logiciels utilisés pour l'opérer.

Le service consultation.etalab.gouv.fr aide les administrations à choisir et à déployer une plateforme de consultation publique.

/img/consultation-etalab.png — La page d'accueil du service Consultation d'Etalab, guidant les administrations.

Il propose une liste de critères parmi lesquels on trouve celui de Reproductibilité, sincérité, loyauté de la plateforme. Tel qu'il est formulé, ce critère n'est ni clair ni adéquat : pas clair parce qu'il mêle des notion distinctes, pas adéquat car l'exigence de reproductibilité n'est pas en phase avec les choix de plateformes proposés. Garantir cette reproductibilité entraînerait de s'assurer que le code source d'une plateforme proposée est toujours mis à disposition de l'administration qui la choisirait, ce qui n'est pas le cas par exemple pour la plateforme Cap Collectif.

Plutôt que de faire correspondre la liste des plateformes proposées aux critères tels qu'ils sont formulés, mon approche est ici de proposer un reformulation des critères qui contribuent à la confiance que les administrations et les citoyens peuvent avoir dans la plateforme.

Principes pour de nouvelles recommandations

La confiance dans les plateformes repose sur la disponibilité de trois types d'informations :
1. les données produites par la plateforme ;
2. le code source utilisé par la plateforme ;
3. les algorithmes mis en oeuvre dans la plateforme.
À noter que ces trois types d'informations sont bien distincts dans la loi pour une République numérique. La question de la publication des codes sources est souvent confondue avec celle de la publication d'explications sur les algorithmes utilisés, mais nous devons éviter cette confusion ici.
La confiance est une propriété subjective et susceptible de degrés, à l'inverse de la disponibilité, qui est une propriété objective et en tout ou rien. Notons que les deux notions restent relatives : on a confiance "en" et une information est disponible "pour". L'approche proposée ici se préoccupe de la façon de maximiser la confiance via la mise à disposition d'informations, elle ne présuppose pas l'obligation d'une publicité et d'une confiance parfaites.
Les recommandations d'Etalab doivent porter sur la méthode (« Quels facteurs prendre en compte dans le choix d'une plate-forme ? ») et sur un score minimal à obtenir dans l'évaluation de ces facteurs. En plaçant trop haut ce score minimal, elles risqueraient d'aller contre certaines contraintes des administrations ; en le plaçant trop bas, elles n'aideraient plus à garantir un degré minimal de confiance entre les administrations et les citoyens dans la mise en oeuvre d'une consultation. Autrement dit, le choix d'une plateforme de consultation dépend des priorités propres des administrations, priorités que ces recommandations aident à aligner avec des données objectives.
Les informations exigées de la plateforme peuvent être communiquées soit publiquement soit en privé à l'administration qui en ferait la demande, procurant un niveau moins fort de « transparence ».
Le score global résultant de ces critères hétérogènes n'est pas autre chose qu'un indice, devant être explicité par des explications locales sur sa construction.

Auditabilité, disponibilité, explicabilité

Évaluer la confiance que l'on peut avoir dans une plateforme de consultation revient à répondre à ces questions :

Pour le code source (auditabilité) :

Le code source est-il lisible ?
Le logiciel est-il librement exécutable ?

Pour les données produites par la plateforme (disponibilité) :

Les données les plus récentes sont-elles téléchargeables ?
Les données les plus récentes sont-elles accessibles via une API ?

Pour les algorithmes mis en oeuvre (explicabilité) :

A-t-on la liste de algorithmes mis en oeuvre dans la plateforme ?
A-t-on une description claire de ce que font ces algorithmes ?

Dans un cas d'extrême ouverture, nous aurions une plateforme dont le code source est entièrement publié sous licence libre et dont le logiciel est librement installable par l'administration ; ce logiciel offrirait les données les plus fraîches à la fois en téléchargement et via une API ; les algorithmes seraient tous clairement expliqués (par exemple un algorithme faisant remonter une question en page d'accueil ou un algorithme de vote sur une proposition.)

À l'autre bout du spectre, on aurait une plateforme sans accès au code source, seulement accessible en tant que service web, avec des données non téléchargeables et non exposées via une API, sans même la liste des algorithmes utilisés ni d'explications les concernant.

Communication publique ou privée

À ces questions s'ajoute la dimension structurante de la publicité des informations.

Une plateforme peut partager son code, ses données et ses algorithmes avec l'administration seule ou publier ces informations pour tous les citoyens. Dans le premier cas, la confiance du citoyen repose sur la confiance de l'administration en la plateforme, dans le second cas, elle n'en dépend pas.

Construction de l'indice de confiance

C'est la partie qui peut sembler la plus arbitraire : rappelons que le score global n'a de sens qu'explicité via les scores locaux et que son usage est seulement méthodologique.

On pourrait par exemple proposer ceci :

Code source lisible = 1
Logiciel librement exécutable = 2
Données téléchargeables = 1
Données accessibles via API = 2
Liste des algorithmes = 1
Explications des algorithmes = 2

Un logiciel librement exécutable est plus facilement auditable qu'un logiciel dont on a seulement le code source ; des données accessibles via une API peuvent plus facilement être suivies que des données qui ne sont disponibles qu'en téléchargement ; une liste d'algorithmes bien expliqués vaut mieux qu'une simple liste sans explication.

Ce score serait pondéré par le périmètre de publication, soit ouvert à l'administration seule, soit ouvert à tous. Nous proposons qu'une ouverture totale double le score de confiance.

Pour reprendre les exemples extrêmes proposés ci-dessus :

Le score d'une plateforme parfaitement publique est de (3 + 3 + 3) x 2 = 18
Le score d'une plateforme parfaitement opaque est de 0

Mais ce score n'est utile que pour évaluer les cas intermédiaires :

Une plateforme qui publie pour l'administration sans publier pour le citoyen : (3 + 3 + 3) x 1 = 9
Une plateforme qui rend son code lisible à l'administration mais ne lui permet pas de l'exécuter ; partage ses données avec tous ; liste les algorithmes et les explique publiquement : 1x1 + 3x2 + 3x2 = 13
Une plateforme en logiciel libre installable par l'administration ; qui partage publiquement ses données mais n'implémente pas d'API ; et liste publiquement ses algorithmes mais sans les expliquer : 3x2 + 1x2 + 1x2 = 10

Conclusion

https://imgs.xkcd.com/comics/voting_software.png — Les informaticiens et la confiance dans les machines de vote - © https://xkcd.com/2030 CC-BY-ND

J'ai pris soin d'éviter le mot de « transparence » : se présentant comme une propriété objective associée à une démarche d'information (cf. l'expression de « transparence de l'action publique »), ce mot est d'usage ambigü : la transparence est-elle une vertu des acteurs ou une propriété des systèmes qu'ils contrôlent ? J'ai préféré parler de publication, une propriété testable, et de confiance, une propriété qui se présente clairement comme incertaine et subjective.

En proposant cette approche, j'insiste sur le fait que la publicité des informations n'est pas une propriété unidimensionnelle et que la confiance qui en résulte hérite de ces multiples dimensions ; l'idée est aussi de proposer une méthode plus claire pour savoir quelles questions poser à ceux qui proposent des plateformes et prétendent gagner la confiance de leurs publics.

📣 Parlons-en sur floss.social

📧 Abonnez-vous pour me lire de temps en temps