Aller au contenu principal

Conception, développement et exploitation de bases de données numériques

Le département TS2 possède des banques de données reconnues comme équipements remarquables de l’Université Gustave Eiffel : Etudes détaillées d’accidents (EDA), Registre du Rhône. Il construit régulièrement des bases de données dans le cadre d’expérimentations sur simulateurs ou en « conduite naturalistique » qui comportent souvent des données à caractère personnel ou des données plus neutres mais dont la plupart nécessitent de fortes capacités de calculs : simulation, test virtuel… De plus, le département est en première ligne dans les réflexions nationales sur l’évolution des bases de données d’accidents (PV, fichier national des accidents piloté par la DSR) et de leur lien potentiel avec le futur SNDS. La tendance à l’ouverture des données au grand public et au développement des liens entre bases (exemple du SNDS) conduit à une évolution des mesures techniques et organisationnelles, liées notamment, à la confidentialité et la sécurité des données, à leur intégrité et leur disponibilité, à leur interopérabilité et aux méthodes de stockage. Cette évolution intervient dans un contexte d’adaptation aux nouvelles réalités du numérique avec l’entrée en application le 25 mai 2018 du règlement européen sur la protection des données personnelles (RGPD) et de textes relatifs à la cybersécurité.

Notre réflexion sur le futur des bases de données comprend tout autant le devenir des bases de données traditionnelles que l’irruption du numérique, avec des questions en termes d’enjeux techniques, scientifiques, juridiques et méthodologiques.
Par exemple, l’émergence du SNDS offre de nouvelles possibilités d’analyses avec notamment la jonction et l’articulation de différentes bases de données. Dans le cadre d’études en conduite naturalistique, les chercheurs pourront disposer d’un nombre beaucoup plus important de données dont l’intérêt sera de pouvoir explorer des situations difficiles (impossibles) à explorer actuellement (deep learning). De la même manière, pour les travaux sur simulateurs, les chercheurs pourront disposer de capacité de calcul et d’outils permettant un recueil et un traitement des données beaucoup plus important et des outils permettant des qualités d’immersion beaucoup plus poussées.

Le Département génère une grande quantité de données dans le cadre de ses projets de recherche. Au regard du caractère pluridisciplinaire SPI/SHS du département, les données sont très diversifiées : Base de données d’accidentologie (Registre du Rhône, EDA) ; Base de données en incidentologie (S_VRAI, DYMOA) ; modèles de lésions liées aux accidents en fonction de la configuration de l’accident (Projet I-Safe) ; postures pour diagnostic temps réel et prévisibles dans le cas du véhicule autonome (Autoconduct50) ; stratégies visuelles ; états internes ; données issues de simulations « éléments finis »… Comme évoqué dans l’axe 4, un des enjeux pour le futur quinquennal est de faire communiquer entre eux modèles et bases de données pour apporter des réponses les plus complètes possibles à des questions complexes et systémiques, telles que l’impact sur la sécurité routière de l’introduction des VA.

Au regard du nombre de données à traiter, l’automatisation de leur gestion sera indispensable. Cela nécessitera alors des compétences pour traiter et comprendre (compétences en statistiques et en sécurité routière). Le parc de matériel informatique (clusters de calculs, calculateurs) devra évoluer en conséquence. Ces mises à niveau informatique nécessitent des investissements financiers et humains qui peuvent être traités en interne ou externalisés, nonobstant les problèmes de sécurité. De manière générale, cette évolution technologique à venir ne peut être dissociée des questions juridiques (conformité RGPD notamment) de gestion des droits d’accès entre les partenaires (notamment secteur public / secteur privé et l’inverse), des questions financières (achat de matériel et de données…) et des moyens humains (embauche de personnes, formation…).

Les Objectifs deTS2 en matière de bases de données et plateformes pour la sécurité routière sont de :

- Pérenniser et faire évoluer les BDD (registre, EDA, campagnes de collectes spécifiques) et étudier les liens avec les autres bases et systèmes de collectes.

- Aborder les verrous scientifiques de la simulation/modélisation avec les plateformes de recherche des laboratoires (LBA, LBMC, Lescot, LMA).

- Développer des compétences en « big data » (par le recrutement d’experts en science des données, apprentissage machine et apprentissage profond, et par la montée en connaissance des chercheurs en place).

- Mettre en place un cadre normatif des modèles à l’Ifsttar, éventuellement à l’aide d’un software modeling tool, ce qui peut nécessiter de rendre cohérentes entre elles les bases de données servant à développer ces modèles.

Ces objectifs sont en lien avec la mise en conformité réglementaire, qui nous conduira à clarifier les questions de la collecte et de la conservation des données personnelles par les équipes de recherche, ainsi qu’à capitaliser et donner une meilleure visibilité aux bases de données existantes et à porter une réflexion sur l’accessibilité des bases de données non confidentielles à l’extérieur de l’Ifsttar.

Le registre du Rhône connait un nouvel enjeu de croisement des données de santé centralisées. Il pourra être relié à d’autres bases de données de santé (dans le cadre du SNDS), comme celle des remboursements (soins, médicaments…) ou celle des hospitalisations, permettant ainsi de questionner l’accident à la fois plus globalement (calcul des coûts, approche psycho-sociale…) ou plus finement (effets de médicaments…). Les données ne sont pas accessibles publiquement, mais sur demande, il est possible de les partager en fonction des clauses des contrats. Il conviendra alors de prévoir une mise en forme des bases de données spécifique à leur partage.
Financée par la DSR, une réflexion est en cours sur la pérennisation du registre du Rhône et son éventuelle extension. Un cabinet d’accompagnement et de conseil aide à co-construire ce projet de réflexion avec l’Umrestte concernant les questions qui se posent aux niveaux scientifiques et opérationnels. Des scenarios sont en cours de rédaction pour différents objectifs : extension géographique, extension thématique (accidents domestiques, accidents du travail par exemple), extensions des variables… La pérennisation du registre du Rhône est un enjeu stratégique fort et son extension une opportunité à saisir, notamment l’extension thématique (chutes sur la voie publique, accidents domestiques …).

Les EDA permetront, à partir de cas d’accidents, de reconstituer l’accident de façon d’autant plus précise qu’elles seront accompagnées de données numériques recueillies sur site. La refonte du logiciel « RESEDA », est en cours par le service informatique de l’Ifsttar. Son évolution permettra de s’adapter aux nouvelles technologies en intégrant les données numériques aux données actuellement collectées. Cela implique de disposer des outils nécessaires à leur recueil, à leur traitement, à leur stockage ainsi qu’à leur partage. De nombreuses données numériques vont également devenir nativement disponibles dans les véhicules et via les objets connectés. Le challenge est de parvenir à accéder à ces données tant d’un point de vue technique que juridique et à les traiter. Cette évolution ouvrira la possibilité d’effectuer des recherches sur certains points précis, comme par exemple :
- L’évaluation des bénéfices des détecteurs de piétons/cyclistes et des systèmes d’alerte anticollision sur le nombre d'accidents de la route ;
- L’aide au développement technologique par l’estimation de la durée optimale d’anticipation d’une alerte anticollision frontale avec piétons/cyclistes (projet avec Toyota) ;
- L’utilisation des EDA pour aider à la détermination de scénarios d’accidents, comme dans le projet Surca.

En lien avec les EDA, un projet est en phase de définition avec plusieurs partenaires (Ceesar, Lab Gie PSA-Renault, Cerema et Ifsttar) pour doter la France d’une BDD plus représentative et plus approfondie, sur le modèle de GIDAS51, de meilleure qualité que la base BAAC et les données issues des PV. La valeur ajoutée d’une telle nouvelle BDD accidents est certes à évaluer, cependant, si cette étude aboutit à la création d’une nouvelle BDD française, il est fondamental pour TS2 d’être partie prenante dans la réflexion et l’utilisation future de la base.

Les expérimentations actuelles en « conduite naturalistique » traitent des panels de 30 à 120 participants. On collecte de grandes quantités de données sur de longues périodes, mais sur de très faibles échantillons de population. Le big data pourrait apporter une nouvelle façon d’aborder certaines problématiques de recherche. Si des systèmes embarqués d’enregistrement de données (boîtier télématique et de géolocalisation) tels que ceux utilisés par certains assureurs ou dans les projets S_VRAI et DYMOA par le LMA sont utilisés, le nombre de ces participants aux expérimentations pourrait être beaucoup plus important et les résultats plus représentatifs, notamment pour la détection d’incidents ou de comportements atypiques.

L’objectif du projet S_VRAI est d’établir une base de données d’incidentologie, ouverte à tout l’Ifsttar, grâce à des boîtiers enregistreurs installés dans des véhicules et sur des motos. Les boitiers permettent d’enregistrer des données cinématiques et des vidéos. Les données sont envoyées en temps réel sur les serveurs du Laboratoire Mécanismes d'Accidents. Les informations recueillies permettent de déterminer si une situation est anormale (trafic, infrastructure…). Les boîtiers permettent aussi d’obtenir des informations sur le comportement et le type de conduite (profil sportif, détendu…). La seconde phase du projet vise un transfert technologique et un déploiement national du dispositif dans les 5 prochaines années.
Ce projet parmi tant d’autres illustre bien la question de l’anonymisation des données, à la fois au niveau des données informatiques, que des données vidéo. Le recueil de ce dernier type de données induit notamment la mise en oeuvre d’algorithmes de floutage automatique des visages et des plaques d’immatriculation dans les images. La première phase du projet, ainsi que le projet DYMOA (Diagnostic d’Infrastructures et Dynamique du Véhicule pour les Motos et les Autos), ont démontré la faisabilité juridique et technique de la démarche.

La plateforme Transpolis et les compétences des équipes du département (enregistreurs de données routières implantés sur des flottes de véhicules (4 roues et 2RM), l’analyse des dysfonctionnements, avec des analyses fines des interactions de l’homme avec le système, la création de diagnostic de l’activité du conducteur…) permettront d’aborder, voire de lever, un certain nombre de verrous en matière de simulation/modélisation et de communication/connexion des modèles entre eux.
Cela donnera par exemple la possibilité d’étudier l’automatisation et la connectivité du véhicule de demain avec des moyens expérimentaux propres à l’Ifsttar et de générer des situations sur piste avec un niveau de réalisme supérieur à celui que l’on peut obtenir aujourd’hui sur simulateur et sans danger pour le matériel et pour les participants. Un rapprochement et une collaboration tripartite avec ESI et Transpolis SAS sur les aspects simulation et modèles pourrait, à terme, permettre de rendre interopérables les expérimentations scénarisées sur simulateur d’environnement et sur piste. Par ailleurs, l’intégration progressive de différents modèles dans la simulation, comme le modèle cognitif du conducteur, les modèles de biomécanique du corps humain, les modèles de véhicules et les modèles de trafic, permettrait d’une part, de tester le fonctionnement de ces modèles dans un même environnement simulé, et d’autre part, de pouvoir tester, à terme, l’application de ces modèles en situation réaliste sur la piste de Transpolis. Les objectifs présentés ci-avant sont affichés afin de permettre à l’Ifsttar de pouvoir travailler en autonomie (c’est-à-dire indépendamment des constructeurs) sur les problématiques suivantes évoquées précédemment dans nos questions de recherche :
- Monitoring du conducteur en véhicule automatisé
- Reprise en main du véhicule automatisé
- Acceptabilité/acceptation du véhicule automatisé
- Interface Homme Machine dans le véhicule automatisé et connecté
- Formation sur les véhicules automatisés (comment les utiliser ? / comment lever les appréhensions ?)

Enfin, nous soulignerons deux éléments importants. Tout d’abord le big data fait appel à de nouvelles méthodes d’analyses dans le domaine du data mining, dont notamment le machine learning (apprentissage machine) et le deep learning (apprentissage profond), et nécessite de nouvelles compétences à la fois techniques et scientifiques. Le deuxième point est l’accès aux données à caractère personnel, qui a été accordé à l’fsttar en tant qu’organisme public de recherche pour certains projets (S_VRAI, DYMOA, UDRIVE, collecte et exploitation des données des PV d’accidents…/ autorisations Cnil). L’évolution des règles juridiques permettra que l’accès soit étendu pour la recherche scientifique mais avec un encadrement strict et une plus grande responsabilité des responsables de traitement et des sous-traitants. Toutefois, il est impératif que les laboratoires se mettent en conformité le plus rapidement possible.