matchID Logo
Traitements d'identités numériques

Fiabilisation, recherche et appariements jusqu'à 100 millions d'identités

Fraude à l'identité

Les faux identités peuvent être radiés des bases de données.

Fraude à l'identité

Les faux identités peuvent être radiés des bases de données.

Le Système d’Immatriculation des Véhicules (SIV) dispose des informations concernant les titulaires de certificat d'immatriculations.

Il est nécessaire d'enlever les personnes décédées pour améliorer la qualité des données et éviter des cas de fraude liées à l'immatriculation des véhicules.

[matchID] permet de radier les personnes décédées de forme mensuel au fichier d'immatriculation des véhicules.

Agence Nationale des Titres Sécurisés

Détection des personnes décédées en masse au sein d'une base de données


Avez-vous une grande base de données d'identités et vous souhaitez enlever les personnes décédés ?

Pour des traitement des données très volumineux vous pouvez installer le produit on-premise sur une infrastructure adapté pour faire le traitement à large échelle. Le traitement peut se paralléliser pour réduire notablement les temps de traitement.

Quatre étapes seront nécessaires:

Étape 1. Base de données

Vous pouvez vous lire directement à partir d'une base de données et préparer les requêtes à faire à l'API de traitement. Assurez vous d'avoir au minimum le nom, prénom et date de naissance pour faire le rapprochement. Pour garantir plus la fiabilité du rapprochement et éviter les homonymes parfaits (même date de naissance et même prénom), il est recommandé d'utiliser des données sur le lieu de naissance.




fichier

Étape 2. Déployer sur une architecture conséquent

Pour accélérer le traitement, il est conseillé de déployer sur une architecture conséquent.

Il est possible d'optimiser la mémoire pris par elasticsearch, il est recommandé de donner la moitie de la RAM du serveur. Sur le code du backend ça correspond à la variable `ES_MEM`

L'API peut découper l'input en chunks et les traiter de façon concurrente. Sur le code du backend ça correspond au paramètre `BACKEND_CONCURRENCY_JOB` et `BACKEND_CONCURRENCY_CHUNKS`.

traitement des chunk

Étape 3. Request the API

Paralleliser les requêtes pour profiter au maximum des ressources de la machine. Nous proposons d'utiliser de librairies comme multiprocessing pour le traitement.

Chaque thread va faire la requete et enregistrer le resultat dans une base de données.