Numérisation ROC
Qu'est-ce que la numérisation ROC ?
ROC (reconnaissance optique de caractères) est une technologie qui convertit le texte présent dans des images et des documents numérisés en texte consultable.
Cela signifie que des documents tels que :
- les PDF numérisés
- les fichiers image (par ex. JPG, PNG)
- les PDF basés sur des images
peuvent être indexés et apparaître dans les résultats de recherche, tout comme les documents standard au format texte.
Fonctionnement de ROC dans la salle de données
Dans Admincontrol, la numérisation par ROC fait partie intégrante de l’expérience de recherche optimisée par IA.
Lorsque des documents sont téléchargés :
- le système détecte les fichiers contenant du texte sous forme d’image
- Le traitement ROC extrait le texte de ces images
- Le texte extrait est ajouté à l'index de recherche
- Le document devient entièrement consultable à l'aide de mots-clés ou de la recherche par IA
Cela permet aux utilisateurs de :
- repérer des termes, des chiffres ou des clauses spécifiques sans avoir à ouvrir chaque fichier
- effectuer des recherches dans tous les documents, quel que soit leur format
- travailler plus efficacement lors des procédures de due diligence
Quels types de fichiers sont pris en charge ?
La reconnaissance optique de caractères (ROC) est automatiquement appliquée aux :
- documents numérisés
- les fichiers image (par exemple, JPG, PNG)
- les fichiers PDF contenant des images au lieu de texte sélectionnable
Une fois traités, ces fichiers se comportent comme des documents standard lors de la recherche.
Quand ROC est-il appliqué ?
La numérisation avec ROC est effectuée :
- automatiquement lors du téléchargement d’un document
- lorsque la recherche basée sur l’IA est activée dans le portail
- uniquement pour les fichiers nouvellement téléchargés.
Seuls les documents téléchargés après l'activation de lROC seront traités. Les documents existants ne sont pas numérisés rétroactivement.
.png?width=283&height=51&name=Admincontrol_Logo-RGB_Reverse%20(1).png)