Soutenance de thèse de Madame Nezha CHERRABI EL ALAOUI

Le Bureau des Études Doctorales

a le plaisir de vous informer que


Madame Nezha CHERRABI EL ALAOUI

doctorante au laboratoire « Institut méditerranéen des Sciences de l’Information et de la Communication » (IMSIC) ,
rattachée à l’école doctorale 509 « sociétés méditerranéennes et sciences humaines »,
sous la direction de Monsieur David Reymond, maître de conférences-HDR
et Monsieur Jean-Max Noyer, professeur des universités émérite à l’université de Toulon,

soutiendra publiquement sa thèse en vue de l’obtention du doctorat en Sciences de l’Information et de la Communication, sur le thème suivant :

« Un prisme sémantique des brevets par thésaurus interposés : positionnement,
essais et applications »

vendredi 11 décembre 2020 à 10h00 à l’université de Toulon, campus Porte d’Italie, bâtiment BAOU, salle BA 510
et pour le public par visioconférence
dont le lien de connexion est accessible sur demande auprès de la doctorante
(nezha-cherrabi-el-alaoui etud.univ-tln.fr)

Le nombre de connexion sera limité

devant un jury composé de :

Monsieur Imad Saleh, professeur des universités à l’université de Paris 8, Dépt. Hypermédia, rapporteur,
Monsieur Lamirel Jean-Charles, maître de conférences-HDR à l’IUT Robert Schuman à Strabourg, rapporteur,
Madame Cherifa Boukacem, professeure des universités à l’université Lyon 1, Dépt. Informatique, suffragant,
Madame Favier Laurence, professeure des universités à l’université de Lille 3, Laboratoire GERiiCo, suffragant,
Monsieur Noyer Jean-Max, professeur des universités émérite à l’université de Toulon, co-directeur de thèse ,
Monsieur David Reymond, maître de conférences-HDR à l’université de Toulon, directeur de thèse.

Résumé

Nous vivons dans une société caractérisée par une obésité des données non raffinées disponibles dans différentes bases de données.
Un écosystème où règne de l’information polluée qui empêche la transformation d’un nombre d’informations en connaissances productives, dans ce sens les chercheurs dans le domaine de la recherche de l’information ont toujours insisté sur l’usage de l’information pertinente.
Historiquement, la maitrise de l’information a été toujours l’enjeu de l’humanité
pour conserver sa survie, à présent l’information doit être d’un degré de fiabilité
suffisant pour éviter de polluer les connaissances. Le brevet est une source multidimensionnelle,
source de premier plan en matière d’information.
L’analyse instrumentée des données brevets devient une nécessité et constitue, pour les entreprises, les industriels et l’État, une ressource de mesure la plus efficace de l’activité inventive, pour une approche objective. La recherche dans les bases
de données brevets est une tâche complexe pour plusieurs raisons, le nombre de
brevets existants est très élevé et augmente rapidement, la recherche par mot clé
ne parvient pas à des résultats satisfaisants, les grandes entreprises ont recours à
des professionnels capables de faire des recherches ciblées et efficaces, ce qui n’est
pas souvent le cas pour les chercheurs universitaires, étudiants et d’autres profils.
D’où la nécessité de l’intervention de la machine pour aider les experts et les non
experts à mieux exploiter l’information en matière de brevets et démocratiser
son usage. Ainsi, nous proposons une méthode d’accompagnement de l’usager à
l’utilisation de cette documentation.
Une voie qui s’appuie sur un référentiel normalisé des principes techniques imaginés
par l’homme eux-mêmes décrits par des ensembles terminologiques que nous
combinons avec des outils de traitement automatique des langues (TAL) pour
s’absoudre des formes rédactionnelles des brevets et pour étendre les vocabulaires
associés.
Mots clés :
Analyse des données, Triz, P2N, TAL, Datavisualisation, annotation
sémantique, apprentissage automatique, brevets

Abstract
A semantic prism of patents by interposed thesaurus : positioning,
tests and applications

We live in an information society, characterized by an explosion of
data available on the web and in different databases. Researchers in the field of
information stress the need for relevant information.
Information literacy has always been the challenge for humanity to maintain its
survival, now information must be of a sufficient degree of reliability to avoid
polluting knowledge. The patent is a multidimensional source, a leading source of
information.
The instrumented analysis of patent data is becoming a necessity and constitutes,
for companies, industrialists and the State, a resource for the most efficient
measurement of inventive activity, for an objective approach.
Searching patent databases is a complex task for several reasons, the number
of existing patents is very high and increasing rapidly, keyword searches do not
yield satisfactory results, large companies use professionals capable of performing
targeted and efficient searches, which is often not the case for university researchers,
students and other profiles.
Hence the need for the machine to help experts and non-experts alike to better
exploit patent information.
Thus, we propose a method to accompany the user in the use of this documentation.
This method is based on a standardized reference system of man-made technical
principles, which are themselves described by terminology sets that we combine
with natural language processing (NLP) tools to dispense with the editorial forms
of patents and to extend the associated vocabularies.

Keywords : data analysis, Triz, P2N, TAL, Datavisualisation, semantic
annotation, machine learning, patents