Moteur de recherche, sémantique, thésaurus : ?

bonjour,

je cherche des pistes et des infos pour créer un moteur de recherche (ou utiliser un existant comme lucene) :

  • bien sûr il faut indexer full texte
  • il faudrait pouvoir chercher sur des termes synonymes…
  • il faudrait pouvoir générer des nuages de tags…

on tombe rapidement sur des notions de thésaurus, de stop words, recherche floue et cie

existe t il des projets de moteur sémantique ou à inférences ?
avez vous déjà reflechis/travaillé sur des problèmes de ce type ?

please H E L P
Edité le 10/06/2007 à 20:16

Je suis en train de lire un bouquin là dessus.
Si ça t’intéresse, la discipline qui traite de ces problèmes s’appelle l’architecture de l’information. Et google te donnera pas mal de liens. :slight_smile:

c le web 3.0 :wink:

merci

On a pas complètement migré vers le Web 2.0 qu’il y a déjà un Web 3! :ouch:

Sinon comme ça intuitivement, je partirait sur des types de recherche par mot clef et dont j’ai déjà entendu parler: la proximité des mot-clefs synonymes, consonnance, puis de là avoir des structure d’indexation et fonction de la littérature: (de simples hash, des B-Tree structure)

Mot-clef pour une 1ère recherche: full text index

mais à priori, vu la qualité du moteur Google, et la difficulté des concurrents à le copier, leur algo est surement bien préservé par Google :wink:
edit: ce que je veux dire par là, c’est qu’il y a surement de nombreux moyen pour indexer full-text, mais il ne faut pas être trop ambitieux face aux ténors :wink:
Edité le 11/06/2007 à 18:02

j’essaye pas d’être ambitieux j’essaye juste d’être signifiant…

indexer c’est plutôt facile mais ressortir un nuage de tags signifiant c’est déjà la galère et on se heurte vite à faire des choix dans les mots signifiants et ceux qui sont trop génériques… et à la fin reste plus grand chose lol

d’où le besoin de trouver un moteur sémantique capable de ressortir des concepts (tag) plutot qu’une indexation fulltext…

L’ambition c’est pas mal aussi, mais le problème n’est pas simple :wink:
De la sémantique? tu veux dire par là une recherche sur le sens plutôt que sur les mots? ça implique une structuration des données donnant la sémantique des données à indexer, c’est différent de l’indexation simplement sur les mots.
il y a un projet à l’inria, je ne sais pas ou ils en sont:
www-sop.inria.fr…

merKi

Dans le meme genre il y existe GREPER,
c’est un moteur de recherche communautaire (à anlayse morpho-syntaxique mais ca on le dit moins souvent)
fonctionnant sur le principe du QQOQCCP (les questions type: pourquoi comment ou quand qui combien…)

http://www.greper.com/images/logo.gif

Le moteur tourne avec un algo capable d’analyser non pas la sémantique mais la configuration de la requete
L’utilisateur peut donc soumettre au moteur une question du type : Qui a inventer Clubic ? ou encore Pourquoi le verre est transparent ?
et il lui retournera une eventuelle réponse apportée par les contributeurs ou par d’autres visiteurs anonymes

enfin je trouve le princpe sympa maintenant il faut voir les resultats de pertinence des réponses.

edit: ah oui j’oubliais… le lien www.Greper.com…
Edité le 03/07/2009 à 01:36