~~NOTOC~~ ====== Méthodes algorithmiques pour l'accès à l'information numérique (MAAIN) ====== ===== Description ===== La quantité d'information disponible sur internet et sa faible structuration rendent nécessaire des algorithmes efficaces pour trouver l'information pertinente, la comparer, la classer, etc. Ce module étudie les algorithmes au cœur des moteurs de recherche et des systèmes de recommandation. La théorie vue en cours est appliquée en TP pour créer un vrai moteur de recherche sur une quantité importante de pages web, une des difficultés étant de manipuler plusieurs giga-octets de données. ===== Syllabus ===== ==== Sujets centraux ==== - Structures de données pour les moteurs de recherche - Collecteur : schéma Mercator - Algorithme de hachage minimal - Mesures de fréquence et de pertinence (TF, IDF) - Pagerank - WAND - Algorithmes de recommandation ==== Sujets potentiellement traités ==== * Autres mesures de pertinence * Recherches booléennes dans des fichiers ===== Pré-requis ===== * Cours d'algorithmique (L2, L3 et M1) : * Parcours de graphes * Tris * Recherche dichotomique * Calcul matriciel * Cours de programmation (Java ou Python) : * Parsing efficace d'un grand fichier * Programmation efficace