Table des matières

Mission 7 - Dictionnaires

Phase de démarrage

Phase de réalisation

Questions complémentaires

Mission 7 : Dictionnaires

Introduction

Le but de cette mission est de développer un outil qui permet un utilisateur de chercher répétitivement dans un fichier de texte: pour des mots donnés, l'outil va imprimer les phrases dans lesquelles tous les mots donnés sont présents. Pour assurer que l'outil ne prend pas trop de temps pour déterminer ces phrases, on va construire un index des mots présents dans les phrases des documents. On utilisera les dictionnaires pour stocker l'index.

Objectifs

Objectifs individuels

A l’issue de ce problème, chacun d’entre vous sera en mesure d’exploiter les notions suivantes :

dictionnaires
fichiers

Préparation, étude et apprentissage

La matière relative à cette mission est décrite dans les sections suivantes du syllabus en ligne :

Dictionaries

Questionnaire de démarrage

Questions à choix multiple

Les questions à choix multiples de cette mission sont également accessibles en ligne depuis https://inginious.info.ucl.ac.be/course/LSINF1101-PYTHON/Session7_QCM

Question 1

Considérez le code suivant:

codes = {"Bruxelles" : [1000,1020,1030], "Louvain-la-Neuve" : [1348], "Wavre": [1300,1301]}

Les morceaux de code ci-dessous sont executés chacun après ce code. Décrivez ce qui se passe pour chacun des cas.

On exécute :

print(codes["Bruxelles"])

On exécute :

print(codes["Mons"])

On exécute :

print(codes[1000])

On exécute :

print(codes.get("Mons",[]))

On exécute:

codes["Liege"] = [4000]
    print(codes)

On exécute:

codes["Bruxelles"].append(1040)
    print(codes)

On exécute:

codes.get("Bruxelles",[]).append(1050)
    print(codes)

On exécute:

codes.get("Arlon",[]).append(8362)
    print(codes)

On exécute:

if "Bruxelles" in codes:
      print("Found!")
else:
  print("Not found!")

On exécute:

if 1000 in codes:
      print("Found!")
else:
  print("Not found!")

On exécute:

for x in codes:
      print(x)

On exécute:

for x in codes:
      print(codes[x])

On exécute:

for x in codes.items():
      print(x)

On exécute:

for x, y in codes.items():
      y = y + [2000]
    print(codes)

On exécute:

for x, y in codes.items():
      y.append(2000)
    print(codes)

On exécute:

for x, y in codes.items():
      x = x + "*"
    print(codes)

Question 2

Donnée sont

une matrice representée en utilisant des listes imbriquées

une matrice representée en utilisant un dictionnaire, où les zéros ne sont pas stockées.

Par exemple,
l = [ [ 0, 2, 4 ], [ 4, 1, 0 ] ]
d = { (0,1): 2, (0,2): 4, (1,0): 4, (1,1): 1 }

Écrivez une fonction equal(l,d) qui détermine si d contient les même valeurs pour chaque élément: de l. (Nous permettons que d soit plus large que l.)

Question 3

Écrivez un outil qui fait la suivante:

l'outil lit un fichier text.txt, sépare chaque ligne en mots, et crée un dictionnaire avec, pour chaque mot, un compte du nombre d'occurrences de ce mot. On peut présumer que tous les mots sont en minuscules et qu'il n'y a pas de ponctuation.

l'outil demande à l'utilisateur de donner un mot, après lequel le programme retourne le nombre d'occurrences de ce mot.

Séparez le programme en fonctions, avec au moins - une fonction create_dictionary(name) pour lire le fichier name et créer le dictionnaire - une autre fonction pour demander les mots à l'utilisateur. Pour simplifier l'exercice, il n'est pas nécessaire de traiter les erreurs.

Question 4

Donné une structure de données comme la suivante:

System Message: ERROR/3 (<string>, line 380)

Content block expected for the "code-block" directive; none found.

.. code-block:: python

l = [{"City": "Bruxelles", "Country": "Belgium"},: {"City": "Berlin", "Country": "Germany"}, {"City": "Paris", "Country": "France"}]

Écrivez une fonction get_country(l,name) qui, pour le nom d'une ville name et une structure de données l du format illustré dans l'exemple, retourne le nom du pays dans lequel la ville est localisée. La fonction retourne None si la ville n'est pas dans l.

Mission 7

Le but de cette mission est de développer un outil qui permet un utilisateur de chercher répétitivement dans un fichier de texte.

Il faut implementer les fonctions suivantes, et les utiliser dans l'outil final:

readfile(filename): cette fonction retourne une liste des lignes dans le fichier avec le nom filename. Tous les caractères de chaque ligne doivent être inclus.
get_words(line): pour une chaîne de caractères donnée, cette fonction retourne une liste des mots dans la chaîne, en minuscules, et sans ponctuation. Par exemple, pour la ligne
```
Turmoil has engulfed the Galactic Republic.
```
Le résultat est
```
["turmoil", "has", "engulfed", "the", "galactic", "republic"]
```
create_index(filename) crée un index pour le fichier avec nom filename. En général, un index pour une texte est une structure de données qui permet de chercher rapidement dans cette texte. Dans cette mission, l'index doit se composer de dictionnaires imbriqués: le premier dictionnaire permit de chercher un mot; pour chaque mot, on utilise un dictionnaire imbriqué pour chercher le nombre d'occurrences dans une ligne. Par exemple, pour ces lignes:
```
While the Congress of the Republic endlessly debates
this alarming chain of events, the Supreme Chancellor has
secretly dispatched two Jedi Knights.
```
Une partie de notre index, representée comme dictionnaire, est:
```
{"while": {0: 1}, "the": {0: 2, 1: 1}, "congress": {0: 1}, \
 "of": {0: 1, 1: 1}, "republic": {0: 1}, ... , "jedi": {2: 1}, ...}
```
Ici, le dictionnaire contient tous les mots; dans le dictionnaire, "the" : {0: 2, 1: 1} indique que le mot the est associé à deux lignes; il y a deux occurrences dans la ligne avec index 0 et une occurrence dans la ligne avec index 1.

La fonction doit retourner les dictionnaires imbriqués.
get_lines(words,index) retourne les identifiants des lignes qui contiennent tous les mots spécifiés dans la liste words, en utilisant le dictionnaire contenant l'index index. Par exemple, pour la liste ["the","republic"] la fonction doit retourner la liste [0] (puisque la première ligne contient les deux mots). Plusieurs approches sont possible pour faire cette calculation. Une possibilité est de traverser les occurences du premier mot, et de vérifier si on trouve dans ces lignes aussi les autre mots, en utilisant l'index de chaque mot. Il est recommandé de créer des fonctions supplémentaires.

Après avoir demandé le nom d'un fichier, dans une boucle infinie, l'interface doit demander à l'utilisateur de donner une liste de mots en utilisant la fonction input; chaque fois, l'outil cherche les lignes dans lequelles tous les mots spécifiés sont présents, et imprime ces lignes.

Pour vous aider, vous trouverez un exemple de text episodeIV_dialogues.txt.

Pour toutes les fonctions spécifiées ci-dessus, il faut écrire des tests pour vérifier que les fonctions sont correctes. Puisque vous devez tester une fonction qui lit un fichier, créez des petits fichiers pour tester cette fonction; il faut soumettre ces fichiers de texte aussi.

L'outil doit bien traiter les erreurs (un fichier qui n'existe pas, on cherche un mot qui n'existe pas, ...)

Dans cette mission, nous attendons que vous faites un effort pour produire de code qui est bien lisible. Faites attention que:

il y a des commentaires?

il y a des pre/post conditions, ou un docstring de style Google?

les variables ont des noms bien comprehensibles?

les fonctions ne sont pas trop longues?

vous pouvez suivre la logique du programme?

Remise de votre solution

Pour cette mission, vous devez soumettre:

un fichier search.py avec tout votre code
un fichier test.py avec les tests
2 petits fichiers de texte que vous utilisez dans vos tests
un fichier README

Questions complémentaires

Lors de la dernière session du club de duel, les sabliers comptant les points de chaque maison ont été détruits même un reparo n'a rien pu faire et la célébration de la Coupe des Quatre Maisons arrive à grands pas!

Heureusement, Rusard, qui ne fait pas confiance à la magie, a gardé les comptes de tous les accomplissements perpétrés par les étudiants. Il vous a fourni un dictionnaire associant chaque élève à sa maison et un parchemin avec tous leurs gains.

La liste des scores est donnée dans un fichier. Le contenu de ce fichier suit le format suivant :

Lignes: student_name points

Merci de retourner le nom de la maison gagnante, dans le cas d'un ex-aequo : retournez une liste des meilleures maisons.

S'il y a une erreur, levez une exception.

Implémentez la fonction winning_house(scroll) en Python.

Vous avez déjà la liste des étudiants triés par maison à votre disposition :

students = {'gryffindor': ['Harry', 'Hermione', 'Ron', 'Ginny', 'Fred', ' Georges', 'Neville'],
            'ravenclaw': ['Cho', 'Luna', 'Sybill', 'Marcus', 'Marietta', 'Terry', 'Penelope'],
            'hufflepuff': ['Pomona', 'Zacharias', 'Teddy', 'Cedric', 'Nymphadora', 'Newton', 'Justin'],
            'slytherin': ['Malfoy', 'Severus', 'Dolores', 'Horace', 'Blaise', 'Pansy', 'Bellatrix']}

Anonymous a été épaté par votre travail et a décidé de vous faire confiance pour l'analyse de toutes les données qu'ils ont intercepté.

Avec l'aide des deux fonctions que vous avez déjà créées, vous allez transformer chaque ligne de données en un pattern et extraire le nombre d’occurrences présentes dans le fichier.

Créez une fonction collect(data) pour lire le fichier, extraire les patterns et les enregistrer dans un dictionnaire avec leurs occurrences.

S'il y a une erreur, levez une exception.

Rappel:

extract(code): donne la nature de chaque élément d'une string.
treatment(code): transforme une suite d'éléments en un pattern.

Après la troisième guerre mondiale, la planète est laissée dans un état post-apocalyptique. Vous êtes l'un des seuls survivants et vous cherchez un peu de compagnie. Mais vous ne pouvez pas trop swiper sur Tinder vu que le réseau est mort..

Heureusement votre meilleur ami est avec vous... Votre ordinateur (oui, ça craint!) Avec son aide, aide vous allez pouvoir entrer en contact avec le reste du monde. Puisque vous avez un dictionnaire Morse enregistré sur votre machine (Matt Damon avait bien une table ASCII avec lui dans "Seul sur Mars" , donc c'est pas si absurde), vous allez l'utiliser pour traduire votre texte et l'émettre grâce à une vieille radio.

Notez que si vous devez essayer de traduire un caractère non-enregistré, vous devez lever une exception TypeError.

Implémentez la fonction translate(data) en Python.

Avec data comme chaine de caractère que vous voulez encoder en Morse et un dictionnaire morse utile pour faire les traductions.

morse = {
"A" : ".-",
"B" : "-...",
"C" : "-.-.",
"D" : "-..",
"E" : ".",
...
}

Votre tinder par radio a bien fonctionné et vous pouvez désormais discuter avec beaucoup de gens intéressants. Encore plus intéressant, une merveilleuse créature vient de vous contacter et est parvenue à vous envoyer une image à travers des points et des espaces (Dieu bénisse le code Morse).

Vous voulez vraiment lui parler ainsi qu'à vos autres futurs matchs mais vous venez de réaliser que vous n'avez jamais bien étudier les langues étrangères. Heureusement, vous avez des dictionnaires sur votre ordinateur (qui a apparemment téléchargé l'entierté d'internet). Vous devez simplement coder un traducteur!

Notez que si un mot que vous voulez traduire n'est pas dans le dictionnaire, vous devez laisser le mot dans son langage original.

Exemple:

"I'm fond of Dean" deviendrait en français avec le dictionnaire fr: "je suis amoureux de doyen" Notez qu'on ne s'attend pas à ce que vous donniez des traductions exactes mais bien une traduction mot par mot. De plus, les clés sont enregistrées en minuscules dans le dictionnaire.

Implémentez la fonction translate(data, lan) en Python.

Avec data comme la chaine de caractère que vous souhaiter traduire et les dictionnaires nommés selon lan utilisable pour faire les traductions dans le langage ciblé.

Vous et vos amis vous prêtez souvent de l'argent. Plutôt que d'utiliser une application spéciale pour se rappeler qui doit combien d'argent et à qui, vous décidez de faire votre propre programme python pour réaliser cette tâche.

Spécifiquement, vous aimeriez pouvoir:

dire qui doit combien d'argent à qui;
changer les comptes quand quelqu'un rembourse ou prête de l'argent à un autre;
ajouter une personne qui emprunte et/ou rembourse de l'argent;
calcule la somme de tout l'argent emprunté à ce moment précis.

Notez que de l'argent prêté à quelqu'un doit être emprunté. En d'autres termes, si Woody a prêté 3€ à Buzz, votre programme devrait dire que Buzz doit 3€ à Woody et que Woody doit -3€ à Buzz.

Pour faire cela, vous allez utiliser un dictionnaire de dictionnaires appelé borrowed_money, indexé par le nom des personnes (comme des strings). Le premier index sera le nom de "l'emprunteur"; le deuxième, celui du "prêteur".

Par exemple, si Woody a prêté 3€ à Buzz, votre dictionnaire devrait être comme suit:

borrowed_money[\"Buzz\"][\"Woody\"] == 3  # Lisez \"Buzz doit 3€ à Woody\"
borrowed_money[\"Woody\"][\"Buzz\"] == -3

Par conséquent, vous pouvez obtenir un dictionnaire qui contient tout l'argent que Buzz emprunte:

borrowed_money[\"Buzz\"] == {\"Woody\": 3, \"Hamm\": 60, \"Rex\": -5}

Faites une fonction give_money(borrowed_money, from_person, to_person, amount) qui sera appelée quand from_person donne amount € à to_person (soit parce que from_person prête de l'argent to_person, ou bien parce qu'il rembourse de l'argent qu'il a emprunté). Si une des deux personnes n'est pas déjà une clé dans le dictionnaire, elle doit y être ajoutée. Vous devez lever une ValueError dans le cas où quelqu'un essaye de se donner de l'argent à lui-même.

Faites une autre fonction total_money_borrowed(borrowed_money) qui retourne le montant total d'argent emprunté en ce moment (c'est-à-dire, la somme des montants positifs se trouvant dans le dictionnaire).

Note: vous devez lever une ValueError``*si l'un des arguments passé à ces fonctions est invalide (c'est-à-dire si les noms ne sont pas de strings, si* ``borrowed_money n'est pas un dictionnaire ou si le montant d'argent n'est pas un integer ou un float). Vous pouvez tester si une variable est du bon type des manières suivantes :

variable = 5
type(variable) == int  # retourne True
# OR
isinstance(variable, int)  # retourne True

Enfin, implémentez l'exemple où Mark prête 2 000 000 € à Bill et Steve, Serguei prête 5 000 000 € à Bill, Bill prête 6 000 000 € à Larry et enfin, Larry prête 5,5 € à Linus. Ensuite, Steve rembourse Mark. Utilisez la variable borrowed_money.