# Documentation

Voir : http://scikit-learn.org/stable/modules/feature_extraction.html

# Importation des librairies mathématiques

In [None]:
import numpy as np
import scipy.sparse as sp
from pprint import pprint

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer


# Téléchargement des données

In [None]:
newsgroups_train = fetch_20newsgroups(subset='train',remove=('headers', 'footers', 'quotes'))

### Nombre de fichiers

In [None]:
newsgroups_train.filenames

In [None]:
newsgroups_train.filenames.shape

### Noms des fichiers

In [None]:
print newsgroups_train.filenames[0]

### Affichage du premier message

In [None]:
print newsgroups_train.data[0]

### Catégorie du premier message

In [None]:
print newsgroups_train.target[0]

In [None]:
print newsgroups_train.target_names[7]

### Liste des catégories

In [None]:
print newsgroups_train.target_names

# 2. Vectorisation (comptage de termes)

### Corpus

In [None]:
corpus = newsgroups_train.data

In [None]:
len(corpus)

### Vectoriseur

In [None]:
vectoriseur = CountVectorizer()

### Analyse

In [None]:
vectoriseur.fit(corpus)

### Dictionnaire des indices

In [None]:
indice = vectoriseur.vocabulary_

In [None]:
indice['car']

### Liste des termes

In [None]:
terme = vectoriseur.get_feature_names()

In [None]:
terme[25775]

## <font color='purple'>Exercice 1

<font color='purple'>
Afficher les 10 termes qui suivent le terme 'home' ainsi que ceux qui suivent le terme 'car' dans la liste de vocabulaire.
</font>

### Transformation texte vers vecteur (matrice creuse)

In [None]:
texte = [corpus[0]]

In [None]:
print texte

In [None]:
vect = vectoriseur.transform(texte)

In [None]:
print vect

In [None]:
vue = sp.find(vect)

In [None]:
print vue

## <font color='purple'>Exercice 2

Trouvez à partir du vecteur vue :
  * le terme le plus fréquent dans le message
  * le nombre d'apparitions du terme 'car' 



</font>

### Vectorisation du corpus complet

In [None]:
X_comptage = vectoriseur.transform(corpus)

In [None]:
print X_comptage

X est une matrice creuse contenant 11314 lignes, chaque ligne correspondant à un vecteur texte

## <font color='purple'>Exercice 3

<font color='purple'>
Combien de textes contiennent le terme 'home'? en deduire le score 'term frequency'
</font>

## <font color='purple'>Exercice 4

<font color='purple'>
Affichez un message du corpus contenant le terme 'platypus'
</font>

## <font color='purple'>Exercice 5

<font color='purple'>
Vectorisez maintenant un texte anglophone de votre choix et affichez le vecteur résultant</font>

# 3. Transformation TF-IDF

In [None]:
transformeur = TfidfTransformer(norm=None, smooth_idf=False)

### Calcul IDF

In [None]:
transformeur.fit(X_comptage)

In [None]:
idf = transformeur.idf_

In [None]:
print idf

## <font color='purple'>Exercice 6

<font color='purple'>
Affichez le score IDF de 'the', 'car', 'spherical', 'platypus' </font>

### Vectorisation TF-IDF du premier message du corpus

In [None]:
vecteur_comptage = X_comptage[0,:]

In [None]:
vecteur_tfidf = transformeur.transform(vecteur_comptage)

In [None]:
print vecteur_tfidf

## <font color='purple'>Exercice 7

<font color='purple'>
Affichez les termes dont le score TF-IDF est superieur à 8 </font>

### Norme du vecteur

In [None]:
np.linalg.norm(vecteur_tfidf.toarray())

### Vectorisation TF-IDF du corpus

In [None]:
X = transformeur.transform(X_comptage)

### Produit scalaire entre deux vecteurs du corpus (X[0,:] et X[1,:])

In [None]:
print X[0]

### Fonction produit scalaire

In [None]:
def prod(x,y):
    return x.dot(y.T).toarray()[0][0]

### Fonction Similarité

In [None]:
def sim(x,y):
    num = prod(x,y)
    den1 = np.sqrt(prod(x,x))
    den2 = np.sqrt(prod(y,y))
    return num / (den1 * den2)    

In [None]:
sim(X[0,:],X[1,:])

## <font color='purple'>Problème

<font color='purple'>
Ecrivez et testez une fonction qui prend une requête de l'utilisateur sous la forme d'une liste de mots-clés (en anglais) et qui retourne la liste des 10 textes de la base les plus similaires à la requête par ordre décroissant de similarité.
</font>