
La nouvelle est tombée hier dans la nuit. Netflix offre 1M$ à celui qui améliorera son système de recommandation de 10%. Voir mon post précedent qui couvre l’annonce de Netflix.
Depuis j’ai eu le temps de décanter et de réflechir au pourquoi du comment… voici donc une petite analyse de la proposition du Netflix Prize.
Le problème des recommandations est complexe et une mauvaise proposition est très disqualificatrice. Netflix a plusieurs problèmes de recommandation dont voici un example :
“I liked Finding Nemo
and was deluged with Disney” Source: Hackingnetflix
Update: à lire absolument le post de Chris Anderson qui pose de bonnes questions et donne le lien vers une présentation de Jim Bennett qui est très intéressante.
Cette note a été fortement retouchée pour corriger les erreurs dues à la fatigue nocturne.
Afin de rendre lisible mon analyse je l’ai segmenté en plusieurs parties.
1) Cadeau:
Pour permettre à tous de démontrer la qualité de leur algorithme et prouver que la barre des 10% est franchie, >Netflix met à la disposition de la communauté des chercheurs un extract de leur base de données.
- 100 000 000 notes (sur un total de 1,4 milliard soit 7,1%)
- sur un échantillon de 17 770 films (sur un peu plus de 65 000 dans tout le catalogue)
- sur un échantillon de 480 000 profils (sur 5 Millions d’abonnés actifs soit un historique de 6 à 10 Millions de profils)
= un nombre moyen de note légèrement supérieur à 200 par profil avec des films notés en moyenne 5 000 fois. C’est un très beau "dataset". A titre indicatif la communauté des chercheurs disposait de 2 bases libres de 3 et 5 millions de notes uniquement (MovieLens & Eachmovie qui n’est plus officiellement disponible depuis 1997)
2) Régles:
Soumettre ses résultats et pour être nominé soumettre son code en anglais. Je pense que cela ne nécessite pas de commentaires. ;-). Visiblement l’équipe gagnante aura toujours la possibilité de vendre sa technologie sous licence.
3) Evaluations:
Il a fallu environ 6 ans pour faire progresser le collaborative filtering d’un peu plus de 10% selon le critère utilisé par Netflix pour évaluer la performance (RMSE & Monte carlo).
[Il faudra que je vérifie les dates et les performances mais cela va me
prendre un peu de temps]. D’ailleurs le concours est ouvert pour 5 ans
et Netflix annonce la couleur : "C’est difficile !".
3)Objectifs : là cela commence a être plus complexe
- A première vue on pourrait se dire améliorer l’algorithme. Mais c’est là ou cela coince; je traiterais donc ce point en dernier.
- Découvrir les talents de demain et stimuler un segment de recherche peu développé et qui fait cruellement défaut aux grands marchands du web (J’espere que l’industrie du e-commerce dira un grand merci à Netflix)
- Se faire une très très belle opération de PR a peu de frais (le prix n’est pas encore gagné !) en se parant d’une image bien loin de celle de marchand logisticien tout en fleurtant avec une image d’innovation en creative commons.
Revenons plus en détail sur ces points :
RH et Talent Management
Cette offre va créer des vocations, c’est a peu près certains. L’objectif principal de Netflix est donc de se mettre au centre des enjeux de recherche en collaborative filtering.
Mais de manière beaucoup plus pragmatique, il semble qu’il s’agisse de trouver un remplaçant à celui qui a occupé le poste de "Director of Product Management for Ratings & Recommendations" en 2005. L’ont ils trouvé ? Vous pouvez télécharger l’offre d’emploi parue sur craiglist en décembre dernier (en pdf). C’est très instructif car Netflix y expose les vrais enjeux du poste… A LIRE ABSOLUMENT.
Il est à noter que Greg Linden, qui occupait le poste similaire chez Amazon, a lui aussi quitté sa société pour se lancer dans Findory (ce qui dénote d’une volonté de faire mieux et différemment).
Donc Netflix communique sur son engagement pour la recherche pure. D’ailleurs le Netflix Prize ne pose pas de conditions de scalability aux participants. C’est beau l’altruisme (la méthode sera publiée, mais pas le code).
Si l’on accepte l’idée que les vrais talents se lancent par leur propre moyen,
on arrive à la conclusion que les talents qui vons participer seront plutôt dans des pays ou le potentiel de développement d’une société sur ce segment est assez peu probable (il suffit d’écouter Slashdot & GenuineVC voir même Techdirt sur un autre registre) … Russie, Asie …. Europe de l’Est …. en tout cas des coins où l’on aime les mathématiques et qui probablement engrangent des Médailles Fields … la France ?
Revenons au problème le plus intéressant : l’amélioration de l’algorithme.
La question que je me pose concerne la méthode et du coup la philosophie de cette nouvelle méthode de R&D. Il s’agit ici d’outsourcer la R sur la base d’un concours. Mais à la différence des Millenium Prize Problems , eux aussi dotés de 1M$, il ne s’agit pas ici de résoudre, c’est à dire de trouver une solution, mais simplement d’obtenir un résultat, une performance incrémental de 10% en gardant un modèle qui lutte pour progresser depuis plus de 15 ans. C’est là on je trouve que l’analyse de Biesel est limite et ne démontre pas une bonne perception de ce qu’est une innovation.
En limitant la recherche à une méthode (le collaborative filtering et a priori uniquement la partie item/item) on risque pas de trouver un algorithme "disruptif".
Alors que sur slashdot [dans les commentaires] on parle déjà de Movie Genome Project (à l’instar du génome musical de Pandora) ou bien de tagging (qui pourrait s’apparenter aux moods de IMDB) sur techcrunch le content based est totalement évacué du Netflix Prize.
Du coup ne s’agit-il pas sans pour autant démotiver les chercheurs
d’annoncer discrètement que leur algorithme est à la pointe et ne sera
pas dépassé avant longtemps ? Une manière de démotiver les start-up
concurrentes comme tente de le souligner David Biesel
"In reality, what this move does is call into question the viability of
startups out there working on personalization and recommendation
systems.[...] if you’re a genius who can compete
“with 15 years of really smart people banging away at the problem” and
it’s only worth $1M to you, then what does it say for everyone else –
individuals and companies - working on that very same problem?"
Je conclurais donc en disant que cette méthode d’outsourcing de R&D ne me semble pas être propice à un changement de paradigme. Il s’agit d’un très beau coup de marketing, une idée de RH excellente, une manière de dynamiser son image… cela vaut surement bien plus qu’un million mais ce n’est pas de cette manière que Netflix va réellement résoudre le problème. Le chantier me semble plus qu’ouvert !
Notes et dédicaces: mon père m’a offert au cours des années un petit précis de découverte, que l’on pourrait qualifier de "découverte par l’attention" à l’instar des chromosomes ou du double vitrage ….. ou bien encore des post-it (si quelqu"un a des liens pour des pages qui racontent ces découvertes que je connais bien je serais heureux de les rajouter) J’en profite donc pour le remercier ainsi que mon arrière grand-père que je n’ai pas connu mais qui occupe une place importante dans ma famille : Lépine.








October 5th, 2006 at 2:32 pm
Bonjour Raphaël,
j’ai bien reçu votre message. Je suis ravie que l’une de mes lentilles skidoo vous ai été utile pour la rédaction de votre article. … Et moi j’ai trouvé sur votre blog, matière à réflexion sur identité 2.0.
Voir ma note
http://www.ko-evolution.com/Aeroom/index.php?action=article&numero=122.
Bien cordialement
Brigitte Roujol
January 8th, 2007 at 9:46 pm
j’aimerais avoir des documents concernant flickr.com car je n’arrive pas à comprendre sa philosophie.