This event has passed.

Apprentissage par renforcement (direct et inverse) pour les systèmes interactifs by Olivier Pietquin

Name: Apprentissage par renforcement (direct et inverse) pour les systèmes interactifs by Olivier Pietquin
Start: 2013-12-05T10:00:00+01:00
End: 2013-12-05T12:00:00+01:00
Location: LIA

December/05/2013 @ 10:00 - 12:00

Apprentissage par renforcement (direct et inverse) pour les systèmes interactifs by Olivier Pietquin (SequeL team, University Lille 1, LIFL CNRS UMR 8022, INRIA Lille)

L'apprentissage par renforcement est une catégorie d'apprentissage automatique qui se différencie des autres par le fait qu'elle a pour objectif l'optimisation d'une séquence de décisions, prenant en compte l'aspect temporel et surtout dirigé par un but du comportement. Cette méthode, d'inspiration biologique, est fondée sur l'accumulation par la machine de récompenses numériques distribuées après chaque décision. Le comportement appris est celui qui maximise, sur le long terme, l'accumulation de récompenses, menant à une séquence de décisions optimale. Ce paradigme d'apprentissage a été introduit dans le domaine des systèmes de dialogue parlé il y a une quinzaine d'année afin d'optimiser les stratégies d'interaction. En effet, ce type de système doit prendre des décisions sur les actes dialogiques à produire à chaque tour d'interaction avec un utilisateur. Ces décisions doivent mener à une interaction la plus naturelle et efficace possible alors que les informations recueillies sont entachées d'erreurs (due à la reconnaissance et la compréhension imparfaites du langage parlé). Il est difficile de définir formellement ce que serait une interaction parfaite, en revanche un utilisateur peut fournir une évaluation a posteriori de cette interaction servant de signal de récompense. Toutefois, un certain nombre de problèmes subsistent encore aujourd'hui pour faire un usage performant de ces méthodes dans le cadre de l'interaction homme-machine. Un de ces problèmes est la définition de la récompense à fournir à la machine pour la voir se comporter de manière naturelle. En effet, l'utilisation de la satisfaction de l'utilisateur a montré quelques limites et est difficile à prédire automatiquement. Dans cet exposé, nous présenterons le paradigme de l'apprentissage par renforcement inverse, visant à estimer la fonction de récompense optimisée par un opérateur humain (supposé optimal) et à la transférer à la machine pour obtenir un comportement similaire dans une tâche d'interaction.

Details

Date: December/05/2013
Time:
10:00 - 12:00
Event Category: Seminars

Venue

LIA
chemin des Meinajariès
Avignon, 84911 France + Google Map
View Venue Website