Le renforcement.
Les méthodes acteurs-critiques.

Le renforcement est une technique d'optimisation dynamique stochastique.
On parle aussi de méthode acteur, de méthode critique, ou de méthode acteur-critique.
Basée sur les simulations, elle se développe rapidement par des succès certains sur des problèmes
difficiles à traiter par programmation dynamique standard.
Points forts:
- la capacité à travailler en grande dimension,
- l'adaptativité, ce qui permet en particulier l'utilisation dans des cadres dynamiques multi-agents ,
- la combinaison aisée avec des systèmes d'extrapolation ( réseaux neuronaux, SVM...),
- la facilité de prise en compte de critère de risques.
Applications possibles :
- gestion de chaînes d'approvisionnement,
- contrôle (de vitesse),
- stabilisation (température, position),
- adaptativité pour les contrôleurs PID,
- robotique (gestion de démarche, position précise de bras robot),
- maintenance,
- gestion d'escadres d'ascenseurs,
- planification,
- jeux (backgammon notamment, premier grand succès historiquement).
Les options/algorithmes sont très nombreux:
- TD(0), TD(1) et TD(lambda),
- Q-learning,
- module d'extrapolation: tables finies, régressions linéaires, réseaux neuronaux, support vector machines, LP-machines, Q-SVM, réseaux RBF, etc.
Le renforcement avec module d'extrapolation de type neuronal, appelé programmation neurodynamique, est à rapprocher du neurocontrôle.
Pour m'écrire