Analogies entre la neuropsychologie de la prise de décision et l’apprentissage par renforcement (reinforcement learning)

Depuis quelques décennies, les spécialistes des sciences cognitives étudient les aspects neuropsychologiques de la prise de décision.

Leurs études ne portent pas vraiment sur la qualité des raisonnements analytiques mis en œuvre pour produire des décisions stratégiques mais cherchent à mesurer les variations en matière de prise de risque, d’impulsivité.

Elles s’intéressent notamment au degré de prise en compte du risque, au degré d’aversion au risque, à la perte, au degré de recherche de gains importants, aux effets de la distance temporelle entre l’action et son résultat ou/et entre l’action et sa récompense.

Evidemment pour pouvoir mesurer ces paramètres, un dispositif expérimental simplifié est nécessaire. Pour réaliser leurs expérimentations en matière de prise de décision, les chercheurs utilisent souvent le « Iowa Gambling Task » (IGT).

Ce dispositif standard permet notamment de simuler à travers une séquence de paris, de jeux, des prises de décision susceptibles d’avoir cours dans la vie réelle. On doit la mise au point de ce modèle expérimental à Antoine Bechara, Antonio Damasio, Hanna Damasio et Steven Anderson qui, lorsqu’ils testèrent pour la première fois ce dispositif, étaient alors chercheurs à l’Université de l’Iowa.

Le plus souvent, c’est en utilisant l’IGT que des chercheurs tenteront d’évaluer les effets du stress, de certaines hormones, comme le cortisol ou les neurotransmetteurs (la sérotonine et la dopamine par exemple), sur certains aspects de la prise de décision.

Dans ce court article nous présenterons quelques tendances résultant d’études scientifiques ou de méta-analyses. Nous montrerons notamment que les niveaux des hormones et des neurotransmetteurs peuvent varier naturellement suivant le génotype et le sexe et artificiellement par la prise de médicaments destinés à réduire ou augmenter la production de ces hormones ou neurotransmetteurs ou à bloquer certains récepteurs.

Nous soulignerons quelques différences entre l’homme et la femme et exposerons succinctement les effets du cortisol, de la sérotonine et de la dopamine sur la prise de décision (decision making).

Nous évoquerons également les analogies avec les réseaux neuronaux utilisés dans le cadre du développement du « machine learning » ou du « deep machine learning » et en particulier avec la technique du renforcement de l’apprentissage (reinforcement learning) utilisé dans le domaine de l’intelligence artificielle.

GENOTYPE ET PHENOTYPE

Le génotype est le patrimoine génétique d’un individu particulier non observable de l’extérieur contrairement au phénotype qui est l’expression partielle visible d’une partie du génotype, c’est-à-dire la projection extérieure de l’expression de certains gènes (couleur des yeux, des cheveux, de la peau…)

Notre patrimoine génétique est constitué de gènes qui contiennent des informations codées au niveau des allèles.

Par exemple les expressions des récepteurs D1 et D2 de la dopamine sont codés par les allèles DARPP-32 et DRD2.

Les modalisations informatiques ont mis en évidence le fait que ces séquences de codes régulent la tendance plus ou moins forte de notre appareil cognitif à évaluer nos actions passées eu égard la connotation de leurs conséquences, en termes de bons ou de mauvais résultats.

En d’autres termes, à une action passée sera attachée une valeur positive ou négative dont la magnitude pourra varier.

LA DOPAMINE ET SES EFFETS SUR LA PRISE DE DECISION

A titre d’exemple, une carence en dopamine réduit la capacité à apprendre à partir des résultats positifs attachés à une décision, mais augmente l’apprentissage à partir de résultats négatifs.

En d’autres termes, un déficit de sérotonine, créera en quelque sorte un biais de négativité, le retour d’expérience se faisant principalement sur les actions ayant débouché sur des conséquences négatives ou sur la base de l’insuccès.

Inversement, l’augmentation médicamenteuse de Dopamine, aura pour conséquence de faciliter les stratégies d’apprentissage basé sur la valorisation des bons résultats associés aux actions.

Comme on pourrait s’y attendre, la dopamine aura pour effet de promouvoir des comportements risqués pour les joueurs, puisque le focus sera mis sur le gain potentiel plutôt que sur la perte.

LA SERONOTINE ET SES EFFETS SUR LA PRISE DE DECISION

Des études récentes ont montré que l’activité du système sérotoninergique avait pour effet de coder la magnitude des récompenses attendues, alors que l’activité des neurones dopaminergiques de la pars compacta codait les différences entre ces valeurs.

Ainsi, la sérotonine code la valeur de la récompense. Des études ont montré que la variation de sérotonine influence l’apprentissage à partir d’évènements aversifs et permet l’adéquation du comportement.

La sérotonine module les apprentissages qui dépendent des délais entre les actions et leurs résultats et aide à incorporer le critère de l’attente eu égard à la récompense.

Une insuffisance de sérotonine réduit également la capacité à accepter un délai accompagné d’une récompense supplémentaire.

CORTISOL, PRISE DE DECISION ET DIFFERENCES HOMMES/FEMMES

En la matière, il a été démontré qu’un taux élevé de cortisol réduit l’influence de la perception de la probabilité de perdre dans le cadre de l’Iowa Gambling Task. Ainsi le cortisol contribue à dévaloriser les comportements visant à éviter les risques, les sujets prenant plus de risques au jeu après avoir reçu du cortisol.

Le cortisol n’affecte pas l’état affectif mais affecte la cognition des informations émotionnelles que les personnes rencontrent pendant leurs interactions avec l’environnement.

Il est démontré que les femmes lorsqu’elles ont été initialement conditionnées pour être stressées avant la réalisation du de l’IGT (Iowa Gambling Task) étaient moins affectées que les hommes soumis préalablement aux mêmes conditions de stress.

Les études ont montré que sous l’empire d’un stress aigüe, les femmes avaient tendance à développer des comportements prosociaux, alors que les hommes ayant plutôt tendance à développer une réponse s’inscrivant la théorie « Fight-or-flight » (Le combat ou la fuite)

Chez les hommes, il semble que ces comportements prosociaux de type « tend-and-befriend » apparaissent lorsque le système HPA (Hypothalamic-Pituary-adrenal) qui produit le cortisol est hautement activé.

En d’autres termes, chez les hommes, une corrélation positive entre la magnitude du niveau de cortisol et les comportements générant des décisions altruistes a été démontré.

Ainsi, selon des études récentes les effets du stress diffèreraient suivant le sexe, l’homme étant pour ainsi dire programmé pour combattre ou fuir, et la femme programmée pour, en cas de risque générant du stress, accentuer le caractère prosocial de son comportement de sorte à protéger les enfants et la famille.

Ainsi les rôles sociaux traditionnels, ancrés dans les phénotypes masculin et féminin, seraient à l’origine de différence notamment en matière de réponse au stress.

LE « REINFORCEMENT LEARNING » ET LA NEUROSPYCHOLOGIE DE LA PRISE DE DECISION

Dans le domaine de l’intelligence artificielle, outre le « machine learning » supervisé et le « machine learning » non supervisé, il existe un type de machine learning très différent qui repose globalement sur le jeu des essais et des erreurs ou de l’attribution d’un résultat aux conséquences d’une action.

Ainsi dans un environnement donné, un réseau neuronal informatique, version hyper-simplifiée des systèmes neuronaux humains, apprendra par lui même à s’orienter vers une stratégie décisionnelle optimale.

Pour ce faire, la machine sera programmée pour tenter de maximiser les récompenses attachées aux conséquences positives que ses choix produiront dans un environnement donné.

Nous l’avons vu en matière de neuropsychologie de la prise de décision, le cerveau enregistre le résultat de ses actions et attribue à chaque résultat une valence, positive ou négative, et une amplitude.

Le taux de sérotonine, de dopamine, de cortisol, détermineront par exemple le niveau d’affect attaché à un résultat négatif ou à un résultat positif.

Selon la variation de concentration des neurotransmetteurs ou des hormones, à une conséquence négative, à un insuccès, pourra être attaché un marqueur très négatif qui aura pour effet, par exemple de générer un comportement d’aversion au risque.

Comme nous l’avons montré, l’élévation ou la diminution artificielle des concentrations de neurotransmetteurs ou d’hormones permet de réguler le poids attaché à un résultat négatif et quelque sorte de pondérer le rapport entre risque et recherche du gain.

En définitive, le machine learning par renforcement semble procéder de manière analogue.

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s