Le cerveau bayésien (Episode n°7)

Dr Jean-Pierre Papart
20 août
12 min de lecture

Dernière mise à jour : 21 août

Cerveau bayésien et origine de la théorie systémique

Mon objectif est de refonder d’une certaine manière la théorie de la thérapie systémique, en reliant l’apport théorique majeur du principe de l’énergie libre (PEL) de Karl Friston aux réflexions théoriques échangées dans les Conférences de Macy qui ont accouché de cette approche thérapeutique[1].

Ces dernières années ont vu l'émergence d'une importante nouvelle théorie fondamentale du fonctionnement du cerveau. Cette théorie rassemble les approches informationnelles, bayésiennes, neuroscientifiques dans le cadre unique du principe de l’énergie libre (PEL) dont Karl Friston est indéniablement l’artisan-clé, même si d’autres grands penseurs en ont jeté les bases et se sont exprimés lors de ces mêmes conférences de la Fondation Macy, comme Shannon dont nous allons résumer ici la pensée en lien avec ce qu’en ont retenu les fondateurs de la systémique.

Le PEL suggère que tous les systèmes biologiques sont poussés à minimiser une quantité informationnelle nommée "énergie libre" porteuse de "surprise". L'énergie libre est définie par Friston comme la différence entre les prédictions sur les entrées sensorielles (priors) et les sensations (input). L'intérêt du PEL est d'unifier tous les comportements adaptatifs autopoïétiques pour éviter les surprises. Le PEL se trouve au cœur des procédures du cerveau bayésien qui identifie la perception comme une inférence qui prédit les états externes du monde plutôt que de la considérer comme une simple traduction des sensations externes en représentations internes, ce qui avait déjà été proposé comme hypothèse au XIXème siècle[2]. L'incarnation la plus populaire de cette idée a donné naissance au codage prédictif (Rao et Ballard, 1999) et à l'hypothèse du « cerveau bayésien » (Knill & Pouget, 2004), ainsi qu’à celle d’une mise en œuvre de la perception comme inférence active (Friston, 2005). Le codage prédictif implique des boucles entre les processus top-down (transmetteurs des prédictions) et les processus bottom-up (transmetteurs des erreurs de prédiction à partir des sensations). Le PEL rassemble ces idées et résume leur impératif en termes de minimisation de l'énergie libre (ou de la surprise). Cependant, le PEL apporte quelque chose de nouveau, à savoir que l'action peut également minimiser ce que Friston appelle « énergie libre ». Avec cette simple addition, nous sommes maintenant en mesure de considérer le rôle du comportement adaptatif – autopoïétique – qui consiste à renforcer la minimisation de l'énergie libre ou de la surprise dans l’objectif néguentropique de vivre plus longuement (l’apport spécifique de Friston en tant que neuroscientifique). L'hypothèse réduire-la-surprise/vivre-plus-longtemps est donc cohérente avec un très grand nombre d'interprétations du comportement informé et adaptatif. La surprise (= entropie) peut être réduite en changeant 1) l'entrée sensorielle par l’action, 2) les prédictions de cette entrée (= la perception), ou 3) le modèle per se (prior). Dans l'apprentissage par renforcement dans des situations réalistes, l'agent peut ne pas être certain de l'« état » dans lequel il se trouve. Dans un tel cas d'état partiellement observable, l'agent doit estimer son état actuel, appelé « état de croyance », en combinant l'observation ambiguë actuelle avec la prédiction de l'état de croyance précédent et de l'action à l'aide d'un modèle interne. La bonne méthode d'intégration est l'inférence bayésienne. Le concept d’énaction chez Maturana et Varela (1980) va dans le même sens et désigne le fait que les organismes vivants, plutôt que de simplement percevoir et réagir au monde extérieur, créent activement leur propre expérience du monde. Cette perspective est au cœur de leur théorie de l'autopoïèse, selon laquelle les systèmes vivants sont des systèmes autoorganisés. L'énaction met en avant l'idée que la cognition émerge d'une interaction dynamique entre l'organisme et son environnement. En ce sens, le concept d’énaction est synonyme du PEL. Tout ce que nous vivons nous le vivons à partir de notre corps.

Claude Shannon (1916-2001) a effectivement participé aux Conférences de Macy, plus précisément à la 7^ème (1950), la 8^ème (1951) et peut-être, mais c’est moins sûr, la 10^ème (1953). Lors de ces conférences, Shannon a présenté ses travaux sur la théorie de l'information (A Mathematical Theory of Communication, 1948). Comme nous l’avons déjà mentionné dans de précédents épisodes[3], Grégory Bateson, qui est à l’origine du mouvement théorique qui a accouché de la thérapie systémique, a participé aux 10 conférences de Macy entre 1942 et 1953, et en particulier aux 2 ou 3 conférences où était présent Shannon.

Selon Claude Shannon, l'information est étroitement liée à la notion de surprise ; l’information mesure la surprise associée à la réception d’un message. Lorsqu'un événement improbable se produit, il apporte plus d'information parce qu'il est plus surprenant.

Information (S) = Surprise

Shannon propose de mesurer l’information en bit (binary digit), un chiffre binaire (0,1) permettant de coder une quantité d'information. Ainsi, il faut au moins un bit pour coder deux états (par exemple « pile » et « face », oui ou non ou plus généralement 0 et 1) et deux bits permettent de coder quatre états (00, 01, 10, 11). Il propose l’équation suivante pour mesurer d'information:

S = S (quantité d’information en bits) = log₂ (1/P) = -log₂ (P) [4]

S = information (signification)

P = probabilité d’un événement (confiance a priori)

Log₂(x) est un logarithme en base 2 ou logarithme binaire. Il répond à la question : À quelle puissance faut-il élever 2 pour obtenir x ? Exemple : Log₂(8)=3 car 2³=8. Log₂(x) est utilisé en informatique et en théorie de l’information[5].

Shannon mesure l'information contenue dans un message en fonction de l'incertitude qu’il apporte. Cette incertitude est mesurée par une fonction appelée entropie de Shannon :

Information (S) = Surprise = Incertitude = Entropie informationnelle (H).

Shannon définit l’information comme étant proportionnelle à l'incertitude d'un événement. Plus un événement est improbable ou incertain, plus il apporte d’information lorsqu’il se produit. L’entropie informationnelle (H) mesure la quantité moyenne d'information ou l’incertitude apportée par une source informationnelle. Si tous les événements sont équiprobables, l’entropie est maximale. Si un événement est certain, l’entropie est nulle car pas d’incertitude.

Prenons par exemple le jeu de pile ou face pour autant que la pièce soit parfaitement équilibrée.

P = probabilité d’un événement. La probabilité d’obtenir pile = 0,5, donc P(x_i) = P(pile) = 0.5 (une chance sur 2) et P(face) = 0.5 (une chance sur 2). On dira que x_i, la variable aléatoire, peut prendre deux valeurs d’égale probabilité de 0.5 chacune. Plus simplement dit, ma confiance a priori que ce sera ‘face’ après avoir jeté la pièce est de 0.5 et est égale à celle aussi de 0.5 que ce sera ‘pile’.

Donc en reprenant l’équation de Shannon, on pourra calculer la quantité d’information (S) ou d’entropie (H) que représente une partie du jeu à pile ou face

S = H(X) = −∑P(x_i) log₂ P(x_i)

Avec :

X : une variable aléatoire représentant les messages possibles

x_i : les issues possibles

∑P(x_i) : la somme (∑) des probabilités des issues

P(x_i) : la probabilité de chacune des issues

log₂: voir plus haut

H(X) = −∑P(x_i) log₂ P(x_i) = − (0,5 * log₂ 0,5 + 0,5 * log₂ 0,5 ) = − (0,5 * (−1) + 0,5 * (−1))

H(X) = − (−0,5 + −0,5) = − (−1) = 1 bit.

Donc, lancer une pièce équilibrée donne 1 bit d’information. On avait 1 bit d’incertitude avant le tirage, et on l’a résolue en voyant le résultat. Cela va nous permettre de faire des comparaisons ultérieures.

Mais comment calculer log₂(0,5) ? Autrement dit à quelle puissance faut-il élever 2 pour obtenir 0,5 ? Il faut élevé 2 à la puissance -1, ou 2^-1= 0,5 (car = 2^-1 = ½). On se rappelle que Log₂(8) = 3 car 2³= 8.

Mais comment calcule-t-on un log₂(0,5) si nous n’avons à disposition qu’une table de log₁₀(log commun) ou que notre calculatrice ne présente que la possibilité de calculer log (log₁₀) ou ln ? Réponse : on calcule le log₁₀ de 0,5, ensuite on divise ce résultat obtenu par le log₁₀ de 2. Cela donne :

log₁₀ (0,5) -0.30103

log₂ (0,5) = -------------- = ------------- = - 1

log₁₀ (2) 0,30103

Mais on peut aussi poser la question au Chat Mistral ou à Chatgpt de cette manière :

Que vaut =math.log(0.5,2) et il répondra -1.

Un autre exemple avant d’en étudier d’autres plus biomédicaux.

Combien de questions oui/non faut-il poser pour identifier un nombre X entre 1 et 32 ?

Exemple d’un set de questions-réponses :

X est plus petit que 16 ? Non.

X est plus petit que 24 ? Non.

X est plus petit que 28 ? Non.

X est plus petit que 30 ? Non.

X est égal à 31 ? Non.

Donc X est égal à 32.

Information = log₂ (N) et N=32.

NB : Dans ce cas N est un nombre et non pas une probabilité (P), donc on ne met pas – devant log₂!

H(X) = log₂ (32)=5 car 2⁵=32 . Donc il faut 5 questions maximum pour être sûr de trouver le bon nombre.

log₁₀ (32) 1,5051499783

log₂ (32) = -------------- = ------------------- = 5

log₁₀ (2) 0,30103

On peut aussi poser la question à Chatgpt ou au Chat Mistral ainsi :

Que vaut =math.log(32,2) et il répondra 5.

Chaque question binaire (oui/non) fournit 1 bit d'information (comme dans le jeu à pile ou face). Donc, pour obtenir 5 bits d’information, il faut 5 questions à réponses binaires au maximum pour identifier avec certitude un nombre entre 1 et 32.

Un exemple proposé par Friston :

Imaginons que vous êtes bien installé sur une chaise longue dans votre jardin, un beau dimanche d’été et que règne un calme parfait. Vous êtes concentré sur la lecture de ce blog sur votre tablette et tout d’un coup vous êtes distrait par un vague bruit d’animal derrière vous. Votre cerveau doit deviner : est-ce un oiseau ou serait-ce le chat ? Il vous semblait que le chat dormait sur son coussin dans le salon au moment où vous êtes sorti au jardin.

Dans ce contexte a priori, vos attentes (vos priors) tournent autour de 0,8 pour la probabilité que ce soit un oiseau (P=0,8) et de 0,2 pour celle que ce soit votre chat (P=0,2). C’était la situation … avant que vous n’entendiez un second bruit, identifiable cette fois à un miaulement, suite au petit effort de concentration de votre attention sur le bruit environnant plutôt que sur ce blog. Cette nouvelle sensation acoustique est susceptible de réduire l’incertitude expérimentée initialement. Ce miaulement correspond à une surprise informationnelle qui entraîne une réduction d’énergie libre.

Alors calculons cette surprise informationnelle :

Surprise = −log₂ P(x)

Si vous pensiez que la probabilité que le bruit initialement émis était de P=0,2, alors la surprise d’entendre un miaulement vaut −log₂ P(0,2) = 2,32 bits.

log₁₀ P(0,2) −0,69897

log₂ P(0,2) = ---------------- = ------------- = −2,32

log₁₀ P(2) 0,30103

log₂ P(0,2) = math.log(0.2,2) vous savez maintenant à qui le demander.

Cela signifie que ce bruit (miaulement) vous a apporté 2,32 bits d'information — c’est plus surprenant qu’un piaillement d’oiseau. Si au lieu d’entendre un miaulement vous aviez entendu un cricri, l’information apportée aurait été de −log₂ P(0,8) = 0,32 bits. Cela signifie qu’un événement ayant une probabilité de 0,8 apporte environ 0,32 bits d’information, donc très peu d’information, car c’était assez attendu, donc pas surprenant, même moins d’information que celle reçue une fois que la pièce est retombée dans le jeu à pile ou face. Je ne refais plus les calculs, vous savez comment les obtenir.

Autre exemple de Friston, un peu plus ‘’neuroscientifique’’ cette fois :

Vous êtes cobaye dans le laboratoire du Prof. Friston dans le Wellcome Institute qui vous demande de regarder un écran qui vous paraît très flou. Votre cerveau doit deviner ce qu’il voit. Deux hypothèses : il y a une barre verticale ou une barre horizontale. Avant de regarder à nouveau, en vous concentrant mieux la seconde fois, votre cerveau croit que P(verticale) = 0,9 et que donc P(horizontale) = 0,1. C’est votre a priori (prior) influencé par le contexte (par exemple, vous êtes dans une pièce avec beaucoup de portes, donc de lignes verticales).

Vous regardez à nouveau parce que Friston vous le demande et ce second coup d’œil sur le même écran où vous percevez nécessairement quelques nouvelles données, vous fait estimer qu’avec ces données actualisées, la probabilité que la barre soit horizontale gagne fortement en probabilité : P(données | horizontale) = 0,8 et donc P(données | verticale) = 0,2. Votre système visuel extrait de nouvelles données sensorielles qui collent mieux avec une barre horizontale plutôt que verticale.

Pour rappel, l’équation bayésienne exprime l’égalité entre le produit d’un prior P(x) et d’une vraisemblance P(y/x) et le produit d’un a posteriori (posterior) P(x/y) et d’une vraisemblance marginale ou l’évidence du modèle P(y).

P(x)*P(y/x) = P(x/y)*P(y)

Ou encore :

P(prior)*P(input/prior) = P(prior/input)*P(input)

Ou encore :

P(cause)*P(effet/cause) = P(cause/effet)*P(effet)

Selon ce petit rappel et ce que vous avez appris dans les blogs précédents de la série sur Le cerveau bayésien, vous pouvez maintenant faire le calcul bayésien qui va vous permettre de mettre à jour vos croyances :

P(données ∣ horizontale) * P(horizontale)

P(horizontale ∣ données) = ------------------------------------------------------

P(données)

P(données) = P(données ∣ verticale) P(verticale) + P(données ∣ horizontale) P(horizontale)

P(données ∣ horizontale) * P(horizontale)

P(horizontale ∣ données) = -------------------------------------------------------------------------------

P(données ∣ verticale) P(verticale) + P(données ∣ horizontale) P(horizontale)

0,8 * 0,1 = 0,08

P(horizontale ∣ données) = ------------------------------------------- = 0,31

0,2 * 0,9 + 0,8 * 0,1 = 0,18 + 0,08 = 0,26

0,2 * 0,9 = 0,18

P(vertical ∣ données) = -------------------------------------------------- = 0,69

0,2 * 0,9 + 0,8 * 0,1 = 0,18 + 0,08 = 0,26

Ce second coup d’œil ne va modifier en réalité qu’assez peu vos impressions de départ. Pour la croyance dans la barre horizontale, vous allez passer d’une probabilité P=0,1 à P=0,31, donc vous multipliez par 3 votre conviction initiale. Pour la barre verticale, votre conviction forte initialement va baisser d’environ ¼ (23%) passant de P=0,9 à P=0,69.

Mais plutôt que d'accepter cette incertitude, le cerveau va agir et faire bouger les yeux en saccades pour obtenir une meilleure image, en tentant ainsi de réduire l’ambiguïté sensorielle. C’est de l’inférence active : on agit pour réduire la surprise et mieux assurer une hypothèse (ou un diagnostic pour le docteurs).

Quel lien faisons-nous avec la théorie informationnelle de Shannon avec laquelle Friston adhère ? Autrement dit si nous avons changé notre croyance au cours de l’exercice, avons-nous gagné en certitude ? Avons-nous pu baisser l’entropie informationnelle ?

Calculons l’entropie (H) des données initiales, avec une probabilité d’existence de la barre verticale très forte (P=0,9) et une probabilité de la barre horizontale très faible (P=0,1).

H = (− 0,9 log₂0,9) + (− 0,1 log₂0,1) = 0,47 bits

log₂0,9 = −0,152 donc (− 0,9 log₂0,9) = 0,1368

log₂0,1 = −3.322 donc (− 0,1 log₂0,1) = 0,3321

Calculons maintenant l’entropie (H) après le second coup d’œil.

H = (− 0,2 log₂0,2) + (− 0,8 log₂0,8) = 0,72 bits

log₂0,2 = −2.322 donc (− 0,2 log₂0,2) = 0,4643

log₂0,8 = −0.322 donc (− 0,8 log₂0,8) = 0,2575

Cette nouvelle mesure informationnelle (0,72 bits) est plus élevée que la première (0,47 bits), mais reste inférieure à 1 bit car les événements ne sont pas équiprobable comme nous l’avions vu dans l’exemple du jeu à pile ou face. Nous voyons que le second coup d’œil n’aura pas permis de baisser l’entropie informationnelle dans ce cas. Dans ce cas, votre cerveau n’aura pas réellement été en mesure de réduire l’énergie libre et donc de minimiser la surprise. Le second coup d’œil aura augmenté et non pas diminué la surprise.

Et pour revenir à l’exercice précédent, vous avez été étonné d’entendre un miaulement alors que vous pensiez que Mistigri dormait tranquillement dans le salon.

Après avoir entendu un miaulement (nouvelle donnée), vous allez nécessairement réestimer vos probabilité avec certainement une probabilité très augmentée pour le chat plutôt qu’un oiseau : P(données | chat) = 0,99 et donc P(données | oiseau) = 0,01. La probabilité que le cricri d’un oiseau se confonde avec un miaulement est quasi nulle (sauf peut-être pour moi qui commence à perdre gentiment en qualité auditive).

Refaisons donc un calcul bayésien pour bien garder la main :

P(données ∣ 😺) * P(😺)

P(😺 ∣ données) = ---------------------------

P(données)

P(données) = P(données ∣ 🐦) P(🐦) + P(données ∣ 😺) P(😺)

P(données ∣ 😺) * P(😺)

P(😺 ∣ données) = ---------------------------------------------------------------------

P(données ∣ 🐦) * P(🐦) + P(données ∣ 😺) * P(😺)

0,99 * 0,2

P(😺 ∣ données) = --------------------------------- = 0,9612 (96%)

(0,01 * 0,8) + (0,99 * 0,2)

0,01 * 0,8

P(🐦 ∣ données) = --------------------------------- = 0,0388 (4%)

(0,01 * 0,8) + (0,99 * 0,2)

Ce miaulement va tout changer et vous serez bien obligé d’arrêter la lecture de ce blog pour aller servir la pitance que Mistigri vous demande.

Heureusement pour vous, nous sommes arrivés à la fin de cet épisode du Cerveau bayésien. 🙂

Notes :

[1] Dans l’épisode n°3 de la série Prévenir et soigner les troubles du spectre traumatique, j’avais proposé que si Friston était né plus tôt, il aurait pu parfaitement s’intégrer à la réflexion multidisciplinaire portée par les Conférences de Macy (1942-1953).

[2] « Nous appelons sensations les impressions produites sur nos sens, en tant qu’elles nous apparaissent seulement comme des états particuliers de notre corps (surtout de nos appareils nerveux) ; nous leur donnons au contraire le nom de perceptions, lorsqu’elles nous servent à former des représentations des objets extérieurs » (Hermann von Helmoltz in Théorie physiologique de la musique, 1863).

[3] cf. Les troubles du spectre traumatique, Episode n°9 et Prévenir et soigner les troubles du spectre traumatique, Episode n°3.

[4] On met le signe « moins » (-) devant le log₂ de (P), par simplification pour ne pas calculer le log₂ de l’inverse de P, soit 1/P.

[5] Nous est mieux connu le log₁₀(x), le logarithme en base 10, en général noté simplement log(x). (Exemple : Log₁₀(1000)= 3 car 10³ = 1000). Log₁₀est utilisé dans les sciences appliquées, en ingénierie, etc.

Le cerveau bayésien (Episode n°7)

Log₂(x) est un logarithme en base 2 ou logarithme binaire. Il répond à la question : À quelle puissance faut-il élever 2 pour obtenir x ? Exemple : Log₂(8)=3 car 2³=8. Log₂(x) est utilisé en informatique et en théorie de l’information[5].

P(😺 ∣ données) = ---------------------------

Posts récents

Commentaires

Log₂(x) est un logarithme en base 2 ou logarithme binaire. Il répond à la question : À quelle puissance faut-il élever 2 pour obtenir x ? Exemple : Log2 (8)=3 car 23=8. Log₂(x) est utilisé en informatique et en théorie de l’information[5].

P(😺 ∣ données) = ---------------------------

Commentaires

Log₂(x) est un logarithme en base 2 ou logarithme binaire. Il répond à la question : À quelle puissance faut-il élever 2 pour obtenir x ? Exemple : Log₂(8)=3 car 2³=8. Log₂(x) est utilisé en informatique et en théorie de l’information[5].