Le monde qui l'a façonné - Dilemme du prisonnier

Au milieu du vingtième siècle, un grand nombre de personnes intelligentes étaient devenues mal à l'aise avec l'ancien langage du choix rationnel. L'économie continuait de parler comme si l'intérêt personnel était le moteur naturel d'une vie ordonnée, tandis que la philosophie morale s'était longtemps appuyée sur l'espoir que la raison et la vertu s'aligneraient parfois. Mais le siècle avait déjà fourni suffisamment de preuves que des agents intelligents, lorsqu'ils étaient sous pression, pouvaient agir de manière individuellement défendable et collectivement désastreuse. Les bombardements aériens, les courses aux armements, les bureaucraties et les crises de négociation rendaient plus difficile de croire que de bons résultats émergeraient automatiquement de bonnes intentions. À l'ombre longue de la Seconde Guerre mondiale et des premières années difficiles de la Guerre froide, la théorie devait de plus en plus faire face à des situations où les gens connaissaient les règles, comprenaient les enjeux, et ne pouvaient toujours pas se coordonner sur le résultat qu'ils souhaitaient.

Le Dilemme du Prisonnier est né dans ce monde de suspicion. Il n'a pas commencé comme un drame sur des prisonniers réels, bien que le nom lui ait ensuite donné l'air d'une parabole d'un poste de police. Il est né d'une préoccupation mathématique et stratégique : comment doit-on penser à la prise de décision lorsque le résultat de votre choix dépend de ce qu'un autre agent rationnel choisit, et lorsque vous comprenez tous deux la structure de la situation ? Dans ce cadre, l'ancienne image des maximisateurs de préférences isolés s'est effondrée. Une personne pouvait être prudente, informée, et même parfaitement sensée, et pourtant finir par contribuer à produire le résultat que personne ne voulait. La force de l'idée résidait dans son austérité. Elle ne nécessitait pas de méchants. Elle exigeait seulement de l'incertitude, de la symétrie, et la possibilité que chaque participant agisse de manière défensive.

Le contexte était la théorie des jeux, un domaine mis en forme formelle pendant et après la Seconde Guerre mondiale. John von Neumann avait déjà donné à l'interaction stratégique une grammaire mathématique dans son travail avec Oskar Morgenstern, notamment dans Theory of Games and Economic Behavior (1944). Pourtant, une grande partie de la théorie précoce était préoccupée par la concurrence, la négociation, et le conflit à somme nulle. Le Dilemme du Prisonnier montrerait quelque chose de plus troublant : que la structure des incitations pouvait amener des agents rationnels à se trahir mutuellement même lorsqu'ils partageaient un intérêt pour la retenue mutuelle. Dans le langage du domaine, le problème n'était pas simplement de savoir comment gagner, mais comment éviter un équilibre qui était stable et pourtant inférieur à ce que les deux parties auraient pu réaliser ensemble.

Il y avait aussi une tension intellectuelle plus large dans l'air. La même époque qui a inventé la modélisation stratégique vivait à travers la Guerre froide, avec ses courses aux armements, ses doctrines de dissuasion, et ses calculs élaborés de crédibilité. La planification diplomatique et l'analyse militaire étaient de plus en plus organisées autour de la possibilité que la prudence d'un côté soit interprétée comme de la faiblesse, ou que la retenue d'un côté invite à l'exploitation. Les analystes se demandaient si la peur mutuelle pouvait stabiliser la paix ou si elle enfermait simplement les adversaires dans une escalade coûteuse. Le dilemme fournissait un schéma abstrait frappant pour cette anxiété. Il disait, en effet, que la coopération n'est pas impossible parce que les gens sont malveillants ; elle est précaire parce que la confiance doit souvent être établie avant de pouvoir être justifiée. Dans un monde d'évaluations classifiées, de lignes budgétaires, et de mémorandums de planification stratégique, ce n'est pas un principe réconfortant. C'est un avertissement sur la facilité avec laquelle des agents raisonnables peuvent se retrouver piégés par leur propre prudence.

Plusieurs contextes concrets ont rendu le modèle moins semblable à une énigme inventée dans un séminaire et plus comme un fait social distillé. L'un était la course aux armements elle-même : chaque côté pouvait préférer le désarmement, mais chacun craignait une retenue unilatérale. Un autre était le lieu de travail ou le cartel, où les rivaux pourraient tous bénéficier de la retenue, mais chacun a une incitation à sous-coter les autres. Un troisième est plus intime : deux amis, ou partenaires, ou voisins, chacun voulant l'assurance de l'autre, peuvent tous deux agir avec prudence parce que la prudence semble plus sûre. La structure est ancienne, même si le modèle formel est nouveau. Ce que la théorie des jeux a fait, c'est de réduire le schéma à ses éléments essentiels, de sorte que le conflit entre la prudence privée et le gain mutuel puisse être vu avec une clarté presque impitoyable.

Le nom le plus souvent associé au dilemme est Albert W. Tucker, qui aurait formulé l'histoire de la prison au début des années 1950 pour un séminaire à Stanford. Cette anecdote est importante car elle capture le génie pédagogique du modèle. Ce n'est pas simplement un théorème ; c'est un petit piège pour l'intuition. On entend que deux suspects sont séparés et se voient offrir des accords, et l'on ressent immédiatement la force de la situation. Chacun doit décider sans savoir ce que l'autre fera, et chacun sait que la confession peut être le mouvement prudent si l'autre reste silencieux. L'histoire rend visible une structure qui existait depuis longtemps dans les marchés, la diplomatie et la loyauté quotidienne. Elle rend également l'architecture cachée de la pression palpable : ce qui est caché à un prisonnier, ce que l'interrogateur sait, et ce que chaque côté craint du silence de l'autre.

Le cadre historique rend cette histoire plus qu'une curiosité de salle de classe. Les institutions d'après-guerre étaient pleines de similitudes d'asymétries d'information et de pression. Les régulateurs, commandants, négociateurs et gestionnaires devaient prendre des décisions sur la base de preuves partielles, souvent sous des délais et avec peu de certitude sur la manière dont les autres réagiraient. Un document pouvait être décisif, mais seulement si la bonne personne le voyait à temps ; un retard pouvait transformer la prudence en échec. Dans de tels environnements, un modèle qui pouvait montrer comment des acteurs rationnels trébuchent dans des résultats inférieurs avait une force évidente. Il aidait à expliquer pourquoi une crise pouvait s'approfondir même lorsque personne n'avait l'intention d'escalader, et pourquoi la tentative de se protéger d'une perte pouvait générer des pertes tout autour.

La surprise historique cruciale est que le dilemme n'est pas principalement une question de punition. Il s'agit de l'inadéquation entre la prudence individuelle et le succès partagé. Si chaque agent essaie simplement d'éviter d'être le dindon de la farce, les deux peuvent finir par être dans une situation pire que si l'un ou l'autre avait fait confiance. C'est un problème plus subtil et plus corrosif que la simple cupidité. Cela suggère que même des agents décents, agissant sous une assurance incomplète, peuvent être conduits par la raison elle-même à une perte mutuelle. En ce sens, le modèle a capturé une anxiété distinctive du milieu du siècle : la peur que des systèmes construits par des personnes compétentes, utilisant des calculs prudents et des procédures officielles, puissent encore se désagréger parce que chaque participant réagissait rationnellement aux incitations immédiatement devant eux.

Vu sous cet angle, le Dilemme du Prisonnier répondait à une question que les anciennes idiomes moraux ne pouvaient pas tout à fait formaliser : pourquoi le bien évident reste-t-il si difficile à sécuriser lorsque tout le monde peut le voir ? La réponse n'était pas que les gens ne savaient pas mieux. C'était que la structure de la situation récompensait les choix défensifs et rendait la confiance coûteuse au moment même où elle était le plus nécessaire. La prochaine étape était de donner à cette question une forme précise, avec des gains, des choix, et une logique qui ne pouvait pas être écartée comme un simple pessimisme.