revista de cultura científica FACULTAD DE CIENCIAS, UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Busca ampliar la cultura científica de la población, difundir información y hacer de la ciencia
un instrumento para el análisis de la realidad, con diversos puntos de vista desde la ciencia.
1 12
     
¿Colaborar o no colaborar?
Ése es el dilema
Se presenta el desarrollo del estudio matemático de la colaboración entre los seres humanos, a partir de la formulación del dilema del prisionero. Se analizan las principales estrategias utilizadas en torneos de colaboración del juego del dilema del prisionero iterado.
José Antonio de la Peña y Nelia Tello
conoce más del autor
     
HTML ↓ PDF ←Regresar al índiceartículo siguiente→
     
     
La sociedad precede en la naturaleza al individuo.
Alguien que no puede llevar a cabo una vida social o que es autosuficiente y no la necesita,
es una bestia o un Dios.

Aristóteles
 
Es manifiesto que durante el tiempo
que los hombres viven sin una fuerza común
que los mantiene controlados, viven en condición de guerra: todo hombre contra todo hombre.

Hobbes
 
La colaboración entre los seres humanos es un asunto sobre el que no sólo Aristóteles y Hobbes han reflexionado. Grandes mentes en filosofía, ciencias políticas, economía, antropología, historia, psicología y biología evolutiva lo han hecho a lo largo de la historia. Para algunos, la naturaleza humana es pacífica y hay una tendencia natural a colaborar; por ejemplo, Locke argumentaba que, aunque el hombre pueda entrar en un estado de guerra, es por naturaleza cooperativo. Para otros, más pesimistas, sólo la fuerza del Estado puede llevarnos a trabajar por el bienestar común. Muchos problemas de colaboración, no sólo entre humanos, pueden reducirse a un planteamiento similar al del dilema del prisionero, que de alguna forma presenta la situación más simple y desnuda en la que dos actores se encuentran y tienen que decidir, ¿colaboro o no colaboro?

El problema conocido como el dilema del prisionero fue formulado por primera vez en 1950 por Melvin Drescher y Merrill Flood de la corporación rand. El primer artículo sobre el tema lo escribió Albert Tucker y de ahí surgió su famoso nombre. Publicado sólo años después, el dilema del prisionero fue ampliamente socializado entre la comunidad científica por un rápido proceso de transmisión oral, probablemente porque en esa época prevalecían preocupaciones por la carrera armamentista y la proliferación nuclear.

En la formulación original, dos prisioneros A y B, detenidos por la policía como sospechosos de ser cómplices en un delito, son interrogados por separado. A cada uno se le hace la siguiente oferta: si confiesas y delatas al otro preso, tendrás un castigo menor. Así, si A acusa a B y éste guarda silencio, A saldrá libre, mientras que B será recluido cinco años. Pero como la oferta también vale para B, si ambos se acusan, los dos recibirán tres años en prisión. Por otra parte, como no hay pruebas importantes, si ambos guardan silencio, sólo recibirán un año en prisión.
 
¿Qué deben hacer?
 
Cada cual tiene la tentación de acusar al otro. Peor aún, cada cual piensa: si callo y el otro me traiciona, me tocan cinco años de prisión. Si lo acuso, tal vez salga libre y, en el peor de los casos, sólo me tocarán tres años de cárcel. Luego, lógicamente, acusa al otro preso. Ambos tendrán sus tres años en prisión. Si tan sólo hubieran colaborado con el otro y callado, sólo se quedarían un año encerrados. Paradoja.

Quizás la publicación más influyente sobre el tema sea The Evolution of Cooperation de Robert Axelrodt, un investigador de ciencias políticas que condujo las primeras simulaciones en computadora para enfrentar distin­tas estrategias de cooperación. Actual­mente, poco más de veinte años después de escritas, las conclusiones de su libro cobran validez. “Hoy, los problemas más importantes que enfrenta la humanidad están en la arena de las relaciones internacionales, donde naciones independientes y egoístas se enfrentan unas a otras en un estado de casi total anarquía. Muchos de estos problemas toman la forma del dilema del prisionero iterado. Entre los ejemplos se pueden incluir la carrera armamentista, la proliferación nuclear y la escalada militar. Por supuesto, para una comprensión realista de estos problemas tendríamos que considerar muchos factores que no están incorporados en la formulación simple del dilema del prisionero, algunos de ellos son la ideología, la burocracia, los acuerdos y coaliciones, la media­ción y el liderazgo. Sin embargo, po­de­mos usar la perspectiva ganada con el enfoque matemático. […] Desde los griegos clásicos hasta los estudios contemporáneos, toda la teoría de las ciencias políticas trata un problema fundamental: ¿cómo puede la raza humana entender y controlar las fuerzas ciegas de la Historia? En el mundo contemporáneo este problema es especialmente agudo”.

La formulación original del dilema del prisionero es equivalente al siguiente problema —según la forma sugerida por Hofstadter. Supongamos que tienes una cantidad de dinero y quieres comprar diamantes. Contactas al único vendedor de joyas de la ciudad y te pones de acuerdo en las cantidades que habrán de intercambiar. Por alguna causa, la transacción tiene que llevarse a cabo en secreto y cada cual acuerda en dejar una bolsa —una con el dinero, otra con las joyas— en un lugar preestablecido. Para ambos, el comprador y el joyero, es claro que no se encontrarán nunca más en la vida. ¿Qué sucede?

Por supuesto, ambos temen que el otro traicionará el acuerdo y deja­rá la bolsa vacía. Si ambos cumplen y dejan las cantidades acordadas, los dos estarán contentos. Pero cada cual está tentado a salirse con la mayor ganancia: obtener lo que se quería a cambio de no dar nada. ¿Qué piensas hacer? Si cumples y te traicionan, además de lo perdido, te sentirás como tonto. Si no cumples y sólo dejas la bolsa vacía, hay dos posibilidades: o bien te traicionan y no pierdes nada, o bien el joyero cumple y ¡tanto mejor! Entonces, parece razonable concluir que debes dejar la bolsa de dinero vacía. Esta conclusión, lógica y razonable, también la puede tomar el joyero, y te dejará sólo una bolsa vacía. Así, de acuerdo con la lógica, nadie obtiene lo que quiere. Situación paradójica: pudiendo ganar algo que desean, un razonamiento elemental los lleva a perderlo.

Para comprender mejor el problema de la colaboración en la sociedad humana, los ejemplos en el mundo animal pueden ayudar. El estudio de la colaboración entre animales surgió con Darwin, quien en 1859, en El Origen de las Especies, señala una serie de tendencias cooperativas y altruistas en los animales que calificó como “una especial dificultad, pues al principio me parecieron fatales para mi teoría”. Sin embargo, se percató de que si la selección natural operaba al nivel de las colonias sociales, las tendencias altruistas podrían explicarse. De hecho, el codescubridor de la selección natural, A. R. Wallace argumentaba en Darwinism, publicado en 1891, “la idea popular de la lucha por la existencia en el mundo animal, que conlleva miseria y dolor, está muy alejada de la realidad. Realmente, la vida se da con gran gozo y un mínimo de sufrimiento”.

Uno de los autores más influyentes en el cambio de percepción del mundo animal fue Peter Kropotkin. Personaje fascinante. Príncipe ruso, fundador de un movimiento anarquista, renombrado geólogo y biólogo evolucionista, Kropotkin reportó por primera vez detalles de la cooperación de abejas y de hormigas en la defensa de sus nidos, cooperación en­tre aves, lobos y la colaboración de los perros de las praderas en la construcción de sus casas.

Todos estos ejemplos de cooperación en el mundo animal, y otros casos, pueden considerarse como situaciones del dilema del prisionero. Pero, ¿por qué en el mundo animal hay colaboración, si nuestra conclusión lógica era no colaborar? Por la simple razón de que los animales se reconocen entre sí. El que hoy ayuda, mañana podrá beneficiarse de la ayuda de otros. Las situaciones interesantes en el mundo real no son dilemas del prisionero aislados, sino una sucesión indefinida de dilemas, uno tras otro. Para estudiar el problema en su nueva complejidad, la teoría de juegos puede auxiliarnos.

El mito de Tit-for-Tat

Consideremos nuevamente el planteamiento del dilema del prisionero. Estamos interesados en cambiar dinero por joyas, pero esta vez continuaremos viviendo en la misma ciudad que el joyero y estaremos interesados en realizar otras transacciones. ¿Qué hacer en este caso? Si traicionamos al joyero, seguramente, será difícil recuperar su confianza para hacer otra transacción. Tal vez sea más inteligente colaborar con él en varias ocasiones, esperar a que se confié, y ¡entonces engañarlo! Bueno, ésta es una estrategia posible. Pero, ¿qué estra­tegia seguirá el joyero?

Pongamos las cosas en términos más precisos. Dos jugadores A y B se enfrentarán en situaciones sucesivas del dilema del prisionero. Ambos podrán colaborar, entonces se presenta la situación C:C, y ambos obtendrán una ganancia R —que pueden ser pesos, años de cárcel, u otra forma de pago—; si A colabora y B no, estamos en la situación C:D, así A obtendrá una ganancia S y B una ganancia T; si sucede que A no colabora y B sí, entonces A obtiene T y B obtiene S; finalmente, si ninguno colabora, es la situación D:D y ambos obtienen P. Por supuesto, se debe tener
 
S < P < R < T.
 
Además, se impone en el juego la condición T + S < 2 R, para que un jugador no encuentre atractiva la estrategia de “colaboro una vez y la siguiente no, alternadamente”. Por ejemplo, podría ser
 
T= 3, R = 1, P= –2 y S= –3.
 
En el dilema del prisionero iterado la estrategia del jugador A puede leerse como una sucesión de acciones: colabora C, no colabora D. Por ejemplo, la estrategia de A puede ser: (C, C, C, D, C, D, D, …), y continúa siempre sin colaborar. Tal vez, la estrategia de B sea (D, C, D, C, D, C, D, …) colaborando una vez no, la siguiente si. En el primer encuentro de A y B, se presenta la situación C:D, de forma que A pierde 3 puntos y B gana 2. En el segundo encuentro, la situación que es C:C y ambos ganan 1 punto. Si seguimos la sucesión de respuestas de las estrategias de A y B, tendremos que sus ganacias, son para A:
 
–3 + 1 – 3 + 2 – 3 + 2 –2 –2.
 
y para B:
 
2 + 1 + 2 – 3 + 2 – 3 –2 –2.
 
De manera que B siempre aventajará a A por 5 puntos.
 
Hay muchas estrategias. Por ejemplo:
 
EstC = (C, C, C, …) siempre colabora
EstD = (D, D, D, …) nunca colabora
EstCD = (C, D, C, D …) colabora y luego no, y así sucesivamente
EstDC = (D, C, D, C …) no colabora y luego sí, y así sucesivamente;
 
Azar, que decide en cada ocasión por medio de un volado.
 
Por supuesto, A puede recordar lo que le hizo B y actuar en consecuencia. Así, la estrategia de A puede ser “colaboro siempre que B colabore conmigo, la primera vez que no lo haga, no volveré a colaborar”. O bien, “colaboro con B la primera vez y luego colaboro sólo que haya colaborado conmigo la vez anterior”.

En 1979, Robert Axelrodt decidió organizar un torneo para elegir la mejor estrategia en el juego del dilema del prisionero iterado. Para ello, envió invitaciones a más de sesenta personas, de todas las disciplinas del conocimiento, en seis países. Los instaba a que propusieran estrategias para un torneo que se efectuaría en una computadora. Las estrategias que recibió fueron programadas en Basic y puestas a competir todas contra todas, de modo que cada una se enfrentara a las otras exactamente doscientas veces. ¿Cuál fue la vencedora?

La ganadora, y por clara diferencia, fue la propuesta del psicólogo de la Universidad de Toronto, Anatol Rapoport, llamada Tit-for-Tat —que podríamos traducir como Tal para Cual. Esta estrategia, que denotaremos tt, consiste en la siguiente táctica al enfrentarse a otra estrategia B: coopera en la primera jugada con B, y a partir de la segunda vez que lo enfrentes, hazle lo mismo que te hizo en el enfrentamiento anterior.
 
Así de sencillo. El programa de Rapoport era el más corto de todos los enviados a Axelrodt. Más que vencer a las otras estrategias, tt permitía ganar tanto como las otras. Esto bastaba para triunfar en el torneo.

Había otros programas ingeniosos en la lista de Axelrodt. Por ejemplo, el programa Joss enviado por el matemático suizo de ese nombre. Comienza colaborando y contesta no co­laborando (D) enseguida de una D del rival, pero a una colaboración (C) contesta colaborando casi siempre, salvo en ocasiones, que al azar elige no colaborar. Joss trata de sacar provecho de la confianza establecida. Otro programa en la lista era Tit-for-two-Tats —escribiremos t2t— que es aún más generosa que tt: colabora primero y no colabora sólo después de que se presenten dos no colaboraciones sucesivas del rival.

¿Por qué Joss no le gana a tt? Enfrentémoslos. La primera jugada es siempre C:C y así continúan hasta que Joss decide no colaborar y tenemos una situación C:D. Entonces tt no colabora, y Joss, inocentemente, regresa a colaborar. Tenemos ahora D:C. Entonces, la siguiente jugada es C:D y después D:C y así sucesivamente hasta que a Joss se le vuelve a ocurrir no colaborar, y se presenta entonces una situación D:D. De ahí en adelante siempre tendremos D:D como respuestas. ¡Joss no pudo sacar ventaja de tt!

Probablemente fue una sorpresa que un programa tan simple y claro como tt resultase el ganador del torneo de Axelrodt. A partir de entonces, tt se convirtió en el paradigma del altruismo recíproco. Muchas conclusiones se siguieron de esta idea. En palabras de Axelrodt, “la cooperación mutua puede emerger en un mundo de egoístas sin contar con un control centralizado. Basta comenzar con un grupo de individuos que trabajan con base en la reciprocidad”.

Las estrategias deterministas

Durante años de trabajo en el área nun­ca se demostró que tt fuera real­mente una estrategia vencedora en torneos definidos de manera más for­mal y general que los caprichosos torneos de Axelrodt.
 
Tratemos algunos desarrollos recientes. Normalmente, la literatura sobre el tema considera estrategias estocásticas en las cuales las respuestas, C o D, están determinadas sólo con cierta probabilidad. Por el contrario, para entender mejor la situación es conveniente considerar estrategias deterministas.
 

Una estrategia determinista E consta de un número finito de estados

el primero de los cuales es el estado inicial, dos funciones de transición y una función de salida

Al enfrentarse E con una estrategia B, primero responde s(a0), y dependiendo de la respuesta de B, cambia su estado a uno nuevo e; por ejemplo, si B responde C entonces el nuevo estado de E será e=fC (a0), y responde s(e), y así sucesivamente.
Una estrategia determinista puede dibujarse de manera sencilla por medio de una gráfica con n vértices y flechas de acuerdo con las funciones fC y fD, el valor de la función s se determina por la letra C o D en el lugar de cada vértice. Por ejemplo, conside­remos las gráficas de la figura 1.
FIG1
La primera, con un solo estado
 
a0, s(a0)=C
 
y, por supuesto,
 
fC(a0)= a0 y fD(a0)=a0
 
es la estrategia EstC definida antes. La segunda corresponde a EstD. La tercera es Tit-for-Tat y la cuarta Tit-for-two-Tats. La ventaja de dibujar explícitamente las estrategias es que podemos manipularlas con mayor facilidad. En particular, podemos enfrentarlas y calcular al ganador de torneos.
Primero, es necesario resaltar algunas propiedades interesantes que pueden cumplir las estrategias deterministas. Decimos que una estrategia determinista
 
A= ({a0, a1,…, an}, fC, fD, s)
 
es noble si
 
s(a0) = C y s(fC(ai)) = C
 
para toda i. En otras palabras, colabora al principio y, cuando el rival colabora, siempre responde C. Decimos que A es vengativa si
 
s(fD(ai)) = D
 
para toda i. En otras palabras, siempre responde D a una no colaboración de un rival.
Observemos que EstC, tt, t2t son estrategias nobles, mientras que EstD y tt son vengativas. De hecho, en alguna forma que no trataremos aquí, tt es la única estrategia determinista que es simultáneamente noble y vengativa.
Supongamos que tenemos dos estrategias deterministas A y B.
 
A = ({a0, a1,…, an}, fC, fD, s)
B = ({b0, b1,…, bm}, gC, gD, t)
 
En su primer encuentro, responden
 
s(a0):t(b0)
 
La estrategia A cambiará al estado ft(b0)(a0) y la B al estado gs(a0)(b0). En su segundo encuentro, la respuesta será
 
s(ft(b0)(a0)): t(gs(a0)(b0))
 
y cambian los estados de A y B correspondientemente. Matemáticamente, diríamos que la serie de respuestas de los enfrentamientos de A y B, que llamaremos el torneo t(A:B), está dado por la órbita del elemento (a0, b0) en la función tal que
 
F(ai, bj) = (ft(bj) (ai)), gs(ai) (bj))
 
Estos torneos también se pueden dibujar por medio de una gráfica, como en los ejemplos de la figura 2.
FIG2
Ahora, hablemos de la ganancia que obtienen A y B al enfrentarse. Usaremos los mismos valores que empleamos anteriormente, es decir, si en el paso i-ésimo la respuesta es
 
s(ai): t(bi)
 
la ganancia gi(A:B) de A respecto a B en ese paso es
 
1 si s(ai): t(bi) = C:C;
2 si s(ai): t(bi) = D:C;
– 3 si s(ai): t(bi) = C:D;
– 2 si s(ai): t(bi) = D:D;
 
La ganancia g(j)(A:B) de A respecto a B hasta el paso j-ésimo es la suma de todas las gi(A:B) con i ≤ j. Se puede demostrar matemáticamente que el límite de las ganancias promedio de A respecto a B
 
g(A:B) = limj-->∞ g(j)(A:B)/j
 
existe y, conociendo la gráfica del torneo t(A:B), puede calcularse fácilmente. Llamaremos a este número g(A:B) la ganancia neta de A respecto a B, la cual, salvo desviaciones marginales, indica la ganancia que obtiene A al enfrentarse con B. En los ejemplos concretos es fácil calcular g(A:B) como ilustramos en la figura 3.
FIG3
Un resultado importante que muestra el comportamiento de diferentes tipos de estrategias es el siguiente teorema: sean A y B dos estrategias deterministas. Entonces sucede lo siguiente: Si A es noble,
 
g(A:B) ≤ g(B:A)
 
si A es vengativa, entonces
 
g(A:B) ≥ g(B:A); y g(tt,B) = g(B:tt).
 
En otras palabras, Tit-for-Tat no supera a ninguna, sólo empata. Sin embargo, esto le basta para ganar, al menos a veces, cuando se enfrenta con varias estrategias en torneos co­mo los organizados por Axelrodt.
Ahora, organicemos un torneo con los siguientes participantes: Tit-for-Tat y las estrategias P y B indicadas en la figura 4, que incluye la tabla de ganancias. Observamos que P resulta ganadora del torneo. Definitivamente, Tit-for-Tat no es tan buena como la pintan.
FIG4
La estrategia Pavlov

En 1993, Nowak y Sigmund observaron que la estrategia P tenía un comportamiento interesante. Al realizar simulaciones por computadora de torneos entre estrategias estocásticas, obtenían que P era más exitosa que Tit-for-Tat. Por primera vez se contradecían las aclamadas observaciones de Axelrodt.
 
En ese artículo, se le llamó Pavlov a la estrategia P por la siguiente observación: Pavlov colabora con otra estrategia B en el movimiento i-ésimo si y sólo si en el movimiento anterior ambas jugaron igual. Un jugador con la estrategia Pavlov reacciona como reflejo a su ganancia, repite la respuesta anterior si obtiene T o R puntos (> 0) y cambia de respuesta si obtiene P o S puntos (< 0). Según los autores, el éxito de Pavlov se basa en dos ventajas sobre Tit-for-Tat.
 
La primera es que puede corregir errores ocasionales. Si dos estrategias Tit-for-Tat se enfrentan y por error —aquí no suponemos que las estrategias son deterministas puras— una contesta D en lugar de C, quedarían perpetuamente respondiendo D:D. En cambio, un error en un jugador Pavloviano, se corrige a la ronda si­guiente y regresan a una amigable situación C:C. La segunda es que, a diferencia de Tit-for-Tat, puede sacar provecho de los cooperadores incondicionales. Un error de un jugador Pavloviano contra un cooperador in­condicional trae por consecuencia una sucesión de D:C, lo cual favorece las ganancias del Pavloviano. Jamás le sucederá algo así a un jugador con estrategia Tit-for-Tat.
 
La explicación del éxito pretendido por Tit-for-Tat, según Nowak y Sigmund, está en el tipo de torneos deterministas que fueron jugados. Además, ya se mostró que tt no es exitosa en el mundo determinista. Por otra parte, en el torneo de la figura 4 se observa que Pavlov tampoco es una estrategia invencible, la estrategia B la vence. De hecho, hemos demostrado el siguiente resultado o teorema: Sea

A= ({a0, a1,…, an}, fC, fD, s)

una estrategia determinista con un máximo de cuatro estados. Entonces g(A:J4) ≤ g(J4:A) donde J4 es la estrategia definida en la figura 5.
FIG5
El dilema del prisionero se ha estudiado por más de cincuenta años como una metáfora matemática de muchos problemas biológicos, sociales, económicos y políticos. Como paradigma de la colaboración, la es­trategia Tit-for-Tat ha jugado un papel conceptual fundamental. Sin embargo, diversas consideraciones matemáticas y algunas simulaciones por computadora, muestran que esta estrategia no cumple con las expectativas formuladas en la literatura. Otras estrategias más simples, como la intolerante —igual a colaboro la primera vez y sigo colaborando sólo si antes colaboraron conmigo—es mucho más exitosa que la estrategia Tit-for-Tat. Tal vez esto sea decepcionante políticamente, pero matemáticamente es cierto.
José Antonio de la Peña
Instituto de Matemáticas,
Universidad Nacional Autónoma de México.
Nelia Tello
Escuela Nacional de Trabajo Social,
Universidad Nacional Autónoma de México.
Referencias bibliográficas
 
Axelrodt, R. 1984. The Evolution of Cooperation. Basic Books, Nueva York.
Conway, J. H. 1971. Regular Algebra and Finite Machines. Chapman and Hall, Londres.
De la Peña, J. A. y N. Tello (en prensa). Deterministic strategies in the iterated Prisoner´s Dilemma.
Dugatkin, L. A. 1997. Cooperation among Animals. An Evolutionary perspective. Oxford University Press.
Hofstadter, D. 1983. “The Prisoner´s Dilemma and the evolution of cooperation”, en Scientific American, número de mayo.
Mesterton-Gibbons, M. 2001. An Introduction to Game-Theoretic Modelling. Student Mathematical Librery 11, ams.
Nowak, M. y K. Sigmund. 1993. “A strategy of win-stay, lose-shift that outperforms tit-for-tat in the Prisoner´s Dilemma game”, en Nature, Vol. 364, pp. 56-58.
José Antonio de la Peña es Doctor en Matemáticas por la unam y realizó un posdoctorado en la Universidad de Zürich. Es investigador del Instituto de Matemáticas de la unam, de donde es director desde 1998. Pertenece al SNI en el Nivel III. Obtuvo el Premio Nacional de Ciencias y Artes 2005 en el área de Ciencias Exactas y Naturales.
Nelia Tello Peón es licenciada en Trabajo Social por la unam y pasante de la maestría en Semiótica, U. Anahuac. Especialista en atención a jóvenes y académica de la Escuela Nacional de Trabajo Social de la unam, de donde fue directora entre 1992 y 2000.
_______________________________________________________________

 

como citar este artículo

De la Peña, José Antonio y Tello, Nelia. (2006). ¿Colaborar o no colaborar? Ése es el dilema. Ciencias 82, abril-junio, 42-49. [En línea]
  ←Regresar al índiceartículo siguiente→

You are here: Inicio Búsqueda Titulo revistas revista ciencias 82 ¿Colaborar o no colaborar? Ése es el dilema