![]() |
![]() |
|
|||||||||
David Spiegelhalter |
|||||||||||
El año pasado durante las vacaciones en Portugal, tuvimos
que confiar en la “Señora Google” para que nos diera, en su terrible acento portugués, las indicaciones para manejar. Mientras maniobrábamos por las estrechas calles de la ciudad universitaria en Coimbra, ella nos indicó muy segura de sí misma que diéramos vuelta a la izquierda, así que le obedecimos. Pero nos quedamos algo desconcertados cuando de manera abrupta el camino se transformó en escalones —detuvimos el auto a tiempo, pero después de eso ya no confiamos tanto en sus indicaciones.
Pero no se trata sólo de los algoritmos para la navegación con lo que se necesita ser cautos. Se están desarrollando grandes cantidades de algoritmos (utilizo el término “algortimo” en un sentido bastante general para referirme ya sea a la fórmula, al modelo codificado o incluso a la directriz que será utilizada en una situación nueva; no me refiero a la manera en la que este procedimiento fue construido, por medio de aprendizaje de una máquina, de análisis estadístico estándar, de discernimiento, u otros métodos), todos ellos de diversa complejidad dentro de los sistemas de los servicios de salud y de justicia criminal, lo que incluye, por ejemplo, el sistema u.k. hart (Harm Assessment Risk Tool/Herramienta para Determinar el Riesgo de Daño) que, comentan Oswald y colaboradores, se utiliza para evaluar el riesgo de reincidencia, y que está basado en una técnica de aprendizaje de una máquina conocido como un bosque aleatorio. Pero la fiabilidad e imparcialidad de este tipo de algoritmos para mantener el orden son fuertemente cuestionadas: además del debate sobre el reconocimiento de rostros, del que da cuenta Simonite, un informe reciente acerca de a los algoritmos de predicción en el mantenimiento del orden el cual fue realizado por la organización para derechos humanos Liberty, establece que “su empleo pone en riesgo nuestros derechos”, como lo señala Holmes.
Es importante no quedarse fascinado por el aura de misterio que rodea a la inteligencia artificial. Los medios de comunicación masiva (y los políticos) se encuentran repletos de historias crédulas sobre el aprendizaje de las máquinas y la inteligencia artificial, pero con frecuencia estas historias están basadas en reivindicaciones comerciales, como explican Brennen y Nielsen. En esencia, estos programas simplemente toman algunos datos y utilizan reglas o fórmulas matemáticas para obtener una respuesta cuya intención es ser usada para mejorar el discernimiento profesional. La idea del uso de algoritmos en el sistema de justicia criminal no es nuevo: pocas veces se reconoce que los sencillos sistemas para determinar la posibilidad de reincidencia, basados en un análisis de regresión estadística, han sido utilizados durante décadas, afirman Copas y Marshall. En efecto, las directrices básicas para sentenciar pueden ser consideradas como algoritmos diseñados para producir coherencia, y proporcionar un punto de partida que pueda ajustarse de acuerdo al criterio del juez en relación a un caso específico, indica el Sentencing Council.
Sin embargo, el informe realizado por Liberty es sólo un ejemplo del aumento por la preocupación de las cuestiones éticas, y puede parecer que ahora hay más personas trabajando en la ética de los algoritmos, inteligencia artificial y aprendizaje de máquinas, que en la tecnología misma. Existen varias listas de control e iniciativas, por ejemplo, Algocare para mantener el orden, como explican Oswald y colaboradores, mientras que fatml (Fairness, Accountability and Transparency in Machine Learning/Imparcialidad, Responsabilidad y Transparencia en el Aprendizaje de Máquinas), recomienda una declaración del impacto social para cualquier algoritmo.
Esto está estipulado en un documento elaborado por dicha organización, en donde se detallan los siguientes rubros: 1) responsabilidad, esto es a quién recurrir cuando las cosas salen mal; 2) explicaciones, dirigidas a los inversionistas y en términos que no sean técnicos; 3) exactitud, para identificar las fuentes de error e incertidumbre; 4) auditorías, para permitir que terceras partes revisen y hagan crítica; y 5) imparcialidad, para con los distintos grupos demográficos.
Dentro de la justicia criminal, como lo ha señalado la asociación equivant, el sistema compas se utiliza ampliamente en los Estados Unidos para predecir la reincidencia y tomar decisiones informadas para poner en libertad bajo fianza. Toma en consideración 137 aspectos de información, y produce una calificación para el riesgo entre 1 y 10, y que se clasifica como bajo, mediano y alto. Pero el procedimiento está patentado y actúa como una completa caja negra, mientras que se ha acusado al sistema compas de operar con un prejuicio racial, como señala Angwin, a pesar de que este análisis ha sido fuertemente cuestionado —de lo que dan cuenta CorbettDavies y colaboradores. Una solicitud contra su uso fracasó, se explica en la Harvard Law Review, pero el sistema compas presenta un desempeño pobre en la mayoría de los criterios de fatml.
De modo que parecería que todo se reduce a una sencilla pregunta —¿podemos confiar en los algoritmos?
Confianza y honradez
En esta época de desinformación y voces altas que compiten entre ellas, todos necesitamos que confíen en nosotros. Pero como ha dicho la filósofa Onora O’Neill, las organizaciones no deberían intentar inspirar confianza; más bien deberían tener como objetivo demostrar su honradez, lo cual requiere ser honestos, competentes, y confiables. Esta idea simple pero poderosa ha tenido mucha influencia: la revisión del Código del Ejercicio para las estadísticas oficiales en el Reino Unido coloca a la Honradez como su primer “pilar”, como se ve en el reporte de 2018 de la UK Statistics Authority.
Parece razonable que, cuando nos enfrentamos con un algoritmo, deberíamos esperar garantías de honradez: 1) tanto acerca del sistema —lo que las personas que desarrollan el algoritmo dicen que puede hacer, y cómo ha sido evaluado; como 2) del sistema mismo —lo que dice sobre un caso específico.
Este es un tema complejo, pero la ciencia estadística puede ayudar —ha contribuído a la comunicación y evaluación durante décadas. Consideremos estos dos criterios con más detalle.
De afirmaciones acerca del sistema
Como lo documenta un informe reciente del Reuters Institute analizado por Brennen y Nielsen, existen muchas afirmaciones exageradas acerca de la inteligencia artificial alentadas por consideraciones comerciales más que científicas. Eric Topol, en su muy respetable reseña sobre la inteligenecia artificial en la medicina, establece sin sutilezas que: “el estado en el que se encuentra la moda de la ia ha excedido por mucho al estado de la ciencia en la ia, en particular cuando se refiere a la validación y prontitud en la implementación del cuidado de los pacientes”.
La honradez de las afirmaciones acerca del sistema completo se podrían comunicar proporcionando una declaración del impacto social apegado a los lineamientos sugeridos por la fatml. Pero hay una consideración importante que falta en ese listado. Parece que se da por hecho que los algoritmos serán benéficos una vez implementados y, dado que esto no queda asegurado de ninguna manera, yo recomendaría que se añada lo siguiente: el impacto, esto es, ¿cuáles son los beneficios (y daños) cuando en realidad se utiliza el algoritmo?
Los especialistas en estadística han estado familiarizados con la evaluación estructurada durante décadas, desde que los escándalos tales como los defectos de nacimiento causados por la talidomida desencadenaron un régimen de pruebas rígido para las nuevas farmacéuticas. La esctructura de cuatro fases establecida está resumida en la tabla 1, junto con una estructura para los algoritmos basados en propuestas duraderas semejantes dadas por mí en un texto publicado en 1983 y por Stead y colaboradores, en 1994.
Casi toda la atención en la literatura publicada sobre algoritmos tanto médicos como para mantener el orden se ha enfocado en la fase 1 —la exactitud que se afirma para los conjuntos de datos digitales. Pero esto es sólo el inicio del proceso de evaluación. Hay una cantidad pequeña pero que va en aumento de evaluaciones de la fase 2, en las cuales el desempeño se compara con el de “expertos” humanos, algunas veces en la forma de una Prueba de Turing, descrita por él en 1950, en la cual la calidad de los juicios realizados tanto por humanos como por algoritmos es establecida por expertos independientes, quienes ignoran si el juicio fue hecho por un humano o un algoritmo. Por ejemplo, señala Copestake, la compañía de inteligencia artificial médica Babylon condujo un estudio para la fase 2, comparando su sistema de diagnóstico con el de médicos, aunque este estudio después fue fuertemente criticado en el Lancet, como lo señalan Fraser y colaboradores. Kleinberg, Lakkaraju, Leskovec, Ludwig y Mullainathan también tratan sobre la analogía entre algoritmos para evaluar la reincidencia y la estructura en cuatro fases para las farmacéuticas, y modelan una comparación para la fase 2 entre decisiones tomadas por humanos y por algoritmos.
Topol también reporta que: “ha habido una notable y pequeña validación esperada para las tareas que las máquinas podrían desempeñar para ayudar a los médicos clínicos o para predecir resultados clínicos que serían útiles para los sistemas de salud”. Esto significa que ha habido muy pocas evaluaciones en la fase 3 donde se verifique si el sistema puesto en práctica de hecho hace más bien que daño: incluso los sistemas simples para cuantificar los riesgos han sido rara vez evaluados en pruebas aleatorias, aunque una Cochrane Review de pruebas aleatorias para la cuantificación del riesgo en la prevención primaria de enfermedades cardiovasculares concluyó que “proporcionar una cuantificación del riesgo en enfermedades cardiovasculares podría reducir de manera leve los niveles del factor de riesgo para enfermedades cardiovasculares y puede aumentar que se recete medicina preventiva a personas con alto riesgo sin que exista evidencia de daño causado”, explican Karmali y colaboradores.
Los algoritmos pueden tener un impacto a través de un mecanismo inesperado. En los ochentas, yo estuve involucrado en un estudio de “diagnóstico asistido por computadora”, cuando esto significaba contar con una computadora grande y torpe en un rincón de la clínica. En una prueba aleatoria, señalan Wellwood y colaboradores, quedó mostrado que incluso un algoritmo bastante deficiente podía mejorar el desempeño clínico para diagnosticar y tratar el dolor abdominal agudo —no porque los médicos tomaran mucho en cuenta lo que la computadora decía, pero simplemente porque los alentaba a reunir de manera sistemática una buena historia y realizar un diagnóstico inicial.
Existen, sin embargo, limitaciones en la analogía para evaluar a las farmacéuticas. Las medicinas que se recetan actúan en los individuos y, con las notables excepciones del abuso de antidepresivos y opioides, rara vez tienen un impacto en la sociedad en general. En contraste, el amplio uso de un algoritmo tiene el potencial para tener un impacto de ese tipo y, por tanto, las pruebas tradicionales controladas aleatoriamente y basadas en individuos podrían necesitar ser complementadas con una evaluación del efecto en las poblaciones. La estructura que tiene, en el Reino Unido, el UK Medical Research Council para evaluar intervenciones médicas complicadas puede ser relevante; la propuesta original (que ha sido citada muchas veces) seguía muy de cerca el modelo farmacéutico implementado y descrito arriba, indican Campbell y colaboradores, pero una versión revisada transitó hacia un modelo más interactivo con una reducción en el énfasis en los métodos experimentales, como lo mencionan Craig y colaboradores, y una actualización más profunda que está en preparación promete aumentar su perspectiva a otras disciplinas y minimizar aún más las pruebas controladas de manera aleatoria, concluyen Skivington y colaboradores.
Algo importante que se debe tener en mente es que los algoritmos clínicos están considerados como mecanismos médicos con propósitos de regulación, digamos por la Unión Europea, como indican Fraser y colaboradores, o por la Food and Drug Administration (fda) en los Estados Unidos, como se aprecia en el documento del Center for Devices and Radiological Health, y por tanto no están sujetos a la estructura de cuatro fases para las farmacéuticas que se muestra en la tabla 1. Las pruebas aleatorias del impacto en la fase 3 no se requieren, por tanto, para la aprobación, donde se hace un fuerte énfasis en la confiabilidad de la tecnología o del código mismo. Además, esto presupone que los algoritmos que han mostrado tener una exactitud razonable en el laboratorio tienen que ser de ayuda en la práctica, y una evidencia explícita de esto mejoraría la honradez de las afirmaciones hechas en referencia al sistema.
De afirmaciones hechas por el sistema
Cuando se somete a un individuo a lo que afirma un algoritmo, digamos, una evaluación del riesgo de reincidencia o un diagnóstico médico, parece razonable que él o sus representantes pudieran obtener respuestas claras a preguntas tales como las siguientes: 1) ¿este caso se encuentra dentro de las competencias del algoritmo?; 2) ¿cuál fue la secuencia de los razonamientos que llevaron a esta afirmación?; 3) ¿qué hubiera sucedido si los datos que se le proporcionaron al algoritmo hubieran sido distintos (hechos contradictorios)?; 4) ¿hubo algún punto importante en la información que “inclinó la balanza hacia un lado”?; y 5) ¿cuál es el factor de incertidumbre que rodea a esta afirmación?
Mientras que un algoritmo de aprendizaje profundo puede ser apropiado para el análisis automático de datos a través de imágenes, cuando hay menos datos para alimentar al algoritmo puede ser posible, en un inicio, construir un modelo más sencillo, más fácil de interpretar. La ciencia estadística se ha enfocado principalmente en modelos de regresión lineal en los cuales, fundamentalmente, se asigna pesos a las características para llevarnos a un sistema de calificación, por ejemplo, el trabajo de Caruana y sus colegas en donde utilizan modelos aditivos generalizados para evaluar el riesgo de contraer neumonía. Con frecuencia se dice que un aumento en la capacidad de interpretar los resultados tiene que ser el precio que se paga en el desempeño, pero esto ha sido cuestionado en el caso de los algoritmos para la reincidencia, como señala Rudin. En efecto, un experimento realizado en línea demostró que el público no conocedor era tan bueno como el sistema compas (65% de exactitud), y que el desempeño del sistema compas se podía equiparar con un simple clasificador basado en una regla, concluyen Angelino y colaboradores, e incluso con un modelo de regresión con sólo dos parámetros para predecir (la edad y el número total de sentencias previas), a decir de Dressel y Farid. Además, las evaluaciones de la incertidumbre son una componente fundamental de la ciencia estadística.
Transparencia
La honradez requiere transparencia, pero no sólo la transparencia del estilo de una “pecera” en la cual se proporcionan grandes cantidades de información en un formato que no se puede digerir. La transparencia no proporciona necesariamente una mejor explicación —si los sistemas son muy complejos, incluso el proporcionar un código no será iluminador. Afortunadamente, Onora O’Neill ha hecho de nuevo una importante contribución al desarrollar la idea de “transparencia inteligente”, retomada por la Royal Society en 2012, con la cual ella argumenta que la información debe ser: 1) accesible, es decir, las personas interesadas deben poder encontrarla fácilmente; 2) inteligible, que tales personas deben poder entenderla; 3) utilizable, a saber que la información debe referirse a lo que les preocupa; y 4) evaluable, lo cual significa que, si se solicita, la base para cualquier afirmación debe estar disponible.
Al autor le parece que el último criterio anterior es esencial: un algoritmo honrado debe tener la capacidad de “mostrar cómo funciona” a las personas que necesitan entender cómo llegó a sus conclusiones. Mientras que la mayoría de los usuarios pueden contentarse con aceptar las afirmaciones obtenidas del algoritmo “porque confían en él”, las partes interesadas deberían poder evaluar la confiabilidad de tales afirmaciones. En un estudio experimental de cúanto añade un algoritmo a la precisión humana, Lai y Tan encontraron que el proporcionar una explicación individualizada añadía tanto como proporcionar una certeza genérica acerca de la calidad del algoritmo.
Hemos intentado estar a la altura de estos objetivos en la interfase que hemos construido para el popular programa Predict para mujeres recién diagnosticadas con cáncer de seno, al cual se accede en el portal del National Health Service, y en donde se ingresa los detalles de la enfermedad y posibles tratamientos y se obtiene información predictiva acerca de los beneficios y daños potenciales del tratamiento postoperatorio en la forma de texto, cantidades y gráficas. La explicación se proporciona en múltiples niveles y en múltiples formatos y, de ser solicitados, los detalles completos del algoritmo, incluso el código, están disponibles para el escrutinio. Por supuesto, un problema que conlleva el tener un algoritmo confiable que está empacado de una manera transparente y atractiva es que puede derivar en un “exceso de confianza”, en el cual la información que arroja el algoritmo es tratada como si fuera precisa e incuestionable. Un algoritmo honrado de verdad debería tener la capacidad de comunicar sus propias limitaciones para garantizar, de manera bastante irónica, que no se debe confiar demasiado en él.
Conclusiones
Las personas que desarrollan los algoritmos necesitan demostrar que la honradez de las afirmaciones hechas tanto acerca del algoritmo como por el algoritmo mismo, lo cual requiere una evaluación en fases de la calidad e impacto basada en principios estadísticos fuertes. En el contexto de los algoritmos clínicos, Topol dice: ”se requiere estudios rigurosos, la publicación de los resultados en revistas con arbitraje, y la validación clínica en el ambiente real, antes de proceder a la implementación”. Lo mismo tiene que aplicarse en el caso del sistema de justicia criminal, donde no existe una fda para otorgar permisos.
Finalmente, siempre que el autor escucha afirmaciones acerca de cualquier algoritmo, su lista de las preguntas que le gustaría hacer incluye lo siguiente: 1) ¿funciona bien cuando se le pone a prueba en nuevos lugares en el mundo real? 2) ¿existe algo que podría ser más sencillo, y más transparente y robusto, e igual de bueno? 3) ¿podría yo explicar cómo funciona (en general) a cualquier persona interesada? 4) ¿podría yo explicarle a un individuo cómo llegó el algoritmo a una conclusión en su caso particular? 5) ¿sabe el algoritmo cuándo se encuentra en terreno inestable, y puede reconocer la incertidumbre? 6) ¿la gente lo utiliza de manera apropiada, con el nivel correcto de escepticismo?; y 7) ¿de verdad es de ayuda en la práctica?
El autor piensa que la pregunta 5 es de particular importancia. Cuando a uno le dicen con toda confianza que debe bajar unos escalones manejando el auto, reduce la confianza en la Señora Google, pero en otra ocasión, ella simplemente se rindió y dijo: “no puedo ayudarle por el momento”. Ella recuperó pronto la compostura, pero al autor esto le pareció un comportamiento honrado —el algoritmo supo cuando no sabía y así lo dijo. Una humildad así es difícil de encontrar y debe ser valorada.
|
|||||||||||
Referencias Bibliográficas
Angelino, E., N. Larus-Stone, D. Alabi, M. Seltzer y C. Rudin. 2017. “Learning certifiably optimal rule lists”, en Proceedings of the 23rd acm sigkdd International Conference on Knowledge Discovery and Data Mining, núm. 18, pp.35–44 (bit.ly/2U6LSrT). Angwin, J. 2016. “Machine bias. There’s software used across the country to predict future criminals. And it’s biased against blacks”, mayo 23 (www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing). Brennen, S. y R. Nielsen. 2018. “An Industry-led debate: How UK media cover artificial intelligence” (bit.ly/2U8LwRR) Campbell, M., R. Fitzpatrick, A. Haines, A. Kinmonth, L. Sandercock, P. Spiegelhalter, y P. Tyrer. 2000. “Framework for design and evaluation of complex interventions to improve health” en bmj, vol.321, septiembre 16, pp. 694–696 (bit.ly/2WxeNHe). Caruana, R., Yin Lou, J.Gehrke, P. Koch, M. Sturm y N. Elhadad. 2015. “Intelligible models for healthcare: Predicting pneumonia risk and hospital 30-day readmission”, en Proceedings of the 21th acm sigkdd International Conference on Knowledge Discovery and Data Mining, Agosto 15, pp.1721–1730 (cutt.ly/9tnyLbV). Center for Devices and Radiological Health. 2019. “Artificial intelligence and machine learning in software as a medical device” (cutt.ly/ytnyNd7). Copas, J. y P. Marshall. 1998. “The offender group reconviction scale: A statistical reconviction score for use by probation officers”, en Journal of the Royal Statistical Society. Series C (Applied Statistics), vol.47, núm. 1, pp. 159–171 (bit.ly/2QALnnV). Copestake, J. 2018. “Chatbot claims to beat gps at medical exam”, en bbc News (cutt.ly/1tny1ns). Corbett-Davies, S. Pierson, E., Feller y S. Goel. 2016. “A computer program used for bail and sentencing decisions was labeled biased against blacks. It’s actually not that clear”, en The Washington Post (wapo.st/2xg1q3C). Craig, P., P. Dieppe, S. Macintyre, S. Michie, I. Nazareth y M. Petticrew. 2008. “Developing and evaluating complex interventions: The new Medical Research Council guidance”, en bmj, vol. 337, septiembre 29 (cutt.ly/htny30c). De Fauw, J., J. R. Ledsam et.al. 2018. “Clinically applicable deep learning for diagnosis and referral in retinal disease”, en Nature Medicine, vol. 24, núm. 9, pp. 1342–1350 (bit.ly/2U5Ft0j). Dressel, J. y H. Farid. 2018. “The accuracy, fairness, and limits of predicting recidivism”, en Science Advances, vol.4, núm. 1, pp. 1-5 (cutt.ly/stny6LE). Equivant: The Northpointe Suite. 2019 (www.equivant.com/northpointe-suite/). Fairness, Accountability, and Transparency in Machine Learning. 2019. “Principles for accountable algorithms and a social impact statement for algorithms” (cutt.ly/jtnuwfv). Fraser, A. G., E. G. Butchart, P. Szymański et.al. 2018. “The need for transparency of clinical evidence for medical devices in Europe”, en The Lancet, vol. 392, núm. 10146, pp. 521–530 (bit.ly/3bfpwdD). Fraser, H., E. Coiera y D. Wong. 2018. “Safety of patient-facing digital symptom checkers”, en The Lancet, vol.392, núm. 10161, pp. 2263–2264 (bit.ly/3dhVyHQ). Harvard Law Review. 2019. “State v Loomis, en Marv. L. Rev. núm. 1530 (https://bit.ly/2Wy1JS0). Wisconsin Supreme Court Requires Warning Before Use of Algorithmic Risk Assessments in Sentencing”, en Harvard Law Review, vol.130, pp. 1530-1537 (cutt.ly/BtnuupG). Couchman Hanna. 2019. Report: policing by machine predictive policing and the threat to our rights, en I.Iberty, enero, pp. 86 (cutt.ly/ltnuax0). Karmali, K. N., S. D. Persell, P. Perel, D. M. Lloyd&Jones et.al. 2017. “Risk scoring for the primary prevention of cardiovascular disease”, en Cochrane Database of Systematic Reviews, núm.3, pp.133 (cutt.ly/MtnusOH). Kleinberg, J., H. Lakkaraju, J. Leskovec, J. Ludwig y S. Mullainathan. 2018. “Human decisions and machine predictions”, en The Quarterly Journal of Economics, vol.133, núm. 1, pp. 237–293. Lai, V. y C. Tan. 2019. “On human predictions with explanations and predictions of machine learning models: A case study on deception detection”, en Proceedings of the Conference on Fairness, Accountability, and Transparency, enero, pp. 29–38 (cutt.ly/ntnufVd). National Health Service. 2019. “Predict breast (breast.predict.nhs.uk/). O’Neill, O. 2013. “What we don’t understand about trust” (cutt.ly/ntnujsx). Oswald, M., J. Grace, S. Urwin y G. C. Barnes. 2018. “Algorithmic risk assessment policing models: Lessons from the Durham hart model and ‘Experimental’ proportionality”, en Information & Communications Technology Law, vol. 27, núm. 2, pp. 223–250 (cutt.ly/2tnulyG). Royal Society. 2012. “Science as an open enterprise” (cutt.ly/Jtnul3b). Rudin, C. 2018. “Please stop explaining black box models for high stakes decisions”, en Nat Mach Intell, mayo, pp. 206-215 (cutt.ly/Stnux4t). Sentencing Council. 2019. “Sentencing guidelines for use in Crown Court” (cutt.ly/8tnubGl). Simonite, T. 2019. “Facial Recognition is suddenly everywhere: Should you worry?”, en Wired (cutt.ly/btnunNM). Skivington, K., L. Matthews, P. Craig, S. Simpson y L. Moore. 2018. “Developing and evaluating complex interventions: Updating Medical Research Council guidance to take account of new methodological and theoretical approaches”, en The Lancet, vol. 392, núm. S2, pp. 1-39 (bit.ly/2WsO92t). Spiegelhalter, D. J. 1983. “Evaluation of clinical decision-aids, with an application to a system for dyspepsia”, en Statistics in Medicine, vol. 2, núm. 2, abril-junio, pp. 207–216 (bit.ly/2U8mi6b). Stead, W. W., R. B. Haynes, S. Fuller, C. P. Friedman, L. Travis et.al. 1994. “Designing medical informatics research and library resource projects to increase what is learned”, en Journal of the American Medical Informatics Association, vol. 1, núm. 1, enero-febrero, pp. 28–33 (cutt.ly/5tnuRlK). Topol, E. J. 2019. “High-performance medicine: the convergence of human and artificial intelligence”, en Nature Medicine, vol. 25, núm. 1, pp. 44–56 (cutt.ly/htnu9E7). Turing, A. M. 1950. “Computing Machinery and Intelligence”, Mind New Series, vol. 59, núm. 236, octubre, pp. 433–460 (cutt.ly/vtnu3P8). UK Statistics Authority. 2018. Code of Practice for Statistics. Ensuring official statistics serve the public, UK Statics Autority (cutt.ly/mtnu7Ma). Wellwood, J., S. Johannessen y D. J. Spiegelhalter. 1992. “How does computer-aided diagnosis improve the management of acute abdominal pain?” en Annals of The Royal College of Surgeons of England, vol.74, núm.1, pp. 40–46 (cutt.ly/Vtnu55X). |
|||||||||||
Nota Este artículo se publica bajo permiso de Creative Commons Attribution (CC BY 4.0). Traducción Elsa Puente Vázquez |
|||||||||||
David Spiegelhalter Winton Centre for Risk and Evidence Communication, University of Cambridge. David Spiegelhalter estudió en la Universidad de Oxford (Licenciatura en Artes 1974) y en el University College de Londres. Ganó su Master of Science en 1975 y el título Doctor en Filosofía 1978. Desde 1981 forma parte de la Medical Research Council Biostatistics Unit en Cambridge. Actualmente labora en el Laboratorio Estadístico como Winton Professor of the Public Understanding of Risk. Es Presidente de la Royal Statistical Society desde 2017. |
|||||||||||
cómo citar este artículo →
|