ChatGPT-4 hace diagnósticos clínicos más precisos que los médicos, según un estudio
ChatGPT-4, el algoritmo de inteligencia artificial (IA) de OpenAI, ha demostrado tener capacidades de diagnóstico clínico superiores a las de los profesionales de la salud. Así lo ha concluido un estudio dirigido por Adam Rodman, experto en medicina interna del Centro Médico Beth Israel Deaconess de Boston.
El trabajo publicado en la revista JAMA Network intentó determinar si el uso de modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) podrían mejorar el razonamiento diagnóstico entre los especialistas de medicina familiar, interna y de emergencia. Los científicos realizaron un ensayo en el que participaron 50 doctores residentes y adjuntos de Estados Unidos. El objetivo era evaluar el potencial de ChatGPT-4 para realizar valoraciones médicas, en comparación con los métodos de asistencia tradicionales. El procedimiento utilizó una rúbrica estandarizada y validada por terceros. El desempeño fue calificado en función de la precisión de los resultados, el tiempo de respuesta y la pertinencia de los factores de confirmación y oposición.
Los participantes tenían la encomienda de evaluar seis historias confidenciales y reales para entregar un dictamen en 60 minutos. Fueron divididos en dos grupos. El primero tuvo acceso a un bot soportado por ChatGPT-4, mientras que el segundo sólo pudo utilizar técnicas exploratorias convencionales. Los médicos que contaron con el apoyo del sistema de IA acertaron en sus diagnósticos en el 76% de los casos. Sus pares sin ayuda tecnológica emitieron un juicio preciso en el 74% de las ocasiones.
Rodman y sus colegas realizaron un análisis secundario para medir el desempeño independiente del recurso de IA y cotejarlo con los hallazgos obtenidos en la primera fase. El chatbot basado en ChatGPT-4 consiguió una tasa de precisión de 90% en promedio. “El LLM por sí solo demostró un rendimiento superior al de ambos conjuntos de médicos, lo que indica la necesidad de trabajar en el desarrollo de la tecnología y de instruir a la fuerza laboral para aprovechar las ventajas de la inteligencia artificial en la práctica”, anotan los autores.
La investigación señala que los profesionales de la salud cada vez están más expuestos a soluciones de IA que podrían facilitar y optimizar su labor. Pese a ello, pocos saben cómo explotar los beneficios de esta tecnología. Rodman ha atribuido la tendencia a un sesgo cognitivo que, afirma, es común en las profesiones médicas. En declaraciones retomadas por The New York Times asegura que los especialistas tienden a priorizar su juicio, fundamentado casi siempre en su experiencia previa, por encima de la evidencia objetiva y contradictoria.
Los investigadores advierten que “los resultados de este experimento no deben interpretarse como una indicación de que los LLM se deben utilizar para el diagnóstico de forma autónoma y sin la supervisión de un médico”. Explican que lo que han evidenciado es que se requiere de un mayor desarrollo de las interacciones entre humanos y computadoras para aprovechar las capacidades de la IA en los mecanismos de toma de decisiones clínicas. “Los sistemas de IA deberían ser extensores de médicos que ofrezcan valiosas segundas opiniones sobre los diagnósticos”, reitera Rodman.