Educación

¿El aprendizaje automático resuelve el problema de la replicación en psicología?

Una nueva investigación intenta predecir las tasas de replicación en psicología.

14 de febrero de 2023 | Revisado por Kaja Perina

Los puntos clave

Una nueva investigación desarrolla un algoritmo de aprendizaje automático para predecir si un estudio de psicología se replicará o no.
Este algoritmo de aprendizaje automático usa la elección de palabras en los artículos de psicología, no otra información clave, para predecir.
El algoritmo tiene una precisión general baja (68%) y se basa en réplicas existentes que no cubren todas las áreas de la psicología que estudian.
En general, el artículo respalda varios hallazgos sobre la replicación, como que difiere según el área (por ejemplo, social versus personalidad).

Source: Created by Alex Danvers on Canva.

Replicar estudios es clave para ganar confianza en ellos. No solo queremos efectos psicológicos que ocurrieron una vez en un laboratorio, queremos efectos que sean ampliamente ciertos y que puedan usarse para ayudarnos a mejorar nuestras vidas en el mundo real. Pero realizar estudios de replicación es difícil, requiere mucho tiempo y, a menudo, está plagado de luchas académicas internas. ¿Qué pasaría si pudiéramos usar el aprendizaje automático para ayudar a automatizar este proceso y obtener automáticamente puntajes de replicación para miles de estudios a la vez?

Una nueva investigación por Wu Youyou, Yang Yang y Brian Uzzi en el Proceedings of the National Academy of Sciences intenta hacer esto. Utilizan el aprendizaje automático para intentar comprender qué tan bien se replicará la investigación psicológica en varios subcampos (por ejemplo, psicología clínica, psicología del desarrollo, psicología social). Este es un documento ambicioso, y da una idea de la replicación en psicología. Sin embargo, los problemas con el enfoque de aprendizaje automático deberían hacernos cautelosos al interpretar los resultados.

¿Qué hicieron?

Los investigadores recolectaron una muestra de 388 estudios de psicología que se habían replicado anteriormente y los utilizaron para entrenar su modelo de aprendizaje automático. Estos eran estudios existentes que se habían realizado por otras razones, como en el Proyecto de Replicación en Psicología (RPP) en 2016 y el Proyecto Resultados de Vida de la Replicación de la Personalidad (LOOPR) . El texto de estos artículos se analizó utilizando un algoritmo bien conocido. Aproximadamente, lo que hace el algoritmo es contar la frecuencia con la que se usa cada palabra en un artículo y luego convertirlas en una serie de 200 números basados en asociaciones de palabras comunes en la investigación de ciencias sociales. Estos resúmenes de 200 números del texto manuscrito se utilizan para entrenar un modelo de aprendizaje automático para predecir si un estudio se replicó con precisión o no.

Luego, los investigadores utilizaron el modelo de aprendizaje automático entrenado en réplicas existentes para predecir si otros artículos se replicarían (si alguien intentara replicarlos en el futuro). Hicieron estas predicciones en un conjunto de artículos mucho más grande: más de 14,000 artículos, que cubren casi todos los artículos publicados en seis revistas principales durante toda una década. Luego analizaron estas predicciones para tratar de comprender mejor estos subcampos.

Posibles problemas con la investigación

Los lectores cuidadosos de este documento pueden notar algunos problemas potenciales de inmediato.

Source: Created by Alex Danvers on Canva.

1. ¿Qué tan precisas fueron estas predicciones?

La precisión fue decente pero no excelente: 68%. Entonces, cuando analizan las predicciones para 14,000 nuevos artículos, sabemos que serán bastante inexactas.

Además, podemos hacer una comprobación rápida de la replicación prevista de un campo a la replicación real de un campo. A veces se alinea: para la psicología social, la tasa de replicación en la investigación completada es del 38% y la tasa de replicación predicha es del 37%. Pero a veces está muy lejos: para la psicología de la personalidad, la tasa de replicación en la investigación completada es del 77%, pero la tasa prevista es del 55%. Esto debería darnos una pausa a la hora de sacar conclusiones de este modelo.

2. ¿Es realmente razonable esperar que los estudios de replicación anteriores predigan otros nuevos?

Responder a esta pregunta significa determinar si los estudios de replicación previos hacen un buen trabajo. Todas y cada una de las posibles réplicas futuras (al menos de estas seis revistas). Hay un par de razones por las que no lo hace.

En primer lugar, los estudios de replicación previos no incluyen ningún estudio de psicología clínica o psicología del desarrollo. Eso es un problema porque este documento quiere hacer predicciones sobre los principales documentos en ambos campos. Dado que el modelo no se entrenó en ninguno de esos documentos, es probable que la precisión sea aún menor cuando se encuentre con este nuevo tipo de papel diferente. (Los autores tratan de abordar esto diciendo que los tipos de palabras utilizadas en esos documentos son similares a los tipos de palabras utilizadas en áreas donde tenemos réplicas, pero no es del todo convincente.) Nuestra precisión del 68% es probablemente incluso menor para estos campos.

En segundo lugar, incluso en las áreas donde hay varias réplicas existentes, no representan igualmente bien a todas las áreas. Por ejemplo, se han realizado más réplicas de experimentos de psicología social que se pueden realizar rápidamente en una computadora, en comparación con aquellos que implican registrar interacciones y codificar o calificar el comportamiento. Por lo tanto, nuestra precisión para este tipo de estudios también puede ser menos precisa.

3. ¿Es un modelo basado en asociaciones léxicas la mejor manera de evaluar los estudios que tienen marcadores como los valores p?

El uso de vectores de palabras (200 números relacionados con las elecciones de palabras de los autores) significa que este enfoque particular de aprendizaje automático se basa solo en asociaciones de palabras. Otros factores, más allá de las palabras que se usaron, son claramente importantes. Por ejemplo, sabemos que los estudios con valores p que simplemente cruzan el umbral para ser publicables tienden a ser menos confiables que los estudios con valores p que se cruzan por un amplio margen. Si se pudieran usar estos datos y la precisión aumentara en un 5-10%, tendría mucha más confianza en las conclusiones extraídas de las predicciones.

Education Lecturas esenciales

El aumento de la educación en casa: confesiones de una educadora

Comprender es ver un patrón

¿Qué podemos aprender?

Source: Created by Alex Danvers on Canva

Youyou y sus colegas concluyen que su "modelo nos permite realizar el primer censo de replicación de casi todos los artículos publicados en las seis principales revistas de subcampo de psicología durante un período de 20 años". Si bien generan y analizan predicciones de este gran conjunto de manuscritos, las preocupaciones sobre la precisión y la aplicación del algoritmo a nuevos tipos de datos (por ejemplo, nuevos subcampos, nuevos tipos de investigación) me hacen escéptico de poder sacar conclusiones confiables de la salida del algoritmo.

Dicho esto, hay varios argumentos convincentes que los autores hacen donde su algoritmo coincide con la literatura existente. Estos argumentos son más convincentes (para mí) debido a esta coincidencia.

No hay una sola tasa de replicación para la psicología; las tasas de replicación realmente deben considerarse por área (por ejemplo, la psicología de la personalidad funciona mejor que la psicología social)
Los autores principales que publican más y en mejores revistas tienden a tener trabajos que se replican más, pero trabajar en una universidad prestigiosa no predice mejores tasas de replicación.
Los estudios que reciben más atención de los medios tienden a replicarse menos, posiblemente porque los medios se sienten atraídos por historias llamativas y contraintuitivas que también tienen menos probabilidades de resistir la prueba del tiempo.

Finalmente, los autores encontraron que la investigación experimental (donde los psicólogos manipulan activamente las condiciones) tiende a replicarse menos que la investigación no experimental (donde los psicólogos observan el comportamiento e informan qué está relacionado con qué). Esto es algo sorprendente, pero me parece que podría explicarse por la muestra utilizada para entrenar el modelo: la psicología de la personalidad, que tiende a ser más rigurosa metodológicamente y observacional, se replica más. La psicología social, que tiende a ser más metodológicamente laxa y experimental, se replica menos. Los modelos de aprendizaje automático captan patrones en los datos con los que están entrenados. Del mismo modo que entrenar un modelo de predicción de delitos en datos con sesgos raciales reproduce esos sesgos, entrenar un modelo de predicción de replicación en datos sesgados hacia la investigación observacional reproducirá ese sesgo. Puede haber ventajas únicas para la investigación observacional en psicología sobre los experimentos, pero aún no estoy convencido.

En general, este manuscrito representa una contribución interesante a una creciente literatura sobre el uso del aprendizaje automático para evaluar la literatura de investigación. Se realizó mucho trabajo computacional para desarrollar tanto las codificaciones basadas en texto como las predicciones para los más de 14,000 nuevos estudios. Si bien el algoritmo aún no es lo suficientemente fuerte como para que saquemos conclusiones sólidas, existe la posibilidad de que en unos pocos años, las descripciones automatizadas del campo basadas en este modelo sean lo suficientemente precisas como para que hagamos declaraciones seguras sobre la psicología en su conjunto.

¿Podemos automatizar los problemas de replicación de la psicología?

A version of this article originally appeared in English.