Educación
Un nuevo estudio de inteligencia artificial explica por qué funciona el aprendizaje profundo
Una nueva teoría de los investigadores del MIT ilumina la caja negra del aprendizaje automático.
15 de mayo de 2024 Revisado por Gary Drevitch
La resurgencia de la inteligencia artificial (IA) se debe mayoritariamente a los avances en el reconocimiento de patrones debido al aprendizaje profundo, una forma de aprendizaje automático que no requiere de introducción de códigos explícitos. La arquitectura de las redes neuronales profundas está inspirada de alguna forma en el cerebro biológico y la neurociencia. Al igual que el cerebro biológico, el funcionamiento interno y el por qué exactamente funcionan las redes profundas aún no se ha podido explicar, y no hay una sola teoría unificadora. Recientemente, los investigadores en el Instituto de Tecnología de Massachusetts (MIT) revelaron nueva información sobre el funcionamiento de las redes de aprendizaje profundo para ayudar a entender la caja negra del aprendizaje de la IA.
El trío de investigación en MIT conformado por Tomaso Poggio, Andrzej Banburski y Quianli Liao en el Centro de Cerebros, Mentes y Máquinas desarrolló una nueva teoría sobre la razón por la que las redes profundas funcionan y publicaron su estudio el 9 de junio de 2020 en PNAS (Procedimientos de la Academia Nacional de Ciencias de Estados Unidos de América).
Los investigadores enfocaron su estudio en la aproximación a las redes profundas de ciertas clases de funciones multivariadas que evitan la maldición de la dimensionalidad: fenómenos en donde hay una dependencia exponencial a la cantidad de parámetros para precisión en la dimensión. Con frecuencia, en el aprendizaje automático aplicado, los datos son muy dimensionales. Los ejemplos de datos de alta dimensión incluyen el reconocimiento facial, el historial de compras de un cliente, los registros de atención médica de los pacientes y el análisis del mercado financiero.
La profundidad en redes profundas se refiere al número de capas computacionales: cuantas más capas de red computacional, más profunda es la red. Para formular su teoría, el equipo examinó el poder de aproximación del aprendizaje profundo, la dinámica de optimización y el rendimiento fuera de la muestra.
En el estudio, los investigadores compararon redes profundas y superficiales en las que ambas utilizaron conjuntos idénticos de procedimientos, como agrupación, convolución, combinaciones lineales, una función no lineal fija de una variable y productos escalares. ¿Por qué las redes profundas tienen grandes poderes de aproximación y tienden a lograr mejores resultados que las redes superficiales, dado que ambas son aproximaciones universales?
Los científicos observaron que en el caso de las redes neuronales profundas convolucionales con localidad jerárquica, este costo exponencial se desvanece y se vuelve más lineal nuevamente. Luego demostraron que se puede evitar la dimensionalidad para redes profundas del tipo convolucional para ciertos tipos de funciones compositivas. Las implicaciones son que para problemas con la localidad jerárquica, como la clasificación de imágenes, las redes profundas son exponencialmente más poderosas que las redes superficiales.
"En la teoría de la aproximación, se sabe que tanto las redes superficiales como las profundas se aproximan a cualquier función continua a un costo exponencial", escribieron los investigadores. "Sin embargo, demostramos que para ciertos tipos de funciones de composición, las redes profundas del tipo convolucional (incluso sin compartir el peso) pueden evitar la maldición de la dimensionalidad".
Luego, el equipo se propuso explicar por qué las redes profundas, que tienden a estar sobreparametrizadas, funcionan bien con datos fuera de la muestra. Los investigadores demostraron que para los problemas de clasificación, dada una red profunda estándar, entrenada con algoritmos de descenso de gradientes, lo que importa es la dirección en el espacio de parámetros, más que las normas o el tamaño de los pesos.
“Al caracterizar la minimización de la pérdida exponencial empírica, consideramos el flujo de gradiente de las direcciones de peso en lugar de los pesos en sí mismos, ya que la función relevante subyacente a la clasificación corresponde a normalizar redes”, escribieron los coautores. “La dinámica de las ponderaciones normalizadas resulta ser equivalente a las del problema restringido de minimizar la pérdida sujeta a una restricción de norma unitaria. En particular, la dinámica del descenso de gradiente típico tiene los mismos puntos críticos que el problema restringido".
Las implicaciones son que la dinámica del descenso del gradiente en redes profundas es equivalente a aquellas con restricciones explícitas tanto en la norma como en el tamaño de los parámetros: el descenso del gradiente converge a la solución de margen máximo. El equipo descubrió una similitud conocida con los modelos lineales en los que las máquinas vectoriales convergen a la solución pseudoinversa que tiene como objetivo minimizar el número de soluciones.
En efecto, el equipo postula que el acto de entrenar redes profundas sirve para proporcionar regularización implícita y control de normas. Los científicos atribuyen la capacidad de generalización de las redes profundas, sin controles de capacidad explícitos de un término de regularización o restricción sobre la norma de los pesos, al cálculo matemático que muestra que el vector unitario (calculado a partir de la solución del descenso del gradiente) permanece igual, si la restricción se aplica o no durante el descenso del gradiente. En otras palabras, las redes profundas seleccionan soluciones de normas mínimas, por lo que el flujo del gradiente de las redes profundas con una pérdida de tipo exponencial minimiza localmente el error esperado.
"Creemos que nuestros resultados son especialmente interesantes porque representan una explicación potencial para uno de los mayores acertijos que ha surgido en el campo del aprendizaje profundo, es decir, la efectividad irracional de las redes profundas convolucionales en una serie de problemas sensoriales", escribieron los investigadores.
A través de la combinación interdisciplinaria de matemáticas aplicadas, estadística, ingeniería, ciencia cognitiva e informática, los investigadores del MIT desarrollaron una teoría sobre por qué funciona el aprendizaje profundo que puede permitir el desarrollo de nuevas técnicas de aprendizaje automático y acelerar los avances de la inteligencia artificial en el futuro.
Derechos reservados © 2020 Cami Rosso. Todos los derechos reservados.
A version of this article originally appeared in English.