banner
Hogar / Noticias / Cómo las redes neuronales líquidas del MIT pueden resolver problemas de IA, desde la robótica hasta la autoevaluación
Noticias

Cómo las redes neuronales líquidas del MIT pueden resolver problemas de IA, desde la robótica hasta la autoevaluación

Jul 21, 2023Jul 21, 2023

Dirígete a nuestra biblioteca bajo demanda para ver las sesiones de VB Transform 2023. Regístrate aquí

En el panorama actual de la inteligencia artificial (IA), el revuelo en torno a los grandes modelos de lenguaje (LLM) ha llevado a una carrera hacia la creación de redes neuronales cada vez más grandes. Sin embargo, no todas las aplicaciones pueden soportar las demandas computacionales y de memoria de modelos de aprendizaje profundo de gran tamaño.

Las limitaciones de estos entornos han llevado a algunas direcciones de investigación interesantes. Las redes neuronales líquidas, un tipo novedoso de arquitectura de aprendizaje profundo desarrollado por investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL), ofrecen una solución compacta, adaptable y eficiente a ciertos problemas de IA. Estas redes están diseñadas para abordar algunos de los desafíos inherentes a los modelos tradicionales de aprendizaje profundo.

Las redes neuronales líquidas pueden impulsar nuevas innovaciones en IA y son particularmente interesantes en áreas donde los modelos tradicionales de aprendizaje profundo tienen dificultades, como la robótica y los automóviles autónomos.

"La inspiración para las redes neuronales líquidas fue pensar en los enfoques existentes para el aprendizaje automático y considerar cómo encajan con el tipo de sistemas críticos para la seguridad que ofrecen los robots y los dispositivos de vanguardia", dijo a VentureBeat Daniela Rus, directora del MIT CSAIL. "En un robot, realmente no se puede ejecutar un modelo de lenguaje grande porque realmente no existe el [poder] de cálculo y el espacio [de almacenamiento] para eso".

VB Transform 2023 bajo demanda

¿Te perdiste una sesión de VB Transform 2023? Regístrese para acceder a la biblioteca bajo demanda de todas nuestras sesiones destacadas.

Rus y sus colaboradores querían crear redes neuronales que fueran precisas y eficientes en computación para que pudieran ejecutarse en las computadoras de un robot sin necesidad de estar conectadas a la nube.

Al mismo tiempo, se inspiraron en la investigación sobre neuronas biológicas que se encuentran en organismos pequeños, como el gusano C. Elegans, que realiza tareas complicadas con no más de 302 neuronas. El resultado de su trabajo fueron las redes neuronales líquidas (LNN).

Las redes neuronales líquidas representan una desviación significativa de los modelos tradicionales de aprendizaje profundo. Utilizan una formulación matemática que es menos costosa desde el punto de vista computacional y estabiliza las neuronas durante el entrenamiento. La clave de la eficiencia de los LNN radica en el uso de ecuaciones diferenciales dinámicamente ajustables, lo que les permite adaptarse a nuevas situaciones después del entrenamiento. Esta es una capacidad que no se encuentra en las redes neuronales típicas.

"Básicamente, lo que hacemos es aumentar la capacidad de aprendizaje de representación de una neurona sobre los modelos existentes mediante dos ideas", dijo Rus. “El primero es una especie de modelo de espacio de estados de buen comportamiento que aumenta la estabilidad de las neuronas durante el aprendizaje. Y luego introducimos no linealidades en las entradas sinápticas para aumentar la expresividad de nuestro modelo tanto durante el entrenamiento como durante la inferencia”.

Los LNN también utilizan una arquitectura de cableado que es diferente de las redes neuronales tradicionales y permite conexiones laterales y recurrentes dentro de la misma capa. Las ecuaciones matemáticas subyacentes y la novedosa arquitectura de cableado permiten que las redes líquidas aprendan modelos de tiempo continuo que pueden ajustar su comportamiento dinámicamente.

"Este modelo es muy interesante porque puede adaptarse dinámicamente después del entrenamiento en función de las entradas que ve", dijo Rus. "Y las constantes de tiempo que observa dependen de las entradas que ve, por lo que tenemos mucha más flexibilidad y adaptación a través de esta formulación de la neurona".

Una de las características más llamativas de los LNN es su tamaño compacto. Por ejemplo, una red neuronal profunda clásica requiere alrededor de 100.000 neuronas artificiales y medio millón de parámetros para realizar una tarea como mantener un coche en su carril. Por el contrario, Rus y sus colegas pudieron entrenar un LNN para realizar la misma tarea con sólo 19 neuronas.

Esta importante reducción de tamaño tiene varias consecuencias importantes, afirmó Rus. En primer lugar, permite que el modelo se ejecute en pequeñas computadoras que se encuentran en robots y otros dispositivos periféricos. Y en segundo lugar, con menos neuronas, la red se vuelve mucho más interpretable. La interpretabilidad es un desafío importante en el campo de la IA. Con los modelos tradicionales de aprendizaje profundo, puede resultar difícil comprender cómo el modelo llegó a una decisión particular.

"Cuando sólo tenemos 19 neuronas, podemos extraer un árbol de decisión que corresponde a los patrones de activación y esencialmente al flujo de toma de decisiones en el sistema con 19 neuronas", dijo Rus. "No podemos hacer eso por 100.000 o más".

Otro desafío que abordan las LNN es la cuestión de la causalidad. Los sistemas tradicionales de aprendizaje profundo a menudo tienen dificultades para comprender las relaciones causales, lo que los lleva a aprender patrones espurios que no están relacionados con el problema que están resolviendo. Los LNN, por otro lado, parecen tener una mejor comprensión de las relaciones causales, lo que les permite generalizar mejor a situaciones invisibles.

Por ejemplo, los investigadores del MIT CSAIL entrenaron LNN y varios otros tipos de modelos de aprendizaje profundo para la detección de objetos en una secuencia de cuadros de video tomados en el bosque en verano. Cuando el LNN entrenado se probó en un entorno diferente, aún pudo realizar la tarea con alta precisión. Por el contrario, otros tipos de redes neuronales experimentaron una caída significativa en el rendimiento cuando cambió la configuración.

"Observamos que sólo las redes líquidas pudieron completar la tarea en otoño e invierno porque estas redes se centran en la tarea, no en el contexto de la tarea", dijo Rus. "Los otros modelos no lograron resolver la tarea, y nuestra hipótesis es que se debe a que los otros modelos dependen mucho del análisis del contexto de la prueba, no solo de la tarea".

Los mapas de atención extraídos de los modelos muestran que los LNN otorgan valores más altos al foco principal de la tarea, como la carretera en las tareas de conducción, y al objeto objetivo en la tarea de detección de objetos, por lo que puede adaptarse a la tarea cuando el contexto cambios. Otros modelos tienden a centrar su atención en partes irrelevantes de la entrada.

"En total, hemos podido lograr soluciones mucho más adaptables porque puedes entrenar en un entorno y luego esa solución, sin más capacitación, se puede adaptar a otros entornos", dijo Rus.

Los LNN están diseñados principalmente para manejar flujos de datos continuos. Esto incluye transmisiones de video, transmisiones de audio o secuencias de mediciones de temperatura, entre otros tipos de datos.

"En general, las redes líquidas funcionan bien cuando tenemos datos de series de tiempo... se necesita una secuencia para que las redes líquidas funcionen bien", dijo Rus. "Sin embargo, si intentas aplicar la solución de red líquida a alguna base de datos estática como ImageNet, eso no funcionará tan bien".

La naturaleza y las características de los LNN los hacen especialmente adecuados para aplicaciones críticas para la seguridad y con limitaciones computacionales, como la robótica y los vehículos autónomos, donde los datos se alimentan continuamente a modelos de aprendizaje automático.

El equipo CSAIL del MIT ya ha probado LNN en entornos de un solo robot, donde han mostrado resultados prometedores. En el futuro, planean ampliar sus pruebas a sistemas multirobot y otros tipos de datos para explorar más a fondo las capacidades y limitaciones de los LNN.

La misión de VentureBeat es ser una plaza digital para que los tomadores de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubra nuestros Briefings.

Dirígete a nuestra biblioteca bajo demanda para ver las sesiones de VB Transform 2023. Regístrate aquíLa misión de VentureBeat