INTELIGENCIA ARTIFICIAL JUEGA POKÉMON RED

Simulacion,

Un programador ha proporcionado a un modelo de inteligencia artificial 50,000 horas de entrenamiento en cómo jugar Pokémon Red, lo que ha resultado en un algoritmo capaz de explorar el juego y construir un equipo para vencer al primer líder de gimnasio, pero no uno que pueda encontrar su camino a través de Mt. Moon o saber que es mejor no seguir comprando Magikarp. Sobre todo, este ejercicio es una manera fascinante de entender cómo funciona el aprendizaje automático.

Como se describe en un extenso video por Peter Whidden, la IA puede interactuar con el juego a través de los controles habituales en un emulador. Presiona un botón y observa la pantalla para ver qué sucede, igual que un jugador humano. Whidden estableció sesiones de aprendizaje de dos horas de tiempo de juego cada una, aunque con la emulación acelerada, esas sesiones podrían completarse en alrededor de seis minutos de tiempo real; y el proceso se aceleró aún más al ejecutar 40 sesiones de prueba simultáneamente.

Dado que un algoritmo de máquina no se preocupa intrínsecamente por vencer un videojuego, Whidden estableció metas particulares para que la IA fuera recompensada. Para fomentar la exploración curiosa, la IA obtuvo un punto de recompensa cada vez que veía algo nuevo, medido por píxeles notablemente diferentes que aparecían en la pantalla.

Esto tuvo algunas consecuencias no deseadas: la IA simplemente se quedaba mirando, fascinada, la leve animación del agua, por ejemplo. Pero en términos generales, sirvió para motivar a la computadora a moverse desde Pueblo Paleta hasta el Bosque Verde y llegar a Ciudad Plateada, donde tiene lugar la primera batalla de gimnasio contra Brock.

La IA necesita más recompensas y castigos también. Con las recompensas centradas en ver cosas nuevas, la IA solo quiere seguir avanzando, lo que significa que no le importa luchar o capturar Pokémon, así que inicialmente huía de cada encuentro. Así que Whidden añadió un sistema donde la IA es recompensada según el nivel total de su equipo activo de Pokémon. Eso funcionó para que la IA luchara por XP y capturara Pokémon, pero también tuvo una consecuencia no deseada.

Cuando la IA iba a un Centro Pokémon, interactuaba con la PC allí y depositaba algunos Pokémon. Eso reducía drásticamente el nivel total del equipo, quitándole de golpe una masa de puntos de recompensa. Eso fue aproximadamente equivalente a una experiencia traumática para la IA, lo que la llevó a evitar los Centros Pokémon por completo; hasta que Whidden ajustó los sistemas de recompensa nuevamente.

Dado que la IA básicamente sigue haciendo cosas al azar hasta que logra descubrir algo que le dé puntos de recompensa, la lucha contra Brock resultó ser un problema particular, ya que necesitas aprovechar las debilidades elementales de los Pokémon tipo roca para causarles un daño real. Solo por virtud de una iteración particular en la que el Squirtle de la IA resultó quedarse sin PP para todos los movimientos excepto Burbuja, el algoritmo logró comprender cómo vencer al gimnasio.

Sin embargo, aunque la IA no es buena para descubrir cosas que pueden resultar bastante naturales para los jugadores humanos, aprende bastante rápido otras cosas mucho más esotéricas. Whidden se dio cuenta en cierto momento de que el algoritmo siempre trazaba un camino muy específico y aparentemente absurdo desde Pueblo Paleta hasta el primer encuentro con un Pokémon salvaje. Eso parecía extraño hasta que quedó claro que esta precisa secuencia de entradas garantizaba que el Pokémon salvaje pudiera ser capturado con un solo lanzamiento de una Pokébola. Sí, la IA aprendió espontáneamente el mismo arte de manipulación de RNG que los speedrunners pasan años desarrollando.

Vencer a Brock marcó una meta final bastante natural para el proyecto, pero Whidden dejó que la IA funcionara más tiempo para ver qué sucedería, y llegó bastante lejos en la Montaña Luna, pero los pasajes húmedos y monótonos del calabozo eran tan desalentadores para la IA que nunca pudo encontrar su camino al otro lado, por lo que nunca pudo llegar al segundo gimnasio en Ciudad Celeste.

Sin embargo, algo que sí le encantó a la IA fue comprar Magikarp. El tipo sombrío que te vende el peor Pokémon de todos los tiempos a un precio ridículo es prácticamente una broma en este punto, pero para la IA, comprar ese Magikarp es una forma rápida de obtener cinco niveles más de Pokémon en su equipo, ¡la mejor oferta del juego! Aparentemente, la IA compró ese Magikarp más de 10,000 veces.

Oh, y para una última anécdota sobre la magia de una computadora haciendo cosas al azar: en un momento dado, la IA capturó un Rattata y le puso de nombre ‘AI‘. A veces, estas cosas resultan ser un poco demasiado perfectas.

compartilhe