Tecnología, Apple, cine, música, opinión… el blog de Julio César Fernández
Siri. Nombre heredado de la empresa y sistema que Apple adquirió hace como un año para incorporar a su sistema operativo. La posibilidad de hablar con el terminal y que hasta haga determinadas cosas. Algo que ya hace mucho tiempo que hacen otros terminales y ordenadores… pero… ¿por qué Siri es diferente? o mejor dicho ¿es Siri realmente diferente? La respuesta es bien sencilla: SÍ, es totalmente diferente.

Hasta ahora, casi cualquier ordenador con un sistema operativo de última generación como OS X, Windows o alguna distribución Linux más orientada a usuario (como Ubuntu) tiene la posibilidad tanto nativa como por software de terceros, de utilizar un sistema de reconocimiento de voz. Dicho sistema permite controlar el sistema operativo y tiene una gran utilidad en cuanto a comodidad y sobre todo para personas con capacidades visuales reducidas o nulas. Aunque no es una funcionalidad que muchos utilicen, está ahí presente y lo lleva estando desde hace años.
Es lógico, por lo tanto, pensar que el siguiente paso sería la llegada a los móviles, cosa que así fue. BlackBerry tiene incluso desde los primeros terminales la marcación por voz (que además utiliza la misma tecnología de reconocimiento de Nuance que usa Siri), Windows Phone 7 tiene TellMe y Google Android el Acciones de Voz de Google (o Google Voice Actions). Incluso con la llegada del iPhone 3GS se incorporó esta funcionalidad a iOS que nos permitía realizar llamadas a personas o reproducir música de nuestra biblioteca.
Estos sistemas, todos ellos, son sistemas que son capaces de entender un dictado. Es decir, son sistemas capaces de saber lo que estamos diciendo, obtener su equivalente escrito, buscar coincidencias con comandos preprogramados en el sistema, y ejecutar una instrucción o realizar una búsqueda aproximada basada en lo que hemos dicho. Por ejemplo, podemos decir “llamar a Antonio al móvil”. El sistema recoge las palabras, entiende el comando “llamar” busca la cadena “Antonio” entre la agenda y cuando la localiza busca el registro asociado a “móvil”. Nada más sencillo. Coches, sistemas manos libres o GPS incorporan este tipo de funcionalidades y estamos más o menos acostumbrados a usarlos.

¿Qué pasaría si a este sistema de reconocimiento le decimos “Llama a mi mujer al móvil”? Pues que tendría que haber una entrada en la agenda que fuera, literalmente “mi mujer”. ¿Y si queremos llamarla por su nombre de pila? Tendríamos que tener dos entradas diferentes. Con Siri podemos decir, “Amparo es mi mujer” y automáticamente Siri sabrá que esa entrada de la agenda corresponde a mi mujer. Ahora decimos “llama a mi esposa al móvil”… De nuevo, problema, tendríamos que tener una tercera entrada “mi esposa”. Sin embargo, Siri entiende diferentes formas de decir las cosas: mi mujer, mi esposa, mi cónyuge, Amparo… cualquier forma de llamarla es entendida de igual forma por Siri. Eso, en un ejemplo muy simple, es la búsqueda dentro de contexto semántico con inteligencia artificial.
Pongamos otro caso. En estos sistemas podemos decir “Dime el tiempo”, y se nos mostrará la previsión. Sencillo. Pero si preguntamos “¿Necesitaré hoy paraguas?”, nadie nos contestará. Siri sí. Entiende que estamos preguntando por si va a llover, buscará la previsión, la interpretará y nos dirá “Hoy es muy probable que llueva”. “¿Tendré que ponerme el chubasquero?”, misma interpretación sobre si va a llover. “¿Hará falta paraguas en Toledo?” Buscará la previsión en Toledo y nos dirá si hay previsión de lluvia o no. No tenemos que ceñirnos a unos comandos como hasta ahora, sino que Siri será capaz de interpretar la frase y saber qué queremos decir.
Otra de las grandes novedades que Siri incorpora, es la de la compresión del contexto y la posibilidad de establecer conversaciones. El más claro ejemplo es la agenda: “Ponme una cita a las 13:00 horas para comer con Antonio y envíale un mensaje de invitación”. Imagine que ya tenía una cita a las 13:15 para comer con otra persona. Siri interpretará los datos de la agenda y le dirá: “Ya tiene una cita para comer con Paco a las 13:15 horas. ¿Qué quiere hacer?”. Podremos decirle: “Mueve la cita para comer mañana”. Siri pondrá la cita al día siguiente (no en este) y enviará el mensaje que le habíamos dicho en la primera fase, dando los datos de la cita para mañana a las 13:00 para comer.
No por nada, Siri era un proyecto militar del Ejercito de Estados Unidos, diseñado para incorporar un sistema de interpretación y control de aviones inteligentes no tripulados. Dichos algoritmos de inteligencia artificial fueron cogidos por sus creadores y llevados al terreno comercial creando la compañía Siri que Apple, al ver su potencial, compró el pasado año.

Mientras los actuales sistemas de comandos de voz realizan búsquedas genéricas en el buscador asociado (Google, Bing, etc.), Siri lleva incorporado en su motor una serie de funciones de interpretación que le ayudan a interactuar. Lo que Apple ha hecho con Siri en el año que ha pasado desde que compró la empresa, ha sido incorporarlo al motor del sistema operativo. De esta forma, la agenda, los recordatorios, el tiempo, el calendario, toda la biblioteca musical así como búsquedas en el motor Wolfram Alpha o en Yelp han sido integrados.
De esta forma, podemos preguntarle datos de cálculo de todo tipo. Podemos preguntar cuántos euros son x dólares, cómo está la cotización de un valor en bolsa y lo compare en su histórico, el índice global, que nos haga cálculos matemáticos rápidos (¿cuantos son 78 entre 7?) o incluso una de las últimas que se ha descubierto es que gracias al motor Wolfram Alpha podemos saber qué aviones sobrevuelan nuestras cabezas en ese momento. Si vemos un avión podemos decirle, “¿qué avión está pasando ahora sobre mi?” El sistema nos localizará, accederá a la base de datos de datos de navegación aérea incorporada en Wolfram y nos dirá qué aviones pasan en ese momento. Incluso podemos preguntar por un vuelo determinado de una compañía y nos podrá decir la terminal y puerta de salida en el aeropuerto de destino.
En el caso de Yelp (por ahora, solo integrado en Estados Unidos) podemos preguntar por restaurantes o cualquier tipo de servicio. Restaurantes, tiendas, salones de belleza, hoteles, agencias, espectáculos, museos, servicios públicos, automóviles, salud… todo un compendio de servicios que nos permitirán realizar búsquedas contextuales como, por ejemplo: “quiero comer en un restaurante italiano”. Siri nos localiza y busca un restaurante dándonos las opciones y cómo llegar a él. En el futuro próximo, se integrarán servicios de compra de espectáculos, reserva de restaurantes… de esta forma podremos decirle que nos reserve a una hora determinada en un restaurante, y lo hará automáticamente pidiéndonos confirmación de todo antes de realizarlo.
Siri es capaz de recordar la conversación que estamos manteniendo. Imaginad que recibimos un mensaje de Antonio diciendo “¿quedamos hoy para comer?”. Preguntamos: “¿tengo hoy alguna cita para comer?”. Siri buscará en la agenda y verá que habíamos quedado con nuestra mujer. “Tiene una cita para comer hoy con su mujer”. “Dile que hoy no puede ser, que si quedamos mañana”. Siri sabe que estamos hablando del mensaje que nos había leído previamente, y mandará una respuesta a Antonio. Este contesta, “Mañana me viene bien”. “Ponme una cita para comer mañana a las 13:00 con Antonio”. Siri creará una entrada en el calendario. “Dile que OK”. De nuevo Siri sabe que estamos refiriéndonos al último mensaje enviado y enviará un “OK” a Antonio.
Como podemos ver, esto no es realizar una serie de comandos de voz como tienen el resto de sistemas. Pero esta diferencia, esta grandísima novedad que cambiará la forma que tenemos que interactuar con nuestros dispositivos en el día a día, es algo que muchos no han entendido. Muchos como Craig Mundie, director de la Oficina de Investigación y Estrategias de Microsoft, no han entendido ni probado Siri, y se han atrevido a decir públicamente que lo que hace Siri lo hace Windows Phone 7 con TellMe hace más de un año. La Red no ha tardado en responderle con un vídeo que deja a TellMe por los suelos, al comparar un sistema de comandos de voz con un sistema de inteligencia artificial. Y realmente el problema es que el señor Mundie no ha entendido que es Siri realmente, y como mucha gente, ha pensado que es una forma más de realizar acciones con un dispositivo. Pero nada más lejos de la realidad.
¿Y cuál es el futuro? El futuro pasa por las librerías que ya se ha visto que incorpora la última versión beta del sistema operativo móvil de Apple (la 5.1) por la que aplicaciones de terceros podrían integrar funcionalidades con Siri. Esto permitirá que podamos pedir a Siri que actualice nuestro perfil en redes sociales, que conteste a alguien por Whatsapp, que consulte un dato determinado que tenemos guardado en una aplicación, que redacte un documento…
Además, el futuro pasa por una de las últimas declaraciones del propio Steve Jobs, en las que aseguraba que el mando a distancia era un dispositivo obsoleto y arcaico, que solo dificultaba la vida de la gente. Ya se empiezan a incorporar sistemas de guiado por voz para, por ejemplo, la nueva interfaz Metro UI para la consola Xbox 360 (si tenemos Kinect, por supuesto). Y el siguiente paso, según comentan todos los analistas, es la aparición de un TV inteligente de Apple, que no necesite mando a distancia pues irá completamente controlado por la voz. ¿E imaginan integrar Siri en un coche?
Abierta la caja de Pandora, entramos en una nueva revolución que cambiará para siempre la forma que tenemos de interactuar con la tecnología, algo que el día de mañana incluso permitirá que la propia informática se maneje con la voz. Pidiendo a un asistente que nos haga algo, y que ese asistente lo haga conociendo el procedimiento para hacerlo (procedimiento que nosotros no tenemos por qué conocer, ni nos hará falta). Se abre un mundo de enormes posibilidades y solo estamos al comienzo, un comienzo donde la gente aun no es capaz de ver qué va a suponer esto que acaba de llegar.
Comentarios en Facebook