Gårdagens hajp och dagens

Krönika: När röstassistenten möter generativ AI

Vänta er inte att generativ AI ska lösa röstassistentens svagheter.

Siri lanserades 2011, 12 år sedan nu, följd av Amazon Alexa, Microsofts Cortana och Google-assistenten ett par år senare. Upphetsningen var stor över att kunna styra mobilen med rösten i stället för tryck på skärmen, och med Amazon Echo 2014 följt av Google Home och så småningom Apple Homepod skulle mobilen kanske till och med bli överflödig, allt man behövde skulle man kunna göra genom att bara prata rätt ut i luften hemma.

Eller kanske inte allt. Till en början var det ärligt talat rätt begränsat vad man kunde göra. De typiska användarscenarierna sträckte sig inte så mycket längre än till att få väderprognoser upplästa, att spela lite mysmusik och om du hade smarta lampor slå av och på belysningen. Men så är det ju med ny teknik. När Iphone var ny kunde man inte ens installera appar på den, men det är ju en plattform som minst sagt funnit nya användningsområden sedan dess. Ibland måste man liksom bygga det först, och sedan kommer användarna och visar vad man kan ha det till.

Problemet är att nu har det gått snart tio år sedan de smarta högtalarna blev En Grej, och de tänkta användarscenarierna ser ungefär likadana ut. Röstassistenterna har lärt sig betydligt mer, och kan ibland uppfatta följdfrågor, men det leder inte till så mycket mer än att läsa upp googlingar eller utföra instruktioner som kräver ett knapptryck om du reser dig ur soffan.

Siri lanserades 2011, 12 år sedan nu, följd av Amazon Alexa, Microsofts Cortana och Google-assistenten ett par år senare. Upphetsningen var stor över att kunna styra mobilen med rösten i stället för tryck på skärmen, och med Amazon Echo 2014 följt av Google Home och så småningom Apple Homepod skulle mobilen kanske till och med bli överflödig, allt man behövde skulle man kunna göra genom att bara prata rätt ut i luften hemma.

Eller kanske inte allt. Till en början var det ärligt talat rätt begränsat vad man kunde göra. De typiska användarscenarierna sträckte sig inte så mycket längre än till att få väderprognoser upplästa, att spela lite mysmusik och om du hade smarta lampor slå av och på belysningen. Men så är det ju med ny teknik. När Iphone var ny kunde man inte ens installera appar på den, men det är ju en plattform som minst sagt funnit nya användningsområden sedan dess. Ibland måste man liksom bygga det först, och sedan kommer användarna och visar vad man kan ha det till.

Problemet är att nu har det gått snart tio år sedan de smarta högtalarna blev En Grej, och de tänkta användarscenarierna ser ungefär likadana ut. Röstassistenterna har lärt sig betydligt mer, och kan ibland uppfatta följdfrågor, men det leder inte till så mycket mer än att läsa upp googlingar eller utföra instruktioner som kräver ett knapptryck om du reser dig ur soffan.

Talstyrning är svårt

Jag är övertygad om att röstassistenten inneburit en revolution för synskadade, men för oss andra är det rätt begränsat att använda tal och hörsel för att kommunicera. Tänk själv om du ska be någon annan i familjen att göra något åt dig. Det behöver inte bli särskilt komplicerat innan det blir enklare att göra det själv än att försöka förklara vad man vill. Att försöka förklara vad någon annan ska göra på till exempel en dator över telefon kan vara rena mardrömmen.

Över till årets hajp, generativ AI. Även det utlovar ett helt nytt sätt att kommunicera med vår IT-infrastruktur. Du skriver en fritextfråga och får ett utförligt svar specialkomponerat efter din fråga. Det här är ju en teknik som borde vara som gjord att giftas ihop med röstassistenten?

Eller inte. Jag har använt Googles Bard en del på frågor jag tyckt varit svårgooglade. Jag har ofta fått utförliga och välskrivna svar, och när jag kontrollgooglat svaren är det mer regel än undantag att svaren är direkt felaktiga.

Jag diskuterade detta med en generativ AI-entusiast, som förklarade att det gäller att prompta AI:n på korrekt vis, att en fritextfråga kan vara förvånansvärt svårtolkad för AI och att man därför måste veta hur man ska formulera den för att det inte ska bli fel.

Jag som lekman tycker ju att det är exakt det man vill slippa med generativ AI. Jag använder den till frågor som är svåra att formulera som en googling, och om jag då istället måste formulera frågan så AI förstår den har jag bara bytt ett problem mot samma problem fast nu i en svart låda där jag inte ser vad jag gör för fel.

Röstassistenten är i och för sig ett nästan lika bra medium för att ställa den typen av fritextfrågor som man ger till generativ AI som en textprompt, men i grunden har både röstassistenten och generativ AI samma styrkor och svagheter. De har tillgång till all världens information men har svårt att förstå vad du försöker säga och begränsade möjligheter att göra annat än att läsa upp fakta som förhoppningsvis är det du var ute efter.

Ha därför inte för stora förhoppningar på att ChatGPT innebär en revolution för Siri och Googleassistenten under 2024.