De grote omslag in AI
Deze krantenkop komt je misschien bekend voor: “Artificial Intelligence gaat onze business veranderen”. En: “Kunstmatige intelligentie groeit uit van hype tot realiteit”. Je leest ze steeds vaker. Artificial intelligence wordt meer en meer ingezet door bedrijven. Er worden enorme bedragen in geïnvesteerd. En opleidingen over artificial intelligence dan wel machine learning schieten als paddestoelen uit de grond.
Maar in jouw werk zie je er niets van terug. Mis je de boot? Zijn concurrenten wél bezig met AI?
Zulke vragen krijgen we bij Q42 vaker. Wij geloven in de potentie van machine learning. Maar feit is dat op dit moment slechts een klein groepje bedrijven profiteert, de Big Tech-bedrijven. Bedrijven met a) enorme aantallen gebruikers en b) hele grote datasets. En de platformen van Amazon, Google en Microsoft die AI as a Service aanbieden, veranderen snel.
Kijk bijvoorbeeld naar Google I/O 2022. Een greep uit de vele aankondigingen:
- het aanbieden van eco-vriendelijke navigatie in Google Maps
- het automatisch opdelen van Youtube-videos in hoofdstukken
- het automatisch genereren van samenvattingen van documenten in Google Docs
- het automatisch verbeteren van de beeldkwaliteit in Google Meet
- het uitbreiden van Google Translate met ruim twintig talen
Stuk voor stuk knappe, innovatieve features. En allemaal mogelijk gemaakt door het toepassen van machine learning.
Hoe kan het nu dat Google dit zo uit z’n mouw lijkt te schudden, terwijl de rest van de industrie moeite heeft om op te starten? Om dit toe te lichten moeten we kijken naar het concept achter machine learning. De voornaamste ontwikkeling in de afgelopen tien jaar is hierin deep learning.
Met deep learning kunnen complexe problemen en uitdagingen opgelost worden. Deep learning-algoritmen zijn namelijk in staat om zelf verborgen patronen en ingewikkelde relaties uit de gegevens te leren, ze samen te combineren en veel efficiëntere beslissingsregels te creëren. Dit zorgt voor verbazingwekkende, grensverleggende resultaten.
Echter, deze resultaten zijn primair behaald door deze nieuwe techniek toe te passen op enorme hoeveelheden data. Veel bedrijven hebben simpelweg niet zo veel data. Bovendien is het verzamelen van zo’n hele grote hoeveelheid data heel duur. Het gevolg: een lage adoptie van machine learning bij bedrijven.
Maar er is een kentering gaande. Op meerdere vlakken. Deze omslag maakt machine learning toegankelijker. In deze blogpost lichten we dit toe.
Meer platformen: AI as a Service
Misschien ben je bekend met de term Infrastructure as a Service, of Platform as a Service? Deze services ontstonden zo’n tien jaar geleden. Grote techbedrijven begonnen de tooling die ze intern gebruikten om hun producten mee te ontwikkelen, aan te bieden aan iedereen. Ook wel bekend als de geboorte van de cloud.
Precies datzelfde gebeurt nu weer in de wereld van AI. We noemen dit AI as a Service. De AI-tooling die Big Tech zelf gebruikt, bieden die bedrijven nu publiek aan. Denk bijvoorbeeld aan het herkennen van tekst in foto’s door Google Translate. Dit is een belangrijke ontwikkeling, want het maakt AI toegankelijk voor meer organisaties.
AI as a Service heeft de laatste jaren een enorme vlucht genomen. Grote techbedrijven hebben platformen ontwikkeld die veel verschillende soorten van machine learning aanbieden. Maar daarnaast zijn er ook veel kleinere productbedrijven ontstaan, zoals Edge Impulse, die zich specialiseren op een specifiek stuk machine learning.
Het aanbod wordt hierdoor steeds groter en steeds beter. Inmiddels zijn er platformen die machine learning toepassen op veel verschillende typen data. Denk aan afbeeldingen, video’s, gesproken tekst en geschreven tekst.
Ook worden al deze platformen steeds volwassener en completer. Een mooi voorbeeld van hoe snel deze tools volwassen worden, is Google’s Vision Product Search. Dit stelt de gebruiker in staat om te zoeken op basis van een foto, in plaats van een zoekterm. Exact deze feature bouwden we (samen met AI-dienstenbedrijf ML6) een aantal jaar geleden voor Kramp als maatwerkoplossing. Inmiddels is dit een standaard onderdeel van het Google AI Platform.
AI as a Service stelt ons in staat om in korte tijd een ML-techniek te implementeren in een digitaal product. Een voorbeeld hiervan is sentimentanalyse op geschreven tekst. De toepassing hiervan hebben we onderzocht voor PostNL in de context van de chatbot van de klantenservice. Voor het maken van een werkend prototype hadden we een jumpstart van één week nodig.
Het grote voordeel van zo’n AI as a Service is dat er meestal relatief weinig data voor nodig is. Dat maakt deze technieken veel toegankelijker. Het stelt bedrijven in staat innovatieve oplossingen te bouwen zonder enorm te investeren in dataverzameling.
Uiteraard zitten er limieten aan zo’n platform. De oplossing sluit niet in alle gevallen perfect aan op de use case. Maar het biedt wél de mogelijkheid om tegen een lage investering een flinke stap in de goede richting te zetten.
Meer publieke datasets en pre-trained modellen
AI as a Service is dus een goede eerste stap. Maar wat als de bestaande platformen onvoldoende aansluiten bij de use case? Zijn we voor innovatieve oplossingen volledig afhankelijk van deze platformen?
Nee, zeker niet. Er is een tweede belangrijke ontwikkeling gaande. Steeds meer data wordt namelijk publiek beschikbaar. Inmiddels zijn voor veel contexten grote en kwalitatief goede datasets vrijgegeven.
Zo bestaan er al langere tijd meerdere grote publieke datasets op het gebied van afbeeldingen. Maar ook interessant is een grote taaldataset die Amazon recent beschikbaar heeft gemaakt. Uniek aan deze dataset van Amazon is dat er ook veel data in de Nederlandse taal beschikbaar is.
Jarenlang was het ontbreken van een publieke dataset van de Nederlandse taal een beperkende factor. De nieuwe dataset van Amazon maakt allerlei toepassing van machine learning op het gebied van taal mogelijk in het Nederlands. Zoals het snappen van de intentie van een vraag. Of het extraheren van stukken informatie uit een tekst, waaronder een locatie of tijdstip.
Zo’n publieke dataset kan worden ingezet om een vliegende start te maken. Maar een publieke dataset is maar een deel van de oplossing. De volgende stap is het trainen van een model. Het van de grond af aan trainen van een complex deep learning-model kost heel veel rekenkracht. Daar zijn dus flinke kosten aan verbonden. En het is ook nog eens riskante investering: garantie op succes is er namelijk niet.
Gelukkig stellen onderzoekers steeds vaker pre-trained modellen publiek beschikbaar. Dat zijn complexe deep learning-modellen die al getraind zijn op (publieke) datasets. Door gebruik te maken van deze pre-trained modellen wordt de benodigde investering ineens een flink stuk lager.
Voorbeeld: misschien heb je wel eens gehoord van GPT-3, een deep learning-model op het gebied van taal. Dit model kan tekst genereren die niet te onderscheiden is van echt. De toepassingen van dit model zijn erg interessant. Maar het trainen ervan is enorm duur. Geschat wordt dat het tussen de 10 en 20 miljoen dollar heeft gekost. Een investering die voor veel bedrijven veel te groot is. Facebook heeft echter recent vergelijkbare modellen publiek beschikbaar gesteld, de Open Pre-trained Transformer modellen. Zo wordt het bouwen van toepassingen met deze techniek ineens een stuk toegankelijker.
De laatste stap is om zo’n pre-trained model te finetunen met eigen data. Bij Q42 doen we dit om het model perfect af te stemmen op de use case van de klant. Voor het finetunen is relatief weinig data nodig. Daardoor kunnen we ook bij het ontbreken van een grote dataset een goede oplossing bouwen.
Een mooi voorbeeld van een oplossing waarbij gebruik is gemaakt van zowel publieke datasets als pre-trained modellen is ons project voor Digital Forrest in Gabon. Digital Forrest heeft als doel om conflicten tussen mens en dier tegen te gaan. Dit doen ze door cameravallen te plaatsen op tactische plekken in het oerwoud. De foto’s die deze camera’s maken, worden direct geanalyseerd door onze ML-modellen. Indien nodig worden beveiligers gewaarschuwd, zodat de dieren op tijd kunnen worden weggedreven.
Bij dit project hebben we gebruikgemaakt van zowel publieke data als pre-trained modellen. Voor het analyseren van beeldmateriaal zijn er verschillende modellen beschikbaar die getraind zijn op een diverse dataset. Daardoor kunnen ze goed als basis worden ingezet voor een breed scala aan oplossingen. Zo hebben we met een kleine eigen dataset en een relatief laag budget een goed werkend model kunnen trainen. Dit model is perfect afgestemd op de use case.
Samenvattend: dankzij publieke datasets vervalt de noodzaak van het beschikken over een grote eigen dataset. Met publieke pre-trained models vallen ook een groot deel van de kosten en risico’s weg die verbonden zijn aan het volledig zelf trainen van modellen. Zo kan er met een relatief kleine dataset en zonder al teveel budget een goed model worden getraind voor veel verschillende use cases. Door de ontwikkeling van publieke datasets en pre-trained modellen wordt de techniek van deep learning een stuk toegankelijker voor meer bedrijven.
Conclusie
In deze blogpost hebben we uitgelegd, dat er een omslag gaande is op het gebied van machine learning. Door uitstekende support bij cloudproviders, in smartphones en door nieuwe machine learning-technieken wordt AI voor elke organisatie toegankelijk en relevant. Het is dus nu tijd om ermee aan de slag te gaan. Maar elk begin is lastig.
Onze tip is daarom om met prototypes te experimenteren. Bedenk in een innovatiehub of met enthousiaste medewerkers enkele toepassingsgebieden van ‘ready-to-run’-modellen. Focus daarbij op het verzamelen van voorhanden data. Bouw vervolgens een prototype dat je kunt testen. Dit prototype zet je in om te testen of gebruikers op jouw idee zitten te wachten. Zo leer je of een idee technisch haalbaar is. En je krijgt inzicht in wat er nog nodig is om je prototype op te schalen naar een productiewaardig niveau. Deel tot slot wat je leert binnen de organisatie en bouw zo stap voor stap je kennis op.
Dit kun je doen onder begeleiding van een bedrijf met technische expertise. Zo’n bedrijf helpt je om concrete stappen te zetten, kennis op te bouwen, en een AI-roadmap te maken. Het zetten van concrete stappen doen we bij Q42 bijvoorbeeld in een jumpstart. In één week bouwen we een technisch werkend prototype dat we testen onder gebruikers. Met een kleine investering ontdek je dus in korte tijd of machine learning voor een bepaalde use case potentie heeft.
Wil je hier meer over weten? Stuur me gerust een berichtje: leonard@q42.nl.